API サービス/コンピュータビジョン/レイアウト検出

レイアウト検出

説明

Layout Detection API は文書画像を受け取り、ラベル付きのレイアウト領域とバウンディングボックスを返します。文書デジタル化、請求書解析、フォーム理解、後段の OCR 処理に適しています。

特徴

領域検出:タイトル、段落、表、図、ヘッダー、フッター、フォーム項目などを識別します。
バウンディングボックス出力:各レイアウトブロックの座標を返し、切り抜き、ハイライト、後段処理への連携を可能にします。
文書ワークフロー対応:OCR、情報抽出、インデックス作成の前処理に利用できます。

ユースケース

請求書・領収書解析:テキストや値を抽出する前に重要領域を特定します。
フォーム理解:スキャンフォームからラベル、入力欄、表、署名を分離します。
文書インデックス:ページを構造化ブロックに分割し、検索や保管に活用します。
OCR 前処理:テキスト量の多い領域を切り出し、より良い文脈で OCR に渡します。

光学式文字認識 (OCR)