TOPファイルアップロードドキュメントをアップロードする際の「OCRスキャンで表抽出する」というのはどういった機能ですか?
最終更新日 : 2025/05/16

ドキュメントをアップロードする際の「OCRスキャンで表抽出する」というのはどういった機能ですか?

こちらの機能ですが、OCRスキャン時に表が検出された場合に自動的に区切り線が挿入される機能となっております。

例えば、資料内に以下のような表があったとします。

項目名A | 項目名B
値a | 値b
値c | 値d

この時に「OCRスキャンで表抽出する」の設定によって、解析結果の本文(スキャン結果)は次のように変化します。

「OCRスキャンで表抽出する」:OFF
項目名A 項目名B
値a 値b
値c 値d

「OCRスキャンで表抽出する」:ON
項目名A | 項目名B
値a | 値b
値c | 値d

違いは項目または値の間に区切り線が入るかどうかです。
この区切り線の違いによってAIが、上記のテキストを「文字列」と判断するか「表」と判断するか変わります。
ちなみに「OCRスキャンで表抽出する」をOFFにした場合も、表として認識されるケースは多いのですが、区切り線が存在しないと、データのまとまりがわからなくなり、認識率は低下する傾向があります。
(値aと値bは別の値をして認識されるべきだが、区切り線がないと「値a 値b」として1つの値として誤認する可能性が高くなります)

上記の理由より、特に資料内より表を抽出したい場合は「OCRスキャンで表抽出する」をONにすることを推奨しています。