日本語OCR – さわべの雑感

日本語OCRって、ずいぶん前からあるけれど、誤認識を結構するので使い物にならないなぁと思っていましたが、久々に使ってみたら意外といけていたので驚きました。
使ったのは Adobe Acrobat 9 に付属の OCR 機能。

普通の紙に印刷された文書をスキャナで取り込んで PDF ファイルにして、それを Acrobat で OCR 処理すると、イメージだった文字がキャラクタに変換されます。
やっぱり誤認識はあるけれど、全部打ち直すことを考えればかなりの省力化になります。
大体、A4 1ページで数カ所誤認識する、という程度です。