漢字OCRエラーに対する新しい訂正手法

奈良先端科学技術大学院大学(NAIST)で、10月25日と26日の両日、第242回情報処理学会自然言語処理専門委員会(IPSJ-SIGNL 242)が開催されました。

横浜国立大学の阪本浩太郎が、ジーニアルテクノロジーの支援を受けて、研究論文 「契約書のOCR漢字誤り訂正における偏旁冠脚を考慮した編集距離の検討」 として漢字のOCRエラーを修正するユニークな方法を提案しました。

RPAやOCRによるプロセス自動化の流れの中で、東アジアの国々の人々を悩ませているのが、漢字の読み取りエラーです。これら言語では何千もの漢字を扱う必要があり、なかには似たような漢字もあります。例えば、主、柱、注、住、往などの類似した文字をコンピュータが区別するのが難しいため、OCRエラーが発生することが多いです。

提案された方法では、漢字の部首を用いて、外観が似ている異なる漢字をより正確に扱うための特別な編集距離「漢字Damerau-Levenshtein 距離」を算出します。

ジーニアルテクノロジーは、漢字Damerau-Levenshtein 距離が、従来の編集距離よりも正確に漢字OCRのエラーを修正することで、東アジア諸国のプロセス自動化に貢献すると考えています。


坂本光太郎
2019年7月~現在 Genial Technology, Inc. 業務委託社員
2016年10月~現在 東京都立産業技術高等専門学校 非常勤講師
2014年5月~2019年4月 国立情報学研究所 リサーチアシスタント
2015年8月~2016年8月 カーネギーメロン大学 LTI(言語技術研究所) 外来研究員
2011年4月~2015年10月、2016年10月~現在 横浜国立大学大学院 環境情報学府