AI-OCRとは
『ディープラーニングを用いることで、飛躍的に精度向上した文字認識(OCR)のこと』
(読み方:エーアイオーシーアール)
OCR(Optical Character Recognition:光学文字認識)とは、PDFや画像に書かれている文字列を、デジタルなテキストデータに変換する技術のことです。 AI-OCRとは、ディープラーニングを用いることで、飛躍的に精度向上したOCRのことです。人の目でも判断つかないような手書き文字も認識できる精度を誇ります。
またOCRだけでなく、ディープラーニングを用いたレイアウト解析(どこに会社名があるか明細があるか検出する技術)や文字列検出(画像の中から文字列を検出する技術)も精度が向上し、業務への活用が可能となっています。
AI-OCRの技術
従来型のOCR技術では、文字列画像から1文字1文字の画像を抽出して、1文字画像単位に画像分類アルゴリズムで文字認識を行っていました。そのため、
- 単語の意味を考慮しないため、漢字の「力」とカタカナの「カ」の区別がつかなかった
- 漢字の部首と文字の分割が難しかった
- 文字列同士が接触してしまうと、1文字の抽出ができず、誤認識しやすかった
などの、課題がありました。
解決策として、 AI-OCR では、End to end OCRと呼ばれる CRNN ( Convolutional Recurrent Neural Network )というアルゴリズムが登場し、文字画像単位でなく、単語画像単位にOCR処理する手法が生まれました。このアルゴリズムによって、類似の形状を持つ文字や接触文字の誤読が減り、精度が大幅向上しました。近年では、Transformerを利用したOCRも登場しています。
AI-OCRの誤解
このように、従来のOCRの機能から大きく進歩したAI-OCRですが、高性能が喧伝される余り過大評価がなされている点が否めません。ここではAI-OCRにまつわる幾つかの代表的な「誤解」を取り上げ、その過ちに陥らないための導入時の留意点について述べます。
1)「認識精度99.9%」
AI-OCRはよく「認識精度99.9%」という高性能が喧伝されますが、この数値は高画質で綺麗に撮像した好条件下での測定結果であるケースが多く、日常業務のノイズがあるような帳票画像ではこの精度がでないこともあります。そのため、導入前に本番帳票を利用した精度検証を行う必要があります。また、精度は文字単位精度で出していることが多いため、文字列単位での精度も合わせて算出します。
2)「人手がゼロになる」
人が入力してもAI-OCRで読み取りをしても100%の認識精度にはならないため、訂正作業や確認作業は必要です。どのようにフォロー作業を行うかの業務フローを組み合せて考える必要があります。
3)「読取り精度の高いAI-OCRエンジンを選べばよい」
サービスの利用形態(オンプレミス、クラウド)や、読み取る帳票のレイアウトの特徴(定型レイアウト、非定型レイアウト)、帳票を仕分けする機能、訂正を行う画面の有無、業務システムとの接続のしやすさ、費用など、ビジネスや業務に沿って様々な要素を考えた上で選定する必要があります。
業務活用のポイント
AI-OCRの技術は、人間の作業を自動化するRPAやディープラーニングによる自然言語処理補正などの周辺技術との組み合わせにより、業務の効率化・半自動化に有用です。
人手の入力作業をAI-OCR技術を用いて補助することで人件費の削減、或いは急な入力業務量の増加時にも人を大量に追加募集するのではなく、システム増強でカバーができるなどのメリットがあり、様々な紙帳票の読取自動化とデータの利活用が考えられています。
- 口座開設書類、口座振替依頼書、登録内容変更届、給与支払報告書、各種助成申請書
- 請求書、領収書、注文書、仕入伝票、納品書、納付書、納入通知書、検品書、レシート
- アンケート用紙、カタログ、チラシ、はがき
- 生命保険証券、医療領収書、健康診断書、カルテ、処方箋
- 身分証明書(住民票、免許証、保険証、マイナンバーカード、パスポート、在留カード)、履歴書、名刺
- ポイントカード、クレジットカード
- 自動車税納付書、賃貸借契約書
- 配達帳票、公共料金支払票
など