GoogleやAmazonや他電子書籍ビジネスを行っている企業が行っているのと同じレベルでOCRしたいのですが、
その方法をおしえてください。
また個人レベルでそれを実行するのが厳しいレベルの場合は、個人レベルで行える最善手を教えてください。
「業務用も民生用も誤識字率は5%程度」をふまえて、
以下のページの情報によると、市販のソフトウェアでは"e.Typist"もしくは"読んde!!ココ"の精度が高そうですがいかがでしょうか。
個人ユースで、精度の高いOCRソフトを探しています。PDFの読み取りとワード文書などへの変換も可能なもので、今、一番性能が良く、リーズナブルなものはどれでしょう.. - 人力検索はてな
アルゴリズムで判断する限り、普通の日本語文書をOCRするなら「e-」、専門書や昭和30年代以前の文書をOCRするなら「読んで」が良いと考えます。ここで普通の日本語文書とは最近の新聞記事を想定して下さい。社説のような文書は「読んで」の領域に近くなります。
認識速度は読んdeココよりは早い印象があります。200dpi以上であれば精度も互角です。
Vector: e.Typist v.12.0 for Windows - 新着ソフトレビュー
画像関連の機能が充実しているのも特筆すべき点で、ゴミの消去や傾きの修正
まほろば::認識精度の比較 (e.Typist v.12.0)
「一宮市広報」は、良好。
「郵便貯金通帳」は、認識テンプレートを登録しておけば、良好。
コメント(0件)