ScanSnap S1500で書籍をPDF化しているのですが、付属のOCRソフトではどうも制度がいまいちです。

GoogleやAmazonや他電子書籍ビジネスを行っている企業が行っているのと同じレベルでOCRしたいのですが、
その方法をおしえてください。
また個人レベルでそれを実行するのが厳しいレベルの場合は、個人レベルで行える最善手を教えてください。

回答の条件
  • URL必須
  • 1人2回まで
  • 登録:
  • 終了:2010/03/01 18:10:02
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答1件)

id:rawwell No.1

回答回数91ベストアンサー獲得回数10

ポイント60pt

業務用も民生用も誤識字率は5%程度」をふまえて、

以下のページの情報によると、市販のソフトウェアでは"e.Typist"もしくは"読んde!!ココ"の精度が高そうですがいかがでしょうか。

 

個人ユースで、精度の高いOCRソフトを探しています。PDFの読み取りとワード文書などへの変換も可能なもので、今、一番性能が良く、リーズナブルなものはどれでしょう.. - 人力検索はてな

アルゴリズムで判断する限り、普通の日本語文書をOCRするなら「e-」、専門書や昭和30年代以前の文書をOCRするなら「読んで」が良いと考えます。ここで普通の日本語文書とは最近の新聞記事を想定して下さい。社説のような文書は「読んで」の領域に近くなります。


OCRソフト情報

認識速度は読んdeココよりは早い印象があります。200dpi以上であれば精度も互角です。

Vector: e.Typist v.12.0 for Windows - 新着ソフトレビュー

画像関連の機能が充実しているのも特筆すべき点で、ゴミの消去や傾きの修正

まほろば::認識精度の比較 (e.Typist v.12.0)

「一宮市広報」は、良好。

「郵便貯金通帳」は、認識テンプレートを登録しておけば、良好。

コメントはまだありません

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません