形態素解析あるいは機械翻訳などの自然言語処理を勉強しようと思います。
おすすめの教科書、論文などを教えてください(できれば日本語がいいですが、英語も可)。
おすすめの文献ひとつでも複数でも構いません。
私は自然言語処理について専門知識はありません。
初心者が独学で形態素解析ソフトや翻訳ソフトを作れるようになるような文献をお願いします。
http://www.amazon.co.jp/exec/obidos/ASIN/4000103555/250-4915312-...
Amazon.co.jp: 岩波講座ソフトウェア科学(15) 自然言語処理: 本: 長尾 真
専門の研究者ではなく申し訳ありません。昔ちょっとやったことはあります。
教科書は絶対これです。
真似すると総花的でまとまりのないものになりますが、網羅的で非常によくまとまっています。
googleの推薦度も高いですから、適当回答者ですら、多分これを入れるでしょう。入手困難かと思っていましたが、まだ入手可能なようです。
この本の、機械翻訳、形態素解析に該当する部分を読んで、ちゃんと理解できたら大丈夫です、すぐ作れるでしょう。
AMAZONに1冊在庫があるようです。即注文をお勧めします。
http://cl.aist-nara.ac.jp/index.php?%BC%AB%C1%B3%B8%C0%B8%EC%A5%...
自然言語データに関する情報 - NAIST CL Lab
形態素解析はそんなに難しくないですが、労力は大変です。
辞書の情報はこちらで。
http://unicorn.ike.tottori-u.ac.jp/murakami/doctor/node14.html
Viterbi $B%"%k%4%j%:%`(B
最小の連接コストを求めるのに非常に良く使われるViterbiのアルゴリズムです。
--------------------------------------------
機械翻訳は知らないんですが、以下「適当回答」として参考情報を入れておきます。
あくまでもご参考程度にどうぞ。
HPSG(さっぱり良くわからないです)は頻出キーワードです。文法の一種です。機械翻訳の勉強をするならHPSGの勉強は一応しておいた方がいいみたいな話は聞きますが、自分はサッパリ何のことなのか理解できませんでした。
現実的には、コーパスベースが主流です。
こちらで息抜きができるようです。
http://www.justsystem.co.jp/km/product/cb4_101.html
製品情報[ConceptBase IV /R.3] Page.1
Enterpriseでの形態素解析を用いた検索エンジンとしては上記がメジャーであり、日本の市場をリードしてきたものになります。高いですが・・・
私が知りたいのは、「自分で形態素解析ソフトあるいは機械翻訳ソフトを作ることができるようになるための文献」です。
既製のソフトは不要です。
http://www.amazon.co.jp/exec/obidos/ASIN/4781909566/qid=11194454...
Amazon.co.jp: 自然言語処理の基礎: 本: 吉村 賢治
まずどこまでの知識をお持ちなのかわからないので入門書と呼べるものを・・・
http://www.amazon.co.jp/exec/obidos/ASIN/4885521602/qid=11194454...
Amazon.co.jp: 自然言語処理―基礎と応用: 本: 田中 穂積
すこし応用編になりますが、こちらの本もお勧めします
http://www.lexically.net/wordsmith/
WordSmith Tools
あとはいくつか自然言語処理で使うであろうもののキーワードを上げておきます。
シソーラス:
言葉を文字ではなく意味で整理した辞書。同義語などを扱う時に使います
コーパス:
定義は「言語研究に使用するために大量に収集された書き言葉および話し言葉のテキスト」ですが、機械で処理できるような「電子化テキスト資料」という認識でいいと思います。これを使うにはコンコーダンス・ソフトと呼ばれるソフトウェアがよく利用されます。コンコーダンス・ソフトは語の振る舞いをキーワードを中心に前後の文脈を表示するといった方法で閲覧するソフトです。上記URLに示したソフトが一番使われているソフトです(シェアウェアですが・・・)
私自身は専門家ではないのですが、大学時代に同じ研究室の違うゼミが自然言語処理をやっておりましたので、記憶を漁ってみました。この分野はなかなか奥が深いですよ。頑張ってください。
ありがとうございます。
もうちょっと詳しい書籍紹介をしていただけるとよかったです。
1冊目の書籍はカスタマーレビューの意見がちょっと気になります。
2冊目の書籍には機械翻訳について書いてあるようですね。
私の基礎知識に関する情報が足りなかったようです。
大学の理科系の学部出身なので、計算機による単なる文字列処理なら知っていますが、自然言語の処理についてはほとんど知りません。
しかしシソーラス、コーパス、コンコーダンサーなどは知っていて、使ったことがあります。
TreeTaggerは使ったことがあり、「形態素解析」という言葉の意味くらいはわかりますが、具体的にどういう仕組みで解析しているのかは全く知りません。
ChaSenは知っていますがつかったことはありません。
以前、書店で自然言語処理の入門書のようなタイトルの本を見てみたら、「正規表現で欲しい文字列を抜き出す」程度のことしか書いてなくてがっかりしました。
こういった内容ではなく、文章の意味内容の処理方法を知りたいのです。
http://www.amazon.co.jp/exec/obidos/ASIN/4327376809
Amazon.co.jp: 生成文法がわかる本: 本: 町田 健
統語論・意味論の話はまあ基礎のひとつかなと思いますんで、こんなのはどうでしょう。ってすいません読んだことないのですが、えらく評判がよろしいようです。(…買ってみようかな…)
これは読みました。
生成文法には期待していたのですが、ちょっと幻滅しました。
基礎理論の文献も興味があるので教えていただきたいけれども、基礎理論だけでは不満です。
Shampoohatさんの推薦本とteru2gさんの推薦本の一冊目を眺めてみましたが、なかなかよさそうです(これらの本の参考文献リストも役に立ちそうです)。
他につよく推薦できる文献があれば教えてください。
できれば専門家のかたの推薦を知りたいです(はてなユーザーで専門家のかたは、いらっしゃらないかな?)
この質問の一週間くらい前に「専門家のかた」にかなり近い所にいる人に機械翻訳について聞いていました。しばらく経てば Google にかかるだろうから、と回答しませんでしたが、まだ募集しているようなので、このまま見ない振りをするのもアレなので回答します。
http://chasen.org/~taku/blog/archives/2005/02/machine_learnin.ht...
きまぐれ日記: Machine Learning: Discriminative and Generative
トラックバック元の本も参考になるかと。
http://clwww.essex.ac.uk/MTbook/HTML/book.html
MACHINE TRANSLATION: An Introductory Guide
上 4 つは私が個人的に検索してみたものですが、最初の pdf が非常によくまとまっているのでまず何より先に読むのがよいでしょう。
普通に ”machine translation” で検索をかけるだけでもそれなりの資料は見つかります。
SpringerLink Home - Main
machine translation というそのものズバリの journal もあるようです。
ありがとうございます。
手始めは良書を読みたかったので、Googleで調べるのは怠りました。
日記で「宣伝」とおっしゃってますが、著者のかたですか?
そろそろ回答が尽きてきたようですので終わります。
皆さんありがとうございました。
たくさん書いてくださってありがとうございます。
この教科書を見てみます。
機械翻訳の文献については他の回答者のかたのお薦めを待ちます。