PERLを使用したスクレイピングに関しての質問です。


本などでスクレイピングに関して調べているのですが、モジュールなどを詳しく解説してくれる本がなく
自分が求めている情報のスクレイピングをするにはどのモジュールを使えばよいのか教えていただいきたいです。
スクレイピングはやったとこがないもので、コードのサンプルと機能ごとの解説をお願いします。

条件は、取得した情報と画像を整理してMYSQLを使ったデータベースにいれることです。

よろしくお願いします。

回答の条件
  • 1人5回まで
  • 登録:
  • 終了:2012/02/01 21:31:53
※ 有料アンケート・ポイント付き質問機能は2023年2月28日に終了しました。

回答2件)

id:oil999 No.1

回答回数1728ベストアンサー獲得回数320

ポイント100pt

スクレイピングする手法は千差万別ですが、DOMを使う方法が汎用的に使えます。
Perlですと、HTML::TreeBuilder というモジュールを導入してください。
http://search.cpan.org/~jfearn/HTML-Tree-4.2/lib/HTML/TreeBuilder.pm

具体的な使い方は下記を参照してください。
http://d.hatena.ne.jp/memememomo/20100828/1282989622

id:robopit

画像を取得し、MYSQLに入れるサンプルをお願いします。

2012/02/01 18:33:47
id:oil999

MySQLへのアクセスについてはDBD/DBIモジュール群を導入します。
詳しくは下記をご覧ください。
http://tech.bayashi.net/pdmemo/perl_dbi_mysql.html

画像については、画像ファイルを適当なフォルダへダウンロードして、そのフルパス名をDBに登録すれば良いでしょう。

2012/02/01 20:23:11
id:Craftworks No.2

回答回数20ベストアンサー獲得回数6

ポイント100pt

Perl でスクレイピングといえば、Web::Scraper です。

サンプルなど使い方はこちらが詳しいです。
http://e8y.net/mag/013-web-scraper/

id:robopit

画像を取得し、MYSQLに入れるサンプルをお願いします。

2012/02/01 18:33:48
id:Craftworks

MySQL に格納するには、DBI モジュールを遣います。
http://search.cpan.org/~timb/DBI-1.617/DBI.pm
http://tech.bayashi.net/pdmemo/perl_dbi_mysql.html

2012/02/01 20:11:57
  • id:tdoi
    HTMLのパースの問題では?
    モジュールとかというより、正規表現が書けるかどうかなんじゃないかと。
    スクレイピングの対象となるサイトによっては、都合のよい便利なモジュールを誰かが書いているかもですが。
  • id:robopit
    調べるごとに自分のしらないようなコードがでてくるので
    一応やりたいことにたいして一般的なコードはどうなるんだろうか?と思い質問したました

    特にデータベースにいれるにはどういうふうにしたらいいのか乗っているものがないので、そこのサンプルがあればお願いします。
  • id:robopit
    質問の仕方が悪かったようなので再度質問を上げなおしました
    答えてくださった方ありがとうございました。

この質問への反応(ブックマークコメント)

「あの人に答えてほしい」「この質問はあの人が答えられそう」というときに、回答リクエストを送ってみてましょう。

これ以上回答リクエストを送信することはできません。制限について

回答リクエストを送信したユーザーはいません