Amazon

2011年2月1日火曜日

HTMLスクレイピング

地元チームの出欠ボードは、phpで書かれているんで、たぶんLAMP上で動いていると思うのだが、xmlを吐いてくれないので、htmlスクレイピングして、xmlを出力させてみた。
ところが、なぜか文字化け。
元ページを見てみると、文字コードがEUC-JPだった!
いまどき、EUC-JPはないだろうと、UTF-8に変換かけて、xmlに出力っと。
あとは、cronで自動巡回させて更新させて終わり。
文字コード以外、思ったよりすんなり行きました。
もちろん、スケジュール登録時に、xmlに登録させた方が、巡回の手間も、htmlスクレイピングも必要ないから、もっと簡単なのだけどね。