2009年9月4日金曜日

Heritrix on Windows


イントラネットサイト上の情報のデータ化が必要になりそうなので、WebクローラのHeritrixを使ってみた。HeritrixはInternet Archiveが開発したクローラとして有名で、SourceForgeで公開されている。結構使われていると思ってGoogleで検索してみても、日本語の情報が少ないみたい。

とりあえずダウンロードしてみた。そして、ドキュメントをチェックする。HertrixはJavaで開発されているので、当然マルチプラットフォーム…かと思えば、ドキュメントには「Linuxで開発、テストされているからそれ以外のプラットフォーム(Windowsとか) で動くかどうか知らないよ」と書かれている。確かに起動用のシェルとか、設定ファイルのパーミッションチェックとか、Linux(Unix)ライクになっている。

気軽なお試しのつもりでWindows XPで起動してみた。普通に起動した。…ドキュメントに従って、簡単なJobを設定…Jobの実行……ダメっぽい。ドキュメントにかかれている事と違うじゃん!!っと思ってしまう。

結局半日ほど試したがダメ。Profileに設定されているModuleやFrontier、Processorの初期値がうまく取り込まれていない様子。すべて正しく設定し直せば動くのかもしれないけど、おそらくWindowsで動作すると、設定を持っているファイルが正しく読めていないのではないかと、勝手に推測。

つぎは、Linuxで試してみよう…。
つづく

0 件のコメント: