2009年9月8日火曜日

HeritrixのBasic/Digest認証

HeritrixのJobを試していたが、Digest認証(Apache 2.2)で保護されているWebサイトに接続しても、401のエラーになってしまい困っていた。どうも、Settingの内容が間違っていたみたい。
手順メモ

1. Submodulesにorg.archive.crawler.datamodel.credential.Rfc2617Credentialを追加

2. Setting画面で"expert setting"に切替える

3. credential-storeの設定項目に下記を設定
 credential-domain: ホスト名(http://xxxxxx/...のxxxxxxの部分)
 realm: 認証エリアの名前(Apacheのhttpd.confの"AuthName"の部分)
 login:/password: 正しく認証されるものを設定

ここまで設定すれば正しくされる。私の場合は、realmの設定内容がわからなくて、"Basic"だの"Digest"だのを設定してずいぶんハマッた。…ふぅ

追記: HTTPなどのエラーコードは、HeritrixのWeb UIの"Help"内の"URI Fetch Status Codes"にまとまっているので便利だと気づいた。もちろんHeritrixサーバが起動していないと見れないけど。

0 件のコメント: