HeritrixのJobを試していたが、Digest認証(Apache 2.2)で保護されているWebサイトに接続しても、401のエラーになってしまい困っていた。どうも、Settingの内容が間違っていたみたい。
手順メモ
1. Submodulesにorg.archive.crawler.datamodel.credential.Rfc2617Credentialを追加
2. Setting画面で"expert setting"に切替える
3. credential-storeの設定項目に下記を設定
credential-domain: ホスト名(http://xxxxxx/...のxxxxxxの部分)
realm: 認証エリアの名前(Apacheのhttpd.confの"AuthName"の部分)
login:/password: 正しく認証されるものを設定
ここまで設定すれば正しくされる。私の場合は、realmの設定内容がわからなくて、"Basic"だの"Digest"だのを設定してずいぶんハマッた。…ふぅ
追記: HTTPなどのエラーコードは、HeritrixのWeb UIの"Help"内の"URI Fetch Status Codes"にまとまっているので便利だと気づいた。もちろんHeritrixサーバが起動していないと見れないけど。
久しぶりの書き込み
-
アロが虹の橋を渡ったのが去年の10月。それからかなり時間が経ったように思うが、まだ一年にもなっていないんだな。最近アロの兄弟のアーチン君も旅立ってしまい、兄弟もあとピィちゃんだけになってしまった。な...
7 年前