このモジュールでは単一のクラス、RobotFileParser を提供します。 このクラスは、特定のユーザエージェントが robots.txt ファイルを 公開している Web サイトのある URL を取得可能かどうかの質問に答えます。 robots.txt ファイルの構造に関する詳細は http://www.robotstxt.org/wc/norobots.htmlを参照してください。
) |
このクラスでは単一の robots.txt ファイルを読み出し、解釈し、 ファイルの内容に関する質問の回答を得るためのメソッドを定義しています。
url) |
) |
lines) |
useragent, url) |
True
を
返します。
) |
robots.txt
ファイルを最後に取得した時刻を返します。この
値は、定期的に新たな robots.txt
をチェックする必要がある、
長時間動作する Web スパイダープログラムを実装する際に便利です。
) |
robots.txt
ファイルを最後に取得した時刻を現在の時刻に設定します。
以下にRobotFileParser クラスの利用例を示します。
>>> import robotparser >>> rp = robotparser.RobotFileParser() >>> rp.set_url("http://www.musi-cal.com/robots.txt") >>> rp.read() >>> rp.can_fetch("*", "http://www.musi-cal.com/cgi-bin/search?city=San+Francisco") False >>> rp.can_fetch("*", "http://www.musi-cal.com/") True