Pythonでrobots.txtをパースするライブラリがあったので当サイトがスクレイピングOKか確認してみたいと思います。
#!/usr/bin/env python3
# coding: utf8
import urllib.robotparser
from urllib.parse import urljoin
def can_fetch(target_uri):
robots_uri = urljoin(target_uri, '/robots.txt')
rp = urllib.robotparser.RobotFileParser()
rp.set_url(robots_uri)
rp.read()
return rp.can_fetch('*', target_uri)
uris = ["https://maywork.net/"]
for uri in uris:
print("{0}:{1}".format(uri, can_fetch(uri)))
結果
https://maywork.net/:True
OKのようです。そもそもrobots.txtを設置した記憶がないのですが…
robots.txtの中身を覗いてみると管理画面以外OKに設定されています。
WordPressをインストールした際に設定されたと思われます。


コメント