Pythonでrobots.txtをパースするライブラリがあったので当サイトがスクレイピングOKか確認してみたいと思います。
#!/usr/bin/env python3 # coding: utf8 import urllib.robotparser from urllib.parse import urljoin def can_fetch(target_uri): robots_uri = urljoin(target_uri, '/robots.txt') rp = urllib.robotparser.RobotFileParser() rp.set_url(robots_uri) rp.read() return rp.can_fetch('*', target_uri) uris = ["https://maywork.net/"] for uri in uris: print("{0}:{1}".format(uri, can_fetch(uri)))
結果
https://maywork.net/:True
OKのようです。そもそもrobots.txtを設置した記憶がないのですが…
robots.txtの中身を覗いてみると管理画面以外OKに設定されています。
WordPressをインストールした際に設定されたと思われます。
コメント