Pythonで当サイトがスクレイピングOKか確認するスクリプト

Pythonでrobots.txtをパースするライブラリがあったので当サイトがスクレイピングOKか確認してみたいと思います。


#!/usr/bin/env python3
# coding: utf8

import urllib.robotparser
from urllib.parse import urljoin

def can_fetch(target_uri):
    robots_uri = urljoin(target_uri, '/robots.txt')

    rp = urllib.robotparser.RobotFileParser()

    rp.set_url(robots_uri)
    rp.read()

    return rp.can_fetch('*', target_uri)

uris = ["https://maywork.net/"]
for uri in uris:
    print("{0}:{1}".format(uri, can_fetch(uri)))

結果

https://maywork.net/:True

OKのようです。そもそもrobots.txtを設置した記憶がないのですが…
robots.txtの中身を覗いてみると管理画面以外OKに設定されています。
WordPressをインストールした際に設定されたと思われます。