PythonでWebからHTMLファイルをダウンロードして解析してみる。

WinPythonをインストールしましたが、Pyhoneの学習が大分ほったらかしになっていましたので、久々にPythonを触ってみたいと思います。今回はWebサイトからHTMLをダウンロードして、ダウンロードしたHTMLファイルを解析するサンプルスクリプトを作ってみたいとおもいます。

まず、htmlの解析用のライブラリ「beautifulsoup4」インストール

PS>pip install beautifulsoup4

次にスクリプト。内容は当サイトのページをダウンロードしてrssへのリンクを取得されます。

ファイル名:html_parse.py

# 
# htmlをダウンロード解析しrssへのリンクを取得
# 

from urllib.request import urlopen
from bs4 import BeautifulSoup

u = "https://maywork.net/"

html = urlopen(u).read()


bs = BeautifulSoup(html, 'html.parser')

elements = bs.select("link")

list = []

for element in elements:
	if (element.get("type") == "application/rss+xml"):
		list.append(element.get("href"))

if (len(list) > 0):
	print(list[0])

結果

PS> python .\html_parse.py
 https://maywork.net/feed/

アドレスが返ってきました。

今後これを元にPythonでwebサイトの更新チェックスクリプトを作りたいと思います。