PythonのSeleniumとBeautifulSoupでWebページからテキストを抽出する。

python コンピュータ
python

SeleniumでWebブラウザ(Google Chrome)でWebページを表示し、ブラウザ内で表示されたページの内容(HTML)をBeautifulSoupで解析します。

サンプルスクリプト
ファイル名:selenium_test.py

from selenium import webdriver
from selenium.webdriver.common.keys import Keys

from bs4 import BeautifulSoup

driver = webdriver.Chrome()
driver.get("https://maywork.net/")
#print(driver.title)

bs = BeautifulSoup(driver.page_source, 'html.parser')
print(bs.get_text())

driver.close()

実行

PS F:\python\selenium> python selenium_test.py

DevTools listening on ws://127.0.0.1:5550/devtools/browser/bc51dee0-0717-4880-b429-a949e3efebb2
迷惑堂本舗       頭の中をやりたいことでいっぱいにする。迷惑堂本舗ショートカットツールc#MAUI.NET_Framework.NETWPFWinFormsmonoasp.netxamlMVVMOpenCvSharpコンピュータGIMPpowershellubuntu自作PCGoDeskMeetdeskminiExceljavascriptOpenCVpythonthinkpad生活家電自動車掃除洗濯防災便利グッツ健康その他行政お金T君特殊文字をエスケープ処理ショートカットツールc#MAUI.NET_Framework.NETWPFWinFormsmonoasp.netxamlMVVMOpenCvSharpコンピュータGIMPpowershellubuntu自作PCGoDeskMeetdeskminiExceljavascriptOpenCVpythonthinkpad生活家電自動車掃除洗濯防災便利グッツ健康その他行政お金T君特殊文字をエスケープ処理   コンピュータWindows11でMicrosoft Edgeに頼らずGoogle Chromeをインストールする方法 新しいWindowsPCを入手するとまず最初にGoogle Chromeをイン ストールします。他のブラウザが悪いわけでは無いのですがGoogleアカウントに紐づいたサービスが多いため仕方がなくGoogle Chromeをインストールしていま... 2025.01.21コンピュータ    コンピュータPCケースの背面の穴をアルミテープでふさいでみた話 PCケースには空気を取り入れるまたは排出する為の穴が開いています。こちらの穴が正しく機能しているとすると、穴をふさぐとPC内の温度が上昇するはずです。逆に電動ファンからの空気の流れに集約されて、吸排気がスムーズに行われることでPC内の温度が... 2025.01.20コンピュータ    コンピュータインターネットとWebブラウザでC++を学習する方法 QtCreatorを導入してみましたが、自分が昔見たC++とは大分異なっており、QtCreatorとは別にC++の学習環境が欲しくなりました。とはいえ学習のために、日々使っているパソコン 全てにコンパイラなどのビルド環境の構築は結構面倒です。... 2025.01.18コンピュータ スポンサーリンク     コンピュータ【Qt6 

Seleniumを使うことでJavaScriptで生成されるコンテンツもBeautifulSoupで解析することが出来るようです。
Seleniumでリンクをクリックしたり、アカウント入力フォームにユーザー・パスワードをセットしログインしたりすることが出来るらしいので、ほとんどのページを取得することが出来るようです。そのあたりの使い方はオイオイ試してみたいと思います。

コメント