SeleniumでWebブラウザ(Google Chrome)でWebページを表示し、ブラウザ内で表示されたページの内容(HTML)をBeautifulSoupで解析します。
Seleniumのインストール
chromedirver.exeはインストールしてあるGoogle Chromeのバージョンと合わせる必要があるらしい。
Windows11でPythonのSeleniumをインストールしてみた。
Windows11PCをリモート操作でpythonのSelenumをインストールしてみました。リモートはPowerShellのEnter-PSSessionを使っています。また、pythonのバージョンは3.9でscoopを使ってインストー...
chromedirver.exeはインストールしてあるGoogle Chromeのバージョンと合わせる必要があるらしい。
BeautifulSoupのインストール
PythonでWebからHTMLファイルをダウンロードして解析してみる。
WinPythonをインストールしましたが、Pyhoneの学習が大分ほったらかしになっていましたので、久々にPythonを触ってみたいと思います。今回はWebサイトからHTMLをダウンロードして、ダウンロードしたHTMLファイルを解析するサ...
サンプルスクリプト
ファイル名:selenium_test.py
from selenium import webdriver
from selenium.webdriver.common.keys import Keys
from bs4 import BeautifulSoup
driver = webdriver.Chrome()
driver.get("https://maywork.net/")
#print(driver.title)
bs = BeautifulSoup(driver.page_source, 'html.parser')
print(bs.get_text())
driver.close()
実行
PS F:\python\selenium> python selenium_test.py
DevTools listening on ws://127.0.0.1:5550/devtools/browser/bc51dee0-0717-4880-b429-a949e3efebb2
迷惑堂本舗 頭の中をやりたいことでいっぱいにする。迷惑堂本舗ショートカットツールc#MAUI.NET_Framework.NETWPFWinFormsmonoasp.netxamlMVVMOpenCvSharpコンピュータGIMPpowershellubuntu自作PCGoDeskMeetdeskminiExceljavascriptOpenCVpythonthinkpad生活家電自動車掃除洗濯防災便利グッツ健康その他行政お金T君特殊文字をエスケープ処理ショートカットツールc#MAUI.NET_Framework.NETWPFWinFormsmonoasp.netxamlMVVMOpenCvSharpコンピュータGIMPpowershellubuntu自作PCGoDeskMeetdeskminiExceljavascriptOpenCVpythonthinkpad生活家電自動車掃除洗濯防災便利グッツ健康その他行政お金T君特殊文字をエスケープ処理 コンピュータWindows11でMicrosoft Edgeに頼らずGoogle Chromeをインストールする方法 新しいWindowsPCを入手するとまず最初にGoogle Chromeをイン ストールします。他のブラウザが悪いわけでは無いのですがGoogleアカウントに紐づいたサービスが多いため仕方がなくGoogle Chromeをインストールしていま... 2025.01.21コンピュータ コンピュータPCケースの背面の穴をアルミテープでふさいでみた話 PCケースには空気を取り入れるまたは排出する為の穴が開いています。こちらの穴が正しく機能しているとすると、穴をふさぐとPC内の温度が上昇するはずです。逆に電動ファンからの空気の流れに集約されて、吸排気がスムーズに行われることでPC内の温度が... 2025.01.20コンピュータ コンピュータインターネットとWebブラウザでC++を学習する方法 QtCreatorを導入してみましたが、自分が昔見たC++とは大分異なっており、QtCreatorとは別にC++の学習環境が欲しくなりました。とはいえ学習のために、日々使っているパソコン 全てにコンパイラなどのビルド環境の構築は結構面倒です。... 2025.01.18コンピュータ スポンサーリンク コンピュータ【Qt6
Seleniumを使うことでJavaScriptで生成されるコンテンツもBeautifulSoupで解析することが出来るようです。
Seleniumでリンクをクリックしたり、アカウント入力フォームにユーザー・パスワードをセットしログインしたりすることが出来るらしいので、ほとんどのページを取得することが出来るようです。そのあたりの使い方はオイオイ試してみたいと思います。
コメント