Python 【Python】urllib.parseモジュールによるURL解析 urllib.parseモジュールは、URLの文字列を解析するPythonの標準ライブラリです。URLを構成要素毎に分解して取り出したり、相対URLから絶対URLを生成するのに使います。WebスクレイピングでダウンロードするURLを指定する際にも使えます。今回は、このモジュールの基本的な使い方についてまとめます。 2020.03.22 2020.03.28 Pythonスクレイピングモジュール
Python 【Python】正規表現を使ったWebスクレイピング スクレイピングはWebサイトから欲しい情報を取得する方法のことで、HTMLスクリプトを解析して所望のデータを抽出することが多いです。この操作はライブラリを使うことで簡単に実行できますが、今回は敢えて正規表現を使ってスクレイピングを行います。これによってスクレイピングの基本を理解できると思います。 2020.03.20 2020.03.21 Pythonスクレイピングモジュール
Python 【Python】ブラウザを起動しWebサイトを表示する方法(webbrowserモジュール) Python標準組み込みモジュールのwebbrowserは、ブラウザを制御してWebサイトを表示することができます。本記事では、このモジュールの使い方についてまとめます。 2020.03.16 2021.10.01 Pythonスクレイピングモジュール
Python 【Python】正規表現 reモジュールの使いかたの基本 Pythonで正規表現マッチング操作を行うには、reモジュールを使います。本記事では、reモジュールを使った正規表現マッチング操作の基本、および文字列の置き換えや分割等の文字列操作について具体例を挙げながらまとめます。 2019.08.17 2020.11.01 Pythonモジュール正規表現
Python [Python] Seleniumを使ったWebスクレイピング Seleniumは、ブラウザをコマンドを使って遠隔操作することのできるツールです。元々はWebアプリの試験の自動化が主な用途のようですが、スクレイピングにも用いられるようです。また、このツールはPythonから制御することも出来ます。本記事では、PythonからSeleniumモジュールを使ってchromeブラウザを直接制御する方法についてまとめます。 2018.10.19 2019.07.13 Pythonスクレイピングモジュール
Python [Python] BeautifulSoupを使ったWebスクレイピング BeautifulSoupは、Webサイトをスクレイピングしてデータを取得する際に便利なライブラリです。正規表現を使ってデータを取得する方法もありますが、正規表現パターンの構築の難しさが懸念としてありました。本記事では、こんな心配を解決してくれる(はずの)ライブラリの基本的な使い方についてまとめます。 2018.10.09 2020.03.21 Pythonスクレイピングモジュール
Python 【Python】 GET・POSTリクエストによるWebデータの取得(Requestsモジュール) Requestsモジュールは、PythonでHTTP通信を行うための3rdParty製のライブラリです。本記事では、このモジュールを使ってGET/POSTリスクエストを送信し、Webサイトのデータを取得する方法についてまとめます。 2018.10.02 2020.01.12 Pythonスクレイピングモジュール
Python [Python] Webサイトのデータを取得する(urllib.requestモジュール) 今回は、Pythonの標準ビルトインモジュールのurllib.requestを使ってWebサイトのデータを取得する方法についてまとめます。 2018.09.28 2019.07.13 Pythonスクレイピングモジュール
Python [Python] 正規表現の表記方法のまとめ(reモジュール) Pythonで正規表現を使うには、標準ライブラリのreモジュールを使います。本記事では、Pythonの正規表現の表記方法について、具体例を交えながらまとめています。 2018.09.18 2019.07.13 Pythonモジュール正規表現