スクレイピング

Python

【Python】urllib.parseモジュールによるURL解析

urllib.parseモジュールは、URLの文字列を解析するPythonの標準ライブラリです。URLを構成要素毎に分解して取り出したり、相対URLから絶対URLを生成するのに使います。WebスクレイピングでダウンロードするURLを指定する際にも使えます。今回は、このモジュールの基本的な使い方についてまとめます。
2020.03.28
Python

【Python】正規表現を使ったWebスクレイピング

スクレイピングはWebサイトから欲しい情報を取得する方法のことで、HTMLスクリプトを解析して所望のデータを抽出することが多いです。この操作はライブラリを使うことで簡単に実行できますが、今回は敢えて正規表現を使ってスクレイピングを行います。これによってスクレイピングの基本を理解できると思います。
2020.03.21
Python

【Python】 ブラウザを制御してWebサイトを表示する(webbrowerモジュール)

Python標準の組み込みライブラリであるwebbrowderモジュールは、ブラウザを制御してWebサイトを表示することができます。本記事では、このモジュールの使い方についてまとめます。
2020.03.17
Python

【Python】正規表現 reモジュールの使いかたの基本

Pythonで正規表現マッチング操作を行うには、標準組込みのreモジュールを使います。本記事では、reモジュールを使った正規表現マッチング操作の基本、および文字列の置き換えや分割等の文字列操作について具体例を挙げながらまとめます。
Python

[Python] Seleniumを使ったWebスクレイピング

Seleniumは、ブラウザをコマンドを使って遠隔操作することのできるツールです。元々はWebアプリの試験の自動化が主な用途のようですが、スクレイピングにも用いられるようです。また、このツールはPythonから制御することも出来ます。本記事では、PythonからSeleniumモジュールを使ってchromeブラウザを直接制御する方法についてまとめます。
2019.07.13
Python

[Python] BeautifulSoupを使ったWebスクレイピング

BeautifulSoupは、Webサイトをスクレイピングしてデータを取得する際に便利なライブラリです。正規表現を使ってデータを取得する方法もありますが、正規表現パターンの構築の難しさが懸念としてありました。本記事では、こんな心配を解決してくれる(はずの)ライブラリの基本的な使い方についてまとめます。
2020.03.21
Python

【Python】 GET・POSTリクエストによるWebデータの取得(Requestsモジュール)

Requestsモジュールは、PythonでHTTP通信を行うための3rdParty製のライブラリです。本記事では、このモジュールを使ってGET/POSTリスクエストを送信し、Webサイトのデータを取得する方法についてまとめます。
2020.01.12
Python

[Python] Webサイトのデータを取得する(urllib.requestモジュール)

今回は、Pythonの標準ビルトインモジュールのurllib.requestを使ってWebサイトのデータを取得する方法についてまとめます。
2019.07.13
Python

[Python] 正規表現の表記方法のまとめ(reモジュール)

Pythonで正規表現を使うには、標準ライブラリのreモジュールを使います。本記事では、Pythonの正規表現の表記方法について、具体例を交えながらまとめています。
2019.07.13