[Python] 正規表現を使ったWebスクレイピング

スクレイピングはWebサイトから情報を収集する方法の一つです。これを効率的に行うために、世の中には便利なライブラリやフレームワークがたくさんリリースされています。
しかし、今回は敢えてこの流れに反して、正規表現を使ってスクレイピングをしてみようと思います。これによってスクレイピングの基本を理解できると思います。 “[Python] 正規表現を使ったWebスクレイピング” の続きを読む

[Python] Seleniumを使ったWebスクレイピング

Seleniumは、ブラウザをコマンドを使って遠隔操作することのできるツールです。元々はWebアプリの試験の自動化が主な用途のようですが、スクレイピングにも用いられるようです。また、このツールはPythonから制御することも出来ます。本記事では、PythonからSeleniumモジュールを使ってchromeブラウザを直接制御する方法についてまとめます。

“[Python] Seleniumを使ったWebスクレイピング” の続きを読む

[Python] urllib.parseモジュールによるURL解析

urllib.parseモジュールは、URLの文字列を解析するPythonの標準ライブラリです。URLを構成要素毎に分解して取り出したり、相対URLから絶対URLを生成するのに使います。WebスクレイピングでダウンロードするURLを指定する際にも使えます。今回は、このモジュールの基本的な使い方についてまとめます。(兼 自分用の備忘メモ) “[Python] urllib.parseモジュールによるURL解析” の続きを読む

[Python] BeautifulSoupを使ったWebスクレイピング

BeautifulSoupは、Webサイトをスクレイピングしてデータを取得する際に便利なライブラリです。正規表現を使ってデータを取得する方法もありますが、正規表現パターンの構築の難しさが懸念としてありました。本記事では、こんな心配を解決してくれる(はずの)ライブラリの基本的な使い方についてまとめます。

“[Python] BeautifulSoupを使ったWebスクレイピング” の続きを読む

[Python] GET・POSTリクエストによるWebデータの取得(Requestsモジュール)

Requestsモジュールは、PythonでHTTP通信を行うための3rdParty製のライブラリです。本記事では、このモジュールを使ってGET/POSTリスクエストを送信し、Webサイトのデータを取得する方法についてまとめます。

“[Python] GET・POSTリクエストによるWebデータの取得(Requestsモジュール)” の続きを読む

[Python] ブラウザを制御してWebサイトを表示する(webbrowerモジュール)

Python標準の組み込みライブラリであるwebbrowderモジュールは、ブラウザを制御してWebサイトを表示することができます。本記事では、このモジュールの使い方についてまとめます。
#2019/2/11 記事更新

“[Python] ブラウザを制御してWebサイトを表示する(webbrowerモジュール)” の続きを読む