スクレイピング

Python

【Python】urllib.parseモジュールによるURL解析

urllib.parseモジュールは、URLの文字列を解析するPythonの標準ライブラリです。URLを構成要素毎に分解して取り出したり、相対URLから絶対URLを生成するのに使います。WebスクレイピングでダウンロードするURLを指定する際にも使えます。今回は、このモジュールの基本的な使い方についてまとめます。
2020.03.28
Python

【Python】正規表現を使ったWebスクレイピング

スクレイピングはWebサイトから欲しい情報を取得する方法のことで、HTMLスクリプトを解析して所望のデータを抽出することが多いです。この操作はライブラリを使うことで簡単に実行できますが、今回は敢えて正規表現を使ってスクレイピングを行います。これによってスクレイピングの基本を理解できると思います。
2020.03.21
Python

【Python】 ブラウザを制御してWebサイトを表示する(webbrowerモジュール)

Python標準の組み込みライブラリであるwebbrowderモジュールは、ブラウザを制御してWebサイトを表示することができます。本記事では、このモジュールの使い方についてまとめます。
2020.03.17
Python

Face++の顔検出Web APIを試してみた

中国公安当局が採用しているという画像認識プラットフォーム「Face++」。こちらの記事をみて、顔検出だけでなく視線検出もできるというので、実際に試してみました。 #2019/6/1 誤記修正
2019.07.13
Python

[Python] urllib.parseによるURLエンコード/デコードの方法

PythonでURLエンコードおよびデコードをするには、urllib.parseモジュールを使います。本記事ではこれらの使い方についてまとめます。
2019.07.13
Python

[Python] Seleniumを使ったWebスクレイピング

Seleniumは、ブラウザをコマンドを使って遠隔操作することのできるツールです。元々はWebアプリの試験の自動化が主な用途のようですが、スクレイピングにも用いられるようです。また、このツールはPythonから制御することも出来ます。本記事では、PythonからSeleniumモジュールを使ってchromeブラウザを直接制御する方法についてまとめます。
2019.07.13
Python

[Python] BeautifulSoupを使ったWebスクレイピング

BeautifulSoupは、Webサイトをスクレイピングしてデータを取得する際に便利なライブラリです。正規表現を使ってデータを取得する方法もありますが、正規表現パターンの構築の難しさが懸念としてありました。本記事では、こんな心配を解決してくれる(はずの)ライブラリの基本的な使い方についてまとめます。
2020.03.21
Python

【Python】 GET・POSTリクエストによるWebデータの取得(Requestsモジュール)

Requestsモジュールは、PythonでHTTP通信を行うための3rdParty製のライブラリです。本記事では、このモジュールを使ってGET/POSTリスクエストを送信し、Webサイトのデータを取得する方法についてまとめます。
2020.01.12
Python

[Python] Webサイトのデータを取得する(urllib.requestモジュール)

今回は、Pythonの標準ビルトインモジュールのurllib.requestを使ってWebサイトのデータを取得する方法についてまとめます。
2019.07.13