【Python】勉強がてら簡単なWeb Scrapingやってみた

今年はPythonを少し勉強しようと思っていたので、簡単にできそうな「Web Scraping(Web スクレイピング)」のコードを書いてみた。 (勿論ググって参考参考しましたけど)

$ python3 filename http://domain/page

みたいにして任意のURLを引数にすると、そのページの画像を取得してくるというもの。まあ、もうネットにありふれているけど、自分の勉強のためなので許して下さいw

pythonのヴァージョンは、3.5.0です。

今回使用したライブラリを以下です。

requests

PythonのHTTPライブラリ。パラメータを付与できたり、ヘッダーもカスタムしてPOSTしたりGETできる。

詳細はここ！！

BeautifulSoup4

HTMLやXMLの中身を解析して、任意の情報を取得するためのライブラリです。

詳細はここ！！日本語はここ！！

lxml

XML(HTML)を扱う高速で便利なライブラリ

詳細はここ！！日本語ならこの方の記事が良さそう！！

Pythonのライブラリなんて全然詳しくないので、新鮮に感じました。

そしてコードはこれだけ！

import requests
from bs4 import BeautifulSoup
import sys


args = sys.argv
URL = args[1]
images = []

soup = BeautifulSoup(requests.get(URL).content, 'lxml')

for link in soup.find_all("images"):
    if link.get("src").endswith(".jpg"):
        images.append(link.get("src"))
    elif link.get("src").endswith(".png"):
        images.append(link.get("src"))

for target in images:
    re = requests.get(target)
    with open ('img/' + target.split('/')[-1], 'wb') as f:
        f.write(re.content)

print("ok, successful!!")