helium

WEBスクレイピングを行うモジュール。

WEBスクレイピングモジュールにはseleniumがあるが、それをWrapperにして簡単なコードで使えるようにしたのがheliumということである。

heliumドキュメント

インストール

py -m pip install helium

インポート

from helium import *

Firefoxのバックグラウンドでの実行

driver = start_firefox(‘https://palmtrotter.kudos.jp/’, headerless=True)
  • “headerless=True”を指定すると、FirefoxがBackgroundで実行されて画面が開かないようになる。

クリック

click(‘ログイン’)    # 画面上のリンク名をクリックする。
press(ENTER)    # ENTERをクリックする。
  • ページを移動するには、クリックするボタンの名前をclick関数に指定すればよい。
  • ENTERキーは”press(ENTER)”を実行する。

ログイン情報の入力

write(‘member’, into=’ユーザー名またはメールアドレス’)
  • ログイン情報を入力するには、ページソースの入力フィールドのLabelの内容を入れてwriteする。(ブラウザーのフィールドに表示されている名前)

要素の抽出

joukyou = find_all(S('ul > li'))
  • “ul”の中にある”li”だけを抽出する。HTMLタグが使える。
  • HTMLタグのネストを”>”でつないでいけば、特定のエレメントだけを抽出することができる。
    • “find_all(S…)”はリストを生成し、リストの各要素のデータタイプはhelium特有の”helium.S”である。

抽出した要素のリスト化

items = [item.web_element.text for item in lists]
  • listsから順番にitemを選択して、Seleniumの関数でテキストだけを抽出してリスト化する。