WEBスクレイピングを行うモジュール。
WEBスクレイピングモジュールにはseleniumがあるが、それをWrapperにして簡単なコードで使えるようにしたのがheliumということである。
heliumドキュメント
インストール
py -m pip install helium
インポート
from helium import *
Firefoxのバックグラウンドでの実行
driver = start_firefox(‘https://palmtrotter.kudos.jp/’, headerless=True)
- “headerless=True”を指定すると、FirefoxがBackgroundで実行されて画面が開かないようになる。
クリック
click(‘ログイン’) # 画面上のリンク名をクリックする。 press(ENTER) # ENTERをクリックする。
- ページを移動するには、クリックするボタンの名前をclick関数に指定すればよい。
- ENTERキーは”press(ENTER)”を実行する。
ログイン情報の入力
write(‘member’, into=’ユーザー名またはメールアドレス’)
- ログイン情報を入力するには、ページソースの入力フィールドのLabelの内容を入れてwriteする。(ブラウザーのフィールドに表示されている名前)
要素の抽出
joukyou = find_all(S('ul > li'))
- “ul”の中にある”li”だけを抽出する。HTMLタグが使える。
- HTMLタグのネストを”>”でつないでいけば、特定のエレメントだけを抽出することができる。
- “find_all(S…)”はリストを生成し、リストの各要素のデータタイプはhelium特有の”helium.S”である。
抽出した要素のリスト化
items = [item.web_element.text for item in lists]
- listsから順番にitemを選択して、Seleniumの関数でテキストだけを抽出してリスト化する。