アルゴリズムを利用したWeb スクレイピングのライブラリ Scrapely

最終更新日:


はじめに
この記事は Scrapely に関する翻訳が主です。
README に書かれた内容を動かしながらどんなものか確認しました。
ざっくりした内容を 秒 で確認したい場合、この記事の項の Scrapelyとは と まとめ の2つを読むと良いです。
Scrapelyとは
HTMLページから構造化されたデータを抽出するためのライブラリ。
サンプルのWebページの例と抽出されるデータが与えられた場合、類似したすべてのページのパーサを構築する。
Instance Based Learning 1というアルゴリズムを利用したデータの抽出を行う。2
Installation
Scrapely works in Python 2.7 or 3.3+. It requires numpy and w3lib Python packages.
pip install scrapely
コマンドラインからの利用
$ python -m scrapely.tool myscraper.json
scrapely> help
ocumented commands (type help ):
========================================
a annotate ls s ta
add_template del_template ls_annotations scrape td
al help ls_templates t tl
scrapely>
scrapely.tool の利用は以下の通り
python -m scrapely.tool [command arg …] とは テンプレートの情報を保存するファイル名
提供されているコマンドの a や ta などはそれぞれ annotate add_template などのエイリアスコマンド。
コマンド名
説明
add_template
add_template {url} [–encoding ENCODING] – (alias: ta)
annotate
annotate {template_id} {data} [-n number] [-f field]- add or test annotation (aliases: a, t)
del_template
del_

サイト名: Qiita

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する