Wikipediaの大量データをMySQLに保存する


仕事でビッグデータとか機械学習周りの分野に手を出していきたい今日この頃なのですが、練習に業務用データを使うわけにもいきません。幸いWikipediaが全コンテンツを配布してくれているのでこのデータを取り込んでみました。

Wikipedia配布データの取得
Wikipediaのデータ配布については、サイト内の Wikipedia:データベースダウンロード ページに情報があります。
ここから配布先の ページに飛ぶと、各用途に応じてテキストファイル、XML、MySQLのダンプが配布されています。
今回はページ情報とカテゴリ・ページ間のリンク情報、ページ間のリンク情報を取得してみました。
ページ情報
jawiki-latest-page.sql.gz
カテゴリ間のリンク情報
jawiki-latest-categorylinks.sql.gz
ページ間のリンク情報
jawiki-latest-pagelinks.sql.gz

解凍
ダウンロードしたら解凍しておきます。
jawiki-latest-categorylinks.sql
jawiki-latest-pagelinks.sql
jawiki-latest-page.sql

MySQLへインポート
お手元のMySQLにログインして適当なdatabaseを準備します。

mysql> create database jawikipedia;

後は順次インポートしていくだけです。

$ mysql -u root jawikipedia この記事の続きを読む

サイト名: Qiita - MySQL

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する


Leave a Reply

Your email address will not be published.