最終更新日:
AIの高まりとともにデータの大切さが再認識される今、オープンにさまざまなデータが公開され、気軽に活用できるようになっています。
オープンデータの存在は、膨大なデータから学習を行う機械学習にとって不可欠で、構築したいAIに合わせてオープンデータを選択し、活用することが必要です。
一方、オープンデータのみでは競合優位性のあるAIは構築できません。マクロなオープンデータと、独自に収集したミクロなデータを組み合わせて、独自のAIを構築していくことが重要です。
オープンデータを活用したサービスを構築する際には、サービスのUX(ユーザー体験)を高め、いかにユニークなデータを取得できるかが勝負なのでオープンデータに頼りすぎないようにしましょう。
今回、オープンデータ・データセットを6カテゴリに分類し、100個選出しました。自身のサービスやAIの構築に活かせそうなデータを探してみてください。
オープンデータ・データセット100選
データセットカタログ・データセットまとめ
日本政府が公開する、二次利用が可能な公共データの案内・横断的検索を目的としたオープンデータのデータカタログサイト。
国立情報学研究所(NII)のデータセット共同利用研究開発センター(DSC)が運営するデータセットの共同利用事業です。民間企業や大学等研究者のデータを研究者のために提供しています。
さまざまなテーブルデータの変換と公開をサポートするサイトです。
Kaggleは予測モデル・分析を競い合うプラットフォームで、さまざまなデータセットをダウンロードできます。
ハーバード大学が公開してるデータセットです。機械学習などに利用可能な約500近くのデータセットを公開。
カルフォルニア大学アーバイン校が公開しているデータセット。約400件ほどのデータセットが公開されています。
様々な米国政府機関のオープンデータ。14のトピックからさまざまなデータをダウンロードできます。
日本の統計が閲覧できる政府統計ポータルサイトです。
redit.comが管理するデータセットを共有し合うための掲示板サイトです。
楽天技術研究所が公開しているデータセットです。楽天の商品レビューやアノテーション付き文字画像を公開しています。
Googleのデータセット検索サービス。2020年に正式リリースされました。
フェイスブックリサーチが公開するデータセットです。
Amazon AWSのパブリックデータセット。画像分類や自然言語処理の学習に使えるデータセットなどを公開しています。AWSとも連携可能です。
Microsoftのオープンデータを検索ダウンロードできます。Azure連携可能です。
カテゴリ別に機械学習を行う際に利用可能なデータセットについてまとめています。
こちらも機械学習を行う際に利用可能なデータセットについてまとめています。
データセットのなかでも高品質で使いやすいオープンデータをまとめています。
アリゾナ大学がまとめたデータセットです。
ネットワーク分析などに利用可能なデータセットをまとめています。
Yahoo! Labsが公開しているデータセットです。
画像
セマンティックセグメンテーションのためのアノテーション付きデータセット。
ワシントン大学で行われている顔認識アルゴリズムの公開競技で用いられる、ノイズデータを混ぜた顔認識と大規模なデータセット。
機械学習初心者が最初に使うとも言われる手書き数字画像のデータセット。
CIFAR-10は10クラスの60000 32×32カラーイメージで構成され、クラスごとに6000イメージがあり、 50000個のトレーニング画像と10000個のテスト画像があります。CIFAR-100はそれぞれ600個の画像を含む100個のクラスがあり、クラスごとに500のトレーニング画像と100のテスト画像があります。
オブジェクトクラス認識用の標準化された画像データセット、データセットと注釈にアクセスするためのツールの共通セットを提供します。
ファッションの画像としてTシャツ、ズボン、ドレス、スニーカーなど10個のカテゴリでラベリングされているデータセットです。
80万以上、50カテゴリからなるファッション画像データセットです。
101,000個の食品画像を101個のカテゴリでラベリングされているデータセットです。
Googleが公開している、画像レベルのラベル・オブジェクトの境界ボックス・オブジェクトのセグメンテーションマスク・視覚的関係がアノテーションされた最大900万の画像のデータセットです。
1,400万枚以上のデータセットがあり、文字列検索をすると検索単語に合ったクラスが出てくるのでデータ取得しやすくなっています。
画像サイトFlickerからの画像データセットでその数1億以上。
アテネ国立工科大学が公開するアノテーション付き世界の都市画像データやロゴ画像データを提供します。
TinyImagesデータセットは、それぞれ32×32カラー画像である79,302,017個の画像で構成されています。
シーン認識・分類に利用できる、899のカテゴリと130,519の画像を含む広範囲のシーン認識(SUN)データベースです。
COCOは、大規模なオブジェクト検出、セグメンテーション、およびキャプションデータセットです。
都市交通で記録されたデータセット。解像度1024×440の修正された5000のステレオ画像ペアで構成されています。 500フレーム(シーケンスの10フレームごと)には、ピクセルレベルのセマンティッククラスアノテーションが5つのクラス(地上、建物、車両、歩行者、空)に含まれています。
ドイツのシンポジウムでのコンペ用データセットで、工業製品における表面の傷など欠陥を検出するための画像データセットです。
機械学習のモデルが間違いを犯すように意図的に用意されたデータセット。
手書き数字MNISTとは異なり、こちらは崩した手書き数字や漢字のデータセットです。
クラスごとに約200枚の画像を含む37カテゴリのペット画像データセットです。
スタンフォード大学のドローンから撮影された画像データセットです。
40個の属性注釈が付いた20万以上の有名人の画像を含む大規模な顔属性データセットです。
DeepfakesやFace2Faceなどによって生成される、人のフェイク画像を検出するためのデータセットです。
屋内シーン認識モデルのための屋内画像データセットです。67の屋内カテゴリと合計15620の画像が含まれています。
動画
Google研究チームが公開する、4800件のナレッジグラフのエンティティでタグ付けされた800万本ものYouTube動画のデータセットです。1000クラスの約237Kセグメントで人間が検証したラベルを収集しています。
こちらは動画にバウンディングボックスがラベリングされたの大規模なデータセットです。 データセットは、24万のさまざまな一般公開のYouTubeビデオから抽出された約380,000の15-20のビデオセグメントで構成され、編集や後処理を行わずに自然な設定でオブジェクトを自動的に選択することができます。
Deep Mindが公開している、約65万もの動画に楽器の演奏などの人間とオブジェクトの相互作用、握手など行動にラベルが付与されている動画データセットです。
セントラルフロリダ大学が提供している、UCF101は、YouTubeから収集された101のアクションカテゴリを持つ動画認識データセットです。50のアクションカテゴリを持つUCF50データセットの拡張です。 行動分類が付与されている101個のアクションカテゴリのビデオは25個のグループにグループ化され、各グループはアクションの4〜7個のビデオで構成されています。
twentybnが公開しているハンドジェスチャーのラベルが付与された動画データセットとなります。約15万もの動画に27個のハンドジェスチャーのラベルが付与されています。
MITとIBM が共同で研究しているプロジェクトで、3秒の動画にアクションラベルが付与されている動画データセットです。
キッチンでの作業にアクションラベルが付与されている動画データセットです。ブリストル大学・トロント大学・カタニア大学の研究チームが公開しています。
動画キャプションデータセットです。79,822万本の動画にその内容を記述する399,233個の日本語キャプションが付与されています。
カリフォルニア大学バークレー校のAIラボ(BAIR)が公開する運転中の動画データセットです。10秒の動画に道路オブジェクトのバウンディングボックス、運転可能領域、車線のマーキングなどのラベルが付与されています。
Googleが公開する、人の動作を認識するためのデータセットで、57,000件の動画に歩く動作や飛ぶ動作などの80種類のラベルが付与されています。
音声
スタンフォード大学のポストドクターが公開する、自動音楽構成システムを構築するためのデータセットです。 397タイトルの計5278曲が含まれています。
redditで公開されているMIDIデータを収集した大規模なデータセット。
オープンソースの研究プロジェクトMagentaが公開する、1,006もの楽器による単音が30万ほど収録されているデータセット。
Googleが公開する、10秒程度の音に人間の声や動物の鳴き声、そして楽器などのラベルが付与されてます。
約540時間の通常の機械操作音と、48kHzのサンプリングレートで4つのマイクで収集された異常音の12,000以上のサンプルの機械操作音データセットです。
Flickr 8kオーディオキャプションコーパスは、8,000件の自然画像に40,000件の音声キャプションが含まれており、教師なし音声パターン発見のためのデータセットです。
ドイツのハンブルグ大学が公開している、英語、ドイツ語、オランダ語のウィキペディアの記事の音声ファイルをアライメントしたコーパス。アライメントされた数百時間分の音声が含まれる。アノテーションは元のHTMLにマッピングすることができます。
Googleが公開する、Tensorflow向けの音声認識のための声のデータセットです。30種類の短い単語を発音した長さ 1 秒の 65,000 個のデータが含まれています。
音声分離のためのデータセット。ドラム、ベース、ボーカルなどのジャンル150曲の音楽トラックデータを提供しています。
Mozillaが展開する音声データセット収集プロジェクト「Common Voice」から42,000貢献者、18言語、約1,400時間の音声データが公開されています。
日本声優統計学会が公開する、独自に構築した音素バランス文、及びそれらをプロの女性声優 3 名が 3 パターンで読み上げた音声コーパスデータセットです。
さまざまな音声コーパスリストをまとめているページです。
テキスト
京都大学の黒橋・河原・村脇研究室が公開しており、自然言語処理用のツールやデータセットの情報をまとめています。
著作権が消滅した作品や著者が許諾した作品のデータを公開しています。
青空文庫の作品に対し、形態素解析を行ったCSVデータを取得できます。
機械翻訳システムの構築に利用できる対訳コーパス、対訳辞書などを公開しています。
5万文をやさしい日本語(平易な日本語語彙)に書き換えた対訳コーパスです。本コーパスには英訳も付与されており、英語、日本語、やさしい日本語の3者が文単位で対応した対訳コーパスになっています。
ツイートの評判情報をクラウドソーシングにより分析し、分析結果を公開しています。
日本語の感情表現を集めた辞書。約2,000表現に対して、楽しさ親しみ、尊敬・尊さ、感動、喜び、悲しさなど48分類の感情を付与しています。
livedoorのクリエイティブ・コモンズライセンスが適用される記事のコーパスを公開しています。
クックパッドに掲載されている172万品のレシピや献立に関するデータを公開しています。
Wikipediaから情報を抽出してLOD (Linked Open Data)として公開するコミュニティプロジェクトです。
約3,500万件のアマゾンレビューを公開しています。
ニコニコ動画のサービス開始当初から2018年11月8日までに投稿された約1,670万件の動画のメタデータと,それに対する約38億件のコメントデータです。
Wikipediaの全文をデータセットとして公開しています。
50億以上のウェブページのクロールデータです。
Common Crawlから構造化データを抽出したデータです。
Facebook AI Researchの質問応答・対話・言語モデルといった様々なタスクのデータセット。
語順と構文構造が少し異なると意味が変わってしまう言い換えを克服するためのデータセットです。
首都大学東京自然言語処理研究室(小町研)が提供するコーパス・辞書・評価データセットです。
経済・金融
さまざまな各種金融・経済データセットを取得することがきます。Pythonでのデータ取得記事も多いです。
Kaggleで公開されている2012年1月から2019年8月までの1分間隔のビットコインデータです。
世界銀行のデータを簡単に検索、ダウンロードすることができます。
雇用、経済生産量、およびその他のマクロ経済変数に関するデータを公開しています。
2009年以降の米国株式市場データです。
S&P 500の毎日の始値、終値、高値、安値を含むCBOEボラティリティインデックス(VIX)時系列データセットです。
カリフォルニア大学アーバイン校が公開しており、週ごとのダウ平均株価を取得することができます。
メリーランド大学が公開している経済時系列データ。多数の米国政府機関によって作成され、さまざまな形式およびメディアで配布された数千の経済時系列を公開しています。
日本の金利情報(1974年以降)を公開しています。
120か国以上の20,000以上のマクロ経済指標を公開しています。
EUに関連する資料・統計を作成しており、貿易データを取得することができます。
日本経済新聞が公開しており、日経平均、日経アジア指数、JPX日経インデックス400などを取得することができます。
IMFの融資、為替レート、その他の経済および財務指標に関する一連の時系列データを公開しています。
株価や為替レートなどの証券情報を取得します。。Googleスプレッドシートの関数から取得することができます。
株式、為替レート、債券資産など様々な金融データを入手することができます。オハイオ州立大学が公開しています。
内閣府の使用するホストコンピューター・提出会社の使用するコンピューター・金融商品取引所(及び金融商品取引業協会)のコンピューターを結んだ、同法に基づく開示文書に関する電子情報開示システムとして、有価証券報告書、有価証券届出書、大量保有報告書等の開示書類を取得できます。
おわりに
これからも新しいデータが公開されていくため、データ活用の知識と技術力を身に着けておきたいところです。
特に機械学習の技術を学んでいる方は、オープンデータを用いて実際にモデルを構築してみるとよさそうです。
総務省では、オープンデータ活用事例集を公開しているのでぜひ参考にしてみてください。
◇AINOWインターン生
◇Twitterでも発信しています。
◇AINOWでインターンをしながら、自分のブログも書いてライティングの勉強をしています。