【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう！

CIFAR-10は10クラスの60000 32×32カラーイメージで構成され、クラスごとに6000イメージがあり、 50000個のトレーニング画像と10000個のテスト画像があります。CIFAR-100はそれぞれ600個の画像を含む100個のクラスがあり、クラスごとに500のトレーニング画像と100のテスト画像があります。

Pascal VOC Dataset

オブジェクトクラス認識用の標準化された画像データセット、データセットと注釈にアクセスするためのツールの共通セットを提供します。

Fashion-MNIST

ファッションの画像としてTシャツ、ズボン、ドレス、スニーカーなど10個のカテゴリでラベリングされているデータセットです。

Deep Fashion

80万以上、50カテゴリからなるファッション画像データセットです。

Food 101

101,000個の食品画像を101個のカテゴリでラベリングされているデータセットです。

Google Open Image V4

Googleが公開している、画像レベルのラベル・オブジェクトの境界ボックス・オブジェクトのセグメンテーションマスク・視覚的関係がアノテーションされた最大900万の画像のデータセットです。

ImageNet

1,400万枚以上のデータセットがあり、文字列検索をすると検索単語に合ったクラスが出てくるのでデータ取得しやすくなっています。

CoPhIR

画像サイトFlickerからの画像データセットでその数1億以上。

Flickr Logos dataset

アテネ国立工科大学が公開するアノテーション付き世界の都市画像データやロゴ画像データを提供します。

Tiny Images Dataset

TinyImagesデータセットは、それぞれ32×32カラー画像である79,302,017個の画像で構成されています。

SUN dataset

シーン認識・分類に利用できる、899のカテゴリと130,519の画像を含む広範囲のシーン認識（SUN）データベースです。

COCO – Common Object in Context

COCOは、大規模なオブジェクト検出、セグメンテーション、およびキャプションデータセットです。

Daimler Urban Segmentation Dataset

都市交通で記録されたデータセット。解像度1024×440の修正された5000のステレオ画像ペアで構成されています。 500フレーム（シーケンスの10フレームごと）には、ピクセルレベルのセマンティッククラスアノテーションが5つのクラス（地上、建物、車両、歩行者、空）に含まれています。

DAGM 2007

ドイツのシンポジウムでのコンペ用データセットで、工業製品における表面の傷など欠陥を検出するための画像データセットです。

Natural Adversarial Examples

機械学習のモデルが間違いを犯すように意図的に用意されたデータセット。

rois-codh/kmnist

手書き数字MNISTとは異なり、こちらは崩した手書き数字や漢字のデータセットです。

The Oxford-IIIT Pet Dataset

クラスごとに約200枚の画像を含む37カテゴリのペット画像データセットです。

Stanford Drone Dataset

スタンフォード大学のドローンから撮影された画像データセットです。

CelebA Dataset

40個の属性注釈が付いた20万以上の有名人の画像を含む大規模な顔属性データセットです。

FaceForensics

DeepfakesやFace2Faceなどによって生成される、人のフェイク画像を検出するためのデータセットです。

Indoor Scene Recognition

屋内シーン認識モデルのための屋内画像データセットです。67の屋内カテゴリと合計15620の画像が含まれています。

動画

YouTube-8M Dataset

Google研究チームが公開する、4800件のナレッジグラフのエンティティでタグ付けされた800万本ものYouTube動画のデータセットです。1000クラスの約237Kセグメントで人間が検証したラベルを収集しています。

YouTube-BoundingBoxes Dataset

こちらは動画にバウンディングボックスがラベリングされたの大規模なデータセットです。データセットは、24万のさまざまな一般公開のYouTubeビデオから抽出された約380,000の15-20のビデオセグメントで構成され、編集や後処理を行わずに自然な設定でオブジェクトを自動的に選択することができます。

Kinetics

Deep Mindが公開している、約65万もの動画に楽器の演奏などの人間とオブジェクトの相互作用、握手など行動にラベルが付与されている動画データセットです。

UCF101-Action Recognition Data Set

セントラルフロリダ大学が提供している、UCF101は、YouTubeから収集された101のアクションカテゴリを持つ動画認識データセットです。50のアクションカテゴリを持つUCF50データセットの拡張です。行動分類が付与されている101個のアクションカテゴリのビデオは25個のグループにグループ化され、各グループはアクションの4〜7個のビデオで構成されています。

20BN-JESTER DATASET V1

twentybnが公開しているハンドジェスチャーのラベルが付与された動画データセットとなります。約15万もの動画に27個のハンドジェスチャーのラベルが付与されています。

Moments in Time Dataset

MITとIBM が共同で研究しているプロジェクトで、3秒の動画にアクションラベルが付与されている動画データセットです。

EPIC KITCHENS

キッチンでの作業にアクションラベルが付与されている動画データセットです。ブリストル大学・トロント大学・カタニア大学の研究チームが公開しています。

STAIR Actions

動画キャプションデータセットです。79,822万本の動画にその内容を記述する399,233個の日本語キャプションが付与されています。

BDD100K: A Large-scale Diverse Driving Video Database

カリフォルニア大学バークレー校のAIラボ(BAIR)が公開する運転中の動画データセットです。10秒の動画に道路オブジェクトのバウンディングボックス、運転可能領域、車線のマーキングなどのラベルが付与されています。

Atomic Visual Actions (AVA)

Googleが公開する、人の動作を認識するためのデータセットで、57,000件の動画に歩く動作や飛ぶ動作などの80種類のラベルが付与されています。

音声

The NES Music Database

スタンフォード大学のポストドクターが公開する、自動音楽構成システムを構築するためのデータセットです。 397タイトルの計5278曲が含まれています。

The Largest MIDI Collection on the Internet

redditで公開されているMIDIデータを収集した大規模なデータセット。

NSynth Dataset

オープンソースの研究プロジェクトMagentaが公開する、1,006もの楽器による単音が30万ほど収録されているデータセット。

AudioSet

Googleが公開する、10秒程度の音に人間の声や動物の鳴き声、そして楽器などのラベルが付与されてます。

ToyADMOS-dataset

約540時間の通常の機械操作音と、48kHzのサンプリングレートで4つのマイクで収集された異常音の12,000以上のサンプルの機械操作音データセットです。

The Flickr Audio Caption Corpus

Flickr 8kオーディオキャプションコーパスは、8,000件の自然画像に40,000件の音声キャプションが含まれており、教師なし音声パターン発見のためのデータセットです。

The Spoken Wikipedia Corpora

ドイツのハンブルグ大学が公開している、英語、ドイツ語、オランダ語のウィキペディアの記事の音声ファイルをアライメントしたコーパス。アライメントされた数百時間分の音声が含まれる。アノテーションは元のHTMLにマッピングすることができます。

Speech Commands Dataset

Googleが公開する、Tensorflow向けの音声認識のための声のデータセットです。30種類の短い単語を発音した長さ 1 秒の 65,000 個のデータが含まれています。

MUSDB18

音声分離のためのデータセット。ドラム、ベース、ボーカルなどのジャンル150曲の音楽トラックデータを提供しています。

Mozilla Common Voice

Mozillaが展開する音声データセット収集プロジェクト「Common Voice」から42,000貢献者、18言語、約1,400時間の音声データが公開されています。

日本声優統計学会

日本声優統計学会が公開する、独自に構築した音素バランス文、及びそれらをプロの女性声優 3 名が 3 パターンで読み上げた音声コーパスデータセットです。

音声資源コンソーシアム

さまざまな音声コーパスリストをまとめているページです。

テキスト

自然言語処理のためのリソース

京都大学の黒橋・河原・村脇研究室が公開しており、自然言語処理用のツールやデータセットの情報をまとめています。

青空文庫

著作権が消滅した作品や著者が許諾した作品のデータを公開しています。

青空文庫形態素解析データ集

青空文庫の作品に対し、形態素解析を行ったCSVデータを取得できます。

日本語対訳データ

機械翻訳システムの構築に利用できる対訳コーパス、対訳辞書などを公開しています。

SNOW T15:やさしい日本語コーパス

５万文をやさしい日本語（平易な日本語語彙）に書き換えた対訳コーパスです。本コーパスには英訳も付与されており、英語、日本語、やさしい日本語の３者が文単位で対応した対訳コーパスになっています。

Twitter日本語評判分析データセット

ツイートの評判情報をクラウドソーシングにより分析し、分析結果を公開しています。

SNOW D18 日本語感情表現辞書

日本語の感情表現を集めた辞書。約2,000表現に対して、楽しさ親しみ、尊敬・尊さ、感動、喜び、悲しさなど48分類の感情を付与しています。

libedoor ニュースコーパス

livedoorのクリエイティブ・コモンズライセンスが適用される記事のコーパスを公開しています。

クックパッドデータセット

クックパッドに掲載されている172万品のレシピや献立に関するデータを公開しています。

DBpedia Japanese

Wikipediaから情報を抽出してLOD (Linked Open Data)として公開するコミュニティプロジェクトです。

Web data: Amazon reviews

約3,500万件のアマゾンレビューを公開しています。

ニコニコデータセット

ニコニコ動画のサービス開始当初から2018年11月8日までに投稿された約1,670万件の動画のメタデータと，それに対する約38億件のコメントデータです。

Wikipedia Links data

Wikipediaの全文をデータセットとして公開しています。

Common Crawl

50億以上のウェブページのクロールデータです。

Web Data Commons

Common Crawlから構造化データを抽出したデータです。

babi

Facebook AI Researchの質問応答・対話・言語モデルといった様々なタスクのデータセット。

PAWS

語順と構文構造が少し異なると意味が変わってしまう言い換えを克服するためのデータセットです。

首都大学東京自然言語処理研究室（小町研）

首都大学東京自然言語処理研究室（小町研）が提供するコーパス・辞書・評価データセットです。

経済・金融

Quandl

さまざまな各種金融・経済データセットを取得することがきます。Pythonでのデータ取得記事も多いです。

Bitcoin Historical Data

Kaggleで公開されている2012年1月から2019年8月までの1分間隔のビットコインデータです。

World Bank Open Data

世界銀行のデータを簡単に検索、ダウンロードすることができます。

U.S. macroeconomic data

雇用、経済生産量、およびその他のマクロ経済変数に関するデータを公開しています。

US Stock Data

2009年以降の米国株式市場データです。

finance-vix

S&P 500の毎日の始値、終値、高値、安値を含むCBOEボラティリティインデックス（VIX）時系列データセットです。

Dow Jones Index Data Set

カリフォルニア大学アーバイン校が公開しており、週ごとのダウ平均株価を取得することができます。

EconData

メリーランド大学が公開している経済時系列データ。多数の米国政府機関によって作成され、さまざまな形式およびメディアで配布された数千の経済時系列を公開しています。

財務省国債金利情報

日本の金利情報(1974年以降)を公開しています。

AssetMarco

120か国以上の20,000以上のマクロ経済指標を公開しています。

Eurostat Comext

EUに関連する資料・統計を作成しており、貿易データを取得することができます。

日経平均プロファイル

日本経済新聞が公開しており、日経平均、日経アジア指数、JPX日経インデックス400などを取得することができます。

IMF DATA

IMFの融資、為替レート、その他の経済および財務指標に関する一連の時系列データを公開しています。

Google Finance

株価や為替レートなどの証券情報を取得します。。Googleスプレッドシートの関数から取得することができます。

Financial Data Finder

株式、為替レート、債券資産など様々な金融データを入手することができます。オハイオ州立大学が公開しています。

EDINET

内閣府の使用するホストコンピューター・提出会社の使用するコンピューター・金融商品取引所（及び金融商品取引業協会）のコンピューターを結んだ、同法に基づく開示文書に関する電子情報開示システムとして、有価証券報告書、有価証券届出書、大量保有報告書等の開示書類を取得できます。

おわりに

これからも新しいデータが公開されていくため、データ活用の知識と技術力を身に着けておきたいところです。

特に機械学習の技術を学んでいる方は、オープンデータを用いて実際にモデルを構築してみるとよさそうです。

総務省では、オープンデータ活用事例集を公開しているのでぜひ参考にしてみてください。

宇城翔太

◇AINOWインターン生
◇Twitterでも発信しています。
◇AINOWでインターンをしながら、自分のブログも書いてライティングの勉強をしています。

【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう！

オープンデータ・データセット100選

データセットカタログ・データセットまとめ

画像

動画

音声

テキスト

経済・金融

おわりに

無料メールマガジン登録

あなたにおすすめの記事

議事録AIでZoom会議の効率を向上！3つの自動化術を解説

Web会議の議事録作成を効率化するAIツールの選び方とおすすめ5選

議事録AIツール「tl;dv」で効率化を実現する3つの方法

AIエージェントツールで始める業務革命、重要な5つのステップ

【ChatGPTで時短】議事録AIプロンプトの効率化テクニック5選｜コピペで使える例文付き

議事録AI活用で会議効率化！Teamsで始める4つの手法

AI議事録の情報漏洩を防ぐ5つの具体策と事例紹介

Google Meetの議事録を自動化！無料で使えるAIツール5選

# Google AI Studioで議事録を劇的に効率化する3つの秘訣

ミーティング議事録AI活用法：効率化の鍵になる5つの選び方

記事を探すならこちらから

無料でツールを掲載しませんか？

おすすめコンテンツ

メディアパートナー

あなたにおすすめの記事

議事録AIでZoom会議の効率を向上！3つの自動化術を解説

Web会議の議事録作成を効率化するAIツールの選び方とおすすめ5選

議事録AIツール「tl;dv」で効率化を実現する3つの方法

AIエージェントツールで始める業務革命、重要な5つのステップ

【ChatGPTで時短】議事録AIプロンプトの効率化テクニック5選｜コピペで使える例文付き

議事録AI活用で会議効率化！Teamsで始める4つの手法

AI議事録の情報漏洩を防ぐ5つの具体策と事例紹介

Google Meetの議事録を自動化！無料で使えるAIツール5選

# Google AI Studioで議事録を劇的に効率化する3つの秘訣

ミーティング議事録AI活用法：効率化の鍵になる5つの選び方

【保存版】オープンデータ・データセット100選 -膨大なデータを活用しよう！

オープンデータ・データセット100選

データセットカタログ・データセットまとめ

画像

動画

音声

テキスト

経済・金融

おわりに

無料メールマガジン登録

あなたにおすすめの記事

議事録AIでZoom会議の効率を向上！3つの自動化術を解説

Web会議の議事録作成を効率化するAIツールの選び方とおすすめ5選

議事録AIツール「tl;dv」で効率化を実現する3つの方法

AIエージェントツールで始める業務革命、重要な5つのステップ

【ChatGPTで時短】議事録AIプロンプトの効率化テクニック5選｜コピペで使える例文付き

議事録AI活用で会議効率化！Teamsで始める4つの手法

AI議事録の情報漏洩を防ぐ5つの具体策と事例紹介

Google Meetの議事録を自動化！無料で使えるAIツール5選

# Google AI Studioで議事録を劇的に効率化する3つの秘訣

ミーティング議事録AI活用法：効率化の鍵になる5つの選び方

人気の記事（週間）

記事を探すならこちらから

人気の記事（週間）

無料でツールを掲載しませんか？

おすすめコンテンツ

メディアパートナー

あなたにおすすめの記事

議事録AIでZoom会議の効率を向上！3つの自動化術を解説

Web会議の議事録作成を効率化するAIツールの選び方とおすすめ5選

議事録AIツール「tl;dv」で効率化を実現する3つの方法

AIエージェントツールで始める業務革命、重要な5つのステップ

【ChatGPTで時短】議事録AIプロンプトの効率化テクニック5選｜コピペで使える例文付き

議事録AI活用で会議効率化！Teamsで始める4つの手法

AI議事録の情報漏洩を防ぐ5つの具体策と事例紹介

Google Meetの議事録を自動化！無料で使えるAIツール5選

# Google AI Studioで議事録を劇的に効率化する3つの秘訣

ミーティング議事録AI活用法：効率化の鍵になる5つの選び方