AINOWライターの本田くれあです。データの重要性が大きく問われる今、データの扱い方から活用までデータに関する知識が必要になります。
この記事では、あらゆるデータの種類やデータの取り扱い方についてご紹介します。
目次
機械学習とは
機械学習とは、人間が持つ「学習」にあたる仕組みを機械で実装するAIの要素技術の1つです。
特に機械学習の手法として「ディープラーニング(深層学習)」が注目されています。機械学習について詳しくは以下の記事をご参考ください。
▼関連記事
機械学習におけるデータの重要性
機械学習に必要なデータ
機械学習には目的に応じてさまざまなデータが必要になっていきます。
またデータの質や量によって結果の精密度も変化していきます。それほど機械学習においてデータは重要なものです。
そのデータから特徴量を取ることが機械学習の最も重要な部分でもあります。
機械学習で主に使われる以下の4つのデータを紹介していきたいと思います。
|
▼特徴量について詳しくはこちら
機械学習にはそのままデータを使うことができない
データを機械学習で学習できるようにするアノテーションとは
上記に掲げたデータは、そのほとんどがそのまま機械学習(教師あり学習)で活用することはできません。データをコンピュータが理解し、学習できるように整理してあげる必要があります。
この作業を「アノテーション」と呼びます。アノテーションとは簡単に言うと、「データにタグをつける作業」のことです。画像などのデータに意味付け・紐付けを行い、お互いに組み合わせる役割を持っています。
学習データが及ぼす正答率への影響
「教師あり学習」においてアノテーションは正答率(精度)に大きく影響を及ぼします。
教師あり学習とは、正解がわかっているデータを元に、そのデータのルールやパターンを学習し、分析モデルとして出力する機械学習の一つの手法です。
大量のデータを学習し、法則性などを学習することで、正解がまだわからない新たなデータを新たにインプットして、学習時に決められたルールやパターンを元に認識・予測することが可能になります。
この分析モデルを作るためにアノテーションは重要な作業になります。
データセットはアノテーション済みの場合も
アノテーションはデータが多ければ多いほど時間もかかり大変な仕事です。公開されているデータセットには、アノテーション済みのものもあり、作成する機械学習モデルに必要なデータが揃っているデータセットがあれば、積極的に使った方が効率よく正答率も上げることができるでしょう。
データセットとは?
機械学習におけるデータセットの重要性
まずデータセットとは、プログラムで処理されるデータの集合体で、機械学習において最も重要な存在とされています。
機械学習では一般的に、トレーニングセット・バリデーションセット・テストセットの3種類のデータセットを使用します。この3種類のデータセットを簡単に説明します。
|
このように、機械学習を行うためには目的が異なるいくつかのデータセットを使用する必要があります。
AINOWでは、Web上で公開されているオープンデータセット100選を公開しています。合わせて参考にしてみてください。
▼参考記事
データの取り扱い方
データクレンジング
データの質が重要視される機械学習において、データのクレンジングは必要不可欠です。
データクレンジングとは、データの中から、重複や誤記、表記の揺れなどを探し出し、削除や修正してデータを処理しやすくすることです。何も手が加えられていないデータでは処理時にエラーが起きたり、正確な結果が得られないので、まずはデータの品質を高めることが大切です。
著作権などについて
機械学習では多くのデータを扱うため、さまざまな権利関係に留意して扱う必要があります。
例えば、AIの学習時に他の人が撮った写真の画像を100回読み込みたいという場合は原則的に問題ありません。2019年1月の著作権法改正で、明文化されました。
1月の改訂項目のうち「デジタル化・ネットワーク化の進展に対応した柔軟な権利制限規定の整備」の中で、
- 他人の著作物(画像や音楽などのコンテンツ)を利用する場合であっても、AIによる情報解析や技術開発など、視聴者等の知的・精神的欲求を満たす効力を得ることに向けられた行為でなく、著作物を享受する目的で利用しない場合(著作物の非享受利用)
- 新たな知見や情報を創出することで著作物の利用促進に資する行為で、著作者に与える不利益が軽微である一定の利用を行う場合(著作物の軽微利用)
には、著作権者の同意がなくとも付随的な利用が認められることとなりました。
データを蓄積する上で重要なデータマネジメント
データを蓄積するデータベース・データレイクとは?
データベースとは、ある特定の条件に当てはまる「データ」を複数集めて、使いやすい形に整理したものです。
データベースを活用することによって、
|
が期待できます。例えば、Webサイトでのユーザー情報やECサイト上の商品情報を管理したり抽出するためなどに使われます。
データレイクとは
データレイクとは、ビッグデータをそのまま(生データのまま)格納できるストレージリポジトリのことです。特に、音声や動画、SNSのログなどを含むさまざまな形式のデータをそのままの形式で貯めておけるのが利点です。
企業におけるデータマネジメントが重要になっている
まずデータマネジメントとは、その名の通り、データをマネジメント(管理・引用する)ことです。
データの重要性が高まるいま、データは企業においてお金に匹敵する資本となっています。
データマネジメントによって、データを安心・安全・簡単に活用できるようになります。
データ分析や機械学習においても、管理されていないデータを使うことは何かと不便です。このようにデータマネジメントは企業にとって重要になっています。
以下の記事では、機械学習に必要なデータマネジメントの秘訣などが詳しく書かれています。
▼関連記事
まとめ
データに関する専門用語も何気にたくさんあるのでそういう用語から覚えていくこともデータ活用では必要なことです。
まずはどんなデータがあって、どのデータが今自分がやりたいことに必要なのか、を理解することが大事です。それからデータを整え、処理する、データを扱うに当たってしっかりとステップを踏むことが重要です。
■AI専門メディア AINOW編集長 ■カメラマン ■Twitterでも発信しています。@ozaken_AI ■AINOWのTwitterもぜひ! @ainow_AI ┃
AIが人間と共存していく社会を作りたい。活用の視点でAIの情報を発信します。