HOME/ AINOW編集部 /機械学習におけるデータの重要性とは?基礎から実用化まで徹底解説!
2020.09.16

機械学習におけるデータの重要性とは?基礎から実用化まで徹底解説!

AINOWライターの本田くれあです。データの重要性が大きく問われる今、データの扱い方から活用までデータに関する知識が必要になります。

この記事では、あらゆるデータの種類やデータの取り扱い方についてご紹介します。

機械学習とは

機械学習とは、人間が持つ「学習」にあたる仕組みを機械で実装するAIの要素技術の1つです。

特に機械学習の手法として「ディープラーニング(深層学習)」が注目されています。機械学習について詳しくは以下の記事をご参考ください。

▼関連記事

機械学習におけるデータの重要性

機械学習に必要なデータ

機械学習には目的に応じてさまざまなデータが必要になっていきます。

またデータの質や量によって結果の精密度も変化していきます。それほど機械学習においてデータは重要なものです。

そのデータから特徴量を取ることが機械学習の最も重要な部分でもあります。

機械学習で主に使われる以下の4つのデータを紹介していきたいと思います。

    • 画像データ
      画像データは主に画像解析などに使われます。画像解析では、何が写っているのかを分類したり、全体として何の画像であるかを認識する「分類」と、どこに何が写っているのかを検出したり、領域(セグメンテーション)を検出する「検出」の2種類が代表的な活用です。
    • 音声データ
      音声データは主に音声認識に使われます。音声認識は、音声データをコンピュータに認識させ、文字変換する活用が代表的です。音声データは、会議の議事録の生成などだけではなく、電話の自動応答などにも活用されています。また、Amazon AlexaやLINE Clovaなどのスマートスピーカーが注目されており、画像認識だけでなく音声認識も話題になっています。
    • テキストデータ
      テキストデータは文字列で構成されていて、表敬式のデータのようにコンピュータがそのまま処理することができません。そのままでは特徴量としては使えないため、テキストに出現する単語情報を数値に変換するプロセスが必要です。最近ではチャットボットやスマートスピーカーが代表的な活用事例として取り上げられています。
    • 数値データ
      数値データは最も扱いやすいデータで機械学習においても最も活用が進んでいると言えるでしょう。過去のデータを元に、分析を行う統計的な手法だけでなく、異常なデータを検知する異常検知や、将来の数値を予測する予測も活用が進んでいます。また、元のデータを数値データに変換しから処理する方法がよく使われます。

 

 

 

▼特徴量について詳しくはこちら

機械学習にはそのままデータを使うことができない

データを機械学習で学習できるようにするアノテーションとは

上記に掲げたデータは、そのほとんどがそのまま機械学習(教師あり学習)で活用することはできません。データをコンピュータが理解し、学習できるように整理してあげる必要があります。

この作業を「アノテーション」と呼びます。アノテーションとは簡単に言うと、「データにタグをつける作業」のことです。画像などのデータに意味付け・紐付けを行い、お互いに組み合わせる役割を持っています。

学習データが及ぼす正答率への影響

教師あり学習」においてアノテーションは正答率(精度)に大きく影響を及ぼします。

教師あり学習とは、正解がわかっているデータを元に、そのデータのルールやパターンを学習し、分析モデルとして出力する機械学習の一つの手法です。

大量のデータを学習し、法則性などを学習することで、正解がまだわからない新たなデータを新たにインプットして、学習時に決められたルールやパターンを元に認識・予測することが可能になります。

この分析モデルを作るためにアノテーションは重要な作業になります。

データセットはアノテーション済みの場合も

アノテーションはデータが多ければ多いほど時間もかかり大変な仕事です。公開されているデータセットには、アノテーション済みのものもあり、作成する機械学習モデルに必要なデータが揃っているデータセットがあれば、積極的に使った方が効率よく正答率も上げることができるでしょう。

データセットとは?

機械学習におけるデータセットの重要性

まずデータセットとは、プログラムで処理されるデータの集合体で、機械学習において最も重要な存在とされています。

機械学習では一般的に、トレーニングセット・バリデーションセット・テストセットの3種類のデータセットを使用します。この3種類のデータセットを簡単に説明します。

  • トレーニングセット:分類器(機械学習モデル)のパラメータを更新するための学習用データ
  • バリデーションセット:手動で設定するパラメータの良し悪しを確かめるための検証用データ
  • テストセット:学習後に汎化性能を確かめるために、最後にテストデータ

 

このように、機械学習を行うためには目的が異なるいくつかのデータセットを使用する必要があります。

AINOWでは、Web上で公開されているオープンデータセット100選を公開しています。合わせて参考にしてみてください。

▼参考記事

データの取り扱い方

データクレンジング

データの質が重要視される機械学習において、データのクレンジングは必要不可欠です。

データクレンジングとは、データの中から、重複や誤記、表記の揺れなどを探し出し、削除や修正してデータを処理しやすくすることです。何も手が加えられていないデータでは処理時にエラーが起きたり、正確な結果が得られないので、まずはデータの品質を高めることが大切です。

著作権などについて

機械学習では多くのデータを扱うため、さまざまな権利関係に留意して扱う必要があります。

例えば、AIの学習時に他の人が撮った写真の画像を100回読み込みたいという場合は原則的に問題ありません。2019年1月の著作権法改正で、明文化されました。

1月の改訂項目のうち「デジタル化・ネットワーク化の進展に対応した柔軟な権利制限規定の整備」の中で、

  1. 他人の著作物(画像や音楽などのコンテンツ)を利用する場合であっても、AIによる情報解析や技術開発など、視聴者等の知的・精神的欲求を満たす効力を得ることに向けられた行為でなく、著作物を享受する目的で利用しない場合(著作物の非享受利用)
  2. 新たな知見や情報を創出することで著作物の利用促進に資する行為で、著作者に与える不利益が軽微である一定の利用を行う場合(著作物の軽微利用)

には、著作権者の同意がなくとも付随的な利用が認められることとなりました。

データを蓄積する上で重要なデータマネジメント

データを蓄積するデータベース・データレイクとは?

データベースとは、ある特定の条件に当てはまる「データ」を複数集めて、使いやすい形に整理したものです。

データベースを活用することによって、

  • データの管理・共有
  • データの分類・検索
  • 基幹ソフト・システムとの連携
  • ブラウザでの直感的な利用
  • セキュリティ強化

が期待できます。例えば、Webサイトでのユーザー情報やECサイト上の商品情報を管理したり抽出するためなどに使われます。

データレイクとは

データレイクとは、ビッグデータをそのまま(生データのまま)格納できるストレージリポジトリのことです。特に、音声や動画、SNSのログなどを含むさまざまな形式のデータをそのままの形式で貯めておけるのが利点です。

企業におけるデータマネジメントが重要になっている

まずデータマネジメントとは、その名の通り、データをマネジメント(管理・引用する)ことです。

データの重要性が高まるいま、データは企業においてお金に匹敵する資本となっています。

データマネジメントによって、データを安心・安全・簡単に活用できるようになります。

データ分析や機械学習においても、管理されていないデータを使うことは何かと不便です。このようにデータマネジメントは企業にとって重要になっています。

以下の記事では、機械学習に必要なデータマネジメントの秘訣などが詳しく書かれています。

▼関連記事

まとめ

データに関する専門用語も何気にたくさんあるのでそういう用語から覚えていくこともデータ活用では必要なことです。

まずはどんなデータがあって、どのデータが今自分がやりたいことに必要なのか、を理解することが大事です。それからデータを整え、処理する、データを扱うに当たってしっかりとステップを踏むことが重要です。

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する

あなたにおすすめの記事

生成AIで“ウラから”イノベーションを|学生起業家が描く、AIを活用した未来

特許技術×AIでFAQを次のステージへ|Helpfeel

GPUの革新からAI時代の主役へ|NVIDIA

あなたにおすすめの記事

生成AIで“ウラから”イノベーションを|学生起業家が描く、AIを活用した未来

特許技術×AIでFAQを次のステージへ|Helpfeel

GPUの革新からAI時代の主役へ|NVIDIA