もう勘とはおさらば! AI 分析のサービス紹介から分析プロセスまで細かく説明

AI分析とは?

AIによる分析によって機械が過去の傾向をもとに、未来や今の状況を推定することが可能になっています。

しかし機械学習でデータ分析する場合と、既存の技術でデータ分析する場合では分析のプロセスが異なり、難しく感じている方も多いかもしれません。

この記事ではAIで分析したくてもどうしたらいいのかわからないと言う方にAIを使ったデータ分析の全体像をお伝えします。

BIとAIの違い

まずはじめにAIと似ているBIツールの違いについて紹介します。データ分析のツールとしてBI(Business Intelligence)というものもあります。AIとBIはどちらも分析をする際に使うものですが、その用途や仕様はかなり異なるものです。

AIでは予測や判断をするためのパターンやルールを発見させる(「特徴量抽出」という)役割を機械が担います。

一方でBIは、その特徴量抽出を人間が担う際の手助けをするツールというイメージです。

つまりBIではあくまで人間が分析をする主体なのに対し、AIでは機械が主体です。
以下の画像がわかりやすいと思いますので参考にして見てください。

AINOW編集部作成

どんな分野に使われているか

AI(機械学習)は簡単に言うと機械(マシーン)による分析・予測をする方法の1つです。

AIによる分析は、例えば、MIERUCAのようなWebマーケティング分野から、CURONのようなヘルスケアに関する分野においてもAI分析は幅広く利用されており、AI分析は仕様方法を工夫すれば非常に多くの分野・業界で使える便利な分析ツールになります。。

以下のAI分析が含まれたサービスマップの記事を参考にしてください。

データ分析の事例を紹介〜データの種類別〜

どのような形でAIが分析ツールとして使われているのでしょうか。ここでは分析するデータの種類ごとに分け、紹介していきます。

Insight Techは文字から「本音」を分析する

テキストを分析・認識するいわば文字認識AIの一つである「ITAS(Insight Tech Text Analytics Service)」は「Insight Tech」がつくった文章解析サービスです。

Insight Tech HPより引用

文章解析サービスITASは3つのAI(意見タグAI・可視化AI・感情分類AI)から成るサービスです。

「Insight Tech」のホームページでは可視化された本音や隠れたナレッジが利用されている事例として、HRサービス会社の「Cbase」と提携した離職リスクを可視化する「スマレビ for リテンション」やLIONとの協同で、口臭不満をITASで解析することから生まれた「口臭ケアサポートアプリ」の開発といったものが紹介されています。

コカコーラがSNSを使って「ドリンキング・モーメント」を発掘

画像分析の分野の事例としては、日本コカコーラがブレインパッドと提携し、Google Cloud Vision APIを利用した例が面白いと思います。日本コカコーラはSNSを利用して、これまで見落としていた「ドリンキング・モーメント(ドリンクを飲むシーンのこと)」を抽出・分析することで、これまでは限界があった消費者の「本音」を知ることができるようになりました。

Coca-Cola India HPより引用

Empathは音声分析で感情を汲み取る

音声分析の分野では「Empath」のサービスは特筆すべきでしょう。

サービスの1つである「Web Empath API」は数万人の音声データベースを元に喜怒哀楽や気分の浮き沈みを判定する音声感情解析APIです。

別のサービスである「スマートコールセンター・システム」はコールセンターをAIを利用してアップデートしたものです。では、言葉では伝わらない微妙な顧客の感情をリアルタイムで図ることができます。より質の高いオペレーションをすることができる点でとても価値がるでしょう。

分析サービス企業5選!

データの分析の事例を紹介しましたが、そもそも「データ活用のコンサルティング会社を知りたい」というかたは以下の記事に5つピックアップされているのでぜひ参照してみてください。

AI分析にもやはりPython!!

上記のようなデータ分析の企業に依頼するのではなく自社で分析する場合、プログラミング言語はほとんどの場合で「Python」が使われる場合が多いです。
分析をする際に使うプログラミング言語といえば、「SPSS」や「R」なども思い浮かべますが、「Python」も非常に人気です。

「Python」と聞くとデータサイエンスやウェブ開発用のプログラミング言語のように思い浮かべると思いますが、データ分析でもよく使われるようです。

「Python」が調査したデータによると、Python導入企業のうち実に60%近い企業がデータ分析のために使用しているとのことでした。Pythonの用途は機械学習以外にも色々とあるようなので参考にしてみてください。

Python HPより引用

AIで分析するための必要なステップとは

ここからはAIで分析するために必要なステップを分解し、それぞれ解説していきます。
AI分析の主要ステップは以下の5つです。

  1. ビジネスゴールと分析ゴールの明確化
  2. データの準備
  3. データの前処理
  4. モデル作成
  5. モデルの評価(PoC)

AINOW編集部作成

ビジネスゴールと分析のゴールの明確化

「ビジネスゴール」とは経済的なインパクトのことです。例えば、売り上げが増加する、コストが削減されるなどです。

一方で、「分析ゴール」とはデータを分析して何かしらのアウトプットを出すということです。例えば、顧客のWeb上での行動を可視化するといったことです。

「ビジネスゴール」と「分析ゴール」の間は大きな隔たりがあります。

分析した結果がどのように役立てら、ビジネス上で経済的インパクトを出せるのかのロジックを明確にすることがこのフェーズでは必要です。

分析をする分野特有の知識や、そもそも問題として解決可能なのかを判断しなければなりません。

そのためプロジェクトの一番最初は「ビジネスゴール」と「分析ゴール」を明確にする必要があるのです。

必要なこと

このフェーズで必要なことは3つあります。「目的明確化」「業務フロー検討」「データ検討」です。

目的明確化
これは当たり前ですが重要です。「なんとなく人工知能を入れてみたい」「AIを入れれば何か変わるんでしょ」という考えでプロジェクトがスタートしてしまうと、バイアスがかかっている状態で始まり、適切な判断や意思決定ができなくなることもあるそうです。

「そもそもAIを使う必要はないのでは?」というスタンスでいることも大事です。

業務フロー検討
導入したAIを誰がどのタイミングでどのように使うかということを検討する必要もあります。運用・保守といったシステムを維持するためのコストも検討しなければいけません。

データ検討
目的を明確にできたら、AIにどのようなデータを入れれば目的を達成できそうなのかを仮説立てします。データをよく観察せずに、無加工でAIに分析させることは不可能ではないですが、それではAIの分析力が無駄になってしまう可能性があります。

  • AI分析に入れるデータを観察するときに必要と思われる指標は、
  • 機械学習に向いているデータの状態
  • 学習データが多い
  • 学習データが安定している
  • 例外的なデータが少ない

などなので、これらの指標を元にデータの観察をするといいでしょう。

データの準備

分析の要件が明確になったら次は必要なデータの準備をする段階に入ります。
データ準備で気をつける必要があるポイントは4つあります。

  • 既存データは5W2Hで探す(詳しくは以下の図を参照)
  • オープンデータはあくまで補助である
  • 足りないデータは作成する
  • 一度分析を始めてからデータを追加する

既存データは5W2Hで探す
社内にある全データを満遍なく集めることは困難なため、5W2Hに沿ってデータを剪定するといいでしょう。そうすることで、もれなくデータを集められます。5W2Hのデータの情報の例は以下の図のようになります。

AINOW編集部作成

オープンデータはあくまで補助
時として社内に現存するデータでは足りないこともあります。そのような場合はオープンデータや外部データの追加を考慮します。「政府統計 e-Stat」「DATA.GOV」をはじめとして、世界中にオープンデータは存在します。

しかし、オープンデータはいつ使用できなくなるかが不明であり、データのフォーマットが変わる可能性もあるため、AI分析のように継続して運用する必要のあるシステムの場合、オープンデータはあくまで補助データとして使用するのが良いでしょう。

足りないデータは作成する
オープンデータでも足りない場合はデータを新たに作ることも視野に入れましょう。クラウドソーシングすることで安い費用でデータを作成できることもあります。

一度分析を始めてからデータを追加する
「どのくらいのデータを足せば良いのかを教えてほしい」という意見はしばしば出るそうですが、AIでの分析をする際に必要なデータの種類や量の正解はありません。

意外かもしれませんが、闇雲にデータを入れるのではなく、初めは簡単なデータから分析を始め、一度分析したのちに、追加データを入力する方が効率的なこともあるようです。

以下の図はそのプロセスを図式化したものになります。

AINOW編集部作成

データの前処理

データを集めた次は、データの前処理段階に移行します。
一連のプロセスの中で最も時間がかかるのがデータの前処理(データの学習より前に行う処理のこと)で、実は全体の8割の工数がここにかかるという統計データも出ています。
またIBMによると、AIの分析にすぐに使えるデータは全体の約3割程度だそうです。

データ加工プロセス

ここでは時間がかかる要因である、データの加工について分解して説明します。

    • 目的変数の加工
      どの分析でも当たり前ですが、AI分析でも目的変数(求めたいもの)を加工しなければなりません。(ちなみに「説明変数」が「求めたいものに影響するもの」です)
      「グループ化」や「ラベル化」などが主な手法でしょう。
    • 説明変数の加工(特徴量加工)
      説明変数の加工(特徴加工とも言われる)も精度向上に必要になる場合が多いです。主な方法は「平滑化」や「自己回帰変数」などでしょう。
    • 異常値処理
      目的変数・説明変数ともに異常な値があると、学習がうまくいかないので、データ学習の前に削除や編集をします。
    • 学習データ数加工
      学習させるデータ数に大きな偏りがあると、人にとって違和感のある結果をAIが出す可能性があります。データ数の偏りをなくすために「リサンプリング」という処理を行ったり、「アンダーサンプリング」や「オーバーサンプリング」という処理を行うこともあります。
    • 画像データの加工
      画像データを処理する際に「解像度が異常に低い」や「サイズが異常に小さい」、そもそも「学習する上で意味のない画像」などがあるので異常データの判断ルールを作り、異常データを抽出することが大事です。
      尚、その際によく使われるの手法が「データオーグメンテーション」という手法です。
    • テキストデータの加工
      テキストデータにおいて異常となっている種類としては「文字数が少ない」や「誤字・脱字がある」といったことが挙げられます。また自然言語データのみの場合と、自然言語データと数値の混合の場合では、学習方法は違うので、そこも考慮に入れましょう。

データの前処理の面倒臭さとはおさらば?

以下の記事に書かれている「nehan」のように、データの前処理を極力減らしてコスト削減などを目指すサービスも徐々に出てきています。これらを利用することも考慮すると良いでしょう。

以下の記事にはデータの前処理に際して必要最低限知っておくべき情報が記載されているので一読してみることをオススメします。

モデル作成

ここまでくると、いよいよモデル作成の段階に入っていきます。

モデル作成とはどのアルゴリズムにどのデータを入れるかを検討することです。 現在利用されているものだけでもおよそ20ものアルゴリズムがあります。

以下の記事で紹介されている本では丁寧にアルゴリズムについて説明されているので参照してみてください。
機械学習のアルゴリズム17種をフルカラーで紹介 『機械学習図鑑』発売

また、アルゴリズムの選定は「scikit-learn」の「cheet sheet」を利用して判別すると比較的容易にできるでしょう。

このフェーズではまず以下の2点を考慮すべきでしょう。

  • 業務フローに合ったアルゴリズムを選ぶこと
  • データ数とアルゴリズムの相性を検討すること

まず、アルゴリズムを検討する際に重要なことは「ビジネスゴールと分析のゴールの明確化」の部分で作成した「業務フロー」に沿ったアルゴリズムを選ぶことです。

例えば、機械学習が出した予測結果などを人が理解する必要性が高い場合には、「ディープラーニング」など人が分析結果を解釈するのが難しいアルゴリズムよりも「回帰分析」や「ランダムフォレスト」のような解釈性の高いアルゴリズムを選ぶのが良いです。

また、「データ数とアルゴリズムの相性」も非常に大事です。データ数が少ないときはシンプルなアルゴリズム(決定木やSVMなど)が適している一方で、大量のデータや説明変数があるときは「ディープラーニング」が適していることがあります。

なお、現在はGUI(グラフィックユーザーインターフェイス)が非常に進化しているため、プログラミングで構築する必要がない場合もあるようです。とても便利になりましたね。

モデルの評価(PoC)

アルゴリズムを決め、機械学習で学習させたら、最後にモデルの評価をします。評価するための指標は以下の4つが基本となります。

精度
過去データから未来を予測するのが機械学習なのでモデルの精度は大事な指標になります。

過学習度合い
機械学習において、過学習はよく起きるのでこれも考慮に入れるべきでしょう。

解釈性
モデルが出した結果を人が理解できるのかという観点での評価になります。「どいういう要因から”A”のような結論を出したのか」という点を理解できるか否かは大切です。

実施時間
機械学習は大量のデータを扱うこともあるため、学習処理に時間がかかることもあります。学習時間が支障ない程度のものなのかは判断材料です。

最後に

AIによる分析は既存の分析方法と比べて、大量のデータや説明変数を学習することで人間の認識力を超えた予測を可能にする分析です。

AI分析は未知数な点も多いですが、決して不可能な分析方法ではありません。

例えば、コンサル企業に相談するなどしながら慎重にすれば、高い割合で精度の向上を見込めるAI分析はとても魅力があり、挑戦する価値のある手法ではないでしょうか。

2019年10月31日 2019年10月31日更新

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する