HOME/ AINOW編集部 /「今機械学習に必要なのはデータマネジメント」5つの秘訣を実例つきで紹介
2020.07.05

「今機械学習に必要なのはデータマネジメント」5つの秘訣を実例つきで紹介

最終更新日:

データを活用する多くの企業の価値が向上しています。世界的な企業は、ユーザのデータを巻き込み広告などのビジネスを展開し、現在、多くのビジネスはデータを資本に展開されているといっても過言ではないでしょう。

一方、データの活用の環境が整っている会社ばかりではありません。電子化されていないデータ、管理者がバラバラなデータ、企業によってデータに関する多くの課題があることでしょう。データの課題は、そのままAIの活用を大きく遅らせる足かせにもなってしまいます。

この記事では、重要性が高まる「データマネジメント」について解説します。

バズワード化するAIとデータマネジメントの必要性の高まり

2010年代に入り、今までのシステム以上の精度で画像認識することが可能になり、ディープラーニングなど機械学習への注目が高まりました。

AIの導入に少しでも興味を持った方は、AIの中でも「機械学習」の技術が大きくブレイクスルーを起こし、認識や分類、予測など、さまざまな活用が多様な産業分野で進んでいることはご存知でしょう。

あらゆる分野で浸透が進むAIの活用

さまざまな分野でAI技術の活用が進み、その成功事例がWebで積極的に共有されています。

例えば、囲碁などのボードゲームでAIが人間に勝利し、AIの知能が人間を超えたと理解されているケースも見られます。また、ゲームの世界だけでなく、自動運転技術の発展や、無人レジコンビニのオープンなど、産業構造が大きく変化しようとしています。

さまざまな分野で、AIに関する成功事例やノウハウがWebで公開される今、新規事業の創出による売上向上や業務効率化などを目的に多くの企業がAI導入に意欲を示していることでしょう。

十分な量・質を備えたデータの取得の重要性

2018年度から実施された調査「産業分野における人工知能及びその内の機械学習の活用状況及び人工知能技術の安全性に関する調査」の結果を見るとAIを活用する上での課題が見えてきます。

この調査によると、AIの活用を進めていく上の課題は以下がTOP3を占めています。

企画立案段階 企画〜実証実験段階 実証実験〜実用化段階
1位 課題が不明(41.7%) 課題が不明(38.8%) 課題が不明(37.5%)
2位 十分な量・質を備えたデータの取得(28.1%) 十分な量・質を備えたデータの取得(13.6%) 十分な量・質を備えたデータの取得(5.2%)
3位 AI人材・知識不足(17.8%) AIの精度が不十分(10.2%)  AI人材・知識不足(4.7%)

「課題が不明」という課題がそれぞれの段階で1位を占めていることに驚きです。まずは、目的を理解してAIのプロジェクトを進めることが必要でしょう。

そして、それぞれの段階で2位を占めている課題は「データ量や質の取得」です。現状、活用が進むAI(機械学習)において、どのようなデータが必要で、どのような質が必要かを理解が少ないことが予想されます。

▼調査について詳しくはこちら

AIプロジェクトの進め方と必要なデータの理解が足りない

「自社にAIを導入したい!」というモチベーションから機械学習のプロジェクトを進める場合、プロジェクトがどのように進み、どのようなデータが必要なのかを明らかにしなければなりません。

料理で例えるならば、調理工程を事前に理解し、家にある調理器具で作れるのかを考える必要があります。また、素材(データ)がしっかり揃っているのか、その質は悪くないかをチェックしてから調理を始めます。

一般的に機械学習プロジェクト(料理)は以下の流れで行われます。

  1. 明確な課題を策定する
  2. 企画検討を行う
  3. 既存のデータの整理や新規データの収集を行う
  4. 環境整備を行い実証実験(PoC)を行う
  5. PoCの結果を検証し、本番環境に移行する
  6. 精度のモニタリングを行い、改善を続ける

正しいAI導入を進めたいのであれば、まずはざっくりでも機械学習プロジェクトの進め方を知ることが大切です。

そして、この中で特に企業に求められているものが③に当たる「データの整理や収集」です。今、データは企業にとって重要な資産であり、石油にも例えられます。

データの必要性は機械学習に留まりません。データの簡単な可視化をすることで、セールスの商談につなげたり、マーケティングでさらに細かな分析を行い、施策につなげることができます。

AIの活用有無に関わらず、データを蓄積し、活用していくことは、AIの導入以上に現在の企業では当たり前のことです。

また、機械学習プロジェクトを進める上でも、データが整備されていないと懸念される事項が多く存在します。

データが整備されていないと、例えば以下のような事態を招いてしまうおそれがあります。アンチパターンとして3つの例をご紹介します。

アンチパターン①:機械学習プロジェクトに必要なデータを得るために上長を挟んで他部署に依頼する

これは料理で例えるならば、必要な素材が自宅の倉庫にないケースです。必要な素材を隣の家庭が持っていて、わざわざその素材をもらえるように交渉しなくてはいけません。

機械学習のプロジェクトにおいては、決定的なダメージとはなりませんが、迅速なプロジェクト立ち上げに支障をきたしてしまう場合があります。

アンチパターン②:機械学習プロジェクトに必要なデータに足りない項目(変数がある)

機械学習でプロジェクトを立ち上げ、データを学習させようと思っても、データに必要な項目がなければ、十分な学習を行わせることはできません。一方で不必要な項目をむやみやたらに増やしても、整理がつかないばかりか容量を専有してしまいます。

 アンチパターン③:データにまつわるガバナンスはしっかりしているか
データを読み解く権限、データベースを改変する権限など、データ管理におけるガバナンスがしっかりしていないことで、スムーズなプロジェクト推進に支障をきたすだけでなく、セキュリティ事故のきっかけとなってしまいます。

データマネジメントとは

データを正しく整備し、活用を進めるには、「データ」という資産管理を適切に行なっていく必要があります。

データマネジメントとは

データマネジメントとは、その名の通り、データをマネジメント(管理・引用する)ことです。企業における経理や財務のデータ版という認識でも良いでしょう。

昨今のWebサービスの台頭により、Webで得られるデータは膨大になっています。特にWeb上でサービス展開している企業には多くのデータが蓄積されます。また、それ以外の企業でも、営業活動における顧客の管理など、企業経営においてデータマネジメントは必要不可欠な存在です。

データマネジメントを担う部署では、データという資産から体系的に価値を引き出し、ビジネス的な価値に変換していくことが不可欠です。

具体的にデータマネジメントは何をやるのか?

では、具体的にデータマネジメントでは何を行うのでしょうか。

書籍『データマネジメントが30分でわかる本』の著者でもあるゆずたそさんに詳しく伺いました。

▼ゆずたそさんのTwitterはこちら

  • 機械学習とデータマネジメントについて詳しくまとめられた資料はこちら
  • 「データマネジメントが30分でわかる本」(Kindle版),ゆずたそ (著, 編集), はせりょ (著) はこちら

ーー具体的にデータマネジメントでは、どのような業務を行うのでしょうか?

ゆずたそ:対象範囲は多岐に渡りますが、主に以下のステップで活動します。

  1. データの流れ・内容・関係者を洗い出す
  2. 現状と理想のギャップを可視化する
  3. 理想に近付くためのアクションを計画・推進する

例えば、お客様の問い合わせに自動で対応するチャットAIを作る場合、これまでの問い合わせに関するデータが必要です。もしコールセンターの通話記録が破棄されていたら、AI開発は困難です。現状と理想のギャップを踏まえて「通話記録を保存する」といった施策を検討しましょう。

コールセンターを自社ではなく別の会社にお願いしている場合、いかに関係者を巻き込むかの難しさがあります。通話記録を保存するに当たっては、個人情報保護の観点でリーガル・セキュリティの論点があります。コールセンター用途ではない安価な通話システムだった場合、要件を満たすために高価な通話システムに置き換える必要があります。

もしくは、コールセンター向けの社内WEBサイトがある場合「どのページが最も参照されているか」といったログを元に、問い合わせ内容を推定できるかもしれません。これなら分析用のデータベースにWEBサイトのログを転送するだけで済みます。

このようにデータ観点からITシステムの開発を推進したり、保守・運用を担うことが、データマネジメントの主な活動です。

なお、チャットAIなどの案件に取りかかる前に、会社全体のデータ活用を見通して、優先順位を付けることもデータマネジメントの重要な業務です。

データマネジメントによって企業にもたらされるメリット

ーーデータマネジメントを行うことによって企業においてどのようなメリットがありますか?

ゆずたそ:データを安心・安全・簡単に活用できるようになります。

管理できていないものを活用することはできません。みなさんは入出金を管理できていない銀行に、お金を預けたいと思いますか?

医療機器を管理できていない病院で、手術を受けたいと思いますか?

これらは最低限の品質を満たしていません。

データ分析や機械学習についても同じです。管理されていないデータを使おうとすると、どこかで無理が生じます。

短期的には顧客や従業員に負担が寄せられ、長期的には経営者や株主が損失を被ります。

例えば、データが不正確だと、AIの予測精度が低くなります。

そんな状況では従業員がどれだけ労力を費やしても成果は出ません。興味のないレコメンドが送られるため、顧客にとっては単なるスパムです。

受信拒否やサービス離脱が続けば、事業数値は悪化してしまうでしょう。

データマネジメントを伴わないデータ活用では、ムダ・ムラ・ムリの三重苦から抜け出すことはできません。

機械学習に必要なデータマネジメントの5つの秘訣

先述の通り、データマネジメントが社内で浸透していない場合、機械学習プロジェクトを進める上で、大きな阻害要因となってしまいます。

ここでは、特にビジネスサイドの人でも検討が行える観点から、機械学習に必要なデータマネジメントの秘訣を5つご紹介します。

①マスターデータ:商品一覧や顧客リストが横断で管理されているか

まず重要なのは「マスターデータ」の存在です。例えば、部署ごとに独自に顧客を管理し、番号を付与して管理している場合、全社を横断した分析を行うことはできません。

機械学習においても、例えば複数のWebサービスを社内で運用している場合、サービスを横断したユーザ行動を把握し、予測を行うことは困難を極めます。

全社で管理が必要とみなされるデータは、重要項目と定めた上で、マスターデータとしてデータの被りが発生しないように留意する必要があります。

②データ品質:データは最新か、必要な項目が入っているか、間違って入力されていないか

機械学習においてデータの品質は、そのまま機械学習の精度に直結する大切な要素です。

機械学習で予測したい目的や課題がはっきりしているのに、機械学習の学習に必要なデータが社内で蓄積されていない場合、それだけでプロジェクトの進捗は大きく滞るばかりか、時にはプロジェクトが途中で頓挫してしまう恐れもあります。

情報の更新があるデータの場合は、そのデータが最新のものであるのか。将来的な機械学習などのデータ活用を考慮し、必要なデータが収集されているか、データが間違って入力されていないかなどを確認し、データの質を均等に保つ必要があります。

特にデータの入力間違いは、人力によるデータ入力業務が社内で発生している場合に発生しがちです。単なる入力間違いなどだけではなく、数字の「二」とカタカナの「二」の入力の違いや、拡張子などの統一など多岐に渡ります。

場合によってはデータ入力業務は自動化(AI-OCRを活用した上で人的チェックを行うことやRPAを活用する)することも必要です。

③データストレージ:担当者がやめても残るか。安定したシステムで管理されているか。

データのストレージ(置き場所)も重要です。例えば、必要なデータが属人的に管理されている場合、担当者が離職した際に、そのデータも伴って消去されてしまう恐れがあります。データを置いている部屋の鍵を持ったまま退職してしまうようなものです。

④で後述するデータガバナンスでも記述しますが、どのデータをどこに置くのかを社内で定め、なにか人的な変動があった場合にも対処できるように努める必要があります。

また、安定したシステムで管理することも重要です。データを置いている部屋が木造で火災に弱かったり、地盤が弱く地震によって倒壊の恐れがある場合は、安心してデータを置くことはできません。データの管理においてもデータを配置するデータベースが安定しているのか、セキュリティに問題がないかなどを詳しく精査した上で意思決定することが必要です。

④データガバナンス:データの管理権限などが明確か

IT技術がなければ、もはや企業を運営していくことが困難な今、さまざまなデータが社内に蓄積されていることでしょう。しかし、すべてのデータにすべての従業員が、読み込みや書き込みができる状態では、データに関するガバナンスが行き届いているとは言えません。

特に①で紹介したマスターデータは、さまざまなデータベースを繋ぐ役割を果たす最も基盤となるデータです。すべての従業員が編集できる状態で権限を開放していれば、認識の齟齬が起き、人的なミスでデータが誤った形に編集されてしまう可能性があります。

マスターデータのように重要なデータは、編集権限を明確にしたり、データの変更の承認フローを設けるなどデータガバナンスを明確に定めることが必要です。

⑤データ活用ツール:データを簡単に使えるBIツールなどの仕組みは整っているか

①〜④を整備した後は、データ活用のためのツール整備が重要になります。BIツール(Business Intelligence)は、データを簡単に可視化し、セールスやマーケティング、商品開発などの活かすことが可能なツールです。

特に④データガバナンスを整備した上で、必要な従業員が必要なデータにいつでもアクセスできるようにツールの整備を行う必要があります。

また、データの整備が進んでいれば、BIツールよりもさらに進んだ機械学習の構築もツールを活用して可能になっています。コード無しでAIを構築できるツールは、ノーコードツールやGUIツールとも呼ばれ、データサイエンティストや機械学習エンジニアの手を借りずに簡単な機械学習モデルを構築可能です。

データの整備を進めることで可視化ツールや機械学習の構築ツールを使用する場面も増え、社内のさまざまな部分にデータ活用が進むといえるでしょう。

データマネジメントのあとにDX(デジタルトランスフォーメーション)

DX(デジタルトランスフォーメーション)とは

2020年に入ってから、「DX(デジタルトランスフォーメーション)」という言葉をさらに頻繁に耳にするようになりました。従来から使われてきた言葉ですが、2020年以降、多くのAI関連企業がDXを謳い、企業へDXの推進を勧めています。

一方で、AIという言葉が曖昧性を含むスーツケースワード(意図がわかりづらい抽象的な言葉)であるように、DXという言葉も多くの要素を含み、根本の課題は解決していないと言えます。

そもそもDXは、2004年にスウェーデンのウメオ大学のEric Stolterman教授が提唱した概念で、「私たちの生活が進化し続けるテクノロジーでより良いものへと変化する」という意味で、企業活動の文脈だけでなく私たちの生活などあらゆる側面でのデジタル化の概念を含みます。

今、企業が謳う文脈はそのDXの中でも、企業活動におけるデジタル化(AI化を含む)です。

2020年初頭から社会問題となった新型コロナウイルスの感染拡大で導入が進んだテレワークに伴うZoomなどのツールの使用や、Salesforceなどを活用した営業活動の自動化や効率化など、AIを含まずにさまざまなIT活用が含まれています。

IT活用が進むことで、合わせてデータの蓄積が進むため、先述の①〜⑤の秘訣と合わせてデータをしっかり蓄積することで、AI(機械学習)の活用も進みことが期待できます。

▼DXについて詳しくはこちら

データ連携を行いシームレスな従業員体験/ユーザ体験を作ることが大事

DX(デジタルトランスフォーメーション)を行っていく上では、さまざまなITツールの使い分けを行い、事業活動の最適化を図っていきます。その上で最も重要な要素の一つとなるのが「データマネジメント」です。

社内のデータをしっかりと管理すれば、ツールとツールの連携も容易になります。必要に応じて、APIなどを介して、社内のデータと連携を行うことで、わざわざ人の手を介して作業を行う必要性が減ります。

例えば社内における稟議や検収の手続き、勤怠登録などの作業を効率化することができます。また、自社のサービス内では、データをもとにレコメンドなどの機能拡充を行うなどパーソナライズ化が可能になり、ユーザ体験を大きく向上させることができます。

従業員体験やユーザ体験が向上することで、ストレスなく操作できる機能を実装することができれば、それはさらにデータが蓄積するきっかけとなり、データを中心としたサイクルがきれいに回る構造になります。

データをめぐるサイクル。データをもとに意思決定を行い、現場の施策に活かせば、さらに現場で計測できるデータも増え、新たな意思決定につなげることができる。

「データ活用現場」の重要性 |JX通信社のデータ活用ノウハウ

この記事では、JX通信社におけるデータ活用の事例を紹介します。JX通信社は、国内外の災害・事故・事件などの緊急情報を発信する企業・団体・公共セクター向けのサービス「FASTALERT(ファストアラート)」、速報性に特化したニュースアプリ「NewsDigest」を提供しています。FASTALERTはSNSを中心に情報を検知し、配信するサービスで、どこで何が起きたのかをスピーディに提供しています。

JX通信社へ2019年10月に入社した中川氏は入社後現場でのデータ活用を進め、JX通信社では職種を問わずデータを活用する文化が定着し始めています。

▼中川氏のTwitterはこちら

ーーどんな課題があったのでしょうか?

中川氏:FACTベースで施策を打とうにもデータの取得・見える化がされていませんでした。

私がJX通信社に入社したのは、2019年10月です。その後社内のデータを1箇所に集めて施策をしたり可視化するプロジェクトが立ち上がりました。

背景は2つあります。

1つ目は、もともとデータを収集して解析してレコメンドするビジネスモデルなので、データを全く見ていないわけではなかった。しかし、データを活用して、客観的な施策を打てる人は一部で、データ活用が民主化していない課題がありました。これが社内の共通基盤を整備することに繋がりました。

2つ目は、機械学習で継続的に改善して精度をあげていくためです。データを整備することで、機械学習の精度をKPIとして、改善を続けていくことが目的でした。

「データの活用で何ができる?」という温度感がメンバーやチームによってまちまちだったことも課題でした。

ーーその課題を解決するためにどんなデータマネジメントを行ったのでしょうか。

中川氏:FASTALERTをはじめとした自社のプロダクトのデータをGoogle BigQueryに集約しました。エンジニアやデータサイエンティストが触れるデータは、基本的にGoogle BigQueryが使えれば、社員が自由にデータを使える状態になっています。

また、データの分析・可視化の手段としてGoogleデータポータルを社員に開放して使えるようにしたり、自分でコードを書ける方に向けてGoogle Colaboratory(通称Colab)での分析・解析ができるようなトレーニングを実施しました。

その他にも、社員・インターンの有志メンバーでさまざまなデータの分析・可視化したレポートをまとめて発表会をしたり、ハッカソンなども行いました。「こんな視点があったんだ」という反応や、社長からのコメントなどもあり、注目度が高かったことが印象的です。

Google Big Query・・・ GCP:Google Cloud Platform で提供されるビッグデータ解析サービス。高速な処理が特徴。
Google データポータル・・・さまざまなデータを可視化し、メンバー間で共有できるダッシュボードサービス。さまざまなデータを1つのGoogle データポータルの画面に集約しレポートを作成することができる。
Google Colaboratory・・・Google Colaboratory(Colab)は、教育、研究機関へ機械学習の普及のためのGoogleの研究プロジェクト。環境構築がほぼ不要で、チーム内の共有が簡単にできる。無料で使えることもポイント。

ーーどんな工夫があったのでしょうか?

中川氏:まずは使える道具がないといけないので、全社共通で活用できるデータ基盤の構築を行いました。また、その際には、作るデータの基盤を言語化したり全体絵を書いたりして、ゴールを意識して作成し、関係者のヒアリングも積極的に行いました。企画の段階で「インセプションデッキ」を書いていたのでヒアリングや要件化は円滑に進みました。

データの中で最初に手をつけたのは、現場の声を反映する部分です。現場の社員が見たいデータをヒアリングして優先して整えました。

次の段階として、直接セールスや開発メンバーに売り込みにいき、どんなデータが見たいかを伺い、ダッシュボードのUIのレビューをもらい、改善を繰り返しました。今でも改善は継続しています。

インセプションデッキ・・・プロジェクトの全体像(目的、背景、優先順位、方向性等)を端的に伝えるためのドキュメント

ーー現場に直接売り込むんですね。まさにデータ活用では、データ活用ツールのUX(使いやすさ)を向上することが大切かと思います。現場を大切にする必要性についてお考えはありますか?

中川氏:当たり前ですが、現場の人が使ってバリューを出すことに意義があります。

事業会社では例えば、営業マンが数字を読むが大切になっています。根気よく努力を続けるだけでなく、計測可能な目標を立て、それに基づいた行動をすることが必要です。

計測して改善する文化がないと、データ活用は広まりません。「こうやればいいこんな結果が出る」という例を見せつつ直接売り込みに行きます。そんな泥臭いことができたのは、現場の人が使ってバリューを出すことが大事という前提があるからです。

また、現場の人にとっては、得体の知れない(かもしれない)ツールを作ってもらうために、現場の人と関係性を構築し、信頼を作って、使ってもらうことも大切です。

ーーデータ活用を進めて、どんな効果が得られたのでしょうか?

中川氏:「こんなデータがほしい」「こんな可視化をしたい」という相談も増え、データに対する意識が高まりました。一部社員は、SQLを読み書きできるようになり、自分の意志を元に分析・可視化ができるようにもなっています。

セールスや運用チームのメンバーは、少しずつではありますがレポートを見て業務をするようになっています。前に比べてデータを見て意思決定ができるように変化していると思います。

また、セールスや各部門がデータ活用できるようになったのは、分析インターンがテーマを決めてデータを探索して、その結果を公表して盛り上がっていることが起因しています。

社内では何人かの分析インターンが活躍していて、社員のみならずボードメンバーもうなるような成果を出してくれています。インターンの仕事内容は、将来の仕事の希望とマッチングさせるようにしていて、それが噛み合えば、モチベーションを持って自走してくれる人が多いのでほんと助かっています。

徐々にではありますが、社内の各所でデータが活用され、意思決定の材料になったり、施策を企画・検討する際のFACTとしてデータを活用できるような組織になってきたかなと思っています。

さいごに

データの重要性が大きく問われる今、その活用だけに注目してしまい、データ活用の根幹となる基盤やガバナンスの整備が遅れている企業も多いでしょう。「急がばまわれ」と言うように、目先の利益のみを求めたデータ活用が生み出す価値は最大化されません。

この記事を参考に多くの企業が、データ基盤の整備に興味を持ち、真の意味でのAIやDXの活用につながれば幸いです。

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する

あなたにおすすめの記事

いかにして私は機械学習を再び学び始めたか(3年後)【前編】

LINEが日本語特化の超巨大言語モデルの開発を発表、100億ページ以上の日本語データを学習

注目すべきDXの市場規模は?成長の早い業界や世界各国との比較も!

ビジネス上の目的を選択し、指定されたデータを用意するだけでモデルを作成する「datagusto」β版がリリース

囲碁AIがプロ囲碁の世界に与えた影響

機械学習入門者が学ぶべきこと、学習方法を超具体的に解説します

AIビジネスの先進事例を学ぶ「AI Experience Virtual Conference」が12/9〜12/10に開催

PKSHAと東京海上HDが合弁会社を設立。データをもとにソリューションを創出。

LINEバイト、AIが全案件の電話応募に対応、将来的にはAIが面接する可能性も示唆

DX人材とは ー6つの業種、4つのスキル、3つのマインドセット

あなたにおすすめの記事

いかにして私は機械学習を再び学び始めたか(3年後)【前編】

LINEが日本語特化の超巨大言語モデルの開発を発表、100億ページ以上の日本語データを学習

注目すべきDXの市場規模は?成長の早い業界や世界各国との比較も!

ビジネス上の目的を選択し、指定されたデータを用意するだけでモデルを作成する「datagusto」β版がリリース

囲碁AIがプロ囲碁の世界に与えた影響

機械学習入門者が学ぶべきこと、学習方法を超具体的に解説します

AIビジネスの先進事例を学ぶ「AI Experience Virtual Conference」が12/9〜12/10に開催

PKSHAと東京海上HDが合弁会社を設立。データをもとにソリューションを創出。

LINEバイト、AIが全案件の電話応募に対応、将来的にはAIが面接する可能性も示唆

DX人材とは ー6つの業種、4つのスキル、3つのマインドセット