最終更新日:
データ量が急増しています。総務省「ICTコトづくり検討会議」報告書では、2011年に1ゼタバイトに到達した国際的なデジタルデータの総量が、2020年には約40ゼタバイトに達すると予想されています。
このような膨大なデータは「ビッグデータ」と呼ばれ、各界から注目を集めています。
例えば、総理大臣の安倍晋三は2019年1月のダボス会議で、「成長のエンジンはもはやガソリンではなくデジタルデータで回っている」と発言しています。
参照:https://ainow.ai/2019/04/22/168216/
また、ソフトバンクグループの代表取締役の孫正義は、「100万倍やってくるデータを人間が使って推論していくのは不可能に近いくらいの規模です。だから我々は一気にAIの力を使って推論していく、こういう世界になっていくと思います。」と、データとAIを組み合わせた可能性について言及しました。
参照:https://ainow.ai/2019/07/18/173607/
しかし、ビッグデータとは何か。改めて問われると、みなさんは説明できるでしょうか?今回は、徹底的に分かりやすく解説します。
【この記事でわかること】※クリックすると見出しにジャンプします |
目次
ビッグデータとは何か
ビッグデータとは何でしょうか。定義と登場の背景を解説します。
ビッグデータの定義
ビッグデータとは、その名の通り膨大なデータを指す概念です。しかし、何を基準にしてビッグとするかは、さまざまな見方があります。
現在では、数十テラバイトから数ペタバイトのデータ量を指すと言われています。しかし、時代が進むにつれて、さらに膨大な量を「ビッグデータ」と指すようになると考えられます。
また量的な多さ、データ量だけがビッグデータの判断基準とも言えません。
例えば、IT用語辞典では、「様々な種類・形式が含まれる非構造化データ・非定型的データ」であることと、「時系列性・リアルタイム性のあるようなもの」をビックデータと呼ぶことが多いとしています。
ビッグデータの3つの特徴
ビッグデータを最初に定義したと言われる、アナリストのダグ・レイニーは、3つのVを使ってビッグデータを定義しています。
「Volume(量)データの膨大さ」「Velicity(速度)リアルタイムで収集できるデータ」「Variety(多様性)多様なデータの形式」の3つです。
そのため、「3つのV」を高いレベルで備えているのがビックデータの特徴です。
一方で、ダグ・レイニーのレポ―トは、ビッグデータを定義する上で3つの特徴を述べていたのみで、「〇〇バイト以上がビッグデータである」という定義には及んでいません。
つまり、ビックデータは情報量の大きさのみで決めるのではなく、その時、その時の文脈に応じて、何らか基準よりも「大きい」と判断されたデータが、「ビッグデータ」と呼ばれるのです。
ビッグデータの3つのタイプ
ビッグデータを構成するデータには「構造化データ」、「非構造化データ」、「半構造化データ」の3つのタイプがあります。
構造化データとは、2次元の表形式で成立しているデータです。事前に構造が決められておりそこにデータを格納する方法でデータ化しています。
構造化データの例は、ExcelやCSVなどがあります。
非構造化データとは、形式や内容に決まりがないデータです。
つまり、インターネットなどを介して得られるあらゆるデータを指します。
非構造化データの例は、PDFや音声などです。
現在、非構造化データは、簡単に沢山集められるようになりました。
しかし、非構造化データをたくさん集めるだけでは使えないので非構造化データは、
データとして価値はありません。
その、非構造化データを利用したいときに利用したい形のデータ構造にあてはめることを半構造化といいます。
半構造化データとは、非構造化データを半構造化することで生まれるデータです。
ビッグデータ登場の背景
ビッグデータの登場はAI技術が発展した大きな要因の一つです。
そこで、ここでは、どのようにしてビッグデータが登場したのかを紹介していきます。
今回は、以下の2つを紹介します。
インターネット機器と利用者の増加
ビッグデータの登場の背景には、スマートフォンなどのインターネットに繋がった機器と利用者の増加があります。
電車の中でも手軽にインターネットが使えるスマートフォン、この発明はビックデータの登場を強く後押ししました。
今では、スマホを主としてインターネットの繋がった物を手軽に持ち歩けるようになりましたが約20年ほど前ではありえませんでした。
このように、インターネット機器の普及が非常に早いスピードで普及したことで多くのデータがネットを通じて手に入るようになりました。
例えばこの記事を読むうえでも、
- どこから、この記事に辿りついたか
- この後、どのページに行くか
- どのくらいこの記事を読んでいるか
などがデータとして、蓄積されています。
インターネットサービス利用者の増加
インターネットの機器に加えて、インターネットサービスの利用者の増加がビックデータ登場を手助けしました。
インターネットサービスで代表的なものは、SNSです。
twitterやfacebookには、山ほどの情報が日々増え続けています。
他にも、Googleの検索もインターネットサービスです。
つまり、普段から多くの人が多くのデータをインターネットサービスを通じて蓄積しています。
ビッグデータが今注目されている理由
ビッグデータが注目されている2つの理由を紹介します。データを集める手法の進化と、データを使う手法の進化です。それぞれ解説します。
データ収集技術の進化
データを集める手法が進化しています。その要因は、インターネットです。そこに、あらゆる「もの」がインターネットに繋がることで、さらにデータが集まっています。いわゆるIoTです。
IoTとは、モノがインターネットの接続されていること、あるいはインターネットに接続された端末自体を指します。
▶関連記事|ゼロからわかる「AI・IoT」そのつながりの実態>>
例えば、冷蔵庫がインターネットに接続された状況を想像してみてください。いつ、誰が、冷蔵庫を使用したか、記録することができます。これを活用して、細かな温度調節をすることができます。他にも、信号機からカメラまで、あらゆる端末のインターネットへの接続が進められています。
このように、あらゆる端末から集められる、膨大で多様な情報はビッグデータとなります。
データの解析技術の進化
ビッグデータを集める手法は深化し続けています。一方で、どれだけデータがあっても、そのデータを解析して、法則性を見出し、活用できるようにしなければなりません。
統計数理研究所の樋口知之氏は「データ・サイエンティストがビッグデータで私たちの未来を創る」(2013)のなかで、MGIレポートを受けて、ビッグデータの解析方法で必要な技術を以下の3点だとしています。
1つ目は、巨大なデータをどのように保存、蓄積していくかという「ビッグデータ工学」。2つ目は、ビッグデータから得られ情報を、ビジネスなどの実学に活かすための表現方法として、「データ可視化」。3つ目は、統計学、データマイニングなど、広い意味でのデータ科学を活用し、単なるデータから、使えるモデルを導く「データ解析法」です。
3つ目の、データ解析法において、技術的な発展がもたらされて、データが生きるようになりました。機械学習です。
機械学習とは、膨大なデータから人の判断を介さずにルールやパターンを発見して、モデルを作る手法です。画像認識コンテストにおいて、驚異的な成果を出したディープラーニングも、機械学習の一つの要素技術です。
大量のデータから法則性を導くためには、機械学習のアプローチが有効です。一方で、良いモデルを作るために必要なのが、大量のデータです。従って、大量のデータを“活かす”方法が開発されたことで、ビッグデータが注目されたと言えます。
▶機関連記事|機械学習について詳しく解説した記事はこちらから>>
ビッグデータ活用のメリット
ビッグデータは、データが集められて終わるわけではありません。
この、ビッグデータを利用すると多くのメリットがあるため利用されています。
そこで、ここでは、ビッグデータ活用のメリットを紹介していきます。
今回は、以下の3つを紹介します。
未来を予測できる
未来を予測できるというのは確かに言いすぎですが、人間よりも未来の事柄を当てる確率は非常に高いと言えるでしょう。
皆さんは、未来を予測するときは何を利用するでしょうか?
例えば、バカラで、次にどちらにベットするかを考える際に、おそらく皆さんは、過去のデータをもとに次にプレイヤーかバンカーのどちらかが来る未来を予測するかと思います。
この方法は、AIが未来を予想するときも同じです。
しかし、AIはビッグデータを使って分析するため、AIのほうがより高い確率で来る未来を予測できます。
データを「見える化」、現状把握が可能になる
データを見える化するとは、
- データの意味が分かりやすく、誰もが同じような認識を持てる。
- 重要なデータが常に見えている状態になっている。
- データを見た際に、どのような対応をすべきかが分かる。
などの、ポイントを抑えているデータを表示することです。
これは、ビッグデータが登場したことでより精度が上がりました。
そのため、より具体的で正確な現状を把握することが可能になりました。
サービス向上も可能になる
データを見える化し現状を正確に把握できると述べました。
現状の把握は、課題や強みを同時に知ることができます。
つまり、次にどのようなサービスを提供すれば良いかがわかります。
そのため、サービスの向上が可能です。
ビッグデータ活用のデメリット
ビッグデータを活用していくにあたり、デメリットは2つあります。
以下で詳しく解説していきます。
プライバシー問題
ビッグデータ活用のうえでのひとつの問題点として、プライバシーの問題があげられます。
たとえばSNSでのビッグデータの活用を考えてみましょう。ユーザーがどんな投稿を見ているのか、どんな投稿に「いいね」を押しているかといった情報が膨大なデータとなり、それを分析することで「おすすめの投稿」「おすすめのユーザー」といった欄を提供できるようになります。
こうした流れでSNSの利便性は上がっていきますが、その過程で使われた「どんな投稿を見たか」などの情報は、ユーザーの意識外でビッグデータとして活用されています。ここがプライバシーの問題としてあげられるのです。
膨大なデータの管理
先ほど述べた3Vの定義を見れば分かるように、ビッグデータの情報としての価値やその量は以前のものよりも格段に上と捉えられます。
そうなると、その管理自体がビッグデータ活用の問題のひとつになってきます。バックアップの問題や、それを実行する人材の不足が具体的な問題です。
ビッグデータを活用する方法
ビッグデータを活用する方法としては、3つあります。
活用方法がわからなければ、うまく扱えません。しっかりと活用方法を理解して、ビッグデータを活用しましょう!
Webサービス関連
問題点も多くあげられるビッグデータの活用ですが、それに鑑みても有りあまる活用の方法があります。
先ほどあげたSNSでのビッグデータ活用もこの中に入りますが、そういったWebサービスでの広告ビジネスなどは、活用方法のひとつです。膨大なデータによってユーザーごとの好みや動向を予測することで、より効率的に興味のある情報を提供することができます。
需要予測
コンビニやスーパーといった身近なものにも、ビッグデータは活用されています。
どの商品がどれくらい売れたかというデータを蓄積することで、顧客にとってどのような傾向の需要があるのかを知ることができます。季節や売れ筋といった情報もかんがみて、仕入れや新たな商品の開発に役立てることができます。
リアルタイムでの予測
ビッグデータ活用では情報を時系列順に並べ、高速で予測を組み立てることもできます。道路状況の整備などがその最たる例です。
「コネクテッドカー」と呼ばれる自動車には通信機能がついており、GPSをはじめとして車輪の回転数などもデータとなります。そのコネクテッドカーから得られた情報をもとにどの地点で渋滞が起こっているかなどを予測できるのです。
ビッグデータ活用を成功させるポイント
ビッグデータをただデータ分析するだけでは、ビッグデータをうまく活用できるとは言えません。
そのため、ポイントを押さえて活用しなくてはなりません。
そこで、ここでは、抑えておくべきポイントの以下3つを紹介します。
目的を明確にする
1つ目は目的を明確にすることです。
ビッグデータを活用してどのような目的を達成したいかを考えることが重要です。
これは、ビッグデータを利用する時に限らず。何においても言えることでしょう。
目的に応じて必要なデータや分析後に出すべきデータも変わって来ます。
そのため、目的は明確にしましょう。
諦めずに試行錯誤を繰り返す
2つ目は諦めずに試行錯誤を繰り返すことです。
目的を明確にした後に、データを分析すればすぐに目的を達成できるわけではありません。
それは、すべての変数を数回の分析で網羅できるわけでは無いからです。
そのため、何度もデータを分析し続けることが重要です。
サポート企業と協力する
そして、3つ目はサポート企業と協力することです。
ビッグデータの扱い方をコンサルしてくれる会社も数多く存在します。
もし、ビッグデータの分析に自信が無い、何度やってもまったく成果が出ないなどの悩みがある企業は、ビッグデータの分析をサポートしている企業を活用することをおすすめします。
ビッグデータのために必要なDX
ビックデータを活用するために必要な取り組みがあります、DX(デジタルトランスフォーメーション)です。
DXとは
ー企業がデジタル環境の激しい変化に対応し、データとデジタル技術を活用して、顧客や社会のニーズを基に、製品やサービス、ビジネスモデルを変革するとともに、業務そのものや、組織、プロセス、企業文化・風土を変革し、競争上の優位性を確立すること
引用:https://www.meti.go.jp/press/2019/07/20190731003/20190731003-1.pdf
データを業務に活用することを考える時に、AIだけが注目されがちです。
確かに、AIを活用することは、業務効率化の観点でも、生産性向上の観点でも、データを収集する観点でも役立つでしょう。
しかし、技術の面でも、データの面でも、お金の面でも、ハイコストな手法です。
AI以前に、できるDXはたくさんあります。技術が目的化しないように、現場の課題に即してDXを進めていくことが大切です。
地道にDXを進めていくことが、最も着実なデータを収集する手段であり、この積み重ねがビッグデータとなります。
▶関連記事|AIAI言う前にDX!国会がDXを推進する法案を可決>>
ビッグデータとAIの関係性
ビッグデータとAIのかかわり
ビッグデータとAIという2つの分野はそれぞれ注目を浴びていますが、この2つがかけ合わさることにより、可能性がひろがります。
ビッグデータの問題点として、その膨大な情報の管理に手が追いつかないことがあげられました。ですが、AIの導入がこれを解決してくれます。
AIの中でもディープラーニングや機械学習といった分野が発展したことで、以前までは管理のしきれなかった情報の保管、分析が可能になったのです。それに加え、その中から必要な情報のみをピックアップすることもできるようになりました。
課題点も多い
可能性のひろがるビッグデータとAIの活用ですが、課題点もあります。システムの整備はその一例です。今までよりも格段に膨大な量のデータを整理するために、その下地となるシステムの整備が重要になってきます。
また、扱うデータの中には安全に管理せねばならない顧客情報などのデリケートなものも含まれます。外部からの侵入を防ぐために、セキュリティも万全にする必要があります。
ビッグデータとAIを上手くかみ合わせるために、AIのプログラミングをおこなう役職であるデータサイエンティストの不足も課題点のひとつです。特に日本ではビッグデータを扱えるデータサイエンティストが不足していますから、その育成、充実が急務といえます。
ビッグデータの活用事例
データを利用した経営を行うことを「データドリブン経営」といいます。
現在は、データドリブン経営が様々な分野で取り入れられています。
そこで、ここでは、以下の4つの分野のデータドリブン経営を紹介していきます。
小売業(株式会社グッデイ)
小売業では、マーケティングなどでビッグデータをもとにしたデータドリブン経営を行っています。
小売店では、顧客の来店時間やどの時期に何を買うかなどの情報をビッグデータとして蓄積しそれをもとに売り上げが上がる方法を分析するなどをします。
ここでは、ビッグデータをもとに経営を成功させた株式会社グッデイを紹介します。
株式会社グッデイは、北部九州・山口を中心にホームセンターを展開する企業です。
コロナ禍で多くの企業が時短営業をする中、グッディは通常通り営業することを決断し、密の状況を緩和することに成功しました。
これは、グッデイがこれまで蓄積していたPOSデータや時間帯別の来客数データの他にも、感染者数データや、Googleが公表している人の移動状況のデータなどを組み合わせ分析した結果をもとに時短営業するよりも通常の営業のほうが密を避けられるという決断がされました。
出典:https://www.techfirm.co.jp/blog/big-data#3
情報通信サービス業(株式会社メルカリ)
情報通信サービス業では、どのような情報をどのように提供するかなどをビッグデータをもとにデータドリブン経営をしています。
情報通信サービスをする会社は、どのような顧客がどのようなことに興味があるかなどの情報をデータとして蓄積してそれをもとに売り上げが上がる方法を分析するなどをしています。
ここでは、ビッグデータをもとに新たな取り組みをしている株式会社メルカリを紹介します。
株式会社メルカリは、中古品を販売するフリマアプリです。
メルカリが所持する二次流通データを新品が購入できる会社に渡すことで、新品を売る会社が廃棄を減らすための方法を模索するという取り組みをしています。
新品を売っている企業が、自社の販売した製品が中古市場でどの程度の価値があり、流通しているのかなどのデータを活用することで、「消費者が買いやすい商品づくり」に生かされるのでは無いかということから、自社のデータを渡すという決断がされました。
出典:https://www.techfirm.co.jp/blog/big-data#3
金融業(三井住友海上火災保険株式会社)
金融業では、顧客行動の行動、銀行や金融機関の戦略などをビッグデータをもとにデータドリブン経営をしています。
ここでは、ビッグデータをもとに新たなサービスを開始させた三井住友海上火災保険株式会社を紹介します。
三井住友海上火災保険株式会社は、アクセンチュアと共に事故や災害を未然に防いだり、企業課題に対して事前に予防や対策を取ることを可能にする新サービス「RisTech」の提供を開始しました。
近年自然災害の増加に伴い損害を得る企業が増加しています。
そこで、保険会社の保有する過去の事故データや、顧客データ、契約に関するデータ、コールセンターへの入電データなどに加え、取引先に蓄積された様々なデータを組み合わせて活用することが決断されました。
出典:https://www.techfirm.co.jp/blog/big-data#3
農業(食べチョク)
農業では、土壌や気象、作物の因果関係などをビッグデータをもとにデータドリブン経営をしています。
ここでは、ビッグデータをもとに新たなシステムの構築を目指している、株式会社ビビッドガーデンが運営する食べチョクを紹介します。
食べチョクは、農業事業者が収穫前に収入の予測がつく農業の新たな仕組みを実現しようとしています。
そこで、食べチョクで評価の高い畑から土壌、空気と日照量のデータを取得することで、新たに農業を始める人やすでに始めている人などにあらかじめ顧客からの評価を想定できるシステムの構築を決断しました。
出典:https://www.techfirm.co.jp/blog/big-data#3
おわりに
ビックデータの収集と活用が、今後も進んでいくことが予想されます。
その中で、単なる量に捕らわれず、使えるデータを集めることが欠かせません。そのためには、データを使うことを前提としてデータを収集する認識が必要です。
あくまでも、技術は手段です。現場の課題解決を目的として、ビッグデータと向き合うことが望まれます。
▼YouTubeでも解説中!