最終更新日:
AIプロジェクト(機械学習プロジェクト)は従来のソフトウェア開発の工程と一線を画します。
従来は人間が直接的にプログラミングしていましたが、機械学習によりデータを用いて間接的にプログラミングできるようになったからです。これにより原理が分からずとも高度な認識や判断が可能になりました。今流行りのAIはこの仕組みでできています。
機械学習ではプログラムの正確性がデータの量と質で決まるため、データは非常に重要です。
特に、機械学習の中でも特に注目されているディープラーニングはデータの量がものを言います。しかし、正確なデータを網羅的に収集することは容易ではありません。AI開発の難しさはこの点に尽きるといっても過言ではありません。
名古屋に来栖川電算という会社があります。この会社はディープラーニングなどの機械学習が注目されるより前の2009年から機械学習に取り組んでいる会社です。来栖川電算が大事にすること、それは「十分なコミュニケーションの上でどれほど正確にアノテーションを行うか」です。
アノテーションとは、画像などのデータにラベルを付けたりして教師データにする作業です。データはそのままではディープラーニングで使用することはできません。教師データとしてディープラーニングで使える形にする必要があります。
りんごの画像なら「りんご」というラベルを、オレンジの画像なら「オレンジ」というラベルをつけ、ラベルと対になったデータを大量に学習することでディープラーニングは一部人間を凌駕するような能力を発揮します。アノテーションは、一見簡単そうで地味な作業。人間ごとに違うラベル付けを行ってしまえば、ディープラーニングを使っても正しい判断・予測をすることはできません。
一見地味で簡単そうな定型的な作業でも、AIにとってはかけがえのない大切な作業なのです。
インタビューに応えてくださったのは来栖川電算を初期から支える取締役の山口陽平さんです。
おざけん
山口さん
従来の手法も取り入れながらディープラーニングを実装しています。もともとはビッグデータ解析をやっていた会社なんですよ。
おざけん
山口さん
その延長で2009年ごろから機械学習に取り組み始めたんです。ディープラーニングをはじめたのは2009年ごろです。
おざけん
山口さん
おざけん
山口さん
社長や役員からの「AIをやれ」と言う号令がきっかけで始まると、AIを使うことばかりが優先されてPoCが計画されがちです。
そのように始まったPoCは行き詰まります。期間に対して課題が多すぎてどれだけやっても十分な結果を出せなかったり、出せたとしても明後日の方を向いていて役に立たなかったりします。
相談へ来られるお客様がそのような状況に陥っていることがあるの
おざけん
そういう会社はお断りしてしまうんですか?
山口さん
その上で、既存の技術でどこまでできるか、
そうすると一度会社に持ち帰り、1〜2年してから再度プロジェクトをスタートしてPoCに入る場合も多いです。
おざけん
山口さん
ただ、いざAI導入に関する知識を得ても、会社内で横展開されない場合が多いんですよね。社内でいろいろとAIの導入を進めていると掲げている会社も多いですが、実情は異なっています。
AI事業部などAIの担当部署を作って、セミナーに行き、情報を仕入れて「ディープラーニングがすごい!」ってなって、「このデータはディープラーニングに使えそう」といってPoCが始まることが多いです。
しかし、それでも事業につながらないんですよね。ゴールが決まっていればどのように機械学習を使っていくかのプロセスがはっきりするのですが、そうならない場合が多いんです。従来のソフトウェアの導入過程と、機械学習の導入過程がどう違うのかを知っている人が少ないんですよね。
おざけん
山口さん
大企業じゃないと難しいですが、ある部署と数年間ご一緒させていただくときは、だんだん勘がよくなっていきますね。
来栖川電算は多くのお客様のプロジェクトのキックオフから関わらせていただいていて、そうすると機械学習を導入可能な部分も見つけやすいです。最初はスモールスタートでも、その会社の中で機械学習の活用が広がっていく場合もあります。
どちらにしろ、機械学習は精度の維持のために継続性が大事なので、プロジェクトが一段落したあとも長く付き合っていかなくてはいけません。短期的にできあいのエンジンを売ればいい分野ではないと考えています。
おざけん
山口さん
おざけん
なにか理由が!?
山口さん
目的がなにで、どんなタスクに分解できて、どんなデータを集められるかがわかれば問題は8割がた解決します。モデルを創るだけですから。なので、プロジェクトをそのレベルに持っていくことが一番大事なんですよね。だからこそアノテーションを強化しているんです。
おざけん
最近はクラウドソーシングで教師データの作成・アノテーションを発注するケースも増えていますよね。
山口さん
アノテーションの技術力って意外と見えない差があるんですよね。
確かに世間的にはすごく簡単な作業に見えますが、実際にやってみると物凄く難しい作業です。画像に写る看板を枠で囲うだけの作業であっても驚くほど多くの例外に遭遇します。
この例外をどのように扱うかをちゃんと定めずにクラウドソーシングに頼るのは明らかに間違っています。いい加減なルールでアノテーションしたために精度が出ず、来栖川電算に持ち込まれるケースもありますね。
アノテーションするということは現実世界を観察し、何が起こっているのかを学ぶことです。この学びを研究者と共有し、何にどのようにアノテーションするかを改める、場合によっては、タスク設計まで改める、このプロセスがとても大切です。このプロセスこそがAI開発の本質であり、その意味でアノテーションをきっちりすることが真のビジネスに役立つAIなんじゃないかなと考えています。
それだけでなく、
おざけん
山口さん
データを見ながら研究者とともに何にどのようなアノテーションするかを確認し合うことがとても大切です。それだけでなく、このプロセスによって獲得されるアノテーションルールを全てのアノテータが理解し、実施できる状況を作ることも大切です。
このプロセスを効率的に回すにはツールによるサポートが重要です
アノテータと研究者が一緒に、観察し、学び、
おざけん
AIの産業活用の促進のためには、現実社会をどのようにデータ化していくかが課題です。
画像については、この記事で紹介したようにアノテーションすることでその物体が何であるのかを覚え込ませます。
AIの普及にむけて実世界の認識が重要になってきます。その意味でIoTセンサーの導入も今度はどんどん進んでいくでしょう。
■AI専門メディア AINOW編集長 ■カメラマン ■Twitterでも発信しています。@ozaken_AI ■AINOWのTwitterもぜひ! @ainow_AI ┃
AIが人間と共存していく社会を作りたい。活用の視点でAIの情報を発信します。