AI開発にもコミュニケーションが大切!? ビジネスマンが理解すべきアノテーションの大切さ

AIプロジェクト(機械学習プロジェクト)は従来のソフトウェア開発の工程と一線を画します。

従来は人間が直接的にプログラミングしていましたが、機械学習によりデータを用いて間接的にプログラミングできるようになったからです。これにより原理が分からずとも高度な認識や判断が可能になりました。今流行りのAIはこの仕組みでできています。

機械学習ではプログラムの正確性がデータの量と質で決まるため、データは非常に重要です。

特に、機械学習の中でも特に注目されているディープラーニングはデータの量がものを言います。しかし、正確なデータを網羅的に収集することは容易ではありません。AI開発の難しさはこの点に尽きるといっても過言ではありません。

名古屋に来栖川電算という会社があります。この会社はディープラーニングなどの機械学習が注目されるより前の2009年から機械学習に取り組んでいる会社です。来栖川電算が大事にすること、それは「十分なコミュニケーションの上でどれほど正確にアノテーションを行うか」です。

アノテーションとは、画像などのデータにラベルを付けたりして教師データにする作業です。データはそのままではディープラーニングで使用することはできません。教師データとしてディープラーニングで使える形にする必要があります。

りんごの画像なら「りんご」というラベルを、オレンジの画像なら「オレンジ」というラベルをつけ、ラベルと対になったデータを大量に学習することでディープラーニングは一部人間を凌駕するような能力を発揮します。アノテーションは、一見簡単そうで地味な作業。人間ごとに違うラベル付けを行ってしまえば、ディープラーニングを使っても正しい判断・予測をすることはできません。

一見地味で簡単そうな定型的な作業でも、AIにとってはかけがえのない大切な作業なのです。

インタビューに応えてくださったのは来栖川電算を初期から支える取締役の山口陽平さんです。

山口陽平さん
機械学習・画像認識・行動認識・文字認識・並列分散計算・データベース・プログラミング言語に関わるアルゴリズムに関する研究開発、機械学習を応用したサービスの企画~実装、コミュニティ活動、講師、講演、執筆など幅広く手がけるプレーヤー型経営者。IPA未踏ソフトウェア創造事業採択者、MashupAwards受賞者でもある。

おざけん
よろしくお願いします、来栖川電算はディープラーニングの開発をしている企業なんですか?
山口さん
はい。ほぼ100%ディープラーニングを基軸に事業をしています。

従来の手法も取り入れながらディープラーニングを実装しています。もともとはビッグデータ解析をやっていた会社なんですよ。

おざけん
創業は2003年になっていたんですが、かなり前からディープラーニングに取り組んでいるんですか?
山口さん
2003年からビッグデータの解析をしていました。

その延長で2009年ごろから機械学習に取り組み始めたんです。ディープラーニングをはじめたのは2009年ごろです。

おざけん
早い…!! かなり昔からディープラーニングに注目していたんですね。ホームページを見るとビジネスに役立つAIという言葉が強調されていますよね。ビジネスに役立つAIってどんなAIですか?

来栖川電算のホームページ

山口さん
PoCで終わらない役に立つAIのことです。今、PoCで終わってしまうケースが多くて全くビジネスで役に立たないんですよ。
おざけん
PoCで終わってしまう…. 確かによく聞くケースですね。なんでPoCで終わってしまうケースが多いのでしょうか?
山口さん
実現までの道のりが遠すぎる課題設定になっているケースやそもそもAIで解決すべき課題がちゃんと定まっていないケースが多いですね。

社長や役員からの「AIをやれ」と言う号令がきっかけで始まると、AIを使うことばかりが優先されてPoCが計画されがちです。

そのように始まったPoCは行き詰まります。期間に対して課題が多すぎてどれだけやっても十分な結果を出せなかったり、出せたとしても明後日の方を向いていて役に立たなかったりします。

相談へ来られるお客様がそのような状況に陥っていることがあるので、ちゃんと着地できるように軌道修正するように心がけています。


おざけん
AIを開発しているからこそ、受注の際に困ってしまうことがあるんですね。

そういう会社はお断りしてしまうんですか?

山口さん
「それではできません」と伝え、お客様が本当にAIで解決すべき課題を見つけるのをお手伝いします。

その上で、既存の技術でどこまでできるか、どのようなデータをどのくらい収集しなければならないか、どのような課題が見えていてどのくらい難しいか、どのような期間や予算がいるか、どのような体制でどのように取り組まなければならないかをお伝えします。

そうすると一度会社に持ち帰り、1〜2年してから再度プロジェクトをスタートしてPoCに入る場合も多いです。

おざけん
AIの開発フローを発注する側も理解しないといけないんですね。
山口さん
そうなんです。AIの予算感やフローを知りたい人は多い印象です。

ただ、いざAI導入に関する知識を得ても、会社内で横展開されない場合が多いんですよね。社内でいろいろとAIの導入を進めていると掲げている会社も多いですが、実情は異なっています。

AI事業部などAIの担当部署を作って、セミナーに行き、情報を仕入れて「ディープラーニングがすごい!」ってなって、「このデータはディープラーニングに使えそう」といってPoCが始まることが多いです。

しかし、それでも事業につながらないんですよね。ゴールが決まっていればどのように機械学習を使っていくかのプロセスがはっきりするのですが、そうならない場合が多いんです。従来のソフトウェアの導入過程と、機械学習の導入過程がどう違うのかを知っている人が少ないんですよね。

おざけん
逆に取引しやすい会社ってあるんですか?
山口さん
クライアントの中でも一緒に勉強していくモチベーションがある会社はやりやすいです。

大企業じゃないと難しいですが、ある部署と数年間ご一緒させていただくときは、だんだん勘がよくなっていきますね

来栖川電算は多くのお客様のプロジェクトのキックオフから関わらせていただいていて、そうすると機械学習を導入可能な部分も見つけやすいです。最初はスモールスタートでも、その会社の中で機械学習の活用が広がっていく場合もあります。

どちらにしろ、機械学習は精度の維持のために継続性が大事なので、プロジェクトが一段落したあとも長く付き合っていかなくてはいけません。短期的にできあいのエンジンを売ればいい分野ではないと考えています。


おざけん
精度を維持するために、継続的に学習させていかなければなりませんからね。来栖川電算だけにとどまらないかもしれませんが、コンサルティング要素も大きいんですね。
山口さん
はい。コンサルティング要素があるので、クライアントとは長く密接に付き合っています。しかし、コンサルティングだけではなく、来栖川電算はデータを創るところからやっています。
おざけん
珍しいですね。データがある会社のモデルの作成を請ける会社は多いですが….

なにか理由が!?

山口さん
AIの受託開発の会社の多くは「データをくれればやります」というスタンスですが、これではAIのプロジェクトはうまくいかないと思っています。

目的がなにで、どんなタスクに分解できて、どんなデータを集められるかがわかれば問題は8割がた解決します。モデルを創るだけですから。なので、プロジェクトをそのレベルに持っていくことが一番大事なんですよね。だからこそアノテーションを強化しているんです。

おざけん
アノテーションですか!?

最近はクラウドソーシングで教師データの作成・アノテーションを発注するケースも増えていますよね。

山口さん
アノテーションの技術力はとても大切です。

アノテーションの技術力って意外と見えない差があるんですよね

確かに世間的にはすごく簡単な作業に見えますが、実際にやってみると物凄く難しい作業です。画像に写る看板を枠で囲うだけの作業であっても驚くほど多くの例外に遭遇します。

この例外をどのように扱うかをちゃんと定めずにクラウドソーシングに頼るのは明らかに間違っています。いい加減なルールでアノテーションしたために精度が出ず、来栖川電算に持ち込まれるケースもありますね。

アノテーションするということは現実世界を観察し、何が起こっているのかを学ぶことです。この学びを研究者と共有し、何にどのようにアノテーションするかを改める、場合によっては、タスク設計まで改める、このプロセスがとても大切です。このプロセスこそがAI開発の本質であり、その意味でアノテーションをきっちりすることが真のビジネスに役立つAIなんじゃないかなと考えています。

それだけでなく、事例集やフローチャートなどで分かりやすく説明されたアノテーションルールを作ることも大切です。ポイントは判断に迷わないようにすること、誰もが同じ判断を下せるようにすることです。

自動走行におけるアノテーションの作業画面。対象を囲んでどれが何なのかのラベル付けを行う。

おざけん
ゴールを明確にしてどの物体に対してどのようにアノテーションするかを話し合わないといけないんですね。
山口さん
そうなんです。結局AIの開発はコミュニケーションに帰着すると考えています。

データを見ながら研究者とともに何にどのようなアノテーションするかを確認し合うことがとても大切です。それだけでなく、このプロセスによって獲得されるアノテーションルールを全てのアノテータが理解し、実施できる状況を作ることも大切です。

このプロセスを効率的に回すにはツールによるサポートが重要です。そこで、来栖川電算ではアノテーションのためのクラウドサービス(AnnoFab:基本無料)まで自作し、運営しています。ここまでコミュニケーションを重視したサービスを作って、AIに取り組んでいる企業は国内では例がありません。

アノテータと研究者が一緒に、観察し、学び、AIを実現するためのカギを発見する、このようなプロセスを大切にしているのが、私たち来栖川電算です。



おざけん

AIの産業活用の促進のためには、現実社会をどのようにデータ化していくかが課題です。

画像については、この記事で紹介したようにアノテーションすることでその物体が何であるのかを覚え込ませます。

AIの普及にむけて実世界の認識が重要になってきます。その意味でIoTセンサーの導入も今度はどんどん進んでいくでしょう。

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する