テキストチャットの限界、マルチモーダルの可能性(1→10Robotics 長井健一氏)

2017年 アドベントカレンダー企画「AIの未来予測」の記事です。寄稿してくださったのは1→10Roboticsの長井健一さんです。

1→10Robotics の代表をしている長井です。

あ、1→10と書いて、「ワントゥーテン」と読みます。よろしくお願いします。

先日、うちの機械学習エンジニアの島袋が「AIチャットが私達の生活を変えるために必要なこと」という記事を執筆させていただきました。

弊社からそれに続いて執筆させていただきます。

 5年間もの会話体験開発で痛感したこと

 

僕たちは、5年以上に渡って、さまざまな会話体験を構築してきました。

ロボット、スマートスピーカー、スマートデバイス、バーチャルアシスタント、チャットボットなどなど・・・。

(気になる方がいましたら、弊社サイトの実績ページよりご覧ください)

 

 

さて、お客さまからご依頼いただく内容は、タスク指向の会話や、そうでない会話、いろいろあります。

 

店舗案内や商品紹介など、タスク指向の会話の場合、環境・条件・想定文脈が制限されるので、割と体験が作りやすいと言えます。

実際に、お客様のご要望や目標に沿って、会話体験を設計していきます。

一方で、非タスク指向の会話はとても難しいのが現状です。

僕たちもお客様からよくご相談を受けるのは「雑談は可能ですか?」ですね。
雑談の実現に関しては、多くの方が挑戦している分野で、さまざまなアプローチで取り組みをされていることでしょう。

5年間の試行錯誤の中で、僕たちは、現時点ではテキストのみで扱える情報量も情報密度も多くないのではと考えています。

ですので、画像や音声や映像など、テキスト以外の情報を積極的に取り組むというアプローチを取ってきました。

そして、そこにはマルチモーダルにヒントがあるのではないか、と考え、今回お話をさせていただきます。

テキストチャットの限界とは?

まず、スマートフォンの普及に伴い、LINE や Facebook Messager など、近年はテキストメッセージのサービスが当たり前になってきました。

これらはとても簡易なツールですが、一方で、メッセージや単語から意図を把握する人間の能力はとても高度だと考えることがあります。

メッセージの中の単語ひとつとっても、その背景に多くの知識・概念や個人に属する文脈といった情報があります。

そうした複数の単語の情報を組み合わせることで、人間は意図を理解しています。

文脈によっては、省略される言葉も多くあります。

こうした人間が行うレベルの意図把握を実現するのは・・・。

現時点で自然言語処理や統計的自然言語処理や機械学習など、テキストを扱う様々な技術がありますが、なかなか難解ではないかと感じています。

一方で、当然ですが、1→10Roboticsが得意とする、UXライターがシナリオを書く手法にも、限界があります。

人間は、テキストのみで会話を行っているわけではない

 

そもそも、人間は会話を行う際に、テキストで行っているのでしょうか?

はい、答えはもちろん NO ですよね。

テキストを眺めて会話を行っているわけではありません。

会話では、テキスト以外の情報が圧倒的に多いと言えます。

テキスト以外の情報を例に挙げさせていただくと、たとえば、

・視覚情報

・身振り手振り、頷きなどの動きの情報

・相手の表情や感情

・相手がどこに視線を向けているか

・「あの〜」「うーんと」「えと」といったフィラー(発話の間に挟み込む言葉のこと)

・環境音

・場所

・時間帯

・天気・温度

こうした情報を、僕たち人間はセンシングしつつ、さらに知識をかけ合わせて会話を行っています。とても高度な仕組みですよね・・・。

そうです、こうした仕組みを会話体験に取り入れることはできないでしょうか・・・?

 

では、どうして実現していけばよいのでしょう?

 

僕たちは、マルチモーダルと連携する会話エンジンを作っています

 

ところで、「マルチモーダルって何?」と思われた方も多いかもしれません。

多くの方が読まれているかと思いますが、松尾豊先生の書籍『人工知能は人間を超えるか  ディープラーニングの先にあるもの』、

 

https://www.amazon.co.jp/dp/4040800206/

 

そこに、人工知能の発達のフローがあります。引用させていただきます。

  1. 画像特徴の抽象化ができるAI
  2. マルチモーダルな抽象化ができるAI
  3. 行動と結果の抽象化ができるAI
  4. 行通じた特徴量を獲得できるAI
  5. 言語理解・自動翻訳ができるAI
  6. 知識獲得ができるAI

現在のテクノロジーはというと、音声認識はスマートスピーカーに代表されるように精度が高まってきました。

画像認識の精度も、ここ数年で大幅に向上してきました。

このように、個々のセンシングの精度は高まってきています。

ですが、たとえば、カメラで認識した「太郎くん」の顔写真と、音声認識で聞こえる「太郎くん」をつなぎ合わせることはできていません。

このような、機械が習得する感覚と感覚の掛け合わせが、マルチモーダルです。

人工知能の発達が次の第二段階のフェーズへ行くには、これらのセンシングの掛け合わせが必要だと松尾さんは述べられています。

そして、僕たちがとっているアプローチは、このマルチモーダルを見据えて、さまざまなセンシング情報と連携をとるというアプローチです。

実際に、これまで多くのセンシング情報と連携した会話体験を創出してきました。

センシング情報と掛け合わせることで、会話の品質が上がることを、これまで何度も経験してきました。

そうした知見を集約した会話エンジン「PECO」は、マルチモーダルの視点で設計からやり直したエンジンです。

まだできたばっかりのエンジンで、これからも実際のユースケースにあわせて改良を重ねていく予定ですが、マルチモーダル連携というアプローチでどこまで会話体験の未来を切り拓けるか、とても楽しみです。

 お知らせ

1→10Roboticsでは、機械学習エンジニア、サーバーサイドエンジニア、フロントエンドエンジニア、Androidエンジニアを募集しています。

AIを活用したロボット・チャットボットの体験づくりに興味がある方は、ぜひこちらのページからご応募ください! 特に、最近はスマートスピーカーの依頼が急増しています!

https://1-10robotics.com/recruit/

AINOW
人工知能専門メディアAINOW(エーアイナウ)です。人工知能を知り・学び・役立てることができる国内最大級の人工知能専門メディアです。2016年7月に創設されました。取材のご依頼もどうぞ。https://form.run/@ainow-interview

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する