最終更新日:
こんにちは。株式会社FRONTEO 行動情報科学研究所の門前一馬です。
会社では、行動情報科学研究所のCTO戦略部というチームに所属し、FRONTEOが独自開発した人工知能エンジン「KIBIT(キビット)」を展開していくための活動を行っています。
また、仕事とは別に、Machine Learning 15minutes!という機械学習のイベントを主催したり、全脳アーキテクチャ若手の会や、全脳アーキテクチャ・イニシアティブという人工知能コミュニティでクリエイティブ関連のボランティア活動をしている、人工知能オタクでもあります!
今回のアドベントカレンダーは、AIの未来予測というテーマですので、現在、ビジネスとして社会から大きな期待を持たれている特化型のAIから、今はビジネスに直結しない汎用AIまで、書き綴っていこうと思います。
あと、あくまで、会社の公式見解ではなく、私の個人的な見解が含まれるので、ご了承ください。
目次
はじめに。昨今の人工知能ブームについて
現在、第三次人工知能ブームの真っ只中ですが、その火付け役となったのが、2012年、LSVRCという国際カンファレンスで、ジェフリー・ヒントン先生率いるトロント大学が、Deep Learningを使った画像認識で他のチームを圧倒したことと、Googleが巨大なNeural Networksを利用し、表現学習で猫という概念を獲得したことだといわれています。
そして、2013年に発刊されたMIT、エリック・ブリニョルフソン先生の「機械との競争」が多くの経済人に衝撃を与え、日本では東京大学の松尾先生がDeep Learningを使った機械学習において、産業界とアカデミックを繋ぐ架け橋を担われたことが、現在も続く人工知能ブームを引き起こしたと自分は考えています。
自然言語処理という技術について
自然言語処理とは人間が日常的に使っている自然言語をコンピュータに処理させる技術です。
自然言語処理において、Deep Learningでは翻訳やチャットボットの対話システムに利用されていますが、学習に多くのデータを必要とします。転移学習のような手法も研究されていますが、言語領域での応用はこれからで、限られた学習データに基づいて、大量のテキストデータの中から見つけたいデータを高速かつ効率的に抽出しなければならないシーンには向いていません。また、研究者やエンジニアの方にとっては当たり前の事ですが、AIと呼ばれている技術はDeep Learningだけではありません。サポートベクターマシンやランダムフォレストなどの従来技術は今でも活用されていて、用途に基づいた適切な技術を選ぶ事が重要です。
テキスト解析に強いAIエンジン「KIBIT(キビット)」
ここで、私の所属しているFRONTEOの独自AI、KIBITを紹介させてください。
KIBITは大量のテキストデータの中から、見つけたいデータを高速かつ効率的に抽出しなければならないシーンで活躍するAIです。KIBITは国際訴訟において証拠となる文章を探す際、高度なテキスト解析をする為に生み出された特化型AIで、今では医療や金融など様々な領域で導入され、70社を超える企業、10を超える業種・業界で使われています。
KIBITの特徴は、見つけたい情報を少量のテキストから学習し、人に近い感覚で似た文章を探し出せる事です。ある金融・投資の分野でKIBITのユーザーは “KIBITはまるで自分の分身のように、自分ではとうてい読めない早さで大量の文書を読み込み、必要な情報を見つけてきてくれる”と表現した程です。
KIBITのアルゴリズムとしての特徴は、テキスト解析で単語の重みを計算する際「伝達情報量」という情報理論で定義された値を用いる事です。KIBITは教師データ中の単語に伝達情報量を適用することで、各単語が「関連あり文書」に偏って出現する度合い(重み)を1次元の数値として求めます。単語の特徴が1次元の重みで表現されるため、KIBITによる解析は、学習用データが30件程度でも高い精度が出るケースがあり、小規模な計算機でも学習可能なAIとなっています。また、KIBITは、単語の重みを最適化するアルゴリズム、Weight Refinement も実装していて「伝達情報量」による重み計算を自動検証することで、さらに高い精度を求めることが可能で、少ないデータでも優れたパフォーマンスを発揮することができます。
現在、KIBITの得意な領域はテキストですが、今後は、複数のモダリティデータを分析可能とする仕組みを導入し、新たな「人工知能プラットフォーム」に進化しようとしています。
テキスト領域からマルチモーダルへ
一般的にデータとは、テキスト、画像、音声、動画、数字など、様々なモーダルデータで記録されています。
例えば、画像データの場合、ピクセルデータとして記録されていますが、タグ付けされている場合、テキストデータとしても記録されています。
人は複数のモーダルデータを認識することで優れた情報処理を行っていますが、機械学習においても人のように複数のモーダルデータを処理する、マルチモーダル学習が研究されていて、テキストから画像を検索したり画像からテキストを検索するといった相互学習や、画像からテキストを生成したり、テキストから画像を生成するような研究も進んでいます。
自然言語におけるブレイクポイント、言葉の意味理解
現在、AIの開発はGoogle、Amazon、Facebookなど、ITの巨人から、DeepMind、GoodAIなど研究機関のような企業まで、しのぎを削り開発をしています。しかし、今、世界に存在しているAIと呼ばれているものは、超高性能な分類器であって、本当の意味で言葉の意味を理解しているわけではありません。
言葉の意味理解を含めたアーキテクチャの実装は、これからのAI開発において大きな課題と言えます。
AIの未来予測
立命館大学情報理工学部教授の谷口忠大先生は、環境に適応し、多様な概念や行動を獲得する「知能」の構造や計算論的プロセスを明らかにし、言葉の意味理解を含めたアーキテクチャの実装にチャレンジされています。
AIが言葉の意味を理解するには、まず、人間が「感覚」と感じていることをAIが学習できるようになる必要があり、谷口先生は、ロボットに人間の感覚を与えるのではなく、ロボットが自らのセンサーやモータを通じて、行動を自己学習し意味づけを行っていく取り組みをされています。これは構成論的アプローチと呼ばれ「アルゴリズムが環境から自己学習する」ことに重点が置かれています。
人間は進化の過程で言語を作ってきました。AIも実世界のモダリティ情報を学習し、身体性に基づく内的表象系と、社会に創発的に存在する記号系を区別し、人間と同じような感覚で、物事を捉えられるようなアルゴリズムを創る事ができれば、言葉の意味理解が出来るAIが生まれるかもしれません。
特化型AIは道具としての知能を作り、汎用AIは自立的な知能を創っていると言われる事がありますが、今後はより、自立的な知能を創る研究が進んでいくと、自分は感じています。
汎用AIの研究は非常にチャレンジングな研究ですので、今後も最新の研究に注目していきたいと思います。