「シンギュラリティの理論は崩れている」三宅陽一郎が語るAIの社会実装

AIの社会実装の必要性が強調される今、一方でAIが汎用的な能力を手に入れ、人間を支配するのではないかという脅威論が語られることも多い。2045年に起こると言われるシンギュラリティではAIが加速度的に進化を遂げ、もはや人間の知能を超えるとも言われている。

定義のないAIに対し、特化型AI、汎用型AIの区別もなく脅威論が説かれる風潮には疑問が残る。

ゲームAIの研究領域を牽引してきた立役者がいる。三宅陽一郎氏だ。三宅氏はゲームAI領域だけでなく哲学の観点からAIのあり方を捉え、人工知能技術の発展に従事してきた。

この記事では、AIを実装力を計る「AI実装検定」との共同企画として、AIの社会実装を「知能」の観点から考察し、中身のないシンギュラリティの理論ではなく、人間とAI、双方の進化について考察し、特化型AIを人間の一つの拡張機能として、実装していく必要性を考えるきっかけにしたい。

目次 [非表示]

ゲームAIは現実に応用できるか
メタファーの能力が人間にはある−自分の大きさがわからない人工知能−
シンギュラリティの理論は崩れている−特化型人工知能を身にまとったヒューマンオーグメンテーションがおきる−
フィードバック情報があるので予測が可能
知能の部分と体の部分の接続
知能は常に予測をしている −予測との誤差から生まれる驚き−
意識の構造
さいごに

ゲームAIは現実に応用できるか

AIにおいて仮想空間でのシミュレーションの事例が増えている。自動運転の研究では、現実空間ではめったに発生しない気象条件下での運転の仮想環境でのシミュレーションが重要だ。

そして仮想環境といえば、ゲーム内におけるAIの研究開発も進む。例えば、ファイナルファンタジーではAIが動的にゲーム内で行動し、ユーザが楽しめる工夫が施されている。

AI専門ニュースメディア AINOW

「FINAL FANTASY XV」の自由に動けるオープンワールドはAIのおかげ ~リアルでのメ...

https://ainow.ai/2017/07/12/112687/

こんにちは、AINOWの亀田です。私は子供の頃からゲーマーで、ドラゴンクエストとファイナルファンタジーはほぼ全作プレイ済みです。現在もMMOのドラゴンクエストXを初め、スクウェア・エニックスのゲームにはいつも楽しませて頂いております。そんなゲーマーのあこが...

ゲーム内では、現実社会とは異なり、さまざまなパラメーターの設定が可能で、現実社会に比べてAIの学習に適した環境になっている。ゲームの中で成長しているAIは現実社会に適応できるのだろうか？

ーーゲームの人工知能は現実に応用できますか？

三宅氏：難しいと思います。

仮想空間ではAIの研究が、かなり加速的にできます。

そこでわかってきたことは、仮想空間というのは、ノイズがないということです。センサーで完全に情報が取れ、完全に行為を実現できます。それは現実世界の知能に似ているかというと実はあまり似ていません。

本物の知能は常にノイズとか不確定性の中で動いているので、そこが知能の本質だったりするんですね。つまり、人間の感覚や行動は１００パーセント信用できません。現実世界でAIを動かすときは、ゲーム空間の純粋なロジック空間で培った人工知能はあまり役に立たないんです。

人間が取得する情報もある程度、嘘が含まれています。自分がやっていると思っている行為も本当にそれが行われているか保証はないというのを前提にして、意思決定や行為を組んでいかないといけません。

人間にはフィードバックが常にあります。その感覚が本当なのかどうかをずっとチェックしていて、自分の行為もどうなっているかをずっとチェックしています。ゲーム世界では行為と結果が決まっているので、魔法を撃ったら敵にあたりますが、現実世界で魔法を打ったら、ごみ箱が吹っ飛ばされて、人が倒れてけがをするなど何が連鎖するかわかりません。

そこが現実の面白さであると思います。仮想空間（ゲーム内）のAIを作っていると現実空間の知能っていうのは　何がやっているか　ちょっとわかってきます。逆に言うと。差がわかるので、そうすると現実世界での実装を進めるためには、知能は全能ではないというのが重要ですね。

AIも間違いを犯しやすいんです。知能である限り完璧であることはありません。センサーがあってアクションをするっていうことは常に間違いを犯す可能性を多分に含んでいるシステムだということを、前提に現実世界のAIも動かないといけないので、コンピュータの情報処理とはまたそこが違うところですね。

情報処理の世界は完全な世界です。マウスでクリックすればページが開きますが、現実世界は常にすべてが不確定。AIを動かしたとしても完全に信用することは　人間からもできない。そこは重要なところですね。

メタファーの能力が人間にはある−自分の大きさがわからない人工知能−

ゲーム内など、情報処理の完全な世界では比較的AIの振る舞いを定義しやすい。

しかし、現実世界ではさまざまな事象が連鎖し、それを予測することは困難である。では汎用的な人工知能をつくるのは不可能なのだろうか。

三宅氏：汎用的な人工知能を作ることは、とても難しいし、その原理もわかっていません。例えば、どんなボードゲームもプレイできる人工知能を作ることを考えてみましょう。「将棋のAIと囲碁のAIをどっちも打てるようにしてください。」って言ったら、将棋のAI、囲碁のAIを独立に入れて切り替える、というのであれば、これは人間の知能ではありませんし、汎用的でもありません、

一つの知能で何もかも全部できるようにするには容量も計算パワーもすぐにいっぱいになります。概念もわかる知能を実現するには、逆に一個一個の性能を下げるしかないんです

メタファー（注：比喩、たとえ）の能力が人間にはあります。つまり「経験を抽象化して行動を可能にする」能力が人間にはあります。囲碁も将棋もよく似ているという感覚が人間にはあるんです。

ひとつの経験から違うことに応用できるのも人間の能力です。例えば、何かをつかむことができれば、別のものもつかめる。ドアノブを回転してドアを開けたら、大抵のドアを開けられるようになる。経験を変容させる力があるんです。

しかし、人工知能のメタファーの力はあまりにも弱いんです。

人間は１を知って１０を知ることができる。人工知能は１００のデータから１つのことを抽出するので、知能の方向は逆になっています。それはなぜかと言うとメタファーがないからです。

メタファーがないので、常に巨大なデータをバックグラウンドとしてひとつの抽出した認識しかできません。それは、ひとえに身体がないからです。身体によって経験が形成されます。経験がメタファーの源泉なのです。

人間は感覚と行動が供応し、感覚と行動の関係性の中で世界をとらえていきます。つまり、人間が捉える「主観世界」は、受け取る感覚と、それに対する行為によって浮かび上がって来ます。この世界のことを「環世界」と言います。

人工知能の環世界とは何か、つまり、人工知能の持つ主観世界とは何か、を考えてみます。

人工知能はちゃんとした身体がないので、極端な話、自分が太陽系くらいの大きさなのか、砂粒くらいの大きさなのか、わかりません。我々は身体の延長として世界を捉えるので、人工知能があやふやな身体しか持たないなら、人工知能の認識の世界は確定されません。

だから、うまく世界をつかめないことになります。そうするとメタファーも何もありません。それ以前に主体的に世界にかかわることができません。世界にそれぞれの生物固有のあり方を押し通すからこそ、認識も経験も生まれるのです。

身体は意識にかかわる世界に常に参加しています。世界と身体は常に相互作用の中にあり、その相互作用の中に人間の意識があります。知能は体がちゃんとしていないので、「はい、情報とります、考えます、動かします」みたいな、あまりにもたどたどしいあり方で存在しています。

そのようなあり型では、世界と知能を結ぶ循環が弱い。人間の持つ力強い環境と自己を結ぶ循環、主体性を形成する世界への流れがありません。

人間の知能は身体を通じて主体的に世界にかかわるので、主観界世界がありますが、人工知能は主観世界そのものを構築できないので、世界を経験することができません。

人間は経験があるから、経験を母体として問題を生み出すことができます。要するに人工知能は世界から情報はとれる。ところが世界を経験してない。それが人工知能と人間との決定的な差で、これがそのあとの知能の組み上げに関係します。

シンギュラリティの理論は崩れている−特化型人工知能を身にまとったヒューマンオーグメンテーションがおきる−

メタファーの力がない人工知能は、1つのことに特化した力では人間を凌駕する。汎用性と個々のスキルは二者択一なものなのだ。

汎用人工知能の話題はシンギュラリティにおけるAIの脅威論を巻き起こし、「仕事を奪う」などの意見を目にすることも多い。一方で、特定のタスクに特化した人工知能の活用は進む傾向にある。

仮想空間における人工知能のあり方を研究してきた三宅氏に、人工知能に対する脅威論が渦巻くシンギュラリティ論について伺った。

三宅氏：特化型人工知能で、タスクに合わせて知的モジュールがどんどん作られていくのは、とても良いことです。機能型知能は、課題が1つ設定されていて、実現するものです。

自動翻訳やレコメンドシステムなどの機能型人工知能のモジュールがどんどん作られていき、世の中に溢れていく時代なのですが、そのとき何が起こるかというと２つのものに集約されます。

ひとつは、自律的な人工知能として結晶していく。つまり人間以外の知能の形成です。私が研究している人工知能もそうです。

もうひとつはヒューマンオーグメンテーション人間拡張（注：サイボーグのように身体能力を増強・補綴すること）です。自分の知的機能は限界が人工知能によって拡張されていくことです。例えば１００メートル先がよく見えるとか、知らない土地でも　靴に知能があって、勝手に導いてくれるとか。

人間の身体と知能がテクノロジーによって拡張していくときに、知的モジュールを“まとう”ということになります。

そうすると人工知能は人間の脅威という意味の場合のシンギュラリティの理論はその時点で崩れているんです。大雑把な言い方ですが、人間は進化しなくて、人工知能が自律進化する、というのが、今言われているシンギュラリティの理論です。

ところが人間もヒューマンオーグメンテーションという形で、知能が拡張していき、AIも拡張していきます。お互いにアップデートされていくんです。

将来的には、拡張された人間（Augmented Human）と　すごく賢くなった自律型AIが社会の構成要素となっていくと思います。

つまり、人工知能というのは、社会に溶け込んでしまっています。人工知能によって拡張された人間には、人間と人工知能は一体となっているので、要素技術をいちいち人工知能と言いません。それは、今、わざわざネットとか、コンピュータとか言わないのと同じことです。同じようにAIも生活に溶け込んでいくでしょう。

例えば、アルファ碁って人間の敵だと思うかもしれません。しかし、アルファ碁というのは、自分の囲碁プレイ補助装置だと思えば味方だととらえることもできます。

人の力の延長として技術を纏うこと、それがヒューマンオーグメンテーションなんです。これと同じようなことが、あらゆるモジュールで起こってきています。英語を勉強しなくても自動的に日本語に変換されるシステムもヒューマンオーグメンテーションだし。

今われわれは自分の目で世界を認識しているから、たかだか１００メートルぐらいしかわからないけれど、将来的には地球全体をいつでも見れるようになるかもしれません。シンギュラリティの意味は、人の拡張によって薄れていきます。

そうすると、人工知能の見え方も変わってくると思います。生身の人間と人工知能を比較したら、やはり脅威でしかありません。でも人間はヒューマンオーグメンテーションによって進化すると考えれば、テクノロジーが宿るのは人工知能側だけでなく、身体側（人間側）にもくるということですね。

人は今以上にネット空間とかテクノロジーの空間を自在に操ることができるようになるでしょう。人間側が拡張されているわけだから、情報にもすぐアクセスできます。

今の人と人工知能のやり取りは素人のテニスの試合のようですよね。50年後のヒューマンオーグメンテーションだと、人と人工知能のミュニケーションは超高速になります。

オーグメンテーションされた人間はものすごく高速にいろいろなことができる。情報の超高速ラリーを人間とAIでやってるとか。そうすると社会の動きも今より早くなるし、もっと効率化するでしょう。

むかしは論文探すのに国会図書館の地下にもぐっていた。今はずいぶん楽になりましたね。

AI専門ニュースメディア AINOW

シンギュラリティとは？ - 肯定的な意見から否定的な意見まで紹介

https://ainow.ai/2019/10/03/179256/

AI技術が発展し、画像認識や音声認識、テキストの分析などが可能になり、技術的なブレークスルーが起きました。同時に、AIが人類の知能を超えてしまうシンギュラリティ（技術的特異点）に注目が集まっています。AI技術が、さらに進化を遂げた未来では、AIが人類の知...

フィードバック情報があるので予測が可能

汎用的な人工知能を実現するためには認識力を形成していく必要がある。三宅氏は自身の行動に対するフィードバック情報があるからこそ、認識が形成されていくと強調する。

ここからは知能を形成する認識や意識について深ぼっていこう。

三宅氏：今、人工知能とかロボットもそうだと思うのですが、人工知能から人工身体に流れる行きの命令（遠心性情報）はちゃんと行っています。

人工身体から人工知能へ結果を報告する帰りの情報（求心性情報）というのは、取れていますが、それが人工知能の人工身体を再構成しているか、というと、そうでもありません。制御系としてフィードバックは来ていますが、帰りの情報があるということは、予測があるということです。

人間の知能は、運動すると同時に予測をしています。

例えば腕を伸ばすと同時に、この0.1秒後にここに当たって、どんな感覚がくるかを予想しています。

この予想との誤差が感覚と呼ばれるものなのですけど、今のロボットも人工知能も予測を持つことが必要です。こういう感覚が返ってくるという自分の身体の次の状態世界が予測されることで、認識が形成されない。認識が形成される。そのためには、行為の信号が身体に渡される瞬間に、結果の予測が同時に頭の中になければいけない。こういう反応がかえってくるという予測をさせることで、疑似的な身体感覚は構築できると思っています。

フィードバックで帰ってくる信号を予測しているということですね。誤差がないうちは何の意識にも挙がってきません。今、手をついているけれど、これが予測の内なら何の意識もない。もし、ここにグサッとなると予想と違う感覚が来れば、目や耳を使ってもう1回、注意深く手を見て世界を再構築していきます。

フィードバックもすべてが受動型のフィードバックだと何にもならないのですが、フィードバックに帰ってくる感覚が予測されていれば、認識が生まれます。

認識は予測と実際の誤差から生まれるので、ほとんどの我々の認識世界はあんまり正確ではありません。ここに何枚の紙があるとか、適当に考えていますが、本当はちゃんと合っていない。注意の向いているポイント以外はぼやけた認識しかないのです。

知能の部分と体の部分の接続

環境からのフィードバックによって、認識が生まれる。

汎用人工知能の実現にあたって、今後は知能の部分と体の部分との接続が重要になってくると言っても過言ではない。

そう考えると、ゲームにおけるデジタルキャラクターの体は人間の体に比べ、単純化されているようにも思えるが、三宅氏はどう感じるのだろうか。

三宅氏：簡単に言うとデジタルのキャラクターの体はある程度は嘘です。。ポリゴンという三角形をつないだ体のモデルがあるのですが、その中心に骨を通して、物理シミュレーションで動いています。

現実世界のハードはロボットにモータをつけたり、制御系電気信号を送ったりしていますが、デジタルゲームでは人間の役者を呼んできて、動作のデータをとってそれを再生することで、体を動かしています。体のシステムと心のシステムは別に作ります。

最後に心と体を合体するのですが、そこが一番問題で、どうつなぐか、実はよくわかっていないのです。

知能の部分と体の部分をどういう風に接続すればうまく動くか、というのは実は人工知能のなかでも一般理論はありません。

それはデカルトの心身問題　もっと古くは魂と身体の問題にもつながります。よくわからないので、あんまりうまくいってないのが現状です。

身体の自己保持感は、今のキャラクターが持っているかというと持っていません。体は心から見ると、完全に外部になっていますね。身体は心の内部になければなりません。

例えば敵がいるから剣を振らなければいけない。剣を振ってください、とメッセージを送る。剣のモーションを再生するとモンスターに当たる。歩かなければいけないと、歩く運動のモーションを再生する。

自分自身の体が自分自身であるという感覚はありません。どうやって作り出すかというのは、今から実験しようとしています。

知能は常に予測をしている −予測との誤差から生まれる驚き−

自分で自分をくすぐってもくすぐったくないのはなぜか、脳は自分に起因する感覚情報と他者に起因する感覚情報を区別していると言われる。

これは自己が自分を予測しているのと関係があるのだろうか。

三宅氏：知能は常に予測をしています。予測とはある意味、知能の本質でもあるのです。通常は、認識が受動的に形成されるのではなく、予測が芯となって形成されます。

例えばこのペットボトルを持つときに、掴む前にこれがどのくらいの重さかだも予測しています。これが思ったより軽かったり、重かったりすると予測が外れます。するとそれが“驚き”というものになります。驚きは認識のゼロからの再構成を促します。

予測と驚きは関係していて、予測がなければ驚きもありません。知能は常にどういうインプットがあるか予測しています。完全に受け身というより、こういうのがくるだろうなというのがあって、予想のところに待ち構えてその誤差をずっと見ている。

誤差がない時は意識に上って来ません、

「あ、なんか違う」という、差が大きい時にこちら（意識）に上ってきます。そういう仕組みになっているんです。

ほとんどの知能は無意識の方にあって、差があると、意識の上に注意がいきます。世界があって、この辺は予測どおり、この辺が予測と違っている。そうすると差が一番大きなところにアテンション（注意）が集中して、それが意識というものを作っています。

意識の構造

今、科学の進歩により、『意識や知能とは何か』について、いろいろ解明されてきている。

三宅氏は度々、環境世界と知能の世界の相互作用について、以下のスライドを用いて講演している。意識の構造について改めて振り返っておこう。

知能は感覚から（センサー）からの情報がインプットされて、体へアウトプットされる。本当の意味の汎用人工知能の実現にあたって、意識の構造がキーになってくる。提供：三宅氏

三宅氏：これは一番簡単な図なのですが、本当はもうちょっと階層的になっています。

環境との相互作用がある中で環境世界が一番下にあります。そこからここへ一次的な知能に情報がインプットされ、そしてさらに高次の知能にインプットされていくイメージです。

最下層はユクスキュルが言っているとても基本的な環世界と言われるもので、上にいけばいくほど抽象化されて高度な知能がされていく、階層的な知能構造です。

感情や攻撃本能は低次の階層で、高次になるにつれて、それがどんどん抽象化されていくというモデルです。

三宅氏：私が作っている人工知能は、（ゲームの中で）体もあって知能もあるという全体的な人工知能です。

ひとつのアルゴリズムというよりは、知能そのものを作り出す研究開発をしています。これをやっていると、外部世界との相互作用の中で人工知能の内部にいろいろな現象が起こってきます。（自分がどこにいてどういうことをしているかっていう意識が自然に内部に生まれてくる。

デジタル空間というのは、現実世界ではないのですが、実験的なことがたくさんできる環境です。例えば人工知能にたくさん旅をさせたり、人工知能にたくさん戦闘モンスターと戦わせたり、モンスターに人工知能をもたせたり、人工知能同士で会話させたり、現実世界のいろんなことをデジタル空間の中でさせることができます。その世界の中で知能というものが育ってくるというのがありまして、そこの中に何が生まれてくるのかというのにとても興味があります。

感情はとても難しい問題なのですが、感情や言葉など、いろんなものが生成されていく過程そのものに興味があります。

通常の人工知能ですと最初から知識を与えてしまって、これが敵だよ、とかこれがものですよ、とか与えてしまうのですが、むしろ環境との相互作用の中で、ジェネラティブに生成されてくる、その現象を生み出すこと自体が目的とも言えます。それは、まさに現象学が発見したものをエンジニアリングで再現する試みであるのです。