なぜ言語＆アートの分野でAIが急速に進化しているのか？

著者のNick Saraev氏はカナダで活動するAIを活用するアーティストであり、以前に同氏執筆の記事『（DALL-E 2が登場した）昨今、産業としてのアートの死が記録された』を紹介しました（同氏の詳細は同氏公式サイトを参照）。同氏が最近Mediumに投稿した記事『なぜ言語＆アートの分野でAIが急速に進化しているのか？』では、近年のAIが文章生成や画像生成において著しい進化を遂げた理由が論じられています。

GPT-3やDALL-E 2のような最近のクリエイティブなAIは、文章生成や画像生成において人間並みの作品を制作できるようになりました。Saraev氏によると、こうした事態はすでに40年前には予想されていました。その予想とは、アメリカのロボット工学者ハンス・モラベックが提唱した「モラベックのパラドックス」です。このパラドックスは、機械にとって知覚や歩行のような人間が簡単に実行できることは難しい一方で、計算や推論のような人間にとって難しいことを容易に実行できることを指摘したものです。
Saraev氏は知覚や歩行が機械にとって難しい理由についてさらに考察を進め、その理由を人類進化の歴史に求めます。知覚や歩行は人間が長い進化の歴史のなかで獲得した生得的スキルなので、思考を巡らすことなく実行できます。対して文章の執筆や計算は人類進化の歴史から見ればつい最近始めたことであり、こうしたタスクに対して人間は十分に適応していないため苦手なのです。
一方で（AIを駆動させる）コンピュータは人間が苦手とする計算を効率的に実行できるように発明されたものであり、言わば人間が苦手なことを得意としています。そして、得意分野において実行できる仕事を増やした結果、文章や画像の生成も可能となったのです。
以上のように論じたうえで、クリエイティブな仕事はそもそも人間が苦手とするものなので、AIがそうした仕事を人間に代わって担うのはむしろ当然の流れである、とSaraev氏は結論づけます。
Saraev氏が論じるようにクリエイティブな仕事がAIによって完全代替されるかどうかは予断を許さないところですが、こうしたAIが今後急速に普及するのはおそらくは不可避なのではないでしょうか。

なお、以下の記事本文はNick Saraev氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
以下の翻訳記事を作成するにあたっては、日本語の文章として読み易くするために、意訳やコンテクストを明確にするための補足を行っています。

目次 [非表示]

なぜ機械は指数関数的に知能を高めていくのか、この現象の核心となるパラドックス
モラベックのパラドックス
計算から文化へ
人間は知覚とモビリティには長けているが、それ以外はあまり得意でない
ロボットがサンドイッチに苦戦する理由
経済的考察
最終的な所感

なぜ機械は指数関数的に知能を高めていくのか、この現象の核心となるパラドックス

私が1SecondPainting（※訳註1）を始めた時、AIはもう後戻りできない一線を越えてしまったと思った。

機械は、時代とともにその能力を高めてきた。しかし、私は（そして他の多くの人々も）、その能力は単純で単調な作業を追放するものだと思っていた。

機械がやる仕事と言えば、例えば組立ラインの操作や自動車の組み立てであった。AIはそういう仕事を自動化する「ため」のものであり、そうしたことに私は違和感を覚えていなかった。

しかし、2020年の出来事がすべてを変えてしまった。

人類はテクノロジーと長く付き合っていたのだが、わずか数カ月で現代の人工知能はその関係を卒業したのだ。その年の6月、GPT-3が一般に公開された。そして12月には、生成的機械によるアートの最も衝撃的な進歩のひとつであるVQGANが、大きな波しぶきとともに上陸した。

AIが初めて、人間の創造性を再現したのだ。アート、デザイン、言語など、従来は人間の本質と考えられていた概念が、もはやそんな風にはとらえられなくなった。そして、その理由を理解する人はほとんどいなかった。

しかし、このような機械の能力の向上傾向は、実は約40年前には予測されていた。そして、この予測にもとづけば、私たちの社会が次にどこに向かうのかわかる。

（※訳註1）1SecondPaintingとは、この記事の著者Nick Saraev氏が経営するAI生成画像の販売サイト。

モラベックのパラドックス

1980年代後半、コンピュータ科学者でロボット工学者でもあったハンス・モラベックは、興味深いパラドックスを提唱した。

そのパラドックスを具体的に言えば、人間が難しいと思うこと（知能）をコンピュータがやるのは簡単で、人間が簡単だと思うこと（知覚やモビリティ）をコンピュータがやるのは難しい、というものだ。

例えば高度な数学の能力は、人間の鋭敏な知能の真骨頂である。ほとんどの人はそんな能力を習得するのは非常に難しいと感じており、一般的な微積分の教科書に載っている文章問題のほんの一部でも解けるようになるには、何年もの熱心な学習が必要となる。

（※翻訳者注記）モラベックのポートレート。同氏の公式サイトより抜粋

しかし、機械はどんなレベルの数学も難なくこなせる。線形代数であれ微分幾何であれ、機械にとってはどんな数学も単純な算術以上のものではないのだ。

計算から文化へ

次のことは、おそらく読者諸氏もよくご存じの表現だろう。コンピュータ（Computer：計算機械）は常に、そう、計算することに長けているのだ。計算させるために私たちはそれを作った。

しかし、今ではコンピュータは数学だけでなく、もっと先まで進んでいる。モラベックのパラドックスは分野に関係なく、すべての知的作業に適用され始めている。その適用範囲は言語、形式的推論、芸術的創造性などを含むようになっている。

GPT-3はすでに平均的な大学卒業生よりも優れた文章を書け、DALL-E 2とImagenは平均的なアーティストよりも巧みだ。そして、LaMDA（※訳註2）やFlamingo（※訳註3）などの新しい言語モデルの数々は、知的な人間が日常的に苦労する複雑な推論問題を解決するようになっている。

あと数年もすれば、AIは世界レベルの芸術作品、長編の書籍や白書、無限に近い複雑さを持つ楽曲を生み出せるようになるだろう。つまり、人間の文化をさらに発展させるのは、機械の役目になるのだ。

しかし、なぜコンピュータが創造的になったのか。人類が何千年もかかってきたことを、どのようにして AIはわずか数年でやってのけたのだろうか。

（※訳註2）LaMDAとは、Googleが開発した会話AI。2022年6月11日、ワシントンポスト紙はGoogle所属のエンジニアBlake Lemoineが同AIに意識があると主張したと報じて話題となった。7月23日には、同氏がGoogleから解雇されたことを独立系メディアBig Technologyが報じた。

（※訳註3）Flamingoとは、DeepMindが開発した画像認識モデル。画像を説明するキャプションを生成する。

人間は知覚とモビリティには長けているが、それ以外はあまり得意でない

進化の歴史という観点から見れば、コンピュータの創造性増大の秘密はかなり簡単な問題だ。人間の脳は論理や推論、芸術といった難解な追求よりも、生存のための進化にずっと長い時間をかけてきた。

つまり歩く、走る、物をつかむ、バランスをとるといったモビリティは、私たち人間にとってあまりにも簡単で考えることすらない。それらを無意識のうちに行う。私たちの脳のほとんどは何百万年もかけて最適化されてきたものであり、人間は文字通り「動く」ために作られたと言えるだろう。

しかし、人間は次の『白鯨』（※訳註4）を書いたり、難しい問題を数論したりできるだろうか。こうした活動は人類史上比較的新しいものであるため、そんな難しい問題を簡単に解決できる脳構造が進化によって構築されるには時間が足りなかった。そのため、これらの作業には膨大な量の思考と集中、そして労力が必要とされる。

したがって、言語や芸術や意味というのは、本質的に難しい問題というわけではないのだ。というのも、人間は常に非常に限られた道具を使ってこの問題に取り組んできたので、これらの問題が難しいように思われてきたのだ。現代のAIにこのような問題を与えても、私たちのような本質的な難しさを感じない。モラベックが考えていたように、私たちが難しいと感じる作業をコンピュータが行うのは簡単なのだ。

（※訳註4）『白鯨』とは、アメリカの小説家ハーマン・メルヴィルが執筆した長編小説。同作は、イギリスの小説家サマセット・モームが1954年に発表したエッセイ『世界の十大小説』においてアメリカ文学作品として唯一選出されており、アメリカ文学の名作と評される。また、何度も映画化もされている。

ロボットがサンドイッチに苦戦する理由

一方で人間が行う非常に単純なことでも、機械にとっては非常に難しいことがある。例えばハムとチーズのサンドイッチを作るという、あまり明確には定義されていない作業を考えてみよう。

人間のサンドイッチを作る「アルゴリズム」は、1）パンを探す、2）カウンターにパンをパタンと置く、3）ハムとチーズを出す、4）具材を組み立てる、である。そして、他のものをすべて冷蔵庫に戻して、むしゃむしゃ食べる。

一方、コンピュータがこのような作業を行うのは非常に難しく、難しい理由は主に（この作業に要求されるのが）知覚とモビリティであるからだ。

2050年、人間の家事を手伝う汎用的な「ヘルパー」マシンが誕生したとしよう。ハムチーズサンドイッチを作るために、この機械が考えなければならないことの一端を以下に紹介する。

冷蔵庫は、ヘルパー本体に対してどこにあるのか。
ドアを開けようとすると、どの程度の抵抗が生じるのが予想されるのか。
重心を崩さずに、どの程度の距離まで身を乗り出せるのか。
手を伸ばしている容器の重さは、だいたいどれくらいか。
掴んでいる容器を滑り落とさないようにするには、どんな種類の力を使う必要があるのか。
容器の中にはどんなものが入っているのだろうか。自分の動きが内容物にどのような影響を与えるのか。もしあまりに速く、あるいは強い力を加えたら、それらを押し潰してしまわないか。
容器をどのくらいの強さでカウンターに置けばいいのか。

…以上は、まだサンドイッチを組み立てる前の段階の作業である。

ロボットが歩いたり、ドアを開けたり、サンドイッチを作ったりといった一般的な作業をするためには、膨大な量の工学的工夫が必要となる。一方で人間の子どもたちは、それらをほとんど努力することなく成し遂げられる。

モラベックが「知覚とモビリティに関して、1歳児のスキルを（機械に）与えることは難しいか不可能だ」と言ったのは、以上のことが核心となっている。私たちの頭脳は知覚やモビリティに関連する膨大な情報を無意識のうちに処理しており、それゆえにそれらは人間にとって世界で最も簡単な作業と言えるのだ。

経済的考察

以上の考察から言語と推論に焦点を当てた知能モデルが、ロボットに比べてなぜこれほど早く進化したのか、何となくお分かり頂けたと思う。

しかし、以上の考察の帰結はさらに先にある。（作業の対象が言語と推論という）範囲の問題に加えて、市場にある知的な問題を迅速に解決するように強いる経済的な圧力もあるのだ。

（※訳註5）以上のグラフは、紀元元年から紀元2000年までの人口1人あたりのGDPの推移を表したグラフである。世界経済フォーラムが2017年9月に公開した世界の経済成長に関するブログ記事でも引用されている同グラフは、産業革命以前の人類はほとんど経済成長していなかったのに対して、産業革命以降、指数関数的に経済成長したことを可視化している。
機械がクリエイティブなスキルを獲得しつつある現在、機械がクリエイティブな仕事を担うことで世界経済は再び指数関数的に成長するかも知れない。

知的な作業をコンピュータに実行させようとする圧力の原因のひとつには、この圧力によって歴史上最も経済的に印象的な偉業が容易く実現することがある。十分な帯域幅を持つ汎用的に有能な言語モデルは、あらゆる国民国家の財務的価値を瞬時に10倍にしてしまうだろう。すべての娯楽、交渉、研究開発、ビジネスが自動化され、それぞれのタスクの質は人間ができることよりも桁違いに高くなるだろう。

以上のような未来が到来する理由は以前の記事で詳しく述べたので、ここでは触れない（※訳註6）。しかし、例えば、超知的な言語モデルとサンドイッチメーカーの期待経済効果を比べた場合、ベンチャーキャピタルがどちらを選ぶかは明らかである、と言うだけで十分だろう。

さらに、反復作業を行うにはハードウェアよりもソフトウェアを使う方がはるかに簡単だ。ソフトウェアは、ボタンをクリックするだけで何百万台ものデバイスに瞬時に実装できる。対してハードウェアには物理的なアップグレードやメンテナンス、ロジスティクスに関する考慮が必要だ。ハードウェアを使い続けるとコストが上昇し、考慮すべき選択肢も増え、その結果として維持するのが難しくなる。

人間はいずれ知覚とモビリティに目を向け直すだろう。しかし、そうした回帰が起こるのは、言語、芸術、推論などの知的作業がほぼ解決されるより前ということはないだろう。そして、そうした回帰が起こる頃には、AIが研究開発の先頭に立っている可能性が高いだろう。

（※訳註6）Nick Saraev氏が運営する個人サイトで2022年5月3日に公開されたブログ記事『人工知能がもたらす今後の社会経済的影響』では、GPT-3やDALL-E 2のようなクリエイティブなAIの普及が及ぼす世界経済への影響について、以下のような2つのシナリオが論じられている。

クリエイティブなAIの普及から想定される世界経済に関する2つの予想シナリオ

（シナリオ1）クリエイティブAIの普及に対して適切な規制が為されない場合：クリエイティブ業界を中心に深刻な失業問題が生じる。さらに未成熟な労働者の賃金は低下する一方で、AIを開発管理する一部の職種に富が集中する。その結果、大きな経済格差が生まれ、世界各国の政治情勢は不安定化する。

（シナリオ2）クリエイティブAIの普及に対して適切な規制が為される場合：AIが生産した製品に対して、人間が製造したものより高い税率をかけるような適切なAI規制政策が実行されると、その政策から得られた税収をAIの普及に伴って失業あるいは賃金低下を被った人々の救済策に充てられる。その結果、極端な経済格差を生まずに穏やかにAI普及による経済的恩恵に浴せる。経済格差自体は無くなることはないが、経済格差が悪いわけでもない。

シナリオ2はAIによるユートピア実現のように解釈できるが、各国政府が適切なAI規制を実施できる保証は何もない、とSaraev氏は警鐘を鳴らしている。

最終的な所感

要約すれば、モラベックのパラドックスこそが言語や芸術の分野でAIが急速に進化した理由だ。また、ロボット工学や移動能力の分野が我々の期待に比して大きく遅れをとっている理由でもある。

十分な時間があれば、AIが人間の知能をそのあらゆる関連分野において最終的に超えるのは明らかだ。AIが人間の知性を完全に凌駕するまでの猶予時間のあいだ、私たち人間に最も自然に備わっているスキルが、機械にとってはしばしば最も習得しにくいスキルであることを忘れないでおこう。そして、まだ人間に劣るところがあるAIがいる近未来について計画を立てようではないか。

原文
『Why is AI advancing so rapidly in language & art?』