HOME/ AINOW編集部 /DALL·E を5分以内で説明してみた
2021.04.26

DALL·E を5分以内で説明してみた

最終更新日:

著者のDale Markowitz氏はGoogleCloudに所属する現役Google社員であると同時に、Forbes等に記事を投稿するライターでもあります(同氏の個人サイトも参照)。同氏がMediumに投稿した記事『DALL·E を5分以内で説明してみた』では、2021年初頭に発表されたOpenAI開発の画像生成モデルDALL·Eが簡潔に解説されています。

DALL·Eとは、「アボカドの形をしたアームチェア」のようなテキストを入力として渡すと、そのテキストの意味と合致する画像データセットを出力するモデルです。同モデルのアーキテクチャにはTransformerが採用され、学習データにはインターネットから収集されたテキストと画像の組が大量に使われたと推測されます。

同モデルの驚くべきところは、学習データのなかにあったとは考えられない「キリンとカメを合成したキメラ」のようなテキストに対する画像も生成できることです。さらには、視覚的パターンを推測する簡単な視覚的IQテストにも正解できるのです。

Markowitz氏は同モデルの視覚的タスクに関する汎用性を称賛しつつも、同モデルが汎用的知能ではないことを指摘しています。

以上のようなDALL·EをOpenAIが発表してから2ヶ月近く経過した2月24日、論文ソースコードが公開されたので、再び同氏は同モデルに関する記事を執筆するのではないかと思われます。

なお、以下の記事本文はDale Markowit氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならび組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。

前置き

数ヶ月に一度、誰かが機械学習の論文やデモを発表して、その発表に私の開いた口が塞がらなくなるようだ。今月(※訳註1)で言えば、OpenAIの新しい画像生成モデルDALL·Eに驚かされた。

(※訳註1)この記事が公開されたのは1月6日で、DALL·Eが公開されたのがその1日前の1月5日である。

この120億パラメータの巨大なニューラルネットワークは、(「アボカドの形をしたアームチェア」などのような)テキストのキャプションを受け取ると、それにマッチする画像を生成する。

生成された以上の写真は、かなり刺激的に感じられる(以上のアボカドの椅子のどれかを買ってみたいと思えてくる)。しかし、さらに印象的なのはDALL·Eが空間、時間、そして論理の概念を理解し、表現する能力を持っていることだ(これについては後ほど解説)。

この記事では、DALL·Eで何ができるのか、それがどのように機能するのか、機械学習モデルの最近のトレンドにどのように適合するのか、そしてなぜそれが重要なのかについて、簡単にその概要を説明する。それでは、出発しよう。

DALL·Eとは何か、何ができるのか?

昨年7月には、DALL·Eの生みの親であるOpenAIがGPT-3と呼ばれるDALL·Eと同様に巨大なモデルを発表し、その能力で世界を驚かせた。GPT-3はオプ・エド(※訳註2)、詩、ソネット(※訳註3)、そしてコンピュータのコードを含むテキストを人間のように生成できたのだ。DALL·EはGPT-3を自然に拡張したもので、テキストプロンプトを解析し、言葉ではなく絵で応答する。例えば、OpenAIのブログからの一例では、プロンプトに入力された「2つの白い肘掛け椅子とコロシアムの絵があるリビングルーム」のようなテキストから以下のような画像をレンダリングする。

(※訳註2)オプ・エド(Op-ed:opposite editorial)とは、ある新聞社の社説に対して、その新聞社に所属しない外部の著者が異論や反論を述べる記事。名称は、社説の反対側の欄に掲載されることにちなんでいる。ワシントンポスト紙が始めた。
(※訳註3)ソネットとは、14行から成るヨーロッパの定型詩。13世紀頃に誕生し、代表的なソネット作家のひとりにシェイクスピアがいる。

以上の画像は、悪くないのではなかろうか。この出力結果がどのようにデザイナーに役立つかはもうお分かりだろう。DALL·Eはプロンプトから大きな画像のセットを生成できることに注目しよう。画像は、CLIP(※訳註4)と呼ばれるOpenAIがDALL·Eと同時に発表した2つ目のモデルによってランク付けされ、どの画像が最もマッチするかについて判断が試みられる。

(※訳註4)OpenAIがDALL·Eと同時に発表した画像認識モデルCLIP(Contrastive Language–Image Pre-training:対照的言語対画像事前学習モデル)とは、学習データなしで高精度な画像認識を実現したモデル。同モデルには、インターネット上に存在する大量の画像が事前学習データとして使われた。その結果、GPT-3がファインチューニングなしでも多様な言語タスクで十分に機能するように、特定の画像を認識させるために専用の学習データを用意する必要がなくなった。詳しくは、OpenAIのブログ記事を参照。

DALL·Eはどのようにして作られたのか?

残念ながら、OpenAIがまだ論文を発表していないので詳細はわからない。しかし、DALL·Eのコアには、最近の機械学習の進歩に貢献しているのと同じ新しいニューラルネットワークアーキテクチャが使われている。それは、2017年に発見されたTransformerだ。このネットワークは巨大なデータセット上でスケールアップしてから訓練が可能で、なおかつ並列化しやすいタイプのものである。Transformerは特に(BERT、T5、GPT-3などのモデルの基礎となっていることからわかるように)自然言語処理で画期的な成果をあげ、Google検索結果の品質向上(※訳註5)、翻訳、さらにはタンパク質の構造予測(※訳註6)でも革新的な結果を出した。

これらの大規模な言語モデルのほとんどは、(wikipediaやウェブのクロールのようなものから作られた)大規模なテキストデータセットで訓練されている。こうしたなかDALL·Eがユニークなのは、単語とピクセルの組み合わせから成るシーケンスで訓練されているところだ。そのデータセットが何であったかはまだわからないが(おそらく画像とそのキャプションが含まれていると思われる)、膨大な量であったことは間違いない。

(※訳註5)2019年10月25日、US版Google公式ブログ記事Google検索にBERTが導入されたことが発表された。BERT(Bidirectional Encoder Representations from Transformersの略称)とは、Transformerを双方向的に活用した自然言語処理モデルである。同モデルの導入によって、長文による検索にも対応できるようになった。BERTの技術的解説と同モデルの自然言語処理研究への影響に関しては、以下の翻訳記事を参照。

AINOW翻訳記事『BERT解説:自然言語処理のための最先端言語モデル
AINOW翻訳記事『2019年はBERTとTransformerの年だった
(※訳註6)Google傘下のAI研究機関DeepMindは、2020年11月30日、タンパク質の構造を予測するモデルAlphaFold 2に関するブログ記事を公開した。タンパク質構造の予測は生物学における難問のひとつとして知られており、この問題の解決を競うコンペCASP(Critical Assessment of protein Structure Prediction:タンパク質構造予測精密評価)が1994年から隔年で開催されている。2020年に行われたCASP14では、AlphaFold 2が100点満点中90点を超えるスコアで優勝し、50年来の難問の解決に大きな進歩をもたらしたと評された。この記事の著者Markowitz氏は、同モデルにはTransformerが使われれると自身が執筆した記事で指摘している。AlphaFoldの初代バージョンについては、以下の翻訳記事を参照。

AINOW翻訳記事『AlphaFold:科学的発見のためのAIの活用

DALL·Eはどれだけ「賢い」のか?

以上に引用したDALL·Eの結果は印象的だが、巨大なデータセットでモデルを訓練した場合に必ず生じる疑問がある。懐疑的な機械学習エンジニアであれば、結果がソースとなった画像素材からコピーしたり答えとなる画像を暗記したりしているために高品質となったに過ぎないのではないか、と問うのは至極当然なことだ。

DALL·Eがただの画像の転載ではないことを証明するために、OpenAIのブログ記事執筆者たちは、かなり変わったテキストプロンプトから画像を表示するように仕向けた。そうした事例が以下だ。

「キリンとカメからできたキメラを描いたプロ仕様のハイクオリティイラスト」

「ハープでできたカタツムリ」

このモデルが学習データセットの中で多くのキリンとカメの交配種に遭遇したとは考えにくいので、結果はより印象的なものになっている。

さらに、ブログ記事で例示された奇妙なテキストプロンプトは、このモデルが持っているさらなる魅力を示唆している。その魅力とは「ゼロショットの視覚的推論」を実行する能力だ。

ゼロショットの視覚的推論

通常、機械学習では、モデルに実行させたいタスクの事例を何千あるいは何百万と与えて、そのモデルを訓練する。そうすることで、モデルがタスク実行に必要なパターンを理解するのを願っているのだ。

例えば、犬の品種を識別するモデルを訓練するために、ニューラルネットワークに品種別にラベル付けされた犬の写真を何千枚も見せてから、新しい犬の写真にタグを付ける能力をテストすることがある。この事例は限られた範囲での作業であり、OpenAIの最新の偉業に比べれば、古風な感じさえする。

一方、ゼロショット学習とは、モデルが特別に訓練されていないタスクを実行する能力のことである。例えば、DALL·Eはキャプションから画像を生成するように訓練された。しかし、適切なテキストプロンプトがあれば、画像をスケッチに変換できる。そうした事例が以下の画像だ。

「下に上の画像にある猫と正確に同じスケッチ」とプロンプトに入力した結果。画像出典:https://openai.com/blog/dall-e/

さらにDALL·Eは、道路標識にカスタムテキストを表示できる。以下の画像を参照。

「「openai」という単語が書かれた店頭」とプロンプトに入力した結果。画像出典:https://openai.com/blog/dall-e/

このようにしてDALL·E は、そのように動作するように特別に設計されていないにもかかわらず、Photoshop のフィルターとほぼ同じように動作できるのだ。

このモデルは、(画像における「巨視的」または「断面」のような)視覚的な概念、(「中国の食べ物の写真」といった)場所、(「サンフランシスコのアラモスクエアに面した夜の通りからの写真」あるいは「20年代の携帯電話の写真」などの)時間の「理解」まで示している。例えば、「中国の食べ物の写真」というプロンプトに反応して吐き出されたものは、以下の通り。

「中国の食べ物の写真」。画像出典:https://openai.com/blog/dall-e/

つまり、DALL·Eはキャプションのためにきれいな絵を描くだけではなく、ある意味では視覚的に質問に答えられるのだ。

DALL·Eの視覚的推論能力をテストするために、ブログ記事の著者らはDALL·Eに視覚的IQテストを行った。以下の例では、テストに隠された視覚的パターンに従って、モデルはグリッドの右下隅を完成させなければならなかった。

OpenAIがDALL-Eのテストに使った視覚的IQテストのスクリーンショット。画像出典:https://openai.com/blog/dall-e/

「DALL·Eは、多くの場合、単純なパターンや基本的な幾何学的推論を含む行列を解ける」と著者らは書き、さらにはある問題では他の問題よりも優れていることがわかった。また視覚的パズルの色が反転している場合にはDALL·Eの能力が劣化したことから、「予期せぬ仕方で脆弱になっているかも知れないことも示唆している」と著者らは記している。

DALL·Eは何を意味しているのか?

DALL·Eについて最も印象的なのは、著者が予想もしていなかったようなさまざまなタスクに対して、驚くほど優れたパフォーマンスを発揮することだ。

「DALL·E(中略)は、適切な方法でテキストをプロンプトに入力すると、いくつかの種類の画像対画像翻訳タスクを実行できることがわかった。

このような能力が現れるとは予想しておらず、それを促すためにニューラルネットワークや訓練手順に変更を加えてなかった。」

以上のような結果は、まったく予想していなかったことだ。DALL·EとGPT-3は、ディープラーニングにおけるより大きなテーマに関する2つの事例となっている。ラベル付けされていないインターネットデータ上で訓練された(「自己教師あり学習」(※訳註7)の事例のような)桁外れに大きなニューラルネットワークは、非常に汎用性が高く、特別に設計されていないこともたくさんできる。

もちろん、DALL·Eを汎用的知能と勘違いしてはいけない。この手のモデルを騙すのは難しいことではない(※訳註8)。このモデルがオープンにアクセスできるようになって、弄り回せるようになったら、もっと多くのことがわかるだろう。そうは言っても、一般公開されるまでの間、ワクワクせずにはいられない。

(※訳註7)自己教師あり学習(Self Supervised Learning)とは、モデル自身がデータにラベル付けする教師あり学習の一種。この技法の利点は、場合によっては大量の人力が必要になるラベル付けを大幅に削減できるところ。ジェフリー・ヒントン名誉教授とGoogle Research Brain研究員から成る研究チームは、2020年1月1日、自己教師あり学習モデルに関する論文を発表した。同研究チームが画像認識モデルは、AlexNetの学習に使われたラベル数の100分の1の量で同モデルを凌駕する性能を実現した。
(※訳註8)OpenAIが発表した言語モデルGPT-3が生成する文章は、人間が作成したそれと区別するのが難しいことから同モデルは人間に匹敵する言語能力があるかどうか活発に議論された。そうした議論のなかには、同モデルに対してチューリングテストを行ったものがある。その結果は、ナンセンスな質問や正解のない質問に対して、明らかに間違った答えを返すことから人間と区別できることがわかった。この議論については、以下の翻訳記事を参照。

AINOW翻訳記事『GPT-3にチューリングテストを試してみる

機械学習についてもっと知りたいですか?Twitterで@dalequarkをフォローしてください。

・・・

原文は、2021年1月6日にhttps://daleonai.comで公開されました。


原文
『DALL·E Explained in Under 5 Minutes』

著者
Dale Markowitz

翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)

編集
おざけん

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する

あなたにおすすめの記事

生成AIで“ウラから”イノベーションを|学生起業家が描く、AIを活用した未来

特許技術×AIでFAQを次のステージへ|Helpfeel

GPUの革新からAI時代の主役へ|NVIDIA

あなたにおすすめの記事

生成AIで“ウラから”イノベーションを|学生起業家が描く、AIを活用した未来

特許技術×AIでFAQを次のステージへ|Helpfeel

GPUの革新からAI時代の主役へ|NVIDIA