【DeepMindの記事を翻訳！AIが油絵を書く？】画像を生成する書記プログラムについて学ぶ

最終更新日： 2019年7月10日

元記事はAlphaGoを開発したDeepMindのブログ記事です。この記事では、画素以外の素材で構成された画像を生成できるAIを開発する可能性が探求されています。ヒトであれば、筆で書かれた文字とボールペンで書かれた文字を区別することは容易です。従来のAIでは、こうした文字を描くのに使われた道具を推測することができなかった。同社は、敵対的生成ネットワークと類似した学習システムを構築して筆記道具を識別できるAIを開発しました。この成果は、将来的に書道をしたり油絵を描くAIの開発につながっています。（AINOWコメント）

ヒトの眼を通して見ると、世界はヒトの角膜に写った画像以上のものです。例えば建造物を見て、その設計の複雑さを称賛する時、ヒトはその建造物を建てるのに求められる職人芸を評価しています。対象物をそれを作った道具を通して解釈する能力は、ヒトにより豊かに世界を理解するちからを与えてくれます。そして、こうした能力はヒトの知性の重要な側面なのです。

わたしたちは、自分たちが開発するシステムがヒトのように世界の豊かな表現を作り出すようになってもらいたいと思っています。例えば、私たちのシステムがあるヒトの手で描かれた画像を観察する時には、そのシステムが画像を描くのに使われた絵筆の筆致を理解して欲しいのであって、画像をスクリーン上に表示された画素とは理解して欲しくないのです。

今回わたしたちが取り組んだ研究において、ヒトと同じように画像を作り出し、画像を構成しているものが画素なのか、文字なのか、あるいは肖像画なのか理由をもって推論できる手段を人工的エージェントに実装しました。

今回の研究で決定的なことは、以上のような人工的エージェントは、画像を作った道具の識別をヒトがラベル付けしたデータセットを使うことなく自力で習得することです。こうした成果は、直近の研究と対照的です。

直近の研究では、人工的エージェントはヒトの実技から習得することに大きく依存しており、習得にはまとまった時間を要するプロセスが必要だったのです。

生成者が識別者をだます描画学習システム
だますと描画がうまくなる強化学習
描画学習システムの可能性

生成者が識別者をだます描画学習システム

クレジット：Shutterstock

わたしたちは、人工的エージェントがコンピュータが実行するペイント・プログラムと相互作用するような深層強化学習を設計しました。

この学習で使われるペイント・プログラムでは、デジタル的なキャンバス上に筆致を描き、ブラシのサイズや筆圧、そして色を変えました。全く学習していない人工的エージェントは、識別可能な意図や構造がないランダムな筆致を描くことから学習を開始しました。

そして、強化学習を完遂するために、人工的エージェントがランダムな筆致を描いているうちに意味のある筆致を描けるように後押しする報酬を与える方法を作らなければなりませんでした。

意味のある筆致を描ける人工的エージェントを作るために、わたしたちは識別者（discriminator）と呼ばれるふたつめの人工的エージェントを訓練しました。

この識別者を訓練するただひとつの目的は、ある筆致が人工的エージェントが描いたものか、あるいはリアルな写真から構成された画像のサンプルにすぎないのかを予測することにあります。

筆致を描く人工的エージェントは、どうにかして識別者に人工的エージェントが描いた筆致をリアルな画像サンプルにおける筆致であると予測させるようにだますと報酬が与えられます。こうした報酬システムを言い換えるならば、筆致を描く人工的エージェントが報酬をえたシグナルから学習する、と言えます。

以上のような学習システムは敵対的生成ネットワーク（Generative adversarial networks、略称：GAN）で使われているアプローチと似ています。

しかし、敵対的生成ネットワークにおける生成者（Generator）の設定は、たいてい画素を直接的に出力するのに対して、わたしたちの人工的エージェントはデジタルペイントが可能な環境と相互作用する描画プログラムが描く画像を作り出す点が異なっています。

だますと描画がうまくなる強化学習

MNISTのデータセットから数字の描画を学習する様子

筆致を描く学習システムを実験する最初の設定として、生成的エージェントをMNISTの数字によく似た画像を生成するように訓練しました。このデータセットに含まれている数字は画素で構成された文字のように見え、（ペイントアプリのようなもので）描画されたようには見えません。

こうして識別者をだます数字の画像を生成しようと試みることを通して、筆致を描く生成的エージェントはブラシの制御、それぞれの数字がもつ字体をまねるようにブラシを使うこと、そして視覚的プログラム合成（Program synthesis）として知られるテクニックを学習しました。

また生成的エージェントが特定の画像を生成できるようにも訓練しました。この訓練における識別者の役目は与えられた画像があるモノについての画像のコピーなのか、それともあるモノについて生成的エージェントが描いた画像なのかを判別することにあります。

識別者にとってこうした識別が困難になればなるほど、生成的エージェントにはより多くの報酬が与えられます。

以上のような学習システムにおいて特筆すべきなのは、こうした学習システムの枠組みがシミュレーション上のブラシを制御する一連の動きを生み出している、と解釈できるところにあります。

この解釈が意味するのは、以上の学習システムはスクリーン上で描くのと類似した環境において文字を再生成しようとするペイント・シミュレーション・プログラムにおける学習内容にも応用できる、ということです。

例えば、描画する機能をもったロボットのシミュレーションあるいはリアルに存在する描画用ロボット・アームの描画学習にも応用できるのです。ロボット・アームの動画については、こちらを見てください。

描画学習システムの可能性

描画学習システムの模式図

この学習システムの枠組みは、（MINISTのようにデジタル情報ではない）リアルに存在するデータセットにも拡大できるポテンシャルがあります。（セレブの顔写真を集めたデータセットである）celebrity facesを描くように訓練した時には、生成的エージェントは輪郭、色調、そして髪型のような顔の特徴を捉えることができるのです。

こうした学習によって生成的エージェントは、ちょうどストリートにいる絵描きが限られた筆致で似顔絵を描くようにセレブの顔を描けるようになるのです。

celebrity facesのデータセットからポートレートの描き方を学習する様子

未加工の感覚から構成された表現を復元することは、ヒトは苦もなく習得しており、しばしば使っている能力のひとつです。

今回の研究によって、わたしたちは人工的エージェントにヒトが周囲の世界を構成するのと同じ手段を用いる方法を与えることによって、人工的エージェントがヒトと同じような表現を生み出すことに導けることを示しました。

今回開発した学習システムを実行することで、人工的エージェントは自らの観察力を磨くような因果的な関係性を手短に表現する視覚的プログラムを生成することを学習できるようにもなります。

今回の研究は柔軟なプログラム生成へ向けた小さなステップを表しているに過ぎないのですが、今回と同様の技術が人工的エージェントがヒトのように認知し、一般化し、そしてコミュニケーションする能力を持つことを可能とするのには不可欠であるだろう、と予想しています。

今回の研究に関する動画はこちら、以上の手法に関して詳細を知るにはこちらの論文を参照してください。

以上の研究はYaroslav Ganin、Tejas Kulkarni、Igor Babuschkin、S. M. Ali Eslami、そしてOriol Vinyalsが行いました。またOleg Sushkov、David Barker,、Matej Vecerik、そしてJon Scholzにはロボットのことで助けてくれたことを感謝致します。

原文
「Learning to write programs that generate images」