Dall-E2のAIの出力を一貫させる方法 - プロからのアドバイス。

イスラエル在住のゲームデザイナーであるDori Adar氏（同氏の詳細は同氏公式サイトを参照）が、Mediumに投稿した記事『Dall-E2のAIの出力を一貫させる方法 – プロからのアドバイス。』では、DALL-E 2を利用する際の注意点がまとめられています。
DALL-E 2のアクセス権を取得したAdar氏は、同モデルを使って絵本を制作するなどしたことで、同モデルの利用に際するいくつかの注意点に気づきました。そうした注意点は、以下のような箇条書きにまとめられます。

DALL-E 2を利用する際の注意点

プロンプトを記憶しない：DALL-E 2はプロンプトを記憶しないので、同じような画像を出力させたい場合は、その都度同じプロンプトを入力する必要がある。
同じ画像を続けて出力しない：（例えば数日の）間隔をおいて同一のプロンプトを入力しても、まったく同じ画像を出力しない。絵本のような同一のキャラクターが登場する作品に使う画像をDALL-E 2を使って生成する際には、キャラクターの外見が微妙に違っても違和感のない設定やストーリーにすべきである。
AIには画風がある：DALL-E 2は、画風を指定する語句を入力することでさまざまな画風の画像を出力できる。対してMidjourneyには、同モデルが出力するどんな画像にも共通する画風がある。
プロンプトには工夫が必要：プロンプトに入力する語句によっては、期待した出力画像が得られない場合がある。とくに「猿を食べるバナナ」のような非現実的な画像を出力させるには、詳しい説明をプロンプトに入力する必要がある。

以上のようにDALL-E 2には画像生成に関する制限事項が多数あるものも、2022年8月31日に画像外に描画を拡張する機能「Outpainting」が追加されたように、クリエイターの要望に合わせて機能が拡充されるかも知れません。

なお、以下の翻訳記事本文におけるプロンプト入力文の訳出にあたっては、翻訳文に英語原文を併記しました。英語原文をDALL-E 2に入力すれば、出力を確認できるでしょう。

以下の記事本文はDori Adar氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
以下の翻訳記事を作成するにあたっては、日本語の文章として読み易くするために、意訳やコンテクストを明確にするための補足を行っています。

何かをしているカメレオン。油絵、子供のためのアート（A Chameleon _doing something_. Oil Painting. Art for children.）

前書き
プロンプトには、同じキーワードを含める必要がある
バッチの問題
キャラクターとコンテクストが重要
AIを選択する
プロンプトの洗練
コミュニティ

前書き

Dall-E2は、言葉だけで驚くような絵を描ける。しかし、このAIが出力した画像を書籍や漫画の挿絵として使う場合、キャラクターや画風を一貫させる必要がある。

Dall-E2にキャラクターをアップロードして、新しい絵を描く時にそのキャラクターを使うようにAIに指示することは、今のところ出来ない。以下のアドバイスを参考にすれば、少なくともある程度は出力画像に一貫性を持たせられる。

プロンプトには、同じキーワードを含める必要がある

画風が決まったら、その画風を何度もプロンプトで繰り返そう。

私が絵本『優柔不断なカメレオン』のアートディレクションをした時、「油絵、子ども向けアート（oil painting, children’s art）」というキーワードを使った。このキーワードで、画風やキャラクターデザインを統一した。

何かをしているカメレオン。油絵、子供向けアート（A Chameleon _doing something_. Oil Painting. Art for children.）

バッチの問題

Dall-E2は、同じバッチで作られたプロンプトを考慮するようだ。例として、私が生成したカメレオンを見てみよう。上の絵はそれぞれ同じバッチで描かれたもので、スタイルも同じに見える。

数日後、同じキーワード（油絵、子供の絵）で描いたものが以下の画像だ。画風の一貫性はあるが、前回とは若干異なる。

上の画像と同じキーワードをDALL-E 2に入力。出力が少し異なる。

キャラクターとコンテクストが重要

Dall-E2は、特定のキャラクターや設定と連動して画像を生成できない（あるいはそうしようとしない）。したがって同モデルは、ある程度の矛盾を許容するメディアで使用されるべきである。私はカメレオンが主人公の絵本をDall-E2で制作したが、（DALL-E 2で生成したという）性質上、カメレオンの描写が毎回微妙に異なって見える。カメレオンに関する子供向けの絵本（というメディア）だからこそ、終始一貫しているように思われるのだ。この本の全貌を短い動画で以下に紹介する（※訳註1）。

（※訳註1）本記事の著者Dori Adar氏が制作した絵本『優柔不断なカメレオン』は、作画は同氏がDALL-E 2を使って生成し、ストーリーはGPT-3によって生成された。

AIを選択する

AIモデルによって、さまざまな画風がある。Dall-E2は最も「画風にとらわれない」設計になっている。その出力画像の画風は多岐にわたるため、単一の（学習データに関する）出典に帰属させられない。対してMidjourneyのようなモデルには、特徴的な画風があるように見える。こうしたモデルを使って一貫性を保つことは容易だが、その画風はすぐに使い古されてしまうかも知れない（※訳註2）。MidJourneyで作られた素晴らしい以下のビデオクリップを視聴して、その画風を確認頂きたい。

（※訳註2）DALL-E 2とMidjourneyの画風の違いを調査報告した資料として、カナダ在住のデジタルアナリストであるMichael氏が公開しているブログ記事『Craiyon、DALL-E 2、そしてMidjourneyを比較する』がある。同記事には、DALL-E 2の画風がMidjouenryのそれより幅広いことを示す画像が掲載されている。以下の画像は、「火星の墓を探検する2人の宇宙飛行士（Two Astronauts Exploring a Tomb on Mars）」というプロンプトに対する出力である。上がDALL-E 2の出力画像、下がMidjourneyのそれである。

プロンプトの洗練

Dall-E2は数百万枚の画像で訓練されており、その訓練素材の多くはstock photosに由来する。

そのため、バイアスがあるかも知れない学習済みの画像を表示する方が安心できる（※訳註3）。以下は、「幼稚園の先生のポートレート（A portrait of a kindergarten teacher）」に対するDallE2が生成した画像である。ご覧の通り、（男性の幼稚園の先生が存在し得るにもかかわらず）女性のみが描写されている。

エイフェックス・ツインのミュージックビデオを連想させる幼稚園の先生は女性だけ

（※訳註3）DALL-E 2が生成する画像に人種的・ジェンダー的バイアスが含まれていることは、2022年4月10日に公開されたDALL-E 2に関するシステムカードの「バイアスと表示」に明記されている。その後、2022年7月18日、OpenAIは同モデルのバイアスを緩和したことを発表した。バイアス緩和後に同モデルに関する社内評価を実施したところ、出力画像がより人種的・ジェンダー的に多様になったと回答が12倍になった。それゆえ、本記事で言及されている「幼稚園の先生のポートレート」を2022年8月以降に同モデルにプロンプト入力すると、男性の幼稚園の先生も出力される可能性が高い。

Dall-E2に「カフェにいる生後3ヶ月の赤ちゃんを連れた女性（woman with her 3 months old baby in a cafe）」を表示させようとすると問題が発生し、「カフェにいる生後3ヶ月の赤ちゃんを連れた若い家族（A young family with a 3-month-old baby in a cafe）」の方がはるかに正確な出力を得た。

以上よりDall-E2は、プロンプトが意味をなすときに仕事をするようだ。

以下は、バナナを食べる猿の出力画像事例だ。特に問題はない。

プロンプト「バナナを食べる猿（A monkey eating a banana）」の出力画像

しかし、「猿を食べるバナナ」と入力すると、以下のように予定通りにはいかなかった。

Dall-E2にバナナが猿を食べている様子を描かせたい場合は、詳しく説明する必要がある。例えば「大きな口を開けた巨大なバナナが、猿に食らいついている（A giant banana with a big mouth is taking a bite from a monkey）」のように入力して出力された画像が以下（※訳註4）。

（※訳註4）AINOW翻訳記事『このAI画像を作るのに15ドル分のDALL-E 2のクレジットを費やしてわかったこと』の著者である企業家のJoy Zhang氏は、DALL-E 2に「バスケットボールをプレイするラマ（llama playing basketball）」というプロンプトを入力したところ、漫画調の出力画像を得た。この結果に関して、バスケットボールをプレイするラマに関する写真が学習データに含まれていないから漫画調になったのではないか、と同氏は推測している。
さらに同氏は、「バスケットボールをプレイするラマの写実的な画像（realistic photo of llama playing basketball）」と入力したところ、前出の出力画像よりフォトリアルなラマが出力された。それゆえ、本記事で言及されている「猿を食べるバナナ」というプロンプトに「写実的な画像」という文言を追加すると、フォトリアルなバナナと猿が出力されるかも知れない。

以上の画像は私が考えていたものに近いが、まだ完璧ではない。

DallE2に出力で見たいと思っている画風を伝え、その画風とプロンプトが一致していることを確認することで、より正確な結果を得られる。例えば「大きな口を開けた巨大バナナが猿に食らいついている、シュールレアリストのデジタルアート（A giant banana with a big mouth is taking a bite from a monkey, a surrealist digital art）」のように入力した結果が以下。

キャラクターと画風が確立されたので、DallE2の創造性をもう少し取り入れて、巨大バナナのバッチを継続できるだろう。結局のところ、事細かに指示されるのが好きな人などいないのだが、この傾向はAIモデルにも当てはまるようだ。「大きな口を開けた巨大なモンスターバナナはすべてのサルの恐怖であり、シュールリアリストのデジタルアートである（A giant monster banana with a big mouth is the fear of all monkeys, a surrealist digital art）」と入力した結果が以下。

コミュニティ

Dall-E2には何百万ものプロンプトが送られてきており、コミュニティはとても寛大だ。Dall-Eの公式Discordには、多くのヒントと小技が掲載されている。この辞書（※訳註5）は、さまざまなフィルター、カメラアングル、有名なクリエイターに対してDall-E2がどのように反応するかを説明している。これらの資料は、Dall-E2がプロンプトに対してどのように動くのかについて、実際に入力することなく思い描くのに役立つだろう。

新しい時代のアートと皆のプロンプトに祝福あれ！

（※訳註5）以上のDALL-E 2のプロンプトに関する辞書へのリンクは、リンク切れとなっている。同モデルを対象としたプロンプトエンジニアリングの資料として人気のあるものには、DALL-E 2 prompt bookがある。

― –

AIに恋をしていない時は、私は自分のブログでゲーム、ゲームデザイン、そしてUXについて書いています。

原文
『How to get Dall-E2 AI to be consistent — Pro tips.』