最終更新日:
DALL-E 2のアクセス権を取得したAdar氏は、同モデルを使って絵本を制作するなどしたことで、同モデルの利用に際するいくつかの注意点に気づきました。そうした注意点は、以下のような箇条書きにまとめられます。
DALL-E 2を利用する際の注意点
|
以上のようにDALL-E 2には画像生成に関する制限事項が多数あるものも、2022年8月31日に画像外に描画を拡張する機能「Outpainting」が追加されたように、クリエイターの要望に合わせて機能が拡充されるかも知れません。
なお、以下の翻訳記事本文におけるプロンプト入力文の訳出にあたっては、翻訳文に英語原文を併記しました。英語原文をDALL-E 2に入力すれば、出力を確認できるでしょう。
以下の記事本文はDori Adar氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
以下の翻訳記事を作成するにあたっては、日本語の文章として読み易くするために、意訳やコンテクストを明確にするための補足を行っています。
前書き
Dall-E2は、言葉だけで驚くような絵を描ける。しかし、このAIが出力した画像を書籍や漫画の挿絵として使う場合、キャラクターや画風を一貫させる必要がある。
Dall-E2にキャラクターをアップロードして、新しい絵を描く時にそのキャラクターを使うようにAIに指示することは、今のところ出来ない。以下のアドバイスを参考にすれば、少なくともある程度は出力画像に一貫性を持たせられる。
プロンプトには、同じキーワードを含める必要がある
画風が決まったら、その画風を何度もプロンプトで繰り返そう。
私が絵本『優柔不断なカメレオン』のアートディレクションをした時、「油絵、子ども向けアート(oil painting, children’s art)」というキーワードを使った。このキーワードで、画風やキャラクターデザインを統一した。
バッチの問題
Dall-E2は、同じバッチで作られたプロンプトを考慮するようだ。例として、私が生成したカメレオンを見てみよう。上の絵はそれぞれ同じバッチで描かれたもので、スタイルも同じに見える。
数日後、同じキーワード(油絵、子供の絵)で描いたものが以下の画像だ。画風の一貫性はあるが、前回とは若干異なる。
キャラクターとコンテクストが重要
Dall-E2は、特定のキャラクターや設定と連動して画像を生成できない(あるいはそうしようとしない)。したがって同モデルは、ある程度の矛盾を許容するメディアで使用されるべきである。私はカメレオンが主人公の絵本をDall-E2で制作したが、(DALL-E 2で生成したという)性質上、カメレオンの描写が毎回微妙に異なって見える。カメレオンに関する子供向けの絵本(というメディア)だからこそ、終始一貫しているように思われるのだ。この本の全貌を短い動画で以下に紹介する(※訳註1)。
AIを選択する
AIモデルによって、さまざまな画風がある。Dall-E2は最も「画風にとらわれない」設計になっている。その出力画像の画風は多岐にわたるため、単一の(学習データに関する)出典に帰属させられない。対してMidjourneyのようなモデルには、特徴的な画風があるように見える。こうしたモデルを使って一貫性を保つことは容易だが、その画風はすぐに使い古されてしまうかも知れない(※訳註2)。MidJourneyで作られた素晴らしい以下のビデオクリップを視聴して、その画風を確認頂きたい。
プロンプトの洗練
Dall-E2は数百万枚の画像で訓練されており、その訓練素材の多くはstock photosに由来する。
そのため、バイアスがあるかも知れない学習済みの画像を表示する方が安心できる(※訳註3)。以下は、「幼稚園の先生のポートレート(A portrait of a kindergarten teacher)」に対するDallE2が生成した画像である。ご覧の通り、(男性の幼稚園の先生が存在し得るにもかかわらず)女性のみが描写されている。
Dall-E2に「カフェにいる生後3ヶ月の赤ちゃんを連れた女性(woman with her 3 months old baby in a cafe)」を表示させようとすると問題が発生し、「カフェにいる生後3ヶ月の赤ちゃんを連れた若い家族(A young family with a 3-month-old baby in a cafe)」の方がはるかに正確な出力を得た。
以上よりDall-E2は、プロンプトが意味をなすときに仕事をするようだ。
以下は、バナナを食べる猿の出力画像事例だ。特に問題はない。
しかし、「猿を食べるバナナ」と入力すると、以下のように予定通りにはいかなかった。
Dall-E2にバナナが猿を食べている様子を描かせたい場合は、詳しく説明する必要がある。例えば「大きな口を開けた巨大なバナナが、猿に食らいついている(A giant banana with a big mouth is taking a bite from a monkey)」のように入力して出力された画像が以下(※訳註4)。
さらに同氏は、「バスケットボールをプレイするラマの写実的な画像(realistic photo of llama playing basketball)」と入力したところ、前出の出力画像よりフォトリアルなラマが出力された。それゆえ、本記事で言及されている「猿を食べるバナナ」というプロンプトに「写実的な画像」という文言を追加すると、フォトリアルなバナナと猿が出力されるかも知れない。
以上の画像は私が考えていたものに近いが、まだ完璧ではない。
DallE2に出力で見たいと思っている画風を伝え、その画風とプロンプトが一致していることを確認することで、より正確な結果を得られる。例えば「大きな口を開けた巨大バナナが猿に食らいついている、シュールレアリストのデジタルアート(A giant banana with a big mouth is taking a bite from a monkey, a surrealist digital art)」のように入力した結果が以下。
キャラクターと画風が確立されたので、DallE2の創造性をもう少し取り入れて、巨大バナナのバッチを継続できるだろう。結局のところ、事細かに指示されるのが好きな人などいないのだが、この傾向はAIモデルにも当てはまるようだ。「大きな口を開けた巨大なモンスターバナナはすべてのサルの恐怖であり、シュールリアリストのデジタルアートである(A giant monster banana with a big mouth is the fear of all monkeys, a surrealist digital art)」と入力した結果が以下。
コミュニティ
Dall-E2には何百万ものプロンプトが送られてきており、コミュニティはとても寛大だ。Dall-Eの公式Discordには、多くのヒントと小技が掲載されている。この辞書(※訳註5)は、さまざまなフィルター、カメラアングル、有名なクリエイターに対してDall-E2がどのように反応するかを説明している。これらの資料は、Dall-E2がプロンプトに対してどのように動くのかについて、実際に入力することなく思い描くのに役立つだろう。
新しい時代のアートと皆のプロンプトに祝福あれ!
― –
AIに恋をしていない時は、私は自分のブログでゲーム、ゲームデザイン、そしてUXについて書いています。
原文
『How to get Dall-E2 AI to be consistent — Pro tips.』
著者
Dori Adar
翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)
編集
おざけん