このAI画像を作るのに15ドル分のDALL-E 2のクレジットを費やしてわかったこと

著者のオーストラリア在住であるJoy Zhang氏は、AIコンペを運営するスタートアップCoder Oneの創業者です。同氏がMediumに投稿した記事『このAI画像を作るのに15ドル分のDALL-E 2のクレジットを費やしてわかったこと』では、DALL-E 2が画像生成する際の弱点がまとめられています。
2022年7月末にDALL-E 2のアクセス権を取得したZhang氏は、「バスケットボールをダンクするラマ」をテーマとした画像を生成することを通して、同モデルにはいくつかの弱点があることを学びました。そうした弱点は、以下のように列挙できます。

DALL-E 2が画像生成する際の弱点

構図取りが苦手：複数のオブジェクトが含まれる画像では、それらの位置関係を適切に描画できないことがある。
動物の顔の描画に失敗する：人間の顔をフォトリアルに描画しない制限が設定されているが、この制限が動物の顔にも適用されることがある。
アングルやショットの指定が難しい：「遠景」などの単語を入力しても、指定した画角の画像がなかなか生成されない。
単語が正しく綴られない：単語のスペルミスが生じることについては、制限事項としてOpenAIが公式に認めている。
複雑な入力文が苦手：複雑な入力文の場合、予想通りの画像が生成されないことがある。

以上のようにDALL-E 2の弱点を列挙したうえで、同モデルで欲しい画像を出力させるにはプロンプト入力の試行錯誤が不可欠なので、最低15クレジット（つまり15回の出力）が必要、とZhang氏はアドバイスしています。同モデルに欲しい画像を出力させる技術である「プロンプトエンジニアリング」が十分に整備されていない現状では、欲しい画像が複雑な場合、同モデルを使ってお手軽に欲しい画像を取得できないのです。

なお、以下の翻訳記事本文におけるプロンプト入力文の訳出にあたっては、翻訳文に英語原文を併記しました。英語原文をDALL-E 2に入力すれば、出力を確認できるでしょう。

以下の記事本文はJoy Zhang氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
以下の翻訳記事を作成するにあたっては、日本語の文章として読み易くするために、意訳やコンテクストを明確にするための補足を行っています。

バスケットボールをプレイするラマ、DALL-E 2を使って筆者が生成。

そう、以上の画像はラマがバスケットボールをダンクしているところだ。DALL-E 2のクローズドベータ版で実験するなかで学んだプロセス、限界、教訓のまとめ
スタート地点
プロンプトエンジニアリングとは、ユーザが欲しいものを正確に実現するための技術
お気づきかも知れないが、DALL-E 2が生成する構図はイマイチ
リアルな顔の生成に苦戦するDALL-E 2
その他のDALL-E 2の制限事項
DALL-E 2のスタイル転移の能力は印象的
最終的な感想

そう、以上の画像はラマがバスケットボールをダンクしているところだ。DALL-E 2のクローズドベータ版で実験するなかで学んだプロセス、限界、教訓のまとめ

この「柴犬弁当」の人工的な画像を初めて見たときから、「DALL-E 2」を試してみたくてたまらなかった。

うわー、これぞ破壊的技術だ。

ご存じない方のために説明すると、DALL-E 2はOpenAIが作った、テキストからオリジナル画像を生成できるシステムである。

現在クローズドベータ版（※訳註1）で、私は5月上旬にウェイティングリストに登録し、7月末にアクセス権を取得した。ベータ期間中、ユーザはクレジット（最初の月は50クレジット無料、その後は毎月15クレジット）を受け取り、1回の使用につき1クレジットを消費し、1回の使用で3～4枚の画像が得られる。また、115クレジットを15USドルで購入できる。

P.S.DALL-E 2を試せるようになるまで待てないという読者は、DALL-E mini（※訳註2）を無料でお試しください。もっともDALL-E miniが生成する画像は一般的にクオリティが低く（それゆえ、多くのDALL-Eミームを生んだ）、画像生成するのに1プロンプトあたり約60秒かかります（DALL-E 2は5秒程度で済む）。

（※訳註1）OpenAIは2022年7月20日に公開した公式ブログ記事で、DALL-E 2 ベータ版を一般公開した。

（※訳註2）AIコミュニティを運営するHugging Faceが公開しているDALL-E miniは、OpenAIが開発する本家DALL-Eとの混同を避けるため、現在では「craiyon」と改名されている。

DALL-E 2が（適切かつクリエイティブなプロンプトがあれば）どんなことができるのかについて、生成された選りすぐりの画像を読者諸氏はオンラインでご覧になったことがあると思う。この記事では、次の題材で使える画像をゼロから作成するために必要なことに関して、率直にその舞台裏を紹介する。その題材とは「バスケットボールをプレイするラマ」だ。これからDALL-E 2を試そうと思っている方、あるいはDALL-E 2の機能を理解したいと思っている方は、ぜひ参考にしてほしい。

スタート地点

DALL-E 2にどのようなプロンプトを与えるかを知ることは、芸術と科学の両面から説明できる。例えば、「バスケットボールをプレイするラマ（llama playing basketball）」の結果は以下の通り。

DALL-E 2のプロンプトに「バスケットボールをプレイするラマ（llama playing basketball）」と入力して著者が生成した画像

なぜDALL-E 2は、このプロンプトのために漫画の画像を生成する方に寄っているのか。私が推測するに同モデルはその訓練中に、ラマがバスケットボールをプレイする実際の画像を見ていなかったことが関係しているのだろう。

さらに一歩踏み込んで、「実写の（realistic photo of）」というキーワードを加えてみた結果が以下。

DALL-E 2のプロンプトに「バスケットボールをプレイするラマの写実的な画像（realistic photo of llama playing basketball）」と入力して著者が生成した画像

ラマはよりリアルに見えるが、画像全体がPhotoshopの失敗作のように見えてきた。この場合で明らかになったのは、まとまりのあるシーンを作るためにDALL-E 2には後押しが必要なようだ、ということだ。

プロンプトエンジニアリングとは、ユーザが欲しいものを正確に実現するための技術

DALL-Eのコンテクストにおけるプロンプトエンジニアリングとは、望ましい結果が得られるようにプロンプトを設計するプロセスのことを指す。

DALL-E 2 Prompt Bookは、そのための素晴らしいリソースだ。写真やアート作品をキーワードにしたプロンプトのためのインスピレーションに関する詳細なリストが掲載されている。

なぜこのようなものが必要なのだろうか。DALL-E 2から（ビジネスなどに）使える出力を得るのは、難しいからである（とりわけDALL-E 2が何をできるのか分かっていない場合）。それゆえ、ユーザが自分でプロンプト入力文を考える時間とお金を節約するために、1回のプロンプト入力を1.99ドルで取引するマーケットプレイスを作ったスタートアップも誕生したほどだ（※訳註3）。

（※訳註3）TechCrunchが2022年7月30日に公開した記事によると、2022年6月、DALL-E 2に入力するプロンプト文を１入力当たり1.99ドルで取引できるマーケットプレイス「PromptBase」の運営が始まった。取引額のうちの20%が、同サービスを立ち上げたPromptBase社の収益となる。もっとも、プロンプトエンジニアリングに関する無料の資料が多数公開されているなか、同サービスを批判する動きもある。
なお、PromptBaseで取引される入力文はすべて精査されており、良識に反する画像が出力される懸念はない、とのこと。

プロンプトエンジニアリングを試してわかった発見で、個人的に好きなのが「ドラマチックな逆光（dramatic backlighting）」だ。

今話題にしている画像！DALL-E 2のプロンプトに「バスケットボールをダンクするラマのフィルムスチル、ローアングル、極端なロングショット、屋内、ドラマチックな逆光で（Film still of a llama dunking a basketball, low angle, extreme long shot, indoors, dramatic backlighting）」と入力して著者が生成した画像

プロンプトエンジニアリングにおいて重要なのは、DALL-E 2に何を出力して欲しいかを正確に伝えることである。どうやら私が求めているラマが服を着ているべきかどうかは、（上の画像を見るとわかるように）プロンプト入力文から得られるコンテクストからは明らかではないようだ。しかし、「ジャージを着たラマ（llama wearing a jersey）」と指定することで、同モデルは以下のようなファンタスティックなシーンを見事に実現している。

バスケットボールをダンクするラマ、今度はジャージを着用。DALL-E 2のプロンプトに「ジャージを着たアルパカがバスケットボールをダンクするフィルムスチル、ローアングル、ロングショット、室内、ドラマチックな逆光、ハイディテールで（film still of an alpaca wearing a jersey, dunking a basketball, low angle, long shot, indoors, dramatic backlighting, high detail）」と入力して著者が生成した画像

以上の結果でとどまらない。画像にドラマ性を加えるためにこのラマに本当に飛んでもらうには、「バスケットボールをダンクしている（dunking a basketball）」や「～のアクションショット（action shot of…）」といった特別なフレーズが必要になる。こうしたフレーズで私がお気に入っているのは「…ジャージ姿のラマが、マイケル・ジョーダンのようにバスケットボールをダンクしているところ（llama in a jersey dunking a basketball like Michael Jordan）」である。

DALL-E 2にもとづく、マイケル・ジョーダンがもしラマだった時の画像。DALL-E 2のプロンプトに「マイケル・ジョーダンのようにバスケットボールをダンクするジャージ姿のラマのフィルムスチル、ローアングル、下から見せる、傾いたフレーム、35°、ダッチアングル、極端なロングショット、ハイディテール、室内、ドラマチックな逆光で（film still of a llama in a jersey dunking a basketball like Michael Jordan, low angle, show from below, tilted frame, 35°, Dutch angle, extreme long shot, high detail, indoors, dramatic backlighting）」と入力して著者が生成した画像

ヒント：DALL-E 2 は履歴タブに過去 50 生成分しか保存しない。お気に入りの画像は必ず保存しよう。

お気づきかも知れないが、DALL-E 2が生成する構図はイマイチ

「バスケットボールをダンクする」という入力文のコンテクストから、ラマ、ボール、ゴールの相対的な位置がどこであるべきかは明白だと思うだろう。しかし、多くの場合、ラマが間違った方向にダンクしたり、シュートを決める見込みがないような位置にボールが置かれていたりする。プロンプト入力文には（生成されるべき）すべての要素が明記されているにもかかわらず、DALL-E 2は各要素の位置関係をあまり「理解」していないのだ。この記事では、このトピックをより深く掘り下げている（※訳註4）。

DALL-E 2のプロンプトに「マイケル・ジョーダンのようにバスケットボールをダンクするジャージ姿のラマのフィルムスチル、ローアングル、下から撮影、傾いたフレーム、35°、ダッチアングル、極端なロングショット、ハイディテール、室内、ドラマチックな逆光で（Film still of a llama in a jersey dunking a basketball like Michael Jordan, low angle, shot from below, tilted frame, 35°, Dutch angle, extreme long shot, high detail, indoors, dramatic backlighting）」と入力して著者が生成した画像

（※訳註4）AI専門メディア『Unite.AI』が2022年8月4日に公開した記事によると、ハーバード大学の研究チームが2022年７月29日に発表した論文『テキスト誘導型画像生成における関係性理解のテスティング』は、DALL-E 2が生成する画像におけるオブジェクト間の位置的関係に関する欠陥を論じている。
以上の論文によると、「ボウルに触っている子供（A child touching a bowl）」のような現実的な入力文にもとづいた画像に関して、169人の人間の評価者のうち87%が正しく描画していると見なしたのに対して、「イグアナに触っている猿（A monkey touching an iguana）」というあまり現実的ではない入力文に対しては11%しか正しいと評価しなかった。
同論文では、DALL-E 2の位置的関係に関する理解能力を向上させる方法として、ワシントン大学とNVIDIAが共同研究したAIモデルであるCLIPORTの実装を提案している。同モデルはロボット制御のために開発されたもので、画像認識能力に加えて空間理解能力も実装されている。

DALL-E 2がシーンを「理解」していないがゆえに生じるもうひとつの欠陥は、テクスチャが時折混在してしまうことだ。以下の画像では、ネットが毛皮でできている（人間であれば、少し考えるだけでこんなシーンが病的だとわかるだろう）。

DALL-E 2のプロンプトに「ジャージ姿のラマがマイケル・ジョーダンのようにバスケットボールをダンクする表情豊かな写真、ローアングル、極端なワイドショット、室内、ドラマチックな逆光、ハイディテールで（Expressive photo of a llama wearing a jersey dunking a basketball like Michael Jordan, low angle, extreme wide shot, indoors, dramatic backlighting, high detail.）」と入力して著者が生成した画像

リアルな顔の生成に苦戦するDALL-E 2

ある情報によると、リアルな顔の生成に苦戦するのはディープフェイクを発生させないための意図的な措置だったのではないかと言われている（※訳註5）。この措置は人間だけに適用されると思いきや、どうやらラマにも適用されるようだ。

リアルなラマの顔生成の失敗画像のなかには、まさに不気味なものもあった。

DALL-E 2のプロンプトに「ジャージを着たラマがマイケル・ジョーダンのようにバスケットボールをダンクするドラマチックな写真、ローアングル、ワイドショット、室内、ドラマチックな逆光、ハイディテールで（Dramatic photo of an llama wearing a jersey dunking a basketball like Michael Jordan, low angle, wide shot, indoors, dramatic backlighting, high detail.）」と入力して著者が生成した画像

（※訳註5）IEEEが運営するメディア『IEEE Spectrum』が2022年7月14日に公開した記事では、DALL-E 2の限界が多角的に論じられている。この記事では、同モデルが複数の人物の描画を苦手としていることが報じられている。例えば、1人の女性宇宙飛行士が描かれた画像は問題なく生成されるが、7人のエンジニアが描かれた画像では顔が歪んでいる。

DALL-E 2に人間の顔をフォトリアルに生成しない制限が設定されていることに関しては、前出のOpenAI公式ブログ記事に以下のように書かれている。

悪用の抑制：DALL-Eが不正に利用されるリスクを最小限に抑えるため、リアルな顔を含む画像のアップロードや、有名人や著名な政治家を含む公人の似顔絵を作成することを拒否している。また、実在の個人の顔をフォトリアルに再現することを防ぐため、高度な技術を駆使している。

その他のDALL-E 2の制限事項

その他、私が経験した細かい問題を以下に紹介する。

アングルやショットはゆるやかに解釈する

「遠景（in the distance）」「極度のロングショット（extreme long shot）」のようなフレーズをいくら入力しても、ラマ全体がフレームに収まるような画像はなかなか見つけられない。

場合によっては、フレーミングを完全に無視することもあった。

DALL-E 2のプロンプトに「ジャージ姿のラマがバスケットボールをダンクするドラマチックなフィルムスチル、ローアングル、下から撮影、傾いたフレーム、35°、ダッチアングル、極端なロングショット、室内、ドラマチックな逆光、ハイディテールで（Dramatic film still of a llama wearing a jersey dunking a basketball, low angle, shot from below, tilted frame, 35°, Dutch angle, extreme long shot, indoors, dramatic backlighting, high detail.）」と入力して著者が生成した画像

DALL-E 2は単語を綴れない

DALL-E 2が画像内の要素のあいだの位置的関係を「理解」するのに苦労していることを考えると、正しく単語を綴れないことはあまり驚くことではないように思われる（※訳註6）。しかし、適切なコンテクストのなかでは、完全な形の文字を生成できる。

DALL-E 2のプロンプトに「ジャージを着たふわふわのラマがマイケル・ジョーダンのようにバスケットボールをダンクするフィルムスチル、ローアングル、下から撮影、傾いたレーム、35°、ダッチアングル、極端なロングショット、ハイディテール、室内、ドラマチックな逆光撮影（Film still of a fluffy llama in a jersey dunking a basketball like Michael Jordan, low angle, shot from below, tilted frame, 35°, Dutch angle, extreme long shot, high detail, indoors, dramatic backlighting.）」と入力して著者が生成した画像

（※訳註6）DALL-E 2を詳述した論文の「7 制限とリスク」には、文字生成を苦手としていることが明記されている。この制限事項に関しては、AINOW翻訳記事『DALL-E 2とは何かーアーキテクチャからリスクまで解き明かすー』の「画像生成における弱点」も参照のこと。

DALL-E 2は、複雑なプロンプトや言葉足らずのプロンプトに対してきまぐれになることがある

また、キーワードの追加や言い回しによっては、予想と全く異なる結果が出ることもある。

例えば以下の場合では、プロンプトの本当の主題（ジャージを着たラマ）は完全に無視された。

確かに印象的なダンクシュートではあるが。DALL-E 2のプロンプトに「ローアングル、ロングショット、室内、ドラマチックな逆光なジャージを着てバスケットボールをダンクするラマのプロフェッショナルな写真。（low angle, long shot, indoors, dramatic backlighting, professional photo of a llama wearing a jersey, dunking a basketball.）」と入力して著者が生成した画像

「フワフワ」という言葉を追加しただけでもパフォーマンスが劇的に悪化し、DALL-E 2が壊れたように見えるケースも複数あった。

DALL-E 2のプロンプトに「ジャージ姿のふわふわのラマがマイケル・ジョーダンのようにバスケットボールをダンクするフィルムスチル、ハイディテール、室内、ドラマチックな逆光で（Film still of a fluffy llama in a jersey dunking a basketball like Michael Jordan, high detail, indoors, dramatic backlighting.）」と入力して著者が生成した画像。（顔をぼかして隠すために意図的に加工した画像）

DALL-E 2を使った作業では、詰め込みすぎたり、冗長な言葉を加えたりせずに、何を求めているかを具体的に伝えることが重要である。

DALL-E 2のスタイル転移の能力は印象的

DALL-E 2のスタイル転移は、ぜひ試してみてほしい。

キーワードとなる被写体が決まれば、驚くほど多くのアートスタイルで画像を生成できる。

「抽象画風の…」

DALL-E 2のプロンプトに「マイケル・ジョーダンのようにバスケットボールをダンクするジャージ姿のラマの抽象画、下から撮影、傾いたフレーム、35°、ダッチアングル、極端なロングショット、高いディテール、ドラマチックな逆光、室内。背景は人々でいっぱいのスタジアム（Abstract painting of a llama in a jersey dunking a basketball like Michael Jordan, shot from below, tilted frame, 35°, Dutch angle, extreme long shot, high detail, dramatic backlighting, indoors. In the background is a stadium full of people.）」と入力して著者が生成した画像。

「ヴェイパーウェイブ」

DALL-E 2のプロンプトに「ジャージ姿のラマがマイケル・ジョーダンのようにバスケットボールをダンクするフィルムスチル、ドラマチックな逆光、鮮やかな夕焼け、ヴェイパーウェイブ（Film still of a llama in a jersey dunking a basketball like Michael Jordan, dramatic backlighting, vibrant sunset, vaporwave.）」と入力して著者が生成した画像

「デジタルアート」

DALL-E 2のプロンプトに「マイケル・ジョーダンのようにバスケットボールをダンクするジャージ姿のラマ、下からの撮影、傾いたフレーム、35°、ダッチアングル、極端なロングショット、ハイディテール、ドラマチックな逆光、叙事詩的、デジタルアート（llama in a jersey dunking a basketball like Michael Jordan, shot from below, tilted frame, 35°, Dutch angle, extreme long shot, high detail, dramatic backlighting, epic, digital art）」と入力して著者が生成した画像

「宮崎アニメ映画のからのスクリーンショット」

DALL-E 2のプロンプトに「マイケル・ジョーダンのようにバスケットボールをダンクするジャージ姿のラマ、宮崎アニメ映画のスクリーンショットより（Llama in a jersey dunking a basketball like Michael Jordan, screenshots from the Miyazaki anime movie）」と入力して著者が生成した画像。この記事のヒントに感謝。

（※訳註7）オピニオンメディア『LessWrong』に2022年5月2日に投稿された記事『DALL-E 2にできることとできないこと』は、同モデルはさまざまなポップカルチャーに関する画像生成が得意なことを指摘している。例えば、以下の画像のようにマーベルヒーローやディスニープリンセスに関する画像生成が可能である。本記事における「宮崎アニメ映画のからのスクリーンショット」もポップカルチャーに関する画像事例と言える。

「マーベルのキャプテン・アメリカを描いたアールヌーボーのステンドグラス（art nouveau stained glass window depicting Marvel’s Captain America）」とプロンプト入力して生成した画像

「『アナと雪の女王』のエルサのクロスステッチのサンプル（Elsa from Frozen, cross-stitched sampler）」とプロンプト入力して生成した画像

最終的な感想

100クレジット（13USドル相当）を超える資金を投入し、試行錯誤の末に完成したのが、以下の画像だ。

私が作ったウイニング画像。https://labs.openai.com/s/HYv3Kp8ElKDAWKHq2vs76VXu

画像は完璧ではないが、DALL-E 2によって私の望みの8割程度は満たせた。

スタイル、顔、構図をうまく組み合わせることに、ほとんどのクレジットをつぎ込んだ。

OpenAIのDALL-Eに関する発表には、以下のような記述がある。

「…ユーザは、DALL-Eで作成した画像を商用化するための、転載・販売・商品化などの全使用権を得られる」（※訳註8）

（※訳註8）DALL-E 2生成画像の商業化権に関する記述は、前出のベータ版一般公開を発表したOpenAI公式ブログ記事に記載されている。

多くのユーザがこのルールに翻弄されることが予想される。

コンテンツクリエイターにとって、DALL-E 2はブログやウェブサイトの簡単なイラスト、写真、グラフィックを作成する際に最も役立つだろう。私の予定としては、Unsplashの代わりに他の人とかぶらないようなブログのカバー画像を作成するために使いたい。

これからDALL-E 2を自分でやってみようという人のために、以下に始める前の心得を紹介したい。

DALL-E 2 Prompt Bookをチェック！(ファンメイドのプロンプトエンジニアリング・シートもある）。
欲しいものを手に入れるために、試行錯誤をする覚悟が必要。15の無料クレジットは多いように聞こえるかも知れないが、実際にはそうではない。使える画像を生成するためには、少なくとも15クレジットを使用することを想定しよう。DALL-E 2は決して安くはない。
気に入った画像は忘れずに保存しておこう。

・・・

お読み頂きありがとうございます。DALL-E 2を体験しての感想やご意見をお待ちしています。

この記事を読んでくださった方には、他のライターが書いた記事もご紹介します。