最終更新日:
2022年7月末にDALL-E 2のアクセス権を取得したZhang氏は、「バスケットボールをダンクするラマ」をテーマとした画像を生成することを通して、同モデルにはいくつかの弱点があることを学びました。そうした弱点は、以下のように列挙できます。
DALL-E 2が画像生成する際の弱点
|
以上のようにDALL-E 2の弱点を列挙したうえで、同モデルで欲しい画像を出力させるにはプロンプト入力の試行錯誤が不可欠なので、最低15クレジット(つまり15回の出力)が必要、とZhang氏はアドバイスしています。同モデルに欲しい画像を出力させる技術である「プロンプトエンジニアリング」が十分に整備されていない現状では、欲しい画像が複雑な場合、同モデルを使ってお手軽に欲しい画像を取得できないのです。
なお、以下の翻訳記事本文におけるプロンプト入力文の訳出にあたっては、翻訳文に英語原文を併記しました。英語原文をDALL-E 2に入力すれば、出力を確認できるでしょう。
以下の記事本文はJoy Zhang氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
以下の翻訳記事を作成するにあたっては、日本語の文章として読み易くするために、意訳やコンテクストを明確にするための補足を行っています。
目次
そう、以上の画像はラマがバスケットボールをダンクしているところだ。DALL-E 2のクローズドベータ版で実験するなかで学んだプロセス、限界、教訓のまとめ
この「柴犬弁当」の人工的な画像を初めて見たときから、「DALL-E 2」を試してみたくてたまらなかった。
うわー、これぞ破壊的技術だ。
ご存じない方のために説明すると、DALL-E 2はOpenAIが作った、テキストからオリジナル画像を生成できるシステムである。
現在クローズドベータ版(※訳註1)で、私は5月上旬にウェイティングリストに登録し、7月末にアクセス権を取得した。ベータ期間中、ユーザはクレジット(最初の月は50クレジット無料、その後は毎月15クレジット)を受け取り、1回の使用につき1クレジットを消費し、1回の使用で3~4枚の画像が得られる。また、115クレジットを15USドルで購入できる。
P.S.DALL-E 2を試せるようになるまで待てないという読者は、DALL-E mini(※訳註2)を無料でお試しください。もっともDALL-E miniが生成する画像は一般的にクオリティが低く(それゆえ、多くのDALL-Eミームを生んだ)、画像生成するのに1プロンプトあたり約60秒かかります(DALL-E 2は5秒程度で済む)。
DALL-E 2が(適切かつクリエイティブなプロンプトがあれば)どんなことができるのかについて、生成された選りすぐりの画像を読者諸氏はオンラインでご覧になったことがあると思う。この記事では、次の題材で使える画像をゼロから作成するために必要なことに関して、率直にその舞台裏を紹介する。その題材とは「バスケットボールをプレイするラマ」だ。これからDALL-E 2を試そうと思っている方、あるいはDALL-E 2の機能を理解したいと思っている方は、ぜひ参考にしてほしい。
スタート地点
DALL-E 2にどのようなプロンプトを与えるかを知ることは、芸術と科学の両面から説明できる。例えば、「バスケットボールをプレイするラマ(llama playing basketball)」の結果は以下の通り。
なぜDALL-E 2は、このプロンプトのために漫画の画像を生成する方に寄っているのか。私が推測するに同モデルはその訓練中に、ラマがバスケットボールをプレイする実際の画像を見ていなかったことが関係しているのだろう。
さらに一歩踏み込んで、「実写の(realistic photo of)」というキーワードを加えてみた結果が以下。
ラマはよりリアルに見えるが、画像全体がPhotoshopの失敗作のように見えてきた。この場合で明らかになったのは、まとまりのあるシーンを作るためにDALL-E 2には後押しが必要なようだ、ということだ。
プロンプトエンジニアリングとは、ユーザが欲しいものを正確に実現するための技術
DALL-Eのコンテクストにおけるプロンプトエンジニアリングとは、望ましい結果が得られるようにプロンプトを設計するプロセスのことを指す。
DALL-E 2 Prompt Bookは、そのための素晴らしいリソースだ。写真やアート作品をキーワードにしたプロンプトのためのインスピレーションに関する詳細なリストが掲載されている。
なぜこのようなものが必要なのだろうか。DALL-E 2から(ビジネスなどに)使える出力を得るのは、難しいからである(とりわけDALL-E 2が何をできるのか分かっていない場合)。それゆえ、ユーザが自分でプロンプト入力文を考える時間とお金を節約するために、1回のプロンプト入力を1.99ドルで取引するマーケットプレイスを作ったスタートアップも誕生したほどだ(※訳註3)。
なお、PromptBaseで取引される入力文はすべて精査されており、良識に反する画像が出力される懸念はない、とのこと。
プロンプトエンジニアリングを試してわかった発見で、個人的に好きなのが「ドラマチックな逆光(dramatic backlighting)」だ。
プロンプトエンジニアリングにおいて重要なのは、DALL-E 2に何を出力して欲しいかを正確に伝えることである。どうやら私が求めているラマが服を着ているべきかどうかは、(上の画像を見るとわかるように)プロンプト入力文から得られるコンテクストからは明らかではないようだ。しかし、「ジャージを着たラマ(llama wearing a jersey)」と指定することで、同モデルは以下のようなファンタスティックなシーンを見事に実現している。
以上の結果でとどまらない。画像にドラマ性を加えるためにこのラマに本当に飛んでもらうには、「バスケットボールをダンクしている(dunking a basketball)」や「~のアクションショット(action shot of…)」といった特別なフレーズが必要になる。こうしたフレーズで私がお気に入っているのは「…ジャージ姿のラマが、マイケル・ジョーダンのようにバスケットボールをダンクしているところ(llama in a jersey dunking a basketball like Michael Jordan)」である。
ヒント:DALL-E 2 は履歴タブに過去 50 生成分しか保存しない。お気に入りの画像は必ず保存しよう。
お気づきかも知れないが、DALL-E 2が生成する構図はイマイチ
「バスケットボールをダンクする」という入力文のコンテクストから、ラマ、ボール、ゴールの相対的な位置がどこであるべきかは明白だと思うだろう。しかし、多くの場合、ラマが間違った方向にダンクしたり、シュートを決める見込みがないような位置にボールが置かれていたりする。プロンプト入力文には(生成されるべき)すべての要素が明記されているにもかかわらず、DALL-E 2は各要素の位置関係をあまり「理解」していないのだ。この記事では、このトピックをより深く掘り下げている(※訳註4)。
以上の論文によると、「ボウルに触っている子供(A child touching a bowl)」のような現実的な入力文にもとづいた画像に関して、169人の人間の評価者のうち87%が正しく描画していると見なしたのに対して、「イグアナに触っている猿(A monkey touching an iguana)」というあまり現実的ではない入力文に対しては11%しか正しいと評価しなかった。
同論文では、DALL-E 2の位置的関係に関する理解能力を向上させる方法として、ワシントン大学とNVIDIAが共同研究したAIモデルであるCLIPORTの実装を提案している。同モデルはロボット制御のために開発されたもので、画像認識能力に加えて空間理解能力も実装されている。
DALL-E 2がシーンを「理解」していないがゆえに生じるもうひとつの欠陥は、テクスチャが時折混在してしまうことだ。以下の画像では、ネットが毛皮でできている(人間であれば、少し考えるだけでこんなシーンが病的だとわかるだろう)。
リアルな顔の生成に苦戦するDALL-E 2
ある情報によると、リアルな顔の生成に苦戦するのはディープフェイクを発生させないための意図的な措置だったのではないかと言われている(※訳註5)。この措置は人間だけに適用されると思いきや、どうやらラマにも適用されるようだ。
リアルなラマの顔生成の失敗画像のなかには、まさに不気味なものもあった。
DALL-E 2に人間の顔をフォトリアルに生成しない制限が設定されていることに関しては、前出のOpenAI公式ブログ記事に以下のように書かれている。
悪用の抑制:DALL-Eが不正に利用されるリスクを最小限に抑えるため、リアルな顔を含む画像のアップロードや、有名人や著名な政治家を含む公人の似顔絵を作成することを拒否している。また、実在の個人の顔をフォトリアルに再現することを防ぐため、高度な技術を駆使している。
その他のDALL-E 2の制限事項
その他、私が経験した細かい問題を以下に紹介する。
アングルやショットはゆるやかに解釈する
「遠景(in the distance)」「極度のロングショット(extreme long shot)」のようなフレーズをいくら入力しても、ラマ全体がフレームに収まるような画像はなかなか見つけられない。
場合によっては、フレーミングを完全に無視することもあった。
DALL-E 2は単語を綴れない
DALL-E 2が画像内の要素のあいだの位置的関係を「理解」するのに苦労していることを考えると、正しく単語を綴れないことはあまり驚くことではないように思われる(※訳註6)。しかし、適切なコンテクストのなかでは、完全な形の文字を生成できる。
DALL-E 2は、複雑なプロンプトや言葉足らずのプロンプトに対してきまぐれになることがある
また、キーワードの追加や言い回しによっては、予想と全く異なる結果が出ることもある。
例えば以下の場合では、プロンプトの本当の主題(ジャージを着たラマ)は完全に無視された。
「フワフワ」という言葉を追加しただけでもパフォーマンスが劇的に悪化し、DALL-E 2が壊れたように見えるケースも複数あった。
DALL-E 2を使った作業では、詰め込みすぎたり、冗長な言葉を加えたりせずに、何を求めているかを具体的に伝えることが重要である。
DALL-E 2のスタイル転移の能力は印象的
DALL-E 2のスタイル転移は、ぜひ試してみてほしい。
キーワードとなる被写体が決まれば、驚くほど多くのアートスタイルで画像を生成できる。
「抽象画風の…」
「ヴェイパーウェイブ」
「デジタルアート」
「宮崎アニメ映画のからのスクリーンショット」
「マーベルのキャプテン・アメリカを描いたアールヌーボーのステンドグラス(art nouveau stained glass window depicting Marvel’s Captain America)」とプロンプト入力して生成した画像
「『アナと雪の女王』のエルサのクロスステッチのサンプル(Elsa from Frozen, cross-stitched sampler)」とプロンプト入力して生成した画像
最終的な感想
100クレジット(13USドル相当)を超える資金を投入し、試行錯誤の末に完成したのが、以下の画像だ。
画像は完璧ではないが、DALL-E 2によって私の望みの8割程度は満たせた。
スタイル、顔、構図をうまく組み合わせることに、ほとんどのクレジットをつぎ込んだ。
OpenAIのDALL-Eに関する発表には、以下のような記述がある。
「…ユーザは、DALL-Eで作成した画像を商用化するための、転載・販売・商品化などの全使用権を得られる」(※訳註8)
多くのユーザがこのルールに翻弄されることが予想される。
コンテンツクリエイターにとって、DALL-E 2はブログやウェブサイトの簡単なイラスト、写真、グラフィックを作成する際に最も役立つだろう。私の予定としては、Unsplashの代わりに他の人とかぶらないようなブログのカバー画像を作成するために使いたい。
これからDALL-E 2を自分でやってみようという人のために、以下に始める前の心得を紹介したい。
- DALL-E 2 Prompt Bookをチェック!(ファンメイドのプロンプトエンジニアリング・シートもある)。
- 欲しいものを手に入れるために、試行錯誤をする覚悟が必要。15の無料クレジットは多いように聞こえるかも知れないが、実際にはそうではない。使える画像を生成するためには、少なくとも15クレジットを使用することを想定しよう。DALL-E 2は決して安くはない。
- 気に入った画像は忘れずに保存しておこう。
・・・
お読み頂きありがとうございます。DALL-E 2を体験しての感想やご意見をお待ちしています。
この記事を読んでくださった方には、他のライターが書いた記事もご紹介します。
- Jacob Martins氏執筆の『DALL-E 2を使ってOctoSQLのロゴを生成した方法』
- Alberto Romero氏執筆の『有名な風景画10点をAIで再構築した方法』
- Swimmer963氏執筆の『DALL-E 2にできることとできないこと』
原文
『I spent $15 in DALL·E 2 credits creating this AI image, and here’s what I learned』
著者
Joy Zhang
翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)
編集
おざけん