HOME/ AINOW編集部 /ChatGPTはもはや見ることができる – ChatGPT Visionを使って私が発見した驚くべき秘密!
2023.11.11

ChatGPTはもはや見ることができる – ChatGPT Visionを使って私が発見した驚くべき秘密!

インド在住のライター兼エンジニアのニティン・シャルマ(Nitin Sharma)氏がMediumに投稿した記事『ChatGPTはもはや見ることができる – ChatGPT Visionを使って私が発見した驚くべき秘密!』では、2023年9月25日に提供が発表されたChatGPTの画像に関するチャット機能のさまざまな使用事例が紹介されています。
シャルマ氏がChatGPTの画像チャット機能を使って試みた使用事例は、以下のような7項目です。

シャルマ氏がChatGPTの画像チャット機能を使って試みた7つの使用事例
  1. マンガの任意のページ画像を入力して、そのページの内容を解説してもらう。
  2. インド準備銀行レポートの画像を入力して、そのページの内容を要約してもらう。
  3. コードが写った画像を入力して、コードをテキストとして出力してもらう。
  4. フローチャート画像を入力して、フローチャートの内容を解説してもらう。
  5. ロゴ画像を入力して、SVGコードを出力してもらう。
  6. 映画の任意の1コマを写した画像を入力して、その1コマの内容を解説してもらう。
  7. 事故で破損した自動車の画像を入力して、修理費用を見積もってもらう。

以上の使用事例のいずれにおいても、一部で間違いがあったものも、おおむねChatGPTはシャルマ氏の期待に応えました。

画像チャット機能については、2023年11月6日、OpenAIは同機能を実装したGPT-4 Turboを発表しました。今後、画像チャット機能を活用したAIアプリが多数開発され、急速に普及するでしょう。

なお、以下の記事本文はニティン・シャルマ氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
以下の翻訳記事を作成するにあたっては、日本語の文章として読み易くするために、意訳やコンテクストを明確にするための補足を行っています。

画像出典:UnsplashBrooke Cagleより

私がChatGPT Visionで行った驚きの実験。

もし読者諸氏が私をフォローしているのならば、私がChatGPTを深く掘り下げていることはおわかりだろう。

そう、この素晴らしいチャットボットが、マーケティングキャンペーンや映画の脚本作成(※訳註1)、退屈なタスクの自動化など、さまざまな分野でいかにゲームチェンジャーになり得るかについて、私はたくさんの記事を書いてきた。

(※訳註1)この記事の著者ニティン・シャルマ氏が2023年1月10日に公開した記事『ChatGPTを1ヶ月間毎日使ってわかったこと』では、以下のような8項目のChatGPT活用法を紹介している。

ニティン・シャルマ氏が試した8つのChatGPT活用法
  • ブログ記事の作成
  • 詩の作成
  • 簡単な映画脚本の作成
  • ウェブサイトやアプリのコードの生成
  • コードのエラーチェックやコメントの付与
  • マーケティングに関するアドバイス
  • 医療分野におけるアドバイス
  • 宿題のサポート

時間が経つにつれ、ChatGPTはプラグインカスタム指示(※訳註2)、そしてChatGPT Vision機能(※訳註3)のようなアップデートを展開してきた。

(※訳註2)シャルマ氏が2023年9月27日に公開した記事『ロボットのように書くのは止めよう。ChatGPTを使ってJ.K.ローリングやウィリアム・シェイクスピアなどのような文章を書く。』では、ChatGPTの回答における文体を設定する方法として、以下の3つが紹介されている。

ChatGPTに回答時の文体を指示する3つの方法
  • 回答時にしたがって欲しい文体をした文章を入力して、その文章の文体のように回答するように指示する。
  • 「カスタム指示」機能を使う。
  • (ハリー・ポッターシリーズの著者である)「J.K.ローリング」のように特定の人物の文体を模倣するように指示する。
(※訳註3)シャルマ氏が2023年9月27日に公開した記事『ChatGPT Visionがインターネットを席巻 – 驚くべき使用例がここにある』では、ChatGPT Visionの使用事例として以下のような5つが紹介されている。

ChatGPT Visionの5つの使用事例
  • 4コマ画像の意味を読解する。
  • ウェブページのスクリーンショット画像にもとづいて、その画像のコードを生成する。
  • Figmaで作成したデザインをコードに変換する。
  • グラフを読解する。
  • 多数の果物が写った画像をChatGPTに入力したうえで、「この写真に写っているすべての果物とその栄養情報をJSONフォーマットでリストアップして」と指示する。

私は幸運にもChatGPT Visionを入手できた。そして、それを使って実験するのをとても楽しんだ。

そこでこの投稿では、私がChatGPT Visionでやってみたクールなことのいくつかを公開したい。

ということで、まずはびっくりするような事例から紹介しよう!

1. ChatGPTはコミックのページに説明を付けられる

最初にあるコミックページをChatGPTに投げてみた。

私がChatGPTに課した課題は、そのページで起こっていることを正確に説明することだった。そうすると、何が起こったかわかるだろうか。ChatGPTの説明は見事だった!

(※訳註4)以上のChatGPTとの会話は、以下のように翻訳できる。
シャルマ氏の質問:この画像の意味は?
ChatGPTの回答:この画像は、スパイダーマンの原作に登場する古典的なコミックのページを描いたものです。初期のスパイダーマンのコスチュームに身を包んだピーター・パーカーが、ベンおじさんを殺した強盗と対決する瞬間が描かれています。自分が以前、無関心ゆえにこの強盗を逃がしてしまったことに気づいたピーターは、自分の怠慢が間接的に叔父の死につながったという事実に気づかされます。この重大な出来事をきっかけに、ピーターはベンおじさんの言葉の意味を理解します。その言葉とは 「大いなる力には大いなる責任が伴う」です。このシーンは、ピーター・パーカーがスパイダーマンとして歩んでいくための道徳的な土台を形成し、特殊な能力や力を授かったときの責任の重要性を強調する重要なシーンです。

ChatGPTは、そのページで起こっていることを隅から隅まで平易かつ簡潔に説明してくれた。主人公がベンおじさんに悪さをした泥棒と対決するところまで明らかにしてくれた。

次に起こったことがわかるだろうか。このコミック自体がChatGPTによって語られたのと同じストーリーを展開しているのだ。

要するに、ChatGPTはコミックでも本でも何でも、どんなページでも理解しやすいように嚙み砕いてくれる。

それはまるで、あなたの指先に超スマートな読書仲間がいるようなものだ。

以上はクールではなかろうか。

・・・

2. ChatGPTのインド準備銀行レポート読解

Twitterをスクロールしていたら、アクシャット・シリヴァスターヴァ(Akshat Shrivastava:インド在住の著名な経営コンサルタント)のこの投稿を偶然見つけた。彼はインド準備銀行レポートの画像を投稿していたのだが、ChatGPTがそれを読解してくれるかどうか試してみようと思った。

そこで、そのRBIレポートのスクリーンショットを撮ってChatGPTに投げ、その情報を教えてくれるように頼んだ。するとどうだろう。期待通りにしてくれた。

(※訳註5)以上のChatGPTとの会話は、以下のように翻訳できる。
シャルマ氏の指示:データを簡単な英語で説明し、4~5行の段落にまとめて。
ChatGPTの回答:これは、さまざまな指標から見た2023年のインドのスナップショットです。人口は14億4,000万人です。特筆すべきは、13億6,000万がAadharカードを持っており、12億人がインターネットを利用し、11億4,000万人が携帯電話の契約者であるということです。9億5,000万人が有権者として登録されており、デジタルサービスが人気で8億人が電子商取引に従事し、6億5,000万がスマートフォンを使用しています。その他の数字は(インドで普及している電子決済サービスの)UPI、フードデリバリー、デジタルヘルスケアなど、さまざまなサービスの利用者数を表しています。

ChatGPTは以上のスクリーンショットを読み取って、レポートの一部始終をほんの数行で説明してくれたのだ。

なかなか面白いと思わないだろうか。

そして、心配しないでほしい。もしあなたが望むなら、ChatGPTにレポートの読解を簡潔にするように頼める。

つまり、ChatGPTによって必要な情報を手間をかけずに入手できるのだ。

・・・

3. ChatGPTによる画像からテキストへの変換

その昔、私はYouTubeの動画を見て、それからコードの一行一行を丹念にタイプアウトするのに膨大な時間を費やしていた。

昔はすべての開発者がGitHubや他のプラットフォームでコードを共有するほど寛大ではなかったからだ。

たとえある機能の背後にあるロジックを理解していたとしても、コードを一行一行手で打ち出さなければならなかった。本当に面倒だった。

しかし、あるとき思いついた。ChatGPTにコードの画像を渡して、魔法のようにテキストに変換してもらったらどうだろうか。

するとどうだろう。実際にそのようにChatGPTは動いてくれた!

(※訳註6)以上のChatGPTとの会話は、以下のように翻訳できる。
シャルマ氏の指示:どのようなコードであれ、テキストでこれを書いてください。
ChatGPTの回答:もちろん!以下がテキスト形式のコードです。

(テキスト化されたコード)

このHTMLコードは基本的なウェブページの構造を定義しており、タイトルは「ウェブ開発」となっています。本文には、「みなさんこんにちは、私はニティン・シャルマです」という見出し(h1)と、「もっと有益なコンテンツがありますよ」とおすすめする段落(p)があります。

ChatGPTはコード画像をプレーンテキストに変換してくれた。こうした動作を見て、私は驚いたが痛快でもあった。

これで私のタイピングの手間が省けたのだ!

・・・

4. ChatGPTによるフローチャートの説明

プログラミングを始めて間もない頃、if-else文やループのような概念をよりよく理解するためにフローチャートをよく作ったものだった。

そのようにしたのは、ロジックを視覚的に理解するためだった。

そこで私は考えた。フローチャートの画像をChatGPTに投げて、それを読解できるかどうか見てみようではないか。

するはどうだろう。それは見事に実現された!

(※訳註7)以上のChatGPTとの会話は、以下のように翻訳できる。
シャルマ氏の指示:以上を簡潔に説明してください。
ChatGPTの回答:これは、与えられた3つの数、a、b、cの中で最大の数を決定し、印刷するフローチャートです。

フローチャートを簡単に説明しましょう。
  1. まず、a, b, c の3つの変数を宣言します。
  2. 次に、これら3つの変数の値を入力します。
  3. まず、’a’が’b’より大きいかどうかを調べます。
    • もし真なら、次に’a’が’c’より大きいかどうかをチェックします。
    • ◆ ‘a’が’c’よりも大きければ、’a’を最大の数として表示します。

      ◆ ‘a’ が ‘c’ よりも大きくない場合は、’c’ を最大の数として表示します。

    • 偽の場合 (つまり ‘b’ が ‘a’ より大きいか等しい場合)、次に ‘b’ が ‘c’ より大きいかどうかを調べます。
    • ◆ ‘b’ が ‘c’ より大きい場合、’b’ を最大の数として表示します。

      ◆ ‘b’ が ‘c’ より大きくない場合、’c’ を最大の数として表示します。

  4. 最大の数を表示した後、処理は停止します。

そのフローチャートのグラフィックを使って、ChatGPTは包括的な説明もしてくれた。

本当に驚いた!if-else節、forループ、その他のコードを嚙み砕いて、全てを明らかにしてくれた。

・・・

5. ChatGPTによるロゴからSVGへの変換

さて、次の計画だ。

ChatGPTでロゴ画像をSVGフォーマットにできるか試してみよう。まずはBeehiiv(※訳註8)アカウントの私のロゴを放り込んで、ChatGPTに魔法をかけてもらう。

(※訳註8)Beehiivとは、ニュースレタープラットフォーム。メールキャンペーンを分析する機能などが実装されている。

ステップ1は、ロゴ画像を共有し、「これは何ですか」と尋ねることだった。

(※訳註9)以上のChatGPTとの会話は、以下のように翻訳できる。
シャルマ氏の質問:これは何ですか?
ChatGPTの回答:歯車に斜めの線(針かもしれません)が入っているロゴかエンブレムのようです。「H&I」の文字も大きく表示されています。追加の文脈がなければ、正確な意味や由来を特定することはできませんが、「H&I」のイニシャルを持つブランド、会社、または組織を表しているようです。もっと詳しい情報や背景を教えて頂ければ、もっと説明できるかも知れません。

予想通り、ChatGPTは歯車と斜めの線が入ったロゴまたはエンブレムであることを正しく認識してくれた。

その答えに私は親指を2つ立てた。うまくいった。

それからが本当の挑戦だった。ChatGPTにSVGフォーマットに変換するように頼んだ。

うまくできるか見てみよう!

(※訳註10)以上のChatGPTとの会話は、以下のように翻訳できる。
シャルマ氏の指示:SVGで書いて
ChatGPTの回答:ご提供いただいたロゴをSVG(Scalable Vector Graphics)で表現するには、説明文にもとづいて基本的な表現を作成する必要があります。以下がロゴの初歩的なSVG表現です。

(SVGコード)

このSVGコードでは、斜めの線が入った歯車と “H&I “というテキストが基本的な表現として作成されます。しかし、精度を高めるために、SVGグラフィックの作成とエクスポートには通常、専門的なデザインツールが使用されます。このSVGは説明にもとづいて簡略化したものであり、元のデザインのすべてのニュアンスや仕様を捉えているわけではありません。

以上はクールではなかろうか。

6. ChatGPTが知っている映画の専門知識 ― 映画のシーンを特定する

信じられないと思うかも知れないが、ChatGPT Visionは映画の知識もある!

『アベンジャーズ/エンドゲーム』の1コマを見ながら、私はのんびりしていた。すると、映画のワンシーンをChatGPTに投げて、それが何なのかわかるかどうか試してみたらどうだろう、と思いついた。

そこで、以下に引用したような画像をアップロードし、ChatGPTの反応をチェックしてみた。

(※訳註11)以上のChatGPTとの会話は、以下のように翻訳できる。
シャルマ氏の質問:これは何ですか?
ChatGPTの回答:マーベル・シネマティック・ユニバースのスチール写真です。描かれているのは、ムジョルニアを持つキャプテン・アメリカ(左)とソー(右)。映画『アベンジャーズ/エンドゲーム』からのワンシーンです。

以上の回答には、間違いがある。キャプテン・アメリカが持つ武器は、ソーが所有する斧「ストームブレイカー」である。そして、ソーが持っているのがハンマーのムジョルニアである。もっとも、『アベンジャーズ/エンドゲーム』ではキャプテン・アメリカがムジョルニアで戦うシーンもある。

するとどうだ?ChatGPTは映画の画像に説明を付けてくれた!

しかし、ここからがさらにクレイジーなのだが、私はトリッキーなシーンを読解させるのに挑戦した。そのシーンの理解は、非常に難しいはずだ。

(※訳註12)以上のChatGPTとの会話は、以下のように翻訳できる。
シャルマ氏の質問:ここで何が起こっているのでしょうか?
ChatGPTの回答:マーベル・シネマティック・ユニバースのひとつである映画『アベンジャーズ/エンドゲーム』のワンシーンです。アベンジャーズとその味方から成る連合軍が、サノスとその軍勢に立ち向かうクライマックスの戦いを描いています。ドクター・ストレンジをはじめとする魔術師たちが、アベンジャーズを助けるために宇宙各地から援軍を呼び寄せるために開いたポータルが見えるでしょう。右側に大きく写っているのは、巨大化したアントマンです。この戦いは、この映画を象徴する場面のひとつです。

するとどうだろう。ChatGPTは正しい解説をしてくれた。

以上の結果に本当に驚いた!

・・・

7. ChatGPTによる交通事故分析における被害から損害見積もりまで

最後に、私はChatGPTにカーブボールを投げることにした。

事故の結果ボロボロになった車の写真をアップロードし、質問を投げかけてみた。「この画像では何が起こったのか。」

(※訳註13)以上のChatGPTとの会話は、以下のように翻訳できる。
シャルマ氏の質問:何が起きたの?
ChatGPTの回答:画像に写っているのは、大きな事故か衝突で大きく損傷した車です。ボンネット、バンパー、エンジン部分など、車のフロント部分が大きく崩れており、正面衝突であることがわかります。事故の正確な原因や状況は画像だけでは判断できませんが、車が大きな力を受けたことは明らかです。このような状況に不安や疑問を感じたら、関係機関や専門家に相談することが大切です。

以上のChatGPTの報告を受けて、私は壊れた車の修理代が気になった。

興味深いのは、ChatGPTが車の損傷に応じて多くの変数を考慮したことだが、実際の修理費を出力することはなかった。

(※訳註14)以上のChatGPTとの会話は、以下のように翻訳できる。
シャルマ氏の質問:この車の修理費用は?
ChatGPTの回答:画像を見る限り、フロント部分に大きなダメージを受けています。修理費用を見積もるための因子には、以下のようなものがあります。
  1. 損傷の程度:ボンネット、バンパー、エンジン、おそらくラジエーターやその他の重要な部品を含む車の前面は、大きく損傷しているようです。
  2. 車のメーカーとモデル:修理費用は車のメーカーとモデルによって大きく異なります。高級車や希少車は一般的に部品代や修理費が高くなります。
  3. 隠れた損傷:目に見える損傷は氷山の一角であることが多いことに注意が必要です。外からは見えない構造的、機械的な損傷が潜んでいるかも知れません。
  4. 人件費:車を修理する場所によって、人件費は異なります。独立した修理工場に比べてディーラーの料金は高いかも知れませんが、ディーラーはその特定のメーカーやモデルについて専門的な知識を持っているかも知れません。

損傷が深刻であることが明らかな場合、特に古いモデルの場合、修理費が車の価値に近づくか、あるいはそれを上回る可能性もあります。多くの場合、損傷がこれほど広範囲に及ぶと、保険会社はその車を全損とみなし、修理費を支払うよりも車の価値分を支払った方が費用対効果が高いと見なします。

正確な見積もりを出すには、修理工場の専門家や保険会社のアジャスターによる査定が必要です。

そこで、私は本題に入り、米ドル換算の修理代の概算見積もりをストレートに聞いてみることにした。するとどうだ!以下がその結果だ。

(※訳註15)以上のChatGPTとの会話は、以下のように翻訳できる。
シャルマ氏の指示:USドルでの修理の概算見積もりを教えてください。
ChatGPTの回答:画像だけから正確な見積もりを出すのは難しいですが、傷の大まかな外観と、2022年までの私の最新の訓練データにおける米国での平均修理費から、大まかな見積もりを出せます。
  1. フロントバンパー交換:500ドルから1,500ドル。
  2. ボンネット交換:500ドルから1,500ドル。
  3. エンジン修理:エンジンが損傷している場合、1,000ドルから4,000ドル、またはそれ以上の修理費がかかります。
  4. ラジエーターの交換:300ドルから1,200ドル。
  5. ヘッドライトとその他のライト:ライト1つにつき200ドルから1,000ドル。
  6. エアバッグの交換:エアバッグが展開した場合、交換には1,000ドルから3,000ドルかかります。
  7. フレームの損傷:フレームに損傷がある場合、修理は600ドルから始まり、10,000ドル以上になることもあります。
  8. 人件費:一般的に、工賃は1時間あたり50ドルから150ドルです。損傷の程度を考えると、工賃はかなりの額になるかも知れません。

これらの大まかな見積もりを合計すると、数千ドルから20,000ドル以上になる可能性があります。ただし、これは非常に大まかな概算であり、実際の費用はこれより高くなることも低くなることもあります。古いモデルや一般的なモデルであれば、交換部品の方が安いかも知れません。逆に新しいモデルや高級なモデルであれば、部品代も工賃もかなり高額になる可能性があります。

損傷の範囲を考えると、特に車の構造的完全性が損なわれている場合は、修理するよりも全損とみなして買い替えた方が費用対効果が高いかも知れません。正確な見積もりには、専門家による対面査定が不可欠です。

以上はなかなかクールではなかろうか。

・・・

以上の記事を気に入って頂けたであろうか。

記事を拝読して頂き、ありがとう。

Beehiivの購読をお忘れなく。このニュースレターはAI、ハイテク技術、マネーハック、副業の秘密など、スリリングなダイビングを読者諸氏にお届けする。このニュースレターを読めば、あなたの冒険が待っているのだ!


原文
『ChatGPT Can See Now — The Stunning Secrets I Uncovered Using ChatGPT Vision!』

著者
ニティン・シャルマ(Nitin Sharma)

翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)

編集
おざけん

無料メールマガジン登録

週1回、注目のAIニュースやイベント情報を
編集部がピックアップしてお届けしています。

こちらの規約にご同意のうえチェックしてください。

規約に同意する

あなたにおすすめの記事

動画生成AI『Sora』とは|映像業界にとどまらないインパクトを解説

基調講演だけではない。OpenAI、Microsoft、Metaもビジョンを語ったGTC2024セッションまとめ

ChatGPTもGeminiも忘れて、これらの(信じられない)次世代AIツールをチェックしてみよう!

あなたにおすすめの記事

動画生成AI『Sora』とは|映像業界にとどまらないインパクトを解説

基調講演だけではない。OpenAI、Microsoft、Metaもビジョンを語ったGTC2024セッションまとめ

ChatGPTもGeminiも忘れて、これらの(信じられない)次世代AIツールをチェックしてみよう!