シャルマ氏がChatGPTの画像チャット機能を使って試みた使用事例は、以下のような7項目です。
シャルマ氏がChatGPTの画像チャット機能を使って試みた7つの使用事例
|
以上の使用事例のいずれにおいても、一部で間違いがあったものも、おおむねChatGPTはシャルマ氏の期待に応えました。
画像チャット機能については、2023年11月6日、OpenAIは同機能を実装したGPT-4 Turboを発表しました。今後、画像チャット機能を活用したAIアプリが多数開発され、急速に普及するでしょう。
なお、以下の記事本文はニティン・シャルマ氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
以下の翻訳記事を作成するにあたっては、日本語の文章として読み易くするために、意訳やコンテクストを明確にするための補足を行っています。
目次
私がChatGPT Visionで行った驚きの実験。
もし読者諸氏が私をフォローしているのならば、私がChatGPTを深く掘り下げていることはおわかりだろう。
そう、この素晴らしいチャットボットが、マーケティングキャンペーンや映画の脚本作成(※訳註1)、退屈なタスクの自動化など、さまざまな分野でいかにゲームチェンジャーになり得るかについて、私はたくさんの記事を書いてきた。
ニティン・シャルマ氏が試した8つのChatGPT活用法
|
時間が経つにつれ、ChatGPTはプラグイン、カスタム指示(※訳註2)、そしてChatGPT Vision機能(※訳註3)のようなアップデートを展開してきた。
ChatGPTに回答時の文体を指示する3つの方法
|
ChatGPT Visionの5つの使用事例
|
私は幸運にもChatGPT Visionを入手できた。そして、それを使って実験するのをとても楽しんだ。
そこでこの投稿では、私がChatGPT Visionでやってみたクールなことのいくつかを公開したい。
ということで、まずはびっくりするような事例から紹介しよう!
1. ChatGPTはコミックのページに説明を付けられる
最初にあるコミックページをChatGPTに投げてみた。
私がChatGPTに課した課題は、そのページで起こっていることを正確に説明することだった。そうすると、何が起こったかわかるだろうか。ChatGPTの説明は見事だった!
シャルマ氏の質問:この画像の意味は? |
ChatGPTの回答:この画像は、スパイダーマンの原作に登場する古典的なコミックのページを描いたものです。初期のスパイダーマンのコスチュームに身を包んだピーター・パーカーが、ベンおじさんを殺した強盗と対決する瞬間が描かれています。自分が以前、無関心ゆえにこの強盗を逃がしてしまったことに気づいたピーターは、自分の怠慢が間接的に叔父の死につながったという事実に気づかされます。この重大な出来事をきっかけに、ピーターはベンおじさんの言葉の意味を理解します。その言葉とは 「大いなる力には大いなる責任が伴う」です。このシーンは、ピーター・パーカーがスパイダーマンとして歩んでいくための道徳的な土台を形成し、特殊な能力や力を授かったときの責任の重要性を強調する重要なシーンです。 |
ChatGPTは、そのページで起こっていることを隅から隅まで平易かつ簡潔に説明してくれた。主人公がベンおじさんに悪さをした泥棒と対決するところまで明らかにしてくれた。
次に起こったことがわかるだろうか。このコミック自体がChatGPTによって語られたのと同じストーリーを展開しているのだ。
要するに、ChatGPTはコミックでも本でも何でも、どんなページでも理解しやすいように嚙み砕いてくれる。
それはまるで、あなたの指先に超スマートな読書仲間がいるようなものだ。
以上はクールではなかろうか。
・・・
2. ChatGPTのインド準備銀行レポート読解
Twitterをスクロールしていたら、アクシャット・シリヴァスターヴァ(Akshat Shrivastava:インド在住の著名な経営コンサルタント)のこの投稿を偶然見つけた。彼はインド準備銀行レポートの画像を投稿していたのだが、ChatGPTがそれを読解してくれるかどうか試してみようと思った。
そこで、そのRBIレポートのスクリーンショットを撮ってChatGPTに投げ、その情報を教えてくれるように頼んだ。するとどうだろう。期待通りにしてくれた。
シャルマ氏の指示:データを簡単な英語で説明し、4~5行の段落にまとめて。 |
ChatGPTの回答:これは、さまざまな指標から見た2023年のインドのスナップショットです。人口は14億4,000万人です。特筆すべきは、13億6,000万がAadharカードを持っており、12億人がインターネットを利用し、11億4,000万人が携帯電話の契約者であるということです。9億5,000万人が有権者として登録されており、デジタルサービスが人気で8億人が電子商取引に従事し、6億5,000万がスマートフォンを使用しています。その他の数字は(インドで普及している電子決済サービスの)UPI、フードデリバリー、デジタルヘルスケアなど、さまざまなサービスの利用者数を表しています。 |
ChatGPTは以上のスクリーンショットを読み取って、レポートの一部始終をほんの数行で説明してくれたのだ。
なかなか面白いと思わないだろうか。
そして、心配しないでほしい。もしあなたが望むなら、ChatGPTにレポートの読解を簡潔にするように頼める。
つまり、ChatGPTによって必要な情報を手間をかけずに入手できるのだ。
・・・
3. ChatGPTによる画像からテキストへの変換
その昔、私はYouTubeの動画を見て、それからコードの一行一行を丹念にタイプアウトするのに膨大な時間を費やしていた。
昔はすべての開発者がGitHubや他のプラットフォームでコードを共有するほど寛大ではなかったからだ。
たとえある機能の背後にあるロジックを理解していたとしても、コードを一行一行手で打ち出さなければならなかった。本当に面倒だった。
しかし、あるとき思いついた。ChatGPTにコードの画像を渡して、魔法のようにテキストに変換してもらったらどうだろうか。
するとどうだろう。実際にそのようにChatGPTは動いてくれた!
シャルマ氏の指示:どのようなコードであれ、テキストでこれを書いてください。 |
ChatGPTの回答:もちろん!以下がテキスト形式のコードです。 (テキスト化されたコード) このHTMLコードは基本的なウェブページの構造を定義しており、タイトルは「ウェブ開発」となっています。本文には、「みなさんこんにちは、私はニティン・シャルマです」という見出し(h1)と、「もっと有益なコンテンツがありますよ」とおすすめする段落(p)があります。 |
ChatGPTはコード画像をプレーンテキストに変換してくれた。こうした動作を見て、私は驚いたが痛快でもあった。
これで私のタイピングの手間が省けたのだ!
・・・
4. ChatGPTによるフローチャートの説明
プログラミングを始めて間もない頃、if-else文やループのような概念をよりよく理解するためにフローチャートをよく作ったものだった。
そのようにしたのは、ロジックを視覚的に理解するためだった。
そこで私は考えた。フローチャートの画像をChatGPTに投げて、それを読解できるかどうか見てみようではないか。
するはどうだろう。それは見事に実現された!
シャルマ氏の指示:以上を簡潔に説明してください。 |
ChatGPTの回答:これは、与えられた3つの数、a、b、cの中で最大の数を決定し、印刷するフローチャートです。 フローチャートを簡単に説明しましょう。
|
そのフローチャートのグラフィックを使って、ChatGPTは包括的な説明もしてくれた。
本当に驚いた!if-else節、forループ、その他のコードを嚙み砕いて、全てを明らかにしてくれた。
・・・
5. ChatGPTによるロゴからSVGへの変換
さて、次の計画だ。
ChatGPTでロゴ画像をSVGフォーマットにできるか試してみよう。まずはBeehiiv(※訳註8)アカウントの私のロゴを放り込んで、ChatGPTに魔法をかけてもらう。
ステップ1は、ロゴ画像を共有し、「これは何ですか」と尋ねることだった。
シャルマ氏の質問:これは何ですか? |
ChatGPTの回答:歯車に斜めの線(針かもしれません)が入っているロゴかエンブレムのようです。「H&I」の文字も大きく表示されています。追加の文脈がなければ、正確な意味や由来を特定することはできませんが、「H&I」のイニシャルを持つブランド、会社、または組織を表しているようです。もっと詳しい情報や背景を教えて頂ければ、もっと説明できるかも知れません。 |
予想通り、ChatGPTは歯車と斜めの線が入ったロゴまたはエンブレムであることを正しく認識してくれた。
その答えに私は親指を2つ立てた。うまくいった。
それからが本当の挑戦だった。ChatGPTにSVGフォーマットに変換するように頼んだ。
うまくできるか見てみよう!
シャルマ氏の指示:SVGで書いて |
ChatGPTの回答:ご提供いただいたロゴをSVG(Scalable Vector Graphics)で表現するには、説明文にもとづいて基本的な表現を作成する必要があります。以下がロゴの初歩的なSVG表現です。 (SVGコード) このSVGコードでは、斜めの線が入った歯車と “H&I “というテキストが基本的な表現として作成されます。しかし、精度を高めるために、SVGグラフィックの作成とエクスポートには通常、専門的なデザインツールが使用されます。このSVGは説明にもとづいて簡略化したものであり、元のデザインのすべてのニュアンスや仕様を捉えているわけではありません。 |
以上はクールではなかろうか。
6. ChatGPTが知っている映画の専門知識 ― 映画のシーンを特定する
信じられないと思うかも知れないが、ChatGPT Visionは映画の知識もある!
『アベンジャーズ/エンドゲーム』の1コマを見ながら、私はのんびりしていた。すると、映画のワンシーンをChatGPTに投げて、それが何なのかわかるかどうか試してみたらどうだろう、と思いついた。
そこで、以下に引用したような画像をアップロードし、ChatGPTの反応をチェックしてみた。
シャルマ氏の質問:これは何ですか? |
ChatGPTの回答:マーベル・シネマティック・ユニバースのスチール写真です。描かれているのは、ムジョルニアを持つキャプテン・アメリカ(左)とソー(右)。映画『アベンジャーズ/エンドゲーム』からのワンシーンです。 |
以上の回答には、間違いがある。キャプテン・アメリカが持つ武器は、ソーが所有する斧「ストームブレイカー」である。そして、ソーが持っているのがハンマーのムジョルニアである。もっとも、『アベンジャーズ/エンドゲーム』ではキャプテン・アメリカがムジョルニアで戦うシーンもある。
するとどうだ?ChatGPTは映画の画像に説明を付けてくれた!
しかし、ここからがさらにクレイジーなのだが、私はトリッキーなシーンを読解させるのに挑戦した。そのシーンの理解は、非常に難しいはずだ。
シャルマ氏の質問:ここで何が起こっているのでしょうか? |
ChatGPTの回答:マーベル・シネマティック・ユニバースのひとつである映画『アベンジャーズ/エンドゲーム』のワンシーンです。アベンジャーズとその味方から成る連合軍が、サノスとその軍勢に立ち向かうクライマックスの戦いを描いています。ドクター・ストレンジをはじめとする魔術師たちが、アベンジャーズを助けるために宇宙各地から援軍を呼び寄せるために開いたポータルが見えるでしょう。右側に大きく写っているのは、巨大化したアントマンです。この戦いは、この映画を象徴する場面のひとつです。 |
するとどうだろう。ChatGPTは正しい解説をしてくれた。
以上の結果に本当に驚いた!
・・・
7. ChatGPTによる交通事故分析における被害から損害見積もりまで
最後に、私はChatGPTにカーブボールを投げることにした。
事故の結果ボロボロになった車の写真をアップロードし、質問を投げかけてみた。「この画像では何が起こったのか。」
シャルマ氏の質問:何が起きたの? |
ChatGPTの回答:画像に写っているのは、大きな事故か衝突で大きく損傷した車です。ボンネット、バンパー、エンジン部分など、車のフロント部分が大きく崩れており、正面衝突であることがわかります。事故の正確な原因や状況は画像だけでは判断できませんが、車が大きな力を受けたことは明らかです。このような状況に不安や疑問を感じたら、関係機関や専門家に相談することが大切です。 |
以上のChatGPTの報告を受けて、私は壊れた車の修理代が気になった。
興味深いのは、ChatGPTが車の損傷に応じて多くの変数を考慮したことだが、実際の修理費を出力することはなかった。
シャルマ氏の質問:この車の修理費用は? |
ChatGPTの回答:画像を見る限り、フロント部分に大きなダメージを受けています。修理費用を見積もるための因子には、以下のようなものがあります。
損傷が深刻であることが明らかな場合、特に古いモデルの場合、修理費が車の価値に近づくか、あるいはそれを上回る可能性もあります。多くの場合、損傷がこれほど広範囲に及ぶと、保険会社はその車を全損とみなし、修理費を支払うよりも車の価値分を支払った方が費用対効果が高いと見なします。 |
そこで、私は本題に入り、米ドル換算の修理代の概算見積もりをストレートに聞いてみることにした。するとどうだ!以下がその結果だ。
シャルマ氏の指示:USドルでの修理の概算見積もりを教えてください。 |
ChatGPTの回答:画像だけから正確な見積もりを出すのは難しいですが、傷の大まかな外観と、2022年までの私の最新の訓練データにおける米国での平均修理費から、大まかな見積もりを出せます。
これらの大まかな見積もりを合計すると、数千ドルから20,000ドル以上になる可能性があります。ただし、これは非常に大まかな概算であり、実際の費用はこれより高くなることも低くなることもあります。古いモデルや一般的なモデルであれば、交換部品の方が安いかも知れません。逆に新しいモデルや高級なモデルであれば、部品代も工賃もかなり高額になる可能性があります。 |
以上はなかなかクールではなかろうか。
・・・
以上の記事を気に入って頂けたであろうか。
記事を拝読して頂き、ありがとう。
Beehiivの購読をお忘れなく。このニュースレターはAI、ハイテク技術、マネーハック、副業の秘密など、スリリングなダイビングを読者諸氏にお届けする。このニュースレターを読めば、あなたの冒険が待っているのだ!
原文
『ChatGPT Can See Now — The Stunning Secrets I Uncovered Using ChatGPT Vision!』
著者
ニティン・シャルマ(Nitin Sharma)
翻訳
吉本幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1取得)
編集
おざけん