ビジョンから現実へ： ChatGPT 4 Visionのプロダクトデザインへの活用

最終更新日： 2024年6月27日

スペイン在住のプロダクトデザイナーであるエドワード・チェチック（Edward Chechique）氏（同氏の詳細は同氏LinkedInページを参照）がMediumに投稿した記事『ビジョンから現実へ： ChatGPT 4 Visionのプロダクトデザインへの活用』では、ChatGPTの画像認識機能のプロダクトデザインへの活用法が紹介されています。
2023年11月6日開催のOpenAI DevDayで発表されたGPT-4 Turbo with visionは、ChatGPTに画像認識機能を付与するものでした。この機能をプロダクトデザインに活用する方法として、チェチック氏は以下のような5つの事例を挙げています。

ChatGPT画像認識機能のプロダクトデザインにおける活用事例

インタフェーススタイルの特定：任意のウェブデザイン画面をアップロードして使われているデザイン技法を質問すると、デザイン技法を特定して回答する。
ロゴの特定：グラスなどにあしらわれているロゴが写った画像をアップロードしてロゴが何であるか質問すると、ロゴについて回答する。
アクセシビリティ分析：任意のウェブデザイン画面をアップロードしてアクセシビリティに関して問題がないかどうか質問すると、問題のある個所と改善策を回答する。
ウェブデザインのコード化：Figmaプラグインなどを使って制作したウェブデザイン画面に関する仕様書をアップロードすると、それらの情報にもとづいたウェブ画面のコードを出力する。
マークした箇所の識別：ウェブデザイン画面における特定のパーツを線で囲んだうえでその箇所について質問すると、そのパーツの名称等を回答する。

以上のような活用事例を挙げたうえで、今後はChatGPTの画像認識機能を使ったGPTアプリが増えると予想すると同時に、こうした機能が出力する回答に100%依存しないことも重要、とチェチック氏は述べています。

ChatGPTの画像認識機能については、AINOW翻訳記事『ChatGPTはもはや見ることができる – ChatGPT Visionを使って私が発見した驚くべき秘密！』も参考になるでしょう。

なお、以下の記事本文はエドワード・チェチック氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
以下の翻訳記事を作成するにあたっては、日本語の文章として読み易くするために、意訳やコンテクストを明確にするための補足を行っています。

ChatGPT 4 Visionがその先進的画像分析能力によって、プロダクトデザインプロセスをどのように変革するかをご覧あれ。
ChatGPT Visionモードとは何か？
ChatGPT Visionモードの使い方
ChatGPT 4 Visionのユニークな機能
GPT-4 Visionの限界と注意点
プロダクトデザイナーとしてChatGPT 4 Visionを使うためのアイデア
要約すると

ChatGPT 4 Visionがその先進的画像分析能力によって、プロダクトデザインプロセスをどのように変革するかをご覧あれ。

OpenAIが発表した最新の機能は、私が待ち望んでいた機能の1つであったGPT-4 Visionだ。このモデルは、画像を理解するという革新的な機能を備えている。

現在、OpenAIのAIモデルは、ビジュアルを「見て」「理解」し、そして分析し、ビジュアルと相互作用して、洞察に満ちた応答を提供できる。

このモデルを深く掘り下げて、プロダクトデザイナーがこれを日々の仕事にどのように役立てられるかを見てみよう。

ChatGPT Visionモードとは何か？

ChatGPT 4 Visionは、AIモデルが画像を取り込んで分析し、それらに関するテキストベースのクエリに応答することを可能にするモードである。

この能力を得た結果、AIはより強力になる。視覚データとテキスト入力を処理し、コンテンツをよりよく理解できるのだ。

この新機能により、ユーザーは手書きのメモ、図、表などを含む画像をアップロードできる。さらにはビジュアルコンテンツから詳細な洞察を抽出し、テキストを書き起こしたり、グラフや図を表やテキストの説明に変換したり、視覚的な数学の問題を解けるのだ。

ChatGPT Visionモードの使い方

アクセスする：まず、ChatGPT PlusまたはChatGPTEnterpriseに加入していることを確認する。ChatGPTのブラウザベースのiOSアプリまたはAndroidアプリからもアクセスできる。
インターフェース：ChatGPTのインターフェースを開くと、「GPT-4」チャットモードが表示される。これをデフォルトチャットモードとして選択する。
画像をアップロードする：（プロンプト入力ボックスから）画像をアップロードできる。「画像のアップロード」アイコンをクリックし、ChatGPTに分析させたい画像を選択する。
質問する：アップロード後、テキストスペースでアップロードした画像について質問したり、情報を求めたりできる。
送信する：ChatGPTが画像を分析し、あなたの質問にもとづいた詳細な洞察と応答を提供するのを、座って見守ろう。

ChatGPT 4 Visionのユニークな機能

オブジェクト識別：ChatGPT 4 Visionは画像内のオブジェクトを識別し、説明できる。こうしてテキストを理解するだけでなく、その有用性を広げている。
画像からのテキスト転写：画像コンテンツからデジタルテキストを書き起こせる。
データ解釈：GPT-4Vは図表を読み解き、複数のパラメータにもとづいて要約を与えられる。
教育支援：ChatGPT-4 Visionは画像認識の多様性に加え、複雑なトピックの説明、質問への回答、教科書の図の説明にも最適。
画像からコードへの変換：このモデルは、ウェブサイト構造の画像を実際のウェブサイトに変換できる。

GPT-4 Visionの限界と注意点

チャットに100％依存しない

ChatGPT 4 VisionはAI技術の驚くべき飛躍を象徴しているが、ビジュアルを分析する際にモデルが間違いを犯す可能性があることを認識するのも重要だ。

そのため、チャットの応答について批判的になり、100％それに依存しないことが肝要である。AIモデルは、現実と一致しない画像にもとづいて詳細や物語を作り出す可能性がある。

機密性の高い画像やデータをアップロードしない

ChatGPTでの作業時に情報をアップロードする際、AIがそのデータで何をするかコントロールできないことを忘れてはならない（Samsungの話を思い出して欲しい（※訳註1））。

（※訳註1）総合メディアMashableが2023年4月6日に公開した記事によると、Samsung社内で不注意から機密情報をChatGPTに入力してしまった事例が3件あった。この事件発覚後、同社は独自AIチャットボットを構築する検討を始めた。その後、Samsungニュース専門メディアSamMobileが2023年6月9日に報じたところによると、同社は独自LLMの開発に着手した。

それゆえ、私的だったり機密的だったりする如何なるデータもアップロードしないこと。というのも、そうしたデータがAIとのチャット後に何に使われるかわからないからである。