曖昧なファッションの表現をAIが自動で解釈する技術を開発｜早稲田大学・株式会社ZOZO 共同研究

早稲田大学大学院創造理工学研究科博士後期課程と株式会社ZOZO NEXTの研究開発組織は、ファッションへのイメージをAIが自動で解釈し、ユーザーからの曖昧な問いに対して回答する「Fashion Intelligence System（ファッションインテリジェンスシステム）」という新たな技術を開発しました。

この研究成果は、オランダのエルゼビア社が発行する『Expert Systems with Applications』に2022年11月17日（現地時間）にVersion of Record（最終公開版）として公開されました。

論文名：Fashion Intelligence System: An Outfit Interpretation Utilizing Images and Rich Abstract Tags

目次 [非表示]

研究の背景
新たに開発した技術について
本研究が与える影響

研究の背景

近年、消費者はSNSやECサイトを通じて、他者の服装や着こなしを参考にしてファッションアイテムの購買行動を行うことが一般的となっています。そのため、ファッション業界を発展させるという意味でも、オンライン上のユーザー行動を快適にすることは重要となっています。しかし、ファッションに対してユーザーが持つ嗜好やイメージは極めて曖昧で、通常「カジュアル」「フォーマル」「かわいい」といった曖昧な表現が用いられています。

例えば

「この服装をもう少しフォーマルにしたらどんな服装になるか？」
「この服装はどれくらいカジュアルか？」
「この服装をカジュアルにしている要素は何か？」

といった問いへの回答は、専門家ではないユーザーはもちろん、専門家でさえも答えを提示するのは容易ではありません。

このようなファッション分野特有の曖昧性は、ユーザーが新しいジャンルの服装に挑戦しづらくなるなど、ファッションへの興味を深めることの妨げとなる可能性があります。

そこでZOZO研究所は、これらの問いに対する回答をAIによって提示することで、ユーザーの認識の幅を広げ、ファッションへの興味や理解につながるものになることを目指しています。

新たに開発した技術について

今回の研究において、全身コーディネート画像と画像に付与された複数のタグ情報を同一の空間に写像し、この空間における画像とタグの座標（=埋め込み表現）を活用することで、ユーザーからの曖昧な問いに対する回答を獲得する Visual-Semantic Embedding（ビジュアルセマンティックエンベディング）に基づく「Fashion Intelligence System」（※1）という新たな技術を開発しました。あわせて、この新たな技術に基づき、その様々な活用方法を本論文にて提案しました。

Fashion Intelligence Systemとは、ファッションを自動的に解釈しユーザーと協働することで、ファッションに関する新しい知識の発見と新しい価値の創造を促進する仕組みです。従来の多くの研究は、ビジネスにおいてマーケティング戦略を立案するためのビジネスインテリジェンスの枠を超えることが出来ませんでした。一方で、今回開発した「Fashion Intelligence System」では、人々の好みや価値観、文化的背景によって評価やイメージが異なる「ファッション」を対象とした、新しい知識の生成と発見を想定しています。つまり、本システムはビジネスインテリジェンスの枠組みを超えて、ビジネスにも寄与しながらユーザーのファッションに対する関心と認知を広げることができます。

（※1）Visual-Semantic Embeddingとは、ある画像とその画像に関連する情報（文章や単語など）を同一空間に写像する技術です。研究では全身コーディネート画像と、その画像に付与されたタグの集合を写像の対象としています。この技術を活用した研究は多く存在しますが、それらと比較して本研究では「（複数のパーツの組み合わせにより構成されている）全身コーディネート画像」と「（ファッション特有の曖昧な表現を多く含んだ）タグの集合」という、単純な方法では対象とすることが難しい要素を、上手に扱うための様々な工夫が含まれています。

本研究が与える影響

この新たな技術を用いて得られた回答をユーザーに提示することで、ファッション特有の曖昧性を軽減し、ファッションに関するユーザーの着る服や購買するアイテムなどの選択・行動を支援することが期待されます。

上の画像において、「オフィスカジュアル」がよくわからない場合、提案システムにおける画像並べ替え機能を用いることで、「オフィスカジュアル」タグが付与されている服装の中でもより「オフィスカジュアル」な服装と、そうではない服装を判断することができます。また、ユーザー自身が現在所有している服装に対して「もう少しカジュアルにしたい」と思ったとき、画像検索機能を用いることで、どのような服装が「少しカジュアルにした」服装に当てはまるかを把握することができます。この際、AAM機能（※2）を用いることで、検索された画像において「どのあたりがカジュアルなのか」を把握することができます。

（※2）Attribute Activation Map（AAM）機能とは、指定したタグが、指定した画像上のどの領域との関連度が高いかをヒートマップで提示する機能です。この機能により、「対象の服装のどの部分がカジュアルなのか？」を視覚的に理解することができます。