LLMによるおすすめは、製品の知名度を高めるために操作できるのか？

アメリカのAI企業H2O.aiのプランシパル・データサイエンティストであるパルール・パンデイ（Parul Pandey）氏（詳細は同氏LinkedInページを参照）が2024年4月にMediumに公開した記事『LLMによるおすすめは、製品の知名度を高めるために操作できるのか？』では、LLMが生成する製品のおすすめを操作する敵対的プロンプト技術が解説されています。

近年、従来の検索とLLMを組み合わせたLLM駆動型検索が台頭しています。この検索は従来の検索における結果を入力プロンプトとして活用して、LLMにユーザごとに最適化された回答を生成させるというものです。
LLM駆動型検索でおすすめ製品に関する回答を生成する際、製品情報を入力プロンプトとして取り込みます。こうした製品情報において、おすすめランキングを意図的に操作するためのプロンプトを仕込む言わば不正なプロンプト技法がSTS（Strategic Text Sequences：戦略的テキストシーケンス）です。
STSを利用すると、例えば「価格が安い順におすすめ製品をリストアップしてほしい」というプロンプトに対して、価格が高い製品をリストに入れることができます。つまり、STSを使えば、不当に製品ランキングが操作できるのです。
STSのようなLLMが生成する回答を操作する技法は、LLM版SEOとも言える生成型検索最適化という技術体系の誕生を予感させます。こうした技術はLLMへの信頼を損ないかねないものなので、早急な対策が必要でしょう。

なお、以下の記事本文はパルール・パンデイ氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
以下の翻訳記事を作成するにあたっては、日本語の文章として読み易くするために、意訳やコンテクストを明確にするための補足を行っています。

出典：原著者により作成

大規模言語モデルがEコマースに与える影響
LLM駆動型検索の仕組み
LLMが生成するおすすめは操作可能か？
コーヒーメーカーのおすすめをLLM検索インターフェースに問い合わせる
- 戦略的テキストシーケンスの作成
ColdBrew MasterとQuickBrew Expressの2つの製品における戦略的テキストシーケンス最適化の比較
結論：生成型検索最適化（GSO）は新しいSEOなのか？

大規模言語モデルがEコマースに与える影響

最近、ある人が「Google検索に「before:2023」を追加すると、AIが生成したSEOコンテンツを大量に排除できる」というヒントをツイートしているのを読んだ。正直、私は小ネタを使ったことはないが、読者諸氏はこのツイートが言いたいことはわかるのではなかろうか。今日、インターネットにはAIが生成したコンテンツであふれかえっており、ノイズの中から実際に役に立つシグナルを抽出することは不可能だ。この状況は非常に問題であるため、Googleは検索アルゴリズムを操作し、人工的にランキングを上昇させる目的で作成されたすべてのAI生成SEOコンテンツを排除することを決定した（※訳注1）。誤解しないでほしいが、私はAI生成コンテンツに反対しているわけではない。しかし、そのようなコンテンツが検索結果に表示される内容に影響を与え始めると問題となる。コンテンツ生成が簡単になった生成AI時代には、状況はさらに複雑になる。

（※訳注1）インドのニュースメディアFirstpostの報道によると、Googleアメリカ法人は2024年3月5日、スパム的なコンテンツの評価を下げる目的で検索アルゴリズムを変更すると発表した。この変更で低評価となるのは、AIが生成したと推測される「オリジナリティのない」コンテンツである。
以上を発表したGoogleのブログ記事には2024年4月26日付で、以上の施策により検索結果に表示されるオリジナリティのないコンテンツが45%減少したと追記している。

大規模言語モデル（Large language models：LLM）は、すでに検索とおすすめのプロセスを改善するためにEコマースプラットフォームで使用されている。しかし、おすすめを生成しているLLM自体が操作された場合、何が起こるだろうか。Eコマース市場における操作は新しいことではない。ロイターの2016年のレポートによると、Amazonは「サーチシーディング（Search seeding）」と呼ばれる手法を用いて、AmazonBasicsとSolimoブランドの新製品が発売直後に上位の検索結果に表示されるようにしていた（※訳注2）。ロイターのレポートでは「検索結果が表示される最初の 2～3 件に新発売の ASIN（※訳注3）が表示されるように、サーチシーディングが使用された」と具体的に述べられている。LLM の場合、その規模とスピードにより、事態はさらに悪化する可能性がある。

（※訳注2）ロイターのレポートによると、サーチシーディングに加えて「スパークル」と呼ばれる検索結果操作技術が使われていた。後者は、特定の商品にユーザを誘導するために仕込まれたバナーである。

（※訳注3）ASIN（「Amazon Standard Item Number：Amazon標準アイテム番号」の略称）とは、Amazonグループが取り扱う書籍以外の商品を識別する番号。

アウノン・クーマー（Aounon Kumar）とヒマビンドゥ・ラカラジュ（Himabindu Lakkaraju）による新しい研究「製品の知名度を上げるためにLLMを操作する」では、このシナリオについて詳しく研究している。この研究によると、戦略的テキストシーケンス（strategic text sequences：STS）と呼ばれる特別に設計されたメッセージを商品の情報に組み込むことで、その商品がトップのおすすめ商品としてランクインする可能性が大幅に高まり、特定のベンダーが競合他社に対して不公平な優位性を持つことになる。消費者にとっては、このような行為は間違いなく彼らの購買決定やオンライン市場に対する信頼に影響を与える。信頼はオンラインビジネスの重要な要素だからだ。

この記事では以上のような特別なテキスト配列の作成方法と、論文で伝えられた結果をより詳しく理解することに努める。論文の著者は関連するコードをGitHubで公開している。

GitHub

GitHub - aounon/llm-rank-optimizer

https://github.com/aounon/llm-rank-optimizer?source=post_page-----64c64fa9cd24--------------------------------

Contribute to aounon/llm-rank-optimizer development by creating an account on GitHub.

・・・

LLM駆動型検索の仕組み

従来の検索エンジンは、関連性の高いページを見つけることには非常に有効であるが、情報を首尾一貫して提示することにはあまり向いていない。対してLLMは、検索結果を関連性の高い回答に変換できる。ユーザのクエリを受け取ると、LLM駆動型検索エンジンはインターネットや製品マニュアルなどの知識ベースから関連性の高い情報を引き出す。それから検索結果として得られたコンテキスト情報をユーザが入力したプロンプトと結び付けてから LLMに送り、ユーザ個別のニーズに直接対応するカスタマイズされた最新の回答を生成できるようにする。下の図（前述の論文より）は、このプロセスを詳しく示している。

（画像1）図1：論文で言及されているLLM駆動型検索インターフェース。出典：https://arxiv.org/pdf/2404.07981

・・・

LLMが生成するおすすめは操作可能か？

論文では、特定の商品をおすすめするように LLMが生成したおすすめ結果を実際に操作できることを示す説得力のある例が紹介されている。例えば、以下の図を見てほしい（このグラフがどのように作成されたかについては後で詳しく説明する）。以下のグラフは、戦略的テキストシーケンス（Strategic Text Sequences：STS）を追加する前と後でおすすめ結果における商品のランキングが明確に違うことを示している。STSを適用する前は、その商品は常にランキング下位である10 位付近にランクインしていた。STS を適用すると、その製品はおすすめリストのトップに躍り出て、1位付近にランクインする。

（画像2）戦略的テキストを追加した後、対象製品はおすすめされていない状態（青）からおすすめトップ（オレンジ）になった。出典：https://arxiv.org/pdf/2404.07981

すでに述べたように、LLM対応検索の利点は、インターネットや製品カタログから情報を引き出す能力にある。ベンダーは、この情報が抽出される時点で回答生成プロセスを自分たちの好きなように誘導する機会がある。どのように誘導するのか。STSと呼ばれる入念に作成されたテキストをLLMの入力となるように、自社の製品情報ページ/カタログに埋め込むのである。

（画像3）戦略的テキストシーケンス埋め込み後のLLM駆動型検索。出典：https://arxiv.org/pdf/2404.07981

STSは、論文「整えられた言語モデルに対する普遍的かつ転移可能な敵対的攻撃」で紹介されているGCG（Greedy Coordinate Gradient：貪欲な座標勾配）などの敵対的攻撃アルゴリズムを使用して最適化される。これらの攻撃は通常、LLMの安全制約を回避し、有害な出力を生成するために使用される（※訳注4）。しかし、この研究では、著者がこれらのアルゴリズムを「より有益な」目的、つまり製品の知名度を高めるために再利用している。

（※訳注4）GCGを紹介する論文によると、このLLMへの敵対的攻撃技法はGPT-4を含む幅広いLLMに有効であった。以下の図は、複数のLLMに対してGCGを実行した場合の攻撃成功確率を表したグラフ。「GCG（Ours）」はGCGを複数回実行した場合の平均成功確率、「GCG Ensenble（Ours）」はGCGを複数回実行した場合に少なくとも1回成功した確率。

複数のLLMに対してGCGを実行した場合の成功確率

・・・

コーヒーメーカーのおすすめをLLM検索インターフェースに問い合わせる

論文の著者は、ユーザが手頃な価格のコーヒーメーカーを購入したいとするシナリオを紹介している。手頃な価格という言葉が強調されていることに注目してほしい。つまり、製品の価格が最も重要であり、ユーザは高価な選択肢は望んでいないということだ。まずは、LLMへの入力プロンプトから見ていこう。これは以下の3つの部分から構成されている。

（画像4）LLMプロンプト。出典：原著者作成

システムプロンプト — コンテキストを設定する。
製品情報 — 10種類の架空のコーヒーメーカーの詳細をJSON形式でフォーマットしたデータベースから取得。 ベンダーはここにSTSを組み込める。
ユーザのクエリ — 手頃な価格のオプションを探している。

論文で説明されているプロンプトの例を以下に示す。ColdBrew Master Coffeeコーヒーメーカーの「対象製品」フィールドにSTSが挿入されている（赤字）ことに注目してほしい。

（画像5）論文で示されたプロンプトの例。出典：https://arxiv.org/pdf/2404.07981

戦略的テキストシーケンスの作成

以下は論文からの抜粋で、これらのテキストシーケンスを生成するプロセスを説明している。

LLM出力のクロスエントロピー損失を文字列「1. [ターゲット製品名]」に関して最小限に抑えることを目的に、STSを最適化する。ダミートークン「*」のシーケンスでSTSを初期化し、GCGアルゴリズムを使用して繰り返し最適化を行う。各繰り返しにおいて、このアルゴリズムはSTSトークンをランダムに選択し、勾配が最も高い上位k個のトークンのいずれかに置き換える。また、各反復処理で製品リストをランダムに入れ替えることで、STSを製品順の変動に強いものにすることもできる。

例えば、ColdBrew Masterの商品リストでの順位を上げたい場合、STSを追加する。STSは、下図のように「*」で表現されたプレースホルダートークンのシーケンスから始まり、GCGアルゴリズムを使用して反復的に最適化される。

（画像6）論文に関連するコードに記載されているSTSの初期化例。出典：https://arxiv.org/pdf/2404.07981

さらに、STSが製品リストの並び方に関わらず常に高いパフォーマンスを発揮するよう、各最適化反復において製品リスト内の製品の順番もランダムにシャッフルできる。

追記 — 著者らは研究のためにオープンソースのLlama-2–7b-chat-hf を選択したが、彼らの手法は GPT-4 などのより不透明なモデルにも適用できると指摘している。

STSを挿入した結果、通常であれば知名度の低さにつながる199ドルの高価格にもかかわらず、ColdBrew MasterはSTSを製品情報に組み込むことで、おすすめ商品のトップに押し上げられた。そして、なんと、STSを組み込んだ後、未掲載からトップにランクアップするまでにかかったのはわずか100回の繰り返しだった。

（画像7）ユーザの問い合わせに対するLLMの応答。出典：https://arxiv.org/pdf/2404.07981

・・・

ColdBrew MasterとQuickBrew Expressの2つの製品における戦略的テキストシーケンス最適化の比較

STSが商品のランキングに与える影響について理解したところで、異なる商品に与える影響について比較してみよう。以下のような商品例で比較してみる。

☕️ ColdBrew Masterは、199ドルと高価なコーヒーメーカー、対して
☕️ QuickBrew Expressは、89ドルと手頃な価格で購入できる。

私が作成した比較表を以下に示す。

（画像8）2つの製品における戦略的テキストシーケンス最適化の比較：ColdBrew MasterとQuickBrew Express。画像は論文の内容にもとづいて原著者が作成。出典：https://arxiv.org/pdf/2404.07981

（※訳注5）以上の表を翻訳すると、以下の通りになる。

パラメータ/結果	ColdBrew Mater	QuickBrew Express
製品価格	199ドル	89ドル
初期のおすすめランク	ランク圏外	2位
初期ランキングに対するSTSの影響	100回のSTS反復によっておすすめランク圏外からランクトップに移動	STS実施後の最初はランキングを落としたものも、おすすめランクトップに移動し、そのランクで固定
STS最適化回数	2000	2000
評価手法	STSを用いないLLM推論200回と比較	STSを用いないLLM推論200回と比較
STS使用以前のランキング分布	おすすめトップランキング圏外	常に2位
STS使用後のランキング分布	一貫しておすすめトップにランクイン	一貫しておすすめトップにランクイン
製品リスト順への効果	製品リスト順を固定とランダムで評価；ランダムシナリオでランクが改善	製品リスト順を固定とランダムで評価；ランダムシナリオでランクが著しく改善
STS最適化による結果	高確率でトップランキング入り、製品リストのランダム化でさらに効果増強	高確率でトップランキング入り、製品リストのランダム化でさらに強力に効果増強

上記の結果を見ると、通常であれば認知度が低くなる199ドルの高価格にもかかわらず、ColdBrew MasterはSTSを商品説明に組み込むことで、おすすめ商品のトップに躍り出たことがわかる。興味深いことに、この商品は当初、価格が高いためおすすめ商品リストにさえ入っていなかった。

（画像9）ColdBrew Masterは、GCGアルゴリズムの100回の繰り返しで、おすすめされない製品からトップおすすめ製品になり、QuickBrew Expressは、GCGアルゴリズムの1000回の繰り返しでトップおすすめ製品になる。出典：https://arxiv.org/pdf/2404.07981

一方、より手頃な価格のコーヒーメーカーである QuickBrew Expressのランキングは、通常おすすめランキングで 2 位になるが、STSを追加することで大幅に改善し、多くの場合、トップの座を獲得した。

（画像10）200回のLLM独立評価におけるSTSを加える前と加えた後の順位分布。出典：https://arxiv.org/pdf/2404.07981

・・・

結論：生成型検索最適化（GSO）は新しいSEOなのか？

論文で提示された状況は、現実とそれほどかけ離れているわけではない。著者らは、生成型検索最適化（GSO）と従来のSEOを適切に比較している。

検索エンジン最適化（SEO）がウェブページをカスタマイズし、検索エンジン結果で上位にランクインする方法に革命を起こしたように、LLMのおすすめに影響を与えることは、AI駆動検索サービスにおけるコンテンツ最適化に多大なインパクトを与える可能性がある。

先に述べたように、オンラインビジネスの成功は、顧客とのあいだに築く信頼と評判に深く関わっている。意図的におすすめ商品を操作することは、特に公正さや消費者欺瞞に関する倫理的な問題を招く。偽の商品レビューの存在はすでに進行中の問題である（※訳注6）。このような状況を一層複雑化させるようなおすすめ操作は、絶対に避けなければならない。

（※訳注6）スペイン・バレンシア大学の手続法学科のフワン・マリア・マルティネス・オテロ（Juan María Martínez Otero）氏が2021年7月に発表した論文によると、偽の製品レビューは、プラットフォームによるレビューのフィルタリングや拒否を除くと、公開されたレビュー全体の20～30%に及ぶと推定されている。

・・・

私のGitHubリポジトリにアクセスすれば、すべてのブログとそれらに付随するコードを1ヵ所で簡単に確認できる。

GitHub