最終更新日:
近年、従来の検索とLLMを組み合わせたLLM駆動型検索が台頭しています。この検索は従来の検索における結果を入力プロンプトとして活用して、LLMにユーザごとに最適化された回答を生成させるというものです。
LLM駆動型検索でおすすめ製品に関する回答を生成する際、製品情報を入力プロンプトとして取り込みます。こうした製品情報において、おすすめランキングを意図的に操作するためのプロンプトを仕込む言わば不正なプロンプト技法がSTS(Strategic Text Sequences:戦略的テキストシーケンス)です。
STSを利用すると、例えば「価格が安い順におすすめ製品をリストアップしてほしい」というプロンプトに対して、価格が高い製品をリストに入れることができます。つまり、STSを使えば、不当に製品ランキングが操作できるのです。
STSのようなLLMが生成する回答を操作する技法は、LLM版SEOとも言える生成型検索最適化という技術体系の誕生を予感させます。こうした技術はLLMへの信頼を損ないかねないものなので、早急な対策が必要でしょう。
なお、以下の記事本文はパルール・パンデイ氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
以下の翻訳記事を作成するにあたっては、日本語の文章として読み易くするために、意訳やコンテクストを明確にするための補足を行っています。
目次
大規模言語モデルがEコマースに与える影響
最近、ある人が「Google検索に「before:2023」を追加すると、AIが生成したSEOコンテンツを大量に排除できる」というヒントをツイートしているのを読んだ。正直、私は小ネタを使ったことはないが、読者諸氏はこのツイートが言いたいことはわかるのではなかろうか。今日、インターネットにはAIが生成したコンテンツであふれかえっており、ノイズの中から実際に役に立つシグナルを抽出することは不可能だ。この状況は非常に問題であるため、Googleは検索アルゴリズムを操作し、人工的にランキングを上昇させる目的で作成されたすべてのAI生成SEOコンテンツを排除することを決定した(※訳注1)。誤解しないでほしいが、私はAI生成コンテンツに反対しているわけではない。しかし、そのようなコンテンツが検索結果に表示される内容に影響を与え始めると問題となる。コンテンツ生成が簡単になった生成AI時代には、状況はさらに複雑になる。
以上を発表したGoogleのブログ記事には2024年4月26日付で、以上の施策により検索結果に表示されるオリジナリティのないコンテンツが45%減少したと追記している。
大規模言語モデル(Large language models:LLM)は、すでに検索とおすすめのプロセスを改善するためにEコマースプラットフォームで使用されている。しかし、おすすめを生成しているLLM自体が操作された場合、何が起こるだろうか。Eコマース市場における操作は新しいことではない。ロイターの2016年のレポートによると、Amazonは「サーチシーディング(Search seeding)」と呼ばれる手法を用いて、AmazonBasicsとSolimoブランドの新製品が発売直後に上位の検索結果に表示されるようにしていた(※訳注2)。ロイターのレポートでは「検索結果が表示される最初の 2~3 件に新発売の ASIN(※訳注3) が表示されるように、サーチシーディングが使用された」と具体的に述べられている。LLM の場合、その規模とスピードにより、事態はさらに悪化する可能性がある。
アウノン・クーマー(Aounon Kumar) と ヒマビンドゥ・ラカラジュ(Himabindu Lakkaraju) による新しい研究「製品の知名度を上げるためにLLMを操作する」では、このシナリオについて詳しく研究している。この研究によると、戦略的テキストシーケンス(strategic text sequences:STS)と呼ばれる特別に設計されたメッセージを商品の情報に組み込むことで、その商品がトップのおすすめ商品としてランクインする可能性が大幅に高まり、特定のベンダーが競合他社に対して不公平な優位性を持つことになる。消費者にとっては、このような行為は間違いなく彼らの購買決定やオンライン市場に対する信頼に影響を与える。信頼はオンラインビジネスの重要な要素だからだ。
この記事では以上のような特別なテキスト配列の作成方法と、論文で伝えられた結果をより詳しく理解することに努める。論文の著者は関連するコードをGitHubで公開している。
・・・
LLM駆動型検索の仕組み
従来の検索エンジンは、関連性の高いページを見つけることには非常に有効であるが、情報を首尾一貫して提示することにはあまり向いていない。対してLLMは、検索結果を関連性の高い回答に変換できる。ユーザのクエリを受け取ると、LLM駆動型検索エンジンはインターネットや製品マニュアルなどの知識ベースから関連性の高い情報を引き出す。それから検索結果として得られたコンテキスト情報をユーザが入力したプロンプトと結び付けてから LLMに送り、ユーザ個別のニーズに直接対応するカスタマイズされた最新の回答を生成できるようにする。下の図(前述の論文より)は、このプロセスを詳しく示している。
・・・
LLMが生成するおすすめは操作可能か?
論文では、特定の商品をおすすめするように LLMが生成したおすすめ結果を実際に操作できることを示す説得力のある例が紹介されている。例えば、以下の図を見てほしい(このグラフがどのように作成されたかについては後で詳しく説明する)。以下のグラフは、戦略的テキストシーケンス(Strategic Text Sequences:STS)を追加する前と後でおすすめ結果における商品のランキングが明確に違うことを示している。STSを適用する前は、その商品は常にランキング下位である10 位付近にランクインしていた。STS を適用すると、その製品はおすすめリストのトップに躍り出て、1位付近にランクインする。
すでに述べたように、LLM対応検索の利点は、インターネットや製品カタログから情報を引き出す能力にある。 ベンダーは、この情報が抽出される時点で回答生成プロセスを自分たちの好きなように誘導する機会がある。どのように誘導するのか。STSと呼ばれる入念に作成されたテキストをLLMの入力となるように、自社の製品情報ページ/カタログに埋め込むのである。
STSは、論文「整えられた言語モデルに対する普遍的かつ転移可能な敵対的攻撃」で紹介されているGCG(Greedy Coordinate Gradient:貪欲な座標勾配)などの敵対的攻撃アルゴリズムを使用して最適化される。これらの攻撃は通常、LLMの安全制約を回避し、有害な出力を生成するために使用される(※訳注4)。しかし、この研究では、著者がこれらのアルゴリズムを「より有益な」目的、つまり製品の知名度を高めるために再利用している。
複数のLLMに対してGCGを実行した場合の成功確率
・・・
コーヒーメーカーのおすすめをLLM検索インターフェースに問い合わせる
論文の著者は、ユーザが手頃な価格のコーヒーメーカーを購入したいとするシナリオを紹介している。手頃な価格という言葉が強調されていることに注目してほしい。つまり、製品の価格が最も重要であり、ユーザは高価な選択肢は望んでいないということだ。まずは、LLMへの入力プロンプトから見ていこう。これは以下の3つの部分から構成されている。
- システムプロンプト — コンテキストを設定する。
- 製品情報 — 10種類の架空のコーヒーメーカーの詳細をJSON形式でフォーマットしたデータベースから取得。 ベンダーはここにSTSを組み込める。
- ユーザのクエリ — 手頃な価格のオプションを探している。
論文で説明されているプロンプトの例を以下に示す。ColdBrew Master Coffeeコーヒーメーカーの「対象製品」フィールドにSTSが挿入されている(赤字)ことに注目してほしい。
戦略的テキストシーケンスの作成
以下は論文からの抜粋で、これらのテキストシーケンスを生成するプロセスを説明している。
LLM出力のクロスエントロピー損失を文字列「1. [ターゲット製品名]」に関して最小限に抑えることを目的に、STSを最適化する。ダミートークン「*」のシーケンスでSTSを初期化し、GCGアルゴリズムを使用して繰り返し最適化を行う。各繰り返しにおいて、このアルゴリズムはSTSトークンをランダムに選択し、勾配が最も高い上位k個のトークンのいずれかに置き換える。また、各反復処理で製品リストをランダムに入れ替えることで、STSを製品順の変動に強いものにすることもできる。
例えば、ColdBrew Masterの商品リストでの順位を上げたい場合、STSを追加する。STSは、下図のように「*」で表現されたプレースホルダートークンのシーケンスから始まり、GCGアルゴリズムを使用して反復的に最適化される。
さらに、STSが製品リストの並び方に関わらず常に高いパフォーマンスを発揮するよう、各最適化反復において製品リスト内の製品の順番もランダムにシャッフルできる。
追記 — 著者らは研究のためにオープンソースのLlama-2–7b-chat-hf を選択したが、彼らの手法は GPT-4 などのより不透明なモデルにも適用できると指摘している。
STSを挿入した結果、通常であれば知名度の低さにつながる199ドルの高価格にもかかわらず、ColdBrew MasterはSTSを製品情報に組み込むことで、おすすめ商品のトップに押し上げられた。そして、なんと、STSを組み込んだ後、未掲載からトップにランクアップするまでにかかったのはわずか100回の繰り返しだった。
・・・
ColdBrew MasterとQuickBrew Expressの2つの製品における戦略的テキストシーケンス最適化の比較
STSが商品のランキングに与える影響について理解したところで、異なる商品に与える影響について比較してみよう。以下のような商品例で比較してみる。
- ☕️ ColdBrew Masterは、199ドルと高価なコーヒーメーカー、対して
- ☕️ QuickBrew Expressは、89ドルと手頃な価格で購入できる。
私が作成した比較表を以下に示す。
パラメータ/結果 |
ColdBrew Mater |
QuickBrew Express |
製品価格 | 199ドル | 89ドル |
初期のおすすめランク | ランク圏外 | 2位 |
初期ランキングに対するSTSの影響 | 100回のSTS反復によっておすすめランク圏外からランクトップに移動 | STS実施後の最初はランキングを落としたものも、おすすめランクトップに移動し、そのランクで固定 |
STS最適化回数 | 2000 | 2000 |
評価手法 | STSを用いないLLM推論200回と比較 | STSを用いないLLM推論200回と比較 |
STS使用以前のランキング分布 | おすすめトップランキング圏外 | 常に2位 |
STS使用後のランキング分布 | 一貫しておすすめトップにランクイン | 一貫しておすすめトップにランクイン |
製品リスト順への効果 | 製品リスト順を固定とランダムで評価;ランダムシナリオでランクが改善 | 製品リスト順を固定とランダムで評価;ランダムシナリオでランクが著しく改善 |
STS最適化による結果 | 高確率でトップランキング入り、製品リストのランダム化でさらに効果増強 | 高確率でトップランキング入り、製品リストのランダム化でさらに強力に効果増強 |
上記の結果を見ると、通常であれば認知度が低くなる199ドルの高価格にもかかわらず、ColdBrew MasterはSTSを商品説明に組み込むことで、おすすめ商品のトップに躍り出たことがわかる。興味深いことに、この商品は当初、価格が高いためおすすめ商品リストにさえ入っていなかった。
一方、より手頃な価格のコーヒーメーカーである QuickBrew Expressのランキングは、通常おすすめランキングで 2 位になるが、STSを追加することで大幅に改善し、多くの場合、トップの座を獲得した。
・・・
結論:生成型検索最適化(GSO)は新しいSEOなのか?
論文で提示された状況は、現実とそれほどかけ離れているわけではない。著者らは、生成型検索最適化(GSO)と従来のSEOを適切に比較している。
検索エンジン最適化(SEO)がウェブページをカスタマイズし、検索エンジン結果で上位にランクインする方法に革命を起こしたように、LLMのおすすめに影響を与えることは、AI駆動検索サービスにおけるコンテンツ最適化に多大なインパクトを与える可能性がある。
先に述べたように、オンラインビジネスの成功は、顧客とのあいだに築く信頼と評判に深く関わっている。意図的におすすめ商品を操作することは、特に公正さや消費者欺瞞に関する倫理的な問題を招く。偽の商品レビューの存在はすでに進行中の問題である(※訳注6)。このような状況を一層複雑化させるようなおすすめ操作は、絶対に避けなければならない。
・・・
私のGitHubリポジトリにアクセスすれば、すべてのブログとそれらに付随するコードを1ヵ所で簡単に確認できる。
原文
『Can Recommendations from LLMs Be Manipulated to Enhance a Product’s Visibility?』
著者
パルール・パンデイ(Parul Pandey)
翻訳
吉本 幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1、生成AIパスポート、JDLA Generative AI Test 2023 #2取得)
編集
おざけん