OpenAIの新しいAI音声モデルはどんな人の声のクローンを作れる危険性がある

ソフトウェアエンジニア兼イラストレーターで、AI専門メディアGenerative AIの編集長でもあるジム・クライブ・モンジュ（Jim Clyde Monge）氏（詳細は同氏のLinkedInページを参照）がMediumに投稿した記事『OpenAIの新しいAI音声モデルはどんな人の声のクローンを作れる危険性がある』では、Open AIが開発した合成音声生成AIのVoice Engineの活用事例と悪用の可能性が論じられています。
2024年3月29日に正式にその存在が明らかになったVoice Engineについては、同AIを紹介した公式ブログ記事において、合成音声を介したコンテンツの多言語展開、言葉を話せない人のサポートといった活用事例が挙げられています。
しかしながら、Voice Engineには悪用の潜在的リスクがあります。そうしたリスクとして、モンジュ氏は以下のような事例を挙げています。

モンジュ氏が挙げるVoice Engineの悪用事例

詐欺やなりすまし：合成音声によって他人になりすまして、送金させたり個人情報を詐取したりしようとする。
偽コンテンツの拡散：合成音声を悪用したフェイクニュースなどを制作して、それらを拡散する。
プライバシーの侵害：合成音声を悪用したポルノコンテンツなどの制作によって、人権を侵害する。
声優業界への悪影響：声優への配慮を欠いた合成音声の活用は、声優の仕事を奪うことにつながる。
音声記録に対する信憑性の低下：合成音声の活用が普及すると、音声の出処証明を伴わない音声記録の信憑性が低下することになる。

OpenAIも以上のようなリスクを懸念しているので、2024年5月時点ではVoice Engineを一般公開していません。同AIが一般公開されるためには、合成音声に関する電子透かしのようなセキュリティ対策の開発に加えて、悪意ある合成音声が存在し得る「時代に適応する必要がある」とモンジュ氏は述べています。そのような時代への適応には、偽コンテンツへの対処に関するAI教育の普及などが考えられるでしょう。

なお、以下の記事本文はジム・クライブ・モンジュ氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
以下の翻訳記事を作成するにあたっては、日本語の文章として読み易くするために、意訳やコンテクストを明確にするための補足を行っています。

目次 [非表示]

はじめに
Voice Engineとは何か？
音声クローニングの応用例トップ3
音声クローニングは非常に危険でもある
Voice Engineにアクセスするには？
最終的な考察

はじめに

人々は数え切れない世代にわたって、家族の写真や遺品、録画動画などを保管してきた。しかし、もしAIが彼らの話し声を再び聞くことを可能にするとしたらどうなるだろうか。それは「その人をそばに置いておく」良い方法なのだろうか、それとも私たちを不安にさせるものなのだろうか。

OpenAIは最近、Voice Engineを発表した。これは、その人が話している15秒間の録音を使うだけで、誰の声でもコピーできるAIモデルだ。

Voice Engineとは何か？

Voice Engineは、テキスト入力と15秒間の音声サンプル1つだけで、元の話者の声を忠実に模倣した自然な音声を生成するように設計されたモデルだ。2022年後半に開発されたこの技術は、小さなモデルでありながら限られたサンプル入力からでも、感情的でリアルな音声を生成する能力を示している。

この技術はテキスト音声生成API、ChatGPT Voice（※訳注1）、読み上げ機能のプリセット音声に実装されており、テキストからリアルな音声を生成する機能の汎用性と有効性を強調している。

（※訳注1）2024年5月時点でモバイル版ChatGPTでは音声会話機能が利用可能であり、日本語にも対応している。

このAIモデルに刺激されて、私はNetflixのヒットシリーズ『ブラック・ミラー』のシーズン2エピソード1「ずっと側にいて」を思い出した。そのエピソードでは、恋人を交通事故で亡くした若い女性が登場する。

ブラック・ミラー「ずっと側にいて」

彼を悼む彼女は、テクノロジーによって彼を模倣した人工知能とのコミュニケーションが可能になったことを知る。

以上の話はフィクションのシナリオだが、Voice Engineは同様の応用を現実に可能にしている。

音声クローニングの応用例トップ3

OpenAIはブログ投稿でVoice Engineの実用例をいくつか紹介しているが（※訳注2）、私のお気に入りの応用例トップ3を紹介しよう。

コンテンツの翻訳：Voice Engineは動画やポッドキャストなどのコンテンツを翻訳できる。この技術により、企業やクリエイターは、元の話者の声やアクセントを保ちながら、コンテンツを多言語に翻訳できる。
言葉を話せない人をサポートする：Voice Engineは、言葉を話せない人々にとって大きな助けとなる。このAIはロボットのような声ではなく、自然に聞こえるユニークな声を提供するのだ。
患者の声の回復を助ける：ノーマン・プリンス神経科学研究所では、Voice Engineが病気や怪我で話す能力を失った患者を助けている。短い音声クリップだけで、医師は患者の声を再現できる。

（※訳注2）Voice Engineを紹介するOpen公式ブログ記事では、本記事で挙げた応用事例のほかに、以下のような2つの事例を掲載している。

Voice Engineのさらなる2つの事例

教育コンテンツの制作：テクノロジーによる教育の変革を目指す企業Age of Learningは、Voice Engineを使って教育用音読コンテンツや教育アシスタントを開発している。
多言語対応支援：全世界に保健サービスを提供することを目指す社会的企業Dimagiは、マイナー言語を使用する医療従事者のスキル向上を支援するため、マイナー言語によるフィードバックを提供している。

画像出典：UnsplashのAlexander Greyより

個人的には、Voice Engineが私たちのお気に入りのアプリやデバイスに統合されるのを見るのが楽しみだ。以下のリストのような潜在的な使用例は本当に素晴らしい。

自分の声を他の言語で使えるので、YouTube動画のローカライズが可能になり、自分の声を世界に届けられる。
ゲーム、エンターテインメント、ラジオドラマなどを制作する場合、Voice Engineを使えば、一人で複数の役を説得力ある声で演じられ、予算内でよりクリエイティブな柔軟性を提供できる。
Netflixで日本語の映画を見ていて、オンデマンドですぐに好きな言語に切り替えられることを想像してみてほしい。しかも、どの言語でもオリジナルの俳優の声を保っているのだ。

OpenAIのVoice Engineのパワーと可能性を本当に理解するには、実際に自分の耳で聞いてみる必要がある。このMediumの記事に直接オーディオクリップを埋め込めないので、OpenAIのウェブサイトで事例をチェックすることを強くおすすめする。

音声クローニングは非常に危険でもある

確かにVoice Engineの潜在的なメリットは大きいが、それでも憂慮すべき重大なリスクがある。これほど高度なボイスクローニングテクノロジーは、個人、組織、さらには社会全体に実害をもたら得る方法で悪用される可能性がある。以下のような悪用が考えられる。

詐欺やなりすましを可能にする：犯罪者が金銭的利益を得るために、人の声をクローンして他人を欺く可能性がある。例えば、詐欺師が親族や行政当局、取引先に合成音声によってなりすまし、被害者を騙して送金させたり、機密情報を詐取したりする可能性がある。
偽情報や偽コンテンツを広める：公人が実際には決して言わないようなことを言う偽の音声コンテンツを作成することで、一種の政治的な武器として使用できる。合成音声は、フェイクニュース、プロパガンダ、陰謀論、デマをかつてない規模で広めるために使われる可能性があるのだ。
プライバシーと本人確認を侵害する：声のサンプルさえあれば、本人の確認や同意なしに、誰でも偽の音声コンテンツを生成するのは容易いことだ。偽の音声によって、同意のない音声ポルノや偽の私的な会話、その他の不穏なプライバシーの侵害といった悪事を犯すことへの扉が開かれてしまう。たとえ公に共有されなくても、同意のない声のクローニングは違法である。
声優の仕事を奪いかねない：ボイスクローニングによって、ディレクターやクリエイターは、キャラクターに必要な音声を入手できる。そうした合成音声は実際に声優に代替するのだが、彼らの声の肖像権を盗むことにもなる。
合成音声は法的手続きやジャーナリズムを複雑にする可能性がある：ボイスクローニングが信頼できる音声証拠にとって代わられることが日常茶飯事な現実になると、信頼できる証拠としての音声記録への信頼が損なわれる可能性がある。捏造されたボイスメール、会議の録音、インタビューが、人を不当に有罪にしたり、疑念を植え付けるために使われたりする可能性がある。

画像出典：Jim Clyde Monge

Voice Engineにアクセスするには？

OpenAIは、潜在的な悪用や倫理的な影響への懸念から、このAIモデルをまだ広く公開していない。

同社はVoice Engineの広範なリリースには慎重で、同意なしに個人になりすましたりしないことや、生成された音声がAIによって生成されたものであることを公表することなど、特定の使用条件に同意した限られた数のパートナーと関わっている。

同社はまた、Voice Engineの悪用を防止し、この技術が有害な目的に利用されないようにするためのセキュリティメカニズムの実装にも取り組んでいる（※訳注3）。

（※訳注3）Voice Engine公式紹介記事によると、OpenAIは同機能によって生成された音声の出処を追跡するための電子透かしの実装や、同機能の使われ方に対する積極的な監視などの安全対策を実施している。
また、オリジナルの話者が自身の声を活用した合成音声が使われていることを確認する機能や、合成音声の制作を禁止する著名人の禁止音声リストが必要、とOpenAIは考えている。

・・・

最終的な考察

音声クローンAIモデルの危険性は避けられない。

悪用されれば、音声クローニングは新たなレベルの詐欺、個人情報詐取、偽情報、プライバシー侵害を可能にしてしまう。また、声優業界全体を根底から覆す恐れもある。

どのような声もAIによって完璧に複製できるようになったら、私たちはどのように聴いたものを信用できるだろうか。

音声がテキストと同じように簡単に生成できる時代に適応する必要があるだろう（※訳注4）。「写真か、それとも何もなかったか」（※訳注5）とよく言われるようになったように、音声のディープフェイクが急増するにつれて、「（音声がオリジナルであることの）署名か、それがなければ本物ではないか」という言い回しが登場するかもしれない。健全な懐疑心が必要となるだろう。

（※訳注4）Voice Engine公式紹介記事によると、OpenAIはVoice Engineを一般公開するためには、以下のような社会改革が必要だと考えている。

Voice Engineを一般公開するために必要な4つの社会改革