最終更新日:
2024年3月29日に正式にその存在が明らかになったVoice Engineについては、同AIを紹介した公式ブログ記事において、合成音声を介したコンテンツの多言語展開、言葉を話せない人のサポートといった活用事例が挙げられています。
しかしながら、Voice Engineには悪用の潜在的リスクがあります。そうしたリスクとして、モンジュ氏は以下のような事例を挙げています。
モンジュ氏が挙げるVoice Engineの悪用事例
|
OpenAIも以上のようなリスクを懸念しているので、2024年5月時点ではVoice Engineを一般公開していません。同AIが一般公開されるためには、合成音声に関する電子透かしのようなセキュリティ対策の開発に加えて、悪意ある合成音声が存在し得る「時代に適応する必要がある」とモンジュ氏は述べています。そのような時代への適応には、偽コンテンツへの対処に関するAI教育の普及などが考えられるでしょう。
なお、以下の記事本文はジム・クライブ・モンジュ氏に直接コンタクトをとり、翻訳許可を頂いたうえで翻訳したものです。また、翻訳記事の内容は同氏の見解であり、特定の国や地域ならびに組織や団体を代表するものではなく、翻訳者およびAINOW編集部の主義主張を表明したものでもありません。
以下の翻訳記事を作成するにあたっては、日本語の文章として読み易くするために、意訳やコンテクストを明確にするための補足を行っています。
はじめに
人々は数え切れない世代にわたって、家族の写真や遺品、録画動画などを保管してきた。しかし、もしAIが彼らの話し声を再び聞くことを可能にするとしたらどうなるだろうか。それは「その人をそばに置いておく」良い方法なのだろうか、それとも私たちを不安にさせるものなのだろうか。
OpenAIは最近、Voice Engineを発表した。これは、その人が話している15秒間の録音を使うだけで、誰の声でもコピーできるAIモデルだ。
Voice Engineとは何か?
Voice Engineは、テキスト入力と15秒間の音声サンプル1つだけで、元の話者の声を忠実に模倣した自然な音声を生成するように設計されたモデルだ。2022年後半に開発されたこの技術は、小さなモデルでありながら限られたサンプル入力からでも、感情的でリアルな音声を生成する能力を示している。
この技術はテキスト音声生成API、ChatGPT Voice(※訳注1)、読み上げ機能のプリセット音声に実装されており、テキストからリアルな音声を生成する機能の汎用性と有効性を強調している。
このAIモデルに刺激されて、私はNetflixのヒットシリーズ『ブラック・ミラー』のシーズン2エピソード1「ずっと側にいて」を思い出した。そのエピソードでは、恋人を交通事故で亡くした若い女性が登場する。
彼を悼む彼女は、テクノロジーによって彼を模倣した人工知能とのコミュニケーションが可能になったことを知る。
以上の話はフィクションのシナリオだが、Voice Engineは同様の応用を現実に可能にしている。
音声クローニングの応用例トップ3
OpenAIはブログ投稿でVoice Engineの実用例をいくつか紹介しているが(※訳注2)、私のお気に入りの応用例トップ3を紹介しよう。
- コンテンツの翻訳:Voice Engineは動画やポッドキャストなどのコンテンツを翻訳できる。この技術により、企業やクリエイターは、元の話者の声やアクセントを保ちながら、コンテンツを多言語に翻訳できる。
- 言葉を話せない人をサポートする:Voice Engineは、言葉を話せない人々にとって大きな助けとなる。このAIはロボットのような声ではなく、自然に聞こえるユニークな声を提供するのだ。
- 患者の声の回復を助ける:ノーマン・プリンス神経科学研究所では、Voice Engineが病気や怪我で話す能力を失った患者を助けている。短い音声クリップだけで、医師は患者の声を再現できる。
Voice Engineのさらなる2つの事例
|
個人的には、Voice Engineが私たちのお気に入りのアプリやデバイスに統合されるのを見るのが楽しみだ。以下のリストのような潜在的な使用例は本当に素晴らしい。
- 自分の声を他の言語で使えるので、YouTube動画のローカライズが可能になり、自分の声を世界に届けられる。
- ゲーム、エンターテインメント、ラジオドラマなどを制作する場合、Voice Engineを使えば、一人で複数の役を説得力ある声で演じられ、予算内でよりクリエイティブな柔軟性を提供できる。
- Netflixで日本語の映画を見ていて、オンデマンドですぐに好きな言語に切り替えられることを想像してみてほしい。しかも、どの言語でもオリジナルの俳優の声を保っているのだ。
OpenAIのVoice Engineのパワーと可能性を本当に理解するには、実際に自分の耳で聞いてみる必要がある。このMediumの記事に直接オーディオクリップを埋め込めないので、OpenAIのウェブサイトで事例をチェックすることを強くおすすめする。
音声クローニングは非常に危険でもある
確かにVoice Engineの潜在的なメリットは大きいが、それでも憂慮すべき重大なリスクがある。これほど高度なボイスクローニングテクノロジーは、個人、組織、さらには社会全体に実害をもたら得る方法で悪用される可能性がある。以下のような悪用が考えられる。
- 詐欺やなりすましを可能にする:犯罪者が金銭的利益を得るために、人の声をクローンして他人を欺く可能性がある。例えば、詐欺師が親族や行政当局、取引先に合成音声によってなりすまし、被害者を騙して送金させたり、機密情報を詐取したりする可能性がある。
- 偽情報や偽コンテンツを広める:公人が実際には決して言わないようなことを言う偽の音声コンテンツを作成することで、一種の政治的な武器として使用できる。合成音声は、フェイクニュース、プロパガンダ、陰謀論、デマをかつてない規模で広めるために使われる可能性があるのだ。
- プライバシーと本人確認を侵害する:声のサンプルさえあれば、本人の確認や同意なしに、誰でも偽の音声コンテンツを生成するのは容易いことだ。偽の音声によって、同意のない音声ポルノや偽の私的な会話、その他の不穏なプライバシーの侵害といった悪事を犯すことへの扉が開かれてしまう。たとえ公に共有されなくても、同意のない声のクローニングは違法である。
- 声優の仕事を奪いかねない:ボイスクローニングによって、ディレクターやクリエイターは、キャラクターに必要な音声を入手できる。そうした合成音声は実際に声優に代替するのだが、彼らの声の肖像権を盗むことにもなる。
- 合成音声は法的手続きやジャーナリズムを複雑にする可能性がある:ボイスクローニングが信頼できる音声証拠にとって代わられることが日常茶飯事な現実になると、信頼できる証拠としての音声記録への信頼が損なわれる可能性がある。捏造されたボイスメール、会議の録音、インタビューが、人を不当に有罪にしたり、疑念を植え付けるために使われたりする可能性がある。
Voice Engineにアクセスするには?
OpenAIは、潜在的な悪用や倫理的な影響への懸念から、このAIモデルをまだ広く公開していない。
同社はVoice Engineの広範なリリースには慎重で、同意なしに個人になりすましたりしないことや、生成された音声がAIによって生成されたものであることを公表することなど、特定の使用条件に同意した限られた数のパートナーと関わっている。
同社はまた、Voice Engineの悪用を防止し、この技術が有害な目的に利用されないようにするためのセキュリティメカニズムの実装にも取り組んでいる(※訳注3)。
また、オリジナルの話者が自身の声を活用した合成音声が使われていることを確認する機能や、合成音声の制作を禁止する著名人の禁止音声リストが必要、とOpenAIは考えている。
・・・
最終的な考察
音声クローンAIモデルの危険性は避けられない。
悪用されれば、音声クローニングは新たなレベルの詐欺、個人情報詐取、偽情報、プライバシー侵害を可能にしてしまう。また、声優業界全体を根底から覆す恐れもある。
どのような声もAIによって完璧に複製できるようになったら、私たちはどのように聴いたものを信用できるだろうか。
音声がテキストと同じように簡単に生成できる時代に適応する必要があるだろう(※訳注4)。「写真か、それとも何もなかったか」(※訳注5)とよく言われるようになったように、音声のディープフェイクが急増するにつれて、「(音声がオリジナルであることの)署名か、それがなければ本物ではないか」という言い回しが登場するかもしれない。健全な懐疑心が必要となるだろう。
Voice Engineを一般公開するために必要な4つの社会改革
|
この記事はGenerative AIに掲載されていいます。LinkedInで私たちとつながり、Zeniteqをフォローして、最新のAIストーリーを入手しよう。そして、AIの未来を一緒に作っていこう!
原文
『OpenAI’s New AI Voice Model Can Dangerously Clone Anyone’s Voice』
著者
ジム・クライブ・モンジュ(Jim Clyde Monge)
翻訳
吉本 幸記(フリーライター、JDLA Deep Learning for GENERAL 2019 #1、生成AIパスポート、JDLA Generative AI Test 2023 #2取得)
編集
おざけん