風景画像から想像できる音声をAIで選択｜「Imaginary Soundscape」最新版が公開

AIの活用による創造性の発展に取り組む株式会社Qosmo（本社：東京都目黒区、代表取締役社長：徳井直生、以下「コズモ」）は、マルチモーダル深層学習技術を応用した自社アルゴリズムを活用し、入力された画像に適切なサウンドクリップを見つけてくれるウェブサービス、『Imaginary Soundscape』（イマジナリー・サウンドスケープ）の最新バージョンを日英両言語にて無料公開しました。また、本サービスのコア技術である「Img2Sound(イメージtoサウンド)」エンジンのライセンス提供を開始しました。
・Imaginary Soundscape ウェブサイト：https://www.imaginarysoundscape.net/

写真：Imaginary Soundscape サイトトップページ

Imaginary Soundscapeとは
人は海辺の写真からはさざなみの音を、渋谷のスクランブル交差点の写真からは信号の音など、その場にいたら聞こえるであろう音を想像することがあります。本プロジェクトは、そのように人が無意識に想像する行為を、AIを使って外部化したウェブサービスです。
ユーザーが選択した画像に基づき、6万個以上のサウンドクリップを含む音声ライブラリの中からAIが最も合っている音を選び出します。また、Googleストリートビューモードでは、世界中のどこでも好きな場所を歩き回りながら、AIがその場で「想像した」サウンドスケープを体感することができます。Imaginary Soundscapeは2017年の開始以降高い注目を集め、これまでに全世界から50万人近くのユーザーに使用されています。

ストリートビューの写真に合った環境音を見つけてくれるGoogleストリートビューモード

最新版でアップデートされた機能
今回のアップデートでは、モデル精度の向上、音声データベースの拡充、UIの向上の3つの変更が加えられました。識別モデルをベースにしたモデルから、コントラスティブ学習によるマルチモーダルなモデルに変更しました。また、マッチングの対象となるサウンドデータのライブラリを大幅に拡充しています。これにより、今までより多様なニュアンスに対してマッチングの感度を高めることができました。

また、初めて利用するユーザーにも親しみやすいようにインターフェースを向上し、これまでの英語表記に加え、日本語の翻訳も付け加えました。

「Img2Sound(イメージtoサウンド)」エンジンのライセンス提供
この度の新バージョンのリリースにより、本技術の完成度が一定水準に達したことを受け、Imaginary Soundscapeのコア技術である「Img2Sound(イメージtoサウンド)」エンジンのライセンス提供を開始しました。

Img2Soundエンジンは、深層学習アルゴリズムによって構築された画像と音声のそれぞれを、多次元の抽象的なベクトル表現に置き換えるための事前学習モデルから構成されます。関連性の高い画像と音声がマッチングされるよう、この2つのベクトル空間をコントラスティブ学習（Contrastive Learning）と言われる手法を応用した比較学習を行うことで、異なる2種類のモダリティー（ここでは画像と音）の類似性を定量化することを可能にしています。本技術はテキストと音、ビデオと音、など様々な種類のメディアを関連付ける事ができる応用性の高い技術となっており、これまでにも弊社ではクライアント企業様の製品・サービス・プロジェクトへのマルチモーダルAI技術の導入支援を行ってきました。

・Imaginary Soundscape 技術解説ページ（旧バージョン技術に関してのみ記載、近日アップデート予定）：https://qosmo.jp/projects/imaginarysoundscape/

図：Img2Sound(イメージtoサウンド)システム概念図

過去の作品展示・受賞履歴

2017年12月
深層学習に関する有力な国際会議
NeurIPS: Machine Learning for Creativity and Designに論文が採択
2018年2月
Media Ambition Tokyo 2018にて“Imaginary Soundwalk” を出展
※本ウェブサービスの仕組みを応用したサウンドインスタレーション
2018年10月
「Experiments with Google — AI Experiments」に掲載
2018年12月
「Favorite Website Award (FWA) Site of the day」を受賞