最終更新日:
AIの活用で創造性の発展に取り組む株式会社Qosmo(コズモ)は、音楽・サウンド分野においてQosmoが蓄積してきたノウハウやアルゴリズムを用いた製品群「Qosmo Music and Sound AI」の新たなラインナップとして「Video2Music(ビデオtoミュージック)」の提供を開始しました。
「Video2Music」は、Qosmoが独自に開発した深層学習型AIモデルが、入力された動画の内容にあった曲の候補をリストアップしてくれる技術を使用していて、これまでに多くのビデオクリエイターが長い時間を費やしてきたBGMの選択を、AIが大幅に時間短縮してくれます。
選曲作業を大幅に短縮「Video2Music」
動画の雰囲気にピッタリなBGMや、特定のシーンで感情をうまく表現した楽曲を選曲するには、幅広い音楽に関する知識が必要です。また、映像に音楽が合っているかどうかは感覚的にしか評価できないため、個人個人による捉え方の差も大きく、多くの候補曲の中からさまざまな人の意見をもとに選曲を行う必要がありました。
そのため、これまでビデオディレクターやクリエイターたちは、BGMの選曲に多くの時間を費やしており、Qosmoのユーザーヒアリングによると、発表作品の中では数秒しか使われない音楽の選曲に数時間も費やしてしまうことが指摘されました。
Video2Musicは、ユーザーが動画をアップロードするだけで、瞬時に複数の選曲候補を見つけます。候補曲数は自由に決めることができ、それぞれの候補曲はマッチ度でランク付けされます。これらの候補曲には一定の類似性がある一方で、ある程度のばらつきも存在するため、最終的には制作者のセンスや意図も加味した選曲を行うことができるようになっています。
Video2Musicの特徴
Video2Musicには4つの特徴があります。
- Qosmoが独自に開発したAIモデルが、与えられた動画に「合った」音楽を対象音楽ライブラリーから短時間で抽出します。対象音楽のジャンルや形態などに制限はありません。
- 「ビデオ→音楽」に加えて「音楽→ビデオ」の検索もできるため、クロスメディア情報検索の実装によりUXを向上することができます。
- Qosmoの音楽検索アルゴリズムを合わせて使うことで、類似曲候補の提案など、幅広い検索サービスの構築が可能になります。
- Video2Musicは、APIもしくはオンプレ環境での実行が可能です。
Qosmoが独自に開発したAIモデル
時系列性のあるデータを解釈するのに優れた、「Transformer」という自然言語処理(NLP)モデを応用し、動画・音楽双方を相互に比較可能な潜在ベクトル値に変換します。
このアプローチを使い、オンライン上の動画コンテンツなどを入力データとして学習を行い、コントラスティブ学習という手法でモデル化することで、動画と音楽という異なる種類の情報の類似度を定量的に計算することができるようになりました。独自に開発したAIモデルは、既に幅広い入力動画・選択音楽に対応していますが、Qosmoでは追加のデータを使った再学習することで、特定用途における精度向上を行うこともにも対応可能です。