最終更新日:
世界的に広く利用されているSNS「Facebook」や「Instagram」などを運営している米国の大手IT企業「Meta Platforms(旧Facebook, Inc)」は米国時間8月1日、テキストから「質の高いリアルな」音楽を生成できる生成人工知能(AI)ツール「AudioCraft」を発表した。
このツールは『Facebook』ユーザーが利用可能となっていて、インストールには、少なくとも16GBのメモリを備えるGPU、Python 3.9、PyTorch 2.0.0が必要である。
AudioCraftは以下の3つの生成AIモデルで構成されている。
- MusicGen:テキストから音楽を生成
- AudioGen:プロンプトから音声を生成
- EnCodec:より高い音声クオリティの音楽生成
Metaは、研究者や一般ユーザーが独自のデータセットを使ってこのモデルをトレーニングできるようにすることでさらに性能を向上させ、生成AIによる音楽生成の発展に貢献することを目的としてこれらのモデルをオープンソース化している。
MusicGenは単体で6月にオープンソース化されており、Metaは自社が所有する音楽と、「この目的のために特別にライセンスを取得した音楽」のあわせて2万時間分のデータでトレーニングしたと述べている。
EnCodecは昨年11月に公開されていたが、その後の改良で最近ではより精度が上がっている。