Google DeepMindの新しいV2Aツールは、AI生成ムービーのパズルの最後のピースとなるかもしれない

AI 生成ビデオが初めてリリースされたとき、ビデオ生成 AI ツールがこれほど短期間でここまで進化するとは誰も予想できませんでした。しかし、今日では Synthesia や Luma AI の Dream Machine など、高品質で非常に詳細なビデオをユーザーが生成できるプラットフォームが数多くあります。とはいえ、これらのツールが主流になるのを妨げる課題がまだいくつかあります。

そしておそらく最も大きな問題は、オーディオ生成プロセスです。ほとんどのビデオ生成プラットフォームは高品質のビデオを作成できますが、そのほとんどは音声のない無音のビデオです。音声があっても、通常は別途追加されるため、ユーザーの期待に応えられません。

たとえば、Luma AI の Dream Machine ページにアクセスすると、非常に印象的なビデオがいくつか表示されますが、それに付随するサウンドは非常に一般的で低品質です。しかし、Google の新しいビデオからオーディオへの変換 (V2A) テクノロジーによって、この状況は変わりつつあるかもしれません。

これにより、高品質のビデオ用オーディオ生成が一般向けに提供されることが期待されます。つまり、最終的に適切なサウンドトラックとオーディオを備えた AI 生成ムービーを制作できるようになり、現在制作されているすべての AI 生成ビデオを上回る可能性があります。

AI生成オーディオ

https://www.youtube.com/watch?v=VYjZlF6m3nQ

Google DeepMind のビデオからオーディオへの研究とは何ですか?

Google の DeepMind が開発したビデオ ツー オーディオ (V2A) テクノロジは、AI 生成ビデオのサウンドトラックを作成するように設計されています。このテクノロジにより、自然言語プロンプトとビデオ ピクセルを組み合わせて、ビデオ内で行われているアクションのサウンドを生成することで、ビデオとオーディオを同時に生成できるようになります。

この技術は、Veo などのビデオ生成に使用される AI モデルと組み合わせることができ、ビデオにマッチしたドラマチックな音楽とともに、リアルな会話や効果音を作成するのに役立ちます。さらに重要なのは、新しい V2A 技術は AI を使用して生成されたビデオに限定されず、従来の方法で制作されたビデオのサウンドトラックを生成するためにも使用できることです。したがって、無声映画やアーカイブ資料などに使用できます。

V2A テクノロジーにより、ユーザーはビデオ用のサウンドトラックを無制限に生成でき、さらに肯定的および否定的なプロンプトを使用してサウンド生成プロセスをガイドし、必要なサウンドを簡単に取得できます。これにより柔軟性も高まり、さまざまな出力を試して、特定のビデオに最適なものを見つけることができます。

水中で脈打つクラゲの音声サンプル。出典: Google

https://www.youtube.com/watch?v=9Q0-t8D9XFI

V2A テクノロジーはどのように機能しますか?

Google によれば、同社は拡散ベースと自己回帰ベースの技術を実験し、前者がサウンド制作に最も適していることを発見したとのことです。この技術は、非常にリアルなサウンドを生み出し、ビデオを圧縮形式にエンコードすることで機能します。

その後、拡散モデルを使用して、自然言語プロンプトとビデオを頼りにビデオからランダムノイズを分離します。プロンプトは、ビデオと完全に同期したリアルなオーディオを生成するのに役立ちます。その後、オーディオをデコードし、オーディオ波形に変換してビデオと結合します。

Google の DeepMind は AI をトレーニングするためのより多くの情報を提供しました。これにより、ユーザーは音声生成プロセスを必要なサウンドに導くことができ、プラットフォームはより高品質のオーディオを生成できます。このような情報には、会話の書き起こしや AI が生成した注釈付きの詳細なサウンドの説明が含まれます。

このような情報に基づいてトレーニングされた V2A テクノロジーは、さまざまな視覚シーンを特定のオーディオ イベントに関連付けることができます。

V2A テクノロジーの仕組み。出典: Google

地平線上には何があるでしょうか?

DeepMind の V2A テクノロジーは、テキスト プロンプトを常に必要とせず、ビデオ ピクセルを理解できるため、他の V2A ソリューションよりもはるかに優れたパフォーマンスを発揮します。サウンド出力をビデオに合わせて手動で調整する必要もありません。ただし、このテクノロジーにはまだ一定の制限があり、Google はさらなる研究でこれを克服することを目指しています。

たとえば、生成されるオーディオの品質は、入力として使用されるビデオの品質に依存します。ビデオに歪みやアーティファクトがある場合、それらはトレーニングに含まれていないため AI モデルはそれらを理解できず、最終的にはオーディオ品質が低下します。

さらに、人間の会話が含まれる動画については、リップシンクの改善にも取り組んでいる。V2A 技術は、入力されたトランスクリプトを使用して音声を生成し、それを動画内の登場人物の唇の動きに合わせようとする。しかし、動画がトランスクリプトに依存していない場合、音声と唇の動きが一致しない。

オーディオ生成機能が向上したことで、AI モデルは見た目が印象的なだけでなく、音質も優れたビデオを生成できるようになります。Google はまた、AI を使用して生成されたすべてのコンテンツに透かしを入れる SynthID と V2A テクノロジーを統合しています。これにより、コンテンツの悪用を防ぎ、完全な安全性を確保できます。

さらに同社は、V2A 技術を一般公開する前に厳密にテストすると述べている。これまでのところ、Google が披露し、将来を約束していることから、この技術は AI 生成ビデオのオーディオ生成における大きな進歩になりそうだ。

コメントを残す

メールアドレスが公開されることはありません。 が付いている欄は必須項目です