曲に合わせ画像が唄う!?…動画生成AI「OmniHuman-1」

2025.02.16

ByteDanceが開発した…「OmniHuman-1

https://omnihuman-lab.github.io

画像やキャラクターを…唄わせたり…喋らせたり…できるらしい…。

https://omnihuman-lab.github.io
https://omnihuman-lab.github.io

Omni=全ての・全能の Human=人・人類 とは….

フェイクが…溢れる世の中かぁ…

ちなみに…「OmniHuman」でFluxで画像生成してみたら…

Fluxにて生成

OmniHuman-1の概要

OmniHuman-1は、ByteDanceが開発した先進的なAIフレームワークで、単一の画像から非常にリアルな人間の動画を生成することができます。この技術は、音声や他の動画信号を組み合わせることで、自然な動きや表情を持つ動画をリアルタイムで生成することが可能です。

主な機能と特徴

  • マルチモーダル入力: OmniHuman-1は、画像と音声などの異なる入力を組み合わせて、リアルな動画を生成します。これにより、ユーザーは単一の画像を提供するだけで、動きや口の動きが同期した動画を得ることができます。
  • 高品質な出力: このモデルは、非常に高い解像度と少ないグリッチで動画を生成する能力を持ち、特に音声に基づく生成において優れたパフォーマンスを発揮します。
  • リアルな表現: OmniHuman-1は、18,700時間以上の人間の動画データで訓練されており、非常にリアルな動きや表情を再現することができます。これにより、政治的なディープフェイクや偽情報の生成に対する懸念も高まっています。

技術的進化と影響

OmniHuman-1は、従来のモデルが数百または数千の画像を必要とするのに対し、たった一枚の画像からリアルな動画を生成できる点で革新的です。この技術の進展は、コンテンツ制作のハードルを大幅に下げる可能性があり、特にTikTokのクリエイターが自身のバーチャルアバターを生成して使用することで、より多様なコンテンツを生み出すことが期待されています。

倫理的懸念

この技術の進展には、ディープフェイク技術の悪用に関する懸念も伴います。専門家は、政治的な偽情報やアイデンティティの盗用など、悪用のリスクが高まると警告しています。ByteDanceは、技術が一般公開される際には、悪影響を防ぐための厳格な安全策を講じるとしています。

OmniHuman-1は、AIによる動画生成の新たな可能性を切り開く一方で、その利用に関する倫理的な議論も引き起こしています。

by Felo

Fluxにて生成

New Posts: