複数の異なる画像に写る人や物を整合性をとって1枚の画像に統合「UNO」

2025.04.22

ByteDanceが開発した..画像生成AIフレームワーク「UNO
と言っても…あの?カードゲームじゃないですよ!
複数の対象を含む画像生成において…一貫性と制御性を提供することができる…。

プロジェクトページ:https://bytedance.github.io/UNO/ をみると…↓↓↓

このニーズは高いでしょうね!

例えば…2枚の異なる画像に写る人や物を…
整合性をとって1枚の画像に統合して生成してくれるわけで…

便利!便利!

GitHub:https://github.com/bytedance/UNO
DEMO:https://huggingface.co/spaces/bytedance-research/UNO-FLUX

Midjourneyにて生成

主な特徴

  • Less-to-More Generalization: UNOの中心的な概念であり、単一の対象から複数の対象への生成能力を拡張します。このアプローチにより、ユーザーは複雑なシーンでも対象の特性を維持しながら画像を生成できます。
  • 進化したデータ合成パイプライン: UNOは、高一貫性データ合成プロセスを利用しており、これにより複数の対象を含む画像でも一貫した外観を保つことができます。特に、Diffusion Transformers(拡散変換器)の能力を活用して、生成されたデータの一貫性を高めています。
  • プログレッシブクロスモーダルアライメント: この技術は、単一対象のデータを使用してモデルを微調整し、その後、複数対象のデータペアでさらにトレーニングを行う二段階のアプローチを採用しています。これにより、複雑なシーンにおける生成能力が向上します。
  • ユニバーサルロータリーポジションエンコーディング(UnoPE): この位置エンコーディング技術は、視覚的な対象制御を拡張する際の属性混乱の問題を解決します。これにより、モデルは複数の対象の特性を正確に維持できます。

応用例

UNOは、以下のようなさまざまな用途に適用可能です:

  • マルチ対象カスタマイズ生成: 複数の特定のオブジェクトを同じシーンに配置し、それぞれの特性を維持することができます。
  • バーチャル試着や商品展示: 特定の製品やサービスを異なる環境で表示することが可能です。
  • ブランドカスタマイズコンテンツ: ブランド要素をさまざまなシーンに統合し、ブランドの一貫性を保ちながら生成します。

結論

UNOは、生成AIの分野において新たな基準を打ち立てる技術であり、特に複数の対象を扱う際の一貫性と制御性を大幅に向上させることが期待されています。このフレームワークは、クリエイターにとってより柔軟で強力なツールを提供し、複雑なビジュアルコンテンツの制作を可能にします。

by Felo

Midjourneyにて生成

New Posts: