アプローチが新しい!?マルチモーダル画像生成AI「OmniGen」

2024.11.04

一枚の写真から異なるポーズや背景を持つ同一人物の画像を生成したり…

二つの異なる写真からそれぞれ写っている人物を選択し…一つの新しい画像として合成できる…

単一のモデルで多様な画像生成タスクを実行できるマルチモーダル画像生成AI「OmniGen

GitHub https://github.com/VectorSpaceLab/OmniGen ↓↓↓の画像を見ると分かり易いですね..。

HuggingFaceのSpacesでいじれるみたい… https://huggingface.co/spaces/Shitao/OmniGen

時間のある時にいじってみたいと思います…。

Flux Pro 1.1にて生成

OmniGenの概要

OmniGenは、マルチモーダル画像生成AIであり、ユーザーがテキストプロンプトや画像参照を用いて画像を生成・編集できる統一的なモデルです。このモデルは、従来の画像生成技術の複雑さを排除し、シンプルで柔軟な操作を可能にしています。

主な機能

  • 統一モデル: OmniGenは、ControlNetやIP-Adapterなどの追加モジュールを必要とせず、単一のモデルで多様な生成作業を実行できます。これにより、ユーザーは複雑な前処理を行うことなく、画像を生成できます。
  • マルチモーダル入力: ユーザーはテキストプロンプトだけでなく、最大3つの画像を参照としてアップロードすることができ、これらの要素を組み合わせて新しい画像を生成できます。例えば、特定の属性を持つ画像を生成する際に、参照画像の特徴をプロンプトに含めることが可能です。
  • 画像編集機能: 既存の画像を簡単に修正することができ、ユーザーはプロンプトを通じて具体的な変更を指定することで、迅速に画像を調整できます。これにより、複雑な手順を踏まずに望む結果を得ることができます。

使用方法

OmniGenは、以下のような手順で使用できます:

  1. インストール: GitHubからリポジトリをクローンし、必要なパッケージをインストールします。 git clone https://github.com/staoxiao/OmniGen.git cd OmniGen pip install -e .
  2. 画像生成: テキストプロンプトを用いて画像を生成することができます。 from OmniGen import OmniGenPipeline pipe = OmniGenPipeline.from_pretrained("Shitao/OmniGen-v1") images = pipe(prompt="A curly-haired man in a red shirt is drinking tea.", height=1024, width=1024) images[0].save("example_t2i.png")
  3. マルチモーダル生成: 画像参照を用いた生成も可能です。 images = pipe(prompt="A man in a black shirt is reading a book. The man is the right man in <img><|image_1|></img>.", input_images=["./imgs/test_cases/two_man.jpg"], height=1024, width=1024) images[0].save("example_ti2i.png")

by Felo

Midjourneyにて生成

New Posts: