2024.11.04
一枚の写真から異なるポーズや背景を持つ同一人物の画像を生成したり…
二つの異なる写真からそれぞれ写っている人物を選択し…一つの新しい画像として合成できる…
単一のモデルで多様な画像生成タスクを実行できるマルチモーダル画像生成AI「OmniGen」
GitHub https://github.com/VectorSpaceLab/OmniGen ↓↓↓の画像を見ると分かり易いですね..。

HuggingFaceのSpacesでいじれるみたい… https://huggingface.co/spaces/Shitao/OmniGen
時間のある時にいじってみたいと思います…。

OmniGenの概要
OmniGenは、マルチモーダル画像生成AIであり、ユーザーがテキストプロンプトや画像参照を用いて画像を生成・編集できる統一的なモデルです。このモデルは、従来の画像生成技術の複雑さを排除し、シンプルで柔軟な操作を可能にしています。
主な機能
- 統一モデル: OmniGenは、ControlNetやIP-Adapterなどの追加モジュールを必要とせず、単一のモデルで多様な生成作業を実行できます。これにより、ユーザーは複雑な前処理を行うことなく、画像を生成できます。
- マルチモーダル入力: ユーザーはテキストプロンプトだけでなく、最大3つの画像を参照としてアップロードすることができ、これらの要素を組み合わせて新しい画像を生成できます。例えば、特定の属性を持つ画像を生成する際に、参照画像の特徴をプロンプトに含めることが可能です。
- 画像編集機能: 既存の画像を簡単に修正することができ、ユーザーはプロンプトを通じて具体的な変更を指定することで、迅速に画像を調整できます。これにより、複雑な手順を踏まずに望む結果を得ることができます。
使用方法
OmniGenは、以下のような手順で使用できます:
- インストール: GitHubからリポジトリをクローンし、必要なパッケージをインストールします。
git clone https://github.com/staoxiao/OmniGen.git cd OmniGen pip install -e .
- 画像生成: テキストプロンプトを用いて画像を生成することができます。
from OmniGen import OmniGenPipeline pipe = OmniGenPipeline.from_pretrained("Shitao/OmniGen-v1") images = pipe(prompt="A curly-haired man in a red shirt is drinking tea.", height=1024, width=1024) images[0].save("example_t2i.png")
- マルチモーダル生成: 画像参照を用いた生成も可能です。
images = pipe(prompt="A man in a black shirt is reading a book. The man is the right man in <img><|image_1|></img>.", input_images=["./imgs/test_cases/two_man.jpg"], height=1024, width=1024) images[0].save("example_ti2i.png")

by Felo

New Posts: