アプローチが新しい!?マルチモーダル画像生成AI「OmniGen」

2024.11.04

一枚の写真から異なるポーズや背景を持つ同一人物の画像を生成したり…

二つの異なる写真からそれぞれ写っている人物を選択し…一つの新しい画像として合成できる…

単一のモデルで多様な画像生成タスクを実行できるマルチモーダル画像生成AI「OmniGen

GitHub https://github.com/VectorSpaceLab/OmniGen ↓↓↓の画像を見ると分かり易いですね..。

HuggingFaceのSpacesでいじれるみたい… https://huggingface.co/spaces/Shitao/OmniGen

時間のある時にいじってみたいと思います…。

Flux Pro 1.1にて生成

OmniGenの概要

OmniGenは、マルチモーダル画像生成AIであり、ユーザーがテキストプロンプトや画像参照を用いて画像を生成・編集できる統一的なモデルです。このモデルは、従来の画像生成技術の複雑さを排除し、シンプルで柔軟な操作を可能にしています。

主な機能

  • 統一モデル: OmniGenは、ControlNetやIP-Adapterなどの追加モジュールを必要とせず、単一のモデルで多様な生成作業を実行できます。これにより、ユーザーは複雑な前処理を行うことなく、画像を生成できます。
  • マルチモーダル入力: ユーザーはテキストプロンプトだけでなく、最大3つの画像を参照としてアップロードすることができ、これらの要素を組み合わせて新しい画像を生成できます。例えば、特定の属性を持つ画像を生成する際に、参照画像の特徴をプロンプトに含めることが可能です。
  • 画像編集機能: 既存の画像を簡単に修正することができ、ユーザーはプロンプトを通じて具体的な変更を指定することで、迅速に画像を調整できます。これにより、複雑な手順を踏まずに望む結果を得ることができます。

使用方法

OmniGenは、以下のような手順で使用できます:

  1. インストール: GitHubからリポジトリをクローンし、必要なパッケージをインストールします。 git clone https://github.com/staoxiao/OmniGen.git cd OmniGen pip install -e .
  2. 画像生成: テキストプロンプトを用いて画像を生成することができます。 from OmniGen import OmniGenPipeline pipe = OmniGenPipeline.from_pretrained("Shitao/OmniGen-v1") images = pipe(prompt="A curly-haired man in a red shirt is drinking tea.", height=1024, width=1024) images[0].save("example_t2i.png")
  3. マルチモーダル生成: 画像参照を用いた生成も可能です。 images = pipe(prompt="A man in a black shirt is reading a book. The man is the right man in <img><|image_1|></img>.", input_images=["./imgs/test_cases/two_man.jpg"], height=1024, width=1024) images[0].save("example_ti2i.png")

by Felo

Midjourneyにて生成

New Posts:
動画生成AI「Sora」一般提供開始 → 新規登録を即日停止
Googleの動画生成モデル「Veo」が使える!?
Googleの3D空間環境生成AI「Genie 2」
テキストや画像から高品質な3Dモデルを迅速に生成する「Edify 3D」
新たな脅威...ビジュアルプロンプトインジェクション攻撃とは...
Dream Machine サイトリニューアル
人物画像生成特化型AI「FLUX Portrait Trainer」
「FLUX1.1 Pro」で使える...「FLUX.1 Tools」登場
1枚の画像から空間を生成!?「DimensionX」
AI生成された画像からプロンプトを抽出する...
最高性能?のアップスケール画像生成AI「DreamClear」
生成AI検索に移行する中...Google Search Consoleに意味はあるのか?
プロンプトキャッシングって?
GitHub Copilotってなに?
Runway Gen-3 Alphaの進化...
実写動画を3DCGアニメーションに変換「Wonder Animation」
Adobe Firefly Generate Video...まもなく...
プログラミング知識不要でAIアプリケーション開発できる「Dify」
コンピューターを操作することができる生成AI「Claude 3.5 Sonnet」
Midjourney...新外部画像エディターについて
Haiper 2.0...登場!
3種のStable Diffusion 3.5 リリース
高品質な短編動画を効率的に生成する動画生成AI「Pyramid Flow」
文書、テキスト、画像などを構造化データに変換するOmniAIのOCRデモ
イチゴが苦手な!?大規模言語モデル(LLM)
電子インボイス国際的標準規格「Peppol」
MidjourneyのWeb画像エディターが新しくなる?
画像から音楽を生成するSuno AI「Scene」
4096×4096ピクセルの高解像度画像を数秒以内に生成できる「Sana」
Adobeの2024年10月14日リリースから「Adobe Firefly Video Model」「Project Neo」
Geminiで画像生成AI「Imagen 3」が使えるように!
Adobe...デジタル署名?発表
生成AI×スマートグラス=個人情報丸見え!?
画像から高解像度3D深度マップを高速生成「Depth Pro」
開発者向けの生成AIプラットフォーム「fal.ai」
人間やキャラクターを動画に合成できるビデオ合成AI「MIMO」
Meta 新しいAI動画生成モデル「Movie Gen」発表
TikTokのByteDance 動画生成AI「Doubao」シリーズ発表
動画生成AI「Pika 1.5 」リリース!
生成AI検索に対応した要約しやすいWebサイトとは?
日本語性能世界一LLM「Takane」提供開始
Gmailに返信メール生成AI搭載...
代わりに電話をかけてくれるAIサービス
多様な画像生成タスクを統合「OmniGen」
人に説明するのも...生成AIに指示を出すのも...
もはや...作業や処理は生成AIに任せ方が...
日本人には縁遠い?「Llama」がアップデート
より人間らしく…「Advanced Voice Mode」公開
AIで「縁結び」スタート...東京都
「生成AIガチャ」と言われる段階で...
詐欺メールの削除から始まる日常
フリーランス保護新法 施行で...単価が上がる?
「MemoRAG」が生成AIを進化させる
図解生成AI「Napkin」が日本語に対応
1080p HDに対応したKLING 1.5
YouTubeがVeoを統合...6秒の動画生成が可能に
Adobe Premiereが最強になる日?
SUNO ベータ版 新機能「Covers」
主なリップシンク生成AIサービス
ブレインストーミングが一人で出来ちゃう...