4096×4096ピクセルの高解像度画像を数秒以内に生成できる「Sana」

2024.10.18

最大4096×4096ピクセルの高解像度画像を数秒以内に生成できる能力を持つ…

テキストから高品質な画像を生成することに特化した…

最新の画像生成AI「Sana」が発表された…。

4096×4096ピクセルって…

1024×1024ピクセルの画像をわずか0.9秒で生成することができるって…

こうなってくると…どうなっちゃうんだ???

Flux 1.1にて生成
Flux 1.1にて生成
https://nvlabs.github.io/Sana/

Sanaの技術的な特徴として、従来のオートエンコーダーと異なり、最大32倍圧縮可能なオートエンコーダーを使用しており、これにより効率的なトレーニングと高解像度画像の生成が実現されています。また、Gemmaという言語モデルをデコーダー専用に利用することで、プロンプトの理解力と推論能力が向上しています。このアプローチにより、従来のT5モデルよりも優れたテキスト理解力を持ち、画像とテキストのアライメントが改善されています。

さらに、Sanaはサンプリングステップを削減するために「Flow-DPM-Solver」を導入しており、この結果、サンプリングステップの数が大幅に減少し、効率的なキャプションラベリングと選択が可能になっています。具体的には、4096×4096ピクセルの画像を15.9秒で生成できる一方で、1024×1024ピクセルの画像は1秒未満で生成できます1

Sanaはその性能から、多くの企業や開発者に注目されており、比較的低スペックのコンピュータでも動作可能です。これにより、高速かつ高品質な画像生成が求められるさまざまな分野で活用されることが期待されています。

by Genspark