2D画像から3Dモデルを高速で生成するオープンソースソフトウェア「CUMVS」

引用

2025.03.15


2D画像から3Dモデルを高速に生成するためのオープンソースソフトウェア
CUMVS(cuda-multi-view-stereo)」が…

Apache License 2.0のもとで公開中です。

NVIDIA GPUに最適化されているらしい…

ソースコードは… https://github.com/fixstars/cuda-multi-view-stereo

私は…NVIDIA GPU PCは持っていないので…いじってはいませんが…

日本でも…3D生成AIの実用化が…

もう…そこまで来ているのかな…と。

CUMVSの特徴

  • 高速処理: CUMVSは、Multi-View Stereo(MVS)技術を利用しており、複数の視点から得られた2D画像を基に、被写体の3Dモデルを迅速に生成します。従来のMVS処理と比較して、CUMVSは処理速度を5倍以上向上させています。具体的には、ACMM(Adaptive Cost Minimum Path Matching)アルゴリズムと比較して、処理時間を大幅に短縮しています。
  • 技術的最適化: CUMVSは、PatchMatchアルゴリズムを基にしており、NVIDIA GPUの特性を活かすために設計されています。これにより、Warp Divergenceの防止や、共有メモリ、テクスチャユニットの活用が実現されています。また、Homography変換などの重い処理を軽量化する工夫も施されています。
  • 用途: CUMVSは、デジタルツインの構築、文化遺産のデジタル保存、建築や都市計画のシミュレーション、さらにはカスタム医療機器の設計など、さまざまな分野での応用が期待されています。

まとめ

CUMVSは、2D画像から高精細な3Dモデルを迅速に生成するための強力なツールであり、特にNVIDIAのGPUを活用することで、その処理速度と効率を大幅に向上させています。これにより、研究者や開発者はより複雑なモデルを迅速に処理し、革新的なアプリケーションを効率的に開発することが可能になります。

by Felo

Fluxにて生成

複雑な動きやシーンをリアルに再現…動画生成AI「Wan 2.1」

引用

2025.03.09

アリババが開発した…オープンソースAIモデル…

画像および動画生成AI「Wan 2.1」…

複雑な動きやシーンをリアルに再現する能力に優れているらしい…

GitHub https://github.com/Wan-Video/Wan2.1

Hugging Face https://huggingface.co/Wan-AI

なんだか…中国ばかりですね…

Fluxにて生成

Wan 2.1の主な特徴

  • オープンソース: Wan 2.1はオープンソースとして公開されており、誰でも利用可能です。これにより、学生や研究者、企業などがこの技術を活用しやすくなっています。
  • 多言語対応: このモデルは、中国語と英語の両方のテキストを理解し、動画生成に活用できるため、国際的なユーザーにとって非常に便利です。
  • 高品質な動画生成: Wan 2.1は、1080Pや720Pの解像度で動画を生成でき、特にマルチオブジェクトインタラクションや複雑な視覚効果において優れたパフォーマンスを発揮します。
  • 多様なモデルバリエーション: アリババは、Wan 2.1の一部として、T2V-1.3B、T2V-14B、I2V-14B-720P、I2V-14B-480Pの4つのモデルをリリースしました。これらのモデルは、異なるパラメーター数を持ち、さまざまな用途に応じた動画生成が可能です。
  • ユーザーフレンドリーなインターフェース: Wan 2.1は、直感的なインターフェースを備えており、技術的なスキルがないユーザーでも簡単にプロフェッショナルな動画を作成できます。

今後の展望

アリババは、AIとクラウドコンピューティングに対して大規模な投資を行っており、Wan 2.1はその一環として位置付けられています。今後、さらなる機能追加や改善が期待されており、特に音声の追加や動画編集の簡素化などが考えられています。

このように、Wan 2.1は、クリエイティブなコンテンツ制作を支援するための強力なツールであり、AI技術の進化を象徴する存在となっています。

by Felo

Fluxにて生成

映画やテレビで訓練された動画生成AI「SkyReels V1」

引用

2025.03.09

中国発…映画やテレビのデータを用いて訓練された…

リアルな動きや自然な表情を持つ映像を作成することができる…

オープンソースプラットフォーム動画生成AI「SkyReels V1」…

GitHub https://github.com/SkyworkAI/SkyReels-V1

Hugging Face https://huggingface.co/collections/Skywork/skyreels-v1-67b34676ff65b4ec02d16307

映画やテレビのデータって…

中国発だけに…権利の問題とか…クリアしてるのかな?

Fluxにて生成

主な特徴

  • 多様な入力形式: SkyReels V1は、テキスト、画像、動画を入力として受け付け、これらを基に動画を生成します。これにより、ユーザーはさまざまなコンテンツを簡単に動画化できます。
  • 高い表現力: このモデルは、33種類の異なる顔の表情を認識し、400以上の自然な動きの組み合わせを生成する能力を持っています。これにより、感情を正確に伝えることができ、視覚的なリアリズムが向上します。
  • シネマティックな品質: SkyReels V1は、プロフェッショナルな映像制作に必要な照明やカメラアングルを考慮しており、広告や短編映画などの高品質なプロジェクトに適しています。
  • オープンソースの利点: SkyReels V1はオープンソースであり、誰でも利用できるため、コミュニティの協力によってさらなる革新が期待されています。これにより、ユーザーは独自のカスタマイズや改善を行うことが可能です。

利用方法

  1. 画像の生成またはアップロード: SkyReels V1モデルを選択し、生成したい画像を用意します。
  2. 動画の生成: 「生成」ボタンをクリックすることで、選択した入力に基づいて動画が作成されます。

このように、SkyReels V1は、AIを活用した動画制作の新たな可能性を提供しており、特に映像制作において高い評価を得ています。

by Felo

Fluxにて生成

3D空間でオブジェクトやカメラを操作!?動画生成AI「CineMaster」

引用

2025.03.02

中国発…動画生成AI「CineMaster

3D空間内でのオブジェクトやカメラの操作に特化しているらしい…

もはや…生成AI先進国は…「中国」なのかな…。

DeepSeek(セキュリティが怪しい?と言われ続けている…)も…

凄いみたいだし…(私は触っていません…。)

↓ 「CineMaster」は…こんな事ができる!? ↓

https://cinemaster-dev.github.io/ より
https://cinemaster-dev.github.io/ より
https://cinemaster-dev.github.io/ より

プロジェクトページ:https://cinemaster-dev.github.io/

CineMasterの主な特徴

  • 3D空間の操作: CineMasterは、ユーザーが3D空間内でオブジェクトの配置やカメラの動きを自由に操作できる機能を提供します。これにより、シーンの構成や動的なカメラワークを直感的に計画することができます。
  • テキストから動画への生成: ユーザーは、テキストの指示に基づいて動画を生成することができ、AIがその指示を解釈して高品質な映像を作成します。このプロセスは、ユーザーが設定した条件に基づいて行われ、生成される動画は視覚的に高い忠実度を持っています。
  • インタラクティブなインターフェース: CineMasterは、オブジェクトの配置やカメラの動きを計画するためのインタラクティブなインターフェースを提供しており、ユーザーは直感的に操作できます。これにより、初心者でも比較的簡単に高品質な動画を制作することが可能です。
  • プロフェッショナル向けの機能: CineMasterは、プロフェッショナルな動画制作にも対応しており、ビジネスプレゼンテーションやマーケティングキャンペーンなど、さまざまな用途に利用できます。自動字幕生成やシーン検出などの高度な編集機能も備えています。

by Felo

Fluxにて生成

広告・マーケティング活用に期待!?動画生成AI「Goku」「Goku+」

引用

2025.02.22

ByteDanceと香港大学の共同開発により発表された…

動画生成AI「Goku」とその進化版「Goku+

テキストや画像から高品質な動画を生成する能力を持ち…

特に広告やマーケティングの分野での利用が期待されている…。

広告シナリオに特化した機能が追加されている!?との事…。

↑ プロジェクトページ:https://saiyan-world.github.io/goku より抜粋

Fluxにて生成

Goku AIの特徴

  • 高解像度動画生成: Gokuは、テキストや画像を基にした動画生成において、業界最高水準の性能を誇ります。特に、人物の自然な動きや表情をリアルに再現することが可能です。
  • 長尺動画の生成: Gokuは、20秒以上の長尺動画を生成できる能力を持ち、商品プロモーションやカスタマーサービス用の説明動画など、様々なビジネスシーンでの活用が見込まれています。
  • コスト削減: 従来の動画制作コストを100分の1に削減できるとされ、特にデジタルマーケティングやクリエイティブ制作において、効率的なコンテンツ生成が可能です。

Goku+の進化

  • 商業コンテンツ向けの最適化: Goku+は、Gokuを基にさらに強化されたモデルで、特に広告シナリオに特化した機能が追加されています。これにより、人物と商品の相互作用を最適化し、より効果的なマーケティングコンテンツを生成することができます。
  • 直感的なインターフェース: Goku+は、ユーザーがテキストや画像を入力するだけで自動的に動画を生成する直感的なインターフェースを提供し、使いやすさが向上しています。

技術的背景

  • Rectified Flow Transformer: Gokuシリーズは、革新的なRectified Flow Transformerアーキテクチャを採用しており、これにより高解像度かつスムーズなアニメーションを実現しています。
  • 大規模な学習データ: Gokuは、3600万本の動画と1.6億枚の画像を用いた大規模な学習を行っており、これが高品質な動画生成の基盤となっています。

GokuとGoku+は、AIによる動画生成の新たな可能性を切り開く技術として、今後のデジタルコンテンツ制作において重要な役割を果たすことが期待されています。

by Felo

Fluxにて生成