動画生成AI「Sora」一般提供開始 → 新規登録を即日停止

引用

2024.12.12

集中しすぎて…「Sora」の新規登録を即日停止…

登録再開にはしばらく時間が必要みたいですね…。

酷い話です…。


2024.12.10

OpenAIの動画生成AI「Sora」が…2024年12月9日…ついに!一般提供を開始した…

テキストや画像を入力することで…最大20秒の動画を生成することができる…。

昨日…Blogで紹介した…Googleの「Veoに続き…

動画生成AIが…益々熱く!?なってきた…

Flux Pro 1.1にて生成

Soraの主な機能

  • テキストから動画生成: ユーザーが入力したテキストに基づいて、リアルな動画を生成します。例えば、「夕暮れの公園で遊ぶ犬」といった指示を入力することで、そのシーンを忠実に再現した動画が作成されます。
  • 静止画からのアニメーション化: DALL-Eなどで生成した画像を動きのある映像に変換することが可能です。
  • 動画編集機能: 既存の動画に新たなエフェクトやシーンを追加したり、複数のクリップを結合することができます。

利用プランと料金

Soraは、OpenAIのChatGPT PlusおよびProプランのユーザー向けに提供されます。

  • ChatGPT Plus: 月額20ドルで、480p解像度の動画を毎月最大50本生成可能。
  • ChatGPT Pro: 月額200ドルで、1080p解像度の動画を毎月最大500本生成でき、動画の長さは最大20秒です。Proプランではウォーターマークなしで動画を生成することも可能です。

安全対策と利用制限

OpenAIは、Soraの利用にあたっていくつかの安全対策を講じています。18歳未満の利用を禁止し、生成された動画にはAIが生成したことを示す電子情報が埋め込まれます。また、性的な内容や特定の人物に関する動画の生成は制限されています。

by Felo

Midjourneyにて生成

Googleの動画生成モデル「Veo」が使える!?

引用

2024.12.09

Googleの…ビデオ生成モデル「Veo」と画像生成モデル「Imagen 3」が…

企業向けAIプラットフォームである「Vertex AI」上で…

来週から?(本当??)使えるように…

https://cloud.google.com/blog/products/ai-machine-learning/introducing-veo-and-imagen-3-on-vertex-ai/?hl=en

Flux Pro 1.1にて生成

Vertex AI…新しいビデオ「Veo」および画像生成「Imagen 3」モデルを発表

Veo: 高品質な動画生成

Veoは、Google DeepMindによって開発された初のAI動画生成モデルで、テキストや画像のプロンプトから高品質な動画を生成することができます。このモデルは、ユーザーがアップロードした画像やテキスト指示に基づいて、リアルな映像を作成します。具体的には、以下の機能があります:

  • 画像から動画の生成: 既存の画像を使用して、短い動画クリップを生成します。
  • テキストから動画の生成: テキストプロンプトのみで動画を作成することも可能です。
  • 一貫性のある映像: 人物や物体が自然に動く映像を生成し、視覚的な整合性を保ちます。

Veoは現在プライベートプレビュー中で、来週からはVertex AIの全ユーザーが利用できるようになります。

Imagen 3: 高品質な画像生成

Imagen 3は、シンプルなテキストプロンプトから写実的で高品質な画像を生成するモデルです。このモデルは、前バージョンに比べて以下の点で大幅に改善されています:

  • 詳細度と照明: よりリアルな画像を生成し、アーティファクトの削減が図られています。
  • ブランドスタイルの反映: 企業が独自のブランドスタイルやロゴを反映した画像を簡単に作成できるように設計されています。
  • 編集機能: 画像の一部を編集したり、背景を更新したりする機能も提供されます。

Imagen 3は、来週から全てのVertex AIユーザーに一般提供される予定です。

安全性と責任

両モデルは、GoogleのAI原則に従い、安全性と責任を重視して開発されています。具体的には、生成されたすべての画像と動画にはデジタル透かしが埋め込まれ、誤情報や誤帰属のリスクを軽減するための安全フィルターも搭載されています。

これらの新しいツールは、企業がコンテンツ制作を効率化し、よりパーソナライズされた体験を提供するための重要なステップとなるでしょう。


Vertex AIの登録方法

ステップ1: Google Cloudアカウントの作成

  1. Google Cloudにサインアップ: まだアカウントを持っていない場合は、Google Cloudの公式サイトで新しいアカウントを作成します。新規顧客には最大$300の無料クレジットが提供されます。
  2. プロジェクトの作成: Google Cloud Consoleにログインし、プロジェクトを作成します。プロジェクトは、Vertex AIを利用するための基本単位です。

ステップ2: Vertex AI APIの有効化

  1. APIの有効化: 作成したプロジェクト内でVertex AI APIを有効にします。これにより、Vertex AIの機能にアクセスできるようになります。
  2. 請求の設定: プロジェクトに請求情報を設定する必要があります。これにより、APIの使用に伴う料金が発生する場合に備えます。

ステップ3: Vertex AIの使用開始

  1. Vertex AIダッシュボードにアクセス: Google Cloud Consoleのメインメニューから「Vertex AI」を選択し、ダッシュボードに移動します。
  2. AIエージェントの作成: ダッシュボードから「新しいアプリケーションを作成」ボタンをクリックし、AIエージェントの作成を開始します。このプロセスでは、エージェントの目標や機能を設定します。
  3. モデルのトレーニングとデプロイ: Vertex AIでは、AutoMLやカスタムモデルを使用して、データをトレーニングし、モデルをデプロイすることができます。これにより、特定のビジネスニーズに応じたAIソリューションを構築できます。

ステップ4: モデルの管理

  1. モデルレジストリの利用: Vertex AI Model Registryを使用して、モデルのバージョン管理を行います。これにより、複数のモデルバージョンを作成し、整理することができます。
  2. MLOpsの実施: Vertex AIは、機械学習プロジェクトの自動化、標準化、管理を支援するMLOpsツールを提供しています。これにより、開発ライフサイクル全体を通じてモデルの改善が可能です。

これらのステップを踏むことで、Vertex AIを効果的に利用し、AIエージェントやモデルを構築することができます。

by Felo


Googleの3D空間環境生成AI「Genie 2」

引用

2024.12.08

1枚の画像から…最大1分の3D空間環境を生成でき…

キャラクターを自在に動かすことができる…「Genie 2」がリリースされた…。

↓を見ると…「ここまできたかぁ…」って感じです…。

残念ながら…現時点では一般公開の予定はないみたいですね…。

いじってみたい…。

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model

Flux Pro 1.1にて生成

「Genie 2」概要

Google DeepMindが発表した「Genie 2」は、単一の画像からインタラクティブな3D環境を生成する新しいAIモデルです。この技術は、ゲーム開発やAI研究において革新的な可能性を秘めています。Genie 2は、ユーザーがアップロードした画像やテキストから、最大1分間持続するプレイ可能な3Dワールドを作成します。

主な機能

  • インタラクティブな3D環境の生成: Genie 2は、物理シミュレーションや環境効果を取り入れたリアルな3D空間を生成します。ユーザーは、非プレイヤーキャラクター(NPC)や物体と相互作用しながら、環境を探索できます。
  • 多様な視点のサポート: 生成された環境は、一人称視点、三人称視点、アイソメトリックビューなど、さまざまな視点から体験可能です。
  • 持続的な環境: Genie 2が生成する3Dワールドは、ユーザーの行動に応じて変化し、次回のセッションでもその状態を保持します。これにより、ストーリーやゲームプレイの連続性が確保されます。
  • 高度な物理シミュレーション: 環境内では、重力や流体力学、衝突効果などがリアルにシミュレートされ、プレイヤーは物体を操作したり、NPCとインタラクションを行ったりできます。

技術的背景

Genie 2は、自己回帰型潜在拡散モデルに基づいており、大規模な動画データセットで訓練されています。このモデルは、入力された画像をもとにリアルタイムで3D環境を構築する能力を持っています。

応用可能性

この技術は、ゲーム開発の迅速なプロトタイピングを可能にし、開発者が静的なコンセプトアートやアイデアをすぐにプレイ可能なプロトタイプに変換することを助けます。また、AIのトレーニングやロボット工学の分野でも重要な役割を果たすと期待されています。

結論

GoogleのGenie 2は、単一の画像からインタラクティブな3Dワールドを生成する能力を持つ先進的なAIモデルであり、ゲーム開発やAI研究において新たな可能性を切り開く技術です。今後の進展が非常に楽しみです。

by Felo

Flux Pro 1.1にて生成

テキストや画像から高品質な3Dモデルを迅速に生成する「Edify 3D」

引用

2024.12.07

私のPC環境では…スペックが低すぎて使えないんですが…

すごく気になっている…「Edify 3D

https://research.nvidia.com/labs/dir/edify-3d

3D生成AI自体は…仕事で使うにはまだまだのクオリティ!?

でも…「Edify 3D」は…期待が持てそうですね…。

PC…買わないとだなぁ…。

Flux Pro 1.1にて生成

Edify 3Dの概要

Edify 3Dは、NVIDIAが開発した先進的なAIプラットフォームで、テキストや画像から高品質な3Dモデルを迅速に生成することができます。この技術は、特にゲーム開発、仮想現実(VR)、拡張現実(AR)、および小売業界での利用が期待されています。

主な機能と特徴

  • テキストから3Dモデルの生成: ユーザーは簡単なテキストプロンプトを入力することで、複雑な3Dオブジェクトを瞬時に生成できます。例えば、「ユニークなキノコの家」と入力すると、その説明に基づいた詳細な3Dモデルが作成されます。
  • 画像からの変換: Edify 3Dは、2D画像(スケッチや描画)を3Dモデルに変換する能力も持っています。これにより、アーティストやデザイナーは自分のアイデアを視覚化しやすくなります。
  • クワッドメッシュの生成: Edify 3Dは、四角形ポリゴンから構成されるクワッドメッシュを生成します。これにより、より滑らかで自然な形状を作成でき、アニメーションやデザインの修正が容易になります。
  • 迅速な生成時間: 高品質な3Dアセットは、わずか2分以内で生成されるため、デザイナーや開発者は短時間でプロトタイプを作成できます。

実際の応用例

Edify 3Dは、以下のような多様な分野での利用が進んでいます:

  • ゲーム開発: ゲームデザイナーは、迅速に3Dオブジェクトを生成し、ゲーム環境を構築することができます。
  • プロダクトデザイン: 企業は、製品の視覚化やプロトタイピングにEdify 3Dを活用しています。例えば、Mattelなどの玩具メーカーがこの技術を利用して新製品のデザインを行っています。
  • クリエイティブコンテンツ制作: アーティストやクリエイターは、Edify 3Dを使用して独自のビジュアルコンテンツを生成し、ブランドのニーズに合わせたカスタムビジュアルを作成しています。

Edify 3Dの使い方

NVIDIAのEdify 3Dは、テキストや画像から高品質な3Dモデルを生成するための強力なツールです。この技術は、従来の3Dモデリングプロセスを大幅に簡素化し、専門的なスキルがなくても誰でも利用できるように設計されています。以下に、Edify 3Dの基本的な使い方とその特徴を説明します。

基本的な使い方

  1. アカウント作成:
    • Edify 3Dを使用するには、まずNVIDIAのプラットフォームにアカウントを作成する必要があります。
  2. テキストまたは画像の入力:
    • ユーザーは、生成したい3Dモデルの説明をテキストで入力するか、参照画像をアップロードします。例えば、「スチームパンクのロボット亀」などの具体的な説明が可能です。
  3. モデル生成:
    • 入力されたテキストや画像に基づいて、Edify 3Dは数分以内に詳細な3Dモデルを生成します。このプロセスは、マルチビュー拡散モデルを使用して、異なる視点からの2D画像を生成し、それを基に3Dモデルを構築します。
  4. カスタマイズ:
    • 生成された3Dモデルは、必要に応じてさらにカスタマイズすることができます。Edify 3Dは、クアッドメッシュを使用しており、これによりモデルの編集が容易になります。
  5. エクスポート:
    • 完成した3Dモデルは、さまざまなフォーマットでエクスポートでき、ゲーム開発やアニメーション制作など、さまざまな用途に利用できます。

Edify 3Dのシステム要件

Edify 3Dを使用する際には、特定のハードウェアおよびソフトウェア要件を満たす必要があります。以下に、主なシステム要件をまとめます。

基本的なハードウェア要件

  1. プロセッサ:
    • 高性能なCPUが推奨されます。具体的には、Intel Core i7以上または同等のAMDプロセッサが望ましいです。
  2. メモリ:
    • 最低16GBのRAMが必要ですが、32GB以上を推奨します。これにより、複雑な3Dモデルの生成がスムーズに行えます。
  3. ストレージ:
    • NVMe SSDを使用することが推奨されます。高速なストレージは、データの読み書き速度を向上させ、全体的なパフォーマンスを改善します。
  4. グラフィックスカード:
    • NVIDIAのGPUが必要です。特に、CUDA対応の最新のグラフィックスカードが推奨されます。これにより、3Dレンダリングや計算処理が効率的に行えます。

VRモードの要件

Edify 3DはVRモードでも使用可能ですが、その場合は以下の要件が追加されます。

  • VRヘッドセット:
    • Oculus Quest、HTC Vive、PicoなどのVRヘッドセットが必要です。これらのデバイスは、Edify 3Dの最適な体験を提供します。
  • VR対応PC:
    • VRモードを使用するには、VR対応のPCが必要です。Macは現在VRをサポートしていません。

ソフトウェア要件

  • オペレーティングシステム:
    • Windows 10またはそれ以降のバージョンが推奨されます。
  • ドライバー:
    • 最新のNVIDIA CUDAドライバーをインストールしておく必要があります。これにより、GPUの性能を最大限に引き出すことができます。

by Felo


新たな脅威…ビジュアルプロンプトインジェクション攻撃とは…

引用

2024.12.01

最近…耳にし始めたキーワード「ビジュアルプロンプトインジェクション攻撃

頭の中に入れておかないとですね…

怖い…こわい…

Flux Pro 1.1にて生成

ビジュアルプロンプトインジェクション攻撃の概要

ビジュアルプロンプトインジェクション攻撃は、AIシステム、特に大規模言語モデル(LLM)やマルチモーダルAIに対する新たな攻撃手法です。この攻撃は、巧妙に設計された視覚的なプロンプトを用いて、AIモデルに本来の指示やガイドラインを無視させたり、意図しない動作を引き起こしたりすることを目的としています。

攻撃のメカニズム

ビジュアルプロンプトインジェクションは、以下のような方法で実行されます:

モデルの脆弱性の利用: AIモデルは、通常のテキストプロンプトに対しては強固な防御を持っている場合でも、視覚的なプロンプトに対しては脆弱であることが多いです。このため、攻撃者は視覚的な情報を通じてAIの制約を回避し、機密情報の漏洩や不適切な出力を引き起こす可能性があります。

視覚的要素の悪用: 攻撃者は、画像やビジュアルコンテンツに特定の情報を埋め込むことで、AIがその情報を誤って解釈し、意図しない応答を生成するように仕向けます。例えば、画像内に隠されたテキストや指示がAIの出力に影響を与えることがあります。

リスクと影響

ビジュアルプロンプトインジェクション攻撃は、以下のような深刻なリスクをもたらします:

  • 機密情報の漏洩: AIが意図しない情報を生成することで、機密データが外部に漏れる危険性があります。
  • 不正アクセス: 攻撃者がAIシステムの制御を奪うことで、システムに対する不正アクセスが可能になる場合があります。
  • ユーザーエクスペリエンスの低下: AIが不適切な内容を生成することで、ユーザーの信頼を損なう結果となることがあります。

対策と今後の展望

AIシステムの開発者は、ビジュアルプロンプトインジェクション攻撃に対抗するために、以下のような対策を講じる必要があります:

  • セキュリティ強化: AIモデルのトレーニングデータやアルゴリズムを見直し、視覚的なプロンプトに対する防御策を強化することが重要です。
  • ユーザー教育: ユーザーに対して、AIシステムの利用に関する教育を行い、潜在的なリスクを理解させることが必要です。
  • 継続的な研究: 新たな攻撃手法に対する研究を進め、効果的な防御策を開発することが求められます。

ビジュアルプロンプトインジェクション攻撃は、AI技術の進化と共に新たな脅威として浮上しており、今後の対策が重要です。

by Felo

Flux Pro 1.1にて生成