動画生成AI「Sora」一般提供開始 → 新規登録を即日停止

引用

2024.12.12

集中しすぎて…「Sora」の新規登録を即日停止…

登録再開にはしばらく時間が必要みたいですね…。

酷い話です…。


2024.12.10

OpenAIの動画生成AI「Sora」が…2024年12月9日…ついに!一般提供を開始した…

テキストや画像を入力することで…最大20秒の動画を生成することができる…。

昨日…Blogで紹介した…Googleの「Veoに続き…

動画生成AIが…益々熱く!?なってきた…

Flux Pro 1.1にて生成

Soraの主な機能

  • テキストから動画生成: ユーザーが入力したテキストに基づいて、リアルな動画を生成します。例えば、「夕暮れの公園で遊ぶ犬」といった指示を入力することで、そのシーンを忠実に再現した動画が作成されます。
  • 静止画からのアニメーション化: DALL-Eなどで生成した画像を動きのある映像に変換することが可能です。
  • 動画編集機能: 既存の動画に新たなエフェクトやシーンを追加したり、複数のクリップを結合することができます。

利用プランと料金

Soraは、OpenAIのChatGPT PlusおよびProプランのユーザー向けに提供されます。

  • ChatGPT Plus: 月額20ドルで、480p解像度の動画を毎月最大50本生成可能。
  • ChatGPT Pro: 月額200ドルで、1080p解像度の動画を毎月最大500本生成でき、動画の長さは最大20秒です。Proプランではウォーターマークなしで動画を生成することも可能です。

安全対策と利用制限

OpenAIは、Soraの利用にあたっていくつかの安全対策を講じています。18歳未満の利用を禁止し、生成された動画にはAIが生成したことを示す電子情報が埋め込まれます。また、性的な内容や特定の人物に関する動画の生成は制限されています。

by Felo

Midjourneyにて生成

Googleの動画生成モデル「Veo」が使える!?

引用

2024.12.09

Googleの…ビデオ生成モデル「Veo」と画像生成モデル「Imagen 3」が…

企業向けAIプラットフォームである「Vertex AI」上で…

来週から?(本当??)使えるように…

https://cloud.google.com/blog/products/ai-machine-learning/introducing-veo-and-imagen-3-on-vertex-ai/?hl=en

Flux Pro 1.1にて生成

Vertex AI…新しいビデオ「Veo」および画像生成「Imagen 3」モデルを発表

Veo: 高品質な動画生成

Veoは、Google DeepMindによって開発された初のAI動画生成モデルで、テキストや画像のプロンプトから高品質な動画を生成することができます。このモデルは、ユーザーがアップロードした画像やテキスト指示に基づいて、リアルな映像を作成します。具体的には、以下の機能があります:

  • 画像から動画の生成: 既存の画像を使用して、短い動画クリップを生成します。
  • テキストから動画の生成: テキストプロンプトのみで動画を作成することも可能です。
  • 一貫性のある映像: 人物や物体が自然に動く映像を生成し、視覚的な整合性を保ちます。

Veoは現在プライベートプレビュー中で、来週からはVertex AIの全ユーザーが利用できるようになります。

Imagen 3: 高品質な画像生成

Imagen 3は、シンプルなテキストプロンプトから写実的で高品質な画像を生成するモデルです。このモデルは、前バージョンに比べて以下の点で大幅に改善されています:

  • 詳細度と照明: よりリアルな画像を生成し、アーティファクトの削減が図られています。
  • ブランドスタイルの反映: 企業が独自のブランドスタイルやロゴを反映した画像を簡単に作成できるように設計されています。
  • 編集機能: 画像の一部を編集したり、背景を更新したりする機能も提供されます。

Imagen 3は、来週から全てのVertex AIユーザーに一般提供される予定です。

安全性と責任

両モデルは、GoogleのAI原則に従い、安全性と責任を重視して開発されています。具体的には、生成されたすべての画像と動画にはデジタル透かしが埋め込まれ、誤情報や誤帰属のリスクを軽減するための安全フィルターも搭載されています。

これらの新しいツールは、企業がコンテンツ制作を効率化し、よりパーソナライズされた体験を提供するための重要なステップとなるでしょう。


Vertex AIの登録方法

ステップ1: Google Cloudアカウントの作成

  1. Google Cloudにサインアップ: まだアカウントを持っていない場合は、Google Cloudの公式サイトで新しいアカウントを作成します。新規顧客には最大$300の無料クレジットが提供されます。
  2. プロジェクトの作成: Google Cloud Consoleにログインし、プロジェクトを作成します。プロジェクトは、Vertex AIを利用するための基本単位です。

ステップ2: Vertex AI APIの有効化

  1. APIの有効化: 作成したプロジェクト内でVertex AI APIを有効にします。これにより、Vertex AIの機能にアクセスできるようになります。
  2. 請求の設定: プロジェクトに請求情報を設定する必要があります。これにより、APIの使用に伴う料金が発生する場合に備えます。

ステップ3: Vertex AIの使用開始

  1. Vertex AIダッシュボードにアクセス: Google Cloud Consoleのメインメニューから「Vertex AI」を選択し、ダッシュボードに移動します。
  2. AIエージェントの作成: ダッシュボードから「新しいアプリケーションを作成」ボタンをクリックし、AIエージェントの作成を開始します。このプロセスでは、エージェントの目標や機能を設定します。
  3. モデルのトレーニングとデプロイ: Vertex AIでは、AutoMLやカスタムモデルを使用して、データをトレーニングし、モデルをデプロイすることができます。これにより、特定のビジネスニーズに応じたAIソリューションを構築できます。

ステップ4: モデルの管理

  1. モデルレジストリの利用: Vertex AI Model Registryを使用して、モデルのバージョン管理を行います。これにより、複数のモデルバージョンを作成し、整理することができます。
  2. MLOpsの実施: Vertex AIは、機械学習プロジェクトの自動化、標準化、管理を支援するMLOpsツールを提供しています。これにより、開発ライフサイクル全体を通じてモデルの改善が可能です。

これらのステップを踏むことで、Vertex AIを効果的に利用し、AIエージェントやモデルを構築することができます。

by Felo


Googleの3D空間環境生成AI「Genie 2」

引用

2024.12.08

1枚の画像から…最大1分の3D空間環境を生成でき…

キャラクターを自在に動かすことができる…「Genie 2」がリリースされた…。

↓を見ると…「ここまできたかぁ…」って感じです…。

残念ながら…現時点では一般公開の予定はないみたいですね…。

いじってみたい…。

https://deepmind.google/discover/blog/genie-2-a-large-scale-foundation-world-model

Flux Pro 1.1にて生成

「Genie 2」概要

Google DeepMindが発表した「Genie 2」は、単一の画像からインタラクティブな3D環境を生成する新しいAIモデルです。この技術は、ゲーム開発やAI研究において革新的な可能性を秘めています。Genie 2は、ユーザーがアップロードした画像やテキストから、最大1分間持続するプレイ可能な3Dワールドを作成します。

主な機能

  • インタラクティブな3D環境の生成: Genie 2は、物理シミュレーションや環境効果を取り入れたリアルな3D空間を生成します。ユーザーは、非プレイヤーキャラクター(NPC)や物体と相互作用しながら、環境を探索できます。
  • 多様な視点のサポート: 生成された環境は、一人称視点、三人称視点、アイソメトリックビューなど、さまざまな視点から体験可能です。
  • 持続的な環境: Genie 2が生成する3Dワールドは、ユーザーの行動に応じて変化し、次回のセッションでもその状態を保持します。これにより、ストーリーやゲームプレイの連続性が確保されます。
  • 高度な物理シミュレーション: 環境内では、重力や流体力学、衝突効果などがリアルにシミュレートされ、プレイヤーは物体を操作したり、NPCとインタラクションを行ったりできます。

技術的背景

Genie 2は、自己回帰型潜在拡散モデルに基づいており、大規模な動画データセットで訓練されています。このモデルは、入力された画像をもとにリアルタイムで3D環境を構築する能力を持っています。

応用可能性

この技術は、ゲーム開発の迅速なプロトタイピングを可能にし、開発者が静的なコンセプトアートやアイデアをすぐにプレイ可能なプロトタイプに変換することを助けます。また、AIのトレーニングやロボット工学の分野でも重要な役割を果たすと期待されています。

結論

GoogleのGenie 2は、単一の画像からインタラクティブな3Dワールドを生成する能力を持つ先進的なAIモデルであり、ゲーム開発やAI研究において新たな可能性を切り開く技術です。今後の進展が非常に楽しみです。

by Felo

Flux Pro 1.1にて生成

新たな脅威…ビジュアルプロンプトインジェクション攻撃とは…

引用

2024.12.01

最近…耳にし始めたキーワード「ビジュアルプロンプトインジェクション攻撃

頭の中に入れておかないとですね…

怖い…こわい…

Flux Pro 1.1にて生成

ビジュアルプロンプトインジェクション攻撃の概要

ビジュアルプロンプトインジェクション攻撃は、AIシステム、特に大規模言語モデル(LLM)やマルチモーダルAIに対する新たな攻撃手法です。この攻撃は、巧妙に設計された視覚的なプロンプトを用いて、AIモデルに本来の指示やガイドラインを無視させたり、意図しない動作を引き起こしたりすることを目的としています。

攻撃のメカニズム

ビジュアルプロンプトインジェクションは、以下のような方法で実行されます:

モデルの脆弱性の利用: AIモデルは、通常のテキストプロンプトに対しては強固な防御を持っている場合でも、視覚的なプロンプトに対しては脆弱であることが多いです。このため、攻撃者は視覚的な情報を通じてAIの制約を回避し、機密情報の漏洩や不適切な出力を引き起こす可能性があります。

視覚的要素の悪用: 攻撃者は、画像やビジュアルコンテンツに特定の情報を埋め込むことで、AIがその情報を誤って解釈し、意図しない応答を生成するように仕向けます。例えば、画像内に隠されたテキストや指示がAIの出力に影響を与えることがあります。

リスクと影響

ビジュアルプロンプトインジェクション攻撃は、以下のような深刻なリスクをもたらします:

  • 機密情報の漏洩: AIが意図しない情報を生成することで、機密データが外部に漏れる危険性があります。
  • 不正アクセス: 攻撃者がAIシステムの制御を奪うことで、システムに対する不正アクセスが可能になる場合があります。
  • ユーザーエクスペリエンスの低下: AIが不適切な内容を生成することで、ユーザーの信頼を損なう結果となることがあります。

対策と今後の展望

AIシステムの開発者は、ビジュアルプロンプトインジェクション攻撃に対抗するために、以下のような対策を講じる必要があります:

  • セキュリティ強化: AIモデルのトレーニングデータやアルゴリズムを見直し、視覚的なプロンプトに対する防御策を強化することが重要です。
  • ユーザー教育: ユーザーに対して、AIシステムの利用に関する教育を行い、潜在的なリスクを理解させることが必要です。
  • 継続的な研究: 新たな攻撃手法に対する研究を進め、効果的な防御策を開発することが求められます。

ビジュアルプロンプトインジェクション攻撃は、AI技術の進化と共に新たな脅威として浮上しており、今後の対策が重要です。

by Felo

Flux Pro 1.1にて生成

「FLUX1.1 Pro」で使える…「FLUX.1 Tools」登場

引用

2024.11.23

ここ最近では…一番活用している画像生成AI「FLUX1.1 Pro」で使える…

AIモデルシリーズ「FLUX.1 Tools」が発表された…。

https://blackforestlabs.ai/flux-1-tools/ を見ると…

かなり色々なことができるようになったみたいですね!

私はいつも…https://replicate.com/black-forest-labs から使っています…。

FLUX.1 Tools」発表

2024年11月21日、Black Forest Labsは新しいAIモデルシリーズ「FLUX.1 Tools」を発表しました。このツールは、テキストから画像への変換モデルFLUX.1に制御性と操作性を追加し、実際の画像と生成された画像の変更や再作成を可能にします。

FLUX.1 Toolsの主な機能

  • FLUX.1 Fill: 最先端のインペインティングおよびアウトペインティング機能を提供し、テキスト記述とバイナリマスクを使用して画像を編集・拡張できます。
  • FLUX.1 Depth: 入力画像から抽出された深度マップに基づいて構造的ガイダンスを提供します。
  • FLUX.1 Canny: 入力画像から抽出されたキャニーエッジを使用して構造的ガイダンスを行います。
  • FLUX.1 Redux: 入力画像とテキストプロンプトを組み合わせて新しい画像を生成するアダプターです。

これらの機能は、BFL APIを通じて利用可能であり、fal.aiやReplicateなどのパートナーサービスでも利用できます。特に、FLUX.1 Fillは他の競合手法よりも優れた性能を示しており、現時点で最先端のインペインティングモデルとされています。

リリースの影響

このリリースは、研究コミュニティに対して最先端のオープンウェイトモデルを提供しつつ、APIを通じてクラス最高の機能も提供することを目的としています。特に商用利用が可能な点が注目されており、さまざまなアプリケーションでの活用が期待されています。

by Genspark

Flux 1.1 proにて生成