1枚の静止画と音声データから動画を生成「FantasyTalking」

引用

2025.04.23

1枚の静止画と音声データを基に…自然な動きの動画を生成することができる…生成AI「FantasyTalking

プロジェクトページ:https://fantasy-amap.github.io/fantasy-talking/ ↓↓↓をみると…

今までのこの類の生成AIと比べてみると…生き生き?としているかも!
この手の生成AIは…明らかに?中国がリードしていますね…。

プロジェクトページには…
以前このBlogで紹介した…「OmniHuman-1」との比較も載っています…。

GitHub:https://github.com/Fantasy-AMAP/fantasy-talking

Midjourneyにて生成

基本機能と特徴

  • 動画生成の仕組み: FantasyTalkingは、静止画から高品質な動画を生成するために、二段階の音声-映像連携戦略を採用しています。第一段階では、音声に合わせた全体的な動きを生成し、顔の表情や体の動きのパターンを学習します。第二段階では、口の動きを精緻化するために「リップトレーシングマスク」を使用します。このアプローチにより、従来のAI技術では難しかった自然な表情と体の動きの同期が実現されています。
  • 多言語対応: FantasyTalkingは多言語に対応しており、これにより国際展開が可能です。スモールビジネスが海外市場に進出する際の強力なツールとなります。

スモールビジネスでの活用方法

  • 動画マーケティング: スモールビジネスは、FantasyTalkingを利用してプロモーション動画や商品紹介動画を簡単に制作できます。これにより、視覚的に魅力的なコンテンツを迅速に作成し、顧客の関心を引くことができます。
  • コスト削減: 従来の動画制作に比べて、時間とコストを大幅に削減できるため、リソースを他の重要な業務に振り向けることが可能です。

このように、FantasyTalkingはスモールビジネスにとって、動画制作の効率化と国際展開の促進を実現するための強力なツールです。

by Felo

Midjourneyにて生成

「Veo 2」がGemini AdvancedとWhiskでつかえる!

引用

2025.04.20

Google動画生成AI「Veo 2」が…Gemini AdvancedとWhiskを通じて利用可能に…。
動画生成が…どんどん身近になりますね…。

https://blog.google/products/gemini/video-generation

Gemini Advanced=1900円/月かぁ…

サブスク貧乏中だし…
私は…Adobeで使えるようになるまで…待ちですね…↓↓↓

Midjourneyにて生成

Veo 2の概要

  • 動画生成機能: Veo 2は、ユーザーがテキストプロンプトを入力することで、720p解像度の8秒間の動画を生成します。生成された動画はMP4形式で、16:9のアスペクト比を持っています。
  • Whiskとの統合: Whiskは、ユーザーが画像を生成し、その画像を基にアニメーション動画を作成する機能を提供します。Whiskを使用することで、生成した画像を「アニメーション化」し、Veo 2を使って動画に変換することができます。

利用方法

  1. Gemini Advancedへのアクセス: Veo 2を使用するには、Gemini Advancedプランに加入する必要があります。ユーザーは、Geminiアプリまたはウェブ版からVeo 2を選択し、プロンプトを入力して動画を生成します。
  2. Whiskの利用: Whiskを使用する場合、まず画像を生成し、その後「アニメーション化」を選択することで、8秒間の動画を作成できます。このプロセスは非常に迅速で、数分以内に動画が完成します。

機能の特徴

  • デジタルウォーターマーク: 生成された動画には、GoogleのSynthID技術によるデジタルウォーターマークが埋め込まれ、著作権保護が施されています。
  • クリエイティブな表現: ユーザーは、詳細なプロンプトを入力することで、より具体的な動画を生成することができ、様々なスタイルやテーマを探索することが可能です。

このように、Veo 2はGeminiとWhiskを通じて、個人や企業のコンテンツ制作に新たな可能性を提供しています。

by Felo


自然言語でWebアプリケーションを生成「Firebase Studio」

引用

2025.04.19

Googleが…新しいクラウドベースの開発環境「Firebase Studio」をリリース…。
Gemini」を活用して…フルスタックアプリケーションの開発プロセスを効率化…
自然言語でアプリの要件を入力すると…AIが自動的にコードを生成…
プロトタイプから本番環境にデプロイできるように設計されている…。

https://firebase.studio/

ハードルが高い分野ではありますが…
もう少ししたら…誰でもアプリがつくれちゃうってことなのかぁ…

んんん…

Fluxにて生成

Firebase Studioの主な特徴

  • エージェント開発環境: Firebase Studioは、開発者が自然言語で指示を出すことでアプリを構築できるエージェント機能を提供します。これにより、プログラミングの経験が少ないユーザーでも簡単にアプリを作成できます。
  • 統合されたツール: Firebase Studioは、Firebaseの各種サービス(Firestore、Authentication、Cloud Functionsなど)と統合されており、開発者はこれらの機能を簡単に利用できます。また、既存のコードベースをGitHubやBitbucketからインポートすることも可能です。
  • 柔軟なデプロイオプション: アプリはFirebase HostingやGoogle Cloud Runに簡単にデプロイでき、開発者は自分のインフラストラクチャに合わせてアプリを運用できます。
  • 無料プレビュー版: 現在、Firebase Studioはプレビュー版として提供されており、Googleアカウントを持っているユーザーは無料で利用できます。初期状態では最大3つのワークスペースを作成でき、Google Developer Programのメンバーは最大30のワークスペースを利用可能です。

開発プロセスの効率化

Firebase Studioは、開発者がアプリの設計からデプロイまでを一貫して行えるように設計されています。具体的には、以下のような機能があります:

  • 自然言語プロトタイピング: ユーザーは自然言語でアプリの要件を入力することで、AIが自動的にコードを生成します。
  • コーディングアシスタント: Gemini AIがコードの補完やエラー検出、リファクタリングの提案を行い、開発者の生産性を向上させます。
  • チーム開発のサポート: クラウドIDEとして、リモートチームが同じ環境で作業できるため、場所を問わず効率的に開発を進めることができます。

Firebase Studioは、特にAIを活用したアプリ開発の新しいスタイルを提供するプラットフォームとして注目されています。開発者はこのツールを利用することで、より迅速に高品質なアプリを市場に投入できるようになるでしょう。

by Felo

Fluxにて生成

自然言語と音声入力からキャラクターアニメーションを生成「MoCha」

引用

2025.04.16

Metaとウォータールー大学の研究チームによって開発されたAIモデル「MoCha」(Movie Character Animator)

自然言語と音声入力から映画のようなキャラクターアニメーションを生成することができる…キャラクターがリアルに話し、感情を表現し、全身を動かすことを可能に…。

https://congwei1230.github.io/MoCha より…


昨日の…「DreamActor-M1」もそうですけど…

こうなってくると…人が演技しなくても映画が作れちゃいますね…。

人は…肖像権を売るだけの存在?

Fluxにて生成

技術的な特徴

  • アーキテクチャ: MoChaはDiffusion Transformer(DiT)を基盤としており、30億のパラメータを持っています。これにより、720pの解像度で24フレーム毎秒の128フレームの動画を生成します。
  • 入力: モデルは、キャラクターやシーン、アクションを説明する自然言語のプロンプトと、音声クリップを入力として受け取ります。これにより、キャラクターの口の動きやジェスチャーが音声に同期して生成されます。
  • トレーニング方法: MoChaは、音声とテキストの両方を用いた共同トレーニングを行い、リップシンクの精度を高め、キャラクターの一貫性を保ちながら、複数のキャラクター間の対話を管理します。

性能と評価

MoChaは、リップシンク、表情、アクション、テキストの整合性、視覚的品質の5つの基準で評価され、他のモデルと比較して高いスコアを記録しています。特に、映画的なリアリズムに近い出力が評価されています。

応用と未来

この技術は、映画制作、教育、広告、ゲーム開発など、さまざまな分野での利用が期待されています。MoChaは、従来のアニメーション制作の手法を変革し、スクリプトから画面への生成を可能にする新たなステップを提供します。

by Felo

Fluxにて生成

Amazon「Nova」って?

引用

2025.04.14

私には…ハードルが高そうですが…

触らずのままの…Amazon「Nova」について…勉強!です。

Amazon「Nova」:https://aws.amazon.com/jp/ai/generative-ai/nova

Amazon Bedrock 生成AI:https://aws.amazon.com/jp/ai/generative-ai

Midjourneyにて生成

Amazon Novaとは?

Amazon Novaは、Amazonが開発した最先端の生成AI基盤モデル(Foundation Model)です。このモデルは、テキスト、画像、動画などの多様な入力を処理し、生成AIタスクを効率的かつ低コストで実行することを目的としています。Amazon Novaは、Amazon Bedrockプラットフォームを通じて提供され、企業や開発者がカスタマイズ可能なAIアプリケーションを構築できるよう設計されています。

主な特徴

  • 多モーダル対応: テキスト、画像、動画を入力として受け取り、それに基づいて出力を生成します。
  • 低コスト・高性能: 他の競合モデルと比較して、最大75%のコスト削減を実現しながら、高速かつ正確な応答を提供します。
  • カスタマイズ性: ユーザーは独自のデータを使用してモデルを微調整し、特定のニーズに最適化できます。
  • 安全性: 生成されたコンテンツにはデジタルウォーターマークが付与され、責任あるAI利用を促進します。

モデルの種類

Amazon Novaには、以下のような複数のモデルが含まれています。それぞれ異なる用途に特化しています。

理解モデル

  • Amazon Nova Micro: テキストのみを処理するモデルで、低コストかつ低レイテンシーの応答を提供します。
  • Amazon Nova Lite: テキスト、画像、動画を高速に処理するマルチモーダルモデル。
  • Amazon Nova Pro: 高精度で幅広いタスクに対応するマルチモーダルモデル。

生成モデル

  • Amazon Nova Canvas: テキストや画像を入力として受け取り、プロ品質の画像を生成します。広告やマーケティングに適しています。
  • Amazon Nova Reel: テキストや画像を基に短い動画を生成するモデル。動画のスタイルやペースを自然言語で制御可能です。

音声モデル

  • Amazon Nova Sonic: 音声入力を処理し、自然な会話を生成するモデル。音声認識と生成において高い精度を誇ります。

主なユースケース

Amazon Novaは、以下のような幅広い用途に利用されています:

  • ドキュメント分析: 複雑な文書やデータの解析。
  • 広告・マーケティング: 高品質な画像や動画コンテンツの生成。
  • カスタマーサービス: 自然言語による応答や会話の生成。
  • 音声アプリケーション: 音声認識と生成を活用した対話型エージェントの構築。

Amazon Bedrockとの統合

Amazon Novaは、Amazon Bedrockプラットフォームと統合されており、モデルの選択、カスタマイズ、トレーニング、デプロイ、スケーリングを一元的に管理できます。この統合により、開発者は効率的に生成AIアプリケーションを構築できます。

今後の展望

Amazon Novaは、現在も進化を続けており、より複雑なタスクや多言語対応を強化する予定です。また、Amazon AGI Labsによる新しいモデルや機能の追加が期待されています。

Amazon Novaは、生成AIの分野で革新的な技術を提供し、企業や開発者が多様なニーズに応えるAIソリューションを構築するための強力なツールとなっています。

Amazon 画像生成AI「Nova Canvas」の概要

主な機能

Amazon Nova Canvasは以下の機能を提供します:

  • テキストから画像生成(Text-to-Image, T2I)
    テキストプロンプトを入力することで、その内容を反映した新しい画像を生成します。生成される画像は、プロンプトで記述された概念を忠実に表現します。
  • 画像編集
    • インペインティング(Inpainting): 画像の特定部分をマスクし、その領域を背景や新しい内容で置き換える機能。
    • アウトペインティング(Outpainting): 画像の境界を拡張し、新しいピクセルを生成して画像をシームレスに拡張。
    • 画像バリエーション生成: 複数の画像を入力し、それらの内容を保持しつつスタイルや背景を変更した新しい画像を生成。
    • 背景除去: 画像内のオブジェクトを自動的に識別し、背景を透明にする。
  • 色指定による生成
    ユーザーが指定した1~10個のHEXカラーコードを基に、特定の色調を反映した画像を生成します。
  • 画像条件付け(Image Conditioning)
    参照画像を使用して、レイアウトや構図を維持しながら、テキストプロンプトに基づいた画像を生成します。
  • 被写体の一貫性(Subject Consistency)
    特定の被写体(例: ペット、靴、バッグなど)を参照画像を用いてモデルを微調整し、生成画像内でその被写体を一貫して保持します。

技術仕様

  • 入力形式: テキスト、画像(PNG、JPEG形式対応)
  • 最大プロンプト長: 1024文字
  • 最大出力解像度: 生成タスクでは419万ピクセル(例: 2048×2048、2816×1536)
  • 編集タスクの最大解像度: 長辺が4096ピクセル以下、アスペクト比が1:4~4:1の範囲内で、総ピクセル数が419万以下。

利用方法

Amazon Nova Canvasは、AWSのBedrockプラットフォームを通じて提供されており、APIを使用してモデルを呼び出すことが可能です。これにより、画像生成や編集タスクをプログラム的に実行できます。

応用例

  • 広告・マーケティング: 高品質な画像を迅速に生成し、キャンペーンやプロモーションに活用。
  • デザイン・ビジュアル化: 製品デザインやコンセプトの視覚化。
  • エンターテインメント: 映画やゲームのビジュアルコンテンツ制作。

Amazon Nova Canvasは、生成AIの最先端技術を活用し、クリエイティブな画像生成と編集を効率的に行うための強力なツールです。

Amazon 動画生成AI「Nova Reel」の概要

Nova Reelの概要

Nova Reelは、テキストや画像を入力として受け取り、短尺から最大2分間の動画を生成することができる最先端の動画生成モデルです。以下はその主な特徴です:

  • 入力形式: テキストのみ、またはテキストと画像の組み合わせをサポート。
  • 出力形式: 動画(最大解像度1280×720、24フレーム/秒)。
  • 生成モード:
    • Multishot Automated: 最大4,000文字の単一プロンプトを使用して、複数ショットの動画を自動生成。
    • Multishot Manual: 各ショットごとに最大512文字のプロンプトを指定し、最大20ショットまで生成可能。ショット開始時点の画像を入力することも可能。

Nova Reel 1.1の新機能

Nova Reelの最新バージョンである「Nova Reel 1.1」では、以下の改善が行われています:

  • 動画の長尺化: 最大2分間の動画生成が可能になり、従来の6秒単位の動画生成を超える柔軟性を提供。
  • 品質とレイテンシの向上: 6秒間のシングルショット動画生成において、画質と生成速度が改善。
  • スタイルの一貫性: 複数ショット間でビジュアルスタイルの統一性を維持。

利用方法

Nova Reelは、Amazon Bedrockプラットフォームを通じて利用可能です。以下の手順でアクセスできます:

  1. リージョン設定: 現時点では、米国東部(北バージニア)リージョンで利用可能。
  2. モデル選択: Amazon Bedrockコンソール、AWS SDK、またはAWS CLIを使用してモデルにアクセス。
  3. 出力先: 完成した動画は指定したAmazon S3バケットに保存されます。

活用例

Nova Reelは、以下のような用途で活用されています:

  • 広告・マーケティング: 高品質な動画広告の制作。
  • エンターテインメント: 映画やゲームのプロモーション動画。
  • ソーシャルメディア: 魅力的な短尺動画コンテンツの作成。

安全性と責任ある使用

Nova Reelには、以下の安全機能が組み込まれています:

  • ウォーターマーク: 生成コンテンツのトレーサビリティを確保。
  • コンテンツモデレーション: 不適切な内容の生成を防止。

Amazon Nova Reelは、生成AIを活用した動画制作の効率化と創造性の向上を実現するツールとして注目されています。

by Felo