2025.04.06
Metaが…テキストだけでなく…
画像や動画などの多様なメディア情報を処理できるマルチモーダル機能を備え従来のモデルよりも幅広いタスクに対応可能な…
最新の大規模言語モデル「Llama 4」をリリースした…。
大規模言語モデルは数あるけれど…
GPT・PaLM・LLaMA・Claude・Mistral・Gemini・DeepSeek・BLOOM…
どこが勝ち抜くんだろう…
https://ai.meta.com/blog/llama-4-multimodal-intelligence

Llama 4のモデル構成
Llama 4は、以下の3つの主要なモデルで構成されています。
- Llama 4 Scout: 17億のアクティブパラメータを持ち、16の専門家を活用するモデルです。特に、最大1000万トークンのコンテキストウィンドウをサポートしており、長文の処理や複雑な会話に適しています。
- Llama 4 Maverick: 同じく17億のアクティブパラメータを持ち、128の専門家を使用します。このモデルは、マルチモーダル処理や多言語対応、コーディング能力に優れ、コストパフォーマンスも高いとされています。
- Llama 4 Behemoth: 現在訓練中のこのモデルは、2880億のアクティブパラメータを持ち、最も強力なモデルとして位置付けられています。STEM(科学・技術・工学・数学)分野においても高い性能を発揮します。
技術的特徴
Llama 4は、Mixture of Experts(MoE)アーキテクチャを採用しており、これにより計算効率が大幅に向上しています。具体的には、トークンごとに必要な専門家のみをアクティブにすることで、推論速度が40%以上向上しています。また、最大1000万トークンのコンテキストウィンドウを持つことで、長い会話や大規模な文書の処理が可能です。
オープンソースとアクセス
MetaはLlama 4をオープンソースとして提供しており、開発者や研究者が自由に利用できるようにしています。Llama 4 ScoutとMaverickは、Metaのパートナーやプラットフォームを通じて利用可能で、特にAI開発プラットフォームであるHugging Faceなどからアクセスできます。
このように、Llama 4は最新のAI技術を駆使したモデルであり、さまざまな応用が期待されています。
Llama 4の画像生成機能
- マルチモーダル処理: Llama 4は、最大8枚の画像を同時に処理する能力があり、内部的には最大48枚の画像フレームでテストされています。これにより、複雑な視覚的タスクに対応することが可能です。
- 画像理解と生成: Llama 4は、視覚的推論や画像に関する質問応答を行うために設計されており、ユーザーのプロンプトに基づいて関連する視覚的概念を特定し、画像内の特定の領域に応答をアンカーする能力があります。これにより、より正確な視覚的質問応答が実現されます。
- 性能と応用: Llama 4の「Scout」モデルは、17億のアクティブパラメータを持ち、特に画像認識や関連付け機能に優れています。また、長いコンテキストウィンドウ(最大1000万トークン)をサポートしており、これにより多様なタスクへの応用が可能です。
- 画像生成の限界: 一方で、Llama 4の画像生成機能は、現在のところ主にアメリカと英語圏に限定されており、他の国での展開についてはまだ情報がありません。また、生成された画像の質については、他の競合モデルと比較して改善の余地があるとの意見もあります。
Llama 4は、テキストと画像を組み合わせた高度なAIアプリケーションの開発を可能にし、特に視覚的な情報を扱うタスクにおいて強力なツールとなることが期待されています。
by Felo

New Posts: