2026年LLMリーダーボード発表：Llama 4 Scoutが2600トークン/秒で最速を記録、GPT-5.3 Codexは最低遅延0.003秒

2026年6月6日

Vellum アメリカ

概要

2024年4月以降のデータで更新されたLLMリーダーボードが発表され、Llama 4 Scoutが2600トークン/秒で最速モデルとして、GPT-5.3 Codexが0.003秒で最低遅延モデルとしてそれぞれトップに輝きました。Nova Microは100万トークンあたり最も安価なモデルと評価されています。このベンチマークは、推論速度、レイテンシー、コスト効率など、AIモデル選定の主要な指標を明確に示しています。

詳細

主要成果

LLMリーダーボードが2024年4月以降の最新データに基づいて更新され、人工知能モデルの性能における新たなベンチマークが確立されました。今回発表された結果によると、Llama 4 Scoutが2600トークン/秒という驚異的な速度で最速モデルの地位を獲得し、一方、GPT-5.3 Codexは0.003秒という極めて低い遅延でトップに躍り出ました。さらに、Nova Microは100万トークンあたりのコストが最も安価なモデルとして、コスト効率の高さで注目を集めています。これらのデータは、AIモデルの選定において速度、遅延、コスト効率が重要な指標となることを明確に示しています。

技術・臨床詳細

Vellumが発表したこのLLMリーダーボードは、GPT、Claude、Geminiといった主要なAIモデルを、推論、コーディング、数学、多言語タスクといった多様な側面で比較評価しています。各モデルの速度は1秒あたりに生成できるトークン数で、遅延はリクエストから最初の応答までの時間で測定されます。Llama 4 Scoutの高速性は、リアルタイム性が求められるアプリケーション、例えば対話型AIや高速データ処理において大きな優位性をもたらします。GPT-5.3 Codexの低遅延は、即時応答が必要なユーザーインターフェースやミッションクリティカルなシステムにとって不可欠です。Nova Microの低コストは、大規模なテキスト生成やデータ処理を予算内で実行したい企業にとって魅力的な選択肢となります。

背景・業界文脈

大規模言語モデルの進化は目覚ましく、その応用範囲は日々拡大しています。企業や開発者は、特定の要件に合わせて最適なモデルを選択する必要がありますが、そのための客観的な性能指標が不可欠です。このリーダーボードは、モデル選択の透明性を高め、各モデルの強みと弱みを明確にすることで、より効果的なAIソリューションの開発を支援します。特に、推論速度、遅延、コストは、クラウドベースのAIサービスを利用する際の運用コストやユーザーエクスペリエンスに直接影響するため、ビジネスにとって極めて重要な要素となります。

今後の展望

AIモデルの性能競争は激化しており、速度、効率、コストの各面でさらなる改善が期待されます。Llama 4 Scoutのような高速モデルは、生成AIの新たなユースケースを切り開き、GPT-5.3 Codexのような低遅延モデルは、より没入感のあるリアルタイム対話システムを可能にするでしょう。また、Nova Microのようなコスト効率の高いモデルは、より広範な企業がAI技術を導入し、その恩恵を受けるための障壁を下げることに貢献します。今後も定期的なベンチマークの更新を通じて、AI技術の進歩が客観的に示され、イノベーションが加速していくことでしょう。企業はこれらの情報を活用し、自社のビジネスに最適なAI戦略を継続的に見直す必要があります。

元記事: https://www.vellum.ai/llm-leaderboard

よかったらシェアしてね！