xAIのColossus 1スーパーコンピューター、非効率性でAnthropicの推論用に転用、Blackwell採用のColossus 2を計画

Tom’s Hardware アメリカ
概要
xAIのColossus 1スーパーコンピューターは、NVIDIAの異種GPU混在アーキテクチャがGrokのトレーニングに不向きで、GPU利用率が11%と低迷しました。このため、イーロン・マスク氏はColossus 1をAnthropicにリースし、Claudeの推論負荷軽減に活用されることになりました。これによりAnthropicはサービス品質を向上させます。一方、xAIはトレーニング効率を追求し、Nvidia Blackwell専用のColossus 2を構築する計画を進めており、AIインフラ戦略の再編を示しています。
詳細

背景: 大規模AIインフラの課題と最適化の必要性

大規模言語モデル(LLM)の訓練と推論には、膨大なコンピューティングリソースが必要です。しかし、ただ高性能なGPUを大量に集積するだけでは、効率的なAIスーパーコンピューターを構築することはできません。ハードウェアアーキテクチャの整合性、ネットワーク帯域幅、電力供給、そしてソフトウェアスタックの最適化が不可欠です。xAIのColossus 1スーパーコンピューターの事例は、この大規模AIインフラ構築における課題と、それがいかに費用対効果に影響するかを浮き彫りにしています。

Colossus 1の非効率性とAnthropicへのリース

イーロン・マスク氏が率いるxAIが構築した「Colossus 1」AIスーパーコンピューターは、NVIDIA H100、H200、そしてGB200といった異なる世代および種類のGPUが混在するアーキテクチャを採用していました。この異種混合構成が、Grokのようなフロンティアモデルのトレーニングにおいて深刻な問題を引き起こしました。具体的には、GPU間の通信効率の低下や、ソフトウェアスタックの複雑化により、Colossus 1のGPU利用率はわずか11%に留まり、訓練タスクには極めて非効率であることが判明しました。

この非効率性を受け、xAIはColossus 1(約22万GPU、消費電力300MW)を競合であるAnthropicにリースするという驚くべき決断を下しました。Anthropicは、このインフラを自社のClaudeモデルの推論ボトルネック解消に活用します。これにより、AnthropicはClaude Codeの利用制限を緩和し、APIスロットリングを解除、さらにAPI制限を引き上げることで、ユーザーへのサービス品質とアクセス性を大幅に向上させることが可能となります。この戦略は、推論ワークロードがトレーニングと比較してハードウェア構成の柔軟性が高いことを示唆しています。

xAIの次期戦略とColossus 2の展望

Colossus 1での経験を踏まえ、イーロン・マスク氏は将来のフロンティアモデル訓練に向けた新たな戦略を打ち出しています。それは、Nvidiaの次世代AIプラットフォームであるBlackwell GPU専用のスーパーコンピューター「Colossus 2」の構築です。Blackwellアーキテクチャは、その高い統一性と最適化された相互接続性により、大規模な並列計算において飛躍的な効率向上をもたらすと期待されています。

このColossus 2への投資は、xAIがGrokのようなモデルをより効率的に訓練し、AI競争の最前線で優位に立つための重要なステップです。また、この大規模なインフラ投資は、将来的にはxAIのIPO(新規株式公開)にも繋がる可能性が指摘されており、AIインフラ競争の激化と、それに伴う企業の財務戦略への影響を示唆しています。

元記事: https://www.tomshardware.com/tech-industry/artificial-intelligence/musks-colossus-1-ai-supercomputers-inefficient-mixed-architecture-design-couldnt-be-used-to-train-grok-so-anthropics-using-it-for-inference-instead-musk-readies-unified-blackwell-only-colossus-2-for-frontier-training-and-potential-ipo

よかったらシェアしてね!
  • URLをコピーしました!
  • URLをコピーしました!

この記事を書いた人

コメント

コメントする

目次