Deepseekの驚くほど安価なAIモデルは、業界の巨人に挑戦しています。同社は、2048 GPUを使用して、強力なDeepseek V3ニューラルネットワークをわずか600万ドルで訓練したと主張しており、競合他社を大幅に下げています。ただし、この数字は、トレーニング前のGPUコストのみを反映しており、実質的な調査、改良、データ処理、インフラストラクチャ費用を省略しています。
画像:Ensigame.com
Deepseek V3は革新的なテクノロジーを活用しています:精度と効率の向上のために、マルチトークン予測(MTP)。 256のニューラルネットワーク(トークンごとにアクティブ化された8つ)を使用して、専門家(MOE)の混合物(MOE)。 マルチヘッドの潜在的な注意(MLA)重要な文要素に焦点を合わせます。これらの進歩は、モデルの競争力のあるパフォーマンスに貢献しています。
画像:Ensigame.com
初期の主張とは反対に、SemianalysisはDeepseekの大規模なインフラストラクチャである、H800、H100、H20ユニットを含む約50,000のNvidia Hopper GPUが複数のデータセンターに広がっていることを明らかにしました。サーバーの総投資は16億ドルと推定され、運用コストは9億4,400万ドルに達します。それにもかかわらず、中国のヘッジファンドであるHigh-Flyerの子会社であるDeepseekは、独立性と自己資金調達を維持し、敏ility性と迅速な革新を促進しています。
画像:Ensigame.com
同社の成功はまた、トップの才能を引き付けることに起因しており、一部の研究者は年間130万ドル以上を稼いでいます。これは、その無駄のない構造と相まって、AIの進歩を効率的に実装できるようになります。 AI開発への総投資は5億ドルを超えています。
画像:Ensigame.com
Deepseekの「予算に優しい」物語は間違いなく誇張されていますが、特にR1のDeepseekの500万ドルと比較して、CHATGPT4Oのトレーニングに費やされた報告された1億ドルと比較した場合、その競争力は否定できません。このケースは、資金提供された独立したAI企業が確立されたプレーヤーに挑戦する可能性を強調していますが、実質的な投資は依然として重要な要因です。