DeepSeek의 놀랍게도 저렴한 AI 모델은 업계 거인에게 도전합니다. 이 회사는 강력한 Deepseek V3 Neural Network를 2048 GPU를 사용하여 6 백만 달러에 달하는 경쟁 업체를 크게 약화 시켰다고 주장합니다. 그러나이 수치는 사전 훈련 GPU 비용, 실질적인 연구, 개선, 데이터 처리 및 인프라 비용을 생략하는 것만 반영합니다.
이미지 : ensigame.com
DeepSeek V3는 혁신적인 기술을 활용합니다. 정확도와 효율성 향상을 위해 MTP (Multi-Token Prediction) ; 전문가 혼합 (MOE) , 256 개의 신경망을 활용 (토큰 당 8 개의 활성화); 그리고 MLA (Multi-Head Sentent Interection) 중요한 문장 요소에 중점을 둡니다. 이러한 발전은 모델의 경쟁력있는 성능에 기여합니다.
이미지 : ensigame.com
초기 청구와는 달리 Semianalysis는 Deepseek의 대규모 인프라를 밝혀 냈습니다. H800, H100 및 H20 단위를 포함한 약 50,000 NVIDIA HOPPER GPU가 여러 데이터 센터에 퍼져 있습니다. 총 서버 투자는 16 억 달러로 추정되며 운영 비용은 9 억 9,400 만 달러에 이릅니다. 그럼에도 불구하고, 중국 헤지 펀드 인 High-Flyer의 자회사 인 Deepseek는 독립성과 자체 펀딩, 민첩성 및 빠른 혁신을 유지합니다.
이미지 : ensigame.com
이 회사의 성공은 또한 최고의 인재를 유치하는 데 비롯되며 일부 연구자들은 매년 130 만 달러 이상을 벌고 있습니다. 이는 린 구조와 함께 AI 발전을 효율적으로 구현할 수 있습니다. AI 개발에 대한 총 투자는 5 억 달러를 초과합니다.
이미지 : ensigame.com
DeepSeek의 "예산 친화적 인"이야기는 아마도 과장 될 수 있지만, 특히 ChatGPT4O를 훈련시키는 데 지출 된 1 억 달러에 비해 R1의 DeepSeek의 5 백만 달러에 비해 경쟁 우위는 부인할 수 없습니다. 이 사례는 잘 자금을 지원하고 독립적 인 AI 회사가 기존 플레이어에게 도전 할 가능성을 강조하지만, 상당한 투자는 여전히 중요한 요소입니다.