【新闻热点】幻方量化旗下国产大模型发布DeepSeek-V3大模型：性能卓越且成本低廉

原创精选文章 2024-12-28 10:47:08 阅读：518人看过

12月26日晚，网传幻方量化旗下探索AGI（通用人工智能）的组织“深度求索（DeepSeek）”宣布，人工智能基础技术研究有限公司发布了全新版本的DeepSeek-V3模型，并同步开源。尽管在“AI六小虎”中相对低调，但凭借其开源特性和显著的成本优势，DeepSeek-V3一经推出便迅速赢得了国际专家的高度评价。

著名AI研究者、OpenAI创始成员之一Andrej Karpathy对DeepSeek-V3给予了高度评价。他表示：“今天，一家中国AI公司轻而易举地发布了一个前沿大语言模型，仅使用2048块GPU训练了两个月，总成本约为600万美元。相比之下，达到同等水平的其他模型通常需要约1.6万块GPU集群的支持，而当前正在部署的集群甚至包含近10万块GPU。”他还指出，Llama 3405B模型使用了3080万GPU/小时的训练时间，而DeepSeek-V3仅需280万GPU/小时，计算量减少了约11倍。如果该模型能够通过各项评估，这将是资源受限条件下研究与工程能力的一次令人印象深刻的展示。

根据深度求索官方公布的信息，DeepSeek-V3在多项评测中超越了Qwen2.5-72B和 Llama-3.1-405B等其他开源模型，并在性能上与世界顶尖的闭源模型GPT-4o及Claude-3.5-Sonnet不相上下。这一成就不仅证明了DeepSeek-V3的技术实力，也展示了其在实际应用中的潜力。

通过算法和工程上的创新，DeepSeek-V3的生成吐字速度从20TPS大幅提升至60TPS，相比V2.5版本实现了三倍的提升。此外，该公司还提供了极具竞争力的定价策略：每百万输入tokens的价格为0.5元（缓存命中）/ 2元（缓存未命中），每百万输出tokens的价格为8元。这种定价模式使得更多企业和开发者能够负担得起先进的AI技术，从而推动大规模应用的发展。

深度求索的成功并非偶然，其背后是团队对技术的不懈追求和持续的原创性创新。作为一家成立不久的AI创业公司，深度求索凭借其在AI领域的深耕细作，已经逐渐成为业界的佼佼者。未来，随着AI技术的不断进步和应用的不断深化，深度求索将继续发挥其在技术创新方面的引领作用，推动中国乃至全球的AI产业发展。

DeepSeek-V3的发布标志着国产大模型在全球AI竞赛中迈出了坚实的一步。它不仅展示了中国公司在AI领域的强大实力，也为国内外市场提供了高性能、低成本的AI解决方案。我们期待看到更多像深度求索这样的企业，通过技术创新推动整个行业的进步和发展。

幻方量化关联股票信息

$每日互动Sz300766$：幻方二股东，技术负责人是每日互动的联合创始人，存在合作基础。

$卓创资讯 sz301299$:幻方作为大型私募，卓创资讯金融语料库。

$阳光照明sh600261$：购买幻方3亿产品，叠加电器出海，外销占比75%。

$飞利信Sz300287$：飞利信是目前市场采用MLA机制不多的上市公司，Multi-headlatent attention，就是多头注意力机制，简称MLA。

$南威软件sh603636$:在人工智能方面，基于多头注意力机制和增强特征金字塔方法，掌握了新型的生物认证技术。