首页 > 精选文章 > 【新闻热点】幻方量化 旗下 国产大模型发布DeepSeek-V3大模型:性能卓越且成本低廉

【新闻热点】幻方量化 旗下 国产大模型发布DeepSeek-V3大模型:性能卓越且成本低廉

原创 精选文章 2024-12-28 10:47:08 阅读:219人看过

12月26日晚,网传幻方量化旗下探索AGI(通用人工智能)的组织“深度求索(DeepSeek)”宣布,人工智能基础技术研究有限公司发布了全新版本的DeepSeek-V3模型,并同步开源。尽管在“AI六小虎”中相对低调,但凭借其开源特性和显著的成本优势,DeepSeek-V3一经推出便迅速赢得了国际专家的高度评价。



著名AI研究者、OpenAI创始成员之一Andrej Karpathy对DeepSeek-V3给予了高度评价。他表示:“今天,一家中国AI公司轻而易举地发布了一个前沿大语言模型,仅使用2048块GPU训练了两个月,总成本约为600万美元。相比之下,达到同等水平的其他模型通常需要约1.6万块GPU集群的支持,而当前正在部署的集群甚至包含近10万块GPU。”他还指出,Llama 3405B模型使用了3080万GPU/小时的训练时间,而DeepSeek-V3仅需280万GPU/小时,计算量减少了约11倍。如果该模型能够通过各项评估,这将是资源受限条件下研究与工程能力的一次令人印象深刻的展示。



根据深度求索官方公布的信息,DeepSeek-V3在多项评测中超越了Qwen2.5-72B和 Llama-3.1-405B等其他开源模型,并在性能上与世界顶尖的闭源模型GPT-4o及Claude-3.5-Sonnet不相上下。这一成就不仅证明了DeepSeek-V3的技术实力,也展示了其在实际应用中的潜力。



通过算法和工程上的创新,DeepSeek-V3的生成吐字速度从20TPS大幅提升至60TPS,相比V2.5版本实现了三倍的提升。此外,该公司还提供了极具竞争力的定价策略:每百万输入tokens的价格为0.5元(缓存命中)/ 2元(缓存未命中),每百万输出tokens的价格为8元。这种定价模式使得更多企业和开发者能够负担得起先进的AI技术,从而推动大规模应用的发展。



深度求索的成功并非偶然,其背后是团队对技术的不懈追求和持续的原创性创新。作为一家成立不久的AI创业公司,深度求索凭借其在AI领域的深耕细作,已经逐渐成为业界的佼佼者。未来,随着AI技术的不断进步和应用的不断深化,深度求索将继续发挥其在技术创新方面的引领作用,推动中国乃至全球的AI产业发展。



DeepSeek-V3的发布标志着国产大模型在全球AI竞赛中迈出了坚实的一步。它不仅展示了中国公司在AI领域的强大实力,也为国内外市场提供了高性能、低成本的AI解决方案。我们期待看到更多像深度求索这样的企业,通过技术创新推动整个行业的进步和发展。




幻方量化  关联股票信息  

$每日互动Sz300766$:幻方二股东,技术负责人是每日互动的联合创始人,存在合作基础。

$卓创资讯 sz301299$:幻方作为大型私募,卓创资讯金融语料库。

$阳光照明sh600261$:购买幻方3亿产品,叠加电器出海,外销占比75%。

$飞利信Sz300287$:飞利信是目前市场采用MLA机制不多的上市公司,Multi-headlatent attention,就是多头注意力机制,简称MLA。

$南威软件sh603636$:在人工智能方面,基于多头注意力机制和增强特征金字塔方法,掌握了新型的生物认证技术。



版权声明:科技数宅倡导尊重与保护知识产权。未经许可,任何人不得复制、转载、或以其他方式使用本站《原创》内容,违者将追究其法律责任。本站文章内容,部分图片来源于网络,如有侵权,请联系我们修改或者删除处理。

精选推荐

热门文章

客服

扫码添加客服微信

热线

官方客服

如遇问题,请联系客服为您解决

电话客服:18600335645

客服微信:chx702

工作时间:9:00-18:00,节假日休息

公众号

扫码关注微信公众号