业界

AI“盗火者”DeepSeek，正立于风雪

时间：2025-01-31 22:41 阅读：

　　V3模型仅用了2048块GPU，训练了不到2个月，共花费约550多万美元。而GPT-4o模型训练成本约为1亿美元，这意味着DeepSeek的成本只有GPT-4o的1/20。

　　这归功于DeepSeek在新模型中，引入了诸如混合专家、低秩注意力、多token预测、FP8混合精度、GPU部署优化等多个创新设计和技术突破。使其在有限的资源算力下，实现了更高效的资源调度。

　　客观来看，DeepSeek的创新和开源极大加速了AI行业的发展进程。

　　有报道称，Meta已经成立了四个专门研究小组来研究DeepSeek的工作原理，并将基于此来改进旗下大模型Llama。

　　苹果CEO库克也在近日的投资者电话会议上，解释称这一具有颠覆性的新模型对苹果而言是一项积极进展。

　　在部分社交媒体的发言上，能看出DeepSeek的成功极大鼓舞了很多AI初创企业的从业人员对未来的信心。而相比之前，绝大部分初创企业受制于资金的限制而难以跻身行业前列。

　　因此，有观点认为DeepSeek帮助了整个AI行业实现了历史性的跨越。

　　截至目前，国际舆论对DeepSeek呈现出了较为矛盾的两极分化。例如在美国白宫质疑DeepSeek可能影响国家安全的前一天，特朗普才刚刚对其予以了较为积极的评价。

　　当前，DeepSeek并未回应任何质疑或指控，不过已经有多个国家或地区的相关部门对此作出反应。

　　意大利的Google Play 和苹果 App Store 已经率先下架DeepSeek应用。此前，意大利隐私监管机构 Garante 表示，正要求DeepSeek 提供关于个人数据使用问题的解释。

　　1月29日，澳大利亚国库部长吉姆·查默斯呼吁公民，在使用中国初创公司深度求索的人工智能模型时须谨慎。

　　1月30日，爱尔兰数据保护委员会要求DeepSeek就其人工智能大模型如何使用用户数据提交报告。

　　而美国的态度则让市场开始担忧，DeepSeek是否会继中兴、华为、抖音之后，成为另一个中美角逐的新战场。

　　当地时间1月31日，美国众议院首席行政事务官向国会办公室发出通知，警告国会办公室不要使用中国的人工智能应用DeepSeek的服务。

　　三天前，已有媒体曝光美国海军已要求人员避免以任何形式使用DeepSeek模型，基于“潜在安全和道德问题”。

　　美国商务部长提名人Howard Lutnick在提名确认听证会上称：DeepSeek“窃取美国知识产权”，承诺要在就任后严格执行对中国的出口管制，以阻止中国“使用美国的技术与美国竞争”。

　　Claude的创始人Dario Amodei在近日发表博客，称：DeepSeek的进展让美国对中国的芯片出口管制政策，比一周前更加关乎美国的“生[*]存[*]”，并要求美国加强对中国的芯片封锁。

　　此外，在1月30日凌晨，中国奇安信XLab实验室监测发现，针对DeepSeek、线上服务的攻击烈度突然升级，其攻击指令较1月28日暴增上百倍。奇安信安全专家透露，DeepSeek这次受到的网络攻击，IP地址都在美国。

　　360创始人周鸿祎则针尖对麦芒地宣布，将无偿为DeepSeek提供全方位网络安全防护，并同步在旗下纳米AI开通“DeepSeek高速专线高速专线和专属防攻击机房。

　　部分市场观点认为，DeepSeek证明了中国已经突破了美国实施的芯片和算力封锁。而不久前的1月13日，美国前总统拜登离任前刚刚签署，对AI计算数据中心的芯片建立了三级许可制度，限制了包括中国在的内多个国家对先进GPU的获取。

　　有业内人士判断，未来算力将不再是AI模型训练的瓶颈。这也是此次市场反应剧烈的原因。

　　当DeepSeek于1月20日发布新模型后，随着市场热度的不断飙升，最终引发了美股大型科技股集体暴跌，一天内蒸发了超过1.3万亿美元，粗略估算，相当于减少了超过10万亿元人民币。

　　周一，全球最大芯片公司英伟达跳水17%，市值蒸发近5900亿美元，创下美股公司单日市值最大蒸发的历史记录。不仅如此，包括芯片制造商博通公司、台积电、甲骨文、Marvell、美光科技等跌幅均在10%以上。造成当日美国纳斯达克指数也因此下滑了3.1%；费城半导体指数下跌9.15%。

　　此外，市场情绪还波及到了与AI关系密切的电力能源股，美国联合能源公司股价下跌21%，Vistra的股价下跌29%。

　　有传言称，DeepSeek母公司幻方量化做空了英伟达；也有观点认为DeepSeek绕过了英伟达所构建的行业生态，引发了市场对英伟达的价值重估。

　　但目前为止，没有迹象表明此次幻方量化通过做空英伟达或其他美股公司获利；而DeepSeek事实上也没有突破英伟达的行业生态。

　　据了解，CUDA是英伟达设计的基于GPU的通用并行计算和编程模型，也是英伟达所有产品和服务的坚实基座，由此构建出的软件和硬件生态是其最重要的护城河。

　　目前，业内绝大部分模型训练框架均需依赖CUDA内核，例如Pytorch是当前市场上主流的模型训练框架，而DeepSeek的模型也正是基于Pytorch的训练框架。

　　此外，CUDA与英伟达自己的GPU硬件结合得更加紧密，可以更有效地利用其性能。并且在多张GPU的通信方面，业内也普遍认可英伟达的效率更加高效。

　　因此，以目前DeepSeek的技术和规模还难以达到能绕开英伟达生态的程度。甚至由于AI大模型训练和部署效率的大幅提升，可能会吸引更多参与者入局，从而增加了市场整体对英伟达GPU产品的需求。

　　但无论如何，DeepSeek确实是让投资者开始重新审视AI科技股的估值方式，也极大地启发了业内对AI行业未来的创新模式和发展方向产生新的思考。