久冉科技

业界

AI“盗火者”DeepSeek,正立于风雪

时间:2025-01-31 22:41 阅读:

  V3模型仅用了2048块GPU,训练了不到2个月,共花费约550多万美元。而GPT-4o模型训练成本约为1亿美元,这意味着DeepSeek的成本只有GPT-4o的1/20。

  这归功于DeepSeek在新模型中,引入了诸如混合专家、低秩注意力、多token预测、FP8混合精度、GPU部署优化等多个创新设计和技术突破。使其在有限的资源算力下,实现了更高效的资源调度。

  客观来看,DeepSeek的创新和开源极大加速了AI行业的发展进程。

  有报道称,Meta已经成立了四个专门研究小组来研究DeepSeek的工作原理,并将基于此来改进旗下大模型Llama。

  苹果CEO库克也在近日的投资者电话会议上,解释称这一具有颠覆性的新模型对苹果而言是一项积极进展。

  在部分社交媒体的发言上,能看出DeepSeek的成功极大鼓舞了很多AI初创企业的从业人员对未来的信心。而相比之前,绝大部分初创企业受制于资金的限制而难以跻身行业前列。

  因此,有观点认为DeepSeek帮助了整个AI行业实现了历史性的跨越。

  截至目前,国际舆论对DeepSeek呈现出了较为矛盾的两极分化。例如在美国白宫质疑DeepSeek可能影响国家安全的前一天,特朗普才刚刚对其予以了较为积极的评价。

  当前,DeepSeek并未回应任何质疑或指控,不过已经有多个国家或地区的相关部门对此作出反应。

  意大利的Google Play 和苹果 App Store 已经率先下架DeepSeek应用。此前,意大利隐私监管机构 Garante 表示,正要求DeepSeek 提供关于个人数据使用问题的解释。

  1月29日,澳大利亚国库部长吉姆·查默斯呼吁公民,在使用中国初创公司深度求索的人工智能模型时须谨慎。

  1月30日,爱尔兰数据保护委员会要求DeepSeek就其人工智能大模型如何使用用户数据提交报告。

  而美国的态度则让市场开始担忧,DeepSeek是否会继中兴、华为、抖音之后,成为另一个中美角逐的新战场。

  当地时间1月31日,美国众议院首席行政事务官向国会办公室发出通知,警告国会办公室不要使用中国的人工智能应用DeepSeek的服务。

  三天前,已有媒体曝光美国海军已要求人员避免以任何形式使用DeepSeek模型,基于“潜在安全和道德问题”。

  美国商务部长提名人Howard Lutnick在提名确认听证会上称:DeepSeek“窃取美国知识产权”,承诺要在就任后严格执行对中国的出口管制,以阻止中国“使用美国的技术与美国竞争”。

  Claude的创始人Dario Amodei在近日发表博客,称:DeepSeek的进展让美国对中国的芯片出口管制政策,比一周前更加关乎美国的“生[*]存[*]”,并要求美国加强对中国的芯片封锁。

  此外,在1月30日凌晨,中国奇安信XLab实验室监测发现,针对DeepSeek、线上服务的攻击烈度突然升级,其攻击指令较1月28日暴增上百倍。奇安信安全专家透露,DeepSeek这次受到的网络攻击,IP地址都在美国。

  360创始人周鸿祎则针尖对麦芒地宣布,将无偿为DeepSeek提供全方位网络安全防护,并同步在旗下纳米AI开通“DeepSeek高速专线高速专线和专属防攻击机房。

  部分市场观点认为,DeepSeek证明了中国已经突破了美国实施的芯片和算力封锁。而不久前的1月13日,美国前总统拜登离任前刚刚签署,对AI计算数据中心的芯片建立了三级许可制度,限制了包括中国在的内多个国家对先进GPU的获取。

  有业内人士判断,未来算力将不再是AI模型训练的瓶颈。这也是此次市场反应剧烈的原因。

  当DeepSeek于1月20日发布新模型后,随着市场热度的不断飙升,最终引发了美股大型科技股集体暴跌,一天内蒸发了超过1.3万亿美元,粗略估算,相当于减少了超过10万亿元人民币。

  周一,全球最大芯片公司英伟达跳水17%,市值蒸发近5900亿美元,创下美股公司单日市值最大蒸发的历史记录。不仅如此,包括芯片制造商博通公司、台积电、甲骨文、Marvell、美光科技等跌幅均在10%以上。造成当日美国纳斯达克指数也因此下滑了3.1%;费城半导体指数下跌9.15%。

  此外,市场情绪还波及到了与AI关系密切的电力能源股,美国联合能源公司股价下跌21%,Vistra的股价下跌29%。

  有传言称,DeepSeek母公司幻方量化做空了英伟达;也有观点认为DeepSeek绕过了英伟达所构建的行业生态,引发了市场对英伟达的价值重估。

  但目前为止,没有迹象表明此次幻方量化通过做空英伟达或其他美股公司获利;而DeepSeek事实上也没有突破英伟达的行业生态。

  据了解,CUDA是英伟达设计的基于GPU的通用并行计算和编程模型,也是英伟达所有产品和服务的坚实基座,由此构建出的软件和硬件生态是其最重要的护城河。

  目前,业内绝大部分模型训练框架均需依赖CUDA内核,例如Pytorch是当前市场上主流的模型训练框架,而DeepSeek的模型也正是基于Pytorch的训练框架。

  此外,CUDA与英伟达自己的GPU硬件结合得更加紧密,可以更有效地利用其性能。并且在多张GPU的通信方面,业内也普遍认可英伟达的效率更加高效。

  因此,以目前DeepSeek的技术和规模还难以达到能绕开英伟达生态的程度。甚至由于AI大模型训练和部署效率的大幅提升,可能会吸引更多参与者入局,从而增加了市场整体对英伟达GPU产品的需求。

  但无论如何,DeepSeek确实是让投资者开始重新审视AI科技股的估值方式,也极大地启发了业内对AI行业未来的创新模式和发展方向产生新的思考。