人工智能

DeepSeek爆火,春节C位出道

2025-02-05 17:14:44 | 来源:企业IT培训
春节期间

DeepSeek 无疑是最火爆的话题之一

在 DeepSeek 旗下大模型

DeepSeek-R1 “爆火”后

多个云平台宣布上线 DeepSeek 旗下模型

图片

2025 年的春节无疑已被 DeepSeek 霸屏。

过去三年每年的春节都有一次重磅的 AI 讨论:2023 年是 ChatGPT、2024 年是 Sora,这两股风潮都是由 OpenAI 掀起,而 2025 年则是 DeepSeek 的 V3 与 R1。

除夕当天 1 月 28 日,DeepSeek 更是趁热发布了文生图模型 Janus-Pro,但后者没有 V3 与 R1 吸引的关注大,原因在于其没有像前者一样动摇了过去基座大模型的「奇迹」来源:算力。

DeepSeek V3 的参数规模是 6710 亿,训练成本不到 560 万美元,训练时长在 280 万 GPU 小时。相比之下,GPT-4o 的训练成本约为 1 亿美元,Llama 3 405B 训练时长则为 3080 万 GPU 小时。

Meta 的 Llama 3 是用 16000 张 H00 训练,此前还计划在 2024 年囤卡 60 万张英伟达 GPU 去做模型升级;马斯克创立的 XAI 甚至囤卡 10 万张 H100 建数据中心。

根据媒体报道,DeepSeek V3 与 R1 发布后,Meta 在内的多家硅谷企业受到极大震撼,并开始质疑以往 OpenAI「大力出奇迹」的成功方法论,引起硅谷多家科技巨头的暴跌,比如英伟达一夜之间被干掉 4.3 万亿市值,相当于腾讯与美团两家中国互联网巨头加起来的市值。

对于 DeepSeek 带来的震撼,业界不难联想到「漂亮国将出台一系列制裁政策」等等往日常规反应。

值得注意的是,在 DeepSeek 给硅谷带来地震的不久前,1 月 15 日,美国才刚将中国最早的大模型创业公司「智谱 AI」列入实体清单。AI 1.0 时代,商汤、旷视等企业也被美国列入实体清单。被列入实体清单的一大掣肘就是难以购买海外英伟达生产制造的 GPU,其在短期内仍是基座大模型训练升级的一个重要条件。但 DeepSeek 的崛起证明了:

根据相关消息,DeepSeek 至今仍未计划对外融资,其主要依托幻方与梁文锋个人输血,但对中国其他大模型公司的融资与战略也将带来不小的震撼。据笔者观察,春节期间不仅硅谷动荡,国内其他几家主流的大模型公司也在加班拆解 DeepSeek 的模型秘籍。

DeepSeek 的崛起,肉眼可见将从以下几个角度影响中国大模型的竞争:

首先是技术创新的天花板被拉高。

DeepSeek 不是第一家提出「要在 OpenAI 以外创新」的大模型团队,此前其他国产大模型团队的创始人也提出过相似的观点,但 DeepSeek 是第一家通过发布新技术、身体力行践行了这一观点的团队。

V3 证明了训练千亿基座大模型的成本可以进一步将下降,R1 的独创(如完全用强化学习替代 SFT)证明了 OpenAI 并不是唯一能够提出 AGI 解法的公司。尽管 GPT-5 迟迟未发布、大模型一度被认为已停滞不前,但 DeepSeek 在近两个月的研究突破表明:大模型的潜在技术空间仍然是非常大的。

放弃预训练的团队,或许是资源不足,也或许是技术创新力不够。这也验证了大模型的技术创新在短期内存在高壁垒,应心存敬畏。

其次是「高效训练」的概念将得到重视。

在当前的第一梯队大模型公司中,「高效训练」并不占主流观点。例如,MiniMax 的大模型虽然也是采用 MoE 架构,但在其他高效训练的方法创新上不见明显发力。反而是第二梯队的面壁智能一度通过端侧模型引起业内关注。但在 DeepSeek 受追捧前,即使面壁智能、乃至一切企图颠覆 Transformer 架构的基座模型研究都不受重视。

此前大算力训练是基座模型厂商融资与构建壁垒的竞争砝码,但 DeepSeek V3 的参数规模为 6710 亿、训练成本却不足 560 万美金,过去大算力出奇迹的粗放方式也受到了质疑。接下来,高效模型不仅是 DeepSeek、面壁与通义等开源拥趸的追求,在其他模型团队的优先级上也会更加靠前。

高效训练的目标在于用更小的参数规模、更小的训练成本来实现更高的性能。以面壁小钢炮系列为例:MiniCPM 3.0 只有 4B 参数就能带来超越 GPT-3.5 的性能,量化后的内存仅 2GB;MiniCPM-o 2.6 的参数规模仅 8B 就逼近了 GPT-4o,而且实现了实时流式的全模态看听说,在“真视频”等很多功能上达到了以端胜云的效果。

DeepSeek 有训练条件,此前传出有一万张卡,其做法是先做大再做小,而面壁智能由于融资与算力所限,并没有采取先做大再做小的方法,而是直接做端侧小模型。蒸馏后的小模型更擅长特定任务,在部分任务上的表现或不如通用模型,但在个人移动设备的部署上已绰绰有余。未来或许可以结合定制化芯片开拓出新的市场。

降本三家企业同日宣布接入deepSeek

1 月 31 日,英伟达、亚马逊和微软这三家美国科技巨头在同一天宣布接入由中国企业开发的先进大语言模型 DeepSeek-R1。

其中,英伟达宣布 NVIDIA NIM 已经可以使用 DeepSeek-R1 模型。同日,亚马逊也表示 DeepSeek-R1 模型可以在 Amazon Web Services 上使用。微软也在同一天宣布将 DeepSeek-R1 正式纳入 Azure AI Foundry,成为该企业级 AI 服务平台的一部分。

DeepSeek-R1 被公认为是目前最先进的大语言模型之一,能够提供高质量的语言处理能力,这对于希望在其产品中集成最新 AI 功能的企业来说极具吸引力。

来源:应用观察

图片
标签: DeepSeek