一文读懂DeepSeek,大模型&算力应用将迎来结构性变化
智圈l 进“智车行家自动驾驶行业交流群”,请加微信18512119620(微信同)
导读

DeepSeek 近期成为科技圈最炙手可热的明星企业:DeepSeek 近期分别发布大模型 DeepSeek-v3 和推理模型 R1,前者在大模型主流榜单的开源模型中位列榜首,并与世界上最先进的闭源模型不分伯仲;后者性能对标 OpenAI 的 o1 正式版,在数学、代码和自然语言推理等任务上表现卓越。
以上两个模型均通过算法和架构的核心技术创新,大幅降低了训练成本和推理成本,为 AI 技术的普及与创新作出了卓越的贡献。DeepSeek 呈现出的算法创新、性能表现、开源属性等多重因素,将对 AI 应用与算力行业产生深远的影响。
如需获取完整版PDF报告,点击关注上方蓝字“智车行家”后回复“DeepSeek“领取
01
DeepSeek-V3、R1 模型推出后“火”遍全球
1、DeepSeek是坚持技术创新的中国大模型,中国模型出圈。
1.1 DeepSeek-V3 性能表现不输全球顶尖模型
2024 年 12 月 26 日,杭州深度求索(DeepSeek AI)发布 DeepSeek-V3 并同步开源,据介绍, DeepSeek-V3 多项评测成绩超越了 Qwen2.5-72B 和 Llama-3.1-405B 等其他开源模型,并在性能上和世界顶尖的闭源模型 GPT-4o 以及 Claude-3.5-Sonnet 不分伯仲。
具体而言,DeepSeek-V3 在知识类任务(MMLU, MMLU-Pro, GPQA, SimpleQA)上的水平相比前代 DeepSeek-V2.5 显著提升,接近当前表现最好的模型 Anthropic 公司于 2024 年 10 月发布的Claude-3.5-Sonnet-1022;
在长文本评测(DROP、FRAMES 和 LongBench v2 )方面,V3 平均表现也超越其他模型。在算法类代码场景(Codeforces),V3 远远领先于市面上已有的全部非 o1 类模型,并在工程类代码场景(SWE-Bench Verified)逼近 Claude-3.5-Sonnet-1022。
而在美国数学竞赛(AIME 2024, MATH)和全国高中数学联赛(CNMO 2024)上,DeepSeek-V3 大幅超过了其他所有开源闭源模型。
1.2 R1 模型实现了比肩 OpenAI o1 的推理能力
2025 年 1 月 20 日,DeepSeek 再次扔出重磅炸弹,发布了推理模型 R1,该模型在后训练阶段大规模使用了强化学习技术,在仅仅使用极少标注数据的情况下,极大提升了模型推理能力,在数据、代码、自然语言推理等领域均实现了比肩 OpenAI o1 模型的能力。
DeepSeek 不仅开源了 R1-Zero 和 R1 两个 660B 模型,还通过 DeepSeek-R1 的输出,蒸馏了 6 个小模型开源给社区,其中 32B 和 70B 模型在多项能力上实现了对标 OpenAI o1-mini 的效果。同时,DeepSeek 还修改了产品协议,支持用户进行“模型蒸馏”,即允许用户利用模型输出、通过模型蒸馏等方式训练其他模型。
除了开源相关模型外,DeepSeek-R1 上线 API,对用户开放思维链输出,服务定价为每百万输入 tokens 1 元(缓存命中)/ 4 元(缓存未命中),每百万输出 tokens 16 元,与 OpenAI o1 API 调用相比,继续保持超高的性价比。与此同时,DeepSeek 还上线了 APP 并更新官网,打开“深度思考”模式,即可调用最新版 DeepSeek-R1 完成各类推理任务。
DeepSeek-V3、R1 模型在产业中引发巨大反响
DeepSeek-V3、R1 两款模型最让人印象深刻的不仅在于其比肩业内最佳表现的性能,更在于超低的训练成本:如果按照 H800 GPU 每小时 2 美金的租赁费用计算,意味着 V3 模型正式训练仅仅需要 557.6 万美金, 而此前同等性能的模型则需要 0.6-1 亿美金。而 R1 模型是在 DeepSeek V3 的基础上,通过引入大规模强化学习(Reinforcement Learning)和多阶段训练,进一步提升推理能力的模型,据专家判断,在 V3 的基础上生产 R1 模型的成本可能非常低廉。
DeepSeek-V3、R1 两款模型的推出,犹如在 AI 行业投入了两颗重磅炸弹,DeepSeek 迅速成为科技产业最耀眼的明星企业,并引发了巨大的讨论与关注。相较于各科技巨头不断构建更大规模算力集群来训练更强大的模型,DeepSeek 向大家展示了通过精巧的算法优化,可以在低一个数量级算力消耗的情况下生产出顶尖性能的模型。
02
DeepSeek 模型训练与推理核心创新技术解析
2.1 DeepSeek-V3 模型采用了多项创新技术
据披露,DeepSeek-V3 为自研 MoE 模型,总参数 671B 参数,而每项任务仅激活 37B,在 14.8T token 上进行了预训练。DeepSeek-V3 实现了多项工程技术上的创新,包括通过 FP8 精度训练、 DualPipe双向流水线等技术降低训练成本,通过优化MoE负载均衡、多头潜在注意力机制(MLA)来降低推理成本,并通过多 Token 预测(MTP)以及模型蒸馏来进一步提升模型性能,最终取得了令人惊艳的效果。
从训练的角度,FP8 精度训练、DualPipe 双向流水线以及高效的跨节点通信等技术是工程领域创新的重点。
1) FP8精度训练:DeepSeek-V3将大部分计算密集型操作(如矩阵乘法)使用FP8精度进行,同时保留一些关键操作(如嵌入层、输出头、归一化操作等)的高精度(BF16 或 FP32),以确保训练的数值稳定性。在此基础上,进一步叠加细粒度量化、高精度累加、在线量化、低精度存储和通信等技术方法,成功实现了高效的 FP8 精度训练。这些创新不仅显著提高了训练速度和效率,还保持了模型的高性能,为大规模语言模型的训练提供了新的解决方案。
2) DualPipe 双向流水线:核心思想是将模型的不同层分配到不同的 GPU 上进行并行训练,并通过双向流水线调度来同时处理正向传播和反向传播。具体来说,它允许从流水线的两端同时输入微批次(micro-batches),从而最大化地利用计算资源并减少通信开销,该方法实现了高效的模型训练,为大规模分布式训练提供了强大的支持。
3) 跨节点通信技术:DeepSeek-V3 通过高效的跨节点全对全通信内核、通信和计算的重叠、定制化通信内核、低精度通信以及对未来硬件设计的建议,显著提高了跨节点通信的效率。这些技术不仅减少了通信开销,还提高了整体训练效率,为大规模分布式训练提供了强大的支持。
而在推理领域,DeepSeek-V3混合专家系统(MoE)和多头潜在注意力机制(MLA)是获得低成本、高质量推理结果的重要原因。
1) 混合专家系统(MoE):MoE 是一种将多个小型专家模型组合起来,共同完成任务的架构, MoE 可以显著增加模型的参数数量,而无需像稠密模型那样增加计算量。具体而言,V3 模型每项任务仅激活 370 亿个参数,大大降低了计算成本,同时保持了高性能。
2) 多头潜在注意力(MLA):多头潜在注意力机制增强了模型处理细微关系和同时管理多个输入的能力,使其对需要上下文深度的任务非常有效。如果以听一场演讲来类比,传统的注意力机制需要记住每个时间点的所有细节(就像记录每一秒的录音),而 MLA 则只提取关键信息(就像只记录每个重点句子),这样大大降低需要记忆的信息。
此外,DeepSeek-V3 还通过多令牌预测(MTP)和模型蒸馏技术提高了模型的性能。
1)多令牌预测(MTP):传统的语言模型通常只预测下一个令牌(token),而 MTP 则是在每个位置上,让模型预测多个未来的标记,从而提高模型的性能和效率。它不仅增加了训练信号的密度,还使模型能够更好地规划未来的表示,从而生成更连贯和准确的文本。
2)模型蒸馏技术:模型蒸馏(Knowledge Distillation)是一种将大型复杂模型(教师模型)的知识迁移到小型高效模型(学生模型)的技术。其核心目标是在保持模型性能的同时,显著降低模型的计算复杂度和存储需求。DeepSeek 利用强大的教师(R1)模型生成或优化数据,帮助小模型更高效地学习,此外,DeepSeek 通过监督微调(SFT)的方式,将教师模型的知识迁移到学生模型中。
2.2 R1-Zero 与 R1 模型尝试强化学习边界
为了获得推理能力更强的模型,DeepSeek 相继开发了 R1-Zero 和 R1 模型,其中 R1-Zero 尝试了不使用监督微调(SFT)、仅采用大规模强化学习(RL)的方式,而 R1 则在强化学习之前引入冷启动阶段,通过少量人工设计的长链思维(CoT)数据对基础模型进行初步监督微调,从而为强化学习提供更稳定、可读性更强的初始策略。
R1-Zero直接在基础模型上应用强化学习而不使用任何SFT数据,为了训练R1-Zero,DeepSeek采用了一种基于规则的奖励系统(而非神经奖励模型),该系统包含准确率奖励和格式奖励,其中前者负责评估响应是否正确,而后者确保模型在生成响应时遵循特定的结构要求。
而随着 RL 训练的持续推进,DeepSeek-R1-Zero 的性能呈现出稳步提升的趋势。此外,通过延长测试时间的计算,DeepSeek-R1-Zero 自然而然地获得了解决更复杂推理任务的能力,从生成数百个 token 到数千个 token,模型得以更深入地探索和优化其思维过程。
模型的「思考过程」会不断与最终的正确率奖励相互作用。当模型最初得出的答案并未得到较高奖励时,它会在后续的推理中「回头反省」,尝试补充或修正先前的思路,从而获得更高的奖励,通过这样的方式,模型在没有外部指导的情况下持续自主学习与迭代,最终具备了强大的推理能力。
R1-Zero 的目标是验证纯 RL 能否激发模型的自主推理能力,探索「无监督强化学习的潜力」,而 R1 则通过数据引导+多阶段优化,平衡推理性能和实用价值,目标是打造更符合人类偏好的通用推理模型。R1 的训练过程分为 4 个阶段:
1) 阶段 1(冷启动):使用少量高质量的 CoT 数据对基础模型进行微调,作为 RL 训练的初始起点,解决纯 RL 冷启动不稳定问题;
2) 阶段 2(推理导向的强化学习):在冷启动模型上进行 RL 训练,应用 GRPO 算法,结合规则奖励和语言一致性奖励,优化模型在数学、代码、逻辑等任务上的推理能力;
3) 阶段 3(拒绝采样+监督微调):使用上一阶段的 RL 模型进行拒绝采样,生成高质量的推理和非推理数据,并用这些数据对模型进行微调。侧重点是提升模型的综合能力,使其在写作、事实问答等多种任务上表现良好。
4) 阶段 4(全场景强化学习):在上一阶段 SFT 模型的基础上进行 RL 训练,侧重点是使模型在所有场景下都能表现良好,包括推理任务和非推理任务,对齐人类偏好,优化模型的实用性、无害性和多任务能力。
此外,为了获得更高效的小模型,并使其具有 DeekSeek-R1 的推理能力,DeepSeek 还对 Qwen 和 Llama 等开源模型进行了微调,使用的是上面 SFT DeepSeek-R1 的 80 万数据。研究结果表明,这种直接蒸馏方法显著提高了小模型的推理能力。在这里使用的基座模型是 Qwen2.5-Math-1.5B、Qwen2.5-Math-7B、Qwen2.5-14B、Qwen2.5-32B、Llama-3.1-8B 和 Llama-3.3-70B-Instruct。
03
DeepSeek 将对 AI 算力与应用产生结构性影响
3.1 DeepSeek 模型有望引发算力需求与市场结构变化
由于 DeepSeek-V3、R1 等模型通过算法与架构层面的多重创新大幅降低了训练端算力消耗,使得投资者对继续斥巨资构建超大规模算力中心的合理性和前景产生质疑,这导致了算力产业链相关企业在 R1 模型发布后暴跌,其中英伟达股价 1 月 27 日下跌 16.97%,市值蒸发约 5900 亿美金,创下美国上市公司单日市值损失记录,而博通公司股价跌幅一度接近 20%,收盘时下跌17.4%,台积电股价也大跌 13.3%。
训练算力长期看仍有前景和空间。从训练算力的角度,我们认为各模型厂商大概率将借鉴DeepSeek 公开的一系列优化方法,如 FP8 精度训练、跨节点通信、DualPipe 双向流水线与自身模型训练结合,探索更高效的模型训练方式。
不过,正如 Anthropic CEO Dario 所述:“训练越来越智能的模型的经济价值是如此之大,以至于任何成本收益几乎都会立即被吃掉——它们被重新投入到制作更智能的模型中,而我们最初计划花费的成本与此相同”。因此,在各模型公司仍致力于训练出性能更强大模型的目标指引下,庞大的训练集群将仍然被产业所追逐,因此,我们认为,训练算力需求从长期来看依然值得乐观。
“杰文斯悖论”有望在推理算力上再度印证。而从另一方面来看,开源模型和更低的推理成本将有助于应用的繁荣,从而对推理算力形成更加积极的影响。微软CEO纳德拉在社交平台上表示, “杰文斯悖论(Jevons Paradox)再次上演!随着 AI 变得更加高效和普及,我们将看到它的使用量激增,最终成为一种我们永远无法满足的商品。”
杰文斯悖论是一条知名的经济学理论,指当技术的进步导致某种资源的使用更加高效时,消费者或企业对它的使用需求可能会大幅增加,虽然其使用成本降低了,但总消耗最终反而会上升。这样的情况在当前的蒸汽机时代和内燃机时代都曾出现过,我们认为,随着推理成本的下降,AI 应用的广阔需求有望被激发,推理算力将具备更大的增长空间。
算力芯片行业格局是否生变值得关注。此前,英伟达凭借领先的计算与互联性能、强大的 CUDA生态,在 AI 算力芯片市场占据主导地位,但 DeepSeek 在跨节点通信方案上的优化,以及推理阶段的算力需求爆发潜力,让 AI 芯片厂商看到了突破口与希望。
AMD 在 1 月 25 日宣布已将新的 DeepSeek-V3 模型集成到 Instinct MI300X GPU 上;2 月 1 日,硅基流动与华为云联合推出基于昇腾云的 DeepSeek-R1&V3 推理服务,可获得持平全球高端 GPU 部署模型的效果,而 2 月 2日,DeepSeek 两款模型完成海光 DCU 适配并正式上线,意味着国产芯片与 DeepSeek 系列模型实现了无缝衔接。我们认为,DeepSeek 模型的开源性以及对芯片性能与生态要求的下降,可能会对 AI 芯片行业的格局产生一定影响。
此外,DeepSeek 在使用英伟达 A100、H800 等性能受限的芯片基础上训练出 V3、R1 等模型,使得是否要对中国进一步进行芯片限售成为热门话题。例如,Anthropic CEO 在万字长文中就提出要对中国进行更严格的芯片限制,而彭博社也援引知情人士报道称,美国正考虑进一步收紧英伟达(NVIDIA)芯片对华出口限制,可能将限制范围扩大至英伟达针对中国市场特供的符合出口管制规则的 H20 芯片。我们认为,如果英伟达等美国 AI芯片进一步受到限制,则可能对国产芯片的份额与需求产生进一步的影响。
3.2 AI 应用有望在高性能、低成本模型支撑下繁荣
自 ChatGPT问世以来,无论是大模型公司还是各类应用型企业均推出各类基于大模型的应用,寻找用户增长与商业闭环机会。近期我们关注到,无论是从产品用户数增长的角度,还是海外 B 端企业 AI 应用商业化落地的角度,均呈现积极的成果,基于大模型的商业化曙光已现。
从各类产品用户数及访问量来看,ChatGPT 网站端 24 年 12 月 3.4 亿用户产生 38 亿次的访问量, APP 端访问次数则超过 3 亿次,月度总访问次数超过 40 亿次,保持着明显的领先优势。在 Web端访问前 15 榜单来看,中国仅有纳米 AI 位列其中,而在 APP 端,则有豆包、Talkie AI 和 Kimi助手三款,其中豆包、Talkie AI 均位列前五,显示出中国 AI 应用在全球占有重要地位。
而伴随着 AI 应用在日常生活中发挥着越来越重要的作用,各类 AI 应用的付费用户也在增长,目前来看,2024 年付费用户最多的产品是微软的 Copilot,达到了 5574 万,百度文库紧随其后,达到 4000 万,而 Canva 和 ChatGPT 付费用户也超过了千万。
此外,大模型应用 Claude、智能文档与协作平台 Notion、AI 搜索应用 Perplexity、AI Coding 应用 Cursor 以及智能陪伴应用Character AI 也都榜上有名。用户愿意付费往往意味着产品已经触及到了其真正的需求,付费行为跨越了感兴趣和真正需要之间的鸿沟,是未来 AI 产品货币化的重要方向。
我们认为,此前 AI 应用的普及及其商业化还存在一定的困难,一方面在于模型性能仍然没法满足众多场景的需求,尤其是在推理能力和多模态环节,另一方面则是闭源模型性能领先但 API 调用的成本过高,影响了 AI 应用的大范围普及,我们认为,DeepSeek 的强推理能力、低算力成本、开源属性性有望推动 AI 应用的繁荣。
此外,不仅是 DeepSeek 系列模型,国内其他模型公司近期发布产品也取得了性能领先。如 1 月 20 日,月之暗面推出的全新 SOTA 模型 ——Kimi k1.5 多模态思考模型,在 short-CoT 模式下, Kimi k1.5 的数学、代码、视觉多模态和通用能力大幅超越了全球范围内短思考 SOTA 模型 GPT-4o 和 Claude 3.5 Sonnet 的水平,领先达到 550%;在 long-CoT 模式下,k1.5 推理能力达到长思考 SOTA 模型 OpenAI o1 正式版的水平。
1 月 29 日,阿里云通义千问旗舰版模型 Qwen2.5-Max 正式升级发布,据介绍,Qwen2.5-Max 模型是阿里云通义团队对 MoE 模型的最新探索成果,展现出极强劲的综合性能, 阿里云官微发文称,Qwen2.5-Max 比肩 Claude-3.5-Sonnet,并几乎全面超越了 GPT-4o、DeepSeek-V3 及Llama-3.1-405B。
我们认为,DeepSeek-V3、R1,月之暗面 Kimi k1.5,以及 Qwen2.5-Max 等国产模型的集体性突破,为国内 AI 应用的发展与繁荣打下良好的基础,未来拥有场景和用户资源的厂商可以以更好的性能、更低的成本提供产品和服务,与此同时,更开源的模型和更低的成本也意味着 AI 应用企业的商业模型将迎来更加积极正面的变化。
04
DeepSeek 将对 AI 算力与应用产生结构性影响
国内外芯片厂商和云服务厂商迅速响应,纷纷接入DeepSeek模型,在海外,以英伟达、微软、亚马逊为首的科技巨头率先采用DeepSeek,在国内,腾讯云和华为云已经上线DeepSeek相关服务。
➢英伟达:2025 年 1 月 31 日,英伟达(NVIDIA)宣布,NVIDIA NIM 已支持使用 DeepSeek - R1。英伟达官网同日发文指出,为助力开发者安全试验这些功能并构建专属代理,DeepSeek - R1 模型已作为 NVIDIA NIM 微服务预览版上线。

节选部分,篇幅有限,未完待续。。。
EAC2025
EAC自动驾驶与具身智能产业博览会预告:
时间:2025年6月4-6日
地址:杭州大会展中心
9大自动驾驶&具身智能&车载光学
创新论坛抢先预览
6月4-6日
1000+专业观众
第三届智能驾驶创新大会
》》“4大”主题专场
◎高阶智驾落地专场
◎域控 & EE架构专场
◎高精度定位专场
◎软件开发&测试专场
6月4-5日
1500+专业观众
第七届激光雷达前瞻技术展示交流会
》》“6大”主题专场
◎量产及其应用专场
◎硅光技术与FMCW专场
◎激光器专场
◎探测器专场
◎光束控制专场
◎材料&精密光学元件专场
6月6日
300+专业观众
第六届汽车视觉摄像头与CMS前瞻技术展示交流会
6月5日
200+专业观众
2025车载光通信前瞻技术展示交流会
6月6日
300+专业观众
第五届座舱感知与交互前瞻技术展示交流会
6月5-6日
500+专业观众
第六届抬头显示(HUD)前瞻技术展示交流会
6月6日
500+专业观众
2025具身智能前瞻技术展示交流会
6月4-5日
500+专业观众
第七届汽车毫米波雷达前瞻技术展示交流会
》》“3大”主题专场
◎4D成像雷达量产应用及芯片专场
◎天线&材料专场
◎关键技术&仿真测试专场
6月5-6日
300+专业观众
第三届智能线控底盘前瞻技术展示交流会
预登记报名正式开启!观众活动早鸟票限时注册开放!(扫描图片二维码即刻预登记↓↓)
2025年6月4-6日,杭州大会展中心,由易贸汽车联合产业链上下游共同主办的EAC2025自动驾驶与具身智能产业博览会将全面升级,持续打造“大会+展览+活动为一体”的一站式价值对接平台,高效呈现自动驾驶传感器&具身智能机器人产业链的饕餮盛宴,是满足和促进行业技术交流、商务合作和共赢发展的良好契机。主办方持续集聚全球顶尖的自动驾驶传感器&具身智能机器人领域企业和专家,共同探讨行业前瞻技术的发展和未来。
此次展会展品涵盖自动驾驶解决方案、具身智能机器人、零部件产品(域控制器、激光雷达、亳米波雷达、摄像头等)、车载光通信、软件产品(算法等)、元器件产品(发射模块、扫描模块、接收模块、激光器FPGA、芯片、光学部件等)、线控底盘、惯导、高精度定位、材料、工艺设备等众多领域。
这些新技术将为参展企业提供丰富的展示平台,邀请国内外超千位OEMs的技术工程、采购、质检专家,串联上下游供应商、创新型的产品、材料、仪器、设备、仿真与设计、解决方案等,展示最新产品技术,搭建供需交流平台,促进交易落地。
- PART 01 -
展馆分布
EAC2025易贸汽车产业展面积30000+m²,其中EAC2025智能驾驶和车载光学展馆位于杭州大会展中心8号展馆,馆内共设置了6大主题展区,包括成像&LIDAR&HUD&IMS&光学元件展区、毫米波雷达展区、具身智能机器人展区、高精度定位&导航展区、线控底盘展区、数据服务&仿真测试展区构成,预计专业观众规模将达到26000人,全面覆盖汽车智能驾驶和车载光学技术产业链领域,融合展示最新技术与产品。展品内容丰富多样,全方位呈现汽车智能驾驶和车载光学行业前沿动态与技术突破。
除了精彩的展览展示,EAC2025还将举办30+国际专业标杆论坛与交流会,汇聚全球最顶尖的行业专家和技术领袖,深度探讨智能驾驶、车载光学、新能源汽车、热管理等前沿话题。会议内容紧跟行业热点,直击技术难题,是您获取行业最新动态、了解未来趋势的重要平台。
2025EAC
往届重磅嘉宾精彩回顾



*向下滑动查看(排名不分先后)
近150位权威专家带来聚焦于成像、Lidar、Radar、Camera、HUD、IMS、CMS、芯片、具身智能机器人、舱内感知、底盘等9场智能驾驶和车载光学主题前瞻技术分享,核心圈层出席,共探技术与趋势。
智能驾驶与车载光学系列活动预览

EAC2025易贸汽车产业大会暨产业展
已正式开放观众预登记!观众早鸟票
‼️限时0元2000元
▼▼▼
2025参展参会扫码报名预登记
2025年我们为您提供定制及多样化的赞助机会,让您的品牌和产品信息准确曝光和送达目标客户群,扩大品牌的影响力,助力拓展市场和商业合作伙伴。
参展参会即刻注册↓↓
点击阅读原文立刻报名↓