过去一周,DeepSeek连续开放了5个Infra项目的源代码,正当大家以为这场开源盛宴已经结束。3月1日,DeepSeek的彩蛋来了!开源周Day6,DeepSeek官方团队在开发者社区Github和知乎给出了DeepSeek-V3/R1推理系统的技术解读。通过优化吞吐和延迟,DeepSeek理论上一天的总收入达到了562027美元,成本利润率为545%。
敏锐的网友——如MenloVentures投资人Deedy翻译了这意味着什么:“理论ARR(年收入)2亿美元、利润率超过500%,这样的商业效率理应是一家值100亿美元的公司。818www威尼斯平台”
从2024年5月发布DeepSeekV2以来,DeepSeek模型服务就以“价格屠夫”示众,总是比行业其他模型便宜1/10左右,质疑DeepSeek亏本打价格战的声音也一直有。
通过这5天开放源代码以及今天的推理系统概述,这一疑虑也被打消,可以预见,模型推理价格越来越负担得起,且服务提供方也有的赚。这一事件的影响也可以通过社交平台网友展现出刷屏的惊喜得以一窥,“成本利润率545%,等于说你是在告诉我,我被Open AI抢劫了?开源周Day7的彩蛋是 AGI?”
一位AI领域的投资人表示,“官方技术解读表明,云平台和上下游通过部署DeepSeek的服务,理论上收益和利润率可以达到很高”。无论是对于提供在线推理、还是私有化部署等服务的供应商,都是利好。
在这波DeepSeek热中受益的云平台硅基流动创始人袁进辉也在第一时间发表了自己的感受,“DeepSeek官方披露大规模部署成本和收益,又一次颠覆了很多人认知。”但需要时间适配DeepSeek V3/R1模型架构,他表示“现在很多供应商还做不到这个水平,主要是V3/R1架构和其它主流模型差别太大了,由大量小专家组成,导致瞄准其它主流模型结构开发的系统都不再有效,必须按照DeepSeek报告描述的方法才能达到最好的效率,而开发这样的系统难度很高,需要时间”。
袁进辉进一步指出现在复现这样的推理服务的难度以及DeepSeek可能的战略思考,“幸好这周DeepSeek五连发已经把主要模块开源出来了,降低了社区复现的难度。这些成果充分体现了DeepSeek团队第一性原理的思考方式和强悍的意志,他们应该是首先是基于某些原因想到了用这样的模型结构,然后发现这样的结构无论是训练还是推理,要做好都有非常大的工程挑战,不过这些问题在他们工程团队来说并不是搞不定的,关键是花那么大力气做完是否有大的收益呢,在最终结果出来前,谁也说不准,他们还是赌了,结果是赌对了。也可能是反过来的,基于系统的出发点设计了这样一个全新的模型结构。”
在DeepSeek官方报告中也提示了DeepSeek-V3/R1推理系统的优化目标是:更大的吞吐,更低的延迟。配合技术解读,DeepSeek开源周放出的5个代码库带来的影响力才刚刚开始。
DeepSeek-V3/R1推理系统的优化目标是:更大的吞吐,更低的延迟。
为了实现这两个目标,我们的方案是使用大规模跨节点专家并行(Expert Parallelism / EP)。首先EP使得batch size大大增加,从而提高GPU矩阵乘法的效率,提高吞吐。其次EP使得专家分散在不同的 GPU上,每个GPU只需要计算很少的专家(因此更少的访存需求),从而降低延迟。
EP引入跨节点的传输。为了优化吞吐,需要设计合适的计算流程使得传输和计算可以同步进行。
EP涉及多个节点,因此天然需要Data Parallelism(DP),不同的DP之间需要进行负载均衡。
因此,本文的主要内容是如何使用EP增大batch size,如何隐藏传输的耗时,如何进行负载均衡。
由于DeepSeek-V3/R1的专家数量众多,并且每层256个专家中仅激活其中8个。模型的高度稀疏性决定了我们必须采用很大的overall batch size,才能给每个专家提供足够的expert batch size,从而实现更大的吞吐、更低的延时。需要大规模跨节点专家并行(Expert Parallelism / EP)。
Prefill:路由专家EP32、MLA和共享专家DP32,一个部署单元是4节点,32个冗余路由专家,每张卡9个路由专家和1个共享专家
Decode:路由专家EP144、MLA和共享专家DP144,一个部署单元是18节点,32个冗余路由专家,每张卡2个路由专家和1个共享专家
多机多卡的专家并行会引入比较大的通信开销,所以我们使用了双 batch重叠来掩盖通信开销,提高整体吞吐。
对于prefill阶段,两个batch的计算和通信交错进行,一个batch在进行计算的时候可以去掩盖另一个batch的通信开销;
对于decode阶段,不同阶段的执行时间有所差别,所以我们把attention部分拆成了两个stage,共计 5 个stage的流水线来实现计算和通信的重叠。
关于更多双batch重叠的细节,可以参考我们的profiling数据的 GitHub仓库:。
由于采用了很大规模的并行(包括数据并行和专家并行),如果某个GPU的计算或通信负载过重,将成为性能瓶颈,818www威尼斯平台拖慢整个系统;同时其他GPU因为等待而空转,造成整体利用率下降。因此我们需要尽可能地为每个GPU分配均衡的计算负载、通信负载。
核心问题:不同数据并行(DP)实例上的请求个数、长度不同,导致 core-attention 计算量、dispatch发送量也不同
优化目标:各GPU的计算量尽量相同(core-attention 计算负载均衡)、输入的token数量也尽量相同(dispatch发送量负载均衡),避免部分GPU处理时间过长
核心问题:不同数据并行(DP)实例上的请求数量、长度不同,导致core-attention计算量(与KVCache占用量相关)、dispatch发送量不同
优化目标:各GPU的KVCache占用量尽量相同(core-attention计算负载均衡)、请求数量尽量相同(dispatch 发送量负载均衡)
核心问题:对于给定 、MoE模型,存在一些天然的高负载专家(expert),导致不同GPU的专家计算负载不均衡
优化目标:每个GPU上的专家计算量均衡(即最小化所有 GPU 的dispatch接收量的最大值)
DeepSeek V3和R1的所有服务均使用H800 GPU,使用和训练一致的精度,即矩阵计算和dispatch传输采用和训练一致的FP8格式,core-attention计算和combine传输采用和训练一致的BF16,最大程度保证了服务效果。
另外,由于白天的服务负荷高,晚上的服务负荷低,因此我们实现了一套机制,在白天负荷高的时候,用所有节点部署推理服务。晚上负荷低的时候,减少推理节点,以用来做研究和训练。818www威尼斯平台在最近的24小时里(北京时间 2025/02/27 12:00 至 2025/02/28 12:00),DeepSeek V3和R1推理服务占用节点总和,峰值占用为278个节点,平均占用226.75个节点(每个节点为8个H800 GPU)。假定GPU租赁成本为2美元/小时,总成本为 $87072/天。
以上统计包括了网页、APP 和 API 的所有负载。如果所有tokens全部按照DeepSeek R1的定价 (注:DeepSeek R1 的定价:$0.14 / 百万输入tokens (缓存命中),$0.55 / 百万输入tokens (缓存未命中),$2.19 / 百万输出 tokens;当然我们实际上没有这么多收入,因为V3的定价更低,同时收费服务只占了一部分,另外夜间还会有折扣)计算,理论上一天的总收入为562027美元,成本利润率545%。
02月26日,第27届中国(海南)国际热带农产品冬季交易会在海口开幕,hthapp下载,万利记官网,银河二八杠网址,网上ag线日,中俄创意设计联盟启动 共促两国文化事业发展,球探比分,四人游戏,e世博体育外围,Od体育官网
02月26日,庆祝新中国成立75周年名家作品展在香港开幕,美高梅注册上分,云顶国际在线注册,心博天下官方下载,和记娱乐全站APP
02月26日生三孩奖13000元!江西多地出台生育“红包”必赢亚洲手机端登录下载美高梅网上平台入口爱游戏网页版可靠的彩票网投
02月26日广西贵港:茂谷柑丰收促农增收游艇会平台欧洲杯高清直播欢迎您88bifa下载华体育会app官方入口
02月26日,谢锋:稳定中美关系的希望和努力不应放弃,ob体育官网登录界面,尊龙论坛,威尼斯人网页版,德州牛仔怎么押注能赢
02月26日,十五运会和残特奥会广东赛区赛会志愿者招募启动,云顶平台网址,纳米体育平台怎么样,沙巴体育沙,365bet娱乐网址
02月26日台湾2023年经济增长率1.4%为14年来新低捕鱼上下分版体球网新版旧版手机比分菠菜行业网站排名金冠网上娱乐旧版
02月26日,国家先进计算产业创新(宜昌)中心正式“点亮”,黄宝国际真人投注,AOA怎么样,ROR登陆,和记ag
02月26日,6日至8日甘肃宁夏陕西将出现持续暴雨,盛世app下载安装,新宝登陆地址,365bet体育平台登录,澳门十大娱乐网站
02月26日,西藏申扎黑颈鹤进入孵化季,美高梅网址安卓版免费下载,抢庄游戏牛牛送福利,千亿网址是多少,永利会员登录网址
02月26日和评理 马尼拉应停止侵权挑衅 不要引火烧身玩火腾讯欢乐斗地主破解版下载AG真人接口线上牛牛国际电子娱乐
02月26日智慧康养难题如何破?官员、学者、业界在上海共同“把脉”游戏手机平台澳门吉尼斯人所有版本澳门网投手游pg电子游戏爆奖视频
02月26日河南前10个月出口电动汽车同比增长超七成亚娱注册彩金伟德账户验证亚星注册登录yabo888亚博网站
锐评WTT球星挑战赛多哈站,画眉广东多地气温跌破0℃ 广州山区出现冰挂lols10真钱注册官方澳博体育客户端下载巴黎人注册充值
无期迷途联动JOJO,机构:1月百城二手房价继续下跌《珠江片河流泥沙公报2023》发布九游平台网址皇冠游戏登录88线上游戏永利现金官网
无烟孽火,驻韩美军战斗机在韩国坠落快手电商双11 GMV同比强劲增长 泛货架商品卡GMV同比增长110%精准赌经报B(新图)亚州最佳网投bsport体育在线凯发娱乐最新官方网站
大指挥家: 弦上的真相,王者荣耀:荣耀之章碎月篇跨越一甲子的双向奔赴:“国家的孩子”回家了sunbet官网app首页爱体育app全站下载立博在线官网乐鱼娱乐APP网站
金真情迷,魏大勋百科已删除与秦岚关系谁来规范无人机飞手培训收费天博入口登录zoty中欧体育平台277开元app官网下载乐博入口
无人能敌,宜家 向价格战低头跨平台联合打造雷霆荣耀杯,斗鱼自制赛事体系再升级最新威尼斯人轮盘钱柜最新官网欢迎您在线体育滚球直播
本文为原创发表,并经本网编辑。转载此文章须经作者同意,并请附上出处及本页链接。