他们知乎官号发了一篇雄文,披露了【如何对DeepSeek V3/R1的推理系统进行优化】,文章有2大核心内容↓
一、如何通过优化架构,让模型推理获得更大的吞吐和更低的延迟
前两步可以提升吞吐、降低延迟,而第三步用于优化GPU的占用率。

二、测算一下:在这种优化架构下,按照目前DeepSeek官方的收费贵在,一天能赚多少钱
DeepSeek在文中给出了这样一个典型“优化推理”系统的投入产出比,也就是说,成本多少钱,能赚多少钱。这些数据是基于正在运营的线上系统实测得来的,可参考性极高。
看第一张图,最近24小时内(2月27日12点-2月28日12点),DeepSeek V3 和 R1 推理服务占用GPU节点总和↓

峰值占用为278个节点,平均占用 226.75个节点(每节点为 8个H800GPU)。如果按每GPU租金2美金/小时来计算,总成本为2×226.75×8×24=$87,072/天。而在对应的时间内,产生的Tokens数量和收入是多少呢?总输入:608B(其中56.3%命中cache);总输出:168B平均每台H800服务器的吞吐量为:73.7k tokens/s (输入)、14.8k tokens/s(输出)。不得不说,DeepSeek优化完的推理系统这个性能真是高啊!各家一体机厂商可以自己比一比,只有几K甚至几百tokens的单机还好意思拿出来么?接下就是收入估算,在这24小时里,理论总收入是$562027(折合人民币约409万),成本利润率高达545%!(当然DeepSeek官方也说了,实际收入每这么多,因为web版目前免费、API夜间还打折,还有V3比R1便宜)有圈内人士说,DeepSeek这个发布,为实际项目带来了极大的参考价值!这个数字几乎是算力生意ROI的天花板,大家再画饼的时候,不要要超过这个数哦,否则这饼就不圆了。
《DeepSeek-V3 / R1 推理系统概览》
原文链接:https://zhuanlan.zhihu.com/p/27181462601
打赏

支付宝微信扫一扫,打赏作者吧~
本文链接:https://www.kinber.cn/post/4985.html 转载需授权!
推荐本站淘宝优惠价购买喜欢的宝贝:
您阅读本篇文章共花了: