太震撼！DeepSeek用226台H800服务器，日赚409万！

大周末的，DeepSeek悄么声放了个大招。

他们知乎官号发了一篇雄文，披露了【如何对DeepSeek V3/R1的推理系统进行优化】，文章有2大核心内容↓

一、如何通过优化架构，让模型推理获得更大的吞吐和更低的延迟

简单概括就是三板斧↓

① 大规模跨节点专家并行

② 计算-通信重叠优化

③ 多级负载均衡策略

前两步可以提升吞吐、降低延迟，而第三步用于优化GPU的占用率。

DeepSeek在线推理系统架构图

二、测算一下：在这种优化架构下，按照目前DeepSeek官方的收费贵在，一天能赚多少钱

DeepSeek在文中给出了这样一个典型“优化推理”系统的投入产出比，也就是说，成本多少钱，能赚多少钱。

这些数据是基于正在运营的线上系统实测得来的，可参考性极高。

看第一张图，最近24小时内(2月27日12点-2月28日12点)，DeepSeek V3 和 R1 推理服务占用GPU节点总和↓

峰值占用为278个节点，平均占用 226.75个节点（每节点为 8个H800GPU）。

如果按每GPU租金2美金/小时来计算，总成本为2×226.75×8×24=$87,072/天。

而在对应的时间内，产生的Tokens数量和收入是多少呢？

总输入：608B（其中56.3%命中cache）；总输出：168B

平均每台H800服务器的吞吐量为：73.7k tokens/s (输入)、14.8k tokens/s（输出）。

不得不说，DeepSeek优化完的推理系统这个性能真是高啊！

各家一体机厂商可以自己比一比，只有几K甚至几百tokens的单机还好意思拿出来么？

接下就是收入估算，在这24小时里，理论总收入是$562027（折合人民币约409万），成本利润率高达545%！

（当然DeepSeek官方也说了，实际收入每这么多，因为web版目前免费、API夜间还打折，还有V3比R1便宜）

但是，这个收益已经足够震撼！

只能说，DeepSeek真太牛了。

有圈内人士说，DeepSeek这个发布，为实际项目带来了极大的参考价值！

就是别瞎来！

因为，接下来对算力黄牛来说，挑战来了——

这个数字几乎是算力生意ROI的天花板，大家再画饼的时候，不要要超过这个数哦，否则这饼就不圆了。

详细文章，请移步知乎阅读原文

《DeepSeek-V3 / R1 推理系统概览》

原文链接：https://zhuanlan.zhihu.com/p/27181462601

本文链接：https://kinber.cn/post/4985.html 转载需授权！

分享到：

推荐本站淘宝优惠价购买喜欢的宝贝:

您阅读本篇文章共花了：

HQY