×

【AI绘画】 P100 - 16G - PCIE 显卡 简要测试

hqy hqy 发表于2025-03-09 00:14:57 浏览63 评论0

抢沙发发表评论

现在p40和p100都算跌回去了,无聊,就玩玩。

750南京海雀大X商购入P100很新,一眼IDC,因为是HBM所以要多保几个月。不过这个和Vega的又不一样,P100的HBM频率太怂了,不容易坏。因为没找到vbios超频无意义,但和公版的核心boost都差距300mhz,频率上去跑分差距就不大了。16g不咋推荐买,上P40吧,那玩意好改散热,这核心有hbm还不好找兼容的散热,但我用大涡轮还是很静音。hotspot88度左右,满载几乎无噪音。



p100是GP100,比P40的GP102少300个cuda核心,然后GPU频率和显存频率都低一点

HBM虽然带宽大,但是延迟会高一些。P40其实有半精度,是1比64的。

只能说2080ti22g秒完了。


处理器: AMD Ryzen 5 5600 6-Core 六核

主板: 技嘉 X470 AORUS ULTRA GAMING-CF ( 5001 )

内存: 32GB DDR4 3200MHz ( 16GB + 16GB )

显卡: AMD Radeon (TM) R9 390 Series ( 4GB / 迪兰恒进 )

NVIDIA Tesla P100-PCIE-16GB ( 16GB / 英伟达 )

系统:Windows10 22H2 Build 19045 

跑在WDDM,至于TCC有没有差异懒得测了,反正就这速度,大伙还想看什么测试,可以补在评论区。

然后开启了显存ECC,这HBM实现ECC的方式不一样,不额外吃显存,跑sd差别应该不是很大。P40开启ECC显存还剩22.5g。

简单跑个分,小涡轮,没开全速,平均70度,hotspot大概80多
参考,只能说同为GP102,P100调度真怂啊。1080ti 9800分被橄榄了
可惜只能跑在pcie3 x8 我觉得没有瓶颈

使用版本:WebUI v1.7.0  •  python: 3.10.11  •  torch: 2.0.1+cu118  •  xformers: 0.0.21  •  gradio: 3.41.2  •  checkpoint: 7f96a1a9ca

第一次load速度。
第二次load速度。符合预期。

(masterpiece, best quality, high quality, highres, ultra-detailed),masterpiece,realistic,photo-realistic,
1girl,(Kpop idol),cute,cityscape,night,rain,wet,professional lighting,photon mapping,radiosity,physically-based rendering,
Negative prompt: (worst quality, low quality, normal quality),EasyNegativeV2,badhandv4,
Steps: 30, Sampler: Euler a, CFG scale: 7, Seed: 3420010621, Size: 512x512, Model hash: 7f96a1a9ca, Model: anything-v5-PrtRE, VAE hash: f921fb3f29, VAE: animevae.pt, Clip skip: 2, TI hashes: "EasyNegativeV2: 339cc9210f70, badhandv4: 5e40d722fc3d", Version: v1.7.0

第一次

用时:12.0 sec.

A: 2.70 GB, R: 3.09 GB, Sys: 4.9/16 GB (30.7%)

用时:11.8 sec.

A: 2.70 GB, R: 3.09 GB, Sys: 4.9/16 GB (30.7%)

用时:11.8 sec.

A: 2.71 GB, R: 3.10 GB, Sys: 4.9/16 GB (30.9%)

时间没减少,说明没卡带宽,隔壁P104就卡了。

功耗跑不满


单次跑8张用时:53.8 sec.比单次快很合理吧

A: 3.33 GB, R: 5.61 GB, Sys: 7.4/16 GB (46.5%)


禁用xfomers

用时:13.4 sec.

A: 4.26 GB, R: 5.16 GB, Sys: 7.0/16 GB (43.6%)

意义不大。




对比隔壁P104

后续模型载入第二次之后:

Time taken: 13.66s

Torch active/reserved: 2899/4028 MiB, Sys VRAM: 5623/8192 MiB (68.64%)

差别不大



1920x1080

用时:3 min. 12.3 sec.

A: 7.17 GB, R: 16.10 GB, Sys: 16.0/16 GB (100.0%)

不是很懂为什么1080p居然爆显存了,可能是没开-media吧,但速度也没快多少。


sovits本来也想跑跑,懒。估摸着和p104差不到太多,属于是跑一次就是1天2天,再快也叫少几个小时,不如云端。gptsovits倒是很快,大概1.1it/s不到,几分钟的事情,也就没啥参考性了,再慢能满多少,16g显存batchsize拉16。推理更快了。ddsp比sovits快多了,也懒得测了,一个模型能用也就3小时左右。


最后呢测了下大模型,gemma-7b-it-fp16.gguf 全载入显存,17g多会炸显存,跑不动。int量化因为我用的LMStudio,可以载入内存和CPU分层计算,没啥参考性,总的来说q5量化速度很快,但7b的质量堪忧,14b质量也没啥提升,70b就得4卡P40咯,那就是能玩,吐字1s1个左右的水平。7B在本地总结个pdf还是有点堪忧的。



总结,意义不大,核心的限制导致无法发挥出HBM带宽优势。16g显存不上不下异常尴尬,原生FP16因为某些问题无法方便调用,显得很鸡肋。不值得购买。除非降到500以内。


但得益于优秀的双精度,在750的价格面前还是没得选。


打赏

本文链接:https://www.kinber.cn/post/4993.html 转载需授权!

分享到:


推荐本站淘宝优惠价购买喜欢的宝贝:

image.png

 您阅读本篇文章共花了: 

群贤毕至

访客