【AI绘画】 P100 - 16G - PCIE 显卡简要测试

750南京海雀大X商购入P100很新，一眼IDC，因为是HBM所以要多保几个月。不过这个和Vega的又不一样，P100的HBM频率太怂了，不容易坏。因为没找到vbios超频无意义，但和公版的核心boost都差距300mhz，频率上去跑分差距就不大了。16g不咋推荐买，上P40吧，那玩意好改散热，这核心有hbm还不好找兼容的散热，但我用大涡轮还是很静音。hotspot88度左右，满载几乎无噪音。

p100是GP100，比P40的GP102少300个cuda核心，然后GPU频率和显存频率都低一点

HBM虽然带宽大，但是延迟会高一些。P40其实有半精度，是1比64的。

只能说2080ti22g秒完了。

处理器: AMD Ryzen 5 5600 6-Core 六核

主板: 技嘉 X470 AORUS ULTRA GAMING-CF ( 5001 )

内存: 32GB DDR4 3200MHz ( 16GB + 16GB )

显卡: AMD Radeon (TM) R9 390 Series ( 4GB / 迪兰恒进 )

NVIDIA Tesla P100-PCIE-16GB ( 16GB / 英伟达 )

系统：Windows10 22H2 Build 19045

跑在WDDM，至于TCC有没有差异懒得测了，反正就这速度，大伙还想看什么测试，可以补在评论区。

然后开启了显存ECC，这HBM实现ECC的方式不一样，不额外吃显存，跑sd差别应该不是很大。P40开启ECC显存还剩22.5g。

参考，只能说同为GP102，P100调度真怂啊。1080ti 9800分被橄榄了

使用版本:WebUI v1.7.0 • python: 3.10.11 • torch: 2.0.1+cu118 • xformers: 0.0.21 • gradio: 3.41.2 • checkpoint: 7f96a1a9ca

(masterpiece, best quality, high quality, highres, ultra-detailed),masterpiece,realistic,photo-realistic,
1girl,(Kpop idol),cute,cityscape,night,rain,wet,professional lighting,photon mapping,radiosity,physically-based rendering,
Negative prompt: (worst quality, low quality, normal quality),EasyNegativeV2,badhandv4,
Steps: 30, Sampler: Euler a, CFG scale: 7, Seed: 3420010621, Size: 512x512, Model hash: 7f96a1a9ca, Model: anything-v5-PrtRE, VAE hash: f921fb3f29, VAE: animevae.pt, Clip skip: 2, TI hashes: "EasyNegativeV2: 339cc9210f70, badhandv4: 5e40d722fc3d", Version: v1.7.0

第一次

用时:12.0 sec.

A: 2.70 GB, R: 3.09 GB, Sys: 4.9/16 GB (30.7%)

用时:11.8 sec.

A: 2.70 GB, R: 3.09 GB, Sys: 4.9/16 GB (30.7%)

用时:11.8 sec.

A: 2.71 GB, R: 3.10 GB, Sys: 4.9/16 GB (30.9%)

时间没减少，说明没卡带宽，隔壁P104就卡了。

单次跑8张用时:53.8 sec.比单次快很合理吧

A: 3.33 GB, R: 5.61 GB, Sys: 7.4/16 GB (46.5%)

禁用xfomers

用时:13.4 sec.

A: 4.26 GB, R: 5.16 GB, Sys: 7.0/16 GB (43.6%)

意义不大。

对比隔壁P104

后续模型载入第二次之后：

Time taken: 13.66s

Torch active/reserved: 2899/4028 MiB, Sys VRAM: 5623/8192 MiB (68.64%)

差别不大

1920x1080

用时:3 min. 12.3 sec.

A: 7.17 GB, R: 16.10 GB, Sys: 16.0/16 GB (100.0%)

不是很懂为什么1080p居然爆显存了，可能是没开-media吧，但速度也没快多少。

sovits本来也想跑跑，懒。估摸着和p104差不到太多，属于是跑一次就是1天2天，再快也叫少几个小时，不如云端。gptsovits倒是很快，大概1.1it/s不到，几分钟的事情，也就没啥参考性了，再慢能满多少，16g显存batchsize拉16。推理更快了。ddsp比sovits快多了，也懒得测了，一个模型能用也就3小时左右。

最后呢测了下大模型，gemma-7b-it-fp16.gguf 全载入显存，17g多会炸显存，跑不动。int量化因为我用的LMStudio，可以载入内存和CPU分层计算，没啥参考性，总的来说q5量化速度很快，但7b的质量堪忧，14b质量也没啥提升，70b就得4卡P40咯，那就是能玩，吐字1s1个左右的水平。7B在本地总结个pdf还是有点堪忧的。

总结，意义不大，核心的限制导致无法发挥出HBM带宽优势。16g显存不上不下异常尴尬，原生FP16因为某些问题无法方便调用，显得很鸡肋。不值得购买。除非降到500以内。