750南京海雀大X商购入P100很新,一眼IDC,因为是HBM所以要多保几个月。不过这个和Vega的又不一样,P100的HBM频率太怂了,不容易坏。因为没找到vbios超频无意义,但和公版的核心boost都差距300mhz,频率上去跑分差距就不大了。16g不咋推荐买,上P40吧,那玩意好改散热,这核心有hbm还不好找兼容的散热,但我用大涡轮还是很静音。hotspot88度左右,满载几乎无噪音。
p100是GP100,比P40的GP102少300个cuda核心,然后GPU频率和显存频率都低一点
HBM虽然带宽大,但是延迟会高一些。P40其实有半精度,是1比64的。
只能说2080ti22g秒完了。
处理器: AMD Ryzen 5 5600 6-Core 六核
主板: 技嘉 X470 AORUS ULTRA GAMING-CF ( 5001 )
内存: 32GB DDR4 3200MHz ( 16GB + 16GB )
显卡: AMD Radeon (TM) R9 390 Series ( 4GB / 迪兰恒进 )
NVIDIA Tesla P100-PCIE-16GB ( 16GB / 英伟达 )
系统:Windows10 22H2 Build 19045
跑在WDDM,至于TCC有没有差异懒得测了,反正就这速度,大伙还想看什么测试,可以补在评论区。
然后开启了显存ECC,这HBM实现ECC的方式不一样,不额外吃显存,跑sd差别应该不是很大。P40开启ECC显存还剩22.5g。
使用版本:WebUI v1.7.0 • python: 3.10.11 • torch: 2.0.1+cu118 • xformers: 0.0.21 • gradio: 3.41.2 • checkpoint: 7f96a1a9ca
(masterpiece, best quality, high quality, highres, ultra-detailed),masterpiece,realistic,photo-realistic,
1girl,(Kpop idol),cute,cityscape,night,rain,wet,professional lighting,photon mapping,radiosity,physically-based rendering,
Negative prompt: (worst quality, low quality, normal quality),EasyNegativeV2,badhandv4,
Steps: 30, Sampler: Euler a, CFG scale: 7, Seed: 3420010621, Size: 512x512, Model hash: 7f96a1a9ca, Model: anything-v5-PrtRE, VAE hash: f921fb3f29, VAE: animevae.pt, Clip skip: 2, TI hashes: "EasyNegativeV2: 339cc9210f70, badhandv4: 5e40d722fc3d", Version: v1.7.0
第一次
用时:12.0 sec.
A: 2.70 GB, R: 3.09 GB, Sys: 4.9/16 GB (30.7%)
用时:11.8 sec.
A: 2.70 GB, R: 3.09 GB, Sys: 4.9/16 GB (30.7%)
用时:11.8 sec.
A: 2.71 GB, R: 3.10 GB, Sys: 4.9/16 GB (30.9%)
时间没减少,说明没卡带宽,隔壁P104就卡了。
单次跑8张用时:53.8 sec.比单次快很合理吧
A: 3.33 GB, R: 5.61 GB, Sys: 7.4/16 GB (46.5%)
禁用xfomers
用时:13.4 sec.
A: 4.26 GB, R: 5.16 GB, Sys: 7.0/16 GB (43.6%)
意义不大。
对比隔壁P104
后续模型载入第二次之后:
Time taken: 13.66s
Torch active/reserved: 2899/4028 MiB, Sys VRAM: 5623/8192 MiB (68.64%)
差别不大
1920x1080
用时:3 min. 12.3 sec.
A: 7.17 GB, R: 16.10 GB, Sys: 16.0/16 GB (100.0%)
不是很懂为什么1080p居然爆显存了,可能是没开-media吧,但速度也没快多少。
sovits本来也想跑跑,懒。估摸着和p104差不到太多,属于是跑一次就是1天2天,再快也叫少几个小时,不如云端。gptsovits倒是很快,大概1.1it/s不到,几分钟的事情,也就没啥参考性了,再慢能满多少,16g显存batchsize拉16。推理更快了。ddsp比sovits快多了,也懒得测了,一个模型能用也就3小时左右。
最后呢测了下大模型,gemma-7b-it-fp16.gguf 全载入显存,17g多会炸显存,跑不动。int量化因为我用的LMStudio,可以载入内存和CPU分层计算,没啥参考性,总的来说q5量化速度很快,但7b的质量堪忧,14b质量也没啥提升,70b就得4卡P40咯,那就是能玩,吐字1s1个左右的水平。7B在本地总结个pdf还是有点堪忧的。
总结,意义不大,核心的限制导致无法发挥出HBM带宽优势。16g显存不上不下异常尴尬,原生FP16因为某些问题无法方便调用,显得很鸡肋。不值得购买。除非降到500以内。
但得益于优秀的双精度,在750的价格面前还是没得选。