全民大炼AI的时代来了!运行Deepseek R1/V3的满血Q4_K_M 版本,仅需 14GB 显存和 382GB 内存。
清华大学的kvcache.ai团队发布的ktransformer大模型加载框架v0.3 Preview,提升本地加载满血deepseek 671b的运行效率。
预填充速度性能指标27.79 倍于llama.cpp
解码速度3倍于llama.cpp
github链接:
https://github.com/kvcache-ai/ktransformers
https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md
本文链接:https://www.kinber.cn/post/4824.html 转载需授权!
推荐本站淘宝优惠价购买喜欢的宝贝: