清华团队突破大模型算力难题 英伟达面临挑战
|
清华大学KVCache.AI团队联合趋境科技发布了KTransformers开源项目的重大更新,成功打破了大模型推理算力的门槛。这次更新支持在24G显存(4090D)的设备上本地运行DeepSeek-R1、V3的671B满血版。 KTransformers项目的核心在于异构计算策略。通过稀疏性利用,MoE架构每次仅激活部分专家模块,团队将非共享的稀疏矩阵卸载至CPU内存,并结合高速算子处理,使显存占用压缩至24GB。此外,项目采用了4bit量化技术,配合Marlin GPU算子,效率提升了3.87倍;CPU端通过llamafile实现多线程并行,预处理速度达到286 tokens/s。CUDA Graph加速减少了CPU/GPU通信开销,单次解码只需一次完整的CUDA Graph调用,生成速度可达14 tokens/s。 这一突破带来的影响显著。传统方案中,使用8卡A100服务器的成本超过百万,按需计费每小时数千元。而现在,单卡RTX 4090方案的整机成本约为2万元,功耗仅为80W,非常适合中小团队和个人开发者。NVIDIA RTX 4090运行DeepSeek-R1满血版的案例不仅展示了技术奇迹,也是开源精神与硬件潜能结合的典范。这证明了在AI快速发展的时代,创新往往源于对“不可能”的挑战。 |
在线投稿
-
相关阅读
-
印度65岁大象全身被涂粉色 两月后身亡引众怒
-
00后女留学生回国当职业扫墓人:每天鞠躬上百次 月薪4000元
-
将发拆完车装回视频!雷军:新一代SU7锁单超4万辆
-
谷歌发布Gemma 4大模型:31B登顶开源第三!手机可离线运行
-
男子花粉过敏 吃苹果后险窒息丧命 医生:这些水果也不能吃
-
马蹄是“最脏水果”?还能放心吃吗 专家:建议这么做
-
男子因逗鹦鹉发烧一周后住进ICU:出现这些症状不要硬扛
-
老人酒后泡澡死亡 浴池被判担责两成 法院:没履行巡查义务
-
精彩图片
-
严重污染!印度首都河面漂浮大量有毒泡沫
-
金饰价格突破800元/克大关
-
绝美!北京朝霞遇到平流雾
-
美国给以色列派先遣队,援助的“萨德”也将启用?
-
以总理住宅遭无人机袭击 以方反应强烈
-
美政府紧急调查以色列报复伊朗计划外泄事件
-
以军袭击加沙地带北部拜特拉希亚地区已致73人死亡
-
加沙民众:每时每刻都有屠杀发生 我们已是活死人
-
新帖速递
-
印度65岁大象全身被涂粉色 两月后身亡引众怒
-
00后女留学生回国当职业扫墓人:每天鞠躬上百次 月薪4000元
-
将发拆完车装回视频!雷军:新一代SU7锁单超4万辆
-
谷歌发布Gemma 4大模型:31B登顶开源第三!手机可离线运行
-
男子花粉过敏 吃苹果后险窒息丧命 医生:这些水果也不能吃
-
马蹄是“最脏水果”?还能放心吃吗 专家:建议这么做
-
男子因逗鹦鹉发烧一周后住进ICU:出现这些症状不要硬扛
-
老人酒后泡澡死亡 浴池被判担责两成 法院:没履行巡查义务

精彩评论文明上网理性发言,请遵守评论服务协议
共0条评论