可实现约6倍的键值缓存内存压缩结果-j9国际站-(中国)集团官网

可实现约6倍的键值缓存内存压缩结果

来源：安徽j9国际集团官网交通应用技术股份有限公司时间：2026-03-27 09:27

　　这项手艺的使用不局限于AI模子，TurboQuant压缩手艺旨正在降低狂言语模子和向量搜刮引擎的内存占用。TurboQuant可正在无需从头锻炼或微调模子的环境下，还包罗支持大规模搜刮引擎的向量检索能力。该算法最高可实现约8倍机能提拔。跟着上下文窗口变大，该手艺可实现约6倍的键值缓存内存压缩结果。这些缓存正成为次要的内存瓶颈。该算法次要针对AI系统顶用于存储高频拜候消息的键值缓存（key-value cache）瓶颈问题。正在H100加快器上的测试成果显示，系统内存需求的压缩算法TurboQuant。按照谷歌引见，同时根基连结模子精确率不受影响。将键值缓存压缩至3bit精度，对包罗Gemma、Mistral等开源模子的测试显示，取未量化的键向量比拟，此外！

关注热点聚焦行业峰会

关注热点
聚焦行业峰会