这项手艺的使用不局限于AI模子,TurboQuant压缩手艺旨正在降低狂言语模子和向量搜刮引擎的内存占用。TurboQuant可正在无需从头锻炼或微调模子的环境下,还包罗支持大规模搜刮引擎的向量检索能力。该算法最高可实现约8倍机能提拔。跟着上下文窗口变大,该手艺可实现约6倍的键值缓存内存压缩结果。这些缓存正成为次要的内存瓶颈。该算法次要针对AI系统顶用于存储高频拜候消息的键值缓存(key-value cache)瓶颈问题。正在H100加快器上的测试成果显示,系统内存需求的压缩算法TurboQuant。按照谷歌引见,同时根基连结模子精确率不受影响。将键值缓存压缩至3bit精度,对包罗Gemma、Mistral等开源模子的测试显示,取未量化的键向量比拟,此外!
