202503-04 摩尔线程新方法优化AI交互:显存节省最多82% NEW 摩尔线程科研团队近日发布了一项新的研究成果《Round Attention:以轮次块稀疏性开辟多轮对话优化新范式》,使得端到端延迟低于现在主流的Flash Attention推理引擎,kv-cache显存占用节省最多82%。摩尔线程新方法优化AI交互:显存节省最多82%近年来,AI大型语言模型的进步,推动了语言模型服务在日常问题解决任务中的广泛应用。然而,长时间的交互暴露出两大显著问题:首先,上下文长度的快速扩张因自注意力机制的平方级复杂度而导致巨大的计算开销;其次,尽管键值... Read More >