不止于量化:最新综述用「时-空-构」三维视角解构KV Cache系统级优化
随着 LLM 向 1M 上下文演进,KV cache(键值缓存)已成为制约推理服务效率的核心瓶颈。自回归生成的…
随着 LLM 向 1M 上下文演进,KV cache(键值缓存)已成为制约推理服务效率的核心瓶颈。自回归生成的…
1月16日,支付宝联合千问App、淘宝闪购、Rokid、大麦、阿里云百炼等伙伴,正式发布ACT协议(Agent…
刚刚,Geoffrey Hinton 正式成为历史上第二位 Google Scholar 引用量突破 100 …
随着大模型步入规模化应用深水区,日益高昂的推理成本与延迟已成为掣肘产业落地的核心瓶颈。在 “降本增效” 的行业…
2026 年 1 月过半,我们依然没有等来 DeepSeek V4,但它的模样已经愈发清晰。 最近,DeepS…
本文作者包括来自杜克大学的高智辉、陈廷钧教授和 MIT 的 Dirk Englund 教授团队。高智辉,杜克大…
2026 年 1 月 15 日,萝博派对(Roboparty)在官方 GitHub 仓库正式完整开源双足人形机…
1 月 15 日,联发科(MediaTek)正式发布了天玑 9500s 和天玑 8500 移动芯片。 作为天玑…
原来,视频生成卷到极致,就是突破大脑和视觉的边界,让想象力进入 AI 构建的虚拟空间。 昨天,PixVerse…
今天对于 Thinking Machines Lab 和 OpenAI 来说都是不同寻常的一天。 Thinki…