字节Seed团队PHD-Transformer突破预训练长度扩展!破解KV缓存膨胀难题
最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展(lengt…
最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展(lengt…
钱成目前是伊利诺伊大学香槟分校 (UIUC) 一年级博士生,导师为季姮教授。本科就读于清华大学,导师为刘知远教…
大型语言模型(LLMs)在广泛的自然语言处理(NLP)任务中展现出了卓越的能力。然而,它们迅速增长的规模给高效…
《大规模语言模型:从理论到实践(第2版)》是一本理论与实践并重的专业技术书,更是AI时代不可或缺的知识工具书。…
团队由 IEEE 会士,纽约大学教授 Claudio Silva 和纽约大学研究助理教授钱靖共同指导。 论文由…
近些年,AI 领域的技术不断快速迭代,各种新名词层出不穷,MoE、强化学习、智能体、computer-use、…
最近,独角兽 AI 公司 Cognition AI(Cognition Labs)推出了一个开源项目——Dee…
论文有两位共同一作。郑凯文为清华大学计算机系三年级博士生,何冠德为德州大学奥斯汀分校(UT Austin)一年…
本文由上海人工智能实验室,悉尼大学,牛津大学联合完成。第一作者周恒为上海 ailab 实习生和 Indepen…
今日,阶跃星辰发布通用图像编辑模型 Step1X-Edit ,提供人人可用的多模态改图能力,可以帮用户完成日常…