ICLR 2025 Oral|差分注意力机制引领变革,DIFF Transformer攻克长序列建模难题
近年来,Transformer 架构在自然语言处理领域取得了巨大成功,从机器翻译到文本生成,其强大的建模能力为…
近年来,Transformer 架构在自然语言处理领域取得了巨大成功,从机器翻译到文本生成,其强大的建模能力为…
大型语言模型(LLM)通过海量数据训练获得强大能力,但也可能记忆敏感信息(如隐私数据、版权内容),引发法律和伦…
引言 分子对接(Molecular Docking)是用于预测小分子(Ligand)如何与目标蛋白质(Prot…
“连续4周千卡不间断训练、2个月完成模型迭代,先于Sora半年开放使用……” 2024年初,Sora的惊艳亮相…
大型语言模型 (LLM) 正在日益改变医疗应用。 然而,像 GPT-4o 这样的专有模型在临床应用方面面临巨大…
人工智能(AI)的迅速发展带来了算力需求的激增。量子计算一直被普遍认为具有高速、高效的优势,因此量子计算在 A…
聚是一团火,散是满天星。 硅谷新势力已经崛起,这些创业者来自 OpenAI。 作为 ChatGPT 的缔造者,…
最近,DeepSeek-R1 和 OpenAI o1/03 等推理大模型在后训练阶段探索了长度扩展(lengt…
钱成目前是伊利诺伊大学香槟分校 (UIUC) 一年级博士生,导师为季姮教授。本科就读于清华大学,导师为刘知远教…
大型语言模型(LLMs)在广泛的自然语言处理(NLP)任务中展现出了卓越的能力。然而,它们迅速增长的规模给高效…