没有归一化层的Transformer!刘壮带队,何恺明、Yann LeCun都参与了
何恺明又双叒叕发新作了,这次还是与图灵奖得主 Yann LeCun 合作。 这项研究的主题是没有归一化层的 T…
何恺明又双叒叕发新作了,这次还是与图灵奖得主 Yann LeCun 合作。 这项研究的主题是没有归一化层的 T…
本文来自港科与 MIT 教授团队。本文有两个共同一作:张鉴殊为武汉大学本科四年级,本篇为其在港科大访问期间完成…
编辑 | ScienceAI 过渡态(Transition State, TS)是化学反应的「关键帧」,就像群…
「国产大模型 + 国产引擎 + 国产芯片」的完整技术闭环正在加速形成。 随着 DeepSeek 引燃市场对于大…
给大模型落地,加入极致的务实主义。 DeepSeek 引领的新一轮 AI 技术爆发才刚开始,激烈的应用侧竞争也…
尽管 DeepSeek-R1 在单模态推理中取得了显著成功,但已有的多模态尝试(如 R1-V、R1-Multi…
本文的主要作者来自 VAST、北京航空航天大学、清华大学和香港大学。本文的第一作者为北京航空航天大学硕士生黄泽…
现在是 2025 年,新论文要以博客形式出现。 还有人沉浸在阅读论文的苦恼吗?面对 arXiv 上浩如烟海的学…
近日,中国人民大学 STILL 项目团队、北京智源研究院团队联合九章云极 DataCanvas 公司在大模型慢…
3月13日,由中关村科金与上海市人工智能行业协会联合主办的“DeepSeek企业应用之道——202…