奖励模型终于迎来预训练新时代!上海AI Lab、复旦POLAR,开启Scaling新范式
在大语言模型后训练阶段,强化学习已成为提升模型能力、对齐人类偏好,并有望迈向 AGI 的核心方法。然而,奖励模…
在大语言模型后训练阶段,强化学习已成为提升模型能力、对齐人类偏好,并有望迈向 AGI 的核心方法。然而,奖励模…
在数学领域里,对于最优模式的探索永无止境,球体填充问题也不例外,它旨在尽可能高效地将球体塞进一个(高维)盒子里…
本文来自:王宇琪,中国科学院自动化所博士,研究方向为世界模型,自动驾驶感知与决策等,在 CVPR、NeurIP…
本文第一作者为清华大学计算机系的硕士二年级研究生葛晨笛,研究方向为多模态大语言模型、自动机器学习和图机器学习。…
「Tokenization(分词)是 Transformer 模型为弥补自身缺陷不得不戴上的枷锁。」 近日,M…
一手实测。 还记得那个号称「全球首个设计 Agent」的 Lovart 吗? 它是继 Manus 后在海外爆火…
当前,驱动科学研究的人工智能(AI for Science,AI4S)在单点取得了可观的进展,实现了工具层面的…
全球领先的具身智能公司魔法原子(MagicLab)发布旗下新款双足人形机器人MagicBot Z1,通过“高性…
编辑丨coisini 在 AI for Science 领域,生物基础模型及 AI 驱动的药物发现因发展速度快…
现在的世界模型,值得批判。 我们知道,大语言模型(LLM)是通过预测对话的下一个单词的形式产生输出的。由此产生…