自搜索强化学习SSRL:Agentic RL的Sim2Real时刻
本文由清华大学、上海人工智能实验室、上海交通大学等机构联合完成。第一作者为上海 AI Lab 博士生樊钰辰,研…
本文由清华大学、上海人工智能实验室、上海交通大学等机构联合完成。第一作者为上海 AI Lab 博士生樊钰辰,研…
9月1日,腾讯混元宣布将旗下刚刚获得国际翻译比赛冠军的模型开源,供开发者免费下载部署。这一模型命名为Hunyu…
9 月,不仅是返校的季节,对许多人来说,也意味着一个新的开始。无论你是重返校园的学生,还是希望在职业道路上寻找…
如今,人工智能已经成为科技发展的主流,尤其是 ChatGPT 问世以来,大语言模型(LLM)正在深刻影响社会、…
要指标还是更多有价值的论文,顶级学术会议似乎也面临着「to be or not to be」的难题。 Neur…
本研究由腾讯混元和中科院自动化所联合研发,团队成员包括 Jie Jiang, Qi Yang, Bolin N…
编辑丨& 不知道诸位读者都是否知道黑箱?这是指对特定的系统开展研究时,仅从其输入输出的特点了解该系统规…
清华大学、北京中关村学院、无问芯穹联合北大、伯克利等机构重磅开源RLinf:首个面向具身智能的“渲训推一体化”…
GRPO 就像一个树节点,从这里开始开枝散叶。 大语言模型的发展真是日新月异。 从 DeepSeek 横空出世…
欢迎关注中国科学院自动化研究所 & 北京中关村学院 & 芝加哥大学 & 西湖大学 &a…