大型语言模型稳定强化学习的新路径:几何平均策略优化GMPO
本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言…
本文主要作者:赵毓钟,中国科学院大学在读博士,微软亚洲研究院 MSRA 实习生,主要研究方向为多模态学习、语言…
在今年三月份,清华 AIR 和字节联合 SIA Lab 发布了 DAPO,即 Decoupled Clip a…
近年来,大语言模型(LLM)已展现出卓越的通用能力,但其核心仍是静态的。面对日新月异的任务、知识领域和交互环境…
2025 金融 AI 推理应用落地与发展论坛在上海举行。中国银联执行副总裁涂晓军、华为数字金融军团 CEO 曹…
本周一,在全球图形学领域顶级会议 SIGGRAPH 上,英伟达宣布了一系列新发布。 面向「物理 AI」的愿景,…
一直在探索,一直能搞定。 「我认为他是我们这个时代最优秀的计算机科学家之一。他是一位真正的智者,不仅懂得如何将…
具身智能「大脑」,更准确地,以「世界模型」为内核的具身智能「大脑」会成为 AI 下一阶段竞争焦点吗? 上世纪九…
编辑丨& 蛋白质维持生命,在全身发挥着许多重要的结构和功能作用。而与此同时,这些大分子给称为微蛋白(M…
光看图,你能猜出这是哪儿吗? 当同事出差回来扔到群里这么一张图,我们也是猜了半天,但毫无头绪。 直到另一位同事…
宁波东方理工大学将于 11 月 8 日至 9 日组织召开 2025 甬江论坛。我们诚邀有意加盟东方理工的海内外…