超越DeepSeek GRPO的关键RL算法,字节、清华AIR开源DAPO
DeepSeek 提出的 GRPO 可以极大提升 LLM 的强化学习效率,不过其论文中似乎还缺少一些关键细节,…
DeepSeek 提出的 GRPO 可以极大提升 LLM 的强化学习效率,不过其论文中似乎还缺少一些关键细节,…
本文由上海交通大学SJTU-MARL实验室与AGI-Eval评测社区联合团队撰写,第一作者张劭为上海交通大学博…
3 月 18 日,理想汽车自动驾驶技术研发负责人贾鹏在英伟达 GTC 2025 大会上发表主题演讲《VLA:迈…
编辑丨coisini 尽管大型语言模型(LLM)擅长复杂推理,但在适应特定领域时仍面临挑战,尤其是在需要空间推…
编辑 | 萝卜皮 抗体在现代医学中发挥着核心作用,但目前还没有完全在计算机中设计与特定表位结合的新型抗体的方法…
近日,IBM 在北京举行媒体及分析师沟通会,IBM 大中华区董事长、总经理陈旭东带领 IBM 高层分享了 IB…
OpenAI 又有重量级员工出走! 这次是后训练负责人、研究副总裁 William Fedus。 今天凌晨,F…
CLIP、DINO、SAM 基座的重磅问世,推动了各个领域的任务大一统,也促进了多模态大模型的蓬勃发展。 然而…
编辑 | Sia 谷歌家的 AI ,你咋又双叒叕搞事情啦! 今儿一早,谷歌的 Gemini 2.0 Flash…
时间的脚步来到 2025 年,人工智能领域依旧风起云涌。 从春节前火遍全球的 DeepSeek 开始,2025…