Test Time Scaling Law远未达到上限! o4-mini仅15.8%通过率,华为诺亚提出代码HLCE终极基准
本文的第一作者为华为诺亚研究员李向阳,毕业于北京大学,开源组织 BigCode 项目组成员。此前他们团队曾经推…
本文的第一作者为华为诺亚研究员李向阳,毕业于北京大学,开源组织 BigCode 项目组成员。此前他们团队曾经推…
马斯克搭帐篷熬夜开发有效果了?这么高跑分,还不发布。 刚刚,Grok 4 和 Grok 4 Code 的基准测…
本论文共同第一作者闫泽轩和马跃分别是上海交通大学人工智能学院2025级研究生,以及香港科技大学2024级博士生…
本文第一作者叶锐,上海交通大学博士三年级,研究方向是大模型多智能体,联邦学习,博士导师陈思衡,上海交通大学人工…
没等来 DeepSeek 官方的 R2,却迎来了一个速度更快、性能不弱于 R1 的「野生」变体! 这两天,一个…
如果告诉你,AI在推箱子等游戏场景上训练,能让它在几何推理与图表推理上表现更好,你会相信吗? 复旦NLP实验室…
本文第一作者为 Virginia Tech 计算机系博士 Candidate 曾欣悦,研究聚焦于提升大语言模型…
编辑 | 萝卜皮 人工智能(AI)的进步有望实现自主科学发现,但大多数系统仍在重复训练数据中潜藏的知识。 几个…
编辑 | ScienceAI 随着有机合成、材料开发、药物筛选等领域走向高度自动化,实验流程的标准化与可执行性…
大语言模型(LLM)以生成能力强而著称,但如何能让它「听话」,是一门很深的学问。 基于人类反馈的强化学习(RL…