揭秘DeepSeek R1-Zero训练方式,GRPO还有极简改进方案
其实大模型在DeepSeek-V3时期就已经「顿悟」了? DeepSeek-V3-Base 在强化学习(RL)…
其实大模型在DeepSeek-V3时期就已经「顿悟」了? DeepSeek-V3-Base 在强化学习(RL)…
虽然大多数强化学习(RL)方法都在使用浅层多层感知器(MLP),但普林斯顿大学和华沙理工的新研究表明,将对比 …
在虚拟现实、游戏以及 3D 内容创作领域,从单张图像重建高保真且可动画的全身 3D 人体一直是一个极具挑战性的…
第一作者卢昊飞、第二作者吴哲,分别为清华大学计算机系在读硕士与博士研究生。通讯作者兴军亮教授长期致力于感知与博…
3 月 21 日,华为中国合作伙伴大会 2025 在深圳继续举行。 继大会首日系统阐述了战略、体系升级、政策变…
大模型时代,业界和学术界都涌现出了许多创新成果。 回顾年初到现在,短短几个月的时间,国内外已经出现了许多重大研…
偶然发现了一个很有趣的 AI 基准测试,点开链接,竟然是一个 MineCraft 作品投票页面? 如图所示,这…
近期,IEEE国际计算机视觉与模式识别会议( Conference on Computer Vision an…
2025年3月20日,人工智能领军企业实在智能在第八次新品发布会上正式推出行业通用智能体——实在 Agent,…
天猫率先给商家配备“AI设计助手”,可一键生成媲美实拍的场景图! 3月20日,在上海AWE2025展上,天猫…