挑战GRPO,英伟达提出GDPO,专攻多奖励优化
GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年,GRPO 及其变体因其高效性和简洁性…
GRPO 是促使 DeepSeek-R1 成功的基础技术之一。最近一两年,GRPO 及其变体因其高效性和简洁性…
本文第一作者郭鹏鑫,香港大学博士生,研究方向是联邦学习、大模型微调等。本文共同第一作者王润熙,香港大学硕士生,…
最新消息,两名华人前谷歌资深研究员正创立一家全新的视觉 AI 公司,致力于打造能够同时理解和处理文本、图像、视…
2026 年 AI 的进化,势必会超过我们的想象。 1 月 10 日下午,在由清华大学基础模型北京市重点实验室…
说实话,现在有些创新我是真看不懂。 在 CES 2026 展会中,各大厂商卖力吆喝着「AI 改变世界」的同时,…
过去十年,我们几乎把 AI 领域的创新简化成一条公式:更多参数、更多数据、更多算力。可未来的突破,是否仍然只能…
在生成式 AI 狂飙突进的 2026 年,如果你让一个 AI 编程智能体来写网页应用,它很大概率会用到 Tai…
跨学科突破:神经科学如何让 Agent 拥有「人类式」记忆? 你是否想过 Agent 能像人类一样积累经验、不…
DeepSeek-OCR 的视觉文本压缩(VTC)技术通过将文本编码为视觉 Token,实现高达 10 倍的压…
我们为每位到现场的小伙伴准备了专属伴手礼,期待与你相聚新加坡滨海湾,共同度过一个难忘的夜晚。 点击此链接,预约…