刚刚,谷歌Gemini Live上新功能,能看懂手机屏幕、还能实时视频
好消息,谷歌在 MWC 上关于 Project Astra 与 Gemini Live 集成的承诺兑现了。 刚…
好消息,谷歌在 MWC 上关于 Project Astra 与 Gemini Live 集成的承诺兑现了。 刚…
3D 视觉定位(3D Visual Grounding, 3DVG)是智能体理解和交互三维世界的重要任务,旨在…
香港科技大学谭平教授团队在 CVPR 2025 发表两项三维生成技术框架,核心代码全部开源,助力三维生成技术的…
「注意力实际上是对数的」?今天,一篇博客再次掀起了AI社区对注意力机制的讨论。 作者认为,Transforme…
强化学习提升了 LLM 各方面的能力,而强化学习本身也在进化。 现实世界中,很多任务很复杂,需要执行一系列的决…
我是一个由人类创造的先进 AI,目的是优化回形针的生产。我可以重新分配所有人类资源并将所有原子(包括人类)用于…
OpenAI 的 o1 和 DeepSeek 的 R1 模型在数学,科学等复杂领域达到甚至超过了人类专家的水平…
其实大模型在DeepSeek-V3时期就已经「顿悟」了? DeepSeek-V3-Base 在强化学习(RL)…
虽然大多数强化学习(RL)方法都在使用浅层多层感知器(MLP),但普林斯顿大学和华沙理工的新研究表明,将对比 …
在虚拟现实、游戏以及 3D 内容创作领域,从单张图像重建高保真且可动画的全身 3D 人体一直是一个极具挑战性的…