让模型自己找关键帧、视觉线索,小红书Video-Thinker破解视频推理困局
随着多模态大语言模型(MLLM)的飞速发展,“Thinking with Images” 范式已在图像理解和推…
随着多模态大语言模型(MLLM)的飞速发展,“Thinking with Images” 范式已在图像理解和推…
随着多模态大模型(MLLMs)的飞速发展,模型已经能够很好地理解视频中 “发生了什么(What)”,却无法精准…
新年第一天,DeepSeek 发布了一篇新论文,提出了一种名为 mHC (流形约束超连接)的新架构。 该研究旨…
为破解长期以来学界与业界难以对数据进行价值量化的困局,上海人工智能实验室(上海 AI 实验室)OpenData…
在 2025 年最后一天,一个名为 David Moss 的小哥完成了一项壮举: 成功实现世界上首次美国西海岸…
2025 年 12 月 1 日,硅谷再次拉响了「红色警报」。 不过这一次,发出警报的不是谷歌,而是 OpenA…
近年来,大模型的应用正从对话与创意写作,走向更加开放、复杂的研究型问题。尽管以检索增强生成(RAG)为代表的方…
GPU 涨价看来正在变成定局。 据一些科技媒体及供应链报告,英伟达、AMD 将在 2026 年初上调 GPU …
随着 ChatGPT、Gemini、DeepSeek-V3、Kimi-K2 等主流大模型纷纷采用混合专家架构(…
当 Sora 让世界看到了 AI 生成视频的惊艳效果,一个更深层的问题浮出水面:如何让生成的视频不只是「看起来…