多模态扩散模型开始爆发,这次是高速可控还能学习推理的LaViDa
近段时间,已经出现了不少基于扩散模型的语言模型,而现在,基于扩散模型的视觉-语言模型(VLM)也来了,即能够联…
近段时间,已经出现了不少基于扩散模型的语言模型,而现在,基于扩散模型的视觉-语言模型(VLM)也来了,即能够联…
本文第一作者为上海交通大学计算机学院副教授刘卫文,研究方向为大模型智能体,大语言模型,个性化算法等。 近年来,…
在大语言模型(LLM)领域,推理效率是制约其实际应用的关键因素之一。谷歌 DeepMind 的 Gemini …
想象这样一个场景:你开发了一个由多个大型语言模型 Agent 组成的智能团队,它们协作完成复杂任务,比如一个 …
5月29日,以“具身智能,未来已来”为主题的2025张江具身智能开发者大会暨国际人形机器人技能大赛在上海浦东张…
太疯狂了!AI生成的嘻哈歌手唱Rap以假乱真,网友直呼「看不出破绽」。 来来来,眼尖的朋友请告诉我,下面这个嘻…
近年来随着大语言模型的爆火,旨在取代 Transformer 的高效模型架构及其预训练成为大模型领域的研究热点…
不要抗拒趋势 在微软 Build、谷歌 I/O、 Code with Claude 三大开发者大会接连登场的一…
在人类的认知过程中,视觉思维(Visual Thinking)扮演着不可替代的核心角色,这一现象贯穿于各个专业…
编辑 | 白菜叶 自然界中充满了尚未被人类发现的化学物质。探索这些化学物质可以加速新药研发、更深入理解生物过程…