NVIDIA Cosmos 3 发布:物理AI爆发时代近在眼前
来源:新浪财经 2026年6月2日
核心亮点
NVIDIA近日发布了 NVIDIA Cosmos™ 3——面向物理AI的开放世界基础模型。这款基于突破性的混合 Transformer(Mixture-of-Transformers)架构的新模型,将视觉推理、世界生成和动作预测集成至单一系统中,标志着物理AI迈向新里程碑。
什么是物理AI?
物理AI(Physical AI)指的是让机器人、智能汽车等实体设备具备感知、推理、规划和行动能力的AI技术。简单来说,就是让AI不只是"纸上谈兵",而是能在真实物理世界中完成任务。
传统上,这类系统的训练和评估周期长达数月,而Cosmos 3将其缩短至数天。
Cosmos 3 的核心突破
1. 混合 Transformer 架构
Cosmos 3将推理Transformer与专家生成Transformer相结合,使其能够在生成视频和动作轨迹前,先完成对对象交互、运动及时空关系的解析。
2. 全模态理解与生成
Cosmos 3能够以领先的物理精度原生理解并生成:
- 文本
- 图像
- 视频
- 环境音
- 动作
3. 多领域领先
在多个权威基准测试中取得榜首成绩:
- Artificial Analysis 世界生成精确性
- Physics-IQ 物理模拟准确率
- PAI-Bench 和 R-Bench 动作策略
4. 超大规模数据集
模型在包含数十亿条文本、图像、视频、声音和动作轨迹样本的多模态物理AI数据集上训练而成,为开发者提供了强大的预训练基础。
黄仁勋说
"得益于多模态推理语言、视觉和世界模型领域的多项突破,物理AI爆发的时代已近在眼前。Cosmos 3系列开放前沿全模态模型,助力开发者在构建机器人、智能汽车和视觉AI方面实现了代际飞跃。"
—— NVIDIA 创始人兼首席执行官 黄仁勋
这意味着什么?
- 机器人技术飞跃:机器人可以在训练数据有限的情况下,在真实世界中进行泛化
- 自动驾驶加速:智能汽车的感知和决策能力大幅提升
- 开发成本降低:以更少的数据和更低的训练成本构建AI系统
本文为整理编译,原作者:文猛,来源:新浪财经
评论