2026 字
10 分钟
开放具身智能生态系统:MolmoSpaces

AI 的下一波浪潮将在物理世界中行动#

我们正处于AI发展的一个关键转折点。大语言模型在文本和图像领域已经取得了惊人的成就,但AI的下一个前沿是在真实的物理世界中行动,例如抓取物体、打开冰箱、在房间之间导航。这就是具身智能(Embodied AI)研究的核心目标。

然而,训练一个能够在真实世界中泛化的机器人,面临着一个基本矛盾:你需要海量的数据来训练,但在真实世界中采集数据既昂贵又缓慢。这就是仿真平台存在的意义,但过去的仿真环境往往物理引擎过于简化,资产规模有限,与真实世界差距太大。

2025 年 2 月,Allen AI(Ai2)发布了 MolmoSpaces,一个将物理仿真、大规模场景库、精细抓取标注三者统一的开放生态系统,目标是为具身智能研究提供一个真正可用的基础设施。

一、MolmoSpaces 的核心组件#

MolmoSpaces 不是一个单一工具,而是一个由多个组件构成的完整生态。

1.1 大规模场景库:23 万+ 室内环境#

MolmoSpaces 汇聚了超过 23 万个室内场景,涵盖住宅、办公室、教室、医院、学校、博物馆等多种类型。这些场景来自四个不同的来源:

来源规模生成方式
iTHOR-120120 个场景手工精心制作
ProcTHOR-10K1 万个场景启发式程序化生成
ProcTHOR-Objaverse大规模场景基于 Objaverse 资产的程序化生成
Holodeck大规模场景LLM 辅助的程序化生成

关键质量指标:超过 95% 的场景通过了碰撞检测和物体漂移验证测试,确保场景在物理仿真中是稳定可用的。

1.2 海量物体资产:13 万+ 3D 模型#

物体资产是机器人操作研究的核心。MolmoSpaces提供了超过 13 万个物体模型,全部以MJCF和USD格式提供:

来自THOR的资产:

  • • 1,600+ 个刚体可抓取物体实例,覆盖 134 个类别
  • • 这些是经过精心建模的高质量资产

来自 Objaverse 的资产:

  • • 从 62.5 万个候选资产中筛选出 12.9 万个高质量资产
  • • 覆盖约 3,000 个 WordNet 同义词集(synsets)
  • • 约 9.2 万个资产适合自动化场景填充

筛选标准极为严格,包括:

  • • 元数据完整性:确保每个资产都有充分的描述信息
  • • 尺度归一化:统一物体的物理尺度
  • • 纹理质量评分 ≥ 4:保证视觉保真度
  • • 跨渲染器保真度(CLIP 相似度 ≥ 0.6):确保在不同渲染器中表现一致
  • • 几何体积效率(< 1.5 MB):控制计算开销
  • • 容器验证:确保作为容器使用的物体功能正确

铰接物体(如冰箱、微波炉、烤箱、洗碗机、门、抽屉柜)则带有显式的关节标注,包含铰链/滑轨类型、轴向、位置和运动范围。

1.3 物理验证:告别”魔法抓取”#

这是 MolmoSpaces 最核心的技术亮点。过去的仿真平台常常使用简化的物理模型甚至”魔法抓取”(magic grasps),即机器人不需要真正地接触和握住物体,只要靠近就自动吸附。这种做法让仿真到真实世界的迁移(sim-to-real transfer)变得极其困难。

MolmoSpaces 采用 MuJoCo 等物理引擎,并对物理参数进行了严格验证:

刚体物理验证:

  • • 通过将仿真中的质量和密度值与 LLM 标注的估计值进行对比
  • • 迭代调整密度参数直到匹配

铰接物体验证:

  • • 使用遥操作套件控制仿真中的 Franka FR3 机械臂
  • • 通过真实的推方块、抓取已知重量物体的轨迹来优化关节属性
  • • Franka FR3 机械臂本身也经过了系统辨识(System Identification)验证

碰撞体准备:

  • • 使用 CoACD 算法生成碰撞体网格
  • • 为所有资产标注了基元碰撞体(primitive colliders)
  • • 以容器为主的刚体(桌子、柜子等)使用基元碰撞体以避免 mesh-mesh 接触问题
  • • 可操作物体使用凸分解(convex decomposition)以获得更高的几何保真度

1.4 抓取标注:4200 万+ 精细抓取位姿#

MolmoSpaces 包含超过 4200 万个 6-DoF 抓取位姿,覆盖 48,111 个物体(每个物体最多约 1,000 个抓取位姿),使用 Robotiq-2F85夹爪模型

抓取标注的生成流程值得关注:

  1. 1. 采样:直接从 MJCF 几何体上采样;对于铰接物体,限制在叶节点组件(通常是把手)上采样
  2. 2. 碰撞过滤:与非叶节点几何体碰撞的抓取被丢弃
  3. 3. 聚类选择:在完整的 6-DoF 位姿空间中进行聚类,然后在聚类间均匀选择,确保抓取多样性
  4. 4. 接触偏好:针对不同物体指定接触点偏好(例如指垫中部 vs. 薄物体使用指尖)
  5. 5. 稳定性测试:刚体抓取需通过线性和旋转扰动测试
  6. 6. 铰接物体可行性验证:要求在保持接触的同时,能够稳定地驱动关节至少 70% 的有效运动范围(双向)

二、MolmoSpaces-Bench:多维度评估框架#

传统的机器人操作评估通常只报告一个汇总的成功率数字,这掩盖了系统在不同条件下表现差异的细节。MolmoSpaces-Bench 提出了一种多维度系统性评估方法,沿以下独立轴进行变化:

评估维度说明
物体属性形状、尺寸、重量、铰接方式
布局多房间、多楼层、不同杂乱程度
任务复杂度从单步操作到层次化任务
感知条件光照变化、视角差异
动力学摩擦系数、质量变化
任务语义指令措辞的变化

支持的任务类型包括:

  • • 原子操作技能:抓取(pick)、放置(place)、打开(open)、关闭(close)
  • • 组合任务:原子技能的组合
  • • 导航目标:显式的导航任务

这种评估框架能够实现:

  • • 受控实验的分布分析
  • • 分布外(OOD)失败模式的识别
  • • 训练多样性对 sim-to-real 迁移的影响测量
  • • 系统性的真实世界验证支持

三、平台兼容性与数据采集#

多仿真器支持#

MolmoSpaces 的资产以 MJCF 和 USD 两种格式提供,显式支持以下仿真平台:

  • • MuJoCo —— 原生 MJCF 支持
  • • ManiSkill —— 直接兼容
  • • NVIDIA Isaac Lab/Sim —— 通过 USD 转换脚本支持

遥操作数据采集#

平台支持使用 Teledex 等移动设备进行遥操作数据采集。研究者可以直接通过手机收集操作演示数据,无需复杂的硬件配置。同时兼容 DROID 和 CAP 等已有的具身方案。

四、最后#

MolmoSpaces 的发布标志着具身智能研究基础设施的一次重大升级:

  1. 1. 规模前所未有:23万场景 + 13万物体 + 4200万抓取标注,这是目前已知最大规模的具身智能仿真生态
  2. 2. 物理真实性:告别简化物理和魔法抓取,每个物理参数都经过验证
  3. 3. 完全开放:代码、数据、演示全部开源,降低研究门槛
  4. 4. 评估标准化:MolmoSpaces-Bench 为社区提供了一个共同的、多维度的评估框架

从Ai2-THOR到MolmoSpaces,Allen AI团队延续了他们在开放仿真领域的一贯传统。Ai2-THOR系列已经证明了开放仿真平台如何加速机器人导航研究,而 MolmoSpaces将这一理念扩展到了机器人操作领域,并在物理保真度和资产规模上实现了质的飞跃。

资源链接#

开放具身智能生态系统:MolmoSpaces
https://blog.scidatalab.net/posts/开放具身智能生态系统-molmospaces/
作者
Echo
发布于
2026-02-20
许可协议
CC BY-NC-SA 4.0