开放具身智能生态系统：MolmoSpaces

AI 的下一波浪潮将在物理世界中行动#

我们正处于AI发展的一个关键转折点。大语言模型在文本和图像领域已经取得了惊人的成就，但AI的下一个前沿是在真实的物理世界中行动，例如抓取物体、打开冰箱、在房间之间导航。这就是具身智能（Embodied AI）研究的核心目标。

然而，训练一个能够在真实世界中泛化的机器人，面临着一个基本矛盾：你需要海量的数据来训练，但在真实世界中采集数据既昂贵又缓慢。这就是仿真平台存在的意义，但过去的仿真环境往往物理引擎过于简化，资产规模有限，与真实世界差距太大。

2025 年 2 月，Allen AI（Ai2）发布了 MolmoSpaces，一个将物理仿真、大规模场景库、精细抓取标注三者统一的开放生态系统，目标是为具身智能研究提供一个真正可用的基础设施。

一、MolmoSpaces 的核心组件#

MolmoSpaces 不是一个单一工具，而是一个由多个组件构成的完整生态。

1.1 大规模场景库：23 万+ 室内环境#

MolmoSpaces 汇聚了超过 23 万个室内场景，涵盖住宅、办公室、教室、医院、学校、博物馆等多种类型。这些场景来自四个不同的来源：

来源	规模	生成方式
iTHOR-120	120 个场景	手工精心制作
ProcTHOR-10K	1 万个场景	启发式程序化生成
ProcTHOR-Objaverse	大规模场景	基于 Objaverse 资产的程序化生成
Holodeck	大规模场景	LLM 辅助的程序化生成

关键质量指标：超过 95% 的场景通过了碰撞检测和物体漂移验证测试，确保场景在物理仿真中是稳定可用的。

1.2 海量物体资产：13 万+ 3D 模型#

物体资产是机器人操作研究的核心。MolmoSpaces提供了超过 13 万个物体模型，全部以MJCF和USD格式提供：

来自THOR的资产：

• 1,600+ 个刚体可抓取物体实例，覆盖 134 个类别
• 这些是经过精心建模的高质量资产

来自 Objaverse 的资产：

• 从 62.5 万个候选资产中筛选出 12.9 万个高质量资产
• 覆盖约 3,000 个 WordNet 同义词集（synsets）
• 约 9.2 万个资产适合自动化场景填充

筛选标准极为严格，包括：

• 元数据完整性：确保每个资产都有充分的描述信息
• 尺度归一化：统一物体的物理尺度
• 纹理质量评分 ≥ 4：保证视觉保真度
• 跨渲染器保真度（CLIP 相似度 ≥ 0.6）：确保在不同渲染器中表现一致
• 几何体积效率（< 1.5 MB）：控制计算开销
• 容器验证：确保作为容器使用的物体功能正确

铰接物体（如冰箱、微波炉、烤箱、洗碗机、门、抽屉柜）则带有显式的关节标注，包含铰链/滑轨类型、轴向、位置和运动范围。

1.3 物理验证：告别”魔法抓取”#

这是 MolmoSpaces 最核心的技术亮点。过去的仿真平台常常使用简化的物理模型甚至”魔法抓取”（magic grasps），即机器人不需要真正地接触和握住物体，只要靠近就自动吸附。这种做法让仿真到真实世界的迁移（sim-to-real transfer）变得极其困难。

MolmoSpaces 采用 MuJoCo 等物理引擎，并对物理参数进行了严格验证：

刚体物理验证：

• 通过将仿真中的质量和密度值与 LLM 标注的估计值进行对比
• 迭代调整密度参数直到匹配

铰接物体验证：

• 使用遥操作套件控制仿真中的 Franka FR3 机械臂
• 通过真实的推方块、抓取已知重量物体的轨迹来优化关节属性
• Franka FR3 机械臂本身也经过了系统辨识（System Identification）验证

碰撞体准备：

• 使用 CoACD 算法生成碰撞体网格
• 为所有资产标注了基元碰撞体（primitive colliders）
• 以容器为主的刚体（桌子、柜子等）使用基元碰撞体以避免 mesh-mesh 接触问题
• 可操作物体使用凸分解（convex decomposition）以获得更高的几何保真度

1.4 抓取标注：4200 万+ 精细抓取位姿#

MolmoSpaces 包含超过 4200 万个 6-DoF 抓取位姿，覆盖 48,111 个物体（每个物体最多约 1,000 个抓取位姿），使用 Robotiq-2F85夹爪模型。

抓取标注的生成流程值得关注：

1. 采样：直接从 MJCF 几何体上采样；对于铰接物体，限制在叶节点组件（通常是把手）上采样
2. 碰撞过滤：与非叶节点几何体碰撞的抓取被丢弃
3. 聚类选择：在完整的 6-DoF 位姿空间中进行聚类，然后在聚类间均匀选择，确保抓取多样性
4. 接触偏好：针对不同物体指定接触点偏好（例如指垫中部 vs. 薄物体使用指尖）
5. 稳定性测试：刚体抓取需通过线性和旋转扰动测试
6. 铰接物体可行性验证：要求在保持接触的同时，能够稳定地驱动关节至少 70% 的有效运动范围（双向）

二、MolmoSpaces-Bench：多维度评估框架#

传统的机器人操作评估通常只报告一个汇总的成功率数字，这掩盖了系统在不同条件下表现差异的细节。MolmoSpaces-Bench 提出了一种多维度系统性评估方法，沿以下独立轴进行变化：

评估维度	说明
物体属性	形状、尺寸、重量、铰接方式
布局	多房间、多楼层、不同杂乱程度
任务复杂度	从单步操作到层次化任务
感知条件	光照变化、视角差异
动力学	摩擦系数、质量变化
任务语义	指令措辞的变化

支持的任务类型包括：

• 原子操作技能：抓取（pick）、放置（place）、打开（open）、关闭（close）
• 组合任务：原子技能的组合
• 导航目标：显式的导航任务

这种评估框架能够实现：

• 受控实验的分布分析
• 分布外（OOD）失败模式的识别
• 训练多样性对 sim-to-real 迁移的影响测量
• 系统性的真实世界验证支持

三、平台兼容性与数据采集#

多仿真器支持#

MolmoSpaces 的资产以 MJCF 和 USD 两种格式提供，显式支持以下仿真平台：

• MuJoCo —— 原生 MJCF 支持
• ManiSkill —— 直接兼容
• NVIDIA Isaac Lab/Sim —— 通过 USD 转换脚本支持

遥操作数据采集#

平台支持使用 Teledex 等移动设备进行遥操作数据采集。研究者可以直接通过手机收集操作演示数据，无需复杂的硬件配置。同时兼容 DROID 和 CAP 等已有的具身方案。

四、最后#

MolmoSpaces 的发布标志着具身智能研究基础设施的一次重大升级：

1. 规模前所未有：23万场景 + 13万物体 + 4200万抓取标注，这是目前已知最大规模的具身智能仿真生态
2. 物理真实性：告别简化物理和魔法抓取，每个物理参数都经过验证
3. 完全开放：代码、数据、演示全部开源，降低研究门槛
4. 评估标准化：MolmoSpaces-Bench 为社区提供了一个共同的、多维度的评估框架

从Ai2-THOR到MolmoSpaces，Allen AI团队延续了他们在开放仿真领域的一贯传统。Ai2-THOR系列已经证明了开放仿真平台如何加速机器人导航研究，而 MolmoSpaces将这一理念扩展到了机器人操作领域，并在物理保真度和资产规模上实现了质的飞跃。

资源链接#

• 技术报告：https://allenai.org/papers/molmospaces
• 数据集：https://huggingface.co/datasets/allenai/molmospaces
• 代码仓库：https://github.com/allenai/molmospaces
• 在线演示：https://molmospaces.allen.ai/