李飞飞团队提出模态链，机器人仅凭人类演示视频就能精准操作，准确率提升 200%

当李飞飞在彭博科技峰会上强调 “AI 越强大，我们越要珍视人性” 时。
DeepMind联合她的团队正悄悄在机器人领域扔下一枚 “技术炸弹”——模态链（CoM）。
这项突破让机器人首次实现 “看一遍就会做” 的神级操作。
不仅能精准复刻人类拧瓶盖、插插头等日常动作。
还能通过肌肉信号和环境声音捕捉人类难以察觉的力控细节，在真实世界实验中成功率高达 73%。
这一成果让机器人离 “具身智能” 更近一步。

![论文截图][1]

【论文链接】https://arxiv.org/pdf/2504.13351v1
项目地址：https://chain-of-modality.github.io/

一、摘要
----

从人类视频中学习执行操作任务是一种很有前景的机器人教学方法。然而，许多操作任务在执行过程中需要改变控制参数，比如力，而仅靠视觉数据无法捕捉这些信息。

在这项工作中，本文利用臂带等传感设备来测量人类肌肉活动，以及麦克风来记录声音，以此捕捉人类操作过程中的细节，使机器人能够提取任务计划和控制参数，进而执行相同的任务。

为实现这一目标，本文提出模态链（CoM），这是一种提示策略，能让视觉语言模型对多模态人类演示数据（即结合了肌肉或音频信号的视频）进行推理。

通过逐步整合来自各模态的信息，CoM 完善任务计划并生成详细的控制参数，使机器人能够基于单个多模态人类视频提示执行操作任务。

实验表明，与基线方法相比，CoM 在提取任务计划和控制参数方面的准确率提高了两倍，并且在真实世界的机器人实验中，对新的任务设置和对象具有很强的泛化能力。

二、背景
----

机器人仅通过观看人类手部视频演示来学习执行具有物理挑战性的操作任务存在困难。

因为许多操作技能需要精确指定控制参数，而仅靠视觉信息难以推断这些参数，例如轻轻抓握来转动手中的钥匙、用力推以插入插头、轻击鼓面以发出柔和声音等。

从人类视频数据中提取任务计划也很困难，因为仅靠视觉数据缺乏识别这些计划所需的细节。

但人类任务计划中的许多细节，如力和速度等控制参数，可通过人类肌肉活动和物体交互声音等额外信号更好地捕捉。

VLMs有能力解决多种实际问题，且近期在长上下文输入方面的进展使其能将视频和长序列数字信号作为输入，因此本文思考能否利用 VLMs 从多模态演示视频中推断人类任务计划。

三、贡献
--

提出CoM这一提示策略，使视觉语言模型能够通过逐步整合视觉和力信息，从多模态人类视频演示数据中进行推理。

实现一次性操作程序生成，即从单个多模态人类演示视频生成机器人控制程序的流程，整合通过肌肉或音频信号获得的力信息，以产生不同技能的细粒度控制参数。

证明 CoM 在两种先进的视觉语言模型中都具有一致的优势，且该方法能让视觉语言模型从单个人类视频中学习编写适用于不同真实世界机器人平台的代码，并具备泛化能力。

四、技术方案
------

![image.png][2]

多模态人类演示视频：视频难以捕捉人类执行操作任务的精细细节，尤其是涉及力应用的部分。

因此本文的多模态人类视频在每个时间步包含 RGB 图像、人类肌肉信号或物体交互声音以及手部姿态（图 1）。

肌肉信号和物体交互声音能提供力信息，基于视觉的方法估计的手部姿态可作为另一种输入模态。

CoM：使用视觉语言模型分析多模态人类视频中的丰富信息以提取任务计划描述时，直接将所有模态交织在一起查询模型效果不佳。

![image.png][3]

因此本文提出 CoM，这是一种提示策略，按顺序查询视觉语言模型以分析每个模态，提取关键信息并逐步聚合结果以生成最终答案（图 2）。

CoM 提示由三部分组成：各模态及其输入数据格式的描述、可用动作集及动作参数的解释、一个视频 - 分析对示例，展示如何分析各模态以生成带参数的已识别动作序列。

编写机器人代码：基于上述对人类视频的分析，最后一步是将动作序列转换为可由机器人执行的代码，通过低级 API 调用实现。

![image.png][4]

使用相同的视觉语言模型进行代码生成，生成的提示包括视频分析、机器人 API 描述和所需输出格式（图 3）。

实现细节：在数据收集方面，对肌肉信号进行降采样以匹配相机采样率，并取八通道中的最大值作为每个时间步的力信号。

计算每个时间步声音的响度作为输入音频值。

使用 HaMeR 方法估计手部姿态。

在机器人执行方面，机器人 API 调用包含预定义的控制函数，利用感知模型的进展，例如通过查询 Gemini 1.5 Pro 获取目标对象的 2D 边界框，再结合深度信息和相机参数确定其 3D 位置。

五、实验结果
------

![image.png][5]

CoM 有助于理解多模态人类视频，其逐模态分析和逐步生成最终答案的方式比其他基线方法更适合当前 VLM 从多模态人类视频中推理（图 5）。

力信息有助于从人类视频中学习，能显著提高任务计划理解和相似性得分（表 I）。

![image.png][6]

手部姿态有助于理解精细操作，在打开瓶子任务中，只有使用所有模态作为输入的方法才能获得非零成功率。

CoM 能够从多模态人类视频中提取控制参数，且 VLM 可基于 CoM 分析生成操作程序，控制机器人执行任务的平均成功率达到 73%，在跨实体部署方面也展现出潜力（表 II）。

六、结论

本文提出CoM，这是一种提示策略，能让视觉语言模型通过结合视频与力或音频输入，理解多模态人类视频演示数据。

通过逐步完善任务计划和控制参数，CoM 增强了机器人在精细操作任务中从人类视频进行一次性模仿的能力。

实验表明，与基线方法相比，CoM 显著提高了任务计划识别和控制参数提取的准确率，在真实世界机器人实验中对新任务设置和对象具有很强的泛化能力。这项工作的局限性包括：音频模态仅关注冲击声音的音量，未充分捕捉频率和音高等其他方面；
本文侧重于以开环方式从人类视频中提取任务计划和控制参数并在机器人上执行，未来计划探索生成能适应意外情况的闭环控制程序。

【项目链接】
https://chain-of-modality.github.io/

文章来源：https://mp.weixin.qq.com/s/HXYne5F_6hTrfsDBJ-DrAQ

[1]: https://www.samool.com/usr/uploads/2025/06/1866674438.png
  [2]: https://www.samool.com/usr/uploads/2025/06/757666294.png
  [3]: https://www.samool.com/usr/uploads/2025/06/3802768959.png
  [4]: https://www.samool.com/usr/uploads/2025/06/1039972933.png
  [5]: https://www.samool.com/usr/uploads/2025/06/2182815225.png
  [6]: https://www.samool.com/usr/uploads/2025/06/3528933754.png

AI摘要

李飞飞团队与DeepMind合作开发了模态链（CoM）技术，使机器人能够通过观看人类演示视频学习执行操作任务。CoM通过整合视觉、肌肉信号和音频数据，使机器人能够提取任务计划和控制参数，从而执行拧瓶盖、插插头等动作，准确率提高200%。这项技术让机器人更接近“具身智能”，能够理解和模仿人类的精细操作。