VITRA团队 投稿
量子位 | 公众号 QbitAI
实现具备人类水平的灵巧操作能力,是机器人学领域长期以来的核心挑战之一。
尽管多指灵巧手在硬件上具备了类似人类的潜力,但由于高质量的机器人动作数据获取成本高昂,现有的视觉-语言-动作(VLA)模型在数据规模和多样性上远远落后于大语言模型(LLM)和视觉语言模型(VLM),难以满足真实世界复杂任务的需求。
微软亚洲研究院(MSRA)与清华大学合作的最新研究论文《Scalable Vision-Language-Action Model Pretraining for Robotic Manipulation with Real-Life Human Activity Videos》,针对这一关键问题提出了创新的预训练框架VITRA。
该研究的核心贡献在于提出了一套完全自动化的解决方案,将海量无标注的真实人类活动视频转化为与现有机器人V-L-A训练数据格式完全对齐的数据。
通过提取视频中的3D手部运动轨迹、进行原子级动作分割并自动生成语言指令,研究团队构建了一个包含100万个片段、2600万帧的超大规模手部V-L-A数据集。
在纯人类视频数据上完成预训练后,模型在完全未见的真实环境中展现出强大的零样本(Zero-Shot)手部动作预测能力。
仅需少量真实机器人数据进行微调,即可在真实机器人上实现高成功率的灵巧操作,并对新物体和新环境表现出极强的泛化能力。
以下是更多详细内容。
打通从人类视频到机器人数据的转化链路
论文的核心问题在于如何克服非结构化人类视频与结构化机器人数据之间的巨大差异,从而提取出可用于VLA模型预训练的高质量动作标签和语言指令。
该研究构建了一个由三大核心技术组成的完整体系,实现了从原始视频到V-L-A数据的无缝转化。
△数据处理三阶段流程图3D运动标注:精准恢复手部与相机轨迹
从单目、未标定且可能移动的相机视频中恢复精确的3D手部运动是一项极具挑战性的任务。
该研究提出了一种基于最新3D视觉技术的单目相机和手部姿态跟踪方法:
首先通过背景光流判断相机状态,并估计相机内参。
随后,利用深度视觉SLAM和深度估计模型跟踪相机姿态,并使用手部重建模型提取每帧的相机空间3D手部姿态(包括手腕6D姿态和全关节角度)。
最终,将这些信息结合,获得世界空间中的3D手部运动轨迹。
这种方法不仅提供了高精度的动作标签,还为后续的动作分割和指令标注奠定了基础。
原子级动作分割:基于速度极小值的自然切分
现有的机器人V-L-A数据通常由简单的、短视距的原子级任务组成。如何从长视频中准确分割出这些原子动作是一个难题。
研究团队从人类动作的自然节奏中汲取灵感,提出了一种简单而高效的分割算法:基于3D空间中手部移动速度的极小值进行切分。
在动作转换期间,人类手部通常会出现速度变化,速度极小值往往标志着动作的切换。
通过检测世界空间中3D手腕轨迹的速度极小值,该方法能够高效地将长视频分割成包含单一原子动作的短片段,且无需任何额外的人工标注或模型推理。
指令标注:结合3D轨迹的精准动作描述
为了给分割出的视频片段生成准确的语言指令,研究团队巧妙地结合了视觉语言模型(VLM)和3D手部轨迹。
对于每个视频片段,系统均匀采样8帧图像,并将手掌的3D轨迹投影叠加到图像上。
然后,将这些带有轨迹高亮的图像输入给GPT-4,提示其结合图像内容和轨迹信息,以祈使句的形式描述指定手部的动作。
实验证明,提供原子级视频片段并叠加3D手部轨迹,能够显著提高GPT生成动作描述的准确性。
实现强大的零样本预测与真实世界泛化
基于上述自动构建的超大规模人类手部V-L-A数据集,研究团队设计并训练了一个专为灵巧操作打造的VLA模型。
△VLA模型架构图1、结合VLM与扩散动作专家的模型架构
该VLA模型由一个VLM骨干网络(PaliGemma-2)和一个扩散动作专家(Diffusion Transformer,DiT)组成。
VLM&接收视觉观察、语言指令和相机视场角(FoV)信息,输出一个“认知特征”(Cognition Feature)。
扩散动作专家则接收该认知特征、当前手部状态以及带有掩码的噪声动作块,通过迭代去噪预测未来的手部动作序列。
为了处理快速移动的人类手部动作并适应短片段数据,模型采用了因果注意力(Causal Attention)机制进行动作去噪,确保每个动作步骤的预测仅依赖于之前的动作,有效避免了零填充带来的负面影响。
2、零样本手部动作预测:在未见环境中展现惊人能力
在完全未见的真实生活环境中,预训练模型展现出了强大的零样本手部动作预测能力。
△数据多样性对比图在抓取任务和一般动作预测任务的评估中,该模型显著优于在实验室环境下收集的数据(如EgoDex)上训练的模型,也优于使用原始人类标注数据训练的模型。
这充分证明了利用海量、多样化的真实生活视频进行预训练,能够极大地提升模型对复杂环境和未知物体的泛化能力。
3、真实机器人灵巧操作:少量数据微调实现高效部署
为了在真实机器人上部署,研究团队将人类手部的动作空间与机器人灵巧手(如Realman机器人配备星动XHAND1)的动作空间进行了对齐。
△真实机器人任务成功率对比仅需使用少量(约1.2K条)真实机器人遥操作数据对预训练模型进行微调,即可在真实世界中执行包括抓取、放置、倾倒和清扫等多种灵巧操作任务。
实验结果表明,与未经过人类VLA数据预训练的模型或在其他数据集(如OXE、EgoDex)上预训练的模型相比,该方法在任务成功率上取得了显著提升,尤其是在面对未见过的物体和背景时,展现出了卓越的鲁棒性。
VITRA真实世界部署的硬件核心支撑
VITRA框架之所以能够在真实机器人上实现惊艳的泛化能力,除了算法层面的创新,更离不开底层硬件——
星动纪元自研国内首创全直驱五指灵巧手星动XHAND1的强大支撑。
该框架与星动XHAND1的硬件特性形成了完美的“软硬协同”,在实际应用场景中展现出不可替代的落地优势。
△机器人实验设置高精度URDF与人类手部动作空间的无缝对接
VITRA框架的核心突破在于将人类手部动作空间与机器人灵巧手的动作空间进行对齐。
星动XHAND1官方提供了极高精度的URDF模型,不仅精确描述了运动和动力学参数,还完美映射了人类手关节的空间分布。
这种“数字孪生”级别的模型支持,使得VITRA在微调阶段能够将人类关节角度精准映射到星动XHAND1的对应关节上,从而大幅降低了从人类视频到真实硬件的现实鸿沟,确保了预训练策略在真实硬件上的高效部署。
全直驱架构与高频响应:完美执行复杂灵巧操作
在执行倾倒、清扫等复杂灵巧操作任务时,机器人需要具备极高的动态响应能力。
星动XHAND1采用的全直驱(Direct-Drive)电机架构为这一算法提供了最理想的硬件基础。
全直驱设计从根本上消除了传统减速器带来的巨大摩擦、迟滞和非线性干扰,赋予了灵巧手超灵敏的动态响应能力。这使得星动XHAND1能够瞬间且精准地执行VITRA模型输出的动作指令,安全地操作各种未知物体。
丰富的传感器阵列:为未来多模态感知预留空间
虽然当前的VITRA模型主要依赖视觉输入,但星动XHAND1 配备的丰富传感器阵列(如高分辨率触觉阵列)为未来的多模态感知预留了广阔的空间。
结合星动XHAND1强大的硬件感知能力,未来的VLA模型有望进一步融合触觉反馈,处理更加精细和复杂的“指尖步态(Finger Gaits)”任务。
数据规模的缩放定律
该研究还深入探讨了预训练数据规模对模型性能的影响。
△数据规模对机器人任务的影响实验发现,随着预训练数据量的增加,模型在零样本手部动作预测任务中的误差稳步下降,并在真实机器人操作任务中的成功率持续上升。
这种明显的缩放行为(Scaling Behavior)表明,通过进一步扩大人类视频数据的规模,有望持续提升VLA模型的性能。
这一成果标志着在利用非结构化人类视频进行机器人VLA模型预训练方面取得了关键突破。
通过提供一套完全自动化的数据转化方案,该研究大幅降低了获取高质量机器人训练数据的门槛,为多指灵巧手在更广泛的真实复杂场景中的应用铺平了道路,也为迈向真正泛化的具身智能奠定了坚实的基础。
论文链接:https://arxiv.org/abs/2510.21571