最近的人工智能研究指出了触摸和视觉之间的协同作用。一个可以测量三维表面和惯性属性,而另一个可以提供对象投影外观的整体视图。
在这项工作的基础上,三星,麦吉尔大学和约克大学的研究人员研究了人工智能系统是否可以通过视觉和触觉测量对象的初始状态来预测对象的运动。研究人员在一篇论文中描述:“先前的研究表明,预测运动对象的轨迹具有挑战性,因为相互作用表面上的摩擦和几何特性未知,并且压力不确定。
分配。” “为了减轻这些困难,我们专注于学习训练有素的预测工具,该工具可以捕获运动轨迹中最有用和最稳定的元素。
”具体来说,研究人员开发了一种可穿透的皮肤传感器,他们声称这种传感器可以在捕获图像的同时提供详细的触觉测量。另外,他们还创建了一个称为“ Generative Multimodal Perception”的框架,该框架使用视觉和触觉数据来学习有关物体的姿势,形状和力的信息,然后对其进行编码。
对物体的运动做出预测。为了预测物体在物理交互过程中的静态状态,他们使用了所谓的静态预测以及动态场景中的视觉触觉运动数据集,其中包括自由落在平面上,滑落到地面上的物体。
倾斜平面,并从它们的静态接收干涉。在实验中,研究人员表示,他们的方法可以预测静止状态下物体的原始视觉和触觉测量值,准确度非常高,并且预测结果与事实非常吻合。
此外,研究人员声称,该框架学习了视觉,触摸和3D姿势模式之间的映射,因此它可以处理缺失的模式,例如当输入中没有触觉信息时,以及预计对象离开时,传感器表面,导致空间空白。输出图像。
根据这项研究,预测物理场景中的对象运动得益于两种形式的使用:视觉信息捕获对象的属性,例如3D形状和位置,而触觉信息则提供了相互作用力以及由此产生的对象运动和接触的关键线索。新的AI框架可以根据图像和触觉数据预测对象的运动,这将更好地帮助人类做出预测。
负责编辑AJX。