卡内基梅隆大学机器人研究所的研究人员使计算机能够实时了解视频中多人的身体姿势和动作 - 首次包括每个人手指的姿势。
这种新方法是在Panoptic Studio的帮助下开发的,Panoptic Studio是一个嵌有500个摄像机的两层圆顶。从该设施的实验中获得的见解现在可以使用单个相机和笔记本电脑检测一组人的姿势。
机器人学副教授Yaser Sheikh表示,这些用于跟踪二维人体形态和运动的方法为人们和机器之间的相互作用开辟了新的方式,人们使用机器更好地了解周围的世界。例如,识别手部姿势的能力将使人们能够以新的和更自然的方式与计算机交互,例如仅通过指向事物与计算机通信。
检测个体之间非语言交流的细微差别将允许机器人在社交空间中服务,允许机器人感知周围的人正在做什么,他们处于什么样的情绪以及他们是否可以被打断。一辆自动驾驶的汽车可以通过监控肢体语言来预警行人即将步入街道。使机器能够理解人类行为也可以为自闭症,阅读障碍和抑郁症等疾病提供行为诊断和康复的新方法。
“我们与我们的身体运动几乎一样,与我们的声音沟通,”谢赫说。“但计算机或多或少地对它视而不见。”
在体育分析中,实时姿势检测将使计算机不仅可以跟踪每个玩家在游戏领域的位置,就像现在的情况一样,而且还可以知道玩家正在做什么,他们的手臂,腿和在每个时间点头。这些方法可用于直播活动或应用于现有视频。
为了鼓励更多的研究和应用,研究人员已经发布了用于多人和手势估计的计算机代码。Sheikh说,它已被研究小组广泛使用,包括汽车公司在内的20多个商业团体已表示有兴趣对该技术进行许可。
Sheikh及其同事将于7月21日至26日在檀香山举行的CVPR 2017计算机视觉和模式识别会议上报告他们的多人和手势检测方法。
实时跟踪多个人,特别是在他们可能彼此接触的社交场合中,提出了许多挑战。简单地使用跟踪个人姿势的程序在应用于组中的每个个体时效果不佳,特别是当该组变大时。谢赫和他的同事采用自下而上的方法,首先将所有身体部位定位在场景中 - 手臂,腿,脸等 - 然后将这些部分与特定个体联系起来。
手检测的挑战更大。当人们用手握住物体并做出手势时,相机不可能同时看到手的所有部分。与面部和身体不同,大型数据集不存在手部图像,这些图像使用部件和位置标签进行了费力的注释。
但是对于每一只只显示手的一部分的图像,经常存在另一个不同角度的图像,并且可以看到手的全部或互补视图,Hanbyul Joo博士说。机器人学的学生。这就是研究人员利用CMU的多摄像机Panoptic Studio的地方。
“一次拍摄可以让你看到一个人手的500个视图,另外还可以自动注释手的位置,”Joo解释道。“然而,手太小,不能被我们的大多数相机注释,因此在这项研究中,我们只使用了31台高清摄像机,但仍然能够建立一个庞大的数据集。”
Joo和Tomas Simon,另一位博士。学生,用他们的手来产生数以千计的观点。
“Panoptic工作室加强了我们的研究,”谢赫说。它现在用于通过联合训练来改善身体,面部和手部探测器。此外,随着工作从人类的二维模型转变为三维模型,该设施自动生成带注释图像的能力将至关重要。
谢赫说,当Panoptic工作室在十年前在国家科学基金会的支持下建成时,尚不清楚它会产生什么样的影响。
“现在,我们能够突破许多技术障碍,主要是因为10年前NSF的资助,”他补充说。“我们正在共享代码,但我们也在共享Panoptic Studio中捕获的所有数据。”