您现在的位置是:首页 >宏观 > 2021-05-06 10:19:34 来源:
计算机系统预测物体对物理力的反应
麻省理工学院的大脑和认知科学教授乔什·特南鲍姆(Josh Tenenbaum)在“大脑、思维和机器中心”(Center for Brains,Minds,and Machines)指导智力发展研究。该中心是麻省理工学院的一个多大学多学科项目,旨在解释和复制人类智力。
在今年的神经信息处理系统会议上介绍他们的工作时,特嫩鲍姆和他的学生之一吴嘉俊是四篇论文的合著者,这些论文研究了智能代理人在世界上导航所需的基本认知能力:识别不同的物体并推断它们如何对物理力量作出反应。
通过建立开始接近这些能力的计算机系统,研究人员相信他们可以帮助回答关于人类在发展的哪些阶段使用哪些信息处理资源的问题。在此过程中,研究人员也可能产生一些对机器人视觉系统有用的见解。
特嫩鲍姆说:“这里的共同主题是真正学会感知物理。这首先是看到物体的全部三维形状,以及场景中的多个物体,以及它们的物理性质,如质量和摩擦,然后推理这些物体将如何随着时间的推移而移动。嘉俊的四篇论文都是针对这整个空间的..综合起来,我们开始能够制造出能够捕捉到越来越多人对物质世界的基本理解的机器。”
其中三篇论文涉及从视觉和听觉数据推断物体物理结构的信息。第四种方法是根据这些数据来预测对象的行为。
将所有四篇论文结合在一起的其他东西是他们对机器学习的不同寻常的方法,在这种技术中,计算机通过分析大量的训练数据来学习执行计算任务。在一个典型的机器学习系统中,训练数据被标记为:人类分析人员将在视觉场景中识别物体,或者转录一个口语句子的单词。该系统试图了解数据的哪些特征与哪些标签相关,并根据它对以前未见过的数据的标记有多好来判断。
在吴和特嫩鲍姆的新论文中,该系统被训练来推断世界的物理模型-例如,主要隐藏在视图之外的物体的三维形状。但然后它向后工作,利用模型重新合成输入数据,并根据重建的数据与原始数据的匹配程度来判断其性能。
例如,使用视觉图像在场景中建立对象的三维模型需要剥离任何遮挡对象;过滤掉混淆的视觉纹理、反射和阴影;并推断看不见表面的形状。一旦吴和特南鲍姆的系统建立了这样一个模型,然而,它在空间中旋转它,并添加视觉纹理,直到它能够近似输入数据。
事实上,研究人员的四篇论文中有两篇涉及从视觉数据推断三维模型的复杂问题。在这些论文中,其他四位麻省理工学院的研究人员加入了他们的行列,包括William Freeman,珀金斯电气工程和计算机科学教授,以及上海科技大学DeepMind和上海交通大学的同事。
研究人员的系统是基于麻省理工学院神经学家大卫·马尔的有影响力的理论,他于1980年不幸去世,享年35岁。玛尔假设,在解释一个视觉场景时,大脑首先创建了一个他所谓的2.5维草图,它包含的物体-一个仅仅是观众面对的物体表面的表示。然后,根据2.5D草图-而不是关于场景的原始视觉信息-大脑推断物体的完整、三维形状。
“这两个问题都很难解决,但有一个很好的解决办法,”吴说。“你可以一次做一个,这样你就不用同时处理他们两个,这就更难了。”
吴和他的同事的系统需要培训的数据,包括视觉图像和三维模型的对象,图像描绘。对真实照片中描绘的物体建立精确的三维模型将耗费大量时间,因此最初,研究人员使用合成数据训练他们的系统,其中视觉图像是从三维模型生成的,而不是从三维模型生成的,反之亦然。创建数据的过程就像创建一个计算机动画电影。
然而,一旦对系统进行了合成数据培训,就可以使用真实数据对其进行微调。这是因为它的最终性能标准是它重建输入数据的准确性。它仍在构建三维模型,但它们不需要与人类构建的模型进行性能评估。
在评估他们的系统时,研究人员使用了一种叫做“交叉超过联合”的措施,这在这个领域是很常见的。在这一衡量标准上,他们的体系优于其前身。但是一个给定的交会比分数为三维模型的平滑度和形状留下了很大的局部变化空间。因此,吴和他的同事还对模型对源图像的保真度进行了定性研究。在这项研究的参与者中,74%的人更喜欢新系统的重建,而不是它的前身。
所有的堕落
在Wu和Tenenbaum的另一篇论文中,他们再次加入了Freeman和麻省理工学院、剑桥大学和上海科技大学的研究人员的行列,他们训练了一个系统来分析被丢弃物体的音频记录,以推断物体的形状、组成和下落的高度等属性。再一次,系统被训练来产生物体的抽象表示,反过来,它用来合成物体从特定高度下降时会发出的声音。根据合成声音和源声的相似性来判断系统的性能。
最后,在他们的第四篇论文中,Wu,Teenbaum,Freeman和DeepMind和牛津大学的同事描述了一个系统,它开始模拟人类对世界上物体上的物理力的直观理解..本文从前几篇论文中得出结论:它假设系统已经推导出对象的三维形状。
这些形状很简单:球和立方体。研究人员训练他们的系统来执行两项任务。首先是估计在台球桌上移动的球的速度,并在此基础上预测它们在碰撞后的行为。第二个是分析一个堆叠立方体的静态图像,并确定它们是否会坠落,如果会,立方体将降落在哪里。
吴开发了一种他称为场景XML的表示语言,它可以定量地描述物体在视觉场景中的相对位置。系统首先学会用该语言描述输入数据..然后,它将这种描述提供给一个称为物理引擎的东西,该引擎模拟作用在所表示的物体上的物理力。物理引擎是两种计算机动画的主要组成部分,它们产生服装、坠物等的运动,以及用于大规模物理模拟的科学计算。
在物理引擎预测了球和盒子的运动后,这些信息被输入到图形引擎中,其输出与源图像相比也是如此。就像视觉识别的工作一样,研究人员在用真实数据对合成数据进行细化之前,对他们的系统进行培训。
在测试中,研究人员的系统再次超越了其前辈。事实上,在一些涉及台球的测试中,它经常优于人类观察者。