和其他机器人学习是通过无模型的强化学习,让许多个机器人共享经验。
具体的实现方式是这样的:
让机器人学习借助门把手开门这个技巧,一起学习的每个机器人都装了一份神经网络,并且他们每台机器人都连到了一个中央服务器上。
每个机器人开始对着这个门和门把手琢磨,摸索着考虑怎么开。
这个过程中,每个机器人每一步的行动和结果都被传输到背后的中央服务器上,中央服务器里的神经网络就开始借助这些传输来的经验,迭代改进神经网络。
这样整个过程就好像司令部派了几个士兵出去侦查,再把每个士兵送回来的线索汇总,形成整体的作战思路,再告诉士兵们应该如何如何行动。
所以改进之后,机器人们就都学会了开门这项技能。
在云端学习
机器人要捡垃圾,必须学会灵活的使用自己的“手”来抓东西,要不断的练习,有大量数据来训练模型才可以。
现实世界里,机器人一天只能练习5000次抓取,数据量是远远不够的。
而借助随机到规范适应网络(Randomized-to-CanonicalAdaptationNetworks,简称RCANs),在云中模拟训练的数据就可以用在模型的实际训练中,这样机器人抓物体的成功率就提升到了70%。
之后,再结合5000次在现实世界抓取的数据,对模型进行微调,成功率就到了91%。
这个过程,相当于在真实世界抓了58万次的结果,一下子省了99%的练习次数。
这样,原来需要花3个月的时间来训练机器人学习抓取,现在只要不到一天就可以了。
另外,这篇论文也发了今年的CVPR。
结构化和非结构化环境里的机器人
现在的机器人领域内,虽然有不少成熟的机器人,但它们都是技能专精、价格昂贵的。
他们在工厂流水线上这种单一而结构化环境里,用非常高的效率处理某一项任务,但无法在每天情况都不一样、复杂而非结构化的生活环境中解决洗衣做饭这些麻烦的任务。
AlphabetX的最终目标是造出可以在日常生活中使用的机器人,比如它可以在家里叠叠被子洗洗碗,在办公室里端茶倒水取外卖……每天都会用到,所以这个项目也因此被叫做EverydayRobots。
不过,其难度可想而知。
美国国家公路交通安全管理局给出了这张示意图。
横轴左侧是执行专精的任务,右边是日常的多种复杂任务;纵轴下半部分是在结构化的环境中,上半部分是在非结构化的环境中。
显然,右上角那种在各种复杂环境都能随机应变、十八般武艺样样都行的机器人,人类创造它的难度要远远高于左下角只会在流水线上固定位置完成固定任务的工业机器人。
而在右上方象限内,就有正在发展中的自动驾驶汽车,EverydayRobots,要比自动驾驶的难度更上一个量级。