机器人学习目前(qián)已经被广泛应用于现实世(shì)界,并(bìng)可以(yǐ)完成精密的手部(bù)、腿(tuǐ)部动作。但(dàn)在动态且高速的人(rén)机互动中,机器人学(xué)习并(bìng)不常见。谷歌选择开(kāi)发乒乓球机(jī)器(qì)人,正是为了探索这类情况下人(rén)工智能(néng)的可能性。
·使用i-Sim2Real这(zhè)种方式(shì),在模拟环境下可以让(ràng)数年的实时训练在几分钟或几小时内(nèi)完成。
谷歌(gē)i-Sim2Real项目乒乓球机器(qì)人与(yǔ)人(rén)类训练。本文(wén)图片来(lái)源:谷歌
似乎现存的(de)每一种桌(zhuō)上运动中(zhōng),人工智能都立于不败之地(dì)。乒乓球竞技中,谷歌AI同样难逢敌手。10月18日,谷歌(gē)公布其正在研究的(de)“乒乓球(qiú)机器人”项目,在与人类对打时一回合可接球340次。目前,谷歌强调(diào)这(zhè)只是人类与AI的“合作”,并非击败人类,但以AI成长的速度,它将(jiāng)很快成为专(zhuān)业选手。
机(jī)器人学习目前(qián)已(yǐ)经被(bèi)广(guǎng)泛(fàn)应用于现实世界,并可以完成(chéng)精密的手部、腿部动作。但在动态且高速的人机互动中,机(jī)器人学习并不(bú)常见(jiàn)。谷歌(gē)选择(zé)开发乒乓球(qiú)机器人,正是为(wéi)了探索这类情况下人(rén)工智(zhì)能的可能性。
解决(jué)“先有鸡还是(shì)先有蛋”
在(zài)这(zhè)个名(míng)为i-Sim2Real的项目中,谷歌的乒乓球机器人在(zài)模拟环境中不断学(xué)习,并将学(xué)习成果(guǒ)运用于现实世界,最(zuì)终(zhōng)可以在一(yī)个与(yǔ)人类的乒乓球(qiú)接发回合(hé)中,接(jiē)球超(chāo)过(guò)三(sān)百(bǎi)次。它还能把球送(sòng)回不同的区域,虽然(rán)不(bú)能精确到数字上,但已经(jīng)足够精确到让机(jī)器人(rén)规(guī)划(huá)策略,来(lái)控制(zhì)乒乓球(qiú)的最终目的地。
i-Sim2Real也不仅仅是关于乒乓(pāng)球机器(qì)人(rén),更是一种人工智(zhì)能创造过(guò)程的方式,在这个过程中(zhōng),机器学(xué)习模型被教会在虚拟(nǐ)环(huán)境或模(mó)拟中做(zuò)什(shí)么,然后再应用这些知(zhī)识,目标是(shì)尽可能长(zhǎng)时间地与人类进行接球回(huí)合而(ér)不失误。在(zài)现(xiàn)实世界中直接与人类玩家进行(háng)训练(liàn)既繁琐又耗时,当需要(yào)数年的试验和错误才(cái)能(néng)建立一个工作模型(xíng)时,使(shǐ)用i-Sim2Real这种方(fāng)式显得(dé)十分有效,它在模(mó)拟环境下可以让数年的实时训练在(zài)几分钟或(huò)几小时内(nèi)完成。
这种方式听(tīng)起(qǐ)来简单高效,但在模拟中机器人并不是万能(néng)的(de)。人类的活(huó)动具有一定的不可预测性,并不(bú)容易模拟,需要先(xiān)有人类的行为模型(xíng)作为支撑。而(ér)人类的(de)行为模型(xíng),又需要与机器人(rén)互动获得(dé)。这(zhè)就(jiù)陷入(rù)了(le)一个“是先有(yǒu)鸡还是先有蛋”的(de)死循(xún)环。
i-Sim2Real解决这一鸡(jī)和蛋问题的方法,是使用一个简单的人类行为模型作为近似起(qǐ)点,并让(ràng)机器人在模(mó)拟训练和(hé)现实(shí)训练之间(jiān)交替学(xué)习。在(zài)每次迭代(dài)中,都(dōu)会细化人类行为模型和策略。在机器人接近人类行为的过程中,初(chū)期(qī)的不理想是可以接受的,因为机器人也只是刚刚(gāng)开始学(xué)习,之后每一场比赛(sài)都会收集更(gèng)多真实的人类数据,提高准确性,让AI学到更多。
i-Sim2Real的训(xùn)练方法。
GoalsEye:通过(guò)自我监督来(lái)自主练(liàn)习(xí)
除了i-Sim2Real这种模拟与(yǔ)现实交替进行的方法,研究人(rén)员(yuán)也在探索(suǒ)只使用(yòng)现实的数据(jù)学习的方法,即GoalsEye项(xiàng)目(mù)。
一开始,模仿学习(xí)(IL)为研究人员提供了一种简单(dān)而稳定的思路,但(dàn)它需(xū)要(yào)人类行为进行(háng)演(yǎn)示,并且机器人的技术无(wú)法超过演示者的水平。同(tóng)时,当演(yǎn)示者拥有在高速环(huán)境下精确接球的能力时,收集其(qí)数据具(jù)有一(yī)定(dìng)挑战性,而且在刚开始时可能(néng)非常低(dī)效。因此研(yán)究人员尝试了一种结合最近行为进行重复的方法,从一个小(xiǎo)的、结构薄弱的、非目标(biāo)数据集开始,不断学习精确定(dìng)位目标的策略。
这种方法使得在训练(liàn)的过程中,机(jī)器(qì)人(rén)的自(zì)主学习能力显得至关(guān)重要。研究人员设置了一个强调精度的乒(pīng)乓球任务,要求机器人将球返回到(dào)桌子上的(de)任意(yì)目标位置。机器人可以(yǐ)通过自我监督来(lái)实现自主练习。例(lì)如,机器人可以设置随机(jī)目标,“击中左后角”或“将球(qiú)从右(yòu)侧(cè)过网”,并尝试使用当前掌握(wò)的策略(luè)来实现这(zhè)些目标(biāo),从而不断改进。所(suǒ)有(yǒu)尝试都会记录并添加到不断扩展的数据集中。这种自主练(liàn)习是反复(fù)进(jìn)行的,机器人通过不断的设置随(suí)机目标(biāo)并尝试(shì)目标,从而扩展(zhǎn)训练数据,调整策(cè)略。
GoalsEye策略旨在实现(xiàn)直径20厘米的目标(左)。人类玩(wán)家瞄(miáo)准(zhǔn)同一个目标(右)。
GoalsEye的训练方法。
其效果(guǒ)也是显而(ér)易见的,在进行(háng)最初的2480次人类行(háng)为(wéi)演(yǎn)示(shì)后(hòu),机器人只在9%的情况(kuàng)下能准确(què)地达到距(jù)离目标30厘米以内(nèi)的目(mù)标。然而,当机(jī)器人又自主练习了大(dà)约(yuē)13500次后,达到(dào)目(mù)标的(de)准(zhǔn)确率上升到43%。同时,演示数量(liàng)的(de)提(tí)升提高(gāo)了后续(xù)自我练习的效率,这(zhè)说明,计(jì)算时间、成本(běn)等因素后,演示可以适当替换自我练习(xí),从而更高(gāo)效的进行训(xùn)练。
在这两个使用机器人乒乓球研(yán)究平台的互补(bǔ)项目(mù)中(zhōng),i-Sim2Real可(kě)以(yǐ)在模拟与现实中交替学习(xí)策略,而GoalsEye则证明(míng),从现实世界的非(fēi)结(jié)构化数据中(zhōng)学习,结(jié)合自我(wǒ)训练(liàn),对于在(zài)精确且(qiě)动态(tài)的要求中学习目(mù)标条件策略是有效的。