中国(guó)航空报(bào)讯:在从工厂到手术(shù)室的多(duō)种(zhǒng)工(gōng)作场所(suǒ)里,不同(tóng)大小和形状的机器人变得越来越多。许多机器人(rén)都是通(tōng)过机器学习的方法,在反(fǎn)复试验和不断犯(fàn)错中习得新技能的(de)。最近,有一种新方(fāng)法可以帮(bāng)助这(zhè)些技能(néng)在不同形状的机器人之间进(jìn)行迁移,以(yǐ)免每次(cì)都要从头开(kāi)始学习任务。在(zài)去年(nián)夏天举办的国(guó)际机器(qì)学习大会(ICML)上(shàng),美(měi)国卡内基梅隆大(dà)学(xué)的计算机科学家刘星昱展示了这种新(xīn)方法,他(tā)是这(zhè)项研究的第一作者。“从实(shí)际应用的角度(dù)来说,这项研究非常重要,”他(tā)说,“对于基(jī)础(chǔ)研(yán)究而言,我认为(wéi)这也是一个值得研究(jiū)的前沿问题。”
假设你有一个末端类似(sì)于人手的机械臂。你已(yǐ)经(jīng)训练(liàn)它的5个指头学会拿起一把锤子,以及将钉子钉入木板。但现(xiàn)在,你(nǐ)希望(wàng)一(yī)种(zhǒng)“二指夹爪”也(yě)能完成同(tóng)样的任务。为此,科学(xué)家创造出了一连串的虚(xū)拟机(jī)器人来模(mó)拟(nǐ)两(liǎng)种机械臂之间的形态:它会从最初类(lèi)似(sì)于(yú)人(rén)手的结构缓慢地(dì)转变成一(yī)种新的形状(zhuàng)。每一个中间机器人都会通过练习指定的任(rèn)务,以(yǐ)此调整对应的人工神经网络(一种(zhǒng)计(jì)算模型),直到达到(dào)阈值成功率。紧(jǐn)接着,这个系统的(de)控制器代码就会被传(chuán)递给这条“链”上的下(xià)一个(gè)中间机器(qì)人。
为了(le)完成从虚拟机(jī)器人到目(mù)标(biāo)机器人(rén)的转变,研究团(tuán)队创建出了一种(zhǒng)共(gòng)享(xiǎng)式树状运动链(kinematic tree)。其中,一组代表肢体部分的节点被一些代(dài)表关节的链接器(qì)(link)连接了起来。为(wéi)了(le)将锤击技能迁移(yí)到二指夹爪,这支团队将原本结构中代表(biǎo)三个指(zhǐ)头的节点的大小和权重都调整为零。对于(yú)每(měi)一(yī)个中间机器人来说,相应指头的大小和(hé)权(quán)重就会逐渐变小。
与(yǔ)此同(tóng)时(shí),控制它们的神经(jīng)网络也(yě)必须(xū)学会作出(chū)调整。此外,研究人员还调(diào)整(zhěng)了训练方法,以(yǐ)便(biàn)使中间机器人之间的(de)变化(huà)不会(huì)太大也(yě)不会(huì)太小。
这个由卡(kǎ)内基梅隆大学(xué)设计的系统叫作REvolveR(RobotEvolve Robot)。它的表现优于机器学习的基本方(fāng)法,比如从(cóng)头开(kāi)始训练(liàn)目标机器(qì)人(rén)的方法。在锤击(jī)任务和其他训练(liàn)任务(包括移动一个球(qiú)和(hé)打(dǎ)开(kāi)一扇(shàn)门)中(zhōng),为了使(shǐ)机器人夹(jiá)爪达到90%的成(chéng)功率(lǜ),此前最(zuì)好的替代(dài)性训(xùn)练方法需(xū)要(yào)比REvolveR多执行(háng)29%~108%的试(shì)验次数,尽管(guǎn)这些替代(dài)性(xìng)方法在训练过程中提供了更多的信息反馈(kuì)。接下来,研究人员还(hái)使用其他类(lèi)型的(de)虚(xū)拟机(jī)器人测试他们的训练方(fāng)法。例(lì)如,利用这种方法为一个蜘蛛状机器人添加新的腿部结(jié)构,并让(ràng)它重新学会爬行。
维塔利·库林(未参与这项研究)是英(yīng)国牛津(jīn)大学的计算机科学家(jiā),主要(yào)研究机器人和机器学习,他表示:“我认为(wéi)这是一(yī)种非常巧(qiǎo)妙的(de)方法。”尽管通过(guò)将艰巨(jù)的挑战分解(jiě)成一系列小的部分,从(cóng)而使AI能够(gòu)在不同的任务之间实现(xiàn)技能迁移的方法并不新鲜,“但在(zài)一个机(jī)器人与另(lìng)一个机器人之间进(jìn)行(háng)内插(chā),以此实现技(jì)能迁移,这是我以前从(cóng)未想(xiǎng)到的。”