前(qián)言:
想要实(shí)现(xiàn)全人类之间的(de)顺畅交流(liú),一直都(dōu)是一(yī)个遥不(bú)可及(jí)的美好(hǎo)期(qī)望(wàng),而人工智能的飞速发展,让(ràng)我(wǒ)们看到了这一希望。
国内刚需明显提升
在中(zhōng)国,从事同传工作(zuò)的,大多数是英(yīng)语专业背(bèi)景,精通全领(lǐng)域是(shì)充分而非必要条件。而面对涉(shè)及医疗(liáo)、数学(xué)和物理等领域的会议时,同传(chuán)人员并不能(néng)很好地将这些(xiē)相关术语准地翻译。
当学术盲点变成了(le)行业痛点,以语音智能(néng)见长的科技公司便主动出(chū)击,抓住了同声传译这(zhè)一细分(fèn)市场的(de)机遇,迭代到(dào)3.0版本的搜(sōu)狗同传便是向这一细分市场布(bù)局的开端。
机(jī)器(qì)同传的产品价(jià)值,主要体现在其(qí)致力于解决跨语言交流、跨语(yǔ)言(yán)信息获取(qǔ)和语言(yán)表(biǎo)达的电子化(huà)记录(lù)等(děng)障(zhàng)碍(ài)。若(ruò)要真(zhēn)正(zhèng)实现这三点,不能单纯地(dì)把(bǎ)语音识别和机器翻(fān)译做嫁(jià)接,而(ér)需要(yào)一套完整的有机系统。
portant;" />
语境(jìng)引(yǐn)擎(qíng)=多模态+知(zhī)识图谱
去年(nián)12月,基于语境引擎的搜(sōu)狗同传(chuán)3.0以多模态和自主学习为核(hé)心(xīn),加入(rù)视觉和思维能(néng)力,这是AI同传在加入诸(zhū)如视觉AI、知识图谱等能(néng)力后(hòu)的再度(dù)进化。
最新发布的(de)搜狗同传3.0,内核进化成为了(le)语境(jìng)引擎。除(chú)了“语音信息+OCR”的(de)结(jié)合方式,升级后的产品,最大亮点是在“能听(tīng)会看(kàn)”的多模(mó)态基础上,注(zhù)入了思考和(hé)推理能力(lì),背后靠的是知识图谱的加(jiā)持。
多模(mó)态(tài)同传,即AI获取信息的渠道不再是语音,还包(bāo)含图像(xiàng)等其他内(nèi)容。这(zhè)种多模态的交互(hù)方式是搜狗一直坚(jiān)信的趋势(shì),也是与人最自(zì)然(rán)的一种(zhǒng)交流方(fāng)式。
“会看(kàn)”,意味着同(tóng)传首(shǒu)次具(jù)备了视觉(jiào)能(néng)力。“能理(lǐ)解会推理”,则意味着同(tóng)传具备(bèi)了与人“共情”的能力。
portant;" />
基于语境引擎开发的搜狗同传(chuán)3.0为演讲者构建了个性化的认知语(yǔ)境(jìng),能够跟随演讲者一起“思考”,无(wú)疑是AI同传(chuán)领域(yù)的又一大技(jì)术创(chuàng)新。
可以像人类(lèi)一样,从语音和(hé)图像中获取信息,不(bú)仅会听,还能同时(shí)看(kàn)图(tú)、查资料,从(cóng)而提(tí)高了(le)同声传译的准确(què)性,在AI同传落地应用中属首创。
尤其是面对专有名词、专业术语较多的场景,相比传统只依赖语音的技术,针对PPT内容将翻译的正确率提(tí)升了40.3%。
portant;" />
陈伟(wěi)认为,多模态技术是未来(lái)人机交互的发(fā)展方向。从搜狗同传的技术升级之路中,我们也(yě)可以看出搜狗下一步的计划。
据陈伟介(jiè)绍,搜狗同(tóng)传3.0相(xiàng)对(duì)于(yú)上一代产品主要有三方面能力的(de)提升:
更加(jiā)接近自然,从(cóng)单纯的语音(yīn)识别到语(yǔ)音+图像,新的(de)方法模拟了(le)人工同传的工(gōng)作方式,增加视觉和大(dà)脑扩散(sàn)知识(shí)点的功能,拥有更为复杂的感知系统(tǒng)。
更加专业,此前(qián)的AI同传模型使用通用数据,新的模型通过实时定制知识增强能力,能够捕捉现(xiàn)场PPT内容补充演讲相关的专业领域的知识,并针对(duì)每一个演讲(jiǎng)进行模型定制,提升同(tóng)传效果。
portant;" />
搜狗同传的技术迭(dié)代之(zhī)路
2016年11月(yuè)推(tuī)出的搜(sōu)狗同传1.0通用语音同传是首个商用机器同传产品,实现了(le)语音同传的功(gōng)能(néng)。
2018年,搜狗同传2.0集成(chéng)TTS,首次实现语音到语音(yīn)同传,并可根据(jù)用户语料实时定制(zhì),同时(shí)它还用上了首(shǒu)个(gè)英译中同传引(yǐn)擎。
到3.0,搜狗(gǒu)同传已经是一款业内首创的(de)多模态(tài)+自主学习的同传产品,能听、会看,能理解、会推理(lǐ)是它的特点,同时增加了实时捕捉PPT内容的功能。
搜狗1.0时,输入仅是语(yǔ)音,2.0开始做语音+个性化,以及说话人的语(yǔ)境背(bèi)景输入;3.0加入(rù)了知识图(tú)谱,把语音、视觉等信息作(zuò)为语音识(shí)别的输入(rù)。现在,业内技(jì)术普遍(biàn)介于1.0和2.0之间,而搜狗(gǒu)依靠图谱方(fāng)式,已经率先进入3.0时(shí)代。
2.0时代(dài),搜狗(gǒu)同传会首先对(duì)文(wén)本进行规(guī)则化,让文本变(biàn)得(dé)流利(lì),丢弃一些语义词和(hé)停顿词(cí)等,但(dàn)会遇到延时(shí)很大的问题。
在3.0时代,搜狗同传加入了(le)语义单元(yuán),识(shí)别判断一(yī)句(jù)话为(wéi)独立的一个单元,系(xì)统可以在讲话(huà)者说话的同时可(kě)以立即上屏,降低(dī)同传系统的延迟(chí)。
portant;" />
机(jī)器翻译与人工之间的差距(jù)在拉近
机器翻译(yì)的历史可(kě)能(néng)比大(dà)多数人想象(xiàng)中都(dōu)要(yào)久(jiǔ)远,1954年(nián)初,乔治城大学的实验的一台电脑成功将四十多条俄文句子(zǐ)自动翻译成英文(wén),这一事件成为机(jī)器翻译史中(zhōng)的一个里程碑,标志(zhì)着(zhe)现代机器翻译(yì)的开端。
60多年(nián)过去了(le),机(jī)器翻译产(chǎn)品(pǐn)已经走(zǒu)进每个人(rén)的日(rì)常生活,在大型会议等场景下被广泛采(cǎi)用。
虽然翻译(yì)效果仍有待提高(gāo),但机器翻(fān)译已经成为提高翻译效率(lǜ)不可或缺(quē)的工具,并(bìng)催生了一大(dà)批从(cóng)事AI翻译(yì)研究的企业(yè),国内(nèi)有搜(sōu)狗、腾讯、科大讯飞等,国(guó)外有谷歌、微软等。
翻译领域有(yǒu)些工作(zuò)是有重复性的,包括同传领域,机器在某些方面会优于人工,比如知(zhī)识面、领域知识(shí)的拓展性上,机器比(bǐ)真人的知(zhī)识面更广阔,并能够快速查询(xún)背后海量(liàng)的知识(shí)体系,这比真人在某些领域(yù)的翻译上的(de)准确率更高。
在支持了(le)上千场会议之后,他们(men)发现从成本上来看,机(jī)器(qì)翻译(yì)的成本一(yī)定是低(dī)于人工的,且边际成本会随着使用量(liàng)增(zēng)加(jiā)越来越低。
与人(rén)相比,机器翻译(yì)成本更低,需要支持的设(shè)备(bèi)也更少,一台笔(bǐ)记(jì)本,一条视频线、一条音频线,连上就可以工作(zuò)。
机器同传在未来的地位
从机(jī)器(qì)同传的流程来看,当机器视觉(jiào)捕捉到核心关键词之后,会根(gēn)据搜狗(gǒu)的知识(shí)图谱技术(shù),把(bǎ)相关的词汇以及专(zhuān)业领域相关的词语拓(tuò)展出来,作(zuò)为语音识别和翻译的(de)加强。
未来,机器同传可(kě)向记者采(cǎi)访、跨国办公会议、中英文(wén)视频直播、字(zì)幕翻译等场景延展。这些(xiē)应用场景最主要的挑(tiāo)战,是怎么保证机器同传(chuán)的稳(wěn)定效果,考验的是采集设(shè)备(bèi)、网络(luò)环境、识别能力等。
未来(lái)面向人和机器交(jiāo)互过(guò)程中,一定是多模态的,搜(sōu)狗(gǒu)提倡的技(jì)术主(zhǔ)张(zhāng),使机器同(tóng)传和(hé)同类产品拉开(kāi)了一代之差。他们还是以同(tóng)传为主,搜狗已经(jīng)从语音跨到了(le)多模态,并把对于知(zhī)识(shí)和语音的(de)理解放进去,使同传开始(shǐ)具(jù)备一(yī)定的认知能力。
而搜狗在(zài)AI语音商业化(huà)的进程(chéng),最终的指向(xiàng)还是消(xiāo)费者端。未来各种各样(yàng)的(de)场合都可能用到搜(sōu)狗同传的技术(shù),通过同(tóng)传(chuán)打磨的能力也(yě)可以反(fǎn)向用(yòng)于(yú)C端(duān)产(chǎn)品。
一直以(yǐ)来(lái),人工(gōng)智能技术只能在展示在实验室(shì)中,随着深度学习等(děng)技术的研究成熟,人工(gōng)智能技(jì)术(shù)加持的产品也逐渐开始落地。
多模态技术(shù)未来发展
很多公(gōng)司都意识到多(duō)模态技术重要性,并将研究成果落地到各种应用(yòng)中,比如腾(téng)讯、优酷等视频网(wǎng)站平台,快手等短视频平台都将多模态技(jì)术应用于内容理解上,在获(huò)取用(yòng)户(hù)和(hé)加强与用户的互(hù)动交(jiāo)流(liú)上(shàng)起到了重要作用。
目前关于多模态的研(yán)究课题还是要从产品和实际需求倒(dǎo)推功能(néng),这涉及(jí)到异构数据融合的(de)问题。
多模态表达,在语义(yì)上如何进行对齐,提取同一需求的多模(mó)态特征(zhēng),如(rú)何更好地跨越语义的鸿沟,异构数据如何融合(hé),都是多模(mó)态技术会遇到的问题。
随着精度的逐步提高,搜狗(gǒu)同传所采用(yòng)的AI技术(shù),未来还将有更广(guǎng)阔的(de)的应用空间,赋予我们(men)更多的(de)可能性(xìng)。比如,实时私人翻译乃(nǎi)至文学作品的译制,可(kě)以让(ràng)我们足(zú)不出户,享受第一(yī)手(shǒu)国际作品的(de)字幕体(tǐ)验。
而在跨国界、跨领域等项目合作方面(miàn),逐渐实现无缝对接,能够显著提高整体的工程协作效率。
结尾(wěi):
当(dāng)然必须要承认(rèn),无论是搜狗同(tóng)传(chuán)还是(shì)其他(tā)玩家(jiā),大(dà)家(jiā)目前距(jù)离(lí)顶(dǐng)级同传的(de)水准还有(yǒu)很长的路要走(zǒu),目前的机器同(tóng)传能(néng)力和顶级人(rén)工同传相比,仍存在不小的差距。