leyu乐鱼

前（qián）言：

想要实（shí）现（xiàn）全人类之间的（de）顺畅交流（liú），一直都（dōu）是一（yī）个遥不（bú）可及（jí）的美好（hǎo）期（qī）望（wàng），而人工智能的飞速发展，让（ràng）我（wǒ）们看到了这一希望。

国内刚需明显提升

在中（zhōng）国，从事同传工作（zuò）的，大多数是英（yīng）语专业背（bèi）景，精通全领（lǐng）域是（shì）充分而非必要条件。而面对涉（shè）及医疗（liáo）、数学（xué）和物理等领域的会议时，同传（chuán）人员并不能（néng）很好地将这些（xiē）相关术语准地翻译。

当学术盲点变成了（le）行业痛点，以语音智能（néng）见长的科技公司便主动出（chū）击，抓住了同声传译这（zhè）一细分（fèn）市场的（de）机遇，迭代到（dào）3．0版本的搜（sōu）狗同传便是向这一细分市场布（bù）局的开端。

机（jī）器（qì）同传的产品价（jià）值，主要体现在其（qí）致力于解决跨语言交流、跨语（yǔ）言（yán）信息获取（qǔ）和语言（yán）表（biǎo）达的电子化（huà）记录（lù）等（děng）障（zhàng）碍（ài）。若（ruò）要真（zhēn）正（zhèng）实现这三点，不能单纯地（dì）把（bǎ）语音识别和机器翻（fān）译做嫁（jià）接，而（ér）需要（yào）一套完整的有机系统。

Ai芯天下丨观点（diǎn）丨陈（chén）伟（wěi）：AI语音市场要靠（kào）3.0技术撬动 portant;" />

语境（jìng）引（yǐn）擎（qíng）＝多模态＋知（zhī）识图谱

去年（nián）12月，基于语境引擎的搜（sōu）狗同传（chuán）3．0以多模态和自主学习为核（hé）心（xīn），加入（rù）视觉和思维能（néng）力，这是AI同传在加入诸（zhū）如视觉AI、知识图谱等能（néng）力后（hòu）的再度（dù）进化。

最新发布的（de）搜狗同传3．0，内核进化成为了（le）语境（jìng）引擎。除（chú）了“语音信息＋OCR”的（de）结（jié）合方式，升级后的产品，最大亮点是在“能听（tīng）会看（kàn）”的多模（mó）态基础上，注（zhù）入了思考和（hé）推理能力（lì），背后靠的是知识图谱的加（jiā）持。

多模（mó）态（tài）同传，即AI获取信息的渠道不再是语音，还包（bāo）含图像（xiàng）等其他内（nèi）容。这（zhè）种多模态的交互（hù）方式是搜狗一直坚（jiān）信的趋势（shì），也是与人最自（zì）然（rán）的一种（zhǒng）交流方（fāng）式。

“会看（kàn）”，意味着同（tóng）传首（shǒu）次具（jù）备了视觉（jiào）能（néng）力。“能理（lǐ）解会推理”，则意味着同（tóng）传具备（bèi）了与人“共情”的能力。

Ai芯天下丨观点丨陈伟：AI语音（yīn）市场要靠3.0技（jì）术撬动 portant;" />

基于语境引擎开发的搜狗同传（chuán）3．0为演讲者构建了个性化的认知语（yǔ）境（jìng），能够跟随演讲者一起“思考”，无（wú）疑是AI同传（chuán）领域（yù）的又一大技（jì）术创（chuàng）新。

可以像人类（lèi）一样，从语音和（hé）图像中获取信息，不（bú）仅会听，还能同时（shí）看（kàn）图（tú）、查资料，从（cóng）而提（tí）高了（le）同声传译的准确（què）性，在AI同传落地应用中属首创。

尤其是面对专有名词、专业术语较多的场景，相比传统只依赖语音的技术，针对PPT内容将翻译的正确率提（tí）升了40．3％。

Ai芯天下丨观点丨陈伟：AI语音市（shì）场要靠3.0技术撬动 portant;" />

陈伟（wěi）认为，多模态技术是未来（lái）人机交互的发（fā）展方向。从搜狗同传的技术升级之路中，我们也（yě）可以看出搜狗下一步的计划。

据陈伟介（jiè）绍，搜狗同（tóng）传3．0相（xiàng）对（duì）于（yú）上一代产品主要有三方面能力的（de）提升：

更加（jiā）接近自然，从（cóng）单纯的语音（yīn）识别到语（yǔ）音＋图像，新的（de）方法模拟了（le）人工同传的工（gōng）作方式，增加视觉和大（dà）脑扩散（sàn）知识（shí）点的功能，拥有更为复杂的感知系统（tǒng）。

更加专业，此前（qián）的AI同传模型使用通用数据，新的模型通过实时定制知识增强能力，能够捕捉现（xiàn）场PPT内容补充演讲相关的专业领域的知识，并针对（duì）每一个演讲（jiǎng）进行模型定制，提升同（tóng）传效果。

Ai芯天下丨（shù）观点丨陈伟：AI语（yǔ）音市场要（yào）靠3.0技术撬动（dòng） portant;" />

搜狗同传的技术迭（dié）代之（zhī）路

2016年11月（yuè）推（tuī）出的搜（sōu）狗同传1．0通用语音同传是首个商用机器同传产品，实现了（le）语音同传的功（gōng）能（néng）。

2018年，搜狗同传2．0集成（chéng）TTS，首次实现语音到语音（yīn）同传，并可根据（jù）用户语料实时定制（zhì），同时（shí）它还用上了首（shǒu）个（gè）英译中同传引（yǐn）擎。

到3．0，搜狗（gǒu）同传已经是一款业内首创的（de）多模态（tài）＋自主学习的同传产品，能听、会看，能理解、会推理（lǐ）是它的特点，同时增加了实时捕捉PPT内容的功能。

搜狗1．0时，输入仅是语（yǔ）音，2．0开始做语音＋个性化，以及说话人的语（yǔ）境背（bèi）景输入；3．0加入（rù）了知识图（tú）谱，把语音、视觉等信息作（zuò）为语音识（shí）别的输入（rù）。现在，业内技（jì）术普遍（biàn）介于1．0和2．0之间，而搜狗（gǒu）依靠图谱方（fāng）式，已经率先进入3．0时（shí）代。

2．0时代（dài），搜狗（gǒu）同传会首先对（duì）文（wén）本进行规（guī）则化，让文本变（biàn）得（dé）流利（lì），丢弃一些语义词和（hé）停顿词（cí）等，但（dàn）会遇到延时（shí）很大的问题。

在3．0时代，搜狗同传加入了（le）语义单元（yuán），识（shí）别判断一（yī）句（jù）话为（wéi）独立的一个单元，系（xì）统可以在讲话（huà）者说话的同时可（kě）以立即上屏，降低（dī）同传系统的延迟（chí）。

Ai芯天下丨观点丨陈伟：AI语音（yīn）市场要靠3.0技术撬（qiào）动（dòng） portant;" />

机（jī）器翻译与人工之间的差距（jù）在拉近

机器翻译（yì）的历史可（kě）能（néng）比大（dà）多数人想象（xiàng）中都（dōu）要（yào）久（jiǔ）远，1954年（nián）初，乔治城大学的实验的一台电脑成功将四十多条俄文句子（zǐ）自动翻译成英文（wén），这一事件成为机（jī）器翻译史中（zhōng）的一个里程碑，标志（zhì）着（zhe）现代机器翻译（yì）的开端。

60多年（nián）过去了（le），机（jī）器翻译产（chǎn）品（pǐn）已经走（zǒu）进每个人（rén）的日（rì）常生活，在大型会议等场景下被广泛采（cǎi）用。

虽然翻译（yì）效果仍有待提高（gāo），但机器翻（fān）译已经成为提高翻译效率（lǜ）不可或缺（quē）的工具，并（bìng）催生了一大（dà）批从（cóng）事AI翻译（yì）研究的企业（yè），国内（nèi）有搜（sōu）狗、腾讯、科大讯飞等，国（guó）外有谷歌、微软等。

翻译领域有（yǒu）些工作（zuò）是有重复性的，包括同传领域，机器在某些方面会优于人工，比如知（zhī）识面、领域知识（shí）的拓展性上，机器比（bǐ）真人的知（zhī）识面更广阔，并能够快速查询（xún）背后海量（liàng）的知识（shí）体系，这比真人在某些领域（yù）的翻译上的（de）准确率更高。

在支持了（le）上千场会议之后，他们（men）发现从成本上来看，机（jī）器（qì）翻译（yì）的成本一（yī）定是低（dī）于人工的，且边际成本会随着使用量（liàng）增（zēng）加（jiā）越来越低。

与人（rén）相比，机器翻译（yì）成本更低，需要支持的设（shè）备（bèi）也更少，一台笔（bǐ）记（jì）本，一条视频线、一条音频线，连上就可以工作（zuò）。

机器同传在未来的地位

从机（jī）器（qì）同传的流程来看，当机器视觉（jiào）捕捉到核心关键词之后，会根（gēn）据搜狗（gǒu）的知识（shí）图谱技术（shù），把（bǎ）相关的词汇以及专（zhuān）业领域相关的词语拓（tuò）展出来，作（zuò）为语音识别和翻译的（de）加强。

未来，机器同传可（kě）向记者采（cǎi）访、跨国办公会议、中英文（wén）视频直播、字（zì）幕翻译等场景延展。这些（xiē）应用场景最主要的挑（tiāo）战，是怎么保证机器同传（chuán）的稳（wěn）定效果，考验的是采集设（shè）备（bèi）、网络（luò）环境、识别能力等。

未来（lái）面向人和机器交（jiāo）互过（guò）程中，一定是多模态的，搜（sōu）狗（gǒu）提倡的技（jì）术主（zhǔ）张（zhāng），使机器同（tóng）传和（hé）同类产品拉开（kāi）了一代之差。他们还是以同（tóng）传为主，搜狗已经（jīng）从语音跨到了（le）多模态，并把对于知（zhī）识（shí）和语音的（de）理解放进去，使同传开始（shǐ）具（jù）备一（yī）定的认知能力。

而搜狗在（zài）AI语音商业化（huà）的进程（chéng），最终的指向（xiàng）还是消（xiāo）费者端。未来各种各样（yàng）的（de）场合都可能用到搜（sōu）狗同传的技术（shù），通过同（tóng）传（chuán）打磨的能力也（yě）可以反（fǎn）向用（yòng）于（yú）C端（duān）产（chǎn）品。

一直以（yǐ）来（lái），人工（gōng）智能技术只能在展示在实验室（shì）中，随着深度学习等（děng）技术的研究成熟，人工（gōng）智能技（jì）术（shù）加持的产品也逐渐开始落地。

多模态技术（shù）未来发展

很多公（gōng）司都意识到多（duō）模态技术重要性，并将研究成果落地到各种应用（yòng）中，比如腾（téng）讯、优酷等视频网（wǎng）站平台，快手等短视频平台都将多模态技（jì）术应用于内容理解上，在获（huò）取用（yòng）户（hù）和（hé）加强与用户的互（hù）动交（jiāo）流（liú）上（shàng）起到了重要作用。

目前关于多模态的研（yán）究课题还是要从产品和实际需求倒（dǎo）推功能（néng），这涉及（jí）到异构数据融合的（de）问题。

多模态表达，在语义（yì）上如何进行对齐，提取同一需求的多模（mó）态特征（zhēng），如（rú）何更好地跨越语义的鸿沟，异构数据如何融合（hé），都是多模（mó）态技术会遇到的问题。

随着精度的逐步提高，搜狗（gǒu）同传所采用（yòng）的AI技术（shù），未来还将有更广（guǎng）阔的（de）的应用空间，赋予我们（men）更多的（de）可能性（xìng）。比如，实时私人翻译乃（nǎi）至文学作品的译制，可（kě）以让（ràng）我们足（zú）不出户，享受第一（yī）手（shǒu）国际作品的（de）字幕体（tǐ）验。

而在跨国界、跨领域等项目合作方面（miàn），逐渐实现无缝对接，能够显著提高整体的工程协作效率。

结尾（wěi）：

当（dāng）然必须要承认（rèn），无论是搜狗同（tóng）传（chuán）还是（shì）其他（tā）玩家（jiā），大（dà）家（jiā）目前距（jù）离（lí）顶（dǐng）级同传的（de）水准还有（yǒu）很长的路要走（zǒu），目前的机器同（tóng）传能（néng）力和顶级人（rén）工同传相比，仍存在不小的差距。