上个世纪五十年(nián)代,麦卡锡(xī)当时为达特(tè)茅斯会议命名了一个在那时看起来(lái)别出心裁的(de)名字:人工(gōng)智能(néng)夏季(jì)研讨会(Summer Research Project on Artificial Intelligence),由此“人(rén)工智能(ArtificialIntelligence)”这个概念开始走向世界。
历(lì)经了(le)半个多世纪的(de)AI一直都(dōu)不(bú)温不火,但近几年(nián)AI突(tū)然爆发,在人(rén)工(gōng)智能大量边缘设备落地的同时,将(jiāng)其推上一个更为兴盛的阶(jiē)段:围棋人工智能程序AlphaGo横扫棋(qí)坛,传(chuán)统与(yǔ)文化相结(jié)合独具一格的(de)“AI茶馆”,甚至还有腾讯去年在(zài)“AI+医疗”领域打(dǎ)造的“救命(mìng)AI”——腾讯AI医疗产品的(de)聚合。
portant;" />
AI迅(xùn)速爆发的背后究(jiū)竟靠的是什么(me)?现下众多巨(jù)头企业、初创公司等纷纷入局人(rén)工智能领域,都在尝(cháng)试寻找全新突破口。业内曾流传着这样一句话:得“数(shù)据”者,得“人(rén)工智能”,而能将“人工智能”玩的转(zhuǎn)的,便能称的上是撬动世界第四(sì)次工业革命的先锋了。
偏(piān)偏是(shì)“数据”扼住(zhù)了AI命运(yùn)的(de)咽喉?
从(cóng)发展意义来看(kàn),人工智能(AI)在不断的(de)进步,并且随(suí)着这种进步(bù)势必(bì)会改变一大批产业的形态。此外(wài),从另一方面看,人工智能技(jì)术的(de)背后(hòu)有三大支柱:算法、算力和数据,这(zhè)三者相辅相成、相互制约,但其中数据是(shì)核心要义,只要有了大量(liàng)优质精准的数据,再加上算法实现高效(xiào)的(de)机器运算、算力的(de)推(tuī)动,AI才(cái)能越走(zǒu)越(yuè)远。
“没有好(hǎo)的数(shù)据(jù),人工智能将没(méi)有未来(lái)”已经成为业界共识。
值(zhí)得一提(tí)的是(shì),这里有两个重要的点需要区分:一(yī)个(gè)是数据,另一(yī)个(gè)是(shì)好的数(shù)据:“高质、精准、安全”。
云测数据(jù)贾宇(yǔ)航表示:“首先数据是人工智能底层逻辑中不可(kě)或缺的支撑要素,因为(wéi)人工智能的本质就像人类(lèi)要不(bú)断(duàn)的通过训练来获取技(jì)能一样,AI的根基就是训练,需要经过大量数据进行(háng)训练,神(shén)经网络才能总结出规(guī)律(lǜ),进而熟能(néng)生巧的应用到新样本上”。
也就是说,数(shù)据(jù)是最(zuì)基本的燃(rán)料,没有燃料(liào),AI这艘火(huǒ)箭是(shì)不可(kě)能直(zhí)冲云霄(xiāo),而商业落地更是遥不可及(jí)的梦(mèng)。从自动(dòng)驾(jià)驶到AI聊天、服务机(jī)器人,从人脸识别到各类AI边缘落地化产品,数据是真正的“幕后英雄”,无(wú)“数据”不“AI”。
portant;" />
其次,要想经算法训练后获得的模型更加(jiā)智能,仅“数据”远(yuǎn)远不(bú)够的,这背后更多(duō)的是对(duì)数据(jù)的(de)“高质(zhì)、精准、安全”的(de)要求。
例如在训练的过程中,高质精准(zhǔn)的数据扮演着“教科书”级别的重要角(jiǎo)色。如果仅需要识别勺子,但在训练数据中(zhōng)勺子总和碗(wǎn)、筷子一起出现,那么AI系统可能会误入歧途,进入一(yī)种“瞎猜”的状态而产生混乱和误差(chà),结果很可能会将碗(wǎn)或筷子(zǐ)识别成勺子。所以对(duì)于人(rén)工智能(néng)来说,虽(suī)然大(dà)量的训练数据固然(rán)很重要,但更(gèng)重(chóng)要的(de)是数据的“高质精准”。
再从(cóng)另一方面看(kàn)“高质(zhì)精准的数据”对算(suàn)法模型来讲究竟有多重(chóng)要(yào)?
现在人工智(zhì)能处在(zài)产(chǎn)业落地前夕,可以说AI产品的精准数据训练直接影响落地产品的良品率;举个不恰(qià)当的例子(zǐ),如果自(zì)动驾驶系统的训练数据的(de)缺乏或(huò)不精准,则很可能在行驶(shǐ)过程中由(yóu)于未正确识别物体(tǐ)数据直接导致人身伤(shāng)亡,这些后果都是不堪设想的(de)。
此外,数据标(biāo)注的价值不仅体(tǐ)现(xiàn)在物体识别上。当(dāng)下人工智能整个行业都在往多模态的方向发展,比如以智能(néng)驾驶为例,基于传统的车外(wài)环境感知(zhī)系(xì)统一般(bān)都采用摄像(xiàng)头做(zuò)设计(jì),以至于(yú)存在着测距效果差等缺陷,现在引入激(jī)光雷(léi)达后,在数据的(de)提(tí)升上对应是既有图像又有3D点云的三维数据的耦合(hé)。
portant;" />
随(suí)着人工智能(néng)逐渐从学(xué)术走向产品化、落(luò)地化、市场化,企业对于场景数据(jù)的要求也越来越多维,所以引(yǐn)入(rù)更多(duō)维(wéi)度的数据去完善AI产品落地前的模型(xíng),也是当下行业发展的趋势。
直击行业痛(tòng)点,这样的(de)“数据(jù)一把手”才更性感
传统的数据清(qīng)洗标注(zhù)工(gōng)作(zuò)呈现出一种“数据粗放型处理”的状况,从移动互联中大量获取公(gōng)开、通(tōng)用(yòng)的数据(jù),通过雇佣廉价的(de)劳动力完成(chéng)数(shù)据的清晰标注工作,“道(dào)路、天空、大树”大(dà)致标注粗糙勾(gōu)选后(hòu),便全部(bù)投入应用到神经网络(luò)中。
但(dàn)随着人(rén)工(gōng)智能发展(zhǎn)至商业落地前夕,算法模型对高质量、高精度数据的需求极(jí)速提升,以往的通用数(shù)据集越来越不(bú)能满足(zú)AI企业(yè)的数据需要,人工智能落(luò)地越来越专注于小场景和专业(yè)领域。人工智(zhì)能不再(zài)是漂(piāo)浮(fú)在“空中(zhōng)的楼阁”,基于AI实(shí)际(jì)应用场景的数(shù)据服务(wù),已(yǐ)成为人(rén)工智能落地的核(hé)心地基。
贾宇(yǔ)航表示:“在这个行业中(zhōng)有一个‘garbage in garbage out’的理论,即如(rú)果(guǒ)标注完的数据(jù)精度达不到标准,那么训练出(chū)来的算法(fǎ)也是不(bú)精(jīng)准的。”如今一(yī)味粗放的处理模式既不能满足逐渐商用(yòng)的AI企(qǐ)业(yè)的(de)数据需求,甚至还将影响技(jì)术本身的发(fā)展(zhǎn)。
面对这样的产业趋势,云(yún)测数据作(zuò)为行业的典型代(dài)表,直击行业痛点:将“精准高质”“独立安全”作为业务发展的核心,并(bìng)随着(zhe)AI企业数据需求不断的演进(jìn)。
有刚性需求便会有实时供给,有(yǒu)痛点问题便就(jiù)有解(jiě)决方案(àn)。云测数据基(jī)于其自建的数(shù)据标注(zhù)基(jī)地和场景实(shí)验室(shì),根据AI企业(yè)数(shù)据需求,进行特定动作、表情和表(biǎo)情的捕(bǔ)捉,将精准的数据投(tóu)入到(dào)流程化规范生产的数据(jù)标注环节中,最终(zhōng)输出精准高(gāo)质的数据。解决特定场(chǎng)景(jǐng)化下的数据缺(quē)失、质量良莠(yǒu)不齐、安全(quán)性等行业问题(tí),以帮助AI企业打(dǎ)造以高精度(dù)数据为核(hé)心(xīn)的行业壁垒(lěi)。
场景(jǐng)实验(yàn)室是云测数据布局高度定制化(huà)、多模(mó)态(tài)的(de)AI数据服务的重要组成部分,以(yǐ)AI企业(yè)的(de)具体算法(fǎ)模(mó)型的特定需求来定制化(huà)搭建采集场(chǎng)景(jǐng),致力(lì)于覆盖尽可能(néng)多的实际(jì)场景及边际场景,从数据产生的源头把控数据质(zhì)量。
portant;" />
自建(jiàn)标注基(jī)地是(shì)云测数据保证数据精准高(gāo)质的又一(yī)强力保证。基(jī)地(dì)内的全职标注人(rén)员有利(lì)于协同化(huà)管理和快速响应企业(yè)数(shù)据需求。同时云(yún)测(cè)数据还基于不同场景对标注人员(yuán)进行领域内的(de)细分,接受固定领域的知识培训。得到高效的行业(yè)知识输入,在理解企业客户的(de)需求上就能做(zuò)到准确无误的输出(chū)。
portant;" />
所以,AI的背后是数据,行(háng)业的幕后是云测数据——这样的“行业数据(jù)一把手”才着实性感。
数(shù)据安全成(chéng)核心,行(háng)业(yè)规范亟需建(jiàn)立
目前(qián)云测(cè)数据基于(yú)自建的数据场景(jǐng)实验室和数(shù)据(jù)标注基地(dì),服(fú)务领域已涉(shè)及智能驾驶、智能家居、智慧城市、智慧金融、新(xīn)零(líng)售等领域,实时为领域内各个AI企业提供定制化的数(shù)据采集、数据标注服务,全方位支持文本、语音、图像、视频等各类型数(shù)据的处理。
更重要的(de)一(yī)条前置(zhì)底线是,云测数据除了(le)提供优质数据,更(gèng)是(shì)把数据隐私(sī)安(ān)全做到(dào)了极致。从防火(huǒ)墙的设置、到(dào)内部信息系统的管护,乃至标准化(huà)的流程作业体系等,将一(yī)整套的安全防护和信息保护的(de)机制,应用在(zài)数据标注(zhù)生产的各环节。
贾宇航告(gào)诉猎(liè)云(yún)网:“对于(yú)一个企业来讲,拥有了数(shù)据(jù)便就拥有了核心竞争力,数据安(ān)全一直都是我们极其重视的一点。首先我(wǒ)们要做到(dào)的,是数据绝不复用,第二(èr)就是保证数据(jù)隐私性。与所(suǒ)有数据(jù)采集的用户都(dōu)签订数据授权协议,确(què)保(bǎo)AI企业用于训(xùn)练的数据合法合规。”
portant;" />
Testin云(yún)测(cè)CMO张鹏飞(fēi)也强调“从(cóng)整体看来,AI数据(jù)行业关于安全、隐私等方面并(bìng)没(méi)有统一的标准和强调重视。但(dàn)从我们长远角度(dù)出发,一(yī)直在隐私和安全(quán)防(fáng)护角度(dù)下大力气服务行业、树(shù)立数据质量标杆(gǎn),只有以这种负(fù)责(zé)的态(tài)度来服务客户,我(wǒ)们的行业才能‘良币驱(qū)除劣(liè)币’,真正让人工智能(néng)成为新一(yī)轮技术革命,改(gǎi)变整个社(shè)会和人类进程”。
人工智能的发展离(lí)不开数据(jù)的支撑,更离不开AI数据做“燃料”。如果非要用一句话来定义(yì)这个(gè)时(shí)代的“人(rén)工智能(néng)”和“数据”的关系,可以说是:数据是人工(gōng)智能(néng)的核心要义,而“高质精准、独立(lì)安全”的数据,则是撬动世界第四次工业革命(人工智能(néng)浪潮(cháo))的关(guān)键(jiàn)所在。
作者:郭亚鑫(xīn)