在纷繁复杂(zá)、光怪陆离的数字世界,漏(lòu)洞的(de)必然存在和入侵的(de)不(bú)可避免,使网络安(ān)全成为永恒的话题。无论在入侵者还是防御者(zhě)眼(yǎn)里,都在寻求有力的(de)武器。AI技术(shù)的出现,在自动化助力上,能显著提升攻防(fáng)双方的能力基线。
未来已来(lái),机器智能对抗是新网络安全时代的选择。本文详细阐述(shù)了,AI在网络安全(quán)应用的(de)必(bì)要性、可行性、应用(yòng)实践,以(yǐ)及经验总结。从专家知识经验(yàn)到安全数据(jù)利用,从安全左右脑的双轮驱动,到多方知识协同,打造(zào)抵御多(duō)方位立体化攻击的(de)安全长城。
网络安全的问题源自何方?
安(ān)全问题的本源:系(xì)统中蕴含超出(chū)设计意图(tú)的输入、中间过程和输出。一个简单的(de)函数设计(jì),功能点是:特定的输入(rù)下的特定的(de)输出。实现时候,可以采用不同的(de)内部逻辑(jí),都能实(shí)现此功(gōng)能(néng)点(diǎn)。良好的设计,会充(chōng)分考虑例外的输入,不同中间过(guò)程中(zhōng)的异常(cháng)处理(lǐ),以及非预期输(shū)出的处理(lǐ)。但实际开发过程,由于开发能力、进(jìn)度压(yā)力、逻辑复杂度大等(děng)各方因素下,会有各种设计(jì)意图外的副(fù)效应(yīng),而这些副(fù)效应(yīng)会成为(wéi)系统(tǒng)的漏洞,并(bìng)被利用产生非预期的行为。
对于需(xū)要大量人员参与、大量逻辑迭代构建的系统,其复杂度呈(chéng)指数上升,就(jiù)会在某种程度(dù)上(shàng)超出设计者的能力控制范围。
系统的漏洞(dòng)不可避免,不可杜绝。任何的系统都必(bì)然存在(zài)漏洞,有漏洞就可能(néng)会被入(rù)侵。
不夸张,不粉饰,如何客观看待当(dāng)下网络(luò)安全(quán)的真实存在?
传(chuán)统基于(yú)静态规则和(hé)签名、简单行为识别武装(zhuāng)起来(lái)的防御系(xì)统,可(kě)以抵御(yù)常(cháng)规攻(gōng)击,但(dàn)在有计划投入(rù)的黑(hēi)客组(zǔ)织(zhī)的持续攻击下,基本是透明的。近年来国际安(ān)全行业针(zhēn)对“assume breach”形成共识,是(shì)否(fǒu)被入侵成功,只取决于自身的商业和政治价(jià)值以及入侵的(de)成本。在(zài)高价值目标里,入侵是已经(jīng)客观的存在,并将长期存(cún)在。所(suǒ)以,从(cóng)危害(hài)程度看,内(nèi)网安全防护会(huì)是未来的(de)重(chóng)中之重。
同时随着万物互联的智(zhì)能世界的到来,网络攻击(jī)日益增多且越来越自动化、智能(néng)化。复(fù)杂(zá)的(de)攻击可以自动检测环境,从而混淆、躲避(bì)和(hé)变种(zhǒng);高度自动化(huà)的工具使攻击变得更加聪明,传统防御策略是无(wú)法处理这些问题。安全团队的人(rén)力(lì)会淹没在大量的(de)告警事件中,产生(shēng)告(gào)警疲劳,从(cóng)而难以(yǐ)及时识别和(hé)应对真正的威(wēi)胁。
网(wǎng)络安全(quán)的现实困局是:
1、组(zǔ)织内(nèi)安全专家人力和(hé)知识不对等,
2、专业安全(quán)设备的应用(yòng)复杂度高,导致对网络威胁根本视而不见或者即使(shǐ)见也无力处置(zhì),干脆当个脑袋埋入沙堆的(de)鸵鸟(niǎo),麻木不仁、听天由(yóu)命,直(zhí)到产生巨(jù)大危害的那一(yī)天。
漏洞(dòng)的必(bì)然存在,和(hé)威胁入侵(qīn)的(de)不可避免,如何(hé)保(bǎo)卫数字世界的(de)安全呢?
如果把网(wǎng)络世界(jiè)的安全看做是一场攻防战争,攻防各方首先都要有强(qiáng)大的军备。在这个军备清(qīng)单里AI会(huì)是关键武器(qì)。作为新时代的电力,它将发(fā)光并照耀整个真(zhēn)实及(jí)虚拟的世界。
在网络安全(quán)领域,传统防御(yù)模式的假设是(shì):所有攻击场景都(dōu)是已知的,每种攻击场景和应对策略一一对应,那么基于规则(zé)的系统(tǒng)便可(kě)高(gāo)效地运行。类似(sì)于中(zhōng)国武(wǔ)术的散打表演,按照固定套(tào)路来。
但现实是残酷的。
随(suí)着大数据时代的到来,黑客的攻击手(shǒu)段日趋复杂与多样,新型病毒和病毒变种层出(chū)不穷(qióng)。例如2017年勒索病(bìng)毒WannaCry席卷全(quán)球,150多(duō)个(gè)国家(jiā)遭遇攻(gōng)击。WannaCry爆(bào)发后,依然不断(duàn)有黑客修改该(gāi)病(bìng)毒,新型病毒(dú)及变(biàn)种不断涌现,勒索病毒已成为威胁互联网安全的一大毒瘤(liú)。
AI作(zuò)为信息世界(jiè)的最新技(jì)术,也已经被(bèi)具(jù)有创(chuàng)新精神的(de)黑客组织(zhī)采用来武装(zhuāng)自己。面(miàn)对这些疯狂且极具创(chuàng)新颠覆意识的对(duì)手,传统防御技术已无法跟上快速(sù)演进的攻击和威胁(xié)。不要说(shuō)新(xīn)型未知威胁,即使对于已有的安全漏洞的攻击变种,也(yě)很难及时发现并有效处置。
同(tóng)时,国内网络安全市场(chǎng)正在(zài)经历一场场转变。从注重安全合规,向注重效果转变;从原来的(de)流于表(biǎo)面的(de)安全设备购置和部署匹配,向注重实战的攻防演练、调查问责(zé)转变。网络安全的建设模式(shì),也从被(bèi)动(dòng)防御(yù)转(zhuǎn)为主动能力(lì)建设。整个网络安全行业(yè)最终(zhōng)进入基于AI的机器智能对抗时(shí)代:谁(shuí)拥有更(gèng)多(duō)的(de)AI能力和攻防知(zhī)识(shí),谁的获胜面就更大(dà)。
AI是一种机器展(zhǎn)现的智能。理想的智能机(jī)器能够感知周(zhōu)围环境,并(bìng)采取行动(dòng)以最(zuì)大可能达成特定(dìng)目标。教科书对AI的经典定义是(shì):
1、象人一样行动、象(xiàng)人一样思考;
2、合理(lǐ)地思考、合理(lǐ)地行动。
在网络(luò)安全领(lǐng)域的AI应(yīng)用可以定义为替代安全专(zhuān)家(jiā)能力的自(zì)动化技术
当前(qián),促(cù)成AI在网络安全领域应用的要素都已经(jīng)集齐:
1、高性能计算(suàn)AI芯(xīn)片;
2、大量可采集的数据(jù)、日志和安全事件;
3、AI算法近(jìn)年(nián)来的突飞猛进,聚集这个(gè)时代大量最优秀的大脑。无论传统机器学(xué)习(xí)、贝叶(yè)斯网络、知识图(tú)谱,还(hái)是深度学习、图计(jì)算,在各行各(gè)业都得到充分的实践(jiàn)。
即(jí)使上述条(tiáo)件成立,人们还是会(huì)有疑惑:在极具个人英(yīng)雄主义色彩的安全(quán)攻(gōng)防领域(yù),面对新型威(wēi)胁的创新不断和灵活多变的网络攻击(jī)套路,在攻防双方成本严重(chóng)不均衡的博弈场景下:
AI是否具备解(jiě)决网络安全问(wèn)题的条件并真能成(chéng)为关键武(wǔ)器呢?
首(shǒu)先,判断待(dài)解决问(wèn)题的(de)背后,解是(shì)否(fǒu)存(cún)在。世界是稀疏(shū)的,世界万事万(wàn)物背后都会有一定规则在起着作用,包括大(dà)自然的作品和人类(lèi)的所有作品都一样。物理世界,从量子力(lì)学看,微观上(shàng)是由不确(què)定性原理和薛定谔方程的概率波统(tǒng)治的;而宏观上,则是由广(guǎng)义相对论、麦克斯韦方程(chéng)组统治(zhì)的(de)充满确(què)定性的世界(jiè)。
理论上,围棋有超越宇宙中所有原子(zǐ)数量的(de)变(biàn)化。而实际(jì)上,AlphaZero经过450万盘的强化学习,就已经可以战胜AlphaGo Lee了,这表(biǎo)明每个(gè)局面可选择(zé)的有(yǒu)效下法其(qí)实是有(yǒu)限的。所以(yǐ),在(zài)特(tè)定(dìng)场景和具体设计下,事物的存在和发展在(zài)可(kě)量化描述的(de)维度上(shàng)是稀疏的,有(yǒu)大概率的趋同(tóng)性。
网络攻(gōng)击也是基于一定的(de)样本和(hé)攻(gōng)防理论,而非完(wán)全(quán)孤立和随机离散,也(yě)就内含了某个模式或者规(guī)律,是可解的。
其次,探讨和提取模式和规律,有很多(duō)成熟的科学方法。
在简单(dān)的系统中,通过归纳总结,人类专家就可以提取出规律,用在网络安全(quán)领域就是一系列的安全规则、签名以及情(qíng)报。在复杂(zá)的系(xì)统中,模式和定律需要(yào)通过大(dà)量数据(jù)分析才能得到(dào)。
AI是超越人工的利器(qì),可以(yǐ)从数(shù)据(jù)中找到(dào)特定的模(mó)式(shì)并刻(kè)画(huà)事物(wù)的特征,总结出定律和定理,并抽象为可以用符(fú)号推理表达(dá)的知(zhī)识。比如,引爆此次AI技术(shù)浪潮的(de)是(shì)基于深(shēn)度(dù)学(xué)习(xí)的神经网络,它之(zhī)所以有如此(cǐ)大的作(zuò)用,正(zhèng)是因为它较好地模拟了人(rén)脑(nǎo)这“分层”和(hé)“抽象”的(de)认知和思考方(fāng)式。其实质,是通过构建隐层的神经网络模型(xíng)和获取(qǔ)海量的训练数据,来学习(xí)到更有用的本质(zhì)特征,从而最终(zhōng)提升信息分(fèn)类或(huò)预测的准确性。图(tú)像(xiàng)识别通过应用深度神经网络,已经拥有超越(yuè)人的识别能力。现(xiàn)实中,人脸识别应用非(fēi)常广泛,也已经显示出高于(yú)人工(gōng)识别(bié)的优越性。在数据(jù)中心(xīn)的AIops中,AI同样发挥着(zhe)重要作用。
AI本身擅长(zhǎng)的就是,从大量纷繁复(fù)杂、但含有(yǒu)有效信息的数据中寻找(zhǎo)本(běn)质的(de)模式(shì)或(huò)规律,对于网络安全领域也(yě)一样。
AI如何有效的应(yīng)用于网络安全领域?
网(wǎng)络安全AI应用的目标是替代人类安全分(fèn)析专家在特定场(chǎng)景(jǐng)下的工作,实(shí)现自动化。
我们先看(kàn)看人脑的决(jué)策机制:
右脑(nǎo),感性,非(fēi)计算模式,从已(yǐ)存储的模式中启发式匹配(pèi)检(jiǎn)索。即通(tōng)常意义上的直觉,可以快速(sù)匹配(pèi)、快速(sù)反应,根(gēn)据(jù)历史经验(yàn)来提取关键事物(wù)特征和行为模式,从而第一时(shí)间做出决(jué)策。
左脑,理(lǐ)性分析,通过一定的逻辑计算,从普世定理和(hé)领域知识出发进行演绎推理。从知识概念中来,到现实证据中去,通过推(tuī)理模型预测和证据(jù)对照来判断真伪(wěi),指(zhǐ)导(dǎo)做(zuò)出决策。
理性可避免错(cuò)误,但也可能会(huì)受限于旧知识而因循守旧。感性激发创造力和快(kuài)速反应(yīng),但会陷入被设(shè)计的陷阱,误判较大(dà)。
人的决策,很多时候(hòu)是左右脑互博而达到(dào)协调统(tǒng)一,才能给出更合理的结论。
AI在网(wǎng)络安全(quán)中的应用模式,也大(dà)概如此(cǐ)。安(ān)全(quán)AI右脑需要有类似老刑警“看一眼即懂”的能力,不放过任何(hé)一个可疑分子;安全AI左脑需要用攻防知识库和推(tuī)理引擎来武装自己,从多维关联、攻击链、图计算到(dào)知识图谱,推导得(dé)出一个更(gèng)合(hé)理的最终决策。
AI在网(wǎng)络安全中的应(yīng)用(yòng)模(mó)式(shì)如下:
第一、安全数据的加工中AI的应用。安全数据加工目的是自(zì)动或者半自动产生安全(quán)情报、规则或者签名。一般来讲,这个(gè)加工过程需(xū)要安全专家参与最后(hòu)的确认与调整。通(tōng)过利用AI工具,可以过滤掉大部分无(wú)用的数据,并给出更(gèng)精(jīng)确的情报、规(guī)则和签名(míng)的建议,减少安全专家的(de)分析工作(zuò)量,提高工作效率,减少重(chóng)复的劳动。
第二、有监督学习的安全AI检测(cè):通过(guò)对海(hǎi)量黑(hēi)白样本的学(xué)习,建立分类模型,识别威胁的真实性,是最常见的应用(yòng)。有(yǒu)别于静态固定的签名和规则,AI模型(xíng)比(bǐ)人类专家(jiā)更能在海量(liàng)数据中找到最接近(jìn)本质的特征表达,因而(ér)有更强的泛化能力,适应于(yú)各种变(biàn)种。变种很多有(yǒu)家族属性(xìng)和恶(è)意代码的重(chóng)用度,这些(xiē)是(shì)监督学习(xí)算(suàn)法最擅于捕捉到的关键特征(zhēng),但(dàn)需要注意的前提是大数据量和高质量的黑白样本,以及场景问题在可以用(yòng)的安全数据(jù)中的信息含量多少。
构建(jiàn)AI模型的门槛(kǎn)即(jí)低又高。低,是因为(wéi)数据(jù)驱动的机器学习和深度学习,无(wú)脑拟合(hé),容易过拟合得到高(gāo)精度得分,可(kě)以在局(jú)部数据很到漂亮(liàng)的结果(guǒ);高,是因为要替代或者超越(yuè)人类(lèi)安全专家,首(shǒu)先需要的数(shù)据(jù)不仅(jǐn)有量还要有质,同时在算法上有深(shēn)入(rù)研(yán)究。到模型构建(jiàn)的最后时刻,每前(qián)进1个百分点都非常困(kùn)难,需要“炼丹师”般高深的功底才(cái)能取得一个实战环境基本可用(yòng)的AI模型。而这只(zhī)一(yī)个开始,AI模型还(hái)要(yào)根据不(bú)同客户具体环境下的安全数据的分布(bù)差异,不断的迭代优化,反(fǎn)复打磨才能实战可用。
第三、无监督学(xué)习的(de)安全AI检(jiǎn)测:无监督学习(xí)不(bú)需要事先标记好(hǎo)数据,而是可以(yǐ)通过数(shù)据本身在时空维度上的内在(zài)联系,建立行为基线;或者通过聚类算法,来表达数据本身的(de)分布属性,从而获(huò)得安全数据(jù)的分布(bù)模型。通过数(shù)据空间的分布模(mó)型可以(yǐ)发现异常,分类不同(tóng)的数(shù)据(jù)集合,从而自学习(xí)、自适(shì)应(yīng)地(dì)识别0 Day攻击或基于已知漏洞变种(zhǒng)的攻击。无(wú)监(jiān)督模式是很好的未知(zhī)威胁(xié)检测方式。
第四、基于安全AI的(de)认知能力构建,从安全攻防知识(shí)、资产的(de)脆弱性/重要性(xìng)、情报,通过各种知识推导给出最终结论,可用于最终决策,高级威胁识别,同时给出威胁自动(dòng)处置脚本(běn),加快响(xiǎng)应速(sù)度(dù),减(jiǎn)少系统受损程度和增加对APT组织的攻击(jī)预判(pàn)。
AI在网(wǎng)络安全中的具体实(shí)践举例:
(1)基于DNN的恶意文件检测
恶意文件数据量巨大,大部分会有有家族性(xìng),有较(jiào)好的AI检测基础。
恶意文件检测基于深度学习DNN模型,用(yòng)以识别(bié)文件是(shì)否为恶意文(wén)件。其优点(diǎn)是检测算法使用了静态检测(cè)技术,无(wú)需恶意(yì)文件的运行时行为,常(cháng)用(yòng)于本地检测。此外,模型小(xiǎo)于1MB,运行内存小,适合防火墙做轻量化检测。
恶意文件的本地检测流(liú)程
恶意文件检测建(jiàn)模
(2)C&C检测——DGA和DNS隐蔽通(tōng)道检测
C&C是内(nèi)网防(fáng)护的重点,同时也积累这大量的流量(liàng)行(háng)为(wéi)数据,有较好的AI应用基(jī)础。DGA(域名生(shēng)成算(suàn)法)是一种利用随机字符来生(shēng)成(chéng)C&C域名,从而逃避域(yù)名黑名单检测的技术手段(duàn)。DGA检(jiǎn)测使用(yòng)了卷积神经网(wǎng)络(luò)(CNN)的模(mó)型,识别准(zhǔn)确率(lǜ)高达99.9%以(yǐ)上。
DGA检测恶意域名
DNS隐蔽通道是指(zhǐ)黑客利用(yòng)DNS协议实现诸如远程控(kòng)制、文件(jiàn)传(chuán)输等操作。例如2017年著(zhe)名的XShell DNS通(tōng)道攻击,黑客在XShell中植入(rù)恶意代码,通过DNS隐蔽通道外(wài)发用户(hù)敏(mǐn)感数据。一个典型(xíng)的(de)DNS隐蔽通道攻击过程(chéng)如下(xià)图所(suǒ)示。
DNS隐蔽通道(dào)攻击
①被控端发起(qǐ)包(bāo)含“数据上传”的域(yù)名(míng)请求(qiú)
②域名请求DNS服务器进行递归查询
③控制端服务器返(fǎn)回含(hán)C&C data的DNS应答
④C&C data到(dào)达被控端(duān)
使用(yòng)深度学习卷(juàn)积神经网络(CNN)识别(bié)DNS隐蔽(bì)通道。通过batch normalization、word embedding、dropout等(děng)技术优化CNN模型,使(shǐ)得DNS隐蔽通道识别准确(què)率高达97%以上。
(3)恶意加密流量识别
互联网上的(de)加密流量(liàng)呈现增多趋势(shì)。同时,为绕过传统的流量检测技术,也有很多恶意软件通(tōng)过TLS加密流量进行(háng)通信。如何识别恶意和正常流量,从(cóng)而有(yǒu)效及时阻断,需要(yào)用到基于(yú)AI技术的(de)方法(fǎ)。
加密流量(liàng)识别过程
整个工作分为3大(dà)部分:
1、首先安全(quán)研究人员通过获取的黑(hēi)白(bái)样本(běn)集,结合查询开源情报,域名、IP、SSL等的情(qíng)报信息,进行特征信息(xī)提取;通过对(duì)黑白样本的客户端签名和服务器证书(shū)的签名进行(háng)分析;基(jī)于上述分析取证的特征向量(liàng),采用(yòng)机器学习的方法,利用(yòng)样本数据进行训(xùn)练,从而(ér)生成分类器模型。这就形成(chéng)CIS安全态势感知系统最核心的(de)ECA检测分类模型。
2、流探(tàn)针提取网络流量中加密流量的特征数据,包括TLS握手信息、TCP统计信息、DNS/HTTP相关信息以及3/4层协议统(tǒng)计信息(xī),统一(yī)上(shàng)报给(gěi)AI分析系统。
3、AI分析系统结合自身(shēn)的大数据关联分析能力,对(duì)探针上送的各类特征数据进行处理,利用(yòng)检测分(fèn)类模(mó)型识(shí)别加密(mì)流量(liàng)中(zhōng)的异(yì)常C&C连接,从而(ér)发现僵尸主机(jī)或者APT攻击在命令(lìng)控制阶段的异(yì)常行为。
AI在网络安全应用总结
①借助AI技术的自动化数据(jù)加工可提升(shēng)数据处理效率,让安全专家(jiā)更(gèng)专(zhuān)注于价值(zhí)信(xìn)息,从中提取更有效的规(guī)则(zé)、签名、情报。内嵌(qiàn)入静态规则引擎,简单高效(xiào),是(shì)安全防御的(de)重要手(shǒu)段,实际在广泛应(yīng)用。
②在威胁手(shǒu)段(duàn)不断变化和漏洞日益增加,常规(guī)防御手段(duàn)失效的情况下(xià),更能适(shì)应变(biàn)化的AI检测模(mó)型成为最后的兜(dōu)底、最后的防线。建立成百上千的AI检测模型(xíng)的集群(qún),可以从各个(gè)方位形成(chéng)天罗(luó)地(dì)网,构筑最强力的(de)防线。
③我们(men)还必须从组织的安(ān)全管理的视角出发,从网络虚拟空间走向物理(lǐ)实体空(kōng)间,实现(xiàn)用户(hù)友好的AI安全(quán)检测(cè)和威胁闭环,协同业界(jiè)顶尖(jiān)的安全(quán)专家能力,赋(fù)能给单个组织,抵御外部的持续(xù)攻击,实现威胁的预防(fáng)和根(gēn)治。安全能力来自对网(wǎng)络安全空间的认知理解,包括:实(shí)体(用户、主机、系统、应用等(děng)),威(wēi)胁(情报(bào)、漏洞),APT组织和其攻击技术。知识决定命运,安全知(zhī)识多的一方(fāng)会获得(dé)更大优势,构建(jiàn)多(duō)层次的AI推(tuī)理引擎是知(zhī)识应用的关键。
人工智能技术能够(gòu)解决(jué)静(jìng)态规则引擎的弊端(duān),从而加(jiā)强威胁(xié)检测能(néng)力,并通过知识智能推理来解(jiě)决安全运(yùn)维面临(lín)的(de)挑战。目前(qián)硬件生态的繁荣、AI芯片(piàn)的(de)涌(yǒng)现为(wéi)人工(gōng)智能(néng)技术在(zài)网络(luò)安全领域的落地提供(gòng)了坚(jiān)实(shí)保障。此(cǐ)外,AI能够助力(lì)设(shè)备间以及(jí)云间协同,促进安全互动(dòng)生态的发(fā)展,通过多方联动(dòng)打(dǎ)造(zào)越发牢(láo)固的安(ān)全平台,为(wéi)企业筑起安(ān)全防护的钢铁(tiě)长城。