华为开发者发布网络人工(gōng)智能十大(dà)数据集
在华为(wéi)开发者大会HDC.Cloud 3月20号直播间(jiān),华为网络人工(gōng)智能(néng)数据湖专家周尧(yáo),向开(kāi)发(fā)者们正式(shì)发布了网络AI领域10大(dà)公开数(shù)据集,解决(jué)了网络AI开发缺乏工业级数据的(de)难题。
这10大数据集是华(huá)为从外场仿真数据和实验室模拟数据(jù),经(jīng)过解析治理、探索(suǒ)标注之(zhī)后的,可(kě)以直接应用于(yú)网(wǎng)络领域AI应用开发的数据集。分为“异常检测(cè)类”、“控(kòng)制优化类”、和(hé)“故(gù)障定界(jiè)类”三大类:
异常检测类
1)性(xìng)能指标异常检(jiǎn)测数据集:时间序列数据集(jí),包(bāo)括正样(yàng)本和负样本(běn),可应用于时序(xù)序列预(yù)测等算法的训练和验证(zhèng);样本(běn)量100W条,特征维(wéi)度7维
2)性能指标变更监(jiān)控测数据集:覆盖4种网络业务变更(gèng)场景,包括变更成(chéng)功场景和失败场景,失(shī)败场景(jǐng)数据有对应标签(qiān);样本(běn)量100W条,特(tè)征维度40维
3)硬盘故(gù)障检测数据集:覆盖日立,希捷共计16款硬盘型号,累积标注坏盘数量超2300块,应用(yòng)于硬盘故障预测类(lèi)问题(tí)分析与研究;样本量超230W条(tiáo),特征维(wéi)度超100维(覆(fù)盖厂商公开SMART指标(biāo))
控制优化类
4)数(shù)据(jù)中(zhōng)心群控数据(jù)集:包(bāo)含(hán)冷塔、冷机、泵等设(shè)备的供回水温(wēn)度、压(yā)力、IT机房(fáng)、冷(lěng)站(zhàn)设备能耗100+维特征,可应用于(yú)数(shù)据中(zhōng)心水(shuǐ)冷冷冻水场景(jǐng)制冷系统优(yōu)化模型(xíng)训练;样本量2W条,特征维度100维
5)数据中心PUE优化数据(jù)集:覆盖3种制冷场景、4种末端(duān)空调、冷站群控、IT机房等设备能耗数据,基(jī)于冷(lěng)却系(xì)统完成关联(lián),应用于PUE优(yōu)化(huà)、网络(luò)领域控(kòng)制(zhì)类模型开发与研究;样本量2W条,特征(zhēng)维度110维
故障定(dìng)界类
6)无(wú)线接(jiē)入故障数据(jù)集:覆盖20种无线接入故障类型(xíng),告(gào)警数据与工单数据相关关联,业(yè)务专家团队准确标注,可用于告警压缩和根(gēn)因定位类模型(xíng)开发(fā),样本(běn)量65w条,特征维度(dù)7维
7)无线(xiàn)&IPRAN故障(zhàng)数据集:告警数据基于无(wú)线接入和IPRAN的设(shè)备拓扑进行关联,利用工(gōng)单数(shù)据完成根(gēn)因告(gào)警标注,覆盖37种故障类型,可用于告警(jǐng)压缩和故障定位(wèi),样本量700w+条,特征(zhēng)维度24维
8)无线&PTN故(gù)障数据(jù)集(jí):告警数据基于无线(xiàn)基站、动力环境、PTN等设备拓扑进行关联,利用工单数据(jù)完成根因告警(jǐng)标注,覆盖48种故障(zhàng)类型,可用于告警压缩和故障(zhàng)定位,样本量100w+条,特征(zhēng)维度61维(wéi)
9)无线(xiàn)&微(wēi)波(bō)故障数(shù)据集:告警数据(jù)基(jī)于无线(xiàn)基站、动力环(huán)境、微波等设备拓扑进行关(guān)联,利用工单数据完成(chéng)根(gēn)因告(gào)警标注,覆盖29种故障类型,可(kě)用(yòng)于(yú)告警压缩和故障定位,样本量100w+条,特征(zhēng)维度46维
10)PON光(guāng)路(lù)故障数据集(jí):PON光路故(gù)障场景数据,包含光纤弯曲、连接器松(sōng)动等故障场景,覆盖光模块的电压,电流,接收光功(gōng)率,发送光功率等(děng)特征(zhēng),样本量(liàng)4w条(tiáo),特征维度11维(wéi)
数据和特征决(jué)定了机器学习的上限,华为(wéi)发布网(wǎng)络领域10大数据集,不但可(kě)以帮助网络AI开发者减(jiǎn)少90%的数据集准备时间,更重要的(de)是将会极(jí)大(dà)提(tí)高AI模型精度。目前已验证数据中心数据集(jí)助力AI模型达准(zhǔn)确率达(dá)到89.77%,无线&IPRAN故障(zhàng)数据集提(tí)高(gāo)高(gāo)级聚合率(lǜ)到(dào)95.4%,查准(zhǔn)率到(dào)90%。
现在使用华为云账号登录华为云,选择NAIE服务(路径:EI企业智能—智能体—网络智能(néng)体 NAIE),再从(cóng)AI服(fú)务目录(lù)选(xuǎn)择数(shù)据集服务,即可进入数据集(jí)服务页面选择所需公开数据(jù)集。