竞赛总结:AIOps 电信故障根因定位

赛题背景

本次比赛提供华为5G真实业务场景数据集,同时提供一张由专家绘制的因果图。由于数据采集的限制,一些实际问题诸如少标签样本、数据缺失、时间序列分析、因果推断等,亟待来自不同背景学者和实践者共同解决!

比赛官网:https://www.aiops.sribd.cn

根因定位

移动网络中故障根因定位是网络运维中一个重要环节,通过准确快速地判断网络的故障根因,可以及时采取措施对核心问题进行修复。实际网络具有复杂的无线通信环境和网络部署结构,存在故障出现的样本数较少、不同的场景下故障现象有所差异等等问题。如何根据现有的知识,推导已经出现或者后续即将出现的故障,是运维过程中的巨大挑战。

竞赛总结:AIOps 电信故障根因定位

根因定位主要根据变量之间的影响程度确定主要的影响因素,从而推断导致当前现象的主要原因。因此,正确衡量变量之间的关系是根因定位的关键。如下图所示,受变量,,影响,当出现故障时,需要分析,,哪个变量对于的影响最大,从而判断主要原因。当前运维过程中,主要通过人工总结经验的方法得到,从而存在以下几点问题:

竞赛总结:AIOps 电信故障根因定位

  • 所有的因素之间的影响程度严重依赖于专家经验,灵活性较低;
  • 对一个现象的多个原因进行判断时通常采用独立判断的原则,即缺乏联合考虑,如同时影响了,因此考虑对于的影响时需要联合考虑X3的影响。

通信网络中变量之间的影响关系复杂,我们提供变量之间的关系作为参考,本赛题希望通过给出的变量之间的因果关系,结合采集的变量数据,学习用于多个不同的场景下进行根因定位的模型,以降低对于业务专家的依赖。

赛题描述

电信网络中feature0值偏低一直是客户关注的问题,本赛题重点解决feature0值偏低的根因定位问题。在已知其值小于200的情况下,我们需要通过分析feature0的影响因素,从而得到其值偏低的原因。

feature0的影响关系如下图所示,每一个feature可以理解为电信网络中的一个关键绩效指标(KPI),这些KPI的取值随时间变化且相互影响。因此,需要通过图中提供的影响关系,推理出feature0值偏低的最终原因。

图中的椭圆形表示变量,其中无颜色表示可以采集观测到的数据,灰颜色表示中间计算变量(不可观测),方框表示对根因的描述。最上层feature0表示用户关心的结果变量。此关系图不随时间、地点位置发生改变,属于标准的通信协议关系。变量之间的关系大多为非线性关系。有的是确定性关系,有的为概率性关系。

数据描述

本数据集包括:

变量因果关系图。在此数据集中,我们提供了一张专家绘制的变量因果关系图(已脱敏处理)作为先验。

变量特征数据。本数据集共包含2984个样本,每个样本为采自不同的5G路测场景的时间片段(长度不固定),其包含23个可观测特征变量(图1无色椭圆形)在该时间片段内随时间变化的信息。在这2984个样本中,只有少数数据(45%)是标注根因的已知异常数据,其余数据未知。

提交格式

测试时给出多个时间段数据,要求选手给出每个时段的根因及其概率,并设定阈值给出相应的根因集合。选手需提交如下的csv格式文件,选手需将其认为的根因标记为1。

数据段编号 根因1 根因2 根因3 根因4 根因5 根因6
时间片段1 0 1 1 0 0 0
时间片段2 0 1 1 1 0 0
…… ……

评估方法

初始阶段,我们将先抽取其中600条样本作为评估,参赛者给出每个根因是否存在(1 表示存在,0表示不存在)给出的结论 我们将结果与标准结果 比对。

优胜方案

第1名:MindOps

作者单位:DAMO Academy, Alibaba Group, Hangzhou, China

方案综述

我们提出了NetRCA的模型,考虑了时间、方向、归因、交互特征。采用多元时间序列相似度和标签传播,从标记和未标记数据中生成新的训练数据,以克服了标签样本缺乏的问题。

最终设计了一个结合了XGBoost、规则集学习、归因模型和图算法的集成模型,以充分利用所有的数据信息,提高性能。

方案框架

所提出的NetRCA算法主要有三个步骤:

  • 特征工程
  • 数据增强
  • 模型集成
1. 特征工程

由于每个样本中的时间戳数量不同,直接使用所有的时间戳来训练模型可能会导致偏差。我们基于从每个样本中提取的特征来训练我们的模型。生成的特征大致可以分为四类:时间特征、方向相关特征、属性特征和交互特性。

我们使用的一些时间特征是基于数据的统计,其中每个时间戳中的数据被假定为独立的,包括平均值、最小值、最大值、中位数、十分位数和偏数,时间序列的形状。这些特征部分来自于tsfresh库。

根据因果图,我们推导出除特征0外的所有节点的归因特征。如问题描述中所述,这些根本原因最终导致特性0的值较低。我们还对相关性比较高的特征进行了特征交叉。

2. 数据增强

我们采用Eros算法来计算时序序列的相似度。Eros利用主成分和基于特征向量计算相似性。

我们发现超过一半的训练数据是没有标记的,而简单地删除这些数据就会错过许多有价值的信息。使用Eros测量任何两者之间的相似性,我们就可通过相似度来标记未标注的数据。

另一个重要的增强是相似时间戳的训练样本,对应的标签也基本相似。这里不同类型的标签存在不同的标签对齐细节,可以参考我们的论文。

3. 模型集成

NetRCA采用集成模型来预测根本原因,采样XGBoost获得初始结果,然后结合规则集学习、归因模型和图算法来得到最后的结果。

竞赛总结:AIOps 电信故障根因定位

第2名:DMIRLAB

作者单位:School of Computer Science, Guangdong University of Technology, Guangzhou, China

方案综述

我们提出了一个基于因果对齐的根本原因定位(CARCL)框架,包括因果对齐和多阶段分类器的分类方法。

步骤1:因果对齐

我们首先进行因果对齐,来产生一个对齐的训练数据集。具体来说对齐的目标是对齐根本原因的分布。

我们首先使用基于贝叶斯网络的方法将测试数据集分为有故障部分和无故障部分。然后使用KL散度来计算训练集和测试集分布距离。

步骤2:多阶段分类器

在现实场景中,对齐方法很难完美地对齐训练集和测试集的数据分布。因此,我们提出了多个分类器模型来补充上述对齐方法。通过这样做,我们发现它可以产生更好的结果。

我们使用LightGBM进行初步训练,然后使用伪标签的思路进行了二次训练。

竞赛总结:AIOps 电信故障根因定位

第3名:0000000

作者单位:Beijing Jiaotong Unviersity,Beijing Baolande Software Corporation

我们设计了特定的特征工程方法,然后搭建了分类模型和集成模型。我们也将TextCNN引入多元时间序列分类,以获得较高的精度。

我们首先分析一个样本的时间序列特征,以推断一个样本中是否存在多种根本原因。为了利用这些空间特征,我们设计了两类特征,具体细节可以参考我们的论文。

竞赛总结:AIOps 电信故障根因定位

【竞赛报名/项目咨询+微信:mollywei007】

上一篇

2022年环境与气候小说写作比赛投稿开启!

下一篇

留学申请中最有效的课外活动是什么?

你也可能喜欢

  • 暂无相关文章!

评论已经被关闭。

插入图片
返回顶部