基于标记数据学习降低误报率的算法优化_大数据技术

基于标记数据学习降低误报率的算法优化

无论是基于规则匹配的策略，还是基于复杂的安全分析模型，安全设备产生的告警都存在大量误报，这是一个相当普遍的问题。其中一个重要的原因是每个客户的应用场景和数据都多多少少有不同的差异，基于固定判断规则对有统计涨落的数据进行僵化的判断，很容易出现误判。

在没有持续人工干预和手动优化的情况下，策略和模型的误报率不会随着数据的积累而有所改进。也就是说安全分析人员通过对告警打标签的方式，可以将专业经验传授给智能算法，自动得反馈到策略和模型当中，使之对安全事件做出更精准的判断。本文介绍利用专家经验持续优化机器学习的方法，对告警数据进行二次分析和学习，从而显著地降低安全威胁告警的误报率。

为了降低误报率，当前大体上有两种技术途径：

根据不同客户的各种特定情况修正策略和模型，提高策略或者模型的适应能力；

定期（如每月一次）对告警进入二次人工分析，根据分析结果来调整策略和模型的参数配置。

这两种方法对降低误报率都有一定的作用。但是第一种没有自适应能力，是否有效果要看实际情况。第二种效果会好一些，但是非常耗时耗力，而且由于是人工现场干预和调整策略和模型，出错的概率也非常高。

MIT的研究人员[1] 介绍了一种将安全分析人员标记后的告警日志作为训练数据集，令机器学习算法学习专家经验，使分析算法持续得到优化，实现自动识别误报告警，降低误报率的方法（以下简称“标签传递经验方法”）。这种把安全分析人员的专业智能转化成算法分析能力的过程，会让分析算法随着数据的积累而更加精确。继而逐渐摆脱人工干预，提高运维效率。如下图所示：

大数据