基于离群点检测的CEMS系统数据异常点甄别

中国科技纵横 / 2017年12月23日 23:58

家电

用360系统重装检测时提示硬盘s.m.a.r.t指标数据异常

李育发+闫庆庆

摘 要:由于CEMS系统工作在恶劣的环境下,监测到的烟尘烟气数据会受到影响,由人工定位系统问题的话会耗费大量的时间和精力。为了方便系統问题的定位,通过对燃煤电厂的大数据进行挖掘,采用基于离群点的检测算法,甄别出数据中的异常点,发现可能存在的问题。

关键词:CEMS系统;离群点检测;KNN;LOF;INFLO

中图分类号:TM621.7 文献标识码:A 文章编号:1671-2064(2017)21-0153-03

随着当前的生态环境不断恶化,尤其是PM2.5日益严重,我国对燃煤电厂的排放物有了更加严格的要求,燃煤电厂向大气排放的气态(烟气)污染物(二氧化硫、氮氧化物、一氧化碳等)和固体污染物(烟尘)需要控制在一定的范围内。CEMS固定污染物源排放连续监测系统(Continuous Emissions Monitoring System)用于长期且连续监测固定污染物源排放的烟气和烟尘,反映烟尘在某一段时间内的排放状况。然而CEMS是一种工作在多尘、高湿、腐蚀性且流场不稳定环境中的系统,环境的恶劣、精密仪器的损坏都会造成系统采集污染物浓度数据的不准确性。良好的数据源能够为电网对电厂污染物排放、脱硫脱硝设备运行监视提供数据指导,为电网节能发电调度与脱硫脱硝电量考核提供决策支持。因而,需要使用离群点检测的方法将异常数据点甄别出来,发现CEMS系统中的问题设备。

1 CEMS系统

1.1 系统简介

CEMS系统是一种大型的在线分析成套系统,大型燃煤电厂的锅炉基本都安装了烟气脱硫装置,在锅炉的出口烟道上(即脱硫装置的进口),CEMS通常监测SO2、O2、烟尘、压力、温度五个参数,而在脱硫装置后的出口烟道上(即烟囱入口),CEMS通常监测SO2、NOX、CO、O2、烟尘、流量、湿度、压力、温度九个参数。通过数据采集与控制系统汇总实时数据,分析故障、自我校准、超时报警,实现系统的自诊断。

CEMS是燃煤电厂烟气脱硫系统中不可或缺的一部分,是烟气脱硫系统良好工作的保障。

1.2 系统工作流程

由采样探头在烟道上连续抽取烟气,初步过滤后经加热管线加热至150℃保温传送。之后进入烟气预处理装置进行过滤、干燥和冷凝,将冷凝后烟气中的腐蚀性废液进行收集排放,而干燥后的洁净烟气进入CEMS气体分析仪进行各气体浓度参数的测量。同时,通过CEMS配置的PLC和工业控制计算机,对烟气采样探头每天定时用压缩空气进行反吹扫,对烟气的加热、伴热和冷凝装置进行温度控制,对烟气预处理系统电磁阀进行逻辑控制,以及对烟气成分分析仪的各个测量通道进行准确度标定。

2 影响CEMS数据不准确的可能因素

2.1 CEMS安装位置过短

烟气连续监测技术规范指出,安装CEMS系统需要预留充足的空间,在实际的部署过程中,大多数电厂的直管烟道偏短,使得烟尘、流量的探头无法安装在合适的地方,这样也就影响了采集和计量烟气的数据的准确性。烟道太短,对气态污染物无多大影响,即对二氧化硫、氮氧化合物的测量一般不会产生影响,但对在不同位置测量到的烟尘和流量数据会造成较大的影响,主要原因是烟道中的颗粒物分布不均匀,导致监测点不具有代表性,获得的数据不能反映真实的情况。

2.2 烟囱入口处烟尘监测探头被污染

将烟气通过预处理装置进行洗涤后,虽然使用除雾器除去了雾滴,但入口处的烟气依然含有一定量的水分,二氧化硫、硫酸盐等物质溶于水中,这样的烟气流经CEMS探头时,烟气中的水分可能形成液滴,对激光会产生折射和吸收,因此会影响测量结果。

目前,普遍存在燃煤发电厂中的CEMS监测仪表探头被污染的现象,污染源为烟气中所含的水分,在低温条件下,水分会凝结成水珠,水珠中含有少量的二氧化硫和硫酸盐等物质,这些物质在进入烟囱,通过探头时,便会附着在探头表面的过滤网上,物质过多时还会完全堵住过滤网,影响系统对烟气中气态污染物的监测准确性。

2.3 采样管路泄漏或分析仪表维护不合理

在监测检测中,有很多异常情况会影响仪表准确监测数据,比如管路泄露和后期维护的不合理。但是这些异常情况一般都可以从仪表的监测数据中分析出来,当发现监测地的仪表数据异常时,比如氧气的测量值过高,二氧化硫的测量值过低,就能够说明监测的的管路泄露,需要及时进行处理。

仪表在安装完成后仍需要进行定时检修,对仪表进行科学的维护可以有效保证仪表监测数据的准确性,定时检修和监测条件的选择可以改变仪表在监测数据是的精度。因此,为了确保监测数据的精准,安装监测仪表前,要根据仪表的使用场景来规划好维护方案,做到科学维护。

2.4 伴热管线缺少报警

管道排除的烟气含有大量水分,在遇到温度较低环境时会放热液化为水滴,当水滴附着在仪表上时,会使监测结果产生误差。为了解决这个问题,用伴热管来维持烟体温度,这样就会使烟体保持气体形态,直到烟气经过分析仪分析完成。如果在排送烟气的环节中,伴热管线存在故障,烟气就会凝成水滴附着在仪表上,会腐蚀仪表。在没有相关报警装置时,工作人员就无法及时发现异常,随着时间的推移,仪表腐蚀家中,严重影响检测仪表的准确度。

要使伴热管线在监测时发挥效果,就需要对伴热管线持续加温,因此要合理调控伴热管线的加热温度,如果设置不当,会导致伴热管线温度不合适,不足以防止烟气凝结成水滴;还可能导致继电器的损坏,因此因此,合理的温度控制逻辑可以直接影响到CEMS仪表的精度。

3 使用离群点检测的方法对异常点进行甄别

所谓离群点,就是那些与众不同的远离常规数据对象的数据。由于离群点并不总是孤立出现,很可能以小群体的形式出现,即离群簇出现。在各类型检测算法中,基于聚类的离群点检测算法将不属于任何聚类的点定义为离群点,对于离群检测有较好的效果。endprint

3.1 使用KNN进行甄别

3.1.1 KNN

KNN是通过测量不同特征值之间的距离进行分类。它的思路是:如果一个样本在特征空间中的K个最相似(即特征空间最邻近)的样本中的大多数属于某一个类别,那么该样本也属于这个类别。K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。

3.1.2 实验过程和结果

首先,将从燃煤电厂CEMS系统中获取到的数据的前90%作为训练集,后10%作为测试集。通过集成在Rapid Miner数据挖掘工具中的Est Anomaly Detection插件,计算测试集中每条数据的outlier值,并从中获取前1000个最大outlier值的数据。每次抽取前100、200……1000条数据,判断其中确实为异常值的个数,并绘制出如下的样本检测率曲线。从图1中可以看出,随着抽取数据条数的增加,异常点的检测率逐渐提高。使用KNN算法求得的异常点检测率在一定程度上达到了预期的效果,可以将绝大多数的异常点甄别出来,但也不排除误报的情况。

3.2 使用LOF进行甄别

3.2.1 LOF

LOF算法即局部离群因子算法,该算法首先会计算每个对象与其他对象之间的欧几里得距离,对欧几里得距离进行排序后,计算每个对象的第k距离(距离该对象第k远的对象的距离)以及第k邻域(该对象第k距离以内的点的集合)。而后计算每个对象的可达密度(该对象的第k邻域内的点到该对象的平均可达距离的倒数)。最后计算局部离群因子(该对象的邻域点的局部可达密度与该对象的局部可达密度比值的平均数)。如果点p的局部离群因子趋近于1,说明p的邻域点密度差不多,p可能与邻域同属一簇。如果局部离群因子越小于1,说明p的密度高于其邻域点密度,p为密集点;如果局部离群因子越大于1,说明p的密度小于其邻域点密度,p越可能是异常点。

3.2.2 实验过程和结果

采用与在KNN算法中相同的数据源,通过集成在Rapid Miner数据挖掘工具中的Est Anomaly Detection插件,选择LOF分析,计算测试集中每条数据的outlier值,并从中获取到前1000个最大的outlier值的数据。每次抽取前100、200……1000条数据,判断其中确实为异常值的个数,并绘制出如下的样本检测率曲线。从图2中可以看出,随着抽取数据条数的增加,异常点的检测率呈现上升的趋势,在选取不同k值的情况下,检测率最多也只能达到75%。

3.3 使用INFLO进行甄别

3.3.1 INFLO

在计算数据点的离群因子时,INFLO会考察它的最近k邻居,同时也会考察它的逆k邻居。所谓逆k邻居,即那些最近k邻居包含该点的数据点。而数据点的邻居和逆邻居,构成了该数据点的影响空间。INFLO值为对象的影响空间中的所有点的局部密度的均值/对象的局部密度。如果INFLO的值趋近于1。则说明该数据点就可能是一个正常的点,如果值比较高,那么该点是异常点的概率极大。

3.3.2 实验过程和结果

采用与在KNN算法中相同的数据源,通过集成在Rapid Miner数据挖掘工具中的Est Anomaly Detection插件,选择INFLO分析,计算测试集中每条数据的outlier值。绘图规则与3.2.2中规则相同。从图3中可以看出,随着抽取数据条数的增加,异常点的检测率一直在提升,而且相比于等量样本数的LOF算法的检测率,INFLO的检测率都比LOF的高。在多次尝试不同k值,达到最优效果的检测率也优于等量样本数的KNN算法。

4 结语

通过分析影响CEMS系统中能够产生数据异常的原因,并提供三种不同的离群检测算法,对可能包含异常点的数据集进行甄别,三种算法均可以达到基本检测出异常点的目的。但从效果来看,INFLO算法的效果最優。

参考文献

[1]刘书志.基于密度的局部离群数据挖掘方法的研究和改进[D].重庆大学,2014.

[2]寿立新.台州电厂烟气脱硫CEMS异常分析与处理[J].浙江电力,2009,28(b07):58-59.

[3]张峻.CEMS测量准确率偏低的原因分析及解决措施[C].2011年电力环保学术年会论文集,2011.

[4]闫伟,张浩,陆剑锋,袁磊.聚类分析理论研究及在流程企业中的应用[J].计算机工程,2006,32(17):19-21+27.endprint

1.环球科技网遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.环球科技网的原创文章,请转载时务必注明文章作者和"来源:环球科技网",不尊重原创的行为环球科技网或将追究责任;3.作者投稿可能会经环球科技网编辑修改或补充。