大数据图像处理技术在智能电网的应用分析

中国新通信 / 2018年09月30日 23:20

互联网+

胡新+黄佳彬+章波

【摘要】 随着互联网、移动通讯技术的不断发展,特别是电商、社交、即时通讯平台的活跃,以及企业信息化、智慧城市、智能电网的快速建设,近几年来,视频、图像数据呈现爆炸式增长,与此同时,图像处理技术也得到快速发展,特别是大数据技术的应用为大规模图像处理提供了技术可行性。本文就图像技术的现状、大数据体系、大数据图像处理技术进行分析论述,并结合智能电网应用场景进行了思考与分析。

【关键词】 图像技术 大数据 Hadoop 智能电网

引言

当前,大数据分析已经成为各行业的一个重要决策支撑手段,大数据技术能够简化处理海量数据,其大规模集群数据处理开源软件框架Apache Hadoop,可以可靠地依靠成千上万规模节点处理PB级数据。利用大数据技术实现图像处理,能够突破传统图像处理技术瓶颈,快速实现大规模图像数据的处理计算,给企业带来巨大价值。

一、图像技术现状分析

1.1存储技术现状

目前国内外图像存储解决方案有两种,分别是图像存储至数据库和图像存储至硬盘。在海量图像规模下,传统数据库承载太多图像会导致数据库容量和效率成为极大的瓶颈,常见做法是图像存储在硬盘,图像路径存储至数据库。存储容量方面常采用增加专业的磁盘阵列,磁盘柜或者高级的光纤盘阵、局域网盘阵等方式解决,而提升访问效率方面常采用squid缓存和镜像方法。

1.2应用技术现状

图像应用技术随着互联网浪潮不断发展,按应用领域不同可归纳为物理设备应用、基础软件应用、智能分析应用、智慧分析应用四个应用层次,其技术实现难度逐层增加。物理设备应用、基础软件应用是当前主流应用技术,智能分析应用、智慧分析应用是未来图像应用的演进方向。

物理设备应用。物理设备应用是基于视频采集设备的基础应用,表现为基于各类型摄像头的监控应用。当前视频监控数据保存周期有限,监控识别过程多为人工。目前市面上部分厂家将带有特定算法的智能芯片集成到物理设备中,实现特定的分析功能,如:智能家居安防摄像头,能够监测视频画面中的物体移动实现远程预警;智能车库解决方案,通过车牌识别算法实现车牌的快速识别。

基础软件应用层。以社交网站、视频网站为典型代表。主要实现图像信息、视频信息的海量存储、快速读取、分享交互。根据业务的不同需求,可灵活采用传统图像处理架构或分布式图像处理架构,图像信息的检索主要以文字搜索为主。

智能分析应用。智能分析应用包括图像智能分析,图像检索,视频切片分析等高级应用。目前淘宝、京东等电商企业图像智能分析技术领先。如淘宝“拍立淘”功能便是图像智能分析(以图搜图)的典型应用,通过类目预测,主体检测,图像特征提取,检索索引和排序5层算法框架、利用大数据、云计算、机器学习等先进的信息技术实现用户购物方式的颠覆。

智慧分析应用。智慧分析应用是指对图像信息处理的实时计算、深度学习和智慧决策。典型应用为Google公司无人驾驶技术的应用研究,实时对摄像传感器采集的视频信息进行计算分析,实时决策。

二、Hadoop体系结构

HDFS和MapReduce是Hadoop的两大核心。而整个Hadoop的体系结构主要是通过HDFS来实现对分布式存储的底层支持的,通过MapReduce来实现对分布式并行任务处理的程序支持,HBase是Hadoop体系下基于Bigtable的分布式数据库,其为大数据的存储和应用提供很好的底层支持。

HDFS

HDFS采用了主从(Master/Slave)结构模型,一个HDFS集群是由一个NameNode和若干个DataNode组成的。其中NameNode作为主服务器,管理文件系统的命名空间和客户端对文件的访问操作;DataNode管理存储的数据。HDFS允许用户以文件的形式存储数据。从内部来看,文件被分成若干个数据块,而且这若干个数据块存放在一组DataNode上。NameNode执行文件系统的命名空间操作,比如打开、关闭、重命名文件或目录等,负责数据块到具体DataNode的映射。DataNode负责处理文件系统客户端的文件读写请求,并在NameNode的统一调度下进行数据块的创建、删除和复制工作。HDFS体系结构如下:

MAPREDUCE

MapReduce是一种并行编程模式,这种模式使得软件开发者可以轻松地编写出分布式并行程序。在Hadoop的体系结构中,MapReduce是一个简单易用的软件框架,基于它可以将任务分发到由上千台商用机器组成的集群上,并以一种高容错的方式并行处理大量的数据集,实现Hadoop的并行任务处理功能。MapReduce框架是由一个单独运行在主节点上的JobTracker和运行在每个集群从节点上的TaskTracker共同组成的。主节点负责调度构成一个作业的所有任务,这些任务分布在不同的从节点上。主节点监控它们的执行情况,并且重新执行之前失败的任务;从节点仅负责由主节点指派的任务。当一个Job被提交时,JobTracker接收到提交作业和配置信息之后,就会将配置信息等分发给从节点,同时调度任务并监控TaskTracker的执行。

HBASE

HBase是Apache Hadoop的数据库,一个开源的,分布式的,多版本的、面向列的存储模型。能够对大数据提供随机、实时的读写访问功能。HBase可以直接使用本地文件系统,但在Hadoop HDFS的文件存储系统中更能提高数据的可靠性和系统的健壮性,最大限度发挥HBase大数据处理能力。

HBase存储松散型数据,数据介于映射(Key/value)和关系型数据之间。HBase向下提供存储,向上提供计算,在HBase之上还可以使用Hadoop的MapReduce计算模型来并行处理大规模数据,将数据存储和并行计算完美结合[1]。

三、大数据图像技术

3.1 HADOOP图像存取技术分析

Hadoop分布式存储为海量图像、视频存储提供了原始模型,其开源性,高容错性符合图像存储业务发展的特性。

图像信息存取架构

1.图像存储:采用Hadoop中的HDFS存储图像,通过HDFS的冗余备份和心跳检测保证存储数据的安全性,设定负载均衡策略,保证各个存储节点的运行稳定。

2.图像索引:设计图像URL,将图像存储信息设定在图像URL中,通过解析URL快速定位存储图像Block的DataNode和Fileld。图像元数据作为键值对存放在HBase中,保证海量数据扩容和快速检索。

3.采用MapReduce进行图像业务处理的编程实现,针对大数据的批量处理和存储优化制定相应策略。

4.读取服务:采用Nginx的Web服务器对图像进行读取,Nginx的Redis模块对缓存中的微型图像进行读取。

5.负载均衡:采用HAProxy的RoundRobin负载均衡算法构建负载均衡,分载前端用户请求的压力。

6.应用服务器:Java应用服务器完成图像写入的操作。

图像信息写流程

图像写请求由用户发起后,通过负载均衡模块过滤,到达应用服务器排队,等待进入HDFS存储系统,通过NameNode分配DataNode进行存储,图像写入过程中先确定写入Block,再确定Sequence File,图像元数据保存至HBase和Redis构建的缓存系统[2]。

3.2 HADOOP图像处理技术分析

在MapReduce计算框架中,Hadoop将输入图像数据划分成等长的作业分片,每个Map任务处理一个作业分片,Map任务并行执行,定义Reduce任务,调用reduce函数实现结果数据的最终输出。

图像文件处理流程

MapReduce的工作过程分为两个阶段:Map阶段和Reduce阶段。(图2)

图像文件对应路径将作为MapReduce程序的输入,ImageInputFormat对输入进行划分,ImageRecordReader对输入进行记录读取,取得key值为ImageSplit对象的路径,value值为ImageWritable。MapReduce框架把读取的对传递给map程序进行执行,map程序对图像进行相关操作后,利用reduce程序将处理后的图像分片进行整合,得到处理后的整个图像文件,Reduce程序将构建的对象传递给ImageOutputFormat进行输出。

Hadoop通过Writable对消息进行序列化。Writable接口定义了输入流的基本方法,MapReduce程序用Writable来序列化键/值对。Writable接口定义DataOutput、DataInput方法。自定义的ImageWritable对方法进行重写,分别写入和读出图像的高度和宽度,源图像的y轴高度,图像的路径和图像的像素信息。

1)ImageInputFormat。ImageInputFormat继承FileInputFormat类,负责产生输入分片并将它们分割成记录。记录大小小于或等于分片ImageSplit。Key(键)存储该图像在文件系统的路径。Value(值)存储ImageWritable类型的一个图像分片记录。

2)ImageRecordReader。Map任务使用ImageRecordReader来读取记录并且生成键/值对传递给map函数。ImageRecordReader方法重写RecordReader函数,ImageRecordReader的nextKeyValue方法是得到下一个键/值对,getConfig方法用来接受用户传递的数据信息。

图像算法

图像处理常用图像缩放、图像增强、图像边缘检测方法。图像缩放插值方法有最近邻插值、双线性插值、使用像素关系重采样和立方插值。图像边缘检测是进行图像分割、目标区域识别、区域形状提取等图像分析的技术基础。对于连续图像f(x,y),边缘检测是求梯度的局部最大值和方向。利用Canny边缘检测算子,在map函数中实现对图像的边缘检测,从而实现对图像文件的并行化边缘检测。[3]

四、智能电网图像技术应用分析

4.1基于图像的覆冰状态监测

目前输电线路覆冰状态监测常用方法有覆冰观测站观测法、覆冰力学模型估算法二种。覆冰观测站可以比较准确了解覆冰信息,但投资巨大且需要人工操作,只适合于一些典型地区;覆冰力学模型估算法是建立覆冰厚度与杆塔载荷的关系,通过测量杆塔受力等参数间接测量覆冰厚度,该方法受限于风载荷对弧垂、应力等参数的影响,精准性方面存在一定不足。

大数据、云计算的发展为基于图像的覆冰状态监测提供另一有效途径。通过无人机、固定采集摄像头采集线路覆冰图像信息,通过大数据计算框架快速实现对覆冰厚度的计算。

基于图像大数据的覆冰状态监测分析包括覆冰状态的图像信息的采集,图像的传输,图像的计算与反馈等步骤,通过对图像进行二值化、去噪、边缘检测等处理,完成覆冰厚度的计算。具体计算流程如图3。

4.2电力图像大数据平台

随着国家电网公司SG186、SGERP信息化的不断发展,业务数据呈现爆发式增长。针对于结构化数据,国家电网公司于2015年开始试点实施企业级大数据平台,已开展如“新型客户服务业务型态应用”、“配网故障抢修精益化管理”等结构化大数据应用研究。而针对图像、视频非结构化数据,还未进行有效的挖掘利用,数据存在孤岛,共享不便。

基于HADOOP架构构建电力企业图像大数据平台,实现企业图形图像数据整合,挖掘数据价值,全面服务于电力生产。平台架构分为数据源层、平台层、应用层三个层面。

数据源层包含各类图形图像、视频源数据,如工程施工图、竣工图、单线图、间隔图、档案图等,智能变电站各类监控视频等;平台层基于Hadoop分布式存储架构实现海量存储和计算;应用层通过数据整合,挖掘,实现图像信息的快速检索、多终端展示、热点图像排序,图像数据服务等高级应用。

参 考 文 献

[1]陆嘉恒. Hadoop实战(第二版).机械工业出版社.2012.

[2]李林,周晓慧.基于Hadoop的海量图片存储模型的分析和设计.

[3]田进华,张韧志.基于MapReduce数字图像处理研究.电子设计工程.2014年8月.第15期.

1.环球科技网遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.环球科技网的原创文章,请转载时务必注明文章作者和"来源:环球科技网",不尊重原创的行为环球科技网或将追究责任;3.作者投稿可能会经环球科技网编辑修改或补充。