PCA降维和决策树在多光谱图像中的分类研究

计算机时代 / 2017年09月13日 00:05

数码

郝尚荣

摘 要: 采用PCA降维和决策树两方法对不同墨水笔迹的多光谱影像和不同对象的多光谱遥感影像分类识别。实验表明,对于墨水笔迹可以分出较好效果而遥感影像效果较差,可能是受影像信噪比的影响;文章为不同墨水的分类提供了解决方法。

关键词: 决策树; 高光谱; PCA降维; 分类

中图分类号:TP751.1 文献标志码:A 文章编号:1006-8228(2017)05- 40-03

Application of PCA dimensionality reduction and decision tree

in hyperspectral image classification

Hao Shangrong

(Institute of Data and Knowledge Engineering, School of computer and information engineering,Henan University, Kaifeng, Henan 475004, China)

Abstract: PCA dimensionality reduction and decision tree methods are used to classify and recognize the hyperspectral images of handwriting with different inks and the hyperspectral remote sensing images with different objects. The experimental results show that the classification effect of handwriting image is better but the remote sensing image is poor, which may be caused by the signal to noise ratio of the image. This paper provides a solution for the classification of different ink.

Key words: decision tree; hyperspectral; PCA dimensionality reduction; classification

0 引言

研究了機器学习[1]中分类算法之一的决策树以及神经网络中PCA降维在高光谱图像中的分类应用。分析了可能受信噪比低的原因,可以利用高光谱分类的不同墨水;对于遥感信息由于卫星拍摄时其信噪比较高的原因,具体表现为每一个光谱图像产生的能量较小,而噪声影响较大,这样多光谱信息的有效信息太少而失去分类的意义。

1 样本的提取

由于不同的墨水在纸张上画的笔迹产生不同的化学反应,进而可以通过高光谱相机获得含有不同高光谱信息笔迹的光谱图。高光谱信息是指不同波段的图像信息。本文的采样过程如下。

对于笔迹,采用9只不同的笔,对于遥感影像,采用9类对象,对应101个波段的光谱信息进行采样。笔迹的采样是对每一类笔迹随机采样200个位置,获得总的像素值为9*200*101维特征值。遥感影像采用boundingbox工具,对图像中9类对象200个相应4*4区域,取像素值的均值,总的特征值纬度是9*200*101。

2 训练过程

PCA降维的思想是,在特征较多的情况下,通过减少对分类产生很小影响特征数量的方式,达到简化计算效果的目的。决策树是机器学习中十分强大的方法,其重要作用在于分类,其特点是每一次只针对一个最重要的特征进行分类,形成一层的决策树的时候抛弃该特征,多次循环通过相对次重要特征分类的方式。采用机器学习的思想对这些信息进行采样、降维、采用决策树的方法进行训练,经过拟合验证后,获得一棵决策树用在高光谱图像的分类工作中。

2.1 PCA降维

由于采样后的样本特征数太多,尽管采用了矩阵进行数据运算的技术,但是由于特征数太多造成的纬度过大,对于矩阵的存储、计算都会有很大的影响,而大部分的纬度并不对结果产生较大的影响。PCA降维[2-3]的思想就是对矩阵计算出协方差矩阵,进而依据矩阵计算出每一列的特征向量、特征值。求出每一特征值与所有特征值之和的比例,对比例值由大到小排序,计算若干个最大值之和大于99%的特征向量对应的特征作为有效特征。

2.2 决策树的选取及训练

决策树[4]按照不同的评判标准分为三种分别为:信息的增益、信息的增益比、基尼系数。但都是基于信息熵的思想。信息熵的计算公式为:

其中,P(ui)为类别为i的样本个数在总样本中的概率,S为样例个数。

本文采用的C4.5的决策树[5]算法,其评判条件为信息的增益,具体含义:以某特征进行分类后的信息熵同分类前的信息熵的差值。同时,本文中对笔迹和遥感影像的分类是9类。所以,采用预剪枝的思想,限定了决策树为九层。由于该分类方法是二分类的,所以就存在十个叶子节点,分别对应九类结果和一类的其他类别。

接着,采用十折交叉验证的思想进行过拟合验证。十折交叉验证是数据分为十份,一份为训练,九份为测试,循环十次观测准确率变化。过拟合是训练时准确率高而测试的准确率偏低的现象。通过多次调整训练集、测试集的样本个数的比例,最终获得平均准确率为实验结果。

3 对比及结论

求准确率和召回率时,分别对笔迹和遥感影像分类都要按照上述取样的方式获得101维的测试样本,并进行训练、测试,其对应的准确率为0.9504、0.671;对应的召回率为0.796和0.971。结果表明本方法适合多光谱图像不同墨水的分类;同时说明多光谱的遥感影像可能受信噪比高低的影响,需要进一步研究。

4 结束语

本文结合了PCA降维和决策树方法解决了不同墨水笔迹分类的问题,表现出了较高的准确率。讨论了PCA降维和决策的优点,以及在高光谱图像中分类的应用,可以在迹伪造检测中,通过是否是相同的墨水进行第一步区别操作,具有一定的使用价值。未来可以进一步研究高光谱图像分类与信噪比的关系,以便于确定高光谱信息在分类问题中的应用范围。

参考文献(References):

[1] 李锐,李鹏,曲亚东(译).机器学习实战[M].人民邮电出版社,2013.

[2] 肖招娣.高维数据集上的降维算法及其应用[D].华南理工大学硕士学位论文,2013.

[3] 张小勤.基于PCA与K-NN的故障检测与诊断方法的研究[D].西南大学硕士学位论文,2016.

[4] 李海涛.基于Hadoop的决策树算法改进及林业数据分类预测研究[D].东北林业大学硕士学位论文,2016.

[5] 黄秀霞.C4.5决策树算法优化及其应用[D].江南大学硕士学位论文,2017.

1.环球科技网遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.环球科技网的原创文章,请转载时务必注明文章作者和"来源:环球科技网",不尊重原创的行为环球科技网或将追究责任;3.作者投稿可能会经环球科技网编辑修改或补充。