数据挖掘小论文 My draft version of data mining course thesis 2


分类挖掘在图像识别领域的应用

韦国华 (中国科技技术大学 软件工程硕士 上海四期班, 上海 200333)

朱  明 (中国科技技术大学 自动化系, 安徽 合肥 230051)

摘要:视频处理和识别系统是一个较为复杂的计算机软件系统。其处理和识别的结果需要有一个好的可信性分类方法和一个自动化分类工具。目前我们在一些系统上仍然需要人工干预来实现整个系统的完整运行和执行,然而人工的干预工作量大,其判别结果易受人为因素的影响很大,且存在视觉易疲劳和检测速度缓慢等问题,给最终的结果带来很大的干扰。这里我们介绍一种针对一些特定的图像段按色差自动分类的方法,使用从室外采集到的一些随机图像样本实例及其已知的特征数据,将各个图像段进行分类,并对其结果作出客观评估,为提升识别率提供依据。

关键字:数据挖掘;图像处理;分类挖掘

Classification mining in the field of image recognition

Wei Guo Hua1,  Zhu Ming2

(1.Department of Automation, University of Science and Technology of China, Shanghai, China; 2. Department of Automation, University of Science and Technology of China, Hefei, China;)

Abstract Imaging processing & identification is a kind of complex software system. It needs an effective way and a automatic classified tool to test it for keep it credibly. Today, in lots of image processing or intellegent systems, we still need some manual intervention to keep or assure that they can work exactly and perfectly in accuracy and integrity. however manual intervention also brings with plenty of malign influence on the final result, which may get things even worse. Here we introduce a way of automatic classification using some specified image segamentations which were drawn randomly from a database of 7 outdoor images, classify them with DM classifier, and try to evaluate the results, lets see how classifaction and relevant algorithms can help and improve the accuracy of image recognition.

Keywords: Data mining, Image processing, Classification

1、引言

随着计算机技术的不断推进和发展,我们的科研项目将越来越注重于图像以及图像识别。回顾一下历史,在计算机网络刚刚开始的阶段,我们在网络里传输和处理的基本上全部都是文本,后来“图文并茂”开始盛行,到现在,整个互联网上绝大多数的流量都被视频所占据。而如果更好的去利用这些数据一直是科研工作者们所最关注的一个课题之一。同时持续发展中的人工智能、机器视觉等科研项目也将继续不断的对图像识别、图像分类、智能视频等技术进行研究和完善。

面对上述的业务需求和决策需要,在这里,我们将尝试利用一些现有的图像数据集进行研究,以期将这些图像段利用数据挖掘的算法来进行分类,并提升图像识别的成功率。

2、数据挖掘任务

我们将七种室外物体(砖, 天空, 叶子, 水泥, 窗, 路, 草)图像的数据库中随机抽取一些样本实例,而我们的任务将是对这些样本数据进行挖掘,以期最终能确定哪一个图像段是什么类型的物体。我们将使用Weka软件来实现本数据挖掘的任务。

3、数据准备及预处理

为了对这一任务进行分析和处理,我们需要一个数据集,包含不同物体类别的特性。这里我们使用的数据库集是Image Segmentation, 您可以从下面这个网址下载到完整数据集:

http://archive.ics.uci.edu/ml/datasets/Image+Segmentation

本数据集由马萨诸塞大学视觉团队的Carla Brodley提供。这些图像段都是一个个3×3区块大小。它们被区分为以下几个属性:

1. region-centroid-col: 区域中心像素的列。

2. region-centroid-row: 区域中心像素的行。

3. region-pixel-count: 区域中的像素值= 9.

4. short-line-density-5: 用线分离算法计算出来的在长度为5的、低对比度的线下有多少小于等于5的短线通过该区域的结果(密度)。

5. short-line-density-2: 用线分离算法计算出来的长度为5的、任意方向的、高对比度的线下有多少大于5的短线通过该区域的结果(密度)。

6. vedge-mean: 测量出来的区域中水平相邻像素的对比度的平均值。平均值和标准偏差为6。这个属性将作为一个垂直边缘检测器来使用。

7. vegde-sd: 同6,但这个值是指标准差。

8. hedge-mean: 测量出来的垂直相邻像素对比度的平均值。用于水平线检测。

9. hedge-sd: 同8,但这个值是指标准差.

10. intensity-mean: 区域内R、G、B三个颜色通道的平均值。

11. rawred-mean: 区域内R颜色通道的平均值。

12. rawblue-mean: 区域内B颜色通道的平均值。

13. rawgreen-mean: 区域内G颜色通道的平均值。

14. exred-mean: R通道超标值: (2R – (G + B))

15. exblue-mean: B通道超标值: (2B – (G + R))

16. exgreen-mean: G通道超标值: (2G – (R + B))

17. value-mean: RGB 3D非线性转换平均值。(你可以在Foley and VanDam, Fundamentals of Interactive Computer Graphics 这儿找到3D非线性转换算法)

18. saturatoin-mean: 同17,饱和度3D非线性转换平均值。

19. hue-mean: 同17,色度3D非线性转换平均值。

还包含一个类别属性:

Class:属性值包括brickface, sky, foliage, cement, window, path, grass共七种不同的室外物体图像。

部分数据如下:

38,189,9,0,0,1,0.222222,6.22222,33.3185,29.0741,26.3333,35.2222,25.6667,-8.22222,18.4444,-10.2222,35.2222,0.271208,-2.04915,path

25,199,9,0,0,1.11111,0.607407,1.05556,0.462963,17.5185,13.1111,17.8889,21.5556,-13.2222,1.11111,12.1111,21.5556,0.393002,2.69011,grass

49,139,9,0,0,0.166667,0.077778,0.333333,0.088889,0.444444,0,1.33333,0,-1.33333,2.66667,-1.33333,1.33333,0.777778,-2.0944,foliage

63,220,9,0,0,3.05556,15.263,3.66667,6.08889,8.18519,6.55556,6.44444,11.5556,-4.88889,-5.22222,10.1111,11.5556,0.486717,2.09315,grass

161,135,9,0,0,0.055556,0.136083,0.111111,0.172133,1.25926,0.777778,3,0,-1.44444,5.22222,-3.77778,3,1,-1.82221,window

将准备的数据转换为arff格式,使得Weka软件可以识别,或者您也可以直接从这个数据集的作者的博客那儿下载到已经转换好的arff格式文件,下载地址:http://storm.cis.fordham.edu/~gweiss/data-mining/weka-data/segment-challenge.arff

将数据导入到Weka中,选择全属性进行分类筛选。详见下图1:预处理。

4、  应用数据挖掘算法

本文采用了J48graft决策树(C4.5)算法(置信因子C= 0.25,最小实例数量M= 2)。

选择分类器选项卡,并选择J48graft决策树算法,使用默认的置信因子C= 0.25,最小实例数量M= 2,点击start开始分类。

得出分类结果。见下图2:处理结果。

Image segmentation preprocess

Image segmentation preprocess

图1:预处理

Image segmentation classify result
Image segmentation classify result

图2:处理结果

5、结果评估

从Weka的分类结果来看,成功的有1443,成功率96.2    %。其中grass和sky的成功率为100%,最为稳定。Windows和foliage的交叉误判率相对较差,即部分window被误判为foliage,而部分foliage被误判为window,进一步提升这二者的特症差异,将有助于进一步提高整体的识别成功率。

6、结束语

通过这个数据挖掘的数据实例,以及最终得出的结果,我们完全可以得到一个结论,运用适当的数据挖掘算法,将有助于提升图像识别准确率。

同时,我本人也将在日后的工作中进一步的验证数据挖掘对提升图像识别可靠性所带来的帮助。

参考文献

1  Amund Tveit. Empirical Comparison of Accuracy and Performance for the MIPSVM classifier with Existing Classifiers. Division of Intelligent Systems Department of Computer and Information Science, Norwegian University of Science and Technology.

2  Je Scott and Mahesan Niranjan and Richard W. Prager. Realisable Classifiers: Improving Operating Performance on Variable Cost Problems. Cambridge University Department of Engineering

3  朱明.数据挖掘导论,分类挖掘应用: 97-100,合肥:中国科学技术大学, 2012.

4  Dataset: Bache, K. & Lichman, M. (2013). UCI Machine Learning Repository [http://archive.ics.uci.edu/ml]. Irvine, CA: University of California, School of Information and Computer Science.


Leave a comment

Your email address will not be published. Required fields are marked *

2 thoughts on “数据挖掘小论文 My draft version of data mining course thesis

  • constructii de case

    Thank you for your entire labor on this site. My aunt really likes doing research and it’s simple to grasp why. We all hear all regarding the lively method you offer precious strategies on the web site and as well as invigorate contribution from other people on that area while our favorite princess is starting to learn a great deal. Enjoy the rest of the year. You’re the one conducting a stunning job.