极光图像分类与极光视频事件检测的探索分析

ID：1118278

大小：2.13 MB

页数：61页

时间：2022-05-06

加入VIP免费下载

 申诉

加入VIP免费下载

温馨提示：
1. 部分包含数学公式或PPT动画的文件，查看预览时可能会显示错乱或异常，文件下载后无此问题，请放心下载。
2. 本文档由用户上传，版权归属用户，天天资源网负责整理代发布。如果您对本文档版权有争议请及时联系客服。
3. 下载前请仔细阅读文档内容，确认文档内容符合您的需求后进行下载，若出现内容与标题不符可向本站投诉处理。
4. 下载文档时可能由于网络波动等原因无法下载或下载错误，付费完成后未能成功下载的用户请联系客服处理。
网站客服：403074932

资料简介

万方数据 AbstractAbstractAuroraisamassdischargeprocessaroundEarth.Whenthechargedparticlesfromthesunareneartheearth,partofthemwillbeforcedbyearthmagneticfieldalongthefieldlinetothenorthandsouthpoles.Thentheygettotheupperatmosphereofpolar,collidewiththeatomsandmoleculesintheatmosphereandformtheaurora.Auroraphenomenonisverybeautiful,itoftenaffectsradiocommunication,longcablecommunication,etc.Besides,auroracanalsoaffecttheclimateandbiologicalprocesses.Therearedifferentphysicalmeaningfordifferentshapesofaurora,whichmakeauroraimageclassificationandauroravideoeventdetectionareofgreatsignificanceinscientificresearchBecauseofthefilmingequipmentdarkcurrentandtheinfluenceoftheatmosphereintheprocessoffilmingtheauroraimages,thebrightnessofauroraimagesareuneven.Top-hattransformisusedtoimprovethisinthispaper.Accordingtotheshapefeaturesofauroraarenotfixed,BoW(BagofWords,BoW)isusedtomodeltheauroraimageswhichcanavoidextractingfeaturesfromauroramorphology.InviewofthedefectsofBoW,anauroraimageclassificationmethodbasedonLDAwithsaliencyinformationisproposed.Whichmeansthismethod,usingSR(SpectralResidual,SR)saliencymapsintheprocessofLDA(LatentDirichletAllocation,LDA)modelingfortheauroraimages.SVMisutilizedtoconducttheexperimentofauroraimageclassification.Thefindingshowsthatthismethodcanachievefavorableclassification.Besides,thispaperstudiesdeeplytheapplicationofperceptualhashalgorithminimageretrievalandusesthisalgorithmtoconductauroraeventdetection.Usingthehashcodesimilarityofauroraimagescanmakeauroraeventdetectionmorefastandeffective.Theexperimentshowstheeffectivityofthisalgorithm.Keywords:AuroraimageclassificationBagofwordsmodelLatentdirichletallocationSaliencymapPerceptualhashEventdetection万方数据目录1目录第一章绪论.....................................................................................................................11.1研究背景及意义................................................................................................11.2国内外研究进展及现状....................................................................................21.2.1基于人眼观察的极光研究...................................................................21.2.2基于计算机分析的极光研究...............................................................21.3论文研究成果与安排........................................................................................4第二章基于词袋模型表示的极光图像分类................................................................72.1引言....................................................................................................................72.2基于顶帽变换的极光图像预处理....................................................................72.3基于词袋模型的极光图像表示........................................................................82.3.1BoW模型简介.....................................................................................82.3.2极光图像的BoW表示........................................................................92.4基于支持向量机的极光图像分类..................................................................102.4.1支持向量机特性分析.........................................................................102.4.2实验结果与分析.................................................................................132.5小结..................................................................................................................20第三章融合显著信息的LDA极光图像分类............................................................213.1引言..................................................................................................................213.2隐狄利克雷分配模型......................................................................................213.3融合显著信息的LDA极光图像表示............................................................233.3.1显著性检测概述.................................................................................233.3.2谱残差显著性检测特性分析.............................................................243.3.3融合显著信息的LDA算法流程......................................................263.4实验结果与分析..............................................................................................273.5小结..................................................................................................................33第四章基于感知哈希的极光视频事件检测..............................................................354.1引言..................................................................................................................354.2感知哈希概述..................................................................................................354.2.1感知哈希基本概念.............................................................................354.2.2多媒体哈希技术.................................................................................364.2.3感知哈希在图像检索领域的应用.....................................................374.3基于感知哈希的极光视频事件检测...............................................................41万方数据 2极光图像分类与极光视频事件检测的探索研究4.3.1基于感知哈希的极光视频事件检测步骤.........................................414.3.2实验结果与分析.................................................................................424.5小结...................................................................................................................52第五章总结与展望.......................................................................................................535.1总结..................................................................................................................535.2展望..................................................................................................................54致谢.................................................................................................................................55参考文献.........................................................................................................................57攻读硕士学位期间获得的科研成果及参与的科研项目............................................61万方数据第一章绪论1第一章绪论1.1研究背景及意义在北极圈内，我们经常可以看到绚丽多彩的“极光”，在南极圈内我们也可以看到类似的景象，人们将其称之为“南极光”。极光现象在人口稠密地区并不常见，千百年来一直引起人类的猜测遐想以及探索研究。由古至今，地球上不同地域的人均对极光这种奇特的现象有文字记载，而且有些民族对极光还有美丽玄幻的传说与故事。比如爱斯基摩人认为善良的人死后灵魂会上天堂，而极光便是为这些灵魂照亮“天堂之路”的火炬。长久以来，极光的呈现原因一直没有一个令人满意的解答，人们对极光的成因也众说纷纭。一种说法认为，极光是处于地球之外的熊熊燃烧的大火，由于南北两极位于地球的边缘，故在该区域可以看见这种地球外面燃烧的火焰。另一种看法是说，极光是夕阳西下后，投射反照出来的一种绚丽的光辉。还有一种说法认为，极地地区冰雪漫天盖地，这些冰雪在白天充分吸收太阳的光能，并将其贮存起来，到了夜间便以极光的形式将这些光能释放出来。总而言之，极光的成因没有一个确切的定论。随着科学技术的进步与发展，人们将地面的观测结果与人造卫星观测到的结果结合起来研究，逐步形成了现在极光的物理性描述。科学家发现太阳释放的高能带电粒子(太阳风)如一道气流一般飞向地球，碰到南北极上空磁场的同时又形成了若干扭曲的磁场，太阳风的能亮被瞬间释放，以绚烂多彩的极光形式呈现，也[1]就是说极光是一种在地球周围的大规模放电现象。大气、磁场、高能带电粒子是极光产生的三大必备条件，缺一不可。经发现，极光现象不仅仅在地球上发生，太阳系内的其他行星(如土星、木星)上也有极光现象的发生。极光现象瑰丽万分，人们对极光现象的渴望可想而知，故对极光进行预测可以大力促进旅游业的发展。极光不仅可以促进旅游业，而且影响着无线电通信、[1]长光缆通信，极光对气候也有一定影响，甚至影响到生物学过程。极光是一种大规模放电现象，其瞬间释放的能量相当于全世界发电厂所发电的总和，怎样利用极光为人类造福也是当今科学研究的一个重要议题。综上所述，极光具有很高的科学研究价值。极光潜移默化地影响着人类的生活，所以极光已经是极地高空大气物理领域的一个热门的研究对象，也引起了全世界相关领域研究者的兴趣。一些北极圈国家(挪威、瑞典、美国、加拿大等)已经在北极投建了较为完善的地基极光成像观测设备，一些国家(美国、英国、澳大利亚、日本等)也将相似的观测设备建立在南极万方数据 2极光图像分类与极光视频事件检测的探索研究用来观测南极光。1995年，我国在南极建立了中山站。2003年，我国建立了北极黄河站，并建成了高空大气综合观测系统。数字成像技术日新月异，并且为科学家研究极光现象提供了海量的数据资源。我国的北极黄河站每年可捕获100多万幅极光图像，而像美国、加拿大等一些科技水平较为发达国家，每年可以获取上千万幅极光图像。如何有效利用这些海量数据是一个急需解决的难题。本文在前人对极光的探索与研究的基础之上，深入探索研究全天空极光图像分类和极光事件检测。融合数字图像处理技术与计算机视觉领域的方法和思想，针对全天空极光图像的特性，寻求合理的极光图像特征提取方法，实现极光图像自动分类，并选择快捷有效的方法对极光视频进行事件检测。通过以上工作，力求为极光现象的研究贡献自己的微薄之力。1.2国内外研究进展及现状1.2.1基于人眼观察的极光研究极光形态的变化揭示了大气活动和太阳对地球影响的方式和程度，极光研究起初是基于人工肉眼观察手工标记的。[2]1955年，CarlStormer首先对极光进行分类，将极光分为火焰状极光、放射状极光以及无放射状极光三大类。[3]1964年，Akasofu根据极光的运动特点将极光分为四类，分别是赤道向扩展型极光、点亮型极光、西行浪涌型极光以及赤道向恢复型极光。[4]1999年，胡红桥等人将极光分为四类，分别是具有射线状结构的冕状极光、带状极光、浪涌型极光以及向日极光弧。2000年，中国极地研究中心将极光分成弧状极光和冕状极光两大类，其中冕[5]状极光又细分为辐射冕状，热点冕状和帷幔冕状三小类。1.2.2基于计算机分析的极光研究有了前人的对极光类型鉴定的铺垫，计算机视觉领域的研究人员也纷纷提出不同的方法对极光图像研究。[6]2004年，Syrjäsuo等人首次将计算机视觉方法引入极光图像的分类，他们首先将极光根据形态分为弧状，块状，欧米伽状以及南北结构状四类，随后将极光图像分割后的区域进行傅里叶变换来提取极光图像的特征，但是此方法有很大的局限性，仅适用于形态单一的弧状极光，不具备普遍适用性。万方数据第一章绪论3[7]2007年，王倩等人运用主分量分析，线性判别分析和贝叶斯三种方法对极光图像进行表征提取，提出基于表象特征的极光图像分类方法，将极光划分为弧状，冕状和混合型三种类型。[8]2008年，高凌君等针对冕状极光呈放射状的纹理形态特征，提出一种基于Gabor变换的日侧极光分类算法，利用Gabor滤波器组提取了极光图像的局部Gabor特征，该特征能非常吻合冕状极光发射状的纹理特性，所以取得了较好的分类效果。[9]2009年，付蓉等将形态学分析(MophologicalComponentAnalysis,MCA)与极光图像的分析结合，将极光纹理区域和背景区域分离，并且分离后的结果能够保留极光纹理特征，该方法还可以有效地抑制图像中噪声的干扰，并且提高了弧状与冕状极光图像的分类准确率。[10,11]2010年，王钰茹等根据极光形态的特点提出基于X-GLAM特征的日侧极光图像分类算法，该方法针对冕状极光特殊纹理特性设计，具有BGLAM算法的优势，同时增强了表述方向性特征的能力，在光照和旋转的影响上有很强的鲁棒性。上述分类算法大多是以极光形态为先验知识，而极光作为一种特殊的现象，其形状特征并不固定。因而，很多现有的特征提取和分类算法对之失效。而[12]BoW(BagofWords)模型将图像库看成文档库，一幅图像看做一篇文档。提取图像特征后，用其生成“视觉单词”，即生成字典，统计每幅图像的视觉单词出现频率即可完成图像的BoW描述。在BoW模型中，视觉单词具有区分性和代表性，因此，该方法有较好的鲁棒性并且可以抑制一定的噪声干扰。但由于经过BoW提取的图像特征往往是高维的，且不符合人类视觉注意机制，针对这图像特征维数[13]较高这一缺陷，我们引入LDA(LatentDirichletAllocation)模型来对极光图像特征进行表示。根据信息论的知识，一幅图像包含的信息可分为两部分：即新颖信息[14]和先验信息(冗余信息)，而图像的显著图(SaliencyMap)可有效提取图像的新颖[15,16]信息并且摒除其先验信息，近年来引起计算机视觉领域研究人员的关注，显著图可有效的表达一幅图像的关键所在，故引入显著性检测可以融合人类视觉注[14]意机制，本文运用谱残差(SpectralResidual,SR)方法获取极光图像的显著图并用其生成字典，从而加强极光图像的语义信息，提出一种融合显著信息的LDA方法(SI-LDA)，用以提高LDA模型的分类精度。万方数据 4极光图像分类与极光视频事件检测的探索研究1.3论文研究成果与安排本文结合图像特征提取技术和模式识别技术，对极光图像分类方法以及极光视频事件检测做了深入研究，结合计算机视觉、图像检索和图像分类领域的新思想和新方法，取得的创新性成果如下：(1)首先将顶帽变换(Top-hat)方法应用于极光图像的预处理，并针对极光图像的纹理和结构特点，深入分析BoW模型，提取极光图像的BoW特征进行分类实验，实验结果表明，该特征能够取得较好的分类效果。在极光图像拍摄的过程中，由于拍摄设备暗电流以及大气层的影响，极光图像存在亮度不均匀的现象，本文提出通过对极光图像进行顶帽变换来改善这一现象。而极光作为一种特殊的现象，其形状特征并不固定。因而，很多现有的特征提取和分类算法对之失效。而BoW(BagofWords)模型将图像库看成文档库，一幅图像看做一篇文档。提取图像特征后，在BoW模型中，视觉单词具有区分性和代表性，因此，该方法有较好的鲁棒性并且可以抑制一定的噪声干扰。但该模型仅将图像看成是若干个视觉单词的集合。实验表明，该特征取得了良好的分类效果。(2)在深入研究了隐狄利克雷分配模型LDA的基础上，将其应用于极光图像分类当中。提出了融合显著信息的LDA极光图像分类方法(SI-LDA)，并取得了良好的分类效果。由于经过BoW提取的图像特征往往是高维的，并且没有包含人的视觉注意机制，针对这两个缺陷，本文在深入探讨LDA(LatentDirichletAllocation)模型同时，深入分析图像的显著性检测理论，使用谱残差(SpectralResidual,SR)方法获取极光图像的显著图并用其生成字典，从而加强极光图像的语义信息，提出一种融合显著信息的隐主题方法(SI-LDA)，从而达到更佳的极光图像分类效果。(3)系统研究了感知哈希的相关理论，提出了基于感知哈希算法的极光视频事件检测方法，并取得了良好的检测效果。详细分析了其发展及在图像检索领域的应用，针对极光视频事件检测这一领域，本文提出利用感知哈希算法进行极光视频事件检测。实验证明该方取得了良好的检测效果。本文的主要章节内容安排如下：第一章：阐述了极光现象研究的科学意义与价值，介绍了极光国内外研究的现状，概述了本文的科研成果以及章节安排第二章：首先将顶帽变换应用于极光图像预处理，分析了词袋模型的原理和基本算法流程，并利用词袋模型对极光图像进行特征提取。最后，介绍了支持向量机的基本原理，并进行了初步的分类实验。万方数据第一章绪论5第三章：深入研究了隐狄利克雷模型的原理和建模方法，阐述了显著性检测研究的发展历程，详细分析了谱残差显著检测算法，提出了融合显著信息的LDA极光图像分类，并取得到了良好的分类结果。第四章：研究了感知哈希的相关理论，详细分析了其发展及在图像检索领域的应用，提出了基于感知哈希算法的极光视频事件检测方法，并取得了良好的检测效果。第五章：总结与展望。总结本文工作成果，指出本文存在的不足，并对今后的工作进行展望，给出后续的研究方向。万方数据 6极光图像分类与极光视频事件检测的探索研究万方数据第二章基于词袋模型表示的极光图像分类7第二章基于词袋模型表示的极光图像分类2.1引言在极光图像拍摄的过程中，由于拍摄设备暗电流以及大气层的影响，极光图像存在亮度不均匀的现象，这种现象发生在单幅图像，亦存在于图像与图像之间，如图2.1所示。我们可以通过对极光图像进行顶帽变换来改善这一现象。图2.1极光图像由图2.1可见，极光作为一种特殊的现象，其形状特征并不固定。因而，很多[17]现有的特征提取和分类算法对之失效。而BoW(BagofWords)模型将图像库看成文档库，一幅图像看做一篇文档。提取图像特征后，用其生成“视觉单词”，即生成字典，统计每幅图像的视觉单词出现频率即可完成图像的BoW描述。在BoW模型中，视觉单词具有区分性和代表性，因此，该方法有较好的鲁棒性并且可以抑制一定的噪声干扰。本章重点介绍极光图像的顶帽变换及其BoW表示。2.2基于顶帽变换的极光图像预处理[18]顶帽变换的定义为：IIIe(2-1)tophat其中I为原图像，e为结构元素，Ie为用结构元素e对原图像I进行开运算后的结果。由式(2-1)可以看出，顶帽变换的结果与所选的结构元素息息相关，通过实验我们选取r=80的disk型结构元素e对极光进行顶帽变换预处理。图2.2为顶帽变换后的极光图像。图2.2顶帽变换后的极光图像通过对极光图像进行顶帽变换，可提高图像对比度，同时改善图像亮度不均匀的现象。万方数据 8极光图像分类与极光视频事件检测的探索研究2.3基于词袋模型的极光图像表示2.3.1BoW模型简介[12]BoW(BagofWords)模型，也叫做“词袋”模型，该模型已经成功的应用于[13]文本分类，其建模过程非常简单易懂，近些年，BoW也被用于计算机视觉领域[17,19,20]。词袋模型假定对于一篇文章，忽略其文法和语序，仅将文章看成是若干个单词的集合，文章中每个单词的出现都不依赖于其他的单词是否出现，也就是说每个单词的出现都是独立的，均不受其他单词或语句的影响。文章中所有出现过的单词可以被形象地看成一本“字典”，我们统计每篇文章单词出现的频率，即可获得文章的BoW描述。对应于文本BoW模型，我们可以将图像库看成文档库，一幅图像看做一篇文档。提取图像特征后，用其生成“视觉单词”，即生成字典，统计每幅图像的视觉单词出现频率即可完成图像的BoW描述。但是，在对图像进行BoW建模时需要解决两个关键问题：图像特征的获取以及“视觉字典”的建立。从这两个问题[17]出发，BoW模型应用于图像建模包括以下四个步骤：(1)特征检测即检测图像中含有较多信息的区域，例如边缘，角点等。但是对于极光这类比较平滑，边缘信息不够丰富的图像来说，网格化划分方法是最简单有效的特征检测方法，这种方法是将图像均匀分割成若干图像块，然后在这些图像块中提取特征。(2)特征描述步骤(1)完成后，用一个向量来对得到的若干个图像块做表示。本文采用[21]SIFT(Scale-invariantfeaturetransform)描述子。这是一种将邻域方向性信息联合进行表示的方法，能够有效地表示关键点周围的灰度梯度特征。SIFT算法的特性可以归结为以下几点：1)SIFT算法提取的是图像的局部特征，当图像发生旋转、尺度缩放和亮度变化时该特征保持不变，同时对于图像中的视角变化、仿射变化以及噪声等也能在一定范围内保持稳定；2)SIFT算法所提取的特征包含的图像信息多，能够较好地区分该图像，可以用于大数据中的精确匹配；3)SIFT算法产生的特征数量多，即便是较少的物体也能生成足够的SIFT特征向量。所以对于极光图像这样特征不明显的特殊图像来说，结合网格化划分特征检测和SIFT特征描述是十分合理的。(3)生成字典万方数据第二章基于词袋模型表示的极光图像分类9对已经用SIFT向量表征好的图像，需要将其SIFT向量转换为视觉单词，也就是生成字典。一般情况下，生成字典的方法是对训练图像的SIFT向量进行K均值(K-means)聚类。K均值聚类的算法流程如下：1)从待聚类的数据中任意选取K个对象作为初始聚类中心；2)计算非聚类中心与聚类中心的欧式距离，认为该距离代表两者之间的相似程度，然后根据非聚类中心和聚类中心的相似程度将非聚类中心分别分配给与其最相似的聚类中心，从而将待聚类的数据分成K类；3)对K类数据重新计算聚类中心；4)重复2)3)两步，直至聚类中心稳定为止，得到最终的K个聚类中心。将这K个聚类中心看作K个视觉单词，将聚类中心的集合称之为字典。将这K个聚类中心看作K个视觉单词，将聚类中心的集合称之为字典。K均值聚类算法具有以下特点：类内的数据对象均较为紧凑，类与类之间的数据对象侧有较大的区分。词袋模型正是利用K均值聚类算法的这一特性，对训练图像的SIFT特性进行聚类，从而生成K个聚类中心，这些聚类中心之间具有较大的独特性与区分度，从而可以很好的代替图像中与其相似的图像块。(4)视觉单词量化用K均值聚类算法生成的K个视觉单词表示每一幅图像，即用K个视觉单词对每一幅图像的SIFT特征进行量化。最后统计每幅图像中每个视觉单词出现的频率，即为图像的BoW表示。2.3.2极光图像的BoW表示根据前面所讲的BoW模型的建立方法，极光图像的BoW表示流程如图2.3所示，具体步骤如下：(1)选取r=80的disk型结构元素e对极光进行顶帽变换预处理；(2)对极光图像进行滑窗网格划分，滑窗大小为32×32，每次滑动16像素。(3)对于第(2)步中划分得到的全部32×32的区域计算SIFT特征，得到一个128维的向量；由于实验所用的极光图像的大小均为512×512，因此经滑窗网格采样与SIFT表示后，每幅图像用961×128的矩阵来表示；(4)将训练图像集上所有SIFT特征进行K-means聚类，生成K个聚类中心，将每个聚类中心看作一个视觉单词，从而得到一个由K个视觉单词构成的字典；(5)对每一幅图像的SIFT特征进行向量量化，即用视觉单词来表示每一幅图像。具体操作为：先将通过K-means生成的K个视觉单词进行编号，即1、2、…、K。由于每幅极光图像由961个128维的SIFT特征向量表示，我们用这961个特征向量去跟每一个视觉单词求欧氏距离，用距离最近的视觉单词的编号代替128维的SIFT特征，这样就把一幅图像量化为由961个视觉单词组成的文档了。万方数据 10极光图像分类与极光视频事件检测的探索研究(6)统计每一幅极光图像中各个视觉单词出现的频率，得到一个长度为K的词频向量，从而完成每幅极光图像的BoW描述，图2.4为字典大小为200时极光图像的BoW表示。SIFT961×128每一块均用极光图像961块128维的SIFT向量表示_____量化__________961×1顶帽变换BoWSIFTK×1N×961×128_________栅格化_________K-means极光数据库___...______SIFT表示__________________K个聚类中心图2.3极光图像的BoW表示流程图0.20.150.1出现频率0.050050100150200250单词图2.4极光图像的BoW表示2.4基于支持向量机的极光图像分类2.4.1支持向量机特性分析数据分类的主要是指是通过计算机学习得到分类模型，从而利用该模型实现对数据的分类。因而数据分类在数据挖掘领域具有举足轻重的地位。支持向量机[22](SupportVectorMachine,SVM)作为一种有监督学习算法被广泛地应用于数据分类中。SVM简单说来就是建立在线性二分类模型基础之上的。寻求最大化的间隔是该模型主要的学习策略。抽象成数学模型，SVM实际需要解决的是一个凸二次规划求最优解的问题。首先我们来分析线性二分类问题。要明确一点：线性二分类的目的是要在待分类数据的空间中寻求一个超平面，该平面能将待分类的数据正确分开。图2.5所示为一个二维平面，在平面中有两类不同的点分别用不同的圆点来表示，即一种为实心圆点，一种为空心圆点。H表示一个可行的超平面(在二维空间下为一条直线)。万方数据第二章基于词袋模型表示的极光图像分类11H图2.5线性分类示例由图2.5可以看出，超平面H把实心圆点和空心圆点分开来了，我们将类别定义为y{1,1}，也就是说，超平面H一边的点对应的y全为1，而另一边全为-1。可令分类函数为：fb()xwx(3-1)如果f()x0，那么x是位于超平面H上的点。不妨令f()x0的点对应的y为-1，令f()x0的点对应的y为1。我们将此例推广至n维数据空间，也就是说如果训练数据集为线性可分，则存在一个超平面：wxb0(3-2)使得wxby1,1ii(3-3)wxb1,y1,i1,2,...,liinn其中wx表示向量wR与xR的内积。令式(3-4)为：y(wxb)1,i1,2,...,l(3-4)ii若分类超平面将训练数据样本正确无误地分开，并且离分类超平面距离最近的数据样本与该分类超平面之间的距离最大，则该超平面即为最佳分类超平面。如图2.6所示，H为最佳分类超平面。H1和H2上的训练样本点即为支持向量(SupportVectors)。万方数据 12极光图像分类与极光视频事件检测的探索研究H2HH1图2.6最优超平面示例2最优超平面需要求解最大化2/||w||，即等价于最小化||w||/2，故问题可转化为如下的二次规划问题：12minww,b2(3-5)st..ywx(b)1i1,2,...,lii上述最优分类面的求解问题可使用Lagrange乘子方法求得，即可以归结为一个二次规划问题，具体求解过程本文不做详细阐述。在一般情况下，训练集往往是线性不可分的，如图2.7所示二维平面，训练集线性不可分，即平面内无法找到一个超平面(直线)将两类数据区分开。图2.7线性不可分示例对于此种情况，SVM通过非线性核函数将训练集映射到一个高维空间，从而在这个高维空间寻求最优超平面将训练集分开，如图2.8所示。核函数图2.8低维空间映射至高维空间示例万方数据第二章基于词袋模型表示的极光图像分类13n将非线性映射定义为:RH，即将n维空间上的训练集通过映射到高维空间H当中，从而在高维空间H中寻求最优超平面。在高维空间H中求取最优超平面时，仅需使用空间中训练集的内积，即()xx()，故可定义核函数ijKxx(,)()x()x，无需计算单独的()x，从达到减少计算量的目的。因此，ijiji对于在低维空间的训练集线性不可分的情况，可选择适当的核函数Kxx(,)，将ij其映射至高维空间，从而达到线性可分的目的。所以选择恰当的核函数Kxx(,)是SVM算法的关键所在，目前经常使用的核ij函数主要有以下这几种：1.多项式核函数：dKxx()[(xx)r](3-6)ijij2.Gaussian核函数：2||xx||ijKxx()exp()(3-7)ij223.sigmoid核函数：Kxx(,)tanh((xx)c)(3-8)ijij以上提到的是SVM最基本的三个核函数，其中Gaussian核函数是应用最为普遍的核函数之一。若选择较大，即相当于一个低维子空间；若选择较小，则可以将任意数据集映射为可线性划分的数据集。参数使得Gaussian核函数拥有较高的灵活性。SVM的思想也给了我们一个重要的启示，即站在更高的维度看问题，往往问题会迎刃而解。2.4.2实验结果与分析本小节运用SVM分类器的对极光图像进行了分类仿真实验。这些数据来自2003年12月至2004年1月期间所观测到的G波段图像(557.7nm)，每幅极光图像为512×512的灰度图像。按照形态分类可将极光图像分成弧状和冕状两大类，其中冕状极光又可以分成辐射状，热点状和帷幔状三小类，如图2.9所示。我们选择3200幅极光图像(其中弧状、辐射冕状、热点冕状、帷幔冕状各800幅)来作为我们的实验数据。实验所用计算机配置为：Intel(R)Core(TM)i3-2100处理器，2.91G内存。实验所运行的软件环境为在Windowsxp操作系统下安装的MatlabR2012a。万方数据 14极光图像分类与极光视频事件检测的探索研究(a)弧状(b)辐射冕状(c)热点冕状帷幔冕状图2.9极光典型类别在本文实验中，所有分类实验均为弧状、辐射状、热点状、帷幔状，4分类实[23]验。对于SVM，选择RBF核函数，采用5折交叉验证(crossvalidation)选择最佳参数c和g。其中c是损失函数，是对于错分类的惩罚，c的取值越大，对于某个样本的错误分类的惩罚越大，调整c会影响最终训练集的分类精度和测试集的分类精度；g是核函数中的gamma函数设置。随机选择1600幅作为训练数据，其余1600幅作为测试数据，运用最佳参数进行100次分类实验。实验一：极光图像在不同字典大小下的分类实验(未经顶帽变换预处理)本实验将证明词袋模型在极光图像上的有效性，在不同字典大小下进行分类实验，图2.10至图2.15分别是在字典数100至600情况下(间隔为100)的极光图像4分类实验结果。多弧状0.840.030.090.05辐射状0.020.750.120.11热点状0.090.110.800.00帷幔状0.050.110.020.82多弧状辐射状热点状帷幔状图2.10字典大小为100时极光图像4分类混淆矩阵其中，平均准确率为80.36%，平均训练分类时间1.29s。万方数据第二章基于词袋模型表示的极光图像分类15多弧状0.840.030.090.05辐射状0.020.760.130.09热点状0.090.100.810.00帷幔状0.050.110.020.82多弧状辐射状热点状帷幔状图2.11字典大小为200时极光图像4分类混淆矩阵其中，平均准确率为80.78%，平均训练分类时间3.25s。多弧状0.830.030.090.05辐射状0.020.770.110.10热点状0.090.100.810.00帷幔状0.050.100.020.83多弧状辐射状热点状帷幔状图2.12字典大小为300时极光图像4分类混淆矩阵其中，平均准确率为81.21%，平均训练分类时间6.12s。多弧状0.820.030.100.05辐射状0.020.780.110.09热点状0.080.100.820.00帷幔状0.050.110.020.83多弧状辐射状热点状帷幔状图2.13字典大小为400时极光图像4分类混淆矩阵其中，平均准确率为81.31%，平均训练分类时间9.47s。万方数据 16极光图像分类与极光视频事件检测的探索研究多弧状0.840.030.080.05辐射状0.020.790.100.09热点状0.080.100.830.00帷幔状0.050.100.010.84多弧状辐射状热点状帷幔状图2.14字典大小为500时极光图像4分类混淆矩阵其中，平均准确率为82.13%，平均训练分类时间13.08s。多弧状0.820.030.090.06辐射状0.020.770.110.10热点状0.080.090.830.00帷幔状0.050.110.010.82多弧状辐射状热点状帷幔状图2.15字典大小为600时极光图像4分类混淆矩阵其中，平均准确率为81.30%，平均训练分类时间16.62s。我们将不同字典大小下的分类结果做一对比，图2.16为不同字典下的平均分类准确率的对比，图2.17为不同字典大小下训练分类时间对比。82.582平81.5均分81类准80.5确率(80%)79.579100200300400500600字典大小图2.16不同字典大小下的平均分类准确率万方数据第二章基于词袋模型表示的极光图像分类171816平14均训12练10分8类时6间(4s)20100200300400500600字典大小图2.17不同字典大小下的平均训练分类时间由图2.16可以看出，在字典为500时，获得了最佳准确率，准确率高达82.13%，由图2.17可以看出，随着字典数的增加，图像维数也随之增大(图像维数=字典数)，从而导致训练分类时间随之增长。实验二：极光图像在不同字典大小下的分类实验(经顶帽变换预处理)根据极光图像自身缺陷，本文提出使用顶帽变换对极光图像预处理，该实验意在验证顶帽变换预处理在极光图像分类上的有效性。与实验一相同，使用词袋模型对顶帽变换预处理过后的极光图像进行建模，在不同字典大小下进行分类实验。图2.18至图2.23分别是在字典数100至600情况下(间隔为100)的极光图像4分类实验结果。多弧状0.830.030.090.05辐射状0.020.780.120.09热点状0.090.100.810.00帷幔状0.040.100.020.84多弧状辐射状热点状帷幔状图2.18字典大小为100时极光图像4分类混淆矩阵其中，平均准确率为81.36%，平均训练分类时间1.39s。万方数据 18极光图像分类与极光视频事件检测的探索研究多弧状0.840.030.080.05辐射状0.010.780.120.09热点状0.090.100.810.00帷幔状0.040.110.020.83多弧状辐射状热点状帷幔状图2.19字典大小为200时极光图像4分类混淆矩阵其中，平均准确率为81.69%，平均训练分类时间3.21s。多弧状0.840.030.090.04辐射状0.020.800.110.07热点状0.080.080.840.00帷幔状0.050.120.010.81多弧状辐射状热点状帷幔状图2.20字典大小为300时极光图像4分类混淆矩阵其中，平均准确率为82.26%，平均训练分类时间5.94s。多弧状0.840.030.090.04辐射状0.020.820.100.06热点状0.080.090.830.00帷幔状0.050.110.010.83多弧状辐射状热点状帷幔状图2.21字典大小为400时极光图像4分类混淆矩阵其中，平均准确率为82.87%，平均训练分类时间9.32s。万方数据第二章基于词袋模型表示的极光图像分类19多弧状0.840.030.080.04辐射状0.020.820.100.06热点状0.090.090.830.00帷幔状0.050.130.010.81多弧状辐射状热点状帷幔状图2.22字典大小为500时极光图像4分类混淆矩阵其中，平均准确率为82.47%，平均训练分类时间12.37s。多弧状0.840.040.080.04辐射状0.020.810.100.08热点状0.080.090.830.00帷幔状0.050.120.010.82多弧状辐射状热点状帷幔状图2.23字典大小为600时极光图像4分类混淆矩阵其中，平均准确率为82.23%，平均训练分类时间15.78s。我们将实验一的结果与实验二的结果进行对比，图2.24为不同字典下的平均分类准确率的对比，图2.25为不同字典大小下训练分类时间对比。83.583BoW平82.5均Tophat-BoW82分类81.5准81确率(80.5%)8079.579100200300400500600字典大小图2.24不同字典大小下的平均分类准确率万方数据 20极光图像分类与极光视频事件检测的探索研究18平16BoW均14训Tophat-BoW12练分10类8时6间(s)420100200300400500600字典大小图2.25不同字典大小下的平均训练分类时间由图2.24可以看出，经过顶帽变换预处理后，在不同的字典数下，相较于未经顶帽变换处理的极光图像，分类准确率均有提高，从而证明了顶帽变换用于极光图像预处理的有效性。由图2.24亦可看出，经过顶帽变换后，在字典大小为400时取得最佳分类精度。由图2.25可以看出，实验二的平均训练分类时间与实验一有相似的结果，其原因与实验一相同，即随着字典数的增加，图像维数也随之增大，从而导致训练分类时间随之增长。2.5小结本章首先分析了顶帽变换算法特性，随后将其应用于极光图像预处理，改善了极光图像亮度不均匀以及对比度不足的缺陷，详细分析BoW模型特性以及该模型在图像处理领域的建模过程，并将其用于极光图像特征提取。最后，分析了SVM原理以及阐述了交叉验证参数的选择方法，并且利用SVM对极光图像进行分类实验，取得了较好的分类效果。由实验表明，BoW模型适合于极光图像的特征表示，顶帽变换适用于极光图像预处理。在本文后续章节中，将探讨建立在BoW模型基础上的隐主题模型，以获得更佳的分类效果。万方数据第三章融合显著信息的LDA极光图像分类21第三章融合显著信息的LDA极光图像分类3.1引言在第二章中，本文详细分析了词袋模型的特性并且阐述了该模型在极光图像上的建模过程。虽然词袋模型在极光图像分类上取得了较好的效果，但该模型具有以下缺陷：第一，经过词袋模型表示的图像往往伴随着高维的特征；第二，词袋模型针对图像全局进行建模，没有考虑图像显著信息，不符合人的视觉注意机制。近些年，主题模型在文本以及图像分类与检索领域得到了大量应用。该模型的基本是思想是利用概率图模型在文本和单词之间生成一个隐主题维，可有改善词袋模型维数过高的缺陷，从而可以更好地对图像进行语义表达。根据信息论的知识，一幅图像包含的信息可分为两部分：即新颖信息和先验信息(冗余信息)，而图像的显著图(SaliencyMap)可有效提取图像的新颖信息并且摒除其先验信息，符[14]合人类的视觉注意机制。本章运用谱残差(SpectralResidual,SR)方法获取极光图像的显著图并用其生成字典，加强极光图像的语义信息，并结合隐狄利克雷分配[13](LatentDirichletAllocation,LDA)模型，提出一种融合显著信息的LDA方法(SI-LDA)，以改善词袋模型用于极光图像分类的不足与缺陷，从而达到更好的分类效果。3.2隐狄利克雷分配模型[13]研究学者们提出了各种语义主题模型，其中以Blei提出LDA(LatentDirichletAllocation)模型最负盛名。LDA模型也越来越多地被应用于文本分析领域，例如标[25][26]签推荐，Web图像聚类等领域等。隐狄利克雷分配模型(LDA)通过狄利克雷(Dirichlet)分布来描述文本下隐语义主题的分布，即以服从Dirichlet共轭的先验分布对文本的隐语义主题进行采样。式(3-1)为Dirichlet分布的概率密度函数，其中(,xxx)表示随机变量，12n(,)为Dirichlet分布的参数向量。12nK()iKfx(x;)i1xi1(3-1)11nnKii1()ii1在LDA模型中，首先对一组主题进行采样，然后根据这一主题分布生成文本，即在每个主题下的多项式分布生成相关的每个单词。LDA模型可以生成新加入的万方数据 22极光图像分类与极光视频事件检测的探索研究文本的概率模型，因而，我们可以认为LDA模型相较于PLSA模型是一种完整的概率生成模型。LDA模型生成文本的过程如下：(1)根据泊松分布选择文本的单词个数N~Poisson()；(2)按照选择参数使之服从k维的Dirichlet分布，即~Dir()；(3)根据主题的多项分布选择单词，分为以下两步：(a)选择一个主题z，z~Multinomial()；nn(b)再依据主题z的多项条件分布选择单词，满足w~(pwz|,)nnnn对于超参数α和β，主题混合分量θ，主题变量z和单词为ω的联合概率可以表示为：NP(,,|,)zP(|)pz(n|)(pn|zn,)(3-2)n1LDA模型基本思想如图3.1所示。αθzβφwTNNddD图3.1LDA模型其中，α和β分别为θ和φ的超参数，其中θ和φ均服从Dirichlet分布。θ为文本中某一主题发生的概率，φ为在某一给定主题下生成文本中某一单词的概率。Z为选择的某个主题，Nd和D分别表示文本中的单词个数和训练集中的文本数。由LDA模型的文本生成过程可知，生成文本的主题随着超参数α和β确定而确定。因此，LDA建模的过程可以归结为对两个超参数进行估计并分别获取其最优值的过程。给定文本的隐变量后验概率密度函数如式(3-6)所示。pz(,,|,)pz(,|,,)(3-3)p(|,)然而不幸的是，通常情况下上式所示的概率密度函数是无法精确计算出来的，[28]Griffiths等人提出Gibbs采样对LDA模型的超参数进行估计。相较于变分法，万方数据第三章融合显著信息的LDA极光图像分类23该方法具有更快的运行速度，因而可以实现在更短的时间内完成LDA的建模过程。本文中就是采用了基于Gibbs采样的方法来完成LDA模型的参数估计。3.3融合显著信息的LDA极光图像表示3.3.1显著性检测概述随着计算机信息技术的高速发展，图像已经成为承载信息的主要载体。如何快捷且准确地处理海量的图像信息是时下一个非常具有科学研究价值的课题。人们通过研究发现，图像信息包含新颖信息和先验信息(冗余信息)，即图像的关键信息总是集中在部分区域，也就是说一幅图像中存在大量的冗余信息。人们把一幅图像的关键区域称之为显著性区域。图像的显著性检测也是近些年的一个热门的研究议题。显著性检测广泛应用于图像分割、图像目标检测、图像压缩等领域。图像的显著性区域对应着图像的新颖信息，该部分区域也最能引起人们的视觉注意。人类视觉的一项重要的心理调节机制便是视觉注意力机制。从心理学和神经生物学层面来讲，我们可以将人类的视觉注意力机制划分成为以下两类，一类是自底向上的视觉注意力机制；另一类则是自顶向下的视觉注意力机制。为了达到检测图像显著性区域的目的，计算机视觉领域的研究者们提出了各种基于视觉感知的计算方法，获得图像的显著图，从而使用显著图来表示一幅图像的关键区域。显著图中每一个像素点的值对应着原图像在该位置的显著性大小。我们知道一幅图像的显著性区域也就是该图像最能吸引人注意的区域，故显著性检测理论的研究基础即为人类视觉注意力的研究。人类的视觉注意力机制是通过千百年来的进化逐步形成的，人类的大脑对获取的视觉信息进行实时地处理，并且是有选择性与目的性的，从而迅速的发掘具有价值的信息，趋利避害，达到生存和繁衍的目的。另外，人类复杂的心理活动与潜意识也影响着视觉注意力机制。所以为了理解视觉注意力机制，我们首先必须理解大脑是如何处理视觉信息的，但是大脑的结构异常复杂，即使在科技飞速发展的今天，很多方面的原理也仍然处于初步探索阶段，人们对于具体的处理机制并不清楚，所以要形成一个完备的视觉信息加工处理机制理论是极其困难的。但是，生物学家通过长期的科学研究，已经对一些初级的视觉处理机制有了一定的了解。科学家们通过不同的实验已经得出人类具有两种视觉注意力机制：一类是自底向上机制，该机制单纯由视觉输入驱动，属于初级视觉机制，是一种低级别的认知过程；另一类是自顶向下机制，该机制基于任务驱动，将注意力集中于一个或多个特定的目标，从而达到目标识别的目的，该机制是一种高级别的认知万方数据 24极光图像分类与极光视频事件检测的探索研究过程。由于自顶向下机制是一个较为复杂的过程，需要高级视觉原理以及先验知识的支撑，故本文主要讨论基于自底向上机制的显著性检测方法。[29,30]Itti等人于1998年提出了一个视觉注意力模型，并成功将其应用于真实自然场景图像当中，获得了与人类视觉注意机制较为接近的实验结果。中心-周边机制是该模型的理念核心。Itti模型利用中心-周边机制模拟了人脑对视觉信息的处理，该模型是从生物学角度出发的，从而导致计算较为复杂。由于基于生物学的显著性检测的局限性，基于信息论的显著性检测便浮出水面，显著性检测开辟出了一条背离生物性原理的道路，而采用纯数学的计算，相[14]继出现了各种不同的计算方法。其中最具代表性的便是2007年，Hou等人提出的谱残差显著性检测方法，其高效、简介的计算方法在该领域独树一帜。本文着重介绍谱残差显著性检测方法。3.3.2谱残差显著性检测特性分析人类视觉系统的显著性检测能力是快速而可靠的，然而对于计算机来说这是一个艰难的挑战，谱残差显著性检测方法不同于基于生物学的复杂建模方法，是一种简单、快捷、高效的方法。根据信息论的知识，一幅图像的信息H(Image)包两个部分：H(Image)H(Innovation)H(PriorKnowledge)(3-4)其中H(Innovation)表示图像的新颖信息，H(PriorKnowledge)表示图像的冗余信息，谱残差显著性方法巧妙地利用图像的对数谱残差，摒除图像的冗余信息，从而达到显著性检测的目的。[14]Hou通过实验发现，自然图像的对数谱都是极其相似的，如图3.2所示。(图3.2来自文献[14])图3.2自然图像的对数谱示例万方数据第三章融合显著信息的LDA极光图像分类25而图像对数谱的尖峰对应着图像的新颖信息，平滑后(利用均值滤波)的对数谱则对应图像的冗余信息。设输入图像的对数谱曲线为Lf()，通过构建一个均值滤波器hf()对Lf()进n行平滑，从而得到图像的冗余信息部分Af()：Af()hf()Lf()(3-5)n其中hf()是一个nn的矩阵(一般情况下取n=3)：n1111111hf()n2n111图像的对数谱残差，也就是图像的显著信息Rf()为：Rf()Lf()Af()(3-6)总的来说，获取图像的谱残差显著图需经过以下步骤：(1)将图像的长度(或宽度)缩小至64像素，记为Ix()；(2)对Ix()进行傅里叶变换，得到图像的幅度谱Af()和相位谱Pf()；m(3)对幅度谱Af()取对数，得到对数谱Lf()log(Af())；mm(4)谱残差Rf()Lf()hf()Lf()，其中hf()为33均值滤波模板，为卷积符号；12(5)显著图Sx()gx()F[exp(()RfPf())]，其中gx()为高斯滤波器1(8)，用于平滑显著图，为卷积符号，F为傅里叶逆变换；图3.3所示为极光图像的谱残差显著图。图3.3极光图像的谱残差显著图万方数据 26极光图像分类与极光视频事件检测的探索研究3.3.3融合显著信息的LDA算法流程融合显著信息的LDA算法流程如图3.4所示。主要分为五个步骤，极光图像的顶帽变换，极光图像的视觉单词提取，极光图像的谱残差显著图获取，谱残差显著图的视觉单词提取以及极光图像的SI-LDA表示。SIFT961×128每一块均用极光图像961块128维的SIFT向量表示_____量化__________961×1顶帽变换SIFT300N×961×128LDA模型250连接200_________150栅格化_________K-means1922×1100___.______Gibbs采样迭代50SIFT表示_________0_________020406080100120140K个聚类中心SIFT961×128每一块均用显著图961块128维的SIFT向量表示_____量化极光数据库__________961×1谱残差SIFTN×961×128_________栅格化_________K-means___.______SIFT表示__________________K个聚类中心图3.4SI-LDA算法流程图第二章中详细分析了基于词袋模型表示的极光图像建模过程，与第二章步骤相同，将极光图像的显著图量化为由视觉单词构成的视觉文档，我将其称之为显著文档。将极光图像的原图像文档与显著文档首尾相接，构成极光图像的语义加强型文档。将语义加强型文档输入到LDA模型中进行迭代，就可以得到极光图像的SI-LDA表示。本章3.2.2节提到，通过Gibbs采样可以实现对文本的LDA表示。Gibbs采样把文档中的单词分配到某个主题，从而可以得到文档的主题分布。其关键在于条[28]件转移概率的确定。我们给出各个单词主题分配的全概率公式，如式(3-10)所示：nn(wdii)()ij,,ijPz(j|zw,)(3-7)ii()()dnWniTij,,i其中，z表示单词w所分配的主题，j表示某一个主题，jT1,2,...,，T为主题ii个数，z表示除单词w以外的单词分配情况，w表示极光图像语义加强型文档中ii所有单词的集合，n()wi表示分配给主题j且与单词w相同的单词个数，n()表示分ij,iij,配给主题j的所有单词个数，n()di表示极光图像的语义加强型文档d中分配到主题ij,ij的单词个数，n()di表示极光图像的语义加强型文档d中所有被分配了主题的单词i,i个数，W表示极光图像中的语义加强型文档d中不重复的单词个数。i[28,总的来说，对极光图像的语义加强型文档进行Gibbs采样迭代的步骤如下31]：万方数据第三章融合显著信息的LDA极光图像分类27(1)对于极光图像的语义加强型文档中的单词w，随机设定其所属主题z，令ii{z{1,2,...,},Ti1,2,...,}W，其中，T为主题个数，W为不重复单词总i数，该状态即为Markov链的初始状态；(2)从1循环到W，根据式(3-7)将词汇分配给某个主题，获取Markov链的下一个状态；(3)迭代第(2)步足够次数以后，认为Markov链接近目标分布，遂取z的当前i值作为样本记录下来；(4)统计每篇文档中的单词分配到各个主题的次数即完成SI-LDA表示。3.4实验结果与分析实验一：基于LDA的极光图像分类实验本实验采用经典的LDA模型对极光图像进行建模，选择不同的主题大小对极光图像进行分类实验，字典大小选择词袋模型最优字典大小，即400，实验结果如下。图3.5至图3.8分别为主题数20至主题数为80时(间隔为20)的平均分类准确率的混淆矩阵。多弧状0.830.030.100.04辐射状0.020.790.110.08热点状0.090.100.800.00帷幔状0.040.110.010.84多弧状辐射状热点状帷幔状图3.5主题为20时极光图像4分类混淆矩阵其中，平均分类准确率为81.51%，平均训练分类时间为0.51s。万方数据 28极光图像分类与极光视频事件检测的探索研究多弧状0.860.020.090.03辐射状0.030.790.090.09热点状0.120.100.780.00帷幔状0.040.100.010.85多弧状辐射状热点状帷幔状图3.6主题为40时极光图像4分类混淆矩阵其中，平均分类准确率为82.17%，平均训练分类时间为0.97s。多弧状0.930.020.040.01辐射状0.160.720.070.06热点状0.180.080.740.00帷幔状0.130.090.000.78多弧状辐射状热点状帷幔状图3.7主题为60时极光图像4分类混淆矩阵其中，平均分类准确率为79.27%，平均训练分类时间为1.63s。多弧状0.940.010.040.01辐射状0.190.710.050.05热点状0.240.090.670.00帷幔状0.210.090.000.70多弧状辐射状热点状帷幔状图3.8主题为80时极光图像4分类混淆矩阵其中，平均分类准确率为75.36%，平均训练分类时间为2.60s。我们将不同主题下的实验结果做一对比，图3.9所示为不同主题下的平均分类准确率，图3.10为不同主题数下的平均训练分类时间。万方数据第三章融合显著信息的LDA极光图像分类298482平均80分类78准76确率(%74)727020406080主题大小图3.9不同主题下的平均分类准确率3平2.5均训练2分类1.5时间(1s)0.502040主题大小6080图3.10不同主题下的平均训练分类时间由图3.10可以看出，基于LDA表示的极光图像，在主题数为40时取得最佳分类精度，准确率高达82.17%，相较于Tophat-BoW在字典为400时的分类准确率82.87%仅下降0.7%，说明基于LDA模型能较好对极光图像进行表示。LDA模型将单词映射到主题层，从而使用隐主题对图像进行表示，达到了降维的目的，如图3.11所示为不同主题下的训练分类时间，当主题为40时，平均训练分类时间为0.97s，仅为Tophat-BoW在字典为400时的分类时间9.32s的十分之一。实验二：基于SI-LDA的极光图像分类实验本实验采用SI-LDA方法对极光图像进行特征提取，与实验一相同，选择不同的主题大小对极光图像进行分类实验，实验结果如下。图3.11至图3.14分别为主题数20至主题数为80时(间隔为20)的平均分类准确率的混淆矩阵。万方数据 30极光图像分类与极光视频事件检测的探索研究多弧状0.860.030.080.03辐射状0.020.800.090.09热点状0.090.090.820.00帷幔状0.030.110.000.85多弧状辐射状热点状帷幔状图3.11主题为20时极光图像4分类混淆矩阵其中，平均分类准确率为83.32%，平均训练分类时间为0.56s。多弧状0.900.020.060.02辐射状0.050.800.080.07热点状0.090.090.820.00帷幔状0.060.080.000.86多弧状辐射状热点状帷幔状图3.12主题为40时极光图像4分类混淆矩阵其中，平均分类准确率为84.69%，平均训练分类时间为0.93s。多弧状0.850.030.090.04辐射状0.020.770.110.10热点状0.110.110.780.00帷幔状0.040.100.010.85多弧状辐射状热点状帷幔状图3.13主题为60时极光图像4分类混淆矩阵其中，平均分类准确率为81.16%，平均训练分类时间为1.47s。万方数据第三章融合显著信息的LDA极光图像分类31多弧状0.870.030.070.03辐射状0.080.740.090.09热点状0.180.120.690.00帷幔状0.110.130.010.75多弧状辐射状热点状帷幔状图3.14主题为80时极光图像4分类混淆矩阵其中，平均分类准确率为76.16%，平均训练分类时间为2.26s。我们将基于SI-LDA的极光图像分类结果与实验一的实验结果进行对比。图3.15为不同主题下的平均分类准确率的对比，图3.16为不同主题下训练分类时间对比。8684平LDA均82SI-LDA分80类准78确76率(%74)727020406080主题大小图3.15不同主题下的疲倦乏力准确率对比3LDA平2.5SI-LDA均训2练分1.5类时1间(s)0.5020406080主题大小图3.16不同主题下的平均分类准确率对比万方数据 32极光图像分类与极光视频事件检测的探索研究由图3.15可以看出SI-LDA方法在主题为40的情况下取得最佳分类准确率，其准确率高达84.69%，相较于词袋模型与LDA模型的分类精度均有提高，由图3.16可以看出基于SI-LDA方法的训练分类时间与基于LDA方法的训练分类时间具有相似的结果。实验三：不同特征下的分类实验对比我们将基于BoW、Tophat-BoW、LDA以及SI-LDA的实验结果进行对比，均取最优分类准确率下的结果进行对比试验。图3.17与图3.18分别为这四种方法的平均分类精度与平均训练分类时间的对比直方图(直方图上的数字表示不同方法下的图像特征维数)。854084.5平84均分83.5类83400准确82.540500率(%82)81.58180.5BoWTophat-BoWLDASI-LDA图3.17不同方法下的平均分类准确率对比1450012平均10400训练8分类6时间(4s)240400BoWTophat-BoWLDASI-LDA图3.18不同方法下的平均分类准确率对比由图3.18与图3.19可以看出，基于BoW、Tophat-BoW、LDA以及SI-LDA的平均分类准确率分别为82.13%、82.87%、82.17%、84.69%，平均训练分类时间分别为13.08s、9.32s、0.97s、0.93s。各方法均体现了较好的分类效果，从而说明了：(1)BoW对极光图像建模的有效性；(2)顶帽变换用于极光图像预处理的有效性；万方数据第三章融合显著信息的LDA极光图像分类33(3)LDA方法引入隐主题层对图像进行表示，达到降维的目的；(4)SI-LDA引入显著信息加强极光图像的语义信息，提升分类精度。3.5小结本章以词袋模型自身的缺陷与不足为出发点，对隐狄利克雷模型做了详尽的特性分析，阐述了显著性检测的两个模型，对谱残差显著性检测做了详尽的特性分析。利用极光图像的谱残差显著图生成显著字典，进而生成极光图像的显著性文档，利用显著性文档对极光图像的语义信息进行加强，并结合隐狄利克雷模型，提出基于融合显著信息的LDA极光图像分类方法，以改善词袋模型用于极光图像分类的不足与缺陷，从而达到更好的分类效果。万方数据 34极光图像分类与极光视频事件检测的探索研究万方数据第四章基于感知哈希的极光视频事件检测35第四章基于感知哈希的极光视频事件检测4.1引言本文第二、三两章详细介绍了静态极光分类研究的发展现状，针对极光图像自身特点，使用不同方法对极光图像进行表征，并取得了较好的分类效果。而极光视频事件检测是极光现象研究的另一个切入点，寻找合适的方法对未知极光视频序列进行事件检测，能有效地统计各个时间段发生的事件内容，对于极光事件的预测具有重要的科学价值。信息科技飞速发展的今天，人们可以通过互联网快捷、方便地获取文本、图像以及音频视频等信息。与此同时，亦有大量的多媒体信息被人们发布，人们已经迈入一个“大数据”时代。仅以极光图像为例，我国的北极黄河站每年可捕获100多万幅极光图像，数据量的爆炸式增长可见一斑。面对海量的多媒体信息，如何安全、快捷、有效的挖掘海量数据中具有价值的信息成为当代一个重要的议题。感知哈希算法的研究可追溯到数字水印技术，感知哈希巧妙地借鉴了传统密码学以及多媒体认证技术的理念。该技术被广泛应用于图像等多媒体信息的内容识别和内容认证问题，本章着重探讨利用感知哈希算法进行极光视频事件检测。4.2感知哈希概述4.2.1感知哈希基本概念感知哈希被形象的称作是媒体感知内容的“数字指纹”，可将其定义为如下[32]单向函数：hPHI()(4-1)其中，PH是感知哈希函数，I是媒体对象，h是媒体对象I经过PH函数得到的感知哈希值。一般情形下，感知哈希值是一个二维码。感知哈希算法通过对媒体对象进行哈希编码从而得到的哈希序列，进而完成对媒体对象的内容识别。在进行哈希序列的匹配过程中，媒体对象之间的感知距离pd则是通过匹配函数PM计算得到的，如式(4-2)所示。pdPMhh(,)(4-2)ijij其中，hi和hj分别为两个媒体对象的感知哈希值。通过计算汉明距离、欧式距离等可获得两个媒体对象的感知距离。万方数据 36极光图像分类与极光视频事件检测的探索研究感知距离具体是指不同的媒体对象之间内容差异性的一种检测结果。作为一种距离的检测结果，感知距离应该满足以下条件：pdCiipdpd(4-3)ijjipdpdpdijikjk其中，C是常量，即任何一个媒体对象与其本身的感知距离应该是常量。一般情况下，C=0，而且pd0。感知哈希算法相较于其他方法具有以下特性：(1)摘要性：媒体对象的感知哈希值所占用的存储空间很小；(2)单向性：即不可从媒体对象的感知哈希值反推媒体对象的感知内容；(3)鲁棒性：感知内容相同或相近的媒体对象应该映射得到相同或相近的感知哈希值，感知内容不同的媒体对象应该映射得到差异性较大的感知哈希值。4.2.2多媒体哈希技术多媒体哈希(MultimediaHash)是通过对媒体对象进行一定程度的压缩之后，通过简短的字符或序列的形式反映媒体对象自身特性的重要特征。媒体对象的感知哈希序列与媒体对象本身一一对应，通过哈希编码可以唯一地寻找到其所代表的数字媒体对象，因而被认为是数字媒体的“指纹”。与基于内容的图像检索技术相似，对媒体对象进行的哈希编码同样需要对媒体对象完成特征提取。但两者仍存在微妙的不同，单纯地查询与媒体内容相似的媒体才是基于内容的图像检索技术的主要目的，而并非是寻找原媒体对象的复制品。研究基于多媒体对象的感知哈希算法具有重要的意义，而图像为多媒体中不可或缺的组成部分，因而在研究对多媒体对象进行哈希编码之前，我们先来了解图像哈希技术。图像哈希技术通过字符或序列的形式对图像进行表达，也就是说图像的哈希编码是建立在图像内容的基础上对图像进行压缩的一种表现形式。但是与其他图像压缩算法不同的是，通过一幅图像的哈希序列并不能获得其所代表的原图像。因此从这个角度来说，研究图像哈希就是寻找一种针对图像的不可逆的压缩技术。图4.1为图像的哈希序列的生成示意图，左边为标准测试图像，将其作为感知哈希算法的输入后，得到的就是该图像对应的哈希序列。万方数据第四章基于感知哈希的极光视频事件检测37哈希函数0100...1011图像哈希值图像图4.1图像哈希生成示意图4.2.3感知哈希在图像检索领域的应用基于内容的图像检索是当下常用的一种经典的图像检索技术，该技术可基于[33][34][35][36]图像的颜色特征、纹理特征、边缘特征和形状等内在特征。而图像的哈希编码则是建立在图像内容的基础上对图像进行压缩的一种表现形式，对图像的内在特征同样能够进行提取，从这个角度讲，感知哈希可被用于图像检索，属于图像检索技术的一种。感知哈希与经典图像检索技术的完成过程有所不同。图像检索技术完成的过程归根结底是要在一定的检索条件下，根据图像本身的内容或检索标准在图像库中检索出我们所需要的图像。而感知哈希算法完成的则是一个图像进行某种程度上的压缩，并将图像经过压缩后的表现形式应用于我们的一些检索需求。另外两者用于图像检索得到的检索结果也不尽相同，感知哈希算法用于图像检索得到的大多是一些宏观内容相似的图像，而经典的图像检索技术得到结果往往属于内容细节相似。因此，经典的图像检索技术能够检索的范围虽然包含感知哈希算法的检索范围，但也会使得检索结果中包含大量与查询图像的细节内容相似的图像，其算法一般也较为复杂，检索效率较低。此时，感知哈希算法的优势则开始凸显，更小的检索范围带来的是更高的检索效率。通过文本内容搜索与之相关的图像的技术已经较为成熟，谷歌(Google)、必应(Bing)等大型搜索引擎公司也早已经将该技术付诸于实际应用。但基于文本搜索图像的方法需要对海量图像进行人工标记文本信息，并分门别类。从而花费大量的人力、物力、财力，其成本过于高昂。于是以图搜图的方法便应运而生。2011年6月，谷歌把“以图搜图”正式融入其搜索引擎。我们可以用一张图像搜索到在互联网上的与之相似的图像和与之相关的信息。如图4.2所示，点击搜索框中照相机的图标，则会出现如图4.3所示的对话框。万方数据 38极光图像分类与极光视频事件检测的探索研究图4.2Google图像搜索首页图4.3Google图像对话框粘贴图像网址或者直接上传图像，Google就会替你找出与之相似的图像。下面我们来做一个实验。图4.4为TobiiGlasses眼动仪，我们将其文件名修改为——图像.jpg，防止Google利用文本信息搜索图像，我们将该图像上传后，最终搜索结果如图4.5所示。图4.4TobiiGlasses眼动仪图4.5搜索结果万方数据第四章基于感知哈希的极光视频事件检测39实验表明，谷歌“以图搜图”这一功能是快捷而有效的。而实现这一功能的[37]核心技术便是感知哈希算法。NealKrawetz博士解释道，一幅图像的高频部分对应图像的细节信息。相反，一幅图像的低频部分对应图像的结构信息。从而我们可以得出一幅尺寸较大且具有很多细节的图像就包含很多的高频信息，一幅很小的图像便缺乏细节信息，即基本仅具有低频信息。对图像进行平均感知哈希算法(AverageHashAlgorithm)，从而求得图像的“数字指纹”，比较图像的数字指纹的相似度，“数字指纹”越接近，就说明图像越相似，即可达到以图搜图的目的。下面给出平均哈希算法(AverageHashAlgorithm)的实现，流程图如图4.6所示：(1)缩小图像尺寸。将图像的尺寸缩小至88，一共64个像素。通过这一步骤，可以保留图像内容的基本信息，并且摒弃其细节信息，亦可消除由于图像的尺寸、比例不同而带来的差异。(2)降低图像灰度范围。将缩小后的图像，转为64级灰度。也就是说，所有像素点总共只有64种灰度，近一步消除图像的细节信息。(3)计算灰度平均值。对第(2)步中所有64个像素的灰度值加和求平均。(4)比较像素灰度值。用图像中所有像素点的灰度值分别与第(3)步中的灰度平均值进行比较，当前者大于或等于后者时，将该像素点标记为1，反之标记为0。(5)生成哈希值。将第(4)步所计算出的结果排列组合在一起构成一个64位的二维码，这个二维码就是这张图像的“数字指纹”。排列组合的次序并不重要，只要保证所有图像都采用同样次序就行了。8×864灰度级比较均(二值化)值哈希值图4.6一种图像感知哈希的实现流程图万方数据 40极光图像分类与极光视频事件检测的探索研究得到图像的哈希码后，就可以利用感知距离来度量图像之间的相似度，即求不同图像哈希码之间的汉明距离，该距离越小，说明图像内容相似。反之，该距离越大，图像内容则差异较大。上述感知哈希算法的第一步为缩小图像尺寸，从而可消除不同尺寸，不同比例的图像差异，但是将图像压缩至64个像素会大幅度丢失图像的细节内容，而极光图像类与类之前也具有很大的相似性，如图4.7所示，图(a)为弧事件，图(b)为辐射事件，(a)、(b)分别求哈希值后具有相似的结果。(a)(b)图4.7感知哈希实例其原因也是显而易见的，正是因为平均感知哈希算法的第一步将图像过分压缩，使图像细节损失较大，且不同类别的极光本身又具有一定的相似性。故我们将上述平均感知哈希算法进行改进，其步骤如下，流程图如图4.8所示。(1)缩小图像尺寸。将图像的尺寸缩小到1616，一共256个像素。相较于64个像素的压缩，保持了图像更多的细节。(2)计算灰度平均值。计算所有256个像素的灰度平均值。(3)比较像素灰度值。将每个像素的灰度与第(2)步中的灰度平均值进行比较。大于或等于平均值，记为1；小于平均值，记为0。(4)生成哈希值。将第(3)步的比较结果，组合在一起，就构成了一个256位的二维码，这就是这张图像的哈希值。万方数据第四章基于感知哈希的极光视频事件检测4116×16比较(二值化)均值哈希值图4.8一种图像感知哈希的实现流程图我们将图4.7的(a)、(b)两图利用改进后的感知哈希求哈希值，如图4.9所示。(a)(b)图4.9改进后的感知哈希实例由图4.9我们可以看出，经过改进后的感知哈希相较于原方法，更大程度地保持了图像的细节信息，从而可以使得不同极光事件得以区分。4.3基于感知哈希的极光视频事件检测4.3.1基于感知哈希的极光视频事件检测步骤上一节讨论了感知哈希算法的基本概念和在图像检索领域的应用，并且介绍了平均感知哈希算法，本节将利用该算法，进行极光视频事件检测。基于感知哈希的极光视频事件检测主要包括以下步骤：(1)获取待测极光视频的哈希值。利用感知哈希算法获取待测极光视频每一帧的图像哈希值；(2)获取标准事件库中极光图像的哈希值。万方数据 42极光图像分类与极光视频事件检测的探索研究利用感知哈希算法获取标准事件数据库中的图像哈希值(标准数据库包括4个事件，即弧事件、辐射事件、热点事件以及帷幔事件，每个事件均有800幅图像)。(3)哈希值对比。将待测序列中的每一帧哈希值均与标准事件库中的极光图像的哈希值求汉明距离，从而在标准数据库中找出与待测帧最相似的图像。(4)统计事件。统计每一帧的事件内容，从而完成极光视频事件检测。4.3.2节将使用改进后的感知哈希算法对极光视频事件进行检测，并对检测结果做详细分析。4.3.2实验结果与分析实验一：基于原始平均感知哈希的极光视频事件检测利用原始平均感知哈希算法法，对2003年12月23日3点至15点的极光视频进行事件检测。由于检测的极光视频时间持续较长，故以1小时作为一个单位进行实验，直观起见，不同事件同时使用不同高度不同颜色的直方图进行表示(红色表示弧事件，蓝色表示辐射事件，紫红色表示热点事件，绿色表示帷幔事件。)，每次实验均同时给出检测结果(上)与手工标记结果(下)，手工标记严格按照弧事件、[38]辐射事件、热点事件以及帷幔事件的定义进行标注。弧事件：包含一个或者多个极光弧；辐射事件：极光由中心向四周发散；热点事件：包含辐射状结构，具有瞬间强光光束，以及点状或不规则状光斑；帷幔事件：包含多条东西走向的射线带，轮廓不清晰，射线结构呈多层重叠排列。实验结果如图4.10至图4.21所示。帷幔事件热点事件辐射事件弧事件03:0003:1003:2003:3003:4003:5004:00弧事件03:0003:1003:2003:3003:4003:5004:00图4.103点至4点的事件检测结果其中，检测正确率为70.56%。万方数据第四章基于感知哈希的极光视频事件检测43帷幔事件热点事件辐射事件弧事件04:0004:1004:2004:3004:4004:5005:00帷幔事件热点事件辐射事件弧事件04:0004:1004:2004:3004:4004:5005:00图4.114点至5点的事件检测结果其中，检测正确率为60.28%。帷幔事件热点事件辐射事件弧事件05:0005:1005:2005:3005:4005:5006:00辐射事件弧事件05:0005:1005:2005:3005:4005:5006:00图4.125点至6点的事件检测结果其中，检测正确率为60.00%。帷幔事件热点事件辐射事件弧事件06:0006:1006:2006:3006:4006:5007:00帷幔事件热点事件辐射事件弧事件06:0006:1006:2006:3006:4006:5007:00图4.136点至7点的事件检测结果其中，检测正确率为58.89%。帷幔事件热点事件辐射事件弧事件07:0007:1007:2007:3007:4007:5008:00帷幔事件热点事件辐射事件弧事件07:0007:1007:2007:3007:4007:5008:00图4.147点至8点的事件检测结果其中，检测正确率为48.89%。万方数据 44极光图像分类与极光视频事件检测的探索研究帷幔事件热点事件辐射事件弧事件08:0008:1008:2008:3008:4008:5009:00辐射事件弧事件08:0008:1008:2008:3008:4008:5009:00图4.158点至9点的事件检测结果其中，检测正确率为58.06%。帷幔事件热点事件辐射事件弧事件09:0009:1009:2009:3009:4009:5010:00帷幔事件热点事件辐射事件弧事件09:0009:1009:2009:3009:4009:5010:00图4.169点至10点的事件检测结果其中，检测正确率为73.33%。帷幔事件热点事件辐射事件弧事件10:0010:1010:2010:3010:4010:5011:00帷幔事件热点事件辐射事件弧事件10:0010:1010:2010:3010:4010:5011:00图4.1710点至11点的事件检测结果其中，检测正确率为65.83%。帷幔事件热点事件辐射事件弧事件11:0011:1011:2011:3011:4011:5012:00弧事件11:0011:1011:2011:3011:4011:5012:00图4.1811点至12点的事件检测结果其中，检测正确率为65.00%。万方数据第四章基于感知哈希的极光视频事件检测45帷幔事件热点事件辐射事件弧事件12:0012:1012:2012:3012:4012:5013:00弧事件12:0012:1012:2012:3012:4012:5013:00图4.1912点至13点的事件检测结果其中，检测正确率为69.17%。帷幔事件热点事件辐射事件弧事件13:0013:1013:2013:3013:4013:5014:00帷幔事件热点事件辐射事件弧事件13:0013:1013:2013:3013:4013:5014:00图4.2013点至14点的事件检测结果其中，检测正确率为41.11%。帷幔事件热点事件辐射事件弧事件14:0014:1014:2014:3014:4014:5015:00帷幔事件热点事件辐射事件弧事件14:0014:1014:2014:3014:4014:5015:00图4.2114点至15点的事件检测结果其中，检测正确率为60.56%。由实验结果可以看出，在各个时间段基于原始平均感知哈希算法的极光事件检测结果并不理想，最高检测精度仅为73.33%，正是因为平均感知哈希算法的第一步将图像过分压缩，使图像细节损失较大，且不同类别的极光本身又具有一定的相似性。故我们将改进后的平均感知哈希算法应用于极光视频事件检测。实验二：基于改进后的平均感知哈希的极光视频事件检测与实验一步骤相同，利用改进后的平均感知哈希算法对2003年12月23日3点至15点的极光视频进行事件检测。同样以1小时作为一个单位进行实验，不同事件同时使用不同高度不同颜色的直方图进行表示(红色表示弧事件，蓝色表示辐万方数据 46极光图像分类与极光视频事件检测的探索研究射事件，紫红色表示热点事件，绿色表示帷幔事件。)，每次实验均同时给出检测结果(上)与手工标记结果(下)实验结果如图4.22至图4.33所示。帷幔事件热点事件辐射事件弧事件03:0003:1003:2003:3003:4003:5004:00弧事件03:0003:1003:2003:3003:4003:5004:00图4.223点至4点的事件检测结果其中，检测正确率为89.72%。帷幔事件热点事件辐射事件弧事件04:0004:1004:2004:3004:4004:5005:00帷幔事件热点事件辐射事件弧事件04:0004:1004:2004:3004:4004:5005:00图4.234点至5点的事件检测结果其中，检测正确率为73.89%。帷幔事件热点事件辐射事件弧事件05:0005:1005:2005:3005:4005:5006:00辐射事件弧事件05:0005:1005:2005:3005:4005:5006:00图4.245点至6点的事件检测结果其中，检测正确率为73.89%。万方数据第四章基于感知哈希的极光视频事件检测47帷幔事件热点事件辐射事件弧事件06:0006:1006:2006:3006:4006:5007:00帷幔事件热点事件辐射事件弧事件06:0006:1006:2006:3006:4006:5007:00图4.256点至7点的事件检测结果其中，检测正确率为75.83%。帷幔事件热点事件辐射事件弧事件07:0007:1007:2007:3007:4007:5008:00帷幔事件热点事件辐射事件弧事件07:0007:1007:2007:3007:4007:5008:00图4.267点至8点的事件检测结果其中，检测正确率为78.61%。帷幔事件热点事件辐射事件弧事件08:0008:1008:2008:3008:4008:5009:00辐射事件弧事件08:0008:1008:2008:3008:4008:5009:00图4.278点至9点的事件检测结果其中，检测正确率为79.72%。帷幔事件热点事件辐射事件弧事件09:0009:1009:2009:3009:4009:5010:00帷幔事件热点事件辐射事件弧事件09:0009:1009:2009:3009:4009:5010:00图4.289点至10点的事件检测结果其中，检测正确率为87.22%。万方数据 48极光图像分类与极光视频事件检测的探索研究帷幔事件热点事件辐射事件弧事件10:0010:1010:2010:3010:4010:5011:00帷幔事件热点事件辐射事件弧事件10:0010:1010:2010:3010:4010:5011:00图4.2910点至11点的事件检测结果其中，检测正确率为73.89%。帷幔事件热点事件辐射事件弧事件11:0011:1011:2011:3011:4011:5012:00弧事件11:0011:1011:2011:3011:4011:5012:00图4.3011点至12点的事件检测结果其中，检测正确率为91.67%。帷幔事件热点事件辐射事件弧事件12:0012:1012:2012:3012:4012:5013:00弧事件12:0012:1012:2012:3012:4012:5013:00图4.3112点至13点的事件检测结果其中，检测正确率为70.00%。帷幔事件热点事件辐射事件弧事件13:0013:1013:2013:3013:4013:5014:00帷幔事件热点事件辐射事件弧事件13:0013:1013:2013:3013:4013:5014:00图4.3213点至14点的事件检测结果其中，检测正确率为56.67%。万方数据第四章基于感知哈希的极光视频事件检测49帷幔事件热点事件辐射事件弧事件14:0014:1014:2014:3014:4014:5015:00帷幔事件热点事件辐射事件弧事件14:0014:1014:2014:3014:4014:5015:00图4.3314点至15点的事件检测结果其中，检测正确率为71.11%。我们对这12个小时的极光视频事件检测结果做一总结，如表4.1所示。表4.1极光视频事件检测结果时间发生事件原始检测精度(%)改进后检测精度(%)3:00-4:00弧70.5689.724:00-500弧、辐射、热点、帷幔60.2873.895:00-6:00辐射60.0071.396:00-7:00辐射、帷幔58.8975.837:00-8:00辐射、帷幔48.8978.618:00-9:00辐射58.0679.729:00-10:00辐射、热点73.3387.2210:00-11:00弧、辐射、热点65.8373.8911:00-12:00弧65.0091.6712:00-13:00弧69.1770.0013:00-14:00弧、热点41.1156.6714:00-15:00弧、帷幔60.5671.11通过表4.1可以看出，算法经过改进后，各个时间段的检测精度均有较大幅度的提高，尤其是当有弧事件发生时具有较高的检测精度，最高可达到91.67%。从而验证了方法改进后的有效性。由于辐射事件、热点事件以及帷幔事件均属于冕事件，故我们将有弧事件发生的时间段给出弧、冕检测精度，如表4.2所示。由表4.2中3:00-4:00、4:00-5:00、10:00-11:00以及11:00-12:00时间段可以看出，基于感知哈希的极光视频事件检测能较好检测弧事件。万方数据 50极光图像分类与极光视频事件检测的探索研究表4.2极光视频事件弧冕检测结果时间发生事件检测精度(%)弧/冕检测精度(%)3:00-4:00弧89.7289.724:00-500弧、辐射、热点、帷幔73.8982.505:00-6:00辐射71.39/6:00-7:00辐射、帷幔75.83/7:00-8:00辐射、帷幔78.61/8:00-9:00辐射79.72/9:00-10:00辐射、热点87.22/10:00-11:00弧、辐射、热点73.8984.7211:00-12:00弧91.6791.6712:00-13:00弧70.0070.0013:00-14:00弧、热点56.6766.3914:00-15:00弧、帷幔71.1171.11而12:00-13:00、13:00-14:00以及14:00-15:00这三个时间段也均有弧的发生，但是检测精度却不尽人意，我们逐一详细分析检测精度不高的原因。由图4.31可以看出，该段时刻仅有弧事件发生，12:03-12:20与12:40左右的时间段检测结果有误，将弧事件误检测为热点事件。这是由于该段时刻发生的弧事件亮度较高且具有短小的弧段，具有热点事件的特点，如图4.34所示。图4.34误检为热点事件的弧事件的关键帧由图4.32可以看出，13:00-14:00各个时间段均有大量误检，该段的检测精度仅为56.67%，其弧、冕检测精度也仅为66.39%。这是由于该时间段的极光视频数据发生了“过曝光”现象，如图4.35所示。万方数据第四章基于感知哈希的极光视频事件检测51图4.35过曝光关键帧由图4.35可以看出“过曝光”使得图像整体亮度过高，导致极光形态难以辨别，掩盖了图像的细节信息。故该时间段具有较差的检测精度。由图4.33可以看出，12:40-15:00的帷幔事件被误检测为弧事件，这是因为图像左下方发生“过曝光”现象，该处的过曝光现象正好类似于一个极光弧，从而导致检测错误，该现象在人眼手工标注时都极易误判。图4.36所示为“弧状”过曝光现象。图4.36“弧状”过曝光关键帧实验三：多天数据下的极光视频事件检测我们进一步给出多天的极光视频检测结果以验证本文算法的有效性，我们均对每一天3:00至15:00时间段的极光进行事件检测，由于极光发生时间不一以及拍摄设备等因素的影响，每一天的有效帧数会有所不同。详细结果如表4.3所示。表4.3极光视频事件弧冕检测结果日期有效帧数检测精度(%)03.12.19289280.3503.12.21432079.9103.12.22432081.8303.12.24180077.2103.12.25396084.29由本节实验结果可以看出，利用感知哈希算法对极光视频进行事件检测具有较高检测精度。从微观(1个小时)至宏观(1天12个小时)均具有较好的检测效果。万方数据 52极光图像分类与极光视频事件检测的探索研究4.5小结本章以极光视频事件检测为出发点，结合海量极光数据这一背景，阐述了感知哈希算法的概念，详尽分析感知哈希在图像检索领域的应用。介绍了平均感知哈希算法流程并根据极光图像特性对该方法做了改进，利用感知哈希算法对极光视频事件进行事件检测。实验证明了基于感知哈希算法的极光视频事件检测的有效性。但是，本文使用的感知哈希算法仍具有一定局限性，即图像细节仍有较大损失，寻求更佳的哈希函数对极光图像进行表示可以有效的提高事件检测效率和检测精度；进行事件检测时，对标准数据库的依赖过高，再加上极光事件形态各异，故完善标准数据库也是今后一个重要的课题；根据极光序列自身信息进行事件检测也是今后在该领域研究的一个重要方向。万方数据第五章总结与展望53第五章总结与展望5.1总结极光不仅可以促进旅游业，而且影响着无线电通信、长光缆通信，气候，甚至影响生物学过程。极光潜移默化地影响着人类的生活，故对极光现象的研究具有重要的科学价值。极光形态万千且极光形态的变化揭示了大气活动和太阳对地球影响的方式和程度，极光图像分类以及极光视频事件检测是极光现象研究的切入点，故有效利用海量极光图像，通过机器学习与计算机视觉的方法开发智能的极光图像分类系统和极光视频事件检测系统，对极光现象的研究具有重要意义。本文利用数字图像处理技术对极光图像分类与极光视频事件检测两方面进行探索研究。结合极光图像自身特点，提出使用顶帽变换对极光图像进行预处理，并且使用词袋模型对极光图像进行特征提取，实验证明该方法具有良好的分类效果。为了进一步改善分类效果，本文以词袋模型自身不足为切入点，结合显著性检测方法以及主题模型，提出一种融合显著信息LDA极光图像分类方法，进一步改善了极光图像分类效果。最后利用感知哈希算法对极光视频事件进行检测，取得了较好的检测结果。现将文本所做工作作如下总结：(1)首先将顶帽变换(Top-hat)方法应用于极光图像的预处理，并针对极光图像的纹理和结构特点，深入分析BoW模型，提取极光图像的BoW特征进行分类实验，实验结果表明，该特征能够取得较好的分类效果。在极光图像拍摄的过程中，由于拍摄设备暗电流以及大气层的影响，极光图像存在亮度不均匀的现象，本文提出通过对极光图像进行顶帽变换来改善这一现象。而极光作为一种特殊的现象，其形状特征并不固定。因而，很多现有的特征提取和分类算法对之失效。而BoW(BagofWords)模型将图像库看成文档库，一幅图像看做一篇文档。提取图像特征后，在BoW模型中，视觉单词具有区分性和代表性，因此，该方法有较好的鲁棒性并且可以抑制一定的噪声干扰。但该模型仅将图像看成是若干个视觉单词的集合。实验表明，该特征取得了良好的分类效果。(2)在深入研究了隐狄利克雷分配模型LDA的基础上，将其应用于极光图像分类当中。提出了融合显著信息的LDA极光图像分类方法(SI-LDA)，并取得了良好的分类效果。由于经过BoW提取的图像特征往往是高维的，并且没有包含人的视觉注意机制，针对这两个缺陷，本文在深入探讨LDA(LatentDirichletAllocation)模型同时，深入分析图像的显著性检测理论，使用谱残差(SpectralResidual,SR)方法获取极光万方数据 54极光图像分类与极光视频事件检测的探索研究图像的显著图并用其生成字典，从而加强极光图像的语义信息，提出一种融合显著信息的隐主题方法(SI-LDA)，从而达到更佳的极光图像分类效果。(3)系统研究了感知哈希的相关理论，提出了基于感知哈希算法的极光视频事件检测方法，并取得了良好的检测效果。详细分析了其发展及在图像检索领域的应用，针对极光视频事件检测这一领域，本文提出利用感知哈希算法进行极光视频事件检测。实验证明该方取得了良好的检测效果。5.2展望本文对极光图像分类与极光视频事件检测两个方面进行探索与研究，并且通过实验取得了较好的分类效果，实现了极光视频事件检测的目的。但是仍然存在一些可以改进以及需要完善的地方，现对本文的不足之处做一总结，从而对今后的探索研究提供一些参考。(1)使用词袋模型对图像进行建模的过程中，每幅图像会产生大量SIFT特征，且SIFT特征维数较高，这就导致使用K-means聚类生成字典时需要花费大量的时间，进行适当的特征选择或是找到更加有效的特征描述方法可以减少庞大的数据运算量并且提高分类精度。(2)本文使用极光图像的显著图生成显著视觉文档，从而加强极光图像的语义信息，提供了一种加强文档语义信息的新思路。可以寻求极光其他特征(如纹理特征)对语义信息进行加强，从而达到更佳的分类效果，这也是一个值得探索的研究方向。(3)本文利用感知哈希算法对极光视频事件进行检测，获得了高效准确的事件检测结果。寻求更佳的哈希函数对极光图像进行表示可以有效的提高事件检测效率和检测精度。该方法对标准数据库的依赖过高，再加上极光事件形态各异，故完善标准数据库也是今后一个重要的课题。另外，根据极光序列自身信息进行事件检测也是今后在该领域研究的一个重要方向。万方数据致谢55致谢时光飞逝，一转眼两年半的研究生生活即将结束。在这毕业之际，我要对在硕士期间给我学业和生活上提供帮助与关怀的亲友、老师和同学表达最诚挚的谢意。首先，衷心感谢我的父母，感谢他们对我的养育与栽培，他们一直在背后默默的支持我，在我获得成绩时为我高兴，在我失落时替我加油打气。感谢父母给予我的爱与理解。由衷感谢我的导师高新波教授。高老师渊博的学识、严谨的治学态度以及高尚的人格魅力均深深地影响了我，使我受益终身。高老师为我们提供了一个非常优越的学习环境，使得我们能专心地学习与科研。不仅如此，高老师还为我们创造了许多学习交流的机会，邀请国内外著名学者来实验室作专题报告，极大的丰富了我们的课余生活，通过与学者专家交流讨论，开阔了思维，增长了见识。从高老师那里学到的不仅仅是学习科研的方法，更是做人做事的道理。在此谨向我的导师高新波教授表达最诚挚的谢意。感谢极光组组长韩冰老师，在这近三年的时间里，韩老师一直尽心尽力地指导着我的学习与科研工作，她总是在我迷茫的时候给我鼓励，在我走弯路的时候给我指引方向。韩老师严格的要求以及严谨的学风促使我一步一个脚印地成长，让我硕士生涯充实并富有活力。感谢极光组的同窗，他们是杨曦、仇文亮、赵晓静、廖谦、刘慧、王秀梅、王平以及宋亚婷。我们一同学习、一同生活、一同成长。通过讨论交流，总能将学习科研中所遇到的困难解决。感谢各位同学给予我的无私帮助，让我拥有一段值得回忆的美好时光。最后，我要向在百忙之中评审该论文的老师表达最诚挚的谢意。万方数据 56极光图像分类与极光视频事件检测的探索研究万方数据

极光图像分类与极光视频事件检测的探索分析

极光图像分类与极光视频事件检测的探索分析

资料简介

你可能关注的文档

推荐资源

天天课堂