奈盗条鱿器拢戮瓷凰器笼兴
尹`尹,了
硕士学位论文
基于云计算环境的
数据挖掘算法研究
作者导师
李雪锋陈旭东
北京交通大学年月
学位论文版权使用授权书本学位论文作者完全了解北京交通大学有关保留、使用学位论文的规定。特授权北京交通大学可以将学位论文的全部或部分内容编入有关数据库进行检索,提供阅览服务,并采用影印、缩印或扫描等复制手段保存、汇编以供查阅和借阅。同意学校向国家有关部门或机构送交论文的复印件和磁盘。保密的学位论文在解密后适用本授权一说明
学位论文储签“夕烤峰签字日期》扣年`月”日
导师签名陈建七签字日期如“年月日
中图分类号
学校代码密级公开
北京交通大学硕士学位论文基于云计算环境的数据挖掘算法研究
作者姓名
李雪锋
学
号
导师姓名学位类别学科专业
陈旭东工学计算机科学与技术
职
称
高级工程师硕士分布式计算
学位级别研究方向
北京交通大学
致谢基于云计算环境的数据挖掘算法研究的工作是在我的导师陈旭东老师的
悉心指导下完成的。陈旭东老师严谨的治学态度和科学的工作方法对我研究工作产生了极大的影响和帮助。在此衷心感谢两年来陈旭东老师对我的关心和指导。陈旭东老师悉心指导我们完成了实验室的科研工作,在学习上和生活上都给予了我很大的关心和帮助,并在理论研究工作之余鼓励我参加公司的实习工
作,使我的应用开发能力得到提高。在此向陈旭东老师表示衷心的谢意。徐保民老师对于我的科研工作和论文都提出了许多的宝贵意见,在此表示衷心的感谢。
在和论文中的激之情。
公司实习工作及撰写论文期间,
的很多同事对我研究
系统搭建和开发工作给予了热情帮助,在此向他们表达我的感
另外也感谢我的家人,他们的理解和支持使我能够在学校专心完成我的学业。
摘目前,单一
任石
节点的计算能力已经发展到一个瓶颈,而利用云计算技术,
人们可以方便的通过网络获取强大的计算能力、存储能力以及基础设施。因此将消耗大量计算资源的复杂计算通过网络分布到多节点上进行计算的方式成为了新的有效的解决方案。
认弋数据挖掘是从据挖掘方法。研怂
亡超链接、网页内容和使用日志中探寻有用的信息的数是亡数据挖掘中非常重要的用来描述信息的数据
结构。这种数据结构在协范页面爬取、搜索引擎结果排序以及社交
网络等应用中更是有着非常广泛的应用。论文针对了认尾数据挖掘中叩的算法在云计算环境中进行研究。论文介绍数据的获数据结构,搭建了云计算环境,提出社交网站用户数据论文同时设计并优化了
取方案,并使用力导向算法形象描述
直径的计算算法,并利用云计算环境进行了算法功能和性能测试,测试结果表明在集群中部署分布式算法,可以显著提高叩数据挖掘的效率。论文研究成果
在搜索引擎以及社交网络分析领域具有较高的应用价值。关键词云计算集群叭陌挖掘算法社交网络
分类号
」匕京
交
通
人
学
硕
学
位
沦
文
,
,,,
,
尾一亡,亡叭,,
亡一
一
亡一,,一朴
亡
目录摘要……,…………`
引一言
……,
……
云计算和协尾数据挖掘技术云计算……,
……,……、
…………
云计算的分类和特点,云计算的应用场景云计算技术的研究现状云计算的关键技术
………………,……
数据存储领域的核心技术数据管理领域的关键技术编程模型领域的关键技术二,七数据挖掘概述及其应用…,社交网络服务数据的获取与展示……、……、
…………,…………………………、…………
挖掘的数据结构和存储方案算法使用的数据结构认数据的存储方式数据的抓取…、
………………,…………
申请
应用程序……,……,
……,
开发本章总结…,
应用程序获取用户关系……,……、……、
……,
…………
叩数据的形象化展示
……
挖掘算法
……、……,的直径……,
……,…………………………,……,…,,…………,……
直径求解算法设计、算法思想分析算法的优化实现算法的性能分析
比
京
交
通
大
学
硕
十
学
位
论
文
本章总结
……
算法仿真实验与应用分析平台的搭建
……,……,
…………
厂卜台与单节点
算法环境的搭建
………………
多节点分布式运行
基于
的
开发环境
………………,二……………………
算法的仿真和性能测试传统单节点环境的图直径求解实验集群环境中算法的应用本章总结总结和展望……,
算法的实验
……、
参考文献
……
作者简历独创性声明学位论文数据集
………………
七京
交
通
大
学
硕
士
学
位
论
引言云计算无疑是近年来最热门的技术类名词。但云计算并不是一种具体技术,
它代表了一种基于互联网获取资源和服务的崭新的计算形态。云计算的重要特点之一就是面向海量数据和复杂计算过程的
计算任务,因此云计算在科研、医疗、通信、天文、地质勘测以及社会科学等等很多领域有着巨大的应用价值。过去几十年里,阳的迅速发展使其成为世界上规模最大的公共数据源,研几中存储的信息数据量非常巨大,信息单元彼此有着各异的结构和组成,且每时每刻都可能发生变化。为了更好的收集、分析处理这庞大的、异构的并且动态的数据,研触数据挖掘作为一个新的概念被提出来。研几数据挖掘是从角超链接、网页内容和使用日志中探寻有用的信息的数据挖掘方法。依据在挖掘过程中使用的数据类别,研触数据挖掘的任务可以被划分为三种主要类型研阳结构挖掘、
研阳内容挖掘和研几使用挖掘。研胎结构挖掘从表征认陌结构的超链接中寻找有意义的信息。研怂内容挖掘从网页内容中抽取有用的信息。而叭尾使用挖掘则从
记录每位用户访问情况的使用日志中挖掘用户的访问模式等信息。在掘和
七内容挖
陌结构挖掘中,为了更好的存储和表达几页面以及页面之间的关系的信
息,在研究过程中引入了图论中的一些数据结构,在叭陌数据挖掘中统称为研角。
图论分析的是成对元素之间的相互关系的模式,以图的形式表达,图就是点和线的集合。在图中,通常用点代表行动者或者事物,用连接两点之间的线表示两者的关系。对研触网络模型的分析过程,可以抽象为图论中对于要指标即结构的分析。图论中的一些重要指标和参数在研触数据挖掘中也具有重要意义。例如图论中的重层次指标、总体地位、地位分化、中心度、整合、单极性、度、维度、地位、点中心度、跨度、范围、密度、可达性等等。
强度、关联度、一般可达性、短程线平均长度、连通性、聚类性等等。节点和边也有一些重要指标链接分析是节陌数据挖掘的重要应用场景之一。著名的搜索引擎算法
和
就是基于链接分析理论设计出来的。此外,链接分析还在社会即的分析同样都是基于图论算法的。因此,可以
关系网分析、学术出版物引用分析以及社区群体的发现等领域有着广泛的应用。社交网络的链接分析和研阳加广泛适用性的解决方案。但是当社会网络中个体和团体的数量达到海量数量级的时候,传统的对于把这两类问题抽象成为对一定构成的节点和边的图的分析,从而可以得到具有更
夕
韭
京
交`通
大
学
硕
十
学
位
论
文
引
言
问
题的求解算法就无法完成对海量数据网络的分析任务了。因此,解决此类问题需要依赖云计算强大的计算能力。论文在阅读大量分布式计算、并行计算以及数据挖掘等领域的资料的基础匕对前人的研究成果进行总结,并在数据的可视化展示和结构重要参标记语数数的数据挖掘方面提出创新算法。论文提出利用基于文档数据的言描述结构的数据,用于表示大型社交网络用户群体网络,并为论文在
据提供了基于力导向算法的可视化展示方案
数据挖掘算法领域进
行大胆创新,为了解决传统数据挖掘算法的顺序性和云计算的计算模型的并发性的矛盾,论文专门为传统亡挖掘问题设计新的解决思路,提出基于
计算模型的并行算法,此算法可以在大型集群环境中并行执行,充分利用集群的计算资源论文还在算法设计的基础上,进行算法复杂度分析,并设计实验验证了新型算法相对于传统算法的性能提升,以数据证明了云计算带来的强大的计算能力,并在实验基础上提出对重要参数直径的收敛性的预测亡或社最后论文对算法的应用场景进行了预测和分析,提出此算法可用于处理交网络这类
结构的数据,更好的解决搜索引擎以及社会化网络等诸多领域
中海量
数据分析的问题。
论文分为六章。
第一章为引言,对论文的主要内容和工作重点做概要介绍。第二章介绍云计算、第三章设计亡
七数据挖掘以及社交网络应用等领域的关键技术。信息的数据结构和存储方式,七数据挖掘的数据的
获取方法,并提出了基于力导向算法的
数据的可视化展示算法。
第四章针对传统几数据挖掘问题提出了新的解决思路,设计了基于并行计算模型的求解直径的算法,使算法能够在大型集群环境中并发执行,同时提出算法的改进方案,对算法的时间和空间复杂度进行了分析。第五章搭建了用于算法开发和仿真运行的云计算环境,使第四章设计的算法在大型集群环境中分布式运行,并设计实验测试算法性能,验证了算法相对于传统算法的性能提升,证明云计算带来的巨大的计算能力的提升,并分析和预测了算法在搜索引擎和社会化网络分析等领域的重要应用前景。第六章是总结,对现有工作的结果做出评价,以及对以后进一步工作的研究和应用的展望。
北京交通人学硕卡学位论文
云计算和
数据挖掘技术
云计算和从飞数据挖掘技术论文主要是基于云计算环境,对传统的此本章介绍云计算和
数据挖掘问题提出新的算
法。因数据挖掘算
亡数据挖掘的基本概念和核心技术,并对
法的主要应用领域之一社会化网络分析做简要说明。
云计算云计算,是一种基于互联网的崭新的计算方式,通过互联网
上异构、自治的服务为用户提供按需即取的计算。由于资源是在互联网上,而互联网常以一个云状图案来表示,因此可以形象地类比为云,“云”同时也是对
底层基础设施的一种抽象概念。云计算概念的示意图如图一所示。
图一云计算概要示意图云计算的资源是动态易扩展而且虚拟化的,通过互联网提供。终端用户不需要了解“云”中基础设施的细节,不必具有相应的专业知识,也无需直接进行控制,只关注自己真正需要什么样的资源以及如何通过网络来得到相应的服务。
各个企业以及研究机构对于云计算的定义各有侧重。在学术界,最让研究人员感兴趣并且最具有研究价值的云计算特性是利用云计算强大的运算能力解决复杂问题方面。在这个领域中,云计算被定义为一种计算模式,通过网络将庞大的
计算处理程序自动分拆成无数个较小的子程序,再交由多部服务器所组成的庞大系统经搜寻、计算分析之后将处理结果回传给用户。通过这项技术,网络服务提供者可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级计算
北京交通大学硕十学位论
云计算和
数据挖掘技
机”同样强大效能的网络服务,并且同时可以有效的控制成本。
云计算的分类和特点云计算按其所提供的功能,可以分为三种类型,平台即服务,
基础设施即服务
,
和软件即服
务
,
。但这三种类型的云计算服务并不是彼此孤立的,
可以认为这三种类型的云计算服务存在层次关系,如图一所示。
客户端淤粼然器撇豁滋翔蒸骊滋沁汤云
撇熬熬鞭鬃熬蒸毅黝撇蒸薰鬓熬蘸黝耀馨翼矍黝黔蘸翼翼蘸翼蘸纂萎续裁摘翻熬断君戮彗湘
袅熟袭然髯粼筹熬器熬鑫蒙髓麟豁藻姗姗
台洲知翔翔
蘸蘸蘸摹馨馨蘸蒸翼羹羹峨拥然相口撼娜骊麟釜素`百目翼澡游娜滩群塑塑嫂鹭嘿塑翼烈
撇巍罐恭姗麟攀黛卿巍解蔫卿鑫翻麟鬓翼翼
图一云计算服务的层级结构可以为用户提供所需的硬件和设备,用户通过网络即可使用这些设备,而不必关心这些设备地理上位于什么位置。所使用的软件通过。娜和只提供虚拟硬件,不提供软件栈。提供程序是操作系统提供。最著名
的商业`。在
中,可以指定一个特定的
和应用程序集,然后将应用程序部署到它上面,或者提供要在服务器上执行的镜像。然后,只需根据计算时间、存储和网络带宽付费。、
项目一样,
是依赖于
的一个开源实现,它与商业服务接口兼容。和和进行操作系统虚拟化。”
是加利福尼亚大学
汕
为进行云计算研究而开发的。可以从该大学的网站上下载,或者通过
北京交通大学硕士学位论文
云计算和
数据挖掘技术
即
体验。
在
基础设施服务之上,可以继续为用户提供一系列平台服务
以简化
开发和生产环境的搭建和部署,统一配置,降低管理成本。整的虚拟平台,它包括一个或多个服务器系统以及特定的应用程序例如用于基于
可描述为一个完
在一组物理服务器上虚拟而成、操作的应用程序的和
在某些情况下,这些平台可以预先定义和选择。而在另一些情况下,可以提供一个镜像,该镜像包含所有的特定于用户的应用程序。。极佳的架构上部署用程序提供一个沙盒和电子邮件发送外,据使用制对底层操作系统的访问。虽然支持大部分主流的七服务的构造。,把已经部署好的软件产品作为一种是一个服务,通过它可以在为可通过一个有趣的例子是的可伸缩性引用的应
七应用程序。
将来还会支持更多的语言。除了支持用户认证、镜像操作还提供了或,用于持久地存储和管理数。亡应用程序运行时所在的沙盒将限限制了应用程序可用的功能,但是它
在平台之上,又可以提供软件服务
服务提供给用户,用户不必安装配置,即可使用服务,同时也不必进行手动更新即可使用最新版本的软件服务。一种早期的。提供对方法是交付软
上存放或交付的软件的订阅。
件,并根据软件的使用收费。这样一来,您就不必购买软件,只需随需租用软件。的另一个方面是在用程序所使用的服务并定义为上使用远程执行的软件。这种软件可以是本地应亡服务,也可以是通过浏览器看到的远,它通过一个标准的
程应用程序。远程应用程序服务的一个例子是
几浏览器提供一些企业应用。要远程地执行应用程序,通常需要依赖于一个应
用服务器来公布所需的服务。应用服务器是一个软件框架,它公布软件服务的”例如事务管理或数据库访问。具体的例子有和的例子是的⑧⑧、等。明的另一个最近
浏览器。这个浏览器是作为新桌面的理想环境,除了
具有传统的序。
尾浏览
体验外,还可以通过它来
以本地或远程方式交付应用程
云计算具有多个服务层次,但所有云计算服务具有一些公共特点。主要包括分布式
云计算最本质的特性是分布式。这一特点不仅体现在用户和服务提供者在地理上是分布在不同位置的,同时也体现在服务提供者本身提供服务的能力也是分布在不同计算机甚至是不同地理位置上的。
北京交通大学硕士学位论文
云计算和
数据挖掘技术
虚拟化云计算的最重要特性就是虚拟化。虚拟化技术的应用使得软件产品不再和特定硬件平台强祸合。这一特性在很大程度上为云计算的其他优良特性提供了保证。动态性与可伸缩性部署在云计算环境中的应用程序和服务所使用的软硬件资源,可以随着应用负载的变化而动态分配,而不用停机重启,这种动态性使得配置和管理变得更加简单高效。与此同时,得益于虚拟化技术的应用,服务提供者可以根据用户需求的变化动态的添加和删减软件组件和硬件设备,使系统从软件功能和硬件规模双
方面保持高度的可伸缩性。高可靠性
云计算中的应用程序对数据的存储和处理都是在多个计算节点中分布式完成的。因此单一节点失效并不会对存储和计算任务造成损害,使得系统具有高度的健壮性和容错性。
海量信息存储和处理
云计算可以有效的聚集网络中闲散的计算能力,可以将大量分散的有限的计算资源加以有效利用。因此云计算具有及其强大的计算能力。
云计算的应用场景云计算在互联网、医学、天文等等很多领域有着非常广泛的应用前景。如表一所示。
在安全方面,金山、趋势科技以及瑞星等安全厂商纷纷提出了“安全云”计划。如今,每天有万多种新的病毒和木马产生,传统的通过更新用户病毒库的
防毒模式,受到了严峻的挑战,用户端的病毒库将过于庞大。趋势科技和瑞星的“安全云”将病毒资料库放在“云”端,与客户端通过网络相连,当“云”在网络上发现不安全链接时,可以直接形成判断,阻止其进入用户机器,从根本上保护机器的安全。谷歌提供的、、等服务都基于其云计算服务器运行。谷歌基于云计算提供的翻译服务具有现今最好的性能。对互联网和美国人生活的一项研究显示,大约的在线用户使用以上“云计算”服务。
北京交通大学硕士学位论文
云计算和
数据挖掘技术
表一云计算的应用领域和场景
应用领域
应用场景地震监测
医
研一科学一
海洋信息监测天文观测信息处理信息分析海量病例存储分析医疗影像处理病毒库存储
网络安全垃圾邮件过滤动画素材存储分析
图形和一图像处理
高仿真动画制作海量、基于内容的图片检索通信服务
互联网
在线实时翻译搜索引擎和一内容检索
云计算技术的研究现状云计算最初产生自企业计算和互联网领域,因此他面向的问题基本都是各大企业最关心的问题,比如如何提高企业产品的健壮和灵活性,如何降低资源配置和管理的成本等等。因此各大企业都对云计算给予高度关注。于年月在全球宣布,与合作,要把全球多所大学
纳入“云计算”中。亚马逊
年已于
月,
高调推出“蓝云
”计划。月,雅虎也将
年向开发者开放了名为“弹性计算机云”的服务,年
让小软件公司可以按需购买亚马逊数据中心的处理能力。
一个小规模的服务器群,即“云”,开放给卡内基一梅隆大学的研究人员。雅虎公司还参与赞助了软件基金会的云计算项目。年月,微软公司宣布推出名为中间件部署、惠普、戴尔、己的云计算产品。的云计算基础平台。交付配置管理以及公司更是推出了基于监管监控软件的软件开发测试托管
平台,为开发人员提供了软件生命周期全过程融入“云”中的全新体验。思科、
以及盛大公司都在云计算领域加大投资力度,创造更加适合自