第1卷第6期2012年11月网络新媒体技术Vol.1No.6Nov.2012
面向大数据的海云数据系统关键技术研究
黄哲学
(中国科学院深圳先进技术研究院*曹付元深圳518055李俊杰陈小军深圳518055)深圳市高性能数据挖掘重点实验室
摘要:由于数据产生成本的急速下降,人类社会产生的数据不仅以指数级别增长,而且数据的结构变得日趋复杂,使得传统的数据分析技术遇到了极大的挑战。如何对大量复杂数据进行分析和挖掘,从中提取有价值的知识用于决策,已经成为产业界和学术界的广泛关注问题,在一些国家已上升到国家战略层面。本文介绍了大数据的基本概念、特征和面临的科学问题,总
“面向感知中国的新一代信息技术研究”“海云数据系统关键技术研究与系统研制”结了中国科学院战略性先导科技专项中课
题的一些先期成果,为开发大数据管理、分析和挖掘系统提供一些参考依据。
关键词:大数据系统,大数据分析,数据挖掘,可视分析
DevelopingSeaCloudDataSystemKey
TechnologiesforLargeDataAnalysisandMining
HUANGZhexue,CAOFuyuan,LIJunjie,CHENXiaojun
(ShenzhenInstitutesofAdvancedTechnology,CAS,Shenzhen,518055,China,
ShenzhenKeyLaboratoryofHighPerformanceDataMining,Shenzhen,518055,China)
Abstract:Asthecostofdatagenerationisgoingdown,thedatageneratedinthesocietyincreasesexponentially.Furthermore,thecomplexityofthedatastructureisincreasingaswell.Thisphenomenonpresentsanextremelybigchallengetothetraditionaldataanal-ysistechniques.Howtoanalyzeandminebigdataandextractvaluableknowledgefordecisionmakinghasbecomeapopularbigcon-cerninacademicsandindustry.Somecountrieshaveraisedthisissuetothenationalstrategiclevel.Inthispaper,wefirstintroducesomebasicconceptsaboutbigdata,itscharacteristicsandscientificresearchproblems.Wethensummarizesomeinitialresultsoftheprojectof“researchanddevelopmentofkeytechnologiesforseaandclouddatasystems”intheprogramof“sensingChinaorientednextgenerationinformationtechnologies”beingcarriedoutinChineseAcademyofSciences.Weproposefurtherinnovationsonthere-latedtechnologiestospearheadtheresearchonbigdatamanagement,analysisandmininginthenearfuture.
Keywords:Bigdatasystem,bigdataanalysis,datamining,visualanalytics
1引言
随着物联网、移动互联网和云计算技术及应用的蓬勃发展,人类产生的数据量不仅以指数级增长,而且数据的结构变得日趋复杂,超越了传统数据库的管理能力。大数据问题(BigDataProblem)近两年成为信息技术学术界和产业界热论的焦点。普遍舆论认为,大数据问题已经成为信息科学技术领域的重要前沿课题之一。本文于2012-09-17收到。
*中国科学院战略性先导科技专项“面向感知中国的新一代信息技术研究”(XDA06000000)课题“海云数据系统关键技术研究与系统研制”(XDA06010500)资助。
6期黄哲学等:面向大数据的海云数据系统关键技术研究212011年5月,EMC公司在美国拉斯维加斯举办了第11届EMCWorld年度大会,设定的主题为“云计算
,“大数据”(BigData)概念。随后,IBM和麦肯锡等众多国外机构发布了“大数大会正式提出了相遇大数据”
据”相关研究报告,阐述了大数据的特征,给社会经济发展带来的机遇和对当前信息技术的挑战。可以预测,大数据将成为继云计算和物联网之后,信息技术产业又一次颠覆性的技术变革。
[3]《Nature》《Sciences》在学术界,国际顶级期刊和近期针对大数据分别出版了专刊《BigData》和《Deal-
[4],ingwithData》从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面讨论了大数据处
理面临的各种问题。2012年8月12~16日在北京举办的第18届知识发现与数据挖掘(KDD)国际会议,大数据成为重要议题,其暑期培训班(KDDSummerSchoolonMiningtheBigData)和专家论坛(PanelDiscus-sion)都是集中讨论大数据问题。2011年11月26日,中国软件开发联盟(CSDN)在北京成功举办了中国大
中国计算机学会(CCF)成立了大数据专家委员会(CCF数据技术大会。为推动大数据这个交叉学科的发展,
BigDataTaskForce,简称CCFTFBD)。
大数据的机遇与挑战已经从商业领域上升到国家战略层面。2012年3月29日,美国政府发布了“大数
。随后,据研究和发展倡议”美国国家科学基金委员会(NSF)、美国国家卫生研究院(NIH)、美国能源部
(DOE)、美国国防部(DOD)、美国国防部高级研究计划局(DARPA)、美国地质勘探局(USGS)六个部门联合推出了大数据计划,旨在提升从大量复杂数据中获取知识和洞见的能力。
2012年5月22~24日在北京成功为探讨中国大数据的发展战略,由中国科学院计算技术研究所牵头,
“网络数据科学与工程─一门新兴的交叉学科?”为主题的第424次香山科学会议,与会国内外知举办了以
名专家学者为中国大数据发展战略建言献计。2012年8月14~15日,中国科学院启动了“面向感知中国的新一代信息技术研究”战略性先导科技专项,任务之一是研制用于大数据采集、存储、处理、分析和挖掘的未来数据系统。
信息时代万物数化,大数据的重要性已成行业共识,针对大数据技术和应用的创新,其发展趋势不可阻
使之转换为有价值的信息和知识,用于解决各种各样的挡。如何对大数据进行充分和有效的分析和挖掘,
科学和应用问题,成为大数据时代信息技术发展的重大挑战,同时也是信息技术创新的新的制高点。
本文首先对大数据的概念、特征及其价值作简要概述,然后阐述大数据分析与挖掘的三个科学问题,最
“面向感知中国的新一代信息技术研究”“海云数据系统关键技术研后介绍中国科学院战略性先导科技专项
究与系统研制”课题的一些前期研究成果。
2
2.1大数据什么是大数据?
对于什么样的数据是大数据目前还没有明确的定义,对数据的使用者来讲,如果数据集超出了使用者所拥有的信息处理和分析的能力,就给使用者带来了大数据问题。
[5]根据麦肯锡预计,至2009年,美国超过1000雇员的公司,平均每个公司存有200TB的数据,很多行业
的公司,如银行、电讯、互联网、政府部门等,平均存储的数据超过1个PB。尽管大量的数据存储在各大公司和政府机构的数据中心,但数据的价值都没有充分发挥出来。缺少有效的数据整合和数据分析与挖掘技术
更深层次的原因是对数据潜在价值的认识不足和缺少可以挖掘出数据价值的及方法是其主要的技术障碍,
技术手段及人才。
2.2大数据特征
[6]IBM给出了大数据的“3V”在2011年10月美国拉斯维加斯举办的IOD2011大会上,特征,即多样性
(variety)、体量(volume)、速度(velocity)。多样性是指数据来自多种数据源,并且数据类型包含结构化和非结构化数据。体量是指整合在一起供分析与挖掘的数据量非常庞大的。速度则是指数据生成和处理的速
也包含数据内容的变化也快。度必须很快,
大数据的这些特征对现有的数据分析与挖掘方法、技术、算法和软件带来新的挑战,使基于传统服务器进行数据挖掘的方式产生极大的瓶颈。用户为提高大数据分析与挖掘的能力,必须提高服务器的性能,包
22网络新媒体技术2012年
内存和CPU,造成机器成本和能耗不断提高。当前大部分数据分析与挖掘软件不具备TB级以上大括存储、
数据的复杂分析和建模能力。
随着对大数据价值认识的深入,大数据的典型特征又加入的一个价值(Value)维度,用以描述大数据的价值。在现实应用中,数据量大的数据并不一定有很大的价值。例如,很多数据在没有有效整合之前,重要的分析与挖掘无法开展,因此不具有很大的应用价值,而数据整合本身就是大数据的一大挑战。不能及时有效处理分析的数据也没有很大的应用价值,如大量的视频数据,目前还没有有效分析和挖掘大量视频数据的技术,很多应用还要靠人来监控。
2.3大数据的价值
大量数据的生成和累积是信息化的必然结果。现代企业在采购、仓储、运输、产品设计、生产、销售和客户服务等诸多环节都采集并积累了大量的供应商、服务提供商和客户的交易数据,生产和经营数据,产品研发数据,财务及人力资源管理数据等,因此可以说现代企业是运营在数据之上,诸多生产和经营的决策问题必须通过数据分析才能解决。
麦肯锡的研究表明,随着消费者、企业和各经济部门充分发挥大数据的潜力,由大数据驱动的创新、生产力提高、经济增长、以及新的竞争模式和价值取向变革的巨大浪潮将达到巅峰。与过去不同的是,随着一系列新技术趋势发展的加速和凝聚,大数据所带来的变化规模和范围已经达到新的拐点,将会迅速膨胀。比如,有效利用大数据可以提高健康护理的质量和效率,潜在为美国每年创造3千亿美元的价值,其中三分
相当于每年减少全国健康护理花费的8%。零售业充分利用大数据可之二是来自于降低健康护理的成本,
以提高运营效益60%。在欧洲发达国家,充分利用大数据提高政府管理效率,每年可以减少政府运营费用1千亿欧元。相信未来大数据的产业规模将会至少以万亿美元来进行衡量,大数据将会给信息技术领域带来一个新的增长点。
大数据带来的潜在经济价值和社会价值巨大,但这些价值必须通过数据的有效整合、分析和挖掘才能
对于结构化数据的整合有很多解决方案和软件工具。释放出来。数据的整合是建立数据仓库的必要工作,
目前的挑战是非结构化数据的融合和整合,如:文本数据、图像数据、信号数据、音频数据、视频数据等,由于这方面的技术挑战较多,本文不作详细论述。下节针对大数据分析的科学问题和方法问题作一简要介绍
。3大数据分析的科学问题
数据分析与挖掘的数据基本表达形
式是对象—属性矩阵或表格,如图1所
如一个示。其中每一行表达一个对象,
客户。每一列表达对象的一个属性,如
客户的年龄或性别。整个属性的集合确
而行数代表对象定了对象表达的维度,
样本的个数。大多数数据分析和挖掘算
法以对象—属性矩阵为输入数据格式,
对这些算法来讲,大数据的挑战具体体
现在对象—属性矩阵的属性数量和对象
数量都很大,使得这些算法难以处理或
得到的结果不满足应用要求。
3.1超高维问题
大数据带来的变化之一是对象的属图1对象-属性矩阵,□表示缺省值
性越来越多,虽然表达对象的信息越来越丰富,但成千上万的属性也造成巨大的维度灾难(curseofdimen-sionality)。
与此同时,这种超高维数据也带来其他一些问题,如:复杂数据类型问题,噪声和缺省值问题,分布不平
6期黄哲学等:面向大数据的海云数据系统关键技术研究23属性相关问题等。这些问题虽然在一般性数据分析中普遍存在,但超高维数据使得这些问题更难衡问题,
如微博数据,就属于这类大数据,表达微博内容的关键词属性可以有几万个,处理。网络社会化文本数据,
而处理的微博数量也是百万或千万级。
超高维数据不适合用传统的全空间方法来分析,因为超高维数据带有很大的稀疏性,对象簇和类别的表达
较有效的分析方法是采用子空间方法。同时,由于数据的复杂性,单一的数据挖掘模型,体现在部分属性子集,
如决策树模型,难以满足应用的精度要求,必须采用多个模型的集成学习方法建立聚类或分类的集成模型,通
[7,8]。过多个单一模型的综合结果做出最后的决策。目前子空间方法和集成学习方法在国内外已经有大量研究
3.2数据量问题
大数据分析的另一科学问题是当图1的对象—属性矩阵的行数超过千万或亿的数量级后,其整个矩阵的数据量将达到上百个GB至TB级,这样大的输入数据远远超出大多数服务器的内存,更不用说在单一服
现有的数据挖掘软件和大多数传统的分务器上用复杂的迭代或递归数据挖掘算法进行建模和挖掘。因此,
类和聚类等算法无法处理这个规模的数据。
解决TB级规模输入数据建模问题的一个可行方法是将对象—属性矩阵切分成大量的子矩阵,然后将子矩阵文件分布到多个服务器节点上。同时对数据挖掘算法作并行分布式改造,使每次迭代运算分两步进行,第一步是在每个计算节点上对子矩阵进行运算,取得子矩阵的局部结果;第二步是将所有子矩阵的局部结果集中运算,计算出整个对象—属性矩阵的全局结果,然后进入下一次迭代直到得出最后模型。Hadoop平台上的Map-reduce计算模型通常用来实现上述分布式算法。
对复杂的数据挖掘算法进行分布式改造需要解决一个算法上的数学问题,即证明这种分解计算再综合
需要证明两的两步式方法得出的结果要同直接对整个矩阵一步运算的结果等价。如果采用近似计算方法,
步式方法得出结果的偏差在可控范围内。在Hadoop上实现分布式数据挖掘算法的一个技术问题是Map-reduce计算模型本身的局限性。Map-reduce最初是为词频统计设计的,适合数据一次性处理,而多数数据挖掘算法具有迭代、递归、层次等特性,用Map-reduce实现分布式算法经常产生很多额外开销,极大影响运
设计适合大数据分析与挖掘分布式算法的新型计算模型也是一个重要的科学问题。算效率。因此,
当前,许多常用的机器学习和数据挖掘算法都有了Map-reduce分布式版本,最流行的是Apache的
[10,11]Mahout开源系统[9],。但其算法的执行效率还远远达不到TB级大数据的水平
3.3大数据分析方法
大数据分析与挖掘的另一科学问题是分析方法和分析手段落后。当前普遍采用的数据挖掘建模方法
建模的过程由算法自动完成,模型建好后,用户对模型进行测试,结是样本–>建模–>测试三步骤方法,
果不满意,改变训练数据和算法参数,由算法自动产生新的模型。这种方法不适用于大数据分析,因为数据
算法建模的时间较长,多次重复建模步骤使计算成本和能耗加大。因此,必须研究新的大数据分析方法。大,
提高大数据分析与挖掘的效率和效果的方法之一是改变建模的全自动过程,实现大数据建模人机交互,让专业分析人员的领域知识融入到建模过程中,通过人机交互获得优化模型。实现大数据建模过程人
交互式数据挖掘算法和数据及模型可视化。交互式算法在建模过程中生成机交互需要解决两大关键技术,
大量中间结果,用可视化技术展现给分析人员,分析人员可以通过观察分析建模的阶段性结果,调整算法参数或输入数据,指引交互式算法向优化模型的方向计算。
大数据可视分析已经成为图形学和可视化领域的研究热点,目前大规模超高维数据可视化方法和技术还不多,数据挖掘模型和知识可视化研究也在起始阶段,可用的成果很少。
4海云数据系统
“面向感知中国的新一代信息技术”海云数据系统是中国科学院战略性先导科技专项“海云数据系统关
键技术研究与系统研制”课题研究的重要内容。其目标是研制面向海量数据存储与挖掘的互联网服务平
“海云创新实验环境”台,为用户提供大规模数据存储、处理、挖掘与可视化分析服务,创新数据挖掘互联网服务模式。
244.1
系统架构
海云数据系统的设计理念是以
区域性智能数据中心和高速互联网
为基础设施,以互联网服务体系为
架构,以大规模海量数据存储、处
理、挖掘和可视化分析等关键技术
为支撑,通过多样化智能终端及互
管理及联网为用户提供数据存储、
分析服务。网络新媒体技术2012年
海云数据系统的拓扑架构如图
2所示。区域智能数据中心提供基
于云计算的大规模数据存储及数据
通过平台服务器对外接挖掘平台,
口提供数据存储、分析与挖掘服务。
用户使用Web浏览器或智能终端
应用程序提出数据存储和分析的服
经Web服务器通过互联网务请求,图2海云数据系统拓扑示意图
将服务请求发送给数据中心平台服务器,平台服务器对服务请求进行解析,发送给工作流引擎调度执行,执行结果通过互联网发送给用户终端。
4.2关键技术
为支持海云数据系统的研制,课题组已经搭建了由110台高性能服务器组成,具有500TB存储能力和840CPU核运算能力的云存储系统和云计算平台。海云数据系统的研制主
要包括下面6个关键技术:
(1)云存储系统。为海云数据系统的大数据分析提供海量数据存储与管理服务;
(2)云计算平台。为大规模海量数据处理、挖掘与分析提供高性能计算服务;
(3)海量数据挖掘算法库。为海量复杂数据处理、挖掘与分析提供高可扩展算法;
(4)可视化交互分析引擎。启发式、人机交互、可视化数据挖掘新技术,提供海量数据挖掘高度人机交互功能;
(5)工作流引擎。为用户创建海量数据处理、分析流程提供图形化流程设计工具,自动执行用户创建的
提供资源调度及优化服务;数据处理分析流程,
(6)OpenAPI。提供数据挖掘平台与第三方应用系统的扩展接口。
4.3算法创新
分类与聚类是数据分析与挖掘的两大主要任务,大数据的超高维问题对现有的分类和聚类技术造成很
k-means等,很多经典算法,如决策树、已经不能满足应用需求。针对超高维数据的分类和聚类大的挑战,
问题,课题组对著名的随机森林分类算法和属性加权的k-means子空间聚类算法作了改进,取得了很好的
新算法对超高维数据的分类和聚类精度有了显著提高。效果,
4.4可扩展分类算法
针对大数据建立分类模型的挑战,课题组采用Map-reduce编程模型对随机森林算法作了分布式改进。建立随机森林模型的核心是生成大量决策树模型,经典的决策树建模方法采用深度优先的递归式算法,如
Map-reduce编程模型并不支持递归机制,决策树递归算法只能在Map内部操作实现,致图3所示。但是,
使运行Map的单个节点内存消耗随着决策树深度不断递增而增加,内存溢出风险高,不适合大数据。目前
课题组采用流行的基于Map-reduce的开源项目Mahout采用这种方式实现随机森林算法。针对这一问题,
[16]了广度优先的建树机制,如图4所示。这种方法的优点是构建的决策树在节点分裂后,生成更多的并行
的子任务,实现高效的并行,避免了内存过快消耗,具体执行流程见图5。
6期黄哲学等:面向大数据的海云数据系统关键技术研究25课题组在30台服务器的云平台上实现了采用广度优先决策树生成方法实现的分布式随机森林算法,
100分钟内对100个属性、1000万个纪录的输入矩阵,规模达到110GB的数据建立随机森林模型的能力
。
图3
深度优先构建随机森林决策树图4
广度优先构建随机森林决策树
图5
随机森林的层次构造流程
4.5交互式可视化
为探索交互式可视化数据挖掘新方法,课题组针
对随机森林建模设计开发了随机森林交互视可视化分
析平台。给定一个输入训练数据和一组随机森林算法
参数,该平台启动随机森林算法生成最初随机森林模
型,然后计算树与树之间的相互关系,确定树的空间坐
标并用模拟树的形式在三维空间展示,如图6所示。
随机森林模型精度和每棵树的精度在右边的窗口
用数字展示。用户可以根据每棵树的精度,用鼠标选图6随机森林交互式可视化分析平台择其中任何一棵树,并将选择的树在新的窗口显示,如
图7所示。在所选择的树中,顶部端点的球表示决策树叶结点对象的数量,对象越多,球越大。球的颜色表示叶结点的主要类别,深蓝色表示NO类,浅蓝色表示YES类。根据决策树的特点,用户可以通过鼠标对树
使叶结点归并到更低的节点,相当于树剪枝操作;如果树的精度很低,用户可以将进行如下操作:剪切树叶,
树砍掉,重新启动决策树算法,用不同的输入参数生成新的树,并更新随机森林模型,重新计算树与树的关系,产生新的随机森林可视化模型;用户也可以将树砍掉,重新生成训练数据,调用决策树算法生成新的决策树。通过对决策树的交互操作,用户可以逐渐逼近最优的随机森林模型,充分利用交互式可视化的分析功能,提高大数据挖掘的建模效率。
5结束语
大数据已经成为行业共识,大数据中的潜在价值已经引起了产业界和学术界的高度关注,并将对国家
26网络新媒体技术2012
年的发展战略产生深远的影响。本文介绍了大数据的一些基本概念、特征和面
总结了中国科学院战略性先导科技专项课题“海云数据系统临的科学问题,
关键技术研究与系统研制”的一些前期工作,对未来的研究方向进行了展望。
参考文献
[1]SanjayGhemawat,HowardGobioff,Shun-TakLeung.TheGooglefilesystem[C]//Pro-
ceedingsofthe19thACMSymposiumonOperatingSystemsPrinciples,ACM,Bolton
Landing,NY,2003,20-43
[2]JeffreyDean,SanjayGhemawat.MapReduce:simplifieddataprocessingonlargeclusters
[C]//OSDI'04:SixthSymposiumonOperatingSystemDesignandImplementation,San
Francisco,CA,2004,137-150
[3]CliffordLynch.Bigdata:Howdoyourdatagrow?[J].Nature,2008,455(7209):28-29
[4]http://http:///site/special/data/.
[5]JamesManyika,MichaelChui,BradBrown,etc.Bigdata:Thenextfrontierforinnova-
tion,competition,andproductivity.2011.
[6]http://www-http:///software/data/bigdata/.
[7]JoshuaZhexueHuang,MichaelK.Ng,HongqiangRong,etc.Automatedvariableweigh-
tingink-meanstypeclustering[J].IEEETransactionsonPatternAnalysisandMachine
Intelligence,2005,27(5):657-668
[8]LipingJing,MichaelK.Ng,JoshuaZhexueHuang.Anentropyweightingk-meansalgorithmforsubspaceclusteringofhigh-
J].IEEETransactionsKnowledgeandDataEngineering,2007,19(8):1026-1041dimensionalsparsedata[
[9]http://http:///mahout/.
[10]王珊,王会举,J].计算机学报,2011,34(10):1741-1752覃雄派,周烜.架构大数据:挑战、现状与展望[
[11]覃雄派,王会举,J].软件学报,2012,23(1):32杜小勇,王珊.大数据分析-RDBMS与MapReduce的竞争与共生[
-45
[12]LeoBreiman.Randomforests[J].Machinelearning,2001,45(1):5–32
[13]BaoxunXu,JoshuaZhexueHuang,GrahamWillams,etc.Classifyingveryhigh-dimensionaldatawithrandomforestsbuilt
fromsmallsubspaces[J],InternationalJournalofDataWarehouseandMining,2012,8(2):45-62
[14]XiaojunChen,XiaofeiXu,YunmingYe,etc.TW-k-means:automatedtwo-levelvariableweightingclusteringalgorithmfor
multi-viewdata[J].IEEETransactionsonKnowledgeandDataEngineering,http://http:///10.1109/TKDE.2011.262
[15]XiaojunChen,YunmingYe,XiaofeiXuetc.Afeaturegroupweightingmethodforsubspaceclusteringofhigh-dimensionaldata
[J].PatternRecognition,2012,45(1):434-446
[16]BingguoLi,XiaojunChen,MarkJunjieLi,etc.Scalablerandomforestsformassivedata[C].PAKDD,2012.图7随机森林模型可视化
作者简介
黄哲学,男,博士,中科院深圳先进技术研究院研究员,主要从事数据挖掘与机器学习方面的研究。
曹付元,男,博士,中科院深圳先进技术研究院博士后,主要从事数据挖掘与机器学习方面的研究。
李俊杰,男,博士,中科院深圳先进技术研究院助理研究员,主要从事数据挖掘与机器学习方面的研究。
陈小军,男,博士,中科院深圳先进技术研究院助理研究员,主要从事数据挖掘与机器学习方面的研究。