哈尔滨理工大学学报,2010.4
重复数据删除对数据归档的影响
刘季
哈尔滨理工大学测控技术与通信工程学院,哈尔滨(150040)
E-mail:
摘 要:重复数据删除是一种非常高级的数据缩减方式,可以极大的减少归档数据的数量。这种技术通过减少存储的数据量,改变数据保护方式,卓越的提升了磁盘归档方式的经济性。重复数据删除被业界公认为归档技术的下一代发展步骤,是今日数据中心的“必备”技术。 关键词:重复数据删除 存储 冗余数据
1.引言
今日,IT 经理及管理员们不仅要面对日益爆炸的数据增长难题,还要担负由此引发的不断上升的归档及容灾所需的主存储的成本压力。然而,每完成一次全归档,都会归档大量与之前的全归档相同的文件和数据,相同数据的多个归档,占据了大量昂贵的磁盘空间。随着时间的推移,一次归档中的重复数据会充斥于所有服务器、所有归档工作(全归档及增量归档)。
重复数据删除是一种非常高级的数据缩减方式,可以极大的减少归档数据的数量。这种技术通过减少存储的数据量,改变数据保护方式,卓越的提升了磁盘归档方式的经济性。重复数据删除被业界公认为归档技术的下一代发展步骤,是今日数据中心的“必备”技术。 重复数据删除应运而生
重复数据删除是一项非常新的技术,专门用于在减少需要归档的数据量、最大化存储利用率的同时,使更多的归档数据在线保留更长时间。通常来讲,重复数据删除技术会将最新的归档数据与已有的之前的归档数据进行比对,从而消除冗余数据。这项技术的优势在于数据的减少不仅使存储的效率更高、成本更节约,带宽的利用也降到最低,使更经济、更快速的实现归档数据的远程复制成为可能。然而,目前市场中的重复数据删除解决方案还有很大差异,有些解决方案会使归档处理的速度变的很慢,甚至引发无法预计且不可恢复的数据丢失。
2.重复数据删除的发展方向
2.1块级重复数据删除
多年以前的重复数据删除技术,可以看作是文件级的技术,当时称之为“单一实例存储(Single Instance Store,SIS)”,通过SIS技术,整个文件系统或电子邮件系统的重复文件可以被减少为单一的拷贝,当再出现这一文件时,会被指向到这一单一拷贝,从而减少容量需求。这一技术通常被用于电子邮件管理及归档系统。
今天的重复数据删除技术利用了与SIS类似的数据缩减概念,但却使之向前迈进了一大步 – 实现了块级(子文件)重复数据删除。当读取数据时,系统利用Hash算法识别唯一的数据块,系统将保留Hash索引,每个Hash编码指向一个不同的数据块。当新的归档发生时,会自动的与现有的块进行比对,如果索引中已经有相同的块,数据将会被删除或被指向块的
哈尔滨理工大学学报,2010.4
指针所代替;反之,则会被保存并在索引中为其创建一个新的Hash编码。这里提到的唯一数据块的大小,会根据用户选择的不同的重复数据删除解决方案而不同,平均大小在4KB-24KB之间。
与文件级SIS技术相比,块级的重复数据删除技术可以说更具优势。它可以在不同的文件或应用中消除冗余数据块。比如,如果一个文件只做了想当小的一点修改并保存,块级重复数据删除技术则将只保存发生变化的数据块。按这种方式,块级重复数据删除可以提供更好的压缩比率,特别是应用于巨大数据量的情况下,如数据库或全归档之后。
下面的例子进一步说明了SIS和块级两种重复数据删除技术的结果比较。
一个企业向1000个邮件地址发出一封带有注册内容的活动邀请函,传统的归档应用将会把文件归档1000次。SIS解决方案可以识别出文件是相同的,将只会保留一份归档,然后生成999个指针指向那个唯一的归档,因此,大概节省了99.9%的空间。但是,之后这1000个参会人可能会将注册内容填好后回复给发件人,由于他们的名字不同,SIS解决方案就会归档1000份回执。
块级解决方案在发出邀请函的时候执行了相同的重复数据删除处理,也实现了99.9%的存储空间节省。但是,当收到1000份参会人的回执时,块级解决方案会发现每个回执的大部分内容与第一封收到的是相同的并已经归档过,因此,它只会对其它999封回执的相异数据块(块级)进行归档。这种方法与SIS技术相比,则还可以节省额外的99.9%的存储空间。
2.2绿色存储与重复数据删除
由于块级重复数据删除技术只保存发生变化的数据,极大的减少了所需的归档容量,使用户不用再像从前一样购置大量磁盘,从而将用户归档系统的总成本降到最低。更少的磁盘致使存储系统更少,电力及制冷需求更小,同时还降低了整体系统的复杂性。
与传统的磁带归档解决方案相比,重复数据删除技术完全改变了磁盘归档的经济性。通过这一技术,更多的用户可以负担得起用磁盘归档取代整个或是部分磁带归档的解决方案。磁盘归档相对于磁带归档来说,提供了更好的归档及恢复性能。通过利用磁盘归档的方式,用户可以进一步改善他们的服务品质协议(Service-Level Agreements,SLAs)。
当通过数据复制实现灾备时,重复数据删除技术也可以带来卓越利益。由于减少了归档数据量,重复数据删除技术将主站点与远程数据中心之间的带宽需求、数据传输成本、复制时间都降到最低。企业利用相对经济的WAN网络即可在任意地理空间范围内执行复制,实现了额外的成本节约。
理论上讲,重复数据删除技术可以用于任意地点存在的数据。它可以与在线或是离线的数据一起工作,可以在文件系统或是数据库,也可以在其它应用。总的来说,哪里有大量的重复数据,它就能在哪呈现出最大的利益回报。而最好的应用示例是在企业级归档。企业大都是每天做一次全归档,两日的全归档中通常只有很小部分---不会超过5%---的数据是不同的,大部分归档扇区都是相似的。据存储工业协会调查, 80%的归档系统中的数据需要保存50年以上,同一个文件存在很多历史版本,某个版本和已归档的所有版本之间一般只有1%的数据不同。这种情况下,重复删除为归档系统带来了最佳的利益回报。
2.3集群式重复数据删除
从性能的角度看,只能提供单台重复数据删除服务器/设备的解决方案根本无法满足每天需要归档成百TB数据或每天需要多次归档的大型企业的需求。据相关组织预测,EB级的归档系统不会离我们太远了。在这种情况下,重复数据删除反而会造成瓶颈。一些企业考虑
哈尔滨理工大学学报,2010.4
用两台或多台设备完成这一工作,但由于每台设备都保留了它自己的Hash索引,设备根本不能鉴别出重复的数据是否已经由另一台设备归档。这种方法不仅会影响到重复数据删除的比率,还会增加维护的工作量。
单台重复数据删除服务器/设备也会成为单点故障。如果重复数据删除服务器/设备发生故障,所有的归档工作则都将失败,更糟的情况是造成恢复过程中的失败。尽管单台重复数据删除服务器/设备在实际应用过程中出现故障的情况非常罕见,但这对企业来说还是一个潜在的、无法接受的风险。
其实,针对这个难题有一种解决办法,就是重复数据删除集群,即利用双工故障切换架构。在集群的重复数据删除架构中,2或4台重复数据删除设备被虚拟化为一台,为用户提供了双倍或四倍的吞吐及处理能力。如果他们中的任意一台出现故障,另外的设备就会自动的接管它的工作负荷,以确保处理的连续性。由于集群仍然保留的是单个的Hash表,因此它不会影响到重复数据删除比率。
以行业知名的美国飞康软件公司的SIR技术为例,飞康SIR是应用于业界领先的飞康VTL解决方案的重复数据删除技术。飞康SIR可在一个性能集群中支持4个节点并可应用于所有的飞康VTL节点,从而优化了管理能力和扩展能力。这个集群架构通过统一性的添加节点,使企业可以扩展到最大容量(最多4个节点,每个节点64TB,合计256TB)和速度(每个节点的重复数据删除约为300MB/秒,合计最大1.2GB/秒)。内置的N+1故障切换功能,SIR重复数据删除引擎是后处理方式,在不影响恢复或归档窗口的情况下减少了存储成本。此外,由于SIR解决方案基于飞康历经验证的IPStor® 技术平台,包括了它的虚拟化和供给容量功能,因此,用户可以在任意时间添加存储而不用中断处理。
3.根据需求选择重复数据删除方式
目前市场中的重复数据删除解决方案提供了多种删除重复数据的方式,如果想找出最适合用户需求的方式,需要考虑两个关键性因素:在哪里进行重复数据删除(源数据端还是目标端);在归档处理的哪个阶段删除重复数据删除(在归档过程还是归档之后)。
3.1源数据端
一些重复数据删除产品在源数据端工作,这意味着它们是位于主机或应用服务器上的。这种方式要求为每一台需要进行归档的机器安装重复数据删除系统。当数据传送到归档软件之前即识别重复数据并删除。这种重复数据删除方式具有如下优点:
● 数据在网络传输前就减少了,改善了传输性能,节省了网络带宽。
● 从扩展性角度讲,整体性能与客户端的数量无关,因此,在进行扩展时不会影响到归档性能。
● 由于是重复数据删除处理的同时传输数据,因此在处理过程中不再需要额外的存储设备。 然而,这种处理方式也有它的缺点:
● 必须在每一台归档服务器上安装重复数据删除系统。在大型企业环境中,特别是具有分布于各地的分支机构的大型企业,软件的安装和维护工作极为复杂
● 重复数据删除处理运行于应用服务器上,会消耗服务器的运算能力,影响到应用性能。这对于大多数企业来说是不可接受的。
● 有些重复数据删除解决方案在设计之初并没有考虑到与用户已经安装的归档软件相集
哈尔滨理工大学学报,2010.4
成,因此,用户必须为了使用它而更换归档软件,这便增加了部署解决方案时的工作量及风险,对于那些具有大量归档数据的企业用户来说,这种方案并不可行。
3.2目标端
目标端的重复数据删除处理通常是运行于一台独立于主机或应用服务器之外的设备(服务器或工具)之上。下面是几种典型的目标端重复数据删除方式:
● 具备重复数据删除功能的虚拟磁带库(VTL)
● 具备重复数据删除功能的磁盘设备
● 具备重复数据删除功能的归档软件
值得一提的是,目标端重复数据删除解决方案可以与现有的归档软件相整合,运行于归档服务器上。归档数据先发送到重复数据删除设备,重复数据删除在后端完成。相对于源数据端方式,它的优势在于:
● 企业无需改变其当前的归档系统。
● 这种架构无需更换应用服务器。由于它不会消耗应用服务器的运算能力,应用性能不会受到任何影响。
● 重复数据删除服务器/设备能够从不同的归档客户端删除所有冗余数据。这对于具有大量应用或数据库服务器的企业来说,是非常经济高效的解决方案。
对于那些不想改变现有归档系统,也不想牺牲应用性能的企业用户来说,目标端重复数据删除无疑是最佳的方式。
3.3在线处理
在线处理的重复数据删除,是指重复数据删除服务器/设备从归档软件开始传输数据,数据还没有写入磁盘之前,即执行重复数据删除。它的重要优势是经济高效,可以减少存储容量的需求。它不需要用于保存还未进行重复数据删除的数据集的临时磁盘空间。
尽管在线处理的重复数据删除减少了归档数据的数量,但处理本身会减慢归档的速度。因为重复数据删除是在写入到磁盘之前进行,重复数据删除处理本身就是一个单点故障。因此,如果企业需要保留他们归档数据的冗余的时候,是不能选择在线处理的方式的。
3.4后处理
后处理的重复数据删除,也被称为离线的重复数据删除,是指在归档处理完成后再执行重复数据删除。归档数据先被写入到临时的磁盘空间,之后再开始重复数据删除,最后,将经过重复数据删除的数据拷贝到末端磁盘。
后处理方式有一个很小的问题在于它需要额外的磁盘空间来保存全部还未删除重复数据的数据集。但是,低成本的SATA磁盘可以用作这部分,因此,对于大多数企业来说,这根本算不上什么问题。后处理的重复数据删除方式带了诸多优势:
● 由于重复数据删除是归档完成后在单独的存储设备上执行,因此完全不会对归档处理造成影响。管理员可以随意制定重复数据删除的进程,无论是怎样的频率都可以,性能更加可靠、可控。
● 先将归档数据保留在磁盘上进行重复数据删除,企业在需要时则可以更加快速的恢复最近归档的文件和数据。
哈尔滨理工大学学报,2010.4
某种角度上讲,在线处理方式也许更适用于小型企业的需求,而后处理方式对于中型及大型企业来说,是更佳的解决方案。
4.选择重复数据删除的方法
4.1能够与当前环境相整合
一个高效的重复数据删除解决方案应该对当前IT环境的影响/中断越小越好。许多企业都选择利用VTL归档来避免影响/中断,以在不改变企业当前归档策略、处理或软件的情况下提升归档质量。因此,基于VTL的重复数据删除技术在部署时对环境影响也应该是最小的。它将更多的注意力集中在了归档这个巨大的重复数据存储池上。
基于VTL的t重复数据删除解决方案通常要求使用专用设备,但这并不影响部署的灵活性。一个充分灵活的重复数据删除解决方案应该即可以以软件包形式提供给用户,也可以提供给用户整体的解决方案(Turnkey Appliance),从而最大限度的使用户的现有资源得以利用。
4.2具备可扩展能力
由于重复数据删除解决方案是用于长期的数据储存的,在容量和性能方面的可扩展能力也是非常重要的考虑因素,而且至少要考虑未来五年甚至更长时间的增长计划。那么,在保证快速访问的前提下,你希望有多少数据保存在磁带上?你需要怎样的数据索引系统呢? 优秀的重复数据删除解决方案提供的架构,无论是在初始部署时,还是面对未来系统的长期增长,都应该能保证最优化(Right-sizing)、最经济的架构规模。集群可以帮助用户满足不断增长的容量需求---即使是N多Petabyte数据增长的环境---而且不会降低重复数据删除的效率或系统的性能。这个架构还为存储库保护的部分提供了故障切换(Failover)功能。
4.3支持分布式应用
重复数据删除技术,不只是能为单个数据中心带来利益,对于具有多个分支机构或多个站点的大型企业来说,它可以让整个企业的分布式应用受益无穷。一个包含复制和多级重复数据删除的解决方案可以将这一技术的优势发挥到极致。
举例来说,一个企业由1个总部和3个区域代表机构构成,可以在区域代表机构部署一台具备重复数据删除功能的容灾设备,使本地存储及向远程中央站点的复制更为高效。这种解决方案使数据复制到中央站点的带宽需求降到最低,它只不过是用来确定远程的数据是否已经包括在中央的存储库中。所有站点中,只有唯一的数据会被复制到中央站点或是容灾站点,否则所需的带宽就会增大。
4.4能够对存储库提供实时保护
保证对删除重复数据的存储库的访问是非常关键的,因此它不能允许有单点故障发生。一个优秀的重复数据删除解决方案应该包括可以在本地存储故障发生时提供保护的镜像功
哈尔滨理工大学学报,2010.4
能,同时也应该具备复制功能以在灾难发生时从提供保护。这种解决方案还应该在出现节点故障时具备故障切换能力,即使是一个集群中的多个节点出现故障,企业也必须能够及时恢复数据同时还要保证业务持续运营。
4.5满足绿色环保的要求
近期的Gartner 报告显示,2008年,将有50%的数据中心出现电力及制冷不足以运行他们高密度的设备的情况。IDC的研究报告也显示,IT部门正在将硬件1/4的成本花在电力上。 而MAID这项创新的存储技术,可以利用大型的磁盘驱动器组,而这些磁盘驱动器只在任意设定的时间才工作。这便减少了电力消耗。当关掉一些磁盘驱动器时,MAID可以提供卓越的电力节约能力,可以为企业的电力成本节省高达1/3。目前市场中的有些解决方案充分结合了MAID技术,帮助数据中心减少至少20-30%的电力成本。
找到最适合的整体解决方案
由于业务应用需要和法律法规的要求,存储的数据量还在不断的增加,重复数据删除也快速上升到至关重要的地位。在大幅消除数据量、削减存储需求、最小化数据保护成本和风险方面,重复数据删除可说是唯一的应对办法。
尽管重复数据删除技术所带来的利益多多,企业还是应该抵御住不时出现的针对这一技术的大肆抄作。无论是哪种方式,重复数据删除的删除比率都可以根据数据自身的格式和保护策略的不同而发生变化。
为了使重复数据删除技术的利益最大化,企业应该从上面提到的几个标准出发,充分考虑,仔细评估,找到真正适合自己的重复数据删除解决方案,而不应该简单的听信于宣传的重复数据删除比率的理论数值。
5.总结
重复数据删除技术为企业信息架构进行融合提供了强大的技术支持,它最大的好处是可以帮助数据中心进行“瘦身”,尤其是基于内容识别的重复删除技术,大大减少存储空间的浪费。作为一种绿色环保的存储技术,重复数据删除技术在未来将大有可为。正因如此,重复数据删除技术被业界公认为是归档技术的下一代发展,是今日数据中心的“必备”技术。
参考文献
[1] 王纪奎,王泓,张乐等. 成就存储专家之路—存储从入门到精通[M].北京: 清华大学出版社,2009.6
[2] 戴士剑,涂彦晖. 数据恢复技术[M]. 北京:电子工业出版社 2007.4
[3] 张冬. 网络存储系统原理精解与最佳实践[M]. 北京:清华大学出版社 2008.11
[4] 吴志峰. 虚拟环境下数据保护的首选[J]. 中国计算机报,2009,5(36):16~17
[5] 王改性,师鸣若.数据存储归档与灾难恢复[M].北京:电子工业出版社,2009.6
[6] W.Curtis Preston,Mike Loukides. Backup&Recovery[M]. O'Reilly Mesia, Inc.,2006.12