有人说,我们从来没有真正解决过任何IT问题,只是转移了而已。重复数据删除也不例外。虽然重复数据消除系统使我们的备份和恢复更加容易,但也存在许多挑战。聪明的存储或备份管理员能够理解这些挑战,并尽一切可能来解决它们。
您的备份系统有三种不同的方法来创建重复数据:重复备份所有文件系统或应用程序;复制文件系统或应用增加的备份;以及备份到多个位置的文件(例如,具有相同操作系统或应用程序的多台计算机)。基于哈希的重复数据删除系统(如CommVault Systems、EMC、FalconStor Software、Quantum、Symantec)可以识别并删除所有三种类型的重复数据,但粒度级别受到其数据块大小的限制,通常为8K或更大。Delta-differential重复数据删除系统(如IBM、ExaGrid Systems、Sepaton)只能识别和删除前两种类型的重复数据,但它们的粒度可以小到字节。这些差异通常与重复数据删除率有关,但在某些特定环境中会产生明显的差异,这就是为什么大多数专家建议您测试多个产品。
因为绝大多数备份数据中,约有一半的重复数据来自多次完整备份。使用IBM的Tivoli Storage Manager (TSM)作为备份产品的用户可以获得比使用其他备份产品的用户更低的重复数据删除率。这是因为TSM的分步增量功能,所以用户不需要在TSM备份的文件系统上进行完全备份。然而,因为TSM用户已经完全备份了他们的数据库和应用程序,并且因为在发现重复数据的地方不存在完全备份数据的唯一副本,所以TSM用户仍然可以从重复数据删除系统3354中受益,并且他们的重复数据删除率甚至会更低。
第二种类型的重复数据来自增量备份,增量备份包含自上次完整备份以来文件或应用程序的多个版本。如果每天修改和备份一个文件,备份系统的备份周期为90天,那么备份系统中将存储该文件的90个版本。重复数据消除系统将识别这90个不同版本中的唯一数据段和冗余数据段,并且仅保存唯一数据段。但是,有些文件类型没有不同的版本(如视频、音频、照片或图像以及PDF文件),每个文件本身都是唯一的,不会与同一文件的上一个版本重复。这些类型文件的增量备份将完全包含这些唯一数据,因此没有要删除的重复数据。考虑到与重复数据删除存储相关的成本,一些拥有大量此类文件的用户考虑不在重复数据删除系统上存储这些数据,因为除了增加成本,他们无法获得任何好处。
重复数据删除系统和加密:需要注意什么
重复数据删除系统工作在查找和删除模式;加密系统在消除模式下工作。在将需要备份的数据发送到重复数据消除系统之前,不要对其进行加密,否则重复数据消除率将为1:1。压缩的工作原理有点像加密。它也是一种搜索和排除模式,但它使用了不同的方法。大多数压缩系统的这种方法会导致数据的不规则性并产生类似加密的效果;它还会使您的重复数据消除系统完全失去处理这些数据的能力。
压缩挑战通常会导致希望加快备份速度的数据库管理员和希望消除重复数据的备份管理员之间出现僵局。因为数据库往往会产生大量的数据,而实际的数据量却很少,所以需要对其进行压缩。这也是为什么开启备份压缩功能后通常会比不压缩时快2到4倍。避免这一特殊挑战的唯一方法是使用备份软件产品,该产品集成了数据源重复数据消除和客户端压缩功能。例子包括CommVault的simpana、IBM的TSM或Symantec的NetBackup。
以及多路复用和去重复系统。
备份重复数据消除的下一个挑战是,它只能应用于那些使用虚拟磁带库(VTL)和支持多路复用的备份软件的公司。将多个不同的备份多路传输到同一个磁带驱动器会扰乱这些数据,并完全破坏所有重复数据消除。即使有可以从复用镜像中破译不同备份流的产品(如飞康、Sepaton),我想告诉你的是,不要复用备份他们的设备,因为那只是浪费时间。
考虑重复数据消除。
备份重复数据消除的最后一个挑战是必须使用备份窗口。这种方法可能会使一些重复数据消除系统执行重复数据消除任务,从而导致备份速度变慢。很多人没有注意到这个现象,是因为用户将数据从磁带转移到磁盘,而重复数据删除系统仍然在高速运行。但是,已经使用磁盘分段的用户可能会注意到备份性能的下降和备份数据所花费的时间的增加。并不是所有的产品都有这个特殊的功能,它表现出来的程度也不一样。只有在你的环境下做一个测试,才能详细了解情况。
复苏的挑战更容易理解。大多数重复数据删除系统存储数据的方式会导致最近的备份被逐段记录。如果备份系统未进行重复数据消除,恢复已消除重复数据的备份可能需要更长时间。这种现象被称为“去重复”。
在考虑重复数据删除开销时,请考虑您是否计划使用重复数据删除系统作为磁带复制的来源,因为重复数据删除开销在大规模恢复和磁带复制中非常常见。例如,假设您计划使用速度为140MBps、存储容量为1.5TB的LTO-5驱动器,并假设您已经检查了所有备份磁带,发现在1.5TB的磁带上要存储2.25TB的数据,这意味着您需要获得1.5:1的压缩比。这也意味着您的140MBps磁带机在复制过程中实际运行速度应该在210MBps左右。确保在运行期间,重复数据消除系统能够满足运行要求(如示例中的210MBps)。如果没有,您可能需要尝试另一个系统。
重复数据消除恢复的最后一个挑战是它们仍在恢复中,这就是为什么重复数据消除系统不是“灵丹妙药”。必须恢复的大规模系统需要将数据从重复数据消除系统批量复制到生产系统。只有改变您的备份系统的整体架构,例如从传统的备份系统改为具有连续数据保护(CDP)或准CDP的系统,才能解决这一特殊挑战,这可以将恢复时间保持在几秒钟而不是几小时。
重复数据删除系统可以给你带来在不进行大规模结构调整的情况下,大幅提升当前备份和恢复系统容量的希望。在您签署采购订单之前,请确保您了解重复数据消除的这些挑战。