企业发展对存储的需求使集群存储走到了存储前列,与集群服务器类似,集群存储也有着很多不同的含义和实现方式,以满足各种不同的应用和商业需求。
1998年Google创立之初,该公司的数据中心放置在两位创始人大学的宿舍内,从那个时候的服务器、大型机价格来看,当时只有100万美元融资的Google不可能购买多少十分先进、高档的服务器或大型机。
众所周知,互联网发展速度飞快,无论是互联网上Web页面数量,还是用户提交的搜索请求数量都爆炸式增长。但是Google搜索引擎却非但没有因此而变得不堪重负,相反一直争取在0.5秒时间内处理完成用户请求,Google服务器系统已经成为高性能计算的一个成功典范。
作为一个容量巨大且访问频繁的存储系统,Google没有采用流行的网络存储技术和附网存储技术,Google采用的存储方法是用最常见、最普通的一个PC机中带两个硬盘的存储方式。Google放弃主流的并行海量数据存储技术最主要的原因是希望降低成本。但GFS(Google文件系统)可实现高效、可靠存储,已被实践检验是有效的海量存储解决方法。
集群不是简单堆积
中科储天产品总监库依楠告诉记者,说到集群,计算机用户大多会直接想到高性能计算集群或普通的服务器集群,这一方面说明计算集群目前影响范围之广,另一方面不得不说是对集群理解的局限。
集群(Cluster)的英文定义直译为“聚集或工作在一起的相同或相似的一组元素”,但我们常说到的各种集群系统不是将组成元素进行简单的堆积,而是希望能将其聚合成在某些核心功能上更加强大的系统,从这个意义上讲,集群其实是我们身边非常常见的一个概念,比如“三个臭皮匠顶一个诸葛亮”就是集群理念在生活中的一个鲜活的实例。
在计算机产品中,这样的理念可以说同样是无处不在的,从上层应用,到计算机硬件、网络都有类似的产品。值得一提的是RAID技术,更可以说是利用是低端硬件组成在容量,性能,可用性都更强大系统的典范。
对于很多计算机系统,如果以高度集成的单一系统去满足用户快速膨胀的需求,将导致系统复杂度迅速提升从而带来成本上的大幅增加,同时系统的灵活性降低。而通过将多个系统松耦合集成的方式将可以降低成本,同时具有更强的扩展性。所以,使用集群理念解决用户的需求是计算机产品发展的一个重要趋势。
集群中的所有节点都会在本地内存中开设缓冲区,当一个节点需要使用其它节点内存中的数据时,这些数据会通过网络先放入本地缓冲区。在两个节点的集群中,如果一个节点失效了,另一个节点可以通过检查缓冲区中的内容将失效节点的任务接管过去。
目前最为流行的方式是用高速或超高速网络传输设备将几台服务器相连,实现并行处理,屏蔽单点失效。目前对集群技术需求最迫切、发展最快的领域主要有:www应用、数据库应用等商业计算领域。集群系统可以通过使用纯硬件的方式或使用软硬件结合的方式来搭建。
存储集群成为趋势
近两年存储集群产品在国际乃至国内存储市场的兴起同样符合以上趋势,一方面信息技术的迅猛发展促使用户对存储产品在容量,性能,可靠性,可管理性方面的需求迅速增长,从而极大地刺激了存储尤其是网络存储市场。
另一方面,传统架构的NAS和SAN产品面对性能和容量快速增长的需求,在性价比、可扩展性等方面开始暴露出诸多弊端。
当集群系统的规模扩大和节点增多时,为实现各个节点对共享数据的高效访问,对存储系统的要求也随之增高,传统的基于网络的存储系统已经不能提供满足这种共享访问所必需的性能。
存储储群一个比较典型的例子是传统的NAS产品,由于采用了数据路径和控制路径都经过NAS控制器的“带内”传输方式,在高性能计算,大规模视频处理等应用中无论整体带宽还是扩展性都已经无法满足用户的需求,在这种背景下,使用集群理念构建的网络存储产品再次成为厂商选择的突破方向之一。
库依楠认为,企业存储管理员们在日常工作中经常会遇到四大类问题,分别为容量可扩展性、性能可扩展性、可用性、可管理性。虽然不是绝对的,但是,这4类问题确实“催生”了许多存储集群产品。
集群存储系统的工作原理基本上都是大同小异的,比如说,所有的设备被整合到一个虚拟的存储池,组成一个透明化的全局文件系统,整个集群系统只能分配到一个驱动器盘符。一来缓解了存储管理压力,二来提高了现有磁盘资源的利用率。此外,还增加了服务器共享数据的能力,避免了因相同文件被重复备份而造成的不必要的资源浪费。
集群存储并非就是那些高不可攀的、联合HPC(High performance computing,高性能计算)环境一起使用的大型顺序带宽(Sequential bandwidth)或并行文件系统的代名词。多用途的集群存储支持传统的商业应用,如电子邮件、数据库和在线事务处理(OLTP)等。
任何等级的不同应用和环境都能从灵活的集群存储系统所提供的可伸缩性(包括性能、容量、可用性和模块性)和虚拟化特性中受益。例如,中小企业环境最初可以部署一个小型的多节点存储系统来满足专门的应用需求,而后随着企业的成长而不断增加系统的性能、容量和功能。
企业集中的存储难题
◆ 容量可扩展性。在不干扰系统正常运作的情况之下,接入新的磁盘阵列,扩大系统的存储容量。
◆ 性能可扩展性。随着系统容量的不断扩大,支持的主机服务器数量不断增加,系统整体的性能也应该有相应的提升,否则很难维持正常运作。
◆ 高可用性。冗余的存储组件和透明化的容灾恢复操作,可确保备份数据的高可用性。
◆ 可管理性。系统升级、数据容灾恢复、存储资源管理,都应该尽可能地实现自动化操作。
软件集群与硬件集群的对比
1、集群解决方案(基于软件的集群产品)
优点:可与企业现已部署的存储设备协同工作;可被应用于异构存储系统;提高了服务器的容灾容错水平。
缺点:无法提高存储系统的容量和数据传输速度;无助于提升存储系统整体的冗余程度和容灾水平。
2、集群存储系统(基于硬件的集群产品)
优点:可提高存储系统的容量和数据传输速度;可通过单一的控制平台来管理所有集群的存储设备;不要求安装服务器软件。
缺点:不适合于企业级应用;需要重新购买硬件设备,不能与企业现有的存储阵列集群在一起。