更新时间:2018年05月07日 11487浏览
在数据中心行业中,术语"可靠性"和"可用性"通常可互换使用来描述预期的数据中心性能水平。虽然数据中心的可靠性和可用性是相关的,但他们描述的是明显不同的性能特征。
从科学的角度来看,可靠性与可重复性有关。如果同一个实验一遍又一遍地得到相同的结果,那么它具有高度的可靠性。测量可靠性的两种常用手段是:
o平均无故障时间(MTBF),即正常运营的总时间除以故障次数。
o失败率,即失败次数除以正常运营的总时间。
技术意义上的"可靠性"一词通常与"有效性"相结合。有效性是指实际测量的精确度或真实度。如果企业每次都进行10次测量并获得相同结果,则测量结果可能是可靠的。但是,如果测量的结果不一效,它是无效的。
可用性是衡量某事物处于可操作状态的频率。简而言之,可用性是正常运行时间除以测量的总时间。一般而言,有些东西是可用的,但是不可靠的,而有些东西是可靠的,但不是有效的。机房空调可能会运行多年(高可用性),但在保持稳定的机房环境条件(低可靠性)方面做得不好。如果控制恒温器未校准,则其测量的性能无效。
那么,如何衡量数据中心的可靠性呢?答案取决于数据中心设施运营的总体目标和期望。一个可靠的数据中心可以被信任提供连续的操作和运营,只要它在正确的操作和总体设计意图和限制之内。一些高性能计算(超级计算机)设备不需要100%的正常运行时间。他们可以安排"运行"之间的完全中断。它们可能采用一级或二级基础设施拓扑结构构建,因为它们不需要同时维护。其总体可用性可能低于Tier 3级和Tier 4级数据中心的设备,但如果它们在运行期间的故障率非常低,则它们是可靠的,并被认为具有高可靠性。
但大多数数据中心的目标是持续不断地运行IT设备。在这种情况下,人们的目标是提供100%的机房可用性。要达到这个目标,则需要可靠性和有效性。保持数据中心运行的操作流程必须具有可重复性,因为它们始终如一地产生预期结果,并且其结果必须与预期结果相符。
物理基础设施和操作人员是影响数据中心的可靠性和可用性的两种因素。
总的来说,数据中心关键设施行业在提供高质量,高性能基础设施方面做得非常出色。随着行业的发展,数据中心冗余方案从"N"发展到"N +1","2N"到"2(N + 1)"拓扑(其中"N"是设备所需的最少设备数量满足给定系统的需求)。数据中心工程师和设计人员已经吸取以往的经验教训,将这些策略应用到每个关键系统和子系统,包括系统之间的关联控制和接口。现在可以将设计认证为"同时可维护"和"容错".这些设计不仅消除了单点故障,而且即使在设备和系统已隔离进行维护和维修时仍能保持容错。
其缺点是这些设计引入了令人难以置信的复杂性和复杂的切换程序和操作顺序。因此,依靠计算机来积极监测设备和系统性能的健康和状态,并在需要时采取自动行动已大大增加。好消息是,服务器是有史以来最可靠的"机器".它们几乎可以连续监视(受到波特率、轮询时间、扫描速率等因素的限制),并且可以依赖于一次又一次地完美地执行其编程的逻辑。
数据中心运营的常识理念
人们需要牢记这些常识原则,可以帮助提高数据中心的可用性和可靠性。
o简单性比复杂性更可靠。
o计算机比工作人员更可靠。
o设备性能随着时间和使用而降低。
o与质量较差的设备相比,高质量的设备具有更好的可用性和可靠性。
o未经校准的传感器的准确度会随着时间的推移而降低。
o与设备稳定运行相比,启动和停止设备会产生更大的压力。