世纪安信数据科技服务(深圳)有限公司


要避免的 5 大数据中心运营管理错误

浏览: 时间:2023-04-10
然而,员工和技能短缺被普遍认为是数据中心行业关注的一个问题,在2019年AFCOM的数据中心状况调查中,22%的受访者表示他们难以填补设施技术人员工程师和操作员的角色

数据中心的重要性不断增加,几乎每个月都会公布新的大型设施。数据中心运营商/所有者的注意力通常集中在数据中心的设计上,但关注有助于实现高可用性水平的有效运营也很重要。

平均而言,停机时间每分钟造成的损失超过 5,000 美元,人为错误经常被认为是数据中心故障的最大原因,这使得操作员注意到导致代价高昂的事故的常见错误变得更加重要。

 

1、运营部门与设计团队沟通不畅

使团队与目标和计划保持一致对任何企业来说都是最重要的,数据中心行业也不例外。从运营的角度来看,如果数据中心设计不当,可能会影响高效维护和管理数据中心设施的能力。这可能会严重影响运营成本、安全和安保、额外的计划外且可能代价高昂的停机时间,或者至少会增加纠正问题的费用。这可能会损害公司的投资、投资回报率和声誉。

数据中心运营团队承受着不断增加的压力,以满足对灵活性、速度和容量以及支持云计算、移动技术和虚拟化的基础设施不断增长的需求。为实现这一目标,运营团队必须参与设计阶段,以优化根据先进技术和客户业务需求量身定制的数据中心。

让运营团队参与设计过程可以确保从维护和管理的角度考虑重要的总拥有成本,同时优化资源并提高安全性和保障性。

 

2. 员工培训和技能发展不足

拥有一支训练有素且技术娴熟的操作人员可以帮助减少间接成本、人员流失和停机事件。

然而,员工和技能短缺被普遍认为是数据中心行业关注的一个问题,在 2019 年 AFCOM 的数据中心状况调查中,22% 的受访者表示他们难以填补设施技术人员、工程师和操作员的角色。随着所需技能随着技术、社会和商业的快速发展而不断进步,这些担忧不断增加。

由于人为错误是导致数据中心停机的最常见原因,因此对于企业而言,专注于为运营人员提供有效的培训和技能发展是非常重要的。通过实施这一点,运营团队可以了解如何安全地管理和维护数据中心,也知道在发生事件时如何应对。不仅如此,他们还可以识别弱点并防止错误和失误的发生,进一步优化数据中心环境。

 

3. 风险缓解和管理不足

运营团队在数据中心内面临着多种风险,包括断电和制冷、自然灾害和火灾以及网络安全威胁。

组织应有适当的风险管理政策和程序,定期更新以确保它们符合目的。如果 rsk 管理计划写得不好或不是最新的,它会给数据中心运营商/所有者一种错误的安全感,即一切都在管理控制之下。

工作人员应接受良好培训,并应通过开展应急演练和提供持续培训计划来测试他们处理紧急情况的能力。在处理真正的紧急情况时,应进行审查,吸取的教训应记录在案,并作为进一步改进风险管理计划和应急程序的输入。

 

4.政策薄弱,流程之间缺乏整合

非集成流程是全球许多数据中心的常见问题。当不同部门由于团队之间的沟通不畅而在他们的目标和业务利益上不一致时,就会发生这种情况。

例如,设施管理部门可能安排发电机和 UPS 维护,而 IT 部门计划将数据库从一个系统迁移到另一个系统。如果 UPS 系统在迁移过程中的维护期间出现故障,则可能会导致灾难。

组织和团队必须调整他们的政策、程序和流程,以最大限度地提高部门之间的凝聚力和和谐度。这可以通过设置标准或紧急操作程序、程序库方法和供应商管理计划来实现。应实施这些相同的程序以进行有效的变更管理。

建议这些流程与数据中心的业务关键性和成熟度相匹配。

 

5. 低效的文件管理和变更程序

如果没有详细且管理良好的文档,善意的员工就有可能犯下非故意的错误。如果没有适当的流程来记录经验教训和实施这些更改,这些错误可能会反复加剧。

有效的文件应包括商定的操作程序、完整的详细设计图和竣工设计图、应急响应、设备清单等。

理想情况下,这些文档可以通过数字方式访问或打印出来。但是,对于印刷文档,应制定适当的程序以确保某人抽屉中的文档始终反映真实的当前状态。

 

总结和结论

改善运营管理将能够最大限度地减少停机时间。其成功取决于两个因素——通过培训和有效流程确保员工具备正确的能力。 

为了帮助团队避免这些错误,数据中心运营标准 (DCOS)提供了一整套领域来改进数据中心运营管理。

认证数据中心设施运营经理 (CDFOM)培训课程旨在让管理人员在优化数据中心运营的过程中做好充分准备。