目录
第一章 总则
第二章 符号和术语
第三章 一般规定
第四章 运维流程
第五章 组织架构及人员管理
第六章 文件管理
第七章 日常维护
第八章 应急管理
第九章 环境健康和安全
第十章 数据中心一体化运维管理
第十一章 质量管理的监督与检查
第十二章 其他
第一章 总则
1.1、范围
本标准给出国网数据中心基础设施运维管理的指南,包括总则、符号和术语、一般规定、运维流程、组织架构及人员管理、文件管理、日常维护、应急管理、环境健康和安全、数据中心一体化运维管理、质量管理的监督与检查、成本管理等。
本标准可为国网数据中心管理者提供基础设施运维管理系统性指导,也可作为用户或第三方评价国家电网数据中心基础设施运维管理水平的参考。
1.2、规范性引用文件
下列文件对于本标准的应用是必不可少的。凡是注明日期的引用文件,仅注日期的版本适用于本标准。凡是不注明日期的引用文件,其最新版本(包括所有的修改单)适用于本标准。
GB/T 33136 信息技术服务数据中心服务能力成熟度模型
GB/T 51314 数据中心基础设施运行维护标准
GB/T 2887 计算机场地通用规范
GB/T 26572 电器电子产品有害物质限制使用管理办法
GB 26860 电力安全工作规程发电厂和变电站电气部分
GB 50174 数据中心设计规范
DL 408 电业安全工作规程
AQ7004-2007 制冷空调作业安全技术规范
GB/T24353风险管理 原则与实施指南
第二章 符号和术语
2.1、数据中心能效管理
是在保证业务连续可用的基础上,应用工业自动化、数据采集分析等多个技术对数据中心全生命周期内连续供应的能源进行综合利用、能效分析评估及改善提升。
2.2、电力能耗指标
PUE(POWER USAGE EFFICIENCY)=数据中心总电力能耗/IT设备能耗,用于反映数据中心电力用于IT设备和辅助IT设备运行的效率衡量指标。
2.3、水能耗使用指标
WUE(WATER USAGE EFFICIENCY)=数据中心耗水量/IT设备功耗,用于反映数据中心用水损耗指标。
2.4、能效
是能源利用效率(数据中心实际消耗的总能耗与IT设备能耗之比)的简称。
2.5、数据中心设施运维团队
以数据中心设施运行提供保障支持为主要工作内容的团队。
2.6、安防团队
以数据中心的消防、周边和安全相关监控管理为主要工作内容的团队。
2.7、综合管理团队
负责数据中心综合管理,包括园区物业管理、行政管理等。
2.8、专业执照
是指政府强制要求的执业证书,如:高压进网许可证、高压电工作业证、低压电工操作证、建(构)筑物消防员证等。
2.9、管理手册
规定了运行维护工作的框架结构、执行范围、组织结构、工作规范及各的主要职责的手册
2.10、操作手册
标准操作流程
对数据中心IT系统、基础设施系统、用户服务系统、安防系统,分别制定相应的标准化操作流程,用来指导和规范日常的运行维护工作的标准操作手册。
维护操作流程
用于规范和明确数据中心运行维护工作中各项设备的维护操作流程、操作步骤
2.11、维护手册
应急操作流程
用于规范应急操作过程中的流程及操作步骤,确保运行维护人员可以迅速启动,确保有序、有效地组织实施各项应对措施的紧急操作手册。
2.12、日常记录表单
在日常运维工作中执行的标准化的操作流程、预防性维护计划、紧急操作流程,进行详细记录,形成的日常记录表单。
2.13、访问控制
是指对主体访问客体的权限或能力的限制,以及限制进入物理区域(出入控制)和限制使用计算机系统和计算机存储数据的过程(存取控制)。
2.14、预期寿命
从开始投入使用时起,一直到因设备功能完全丧失而最终退出使用的总的时间长度。
2.15、应急组织管理
主要针对应急组织架构、应急领导小组、应急管理小组、应急技术与执行小组、应急保障小组的组织的建立与管理。
2.16、应急事件管理
因基础设施设备故障或者公共灾难危害事件引发数据中心服务中断的事件,应纳入事件管理流程,执行应急响应和紧急恢复。包括:地定义基础设施应急事件、基础设施应急响应、基础设施应急预案编制、基础设施应急通讯联络管理。
2.17、应急预案目标对象
应针对重要设施设备及公共类事件制定应急预案。应急预案须明确该预案的适用场景、通知通报、恢复操作步骤等内容。
2.18、应急演练管理
应制定基础设施年度测试演练计划,明确演练项目、演练方式、演练时间、演练内容等项细则。
2.19、桌面演练
对预案的组织架构和应急流程进行验证。组织数据中心基础设施运维人员,通过设计恰当的故障场景,采用参演人员集中培训、讨论、文字考核等手段加深对应急处置策略、手段和应急预案的了解。
2.20、模拟演练
由数据中心基础设施运维团队人员及应急预案的协同单位共同参与,模拟验证应急预案。模拟应急情况下的报警流程、应急操作执行动作、通知通报及恢复等工作。
2.21、实战演练
数据中心基础设施运维机构可以独自或联合其它部门及客户组织实战演练。在数据中心投运前或投运后的计划性维护期间,假设相应的故障场景,组织相关人员按照应急预案流程进行实操性演练。
2.22、应急演练方案
是演练准备的方案和计划,包括风险控制方案、演练剧本(参演人员的台词,流程、时间控制、执行的动作等)。
2.23、应急演练登记表
是参演人员登记和签名表。
2.24、应急演练过程记录单
是演练各项活动执行情况记录。
2.25、应急演练总结报告
是应急演练过程的总结,可暴露问题,促进完善改进措施和行动计划。
2.26、公共灾难和危害事件
主要包括恐怖袭击、炸弹威胁、治安事件等公共安全危害事件,地震、雷击、异常气候自然灾害等。
2.27、基础设施意外故障事件
主要包括火灾及火灾防范系统故障、建筑物内水患、供配电系统故障、备用应急电源系统故障、空调制冷系统故障、安防系统故障和动力环境监控系统故障、通讯系统故障等。
2.28、IT系统类故障事件
包括IT系统故障、IT设备故障、网络通讯系统故障、主干传输线路故障等。
2.29、应急预案
对不同等级的故障事件和灾难事件,针对重要设施设备及公共类事件制定应急预案,主要包括供配电系统、制冷系统、消防、监控、网络等基础设施故障,以及暴雨、暴雪、大风、雷击、地震等气候灾难。
2.30、应急通讯管理
要避免应急发布时大群多头现象,按照决策等级情况建立不同的群组,同时应避免层级过多的情况出现,尽量扁平化。群组内明确相应负责人及汇报人,实现信息的准确传达与汇总。
2.31、应急通讯平台工具
具有在应急事件发生时快速的有效的通知到相关执行人员、参与决策组织。通过应急通讯工具平台完成应急事件发布、决策发布、处置执行情况的快速收集和反馈。
2.32、通讯工具
可由多种沟通联络渠道组成,可采用电话会议、视频会议、无线通讯网络、第三方平台等单种或多种方式组成。
2.33、国家数据中心/数据中心
指国家电网数据中心
第三章 一般规定
3.1 数据中心已参照《数据中心设计规范》GB50174中数据中心分级依据,和《数据中心基础设施运行维护标准》GB/T51314中的方法和要求,根据自身的使用性质、管理要求及其在经济和社会中的重要性确定,建立运维管理流程、运维管理团队与运维管理制度,并给予落实,以确保数据中心的运行满足IT系统运行需要。
3.2数据中心的运维管理流程应覆盖数据中心运维管理的全过程,并制定计划进行周期性检视与修正。
3.3数据中心的运维管理队伍应该满足业务开展需要,技能与资质符合政府监管要求。
3.4数据中心的运维管理制度应涵盖数据中心的各项工作。
3.5数据中心应详尽识别潜在的风险,并制定对应的风险应对方案,制定计划进行演练。
3.6数据中心的运维活动应关注成本,在确保可用性不受影响的基础上实施节能减排。
第四章 运维流程
4.1 一般规定
数据中心宜依据GB/T 24405 信息技术服务管理标准,建立数据中心服务支持流程,包括服务请求管理、事件管理、变更、问题管理。
4.2服务台
4.2.1 数据中心应建立服务台,以记录、分解、跟踪来自故障的事件、服务请求、投诉建议及其他事项。
4.2.2服务台宜建立和提供多种沟通渠道,包括电子邮件、热线电话、移动应用等,提供7×24小时服务响应和支持。
4.2.3 服务台应设置专门服务座席,由专人负责服务请求、事件等的集中受理和跟踪。
4.2.4 数据中心应建立服务台相关管理制度,明确服务台工作职责、工作内容、监督考核等方面要求。
4.3 服务请求管理
4.3.1数据中心应及时响应并记录来自内外部的各类服务请求,包括:
1. 应接受来自用户的服务请求,并记录相关信息。
2. 应对服务请求进行确认,根据客户合约和SLA要求,判断是否需履行此服务请求。
3. 应根据服务请求类型,分派服务请求至数据中心服务团队。
4.3.2 应根据要求履行服务请求,包括履行服务请求应包括:
1. 应有明确的服务请求分类分级定义、处理时限和升级规则。
2. 应履行服务请求,执行相应的响应、处理、升级等活动。
3. 应监督、监控服务请求处理进展,并根据需要协调解决。
4.3.3 应对服务请求进行回顾并关闭。包括:
1. 应明确服务请求关闭规则,服务请求履行完毕应与用户书面确认。
2. 应定期回顾、更新服务请求列表并告知用户。
3. 宜对服务请求的完成情况进行满意度调查。
4. 应设计服务请求管理绩效指标,用于考量服务请求执行过程的符合度和有效性,如服务请求按时解决率、及时响应率等。
4.4事件管理
4.4.1 所有事件均应被记录,包括接收的事件和主动发现的事件。
4.4.2 应对事件进行分类分级,包括:
4.4.2.1应明确事件的分类分级的定义
4.4.2.2应按事件的影响度和处理优先级,确定事件等级。
4.4.2.3应定义各等级事件的响应时间、恢复时间、解决时间目标。
4.4.2.4应建立重大事件子流程。
4.4.3 应快速解决影响数据中心服务的事件。包括:
4.4.3.1应对事件进行分析,尽快处理解决,并记录事件的解决方法。
4.4.3.2事件涉及人员应该能够访问、匹配并关联相关信息,包括相关服务请求、已知错误、问题解决方案和配置管理数据库(CMDB)。
4.4.3.3应监督、监控事件处理进展,并根据需要协调解决。
4.4.4应定义和执行事件升级子流程,包括:
1. 应明确定义事件升级规则,包括技术升级和管理升级处理规则
2. 符合事件升级规则的事件,应根据事件升级规则进行升级和转移委派等以确保事件的及时解决。
4.4.5 事件解决后,对事件处理过程进行回顾并关闭事件。包括:
1. 应有明确的事件关闭规则。
2. 应在关闭事件时对事件的记录进行更新,确认事件的最终分类和分级,受影响的服务,以及导致事件发生的配置项等。
3. 应设计事件管理绩效指标,用于考量过程的合规性和有效性,例如事件及时响应率、按时解决率等。
4.5问题管理
4.5.1 应明确问题触发条件,并识别问题。包括:
4.5.1.1应明确问题来源和触发条件。
4.5.1.2应识别问题并记录。
4.5.2 应对问题进行分类分级。包括:
4.5.2.1应明确问题分类分级的定义。
4.5.2.2应按问题的属性划分问题分类和优先级。
4.5.3 应检查问题产生异常的根本原因。包括:
4.5.3.1应分析问题现象和关联事件,定位产生异常的根本原因。
4.5.3.2应根据需要转移委派后线支持人员处理。
4.5.4 应制定问题解决方案并实施。包括:
4.5.4.1针对问题的根本原因,提出并实施根本解决方案,并记录解决过程。
4.5.4.2暂时无法根本解决的问题,应采用规避措施作为临时解决方案。
4.5.4.3应监督、监控问题处理进展,并根据需要协调解决。
4.5.5 应对问题进行回顾和关闭。包括:
4.5.5.1应有明确的问题关闭规则。
4.5.5.2应回顾问题的解决过程与结果。
4.5.5.3应设计问题管理绩效指标,用于考量过程的合规性和有效性等。
4.6变更管理
4.6.1 应明确变更管理范围,制定变更策略。包括:
4.6.1.1应制定变更策略,包括但不限于变更范围、变更的分类分级标准;实施前变更应被测试;实施过程中应及时与相关方进行沟通。
4.6.1.2新服务或服务重大变化的落实应参照变更管理执行。
4.6.1.3宜定义数据中心标准变更类型,以简化数据中心变更审批和实施过程。
4.6.1.4对紧急和重大变更的授权和实施,建立独立的策略和子过程。
4.6.2 应接收、记录并评估变更。包括:
4.6.2.1所有变更都被记录。
4.6.2.2应接收变更申请,并检查变更申请的完整性,评估变更的影响、风险和需要的资源。
4.6.3 应制定变更方案。变更方案内容应包括变更原因、变更实施方案、实施计划、回退方案或补救措施等。
4.6.4 所有变更均应经过评审和授权后,方能执行。高等级变更宜组织正式的变更评审会议,由基础设施运维、客户服务、运营管理等相关部门进行共同评审后,做出变更评审结论。
4.6.5 应监督变更执行进展,协调变更实施。包括:
4.6.5.1应全程推进、协调变更的实施。
4.6.5.2应对变更实施结果进行回顾及验证。
4.6.5.3应更新设备管理信息,并根据需要更新操作手册以及必要培训。
4.6.6 应对变更实施过程进行回顾与关闭。包括:
4.6.6.1应有明确的变更关闭规则。
4.6.6.2应回顾变更实施的过程和结果。
4.6.6.3设计变更管理绩效指标,用于考量过程的合规性和有效性等。
4.7风险管理
数据中心应建立风险管理过程,控制数据中心建设和运行风险。风险管理的实施方法可依据GB/T24353 《风险管理 原则与实施指南》。
4.7.2数据中心的风险管理的内容和过程,包括风险背景建立、风险评估、风险处置、批准监督、监管审查、沟通咨询六个方面,其中监管审查、沟通咨询贯穿于风险背景建立、风险评估、风险处理、批准监督步骤过程中。
4.7.3数据中心基础设施运维工作风险管理应涉及人员的角色和责任宜结合信息安全风险管理相关体系进行分类定义,并建立管理机制。
4.7.4数据中心应依据基础设施运维工作范围,确定风险管理对象、范围、实施风险管理的准备、相关信息的调查和分析背景的建立。
4.7.5数据中心运维团队宜密切关注内外部环境变化,并评估变化可能带来的风险,包括:
4.7.5.1数据中心业务和客户的变化,组织架构和人员的变化,技术上的改变等;
4.7.5.2 相关法律法规的变更。
4.7.6数据中心风险管理应制定风险评估计划、评估方案、评估方法和工具,并定期回顾和完善。
4.7.7数据中心应定期识别和记录影响数据中心安全运行的各类风险。可从以下来源识别数据中心安全风险:
4.7.7.1已发生的安全事件和故障;
4.7.7.2数据中心人员日常运维中主动发现的隐患;
4.7.7.3监管方、客户方和第三方在审计中发现的问题和隐患;
4.7.7.4在内部检查中发现的风险隐患。
4.7.8数据中心风险识别过程除技术风险外,还应涵盖以下类型的风险:
4.7.8.1客户与合约:合约及SLA执行上的风险等;
4.7.8.2供应商管理:设备供应商、维保服务商、运营商、物业等方面可能影响安全运行的风险等;
4.7.8.3团队管理:组织架构、岗位设置、人员能力方面的风险等;
4.7.8.4制度流程:制度流程缺失、不健全等方面的风险等。
4.7.9数据中心应在风险评估之前,应从风险发生的后果、可能性、度量方法、等级等方面制定评价风险重要程度的标准,并持续不断地检查和完善。
4.7.10数据中心风险管理工作应针对已识别的风险进行定性和定量分析,根据风险发生可能性和影响确定风险等级,综合评价风险状况,并形成风险评估报告。
4.7.11数据中心风险管理工作应对评估出的风险,选择相应的风险处置措施,确定风险处置计划,包括风险处置措施、负责人、计划完成时间等。
4.7.12数据中心风险管理工作应对风险处置计划实施情况进行定期跟踪,对风险处置措施实施后的残余风险进行评估,确保风险可控可接受。
4.7.13数据中心风险管理应对背景建立、风险评估、处置的结果进行批准监督,建立批准监督流程和机制,并形成管理制度。通过批准申请、批准处理和持续监督三个批准监督过程,对风险管理活动做决策和监管。
4.7.14数据中心风险管理应对批准的有效期、风险背景的变化情况进行持续监督,并形成监督记录。
4.7.15数据中心风险识别、评估及处置过程应形成制度记录文档。
4.7.16数据中心宜对风险管理的背景建立、风险评估、风险处置和批准监督全过程进行监控和审查,并输出相应的过程审查记录。监控审查内容宜包括:
4.7.16.1风险管理过程有效性及成本有效性;
4.7.16.2风险管理结果的有效性和符合性;
4.7.17数据中心风险管理的审查工作应对高等级的风险每年审查一次,其他等级风险二年至少审查一次。审查方式可以为现场或非现场的内部审查、外部审查和第三方检验检测机构审查。
4.7.18数据中心应建立风险管理的沟通咨询机制,保障风险管理中的背景建立、风险评估、风险处置、批准监督活动过程顺利有效,相关行动人员的协调统一,以及有效的知识技能培训咨询。
4.7.19数据中心沟通咨询过程应按照制度输出相应的沟通咨询度记录,并及时向内外部相关人员报告。
4.8 能效管理
1 数据中心能效管理是在保证业务连续可用的基础上,应用工业自动化、数据采集分析等多个技术对数据中心全生命周期内连续供应的能源进行综合利用、能效分析评估及改善提升。
2 数据中心机房应按照设计相关要求做好维护管理工作。
3 针对维护管理中出现的问题,应及时评估分析并优化改进。
4 采用能源利用效率(PUE/WUE)作为机房整体能效的衡量指标。
5 应制定热源安全管理制度,明确控制机房内部和外部产生热量的工作细则,在保障机房设备工作温度的情况下,达到节能降耗的目的。
6 数据中心应支持对内部各种设备的能耗进行综合管理。
1 通过采集和监控各类用能系统(电气、暖通、电梯、给排水等)整体的实际运行状态,找出关键耗能点和异常耗能点,进行控制和管理。
2 能效管理体系须包含三个子系统:即能耗的采集、分析评估与优化。
1 数据的收集宜采用自动化的监控系统和工具,借助智能电量仪、智能传感器等,并经监控系统进行统一数据上传和存储,减少人为因素影响。
2 数据中心能源损耗数据应按照各物理机房模块、子系统、设备分别进行计量统计和可视化展示,包括IT设备运行功耗、电力线路损耗、制冷系统能耗等。
3 应计算并可视化展示实时、日、月、季、年的能效数据(PUE),宜计算并可视化展示水效(WUE)。
4 宜对保证数据中心连续运行的电力、制冷等关键系统的安全运行范围、系统最大承载能力、最佳效率区间等进行统计。
1能够提供多种能耗分析如同比、环比、排名等方式,可实现对区域能耗、具体能耗类型、设备类型能耗等进行分析,并可生成设备能耗与系统能效分析报告。
2 应能计算发现低利用率设备、低能效设备与异常能耗设备,形成节能操作工单或实现节能自动控制。
3 需建立合理的评估机制,在机房实施相关节能方案后,应能对比机房节能方案实施前、后能耗数据,找出存在的主要问题并提出改进建议。
1 数据中心能效优化,应从机房、供电 、散热、机房布局、设备选型等多个方面考虑降低能耗。
2 应当建立完整的绿色能效管理制度,为数据中心绿色能效发展提供体制机制保障。
3 宜应用模拟测试等优化方法,分析和测试相关变更可能对电源容量和冷却能力配置规划产生的影响。
第五章 组织架构及人员管理
5.1运维组织管理
5.1.1数据中心等级应符合现行GB 50174 《数据中心设计规范》的相关规定。应明确数据中心组织架构、岗位配置和各岗位工作职责,并形成组织架构图及岗位职责书面文档。
5.1.1.1对于A级数据中心应具备完整的运维团队,具备7*24小时服务响应和支持能力,以满足业务和客户服务需求。
5.1.1.1B级与C数据中心宜根据其数据中心规模与定位选择服务级别和服务模式。
5.1.2 数据中心应根据自身特点和使用需求,选择相应的运维服务模式。数据中心运维服务组织模式主要包括:
5.1.2.1自主维护模式:所有运维团队和人员为组织自有人员,日常维护自主实施;
5.1.2.2全外包模式:由第三方服务商提供全部驻场运维服务团队并进行管理,组织保留少量运营管理人员,进行服务管理和监控。
5.1.2.3部分外包模式:骨干运维人员为组织自有人员,值班岗等非关键岗位人员采用外包驻场方式,由组织运维人员进行现场管理。
5.1.3应根据数据中心等级及业务功能和服务需求,配置相应数据中心服务团队。数据中心运维组织架构中所配置的团队与岗位包括:
5.1.3.1数据中心客户服务团队:数据中心提供服务的接口团队,也是协调客户与数据中心技术性服务团队的关键岗位。客户服务团队工作职责应包括以下内容:
5.1.3.1.1负责数据中心中客户需求的管理;
5.1.3.1.2负责数据中心中客户相关工作协调。
5.1.3.2数据中心技术团队:以数据中心技术、规划、建设等为工作核心的团队,工作重点应包括以下内容:
5.1.3.2.1负责数据中心的整体资源分配使用;
5.1.3.2.2负责数据中心项目建设与改造升级;
5.1.3.2.3负责数据中心数据中心规划建设设计和技术研究;
5.1.3.2.4负责对数据中心运维工作的技术支撑和标准的制定。
5.1.3.3数据中心IT团队:以服务器、网络设备等业务设备和系统维护支持为主要工作,主要包括但不限于以下内容
5.1.3.3.1负责IT设施的日常变更与服务处理;
5.1.3.3.2负责IT设施的现场操作服务提供;
5.1.3.3.3负责客户远程技术支持工作。
5.1.3.4数据中心设施运维团队:以数据中心设施运行提供保障支持为主要工作内容,主要包括以下内容
5.1.3.4.1负责数据中心设施的日常维护管理(巡检、定期维护、故障应急处理等);
5.1.3.4.2负责数据中心各设施维护厂商管理;
5.1.3.4.3负责与外部启用或部门的沟通与处理。
5.1.3.5安防管理团队:负责管理数据中心的消防、周边和安全相关监控系统,主要职责包括以下内容:
5.1.3.5.1负责数据中心人员、设备出入的安全管理;
5.1.3.5.2负责数据中心建筑消防系统监控、火警响应、灭火系统操作;
5.1.3.5.3负责数据中心门禁权限、视频监控系统管理;
5.1.3.5.4负责数据中心建筑及周边安全巡检和安全事件响应。
5.1.3.6综合管理团队:负责数据中心综合管理,如园区物业管理、日常运营管理等。主要职责可包括以下内容:
5.1.3.6.1负责数据中心园区物业管理;
5.1.3.6.2负责数据中心人事、行政、财务等综合性管理事务;
5.1.3.6.3负责数据中心调度计划管理与跟踪,包括团队工作计划执行情况、培训完成情况、计划性维护完成情况等;
5.1.3.6.4负责数据中心前台管理、参观接待等。
5.2能力要求
5.2.1 数据中心运维人员应满足政府法规对该岗位从业的强制要求。
5.2.2数据中心运维团队应确保各岗位人员具备运行所需的经验和技术能力,运维人员能力应覆盖数据中心运行所需各专业技能。
5.2.3数据中心运维关键岗位应做到A/B角配置(如:专业工程师、班长等关键岗位)。
5.2.4 数据中心运维团队人员上岗前必须测试合格,具有独立操作能力。
5.3 岗位培训
5.3.1数据中心应制定年度运维人员培训计划,培训计划应涵盖数据中心运行各相关系统和管理领域,包括各系统工作原理、操作流程、应急预案、以及管理制度等。
5.3.2数据中心新员工须经过岗前培训和考核才能上岗,岗前培训内容除包括理论培训外,还应包括数据中心主要设施设备的现场操作训练。
5.3.3数据中心对在岗人员应每年进行岗位能力培训。
5.3.4 数据中心人员培训的主要形式包括:
5.3.4.1技能培训与认证;
5.3.4.2经验总结与分享;
5.3.4.3交流学习等。
5.3.5数据中心应对员工培训计划的执行情况进行管理和追踪。对数据中心运维团队的培训和训练应记入员工档案,并保留培训记录备查。
5.4团队建设
5.4.1 数据中心应有专人负责数据中心人员日常管理,包括但不限于日常排班、考勤加班、资质管理、绩效考核等。
5.4.2新进人员在岗位试用期结束前应进行考核,对其是否达到岗位能力要求进行评估,考核内容宜包括但不限于公司管理制度和流程、设施维护理论知识、设施维护实操技能等。
5.4.3数据中心人员绩效考核宜包括安全运营状况、岗位纪律遵守情况、日常工作完成情况、培训和能力提升情况等,并与人员的职级与薪资调整相挂钩。
第六章 文件管理
6.1一般规定
6.1.1本标准规定了数据中心运行维护工作的管理手册的要求、运维操作手册的标准、记录要求和质量审核制度。
6.1.2保障数据中心安全可靠运行,必须要制定管理手册、操作手册、日常记录表单和质量审核制度。
6.1.3以本标准为指导,制定数据中心操作手册,以规范的操作保障数据中心的安全、稳定运行,操作手册包括:标准化的操作流程、预防性维护计划、紧急操作流程。、
6.1.4数据中心所有运行维护工作,需要以管理手册为指导制定操作手册和记录表单。
6.1.5数据中心文件管理要求设定文档的起草、审批、变更、存档、分发、执行、销毁等职责权限。
6.1.6文件管理编撰应遵循正确、完整的要求,统一字体、字号、格式、版本号符合运行维护部门要求。
6.1.7要求建立文档起草小组,由运维部门负责人担任直接领导,小组成员必须具备相关数据中心运维经验。
6.1.8需设立专职文档管理员,建立和完善档案管理的相关制度,包括运行维护规范《文件树》的建立、文件管理的接收、整理,归档、文档的提供。
6.1.9要求建立运行维护管理规范审核制度。
6.1.10由运行维护管理部门进行每年至少1次的评审工作,包括:临时审核、常规审核。
6.2定义
6.2.1管理手册
规定了运行维护工作的框架结构、执行范围、组织结构、工作规范及各部门的主要职责的手册。数据中心运维管理规范的制定要求明确职责:包括负责人、制定者、审定者、批准者。
6.2.2操作手册
l 标准操作流程
对数据中心IT系统、基础设施系统、用户服务系统、安防系统,分别制定相应的标准化操作流程,用来指导和规范日常的运行维护工作的标准操作手册。
l 维护操作流程
用于规范和明确数据中心运行维护工作中各项设备的维护操作流程、操作步骤的维护手册
l 应急操作流程
用于规范应急操作过程中的流程及操作步骤,确保运行维护人员可以迅速启动,确保有序、有效地组织实施各项应对措施的紧急操作手册。
运维部门制定的各类操作手册要求打印归档,每年至少1次对手册进行审核、更新,切实保证各类操作手册的可行性。
6.3日常记录表单
在日常运维工作中执行的标准化的操作流程、预防性维护计划、紧急操作流程,进行详细记录,形成的日常记录表单。
数据中心运行维护工作日常记录表单,要求定时提交每月不少于1次,由运行维护管理团队进行打印存档或电子版存档,档案保存时间不少于三年。
6.4运行维护管理规则生命周期
6.4.1.1运行维护管理规范的起草应有充分、合理的依据,标准的制定不得与国家的法律法规、相关规范相抵触。
6.4.1.2明确运行维护规范规定的内容、原因、起草目的,执行目的、适用的范围。
6.4.1.3要求建立文档的更新历史记录,便于追踪该文档的修订过程。
6.4.1.4操作类手册要求按各类设备不同的操作方式,除文字描述外增加图片、图例、表格,将步骤中某些细节进行形象化和量化。
6.4.1.5操作类手册应在首页包含但不限于以下内容:撰写人、审批人、版本号、编撰日期、适用范围。
6.4.1.6运行维护管理规范起草完成,需提交执行部门负责人进行内容审核。
6.4.2.1运行维护管理规范的审批须遵循二级审批制度,同时确定生效日期,执行日期。 二级审批是指在企业内部控制中,对事项实行二级控制把关的审核、审查、审批制度和办法。
6.4.2.2运行管理规范经最终批准人签批后,方可作为有效文件,否则视为无效文件,不可执行。
6.4.3.1运维管理团队负责运行维护管理规范的发布。
6.4.3.2最终签批后的文件以电子版为主要发布形式。
6.4.3.3电子版发布时以不可修改的文件格式发布,这些格式包括PDF格式、 图片格式。
6.4.4.1文档管理员将审批通过的运行维护管理规范进行编号,并加入运行维护管理规范《文件树》总目录。
6.4.4.2文档管理员在工作环境内指定地点按类别存放运行维护管理规范,标注存档日期,确保文件便于查找。
6.4.5.1要求建立运行维护管理规范培训考核制度、日常操作考核制度。
6.4.5.2要求对每一个运维人员进行各类设备操作手册的培训,并进行培训考核。
6.4.6.1运行维护管理规范一旦发布使用,未经运维部门管理者批准不得随意更改,如须更改应提出理由,按变更流程执行。
6.4.6.2运行维护管理规范变更需提交《变更申请单》并详细描述变更内容,由运行维护管理团队进行审核、批准,遵循二级审批制度,进行更新后发布。
6.4.7.1运行维护管理规范销毁需满足运行以下要求:已不适用运行维护管理需要、有其他规范可代替该规范的工作,并提交《文件废止审批单》至运维部门负责人。
6.4.7.2运行维护管理规范的销毁须遵循二级审批制度。
6.4.7.3被废止文件已被打印为纸面版,须使用碎纸机销毁。
6.4.7.4同一运行维护管理规范的新版本生效时该规范旧版本自动废止。
6.4.7.5文档管理员负责运行维护管理规范《文件树》的更新、并邮件或公告方式通知相关运维团队。
第七章 日常维护
7.1 日常运维
是通过运维工作支撑和保障数据中心所承载的各类业务安全、稳定、连续运行。一般数据中心运行维护工作内容包括:日常运行维护管理、安全管理、应急管理、风险管理、能效管理、自动化管理、资产管理与服务管理等。
包括供配电、暖通空调、消防、监控与安防等工作内容。本标准主要涉及数据中心基础设施的日常运维。
7.2 基础设施日常运维工作内容
7.2.1.1 运行环境检查、运行参数检查:定期巡检设备外观、运行参数,包括外壳、接线、输入电压电流、输出电压电流、频率、接地电阻、母线温度、开关端子及接线端子温度等参数、设备显示屏报警信息、标牌等;
7.2.1.2 高低压断路器,包括对断路器灭弧室、机械结构等检查,高压断路器分、合闸回路和保护闭锁回路检查,对低压断路器的脱扣单元采用专业测试仪器检测,对保护装置进行相应的整定值校核,并出具专业的测试报告;
7.2.1.3 低压电容补偿柜,包括补偿器检查、电容回路检查,对电容器采用专用测试仪器检测,检测电容器电容值是否偏差,提供每台电容器详细电容值报告,分析电容器使用情况;测试系统谐波,测量不同地点的谐波,出具谐波检测报告;
7.2.1.4 高低压开关柜,包括对所有母线、抽屉柜的清洁无尘情况检查,柜体机械构件检查,对所有母线采用力矩扳手按照出厂要求进行力矩校核,检查柜体一次回路、二次回路,测量一次回路绝缘电阻,对设备运行时的母线进行红外成像检测,提供专业的温度成像报告和器件发热分析,备用开关手动或电动闭合和分断功能测试;
7.2.1.5 变压器,检查内外部灰尘杂物、内外部螺丝、温控器、绝缘支柱、冷却风扇,测试超温报警,跳闸等保护操作,测试绝缘电阻、接地、变压器运行噪音,测试电气接线点及触头是否过热、对正常运行时的母排连接处进行红外成像检测,提供专业的成像报告和器件发热分析;
7.2.1.6低压双电源切换柜,自动投入及自动投切装置功能测试;
7.2.1.7 其他测试和检查,包括三相平衡与中线电流检查、机械移动装置灵活性检查、电能质量检查、红外成像检查、接地检查、继电保护装置定值检查和校验确认、电力测量仪表精度检查测量(电压、电流、功率因数等)、表计功能验证等。
7.2.2.1UPS设备,现场及其外观检查,设备显示屏报警信息检查,风扇运转情况检查,运行参数测量:输入电压电流、输出电压电流、直流电压、总谐波失真、频率等,并机切换测试;
7.2.2.2 滤波器,外观检查,运行参数测量:输入电压、总谐波失真等;
7.2.2.3 蓄电池,外观检查,有无鼓胀、漏液、接头过热现象,浮充状态下电池电压、内阻的检测,电池放电状态下(放电深度控制在10%-30%内)电池放电持续时间、电池放电过程中的负载电流、放电之前的总直流电压、放电之后的总直流电压、电池后备时间等参数的测试;
7.2.2.4 STS静态开关,电路转换测试。
7.2.3.1柴油发电机设备,定期检测:每月1次机器启动、并机、带负载的运行测试;
7.2.3.2 发电机开机静态检查,发电机开机前检查:检查润滑油位、冷却液位、燃油油量,检查柴油机供油、润滑、冷却等系统各管路及接头有无漏水、漏油现象,检查启动蓄电池电压,检查发电机内循环水温度,开机前对发电机系统设备、仪表初始状态等及其他方面检查;
7.2.3.3 模拟市电失电柴发机组自启带载运行:检查发电机自动启动,检查机组并机情况,检查发电机带负载情况,检查机油压力、水温、电压、频率、转速等各项参数,检查机组油路、水路和气路的渗漏情况,有无漏油、漏水和漏气现象,检查机组各处的连接和紧固情况,有无松动和剧烈震动,检查机组各种保护和监视装置是否正常,检查机组运行的输出功率、输出电压、输出电流、功率因素、转数等各种运行参数;
7.2.3.4 发电机停机后检查及报告,各控制开关应恢复自动档,检查发电机自动停运和规程设置,及时提供测试情况报告;
7.2.3.5 假负载,外观检查,电阻测量,防护等级检测。
7.2.4.1 精密空调设备,定期检测:每季度1次,对精密空调室内、外机(风冷系统),精密空调室内机、冷水机组(水冷系统)进行全面的检测;
7.2.4.2 运行工况检查,检查主控板和图形显示器的工作状态;
7.2.4.3 参数设置检查,检查设定参数,控制电路,并根据实际需要调整各项运行参数,校验测量参数的精准,校正机组传感器温湿度显示值;
7.2.4.4 过滤网检查,检查空气滤网,视情况清洗或更换,清洗蒸发器和冷凝器翅片;
7.2.4.5 压缩机和风机检查,检查压缩机、风机的运行电流值,检查压缩机和风机绝缘电阻;
7.2.4.6 制冷系统检查,检查制冷系统运行情况,检查运行压力,检查膨胀阀的工作状态,必要时调整过热度,使设备处于最佳状态;检查冷媒液镜、视情况补液或更换干燥过滤器;制冷剂管路泄露检查;检查制冷系统辅助部件的工作状态,如电磁阀、干燥过滤器等;
7.2.4.7 加热系统检查,检查电加热器的各级加热电流及各电气接点是否正常,电加热器的过热保护是否灵敏;
7.2.4.8 加湿系统检查,检查加湿罐,视情况清洗或更换,检查电磁阀;
7.2.4.9 阀门及管道检查,检查冷媒管道和加湿系统供水管道是否正常,检查冷凝水积水盘及排水系统管道是否畅通;高压压力、低压压力(风冷系统),冷冻水压力、温度,冷却水压力、温度(水冷系统),风机运行情况,灰尘情况等
7.2.4.10 电气单元检查,检查每个接触器触点、接线,必要时做保养或更换,检测高低压保护装置,检查元器件、接线、安装等有无异常,紧固内部线路连接;
7.2.4.11 故障状态检查,记录机组报警内容,并对报警内容进行分析;
7.2.4.12 新风系统检查,测量新风温湿度、风速、机房正压值。
7.2.5.1 包括消防报警及联动设备、气体灭火设备、水喷淋设备、水喷雾设备、消火栓设备、早期烟雾探测设备,定期检测:每月1次,对消防设备进行全面的检测;
7.2.5.2 对探测器进行模拟火灾响应试验和故障报警试验;
7.2.5.3 对消防报警系统的主机设备、控制设备、探测器设备检测;
7.2.5.4 对消防报警联动设备进行测试;
7.2.5.5 对消防广播设备进行消防联动测试;
7.2.5.6 对气体灭火设备的钢瓶、电磁阀,管道、阀门设备进行测试,检查记录气体灭火钢瓶压力、灭火器有效期等;
7.2.5.7 对喷淋灭火设备的管道、阀门设备进行测试;
7.2.5.8 对消火栓设备的管道、阀门设备进行测试;
7.2.5.9 检查设定参数,控制电路,并根据实际需要调整各项运行参数。
7.2.6.1 监控与安全防范设备,定期检测:每两月一次设备检测;
7.2.6.2 环境和设备监控设备系统参数检查;
7.2.6.3 从监控软件上读取各设备的监控数据,与设备自身控制器显示数据进行对比,检测监控系统是否正常:UPS监控准确性检查、数字电量仪监控准确性检查、配电开关状态监控准确性检查、漏水监控检查、空调监控准确性检查、温湿度监控准确性检查、门磁报警监控状态检查、视频监控系统状态检查;
7.2.6.4 漏水报警系统漏水模拟试验,测试报警的准确性及灵敏度;
7.2.6.5 检查门禁设备每个读卡器外观是否良好、感应卡是否灵敏;通过门磁测试工具检测门磁是否正常,吸力是否足够;检查门禁控制器、协议转换器的通讯,门禁控制功能检查,门禁权限变更验证;
7.2.6.6 微波红外双鉴探测器、报警主机检查,报警输出功能验证;
7.2.6.7 闭路电视监控系统,检测前端每个摄像头的监控图像质量,评估摄像监控范围有无死角,检测后端存储设备的容量是否满足监控图像保留要求,检测后端存储设备、监视器的回放功能,检测监控软件的自动识别、分析功能。
7.2.7.1 定期检测环境温湿度、空气洁净度(如粉尘、SO2等)、照度、电磁场、正压、等电位、接地、温度场及机房微环境分布等。
7.3 验证与健康评估
7.3.3.1 数据中心动力系统运行健康体检范围
机房电气系统、暖通系统、计量器具:
7.3.3.2 电气系统的测试检查实施范围
UPS配电系统:变压器低压输出柜下端至UPS配电系统末端的测试检查;
7.3.3.2.1动力配电系统:变压器低压输出柜下端至动力配电系统末端的测试检查;
7.3.3.2.2 柴油发电机系统:柴油发电机机组、供油及油路系统和低压配电柜系统的测试检查。
7.3.3.3暖通系统的测试检查实施范围
7.3.3.3.1 室内精密空调:风冷直膨型恒温恒湿精密空调全系统;
7.3.3.3.2 新风系统。
7.3.3.4环境质量测试检查实施范围
7.3.3.4.1开机温度测试
7.3.3.4.2开机相对湿度测试
7.3.3.4.3开机相对温度变化率
7.3.3.4.4尘埃粒子含量测试
7.3.3.4.5光照度测试
7.3.3.4.6主机房与走廊正压差测试
7.3.3.4.7无线电干扰场强测试
7.3.3.4.8磁场干扰环境场强测试
7.3.3.4.9空调送回风温差测试
7.3.3.4.10噪音测试
7.3.3.4.11输出端中性线与PE线之间电位差测试
7.3.3.5机房有害空气质量检测
7.3.3.5.1机房内气体含量(氧气、硫化氢、二氧化硫、三氧化硫、氢气);
7.3.3.5.2ECC内气体含量(氧气);
7.3.3.5.3电池间气体含量(氢气、氧气)
7.3.3.6计量器具精确度检定/校准
测试验证依据包括国家相关规范标准、项目用户需求、技术规格书、施工图纸、国际相关规范标准等,具体由数据中心健康体检单位在实施方案中具体阐述,由业主审定。
工程施工招、投标文件
工程施工项目合同书
项目技术规格书、图纸
工程管理文档
GB 50462-2008电子信息系统机房施工及验收规范
GB 50174-2008电子信息系统机房设计规范
GB/T9361-2011计算机场地安全要求
GB 50045-2005 高层民用建筑设计防火规范
GB 50057-2010 建筑物防雷设计规范
GB 50116-2013 火灾自动报警系统设计规范
GB 50166-2013 火灾自动报警系统施工及验收规范
GB 50198-2011民用闭路电视监视系统工程技术规范
GB 50203-2011砌体工程施工质量验收规范
GB 50209-2010建筑地面工程施工质量验收规范
GB 50210-2010建筑装饰装修工程质量验收规范
GB 50235-2010工业金属管道工程施工及验收规范
GB 50236-2011现场设备、工业管道焊接工程施工及验收规范
GB 50243-2002通风与空调工程施工质量验收规范
GB 50303-2011建筑电气工程施工质量验收规范
GB 50325-2010 民用建筑工程室内环境污染控制规范
GB 50339-2013智能建筑工程质量验收规范
GB 50343建筑物电子信息系统防雷技术规范
GB 17167 《用能单位能源计量器具配备和管理通则》
GB/T 32910.3-2016《数据中心 资源利用 第3部分:电能能效要求和测量方法》
GB/T 33656-2017《企业能源计量网络图绘制方法》
JJF1356-2012《重点用能单位能源计量审查规范》
CQC 1312数据中心场地基础设施评价技术规范
以上所有标准规范均以最新版本为准,当不一致时按高标准执行。
电气系统。
柴油发电机系统。
测试设备:电能质量分析记录仪、红外成像仪、红外测温仪等。
状态指示验证:是否自动控制状态、电流断路器分开和闭合、引擎运行、相电压、电流、频率、电池电压、运行小时、转速发动机温度、冷却介质温度、工作方式(自动/手动)、输出功率、润滑油温度、油压等状态显示检查。
UPS输入端,即接入公用电网的连接处(公共连接点),该点是UPS配电输入端。
测试设备:电能分析记录仪
测试项目:
7.3.4.2.1频率偏差允许值:
正常频率偏差允许值:±0.2HZ;
当系统容量较小时,频率偏差允许值:±0.5HZ;
孤立电网:根据系统条件,在保证发电机组和网内电力用户安全稳定运行及正常供电前提下,可适当放宽频率偏差限值。
7.3.4.2.2供电电压允许偏差:
220V单相供电电压允许偏差为标称系统电压(额定电压)的+7%,-10%;
10KV及以下三相供电电压允许偏差为标称系统电压的±7%;
35KV及以上供电电压正、负偏差的绝对值之和不超过额定电压的10%。
对供电电压允许偏差有特殊要求的用户,由供用电双方协议确定。
7.3.4.2.3公用电网谐波:
1)、电力系统最小运行方式下,测量谐波应在谐波源工作周期中产生的谐波量大的时段内进行;
2)、负荷变化快的谐波源,测量间隔5s~2min,负荷变化慢的谐波源,测量间隔取5min~10min;
3)、谐波测量的数据应取测量时段内各相实测值中最大的一相值,作为判断谐波是否越限的依据;
4)、每次测量结果应为3s内所测值(≥6个值)平均值或均方根值。
7.3.4.2.4 电压波动和闪变限值
1)、很少的变动频度r(每日少于1次),电压变动限值还可以放宽。
2)、在电力系统正常运行的较小方式下,波动负荷最大工作周期时测量d、Pst和Plt。对三相不平衡负荷,取最严重一相的值。
3)、每10min作为Pst的一个测量周期,测量一个Pst值和一个d的95%概率大值,每2小时得到一个Plt值。
4)、在统计周期内,以d、Pst、Plt的95%概率大值作为判断是否越限依据。
7.3.4.2.5 三相电压不平衡限值
1)、电力系统公共连接点正常电压不平衡允许值为2%,短时不得超过4%。
2)、接于公共连接接点的每个用户,引起该点正常三相电压不平衡度允许值为1.3%。
7.3.4.2.6UPS输出端电能质量
UPS输出端电能质量,UPS输出端连接用电设备。
测试设备:电能分析记录仪
测试指标及要求:电子计算机供电电源质量应符合表1.4规定。
测试的意义:电源质量的不稳定带来的危害
1)干扰通信系统的工作。
2)会使功率因数下降,导致电费成倍增长。
3)谐波电压会使配电系统损耗增加,设备故障率升高;3%的负序电压会使电动机的寿命减半。
4)会导致变压器、变频器、马达和中线过热,及断路器动作。
5)会使电压、电流波形畸变,导致精密仪器无法正常工作。
6)增加用电设备的附加损耗,降低设备的效率和利用率。
7)使测量和计量仪器的指示和计量不准确。
8)三相不平衡会造成中心点与地形成一个电压,当此电压超过1V时,会使电子设备积累大量的静电,对灵敏设备产生干扰,干扰数据通讯,给电子设备造成非常危险的后果,甚至造成致命的损坏。
9)三相不平衡会造成变压器内部磁旋涡,使铁损加大,造成变压器发热、容量减小。
10)三相不平衡会造成用户对功率需求加大,增加用户用电量。
7.3.4.2.7UPS蓄电池
测试仪器:电池性能测试仪
测试指标及要求:
UPS蓄电池适用于电子计算机机房供电,蓄电池的测试项目主要有:
1)浮充电压
2)内阻
3)电池浮充电压:必须在制造商的推荐极限值之内,而且该推荐值须考虑温度补偿。
4)单体电池的内阻值:随测量条件而变化。如果单体的内阻值变化时,则表明其性能也发生变化。内阻值有明显的变化,表明单体电池的性能也发生明显的变化。在没有内阻测试仪器制造商的特定指南时,内阻值变化超过20%时,就认为是明显的变化。这样的变化应与制造商作进一步的讨论。
7.3.4.2.8电力系统、电气设备红外检测
测试仪器:红外成像仪
测试目的:电气设备外壳内部的各种部件,如导电回路、接头、连接件、绝缘介质、铁芯等,在其故障发展和形成过程中,绝大多数都与发热升温紧密相连。精确识别导电回路的接头和连接件的可能发热故障,设备外壳内部的各种部件,如导电回路、绝缘介质和铁芯等部件, 由于损坏、老化、腐蚀、污秽、氧化、接触不良、材料不合格、工艺设计、施工不当等方面的问题造成应力/电流过载和不平衡,产生的局部过热。
7.3.5.3.1 精密空调
设备检查:设备型号和规格确认,设备外观、组件的完整性等检查;
安装检查:
1)空调设备安装位置、冷凝水排水管、减震和密封;
2)空调设备供配电电源与开关、控制系统、温 / 湿度设定与报警参数等设定;
3)厂家调试报告;
功能检查:
1)空调设备实际运行参数、设备启动与重启测试、自动轮停功能测试、关键报警测试、漏水与消防联动测试,风机转速控制等检查;
7.3.5.3.2动力与环境监控系统检测
功能检查:报警、状态显示、远程监视等;
7.3.5.3.3 新风机组
1)设备检查:
①设备型号和规格确认,设备外观、组件的完整性等检查;
2)安装检查
①设备安装、检修门、内部清洁、管道、风管管道、阀门、电气、变频器、风机、过滤器、加热器等检查;
②电气回路连接与保护开关、控制系统与开关;
③厂家调试报告;
3)功能检查
①手动操作测试;
②自动操作测试;
4)风阀控制运行测试
①进气阀门与新风机联动测试;
1)噪声
测试仪器:数显声级计
测试指标要求:
① 计算机系统机房内的噪声在主机房中心处测试应小于85dB(A)。
② 有人值守的辅助区,在主操作员位置测量应小于65dB(A)。
测试方法:
①主机房中心处和有人值守辅助区的主操作员位置进行测量。
②测量的稳定值即为该房间的噪声值,应符合标准要求。
2)尘埃
测试仪器:激光尘埃粒子计数器
测试指标要求:主机房内的空气含尘浓度,依机器要求而定,主机房内尘埃的粒径大于或等于0.5μm的个数应小于或等于18000粒/cm3(相当于500000粒/英尺3)。
测试方法:
①计算机场地竣工测试应对房间及空调系统进行彻底清扫,并应在空调系统正常运行24h以后进行;
②对粒径大于或等于0.5um的尘粒计数,宜采用光散射粒子计数法;
③采样注意事项:采样管必须干净,连接处严禁渗漏;管的长度应根据仪器允许长度,当无规定时不宜大于1.5m;测试人员应在采样口的下风侧;
④测点布置:按50㎡布置5个测点,如图2.1所示。每增加20㎡~50㎡,增加3~5个测点;
⑤每个测点连续三次测试,取其平均值为该点的实测数值,各测点的实测数值均代表房间内的含尘数量。
3)照明
测试仪器:照度计
测试指标要求:计算机机房在距地面0.8m处,照度不应低于300lx,基本工作间和第一类辅助房间不低于200lx,其他房间参照GB 50034执行。
测试方法:
①在房间内距墙面1m(小面积房间为0.5m),距地面为0.8m的假定工作面上进行测试;或在实际工作台面上进行测试;
②测试点选择3~5点,大面积房间可多选几点进行测试
4)电磁场干扰
测试设备:高频电磁辐射分析仪、工频电磁场测试仪
测试项目及要求:
①无线电干扰环境场强
主机房内无线电干扰场强,在频率范围0.15Mhz~1000Mhz时不大于126dB。
②磁场干扰场强
主机房内磁场干扰场强不大于800A/m(相当于10 Oe)。
测试方法:
①无线电干扰环境场强的测试:在计算机机房内任一点测试,取最大值应符合标准要求。
②干扰环境场强的测试:在计算机机房内任一点测试,取最大值应符合标准要求。
5)温度、湿度
测试仪器:数显温湿度计
测试指标要求:电子计算机机房内温、湿度应符合表1.6的规定。
测试方法:
①测试应在计算机设备正常运行1h以后进行;
②测点选择高度应离地面0.8m,距设备周围0.8m以外,应避开出、回风口;
③每个测点数据均为该房间的实测温度、湿度;
6)风速检测
测试仪器:数字风速表
测试项目及要求:机房的送风风速:采用活动地板下送风时,出口风速不应大于3m/s
测试方法:风口处的风速可用热点风速仪测量,测量时应贴近格栅及网格。
按20%抽检,合格率达到100%为合格。
7)正压检测
测试仪器:数字式微压计
测试项目及要求:正压要求:主机房必须维持一定的正压。主机房与其他房间、走廊件的压差不应小于4.9Pa,与室外静压差不应小于9.8Pa。
测试方法:
①测试时应关闭室内所有门窗;
②使用数字式微压计检测,要求仪器预热时间15min;
③测点布置:任意选择室内气流扰动较小的点;
8)接地系统
测试仪器:接地电阻测试仪
测试项目及要求:
①独立的防雷保护接地电阻应≤10Ω;
②独立的安全保护接地电阻应≤4Ω;
③独立的交流工作接地电阻应≤4Ω;
④独立的直流工作接地电阻应≤4Ω;
⑤防静电接地电阻一般要求≤4Ω;
⑥采用联合接地体时,接地电阻不应大于1Ω。
9)振动
测试仪器:测振仪
测试项目及要求:
在电子信息设备停机条件下,主机房地板表面垂直及水平向的振动加速度不应大于500mm/s
1)单项测试
①电气系统:完成配电系统的单项测试,包括:母联切换测试、二次保护回路测试、UPS配电柜、接地系统测试、精密配电柜、楼层配电箱、照明系统、末端插座回路测试、低压母线检查、柴油发电机测试、仪表的测试、电源自动切换箱测试、动力配电箱及照明配电箱本体检查、UPS冗余测试、精密配电柜检测、照明系统测试。
②暖通系统:精密空调、新风系统、送排风系统工程等、机房内气流组织等的测试验证及空调设备性能测试、排风机、排烟风机等通风设备性能测试、全系统联动测试。
2)联合测试
①电气系统:
Ø 分别模拟验证单边UPS设备故障时系统的联动切换,并对UPS系统进行应急操作,验证应急状态下系统电流电压等各关键参数是否符合设计及相关规范需求,并提供各种紧急状态下的操作步骤;(CQC要求)
Ø 模拟一路变压器故障,低压母联顺利切换,验证自投自复/自投手复/手动等模式的情况,包括切换延时时间,切换过程中电池放电以及动力与环境监控系统的报警信息。
Ø 模拟验证单路市电停电,系统放电并切换至旁路,并对UPS系统进行应急操作,验证应急状态下UPS系统电流电压等各关键参数是否符合设计及相关规范需求,并提供各种紧急状态下的操作步骤。
Ø 模拟验证双路市电停电时,UPS系统放电时长及柴油发电机启动、送电测试,并对配电系统进行应急操作,验证应急状态下配电系统电流电压等各关键参数是否符合设计及相关规范需求,并提供各种紧急状态下的操作步骤。
Ø 市电掉电时,低压母联的切换状态,各控制继电器、时间继电器的参数整定值设定,上下各级母联切换开关的切换时间并监测切换过程中设备的持续供电,末端切换以及电池充放电等一系列影响结果。
Ø 验证动力与环境监控系统中关于整个数据中心电力系统监控的全面性、准确性以及直观性。
3)暖通系统:
Ø 模拟验证一台及多台精密空调故障,进行冗佘测试,对系统进行应急操作, 验证应急状态下系统温湿度等各关键参数是否符合设计及相关规范需求,并提供各种紧急状态下的操作步骤。
Ø 机房热负荷制冷能力测试:测试精密空调和气流组织的制冷能力,温湿度情况,出现问题时,查找问题原因。
1)市电停电状态:
模拟单路、双路市电停电状态,对电气系统、空调系统进行应急操作,验证电气空调监控系统,检验电流、电压、温湿度、报警响应时同等各关键参数是否符合设计及相关规范需求,并提供各种紧急状态下的运维人员配置、操作步骤等详细文档。市电停电状态测试内容包括但不限于:
Ø 单路市电停电状态,蓄电池放电,市电进线侧进行电源切换,设备自投装置运行情况下的工作状态。
Ø 双路市电停电状态,蓄电池放电,柴油发电机启动,切换到柴油发电机供电, UPS恢复正常供电状态。
1)建立健全计量器具管理制度,并保持可持续改进能力。
2)保持人员计量管理知识水平,满足计量器具管理要求。
3)建立计量器具年度巡检制度,保证关键节点计量器具的可用性和准确性,确保计量数据的可信度。
4)每年采购第三方检验检测机构对与PUE计算有关的计量器具进行比对实验,确保计量器具的可用性和有效性,提升PUE数值的可信度。
5)在用数据中心应采购节能认证服务,获得节能认证A级证书,降低能源消耗,履行中华人民共和国节约能源法的义务。
7.4资产管理
数据中心资产包括:电力系统设备、暖通系统设备、IT设备与其他数据中心附属设备;
数据中心资产管理须有明确的管理颗粒度,并进行明确描述与记录,包括:品牌、型号、资产编号、资产位置、资产管理员、采购时间、采购合同、过保时间、维保信息、预期寿命、资产状态、资产所有者、资产关联属性等;
数据中心资产需要建立对应的资产档案,
7.4.2.1应建立资产管理系统,宜平台化;
7.4.2.2数据中心资产管理系统已经具备完善的维护管理机制,确保数据中准确性与完整性。
7.4.3.1数据中心基础设施资产的采购、折旧、维保、报废等工作,应遵循采购、财务部门相关的标准制度执行;
7.4.3.2应制定数据中心资产盘点制度,定期或不定期组织资产盘点,对盘盈、盘亏数据进行分析,通过有效措施确保账实相符;
7.4.3.3资产迁入、迁出与变更等数据,均需记录在资产管理系统中,确保符合审计要求;
7.4.3.4 数据中心基础设施资产的使用寿命、升级改造,应遵循国家标准、行业标准、本团体标准、厂商说明书等依据。包括:高中低压变压器、各级配电柜、UPS、蓄电池、空调末端设备、冷冻机组、冷却塔、板换设备、储冷罐、制冷管线、电气管线……
7.4.4.1数据中心资产应存放在具有访问控制的安全区域;
7.4.4.2线下所有备品、备件应按照不同的类别进行分类存储;
7.4.4.3所有备品、备件应符合按需使用原则;
第八章 应急管理
数据中心在发生基础设施异常事件时,应立即启动应急处理机制。数据中心应急管理要求包括:
8.1.1应急组织管理;
8.1.2应急响应及流程管理;
8.1.3应急事件管理;
8.1.4应急预案目标对象;
8.1.5应急演练管理;
8.1.6应急预案的持续改进;
应急组织架构设置核心是应急处置领导小组架构。应急处置领导小组下设应急管理小组、应急技术与执行小组、应急保障小组等下级组织。
应急组织负责突发事故及灾难事故的应急预案制定、应急处置、对外信息发布、总结报告等工作。
应急领导小组是应急事件决策机构,由数据中心高管层授权并由高管人员担任应急领导小组组长,各相关职能部门的负责人为应急领导小组成员。
应急领导小组的主要职责是负责审定突发事件及灾难事故的分类方式和分级响应的总体策略、应急响应流程及操作规程;负责突发事件的应急指挥、组织协调和过程控制;决定应急处理预案的启动;明确事件新闻发布人,并授权事件新闻发布人在应急过程中统一对外信息发布口径;宣布重大应急响应状态的降级或解除;向高级管理层报告应急处置进展情况以及做总结报告等。
应急管理小组是应急流程管理及文件维护的机构,由专职的体系管理部门及各业务部门负责人组成,负责组织有关业务部门编制及定期更新应急预案,并负责组织应急预案的日常培训与演练。
应急管理小组工作职责主要包括:负责应急预案的制订、审核、维护和演练工作;负责评估重大突发事件及灾难事故对业务影响;组织协调、指导跟踪应急工作的开展;提出和完善应急措施等。
应急技术与执行小组为发现、报告、处置应急事件的执行机构,也是日常工作机构,由数据中心专业技术人员、运维管理基层工作人员及服务供应商组成。
应急技术与执行小组主要职责:参与应急预案的制订、审核、维护和演练工作,提出和完善应急措施,以及隔离措施制订和业务恢复等具体技术工作;组织、协调、指导、跟踪应急恢复工作的开展;开展业务中断程度的评估,故障定位和原因分析;提供基础环境的保障和支持,以及有关应急恢复;负责日常及应急处理过程中的运行监控;撰写事故技术分析报告等。
应急保障小组是保障、支持及对外沟通的机构,可由多个综合部门组成。
应急保障小组可由综合业务、人力资源、财务、宣传等部门组成,有利于沟通联合内外部机构协助保障应急管理。
应急保障小组的工作职责主要包括:参与应急预案的制订、审核、维护和演练工作;负责提供应急所需的人力和物力等资源的后勤保障和支持;负责外部供电、供水、供暖、保安、通讯等事宜的协调解决;做好秩序维护、安全保障、法律咨询和支援等工作;建立与电力、通讯、公安和消防等相关外部机构的应急协调机制和应急联动机制;负责在应急领导小组的指挥下和统一对外发布口径下,对受影响客户的解释和安抚工作;负责事件的对外公布的组织协调工作,以及为降低事件负面影响或损失,提供的应急支持保障等。
应急保障小组负责提供应急所需的人力和物力等资源的后勤保障和支持,例如车辆、食宿等;负责事件的对外公布的组织协调工作,包括政府、媒体、社会团体等组织协调工作;
8.3.1.1数据中心应急事件发生时应有应急响应管理,应急组织成员处理应急事件时的应急指挥方式、响应方式、响应周期等应急处置行动。
8.3.1.2明确不同等级事件发生后,厂商到场时间、修复限制时间、若未能修复者须进行技术和管理升级,须协调厂商更高层面资源支持和解决。
8.3.1.3应急响应要明确设施设备故障时,设备厂商到场及修复时间周期,并明确技术和管理升级机制。在制定应急响应周期时,原则上一级事件厂商2小时到场,8小时内修复,未能修复者须进行技术和管理升级,协调厂商更高层面资源支持和解决;二、三、四级事件的到场、修复和升级时间一般要求为24、48、72小时。
基础设施应急管理应有应急流程管理,是基础设施保障应急管理工作的关键管理手段。
可执行的应急流程宜从分析应急事件的核心问题及受影响范围入手,控制关键应急操作环节,明确应急操作动作及措施失效后的返回环节点,并明确应急预案中各操作环节的执行者和责任范围。
8.4.1.1基础设施应急事件是指数据中心基础设施运维过程中需要应急处置的重大事件,主要分为公共灾难危害、基础设施意外故障及IT系统意外故障引发的事件。
8.4.1.2公共灾难和危害事件主要包括:恐怖袭击、炸弹威胁、治安事件等公共安全危害事件,地震、雷击、异常气候自然灾害等。
8.4.1.3基础设施意外故障事件主要包括:火灾及火灾防范系统故障、建筑物内水患、供配电系统故障、备用应急电源系统故障、空调制冷系统故障、安防系统故障和动力环境监控系统故障、通讯系统故障等。
数据中心基础设施运维团队应分析数据中心运营过程中所有可能发生的风险场景,并据此编制数据中心应急预案。基础设施应急预案编制要素如下:
8.4.2.1基础设施应急预案的编写应场景化。
对不同等级的故障事件和灾难事件,针对重要设施设备及公共类事件制定应急预案,主要包括供配电系统、制冷系统、消防、监控、网络等基础设施故障,以及暴雨、暴雪、大风、雷击、地震等气候灾难。
8.4.2.2基础设施应急预案的结构和文字应简单易读、清晰明了,易于操作人员启动和执行。
8.4.2.3在基础设施应急预案正式发布前,所有预案中的内容应通过测试和验证。
8.4.2.4基础设施应急预案应打印装订,应在运维监控室集中放置一份;宜在各类设施设备附近明显处,放置该设备的应急预案和操作手册,便于应急处置时查阅。
8.4.2.5基础设施应急预案应包括如下信息:具体灾难场景定义、应急任务定义、应急操作及工作内容描述、工作要点说明、执行责任机构的执行人信息及其通讯方式、应急操作相应的时间点。应急预案中宜提供应急处置失效后的备用应急方案措施等。
8.4.2.6基础设施应急预案编制时,宜分类、分系统专业、场景化、管理。
在IT系统发生故障时,基础设施运维人员支持响应配合IT系统运维人员执行应急管理。信息安全风险事件发生时,协助信息安全会管理部门和监察人员执行应急管理。
8.4.3.1应建立应急发布平台管理体系,制定应急发布平台管理管理策略,宜采用应急通讯平台工具。
8.4.3.2应建立应急通讯平台工具,具有在应急事件发生时快速的有效的通知到相关执行人员、参与决策组织。通过应急通讯工具平台完成应急事件发布、决策发布、处置执行情况的快速收集和反馈。
8.5.1应急演练是验证应急预案的过程,是训练和提高数据中心运维人员应急响应能力的重要环节,是完善数据中心基础设施应急体系的必要手段。
8.5.2数据中心基础设施运维团队在编写应急预案的同时应编制应急预案培训和演练计划,宜包括如下要素:应急预案操作流程及操作手册、应急预案培训手册、应急预案培训及应急预案演练时间频率、参与机构和人员、考评策略等。
8.5.3应急演练可根据是否通知和计划来区分,将演练分为计划性演练和非通知性演练;也可按照演练形式分为桌面演练、模拟演练、实战演练。
8.5.4数据中心的应急演练管理宜遵循以下管理要求:
8.5.4.1演练常态化:宜灵活运用多种形式的应急演练,对数据中心人员进行充分的培训和训练,做到数据中心运维人员对各类故障场景的应急操作能够熟练掌握。同时检验汇报、决策流程是否通畅、高效,确保流程的有效性。
8.5.4.2计划性演练和非通知性演练相结合:除日常计划性演练外,安排若干非通知性的突击演练,能够更好了解一线运维团队对突发情况的处理能力,更好的暴露和发现问题。
8.5.4.3在条件允许情况下,宜邀请用户或其他相关方(如公共机构、物业等)参与演练过程,以检验突发事件发生过程中数据中心与其他相关方面的联动协调。
8.5.4.4演练文档规范化:演练过程应形成演练方案、演练登记表、演练过程记录单、演练总结报告。
8.5.4.5应对演练中暴露和发现的问题进行总结,必要时可纳入问题管理流程进行深入分析,形成问题和改进措施方案,并纳入知识库。
8.5.4.6有效运用应急演练这一手段,可以达到验证能力、发现不足、改进流程、锻炼团队、总结经验、完善体系的效果。应急演练宜包括以下类型:
8.5.4.7桌面演练:对预案的组织架构和应急流程进行验证。组织数据中心基础设施运维人员,通过设计恰当的故障场景,采用参演人员集中培训、讨论、文字考核等手段加深对应急处置策略、手段和应急预案的了解。
8.5.4.8模拟演练:由数据中心基础设施运维团队人员及应急预案的协同单位共同参与,模拟验证应急预案。模拟应急情况下的报警流程、应急操作执行动作、通知通报及恢复等工作。
8.5.4.9实战演练:数据中心基础设施运维机构可以独自或联合其它部门及客户组织实战演练。在数据中心投运前或投运后的计划性维护期间,假设相应的故障场景,组织相关人员按照应急预案流程进行实操性演练。
8.5.4.10计划性演练和非通知性演练:宜根据是否通知和计划来区分。
8.5.4.11演练过程应形成以下文档:
8.5.4.11.1演练方案:演练准备的方案和计划,包括风险控制方案、演练剧本(参演人员的台词,流程、时间控制、执行的动作等)。
8.5.4.11.2演练登记表:参演人员登记和签名。
8.5.4.11.3演练过程记录单:演练各项活动执行情况记录。
8.5.4.11.4演练总结报告:演练过程的总结,暴露的问题及改进措施和行动计划。
第九章 环境健康与安全
为确保数据中心基础设施能持续正常运行,支持数据中心的安全运行,数据中心运行维护管理部门应明确数据中心基础设施的运行安全目标,制定安全生产的规范,规范内容应包括:安全管理规范、安全管理策略、安全操作手册、安全应急预案等主要内容。
根据安全目标制定有效的、明确的安全计划;了解安全需求,分析安全风险,明确应对措施;组织人员培训、上岗考核和安全检查。根据数据中心运行的实际情况,定期对规范进行完善和修订。
本管理规范应针对数据中心信息系统相关的物理和环境安全管理活动,包括适用部门范围内所涉及的物理区域。物理和环境安全包括:
(一)主机房区域、支持区、辅助区域等的信息处理设施周围设置安全隔离措施;
(二)防止信息系统设备遭受火、水、极端温度/湿度和电力中断的危害的维护措施;
(三)信息系统设备的安全维护措施。
应明确数据中心基础设施安全管理主要职能机构和信息安全管理职能机构及数据中其他职能机构的职责。
条文解释:
1、数据中心基础设施安全管理主要职能机构,负责管理数据中心内基础设施安全的机构,应负责根据本管理规范条款落实际数据中心物理区域管控措施,必要时可指定相应的实施细则,要求相关机构遵照执行。
2、信息安全管理职能机构,应负责与本管理规范中承担相应职责的其他机构进行沟通协调,负责传达安全职责,及相应的指标要求;负责检查、监督本管理规范条款在数据中心范围内的执行。
3、数据中心业务系统运行管理机构,作为机房区域所有人,负责明确对物理环境管理机构提供本规范条款相关的机房和相关区域安全管理措施要求。
4、数据中心其他各部门负责人及信息安全员负责配合本管理规范条款的落实。
9.3.1数据中心区域安全管理
1)机房选址时应满足《电子信息系统机房设计规范》(GB50174)文中相关要求;尽量选择安全可靠的场所,并充分了解数据中心周边的环境信息,评估潜在的安全风险并制定预案。
2) 应制定详细的数据中心区域、人流、物流不同安全等级规则,宜结合数据中心基础设施环境和运营管理的具体情况特点,建立并执行严格的数据中心区域、设备、人员、车辆进出管理制度。
3)宜根据数据中心的安全管理等级,制定相应等级的安全防范管理规则制度并提出相应的技术措施要求,主要包括区域安全隔离技术要求、安全防范摄像监控系统、入侵探测报警系统、门禁管理系统、巡更管理系统等安防设备系统;制定相应等级的运维监控管理记录文档的保存要求。
4)应根据数据中心区域内物流物料安全等级分类,制定相应的管理规则。
5)应设立不同安全级别的分区,并制定访客管理制度,并应根据数据中心区域内进入人员安全等级分类,对访客进行管理。
6)应根据安全分区的安全需要,制定工具、个人计算机、手机、相机、录像机等进入安全分区的细则。
9.3.2应制定物理环境安全规范,明确温度、湿度、防尘、噪声、电磁干扰、振动、静电、防水、防鼠、防虫、防雷、防火、防盗等方面的具体细则。
9.3.3.应制定数据中心基础设施维护安全管理细则。
(一)应制定数据中心内设备放置安全管理规则,如数据中心自有设备应单独机柜摆放。
(二)应制定数据中心内运行维护工具使用安全管理规则,如充电器、电动工具禁止使用IT专用UPS电源。
(三)应制定数据中心基础设施维护巡检安全管理规则,运维人员及时了解设施各系统及设备的运行状态和及时发现异常情况,并应规定相应的运行人员对设施运行状态的巡检频次、巡视工作内容及规范。如:巡检范围应包括但不限于环境(门窗、卫生、灯光、空气等)和设施(网络通讯、供电、UPS、电池、空调、新风、净化器、消防、安防等);定期维护检查配电柜、UPS、空调、新风机、空气净化器、消防、防雷、安防等系统。尤其是检查各备用系统或各系统的备用功能(如柴发、UPS电池放电、气体灭火气压等),确保在关键时刻可用。
(四)值班期间告警及系统运行情况应详细记录,重大故障应专项记录。
(五)运维人员交接班是应对当班执行的操作、变更及观察到的任何异常数据或现象进行交接和签收。
(六)应针对影响运维人员健康的人身事故制定应急流程并定期演练。应急流程可包括设置现场急救包以及联系当地医疗急救机构的方式等。
应制定操作安全管理制度,明确日常操作、故障处理、应急处理、施工和保洁等工作细则,控制操作带来的风险。
(一)运维人员的所有操作必须按照相关安全操作手册进行。有风险的操作及施工应得到批准,且应在非生产时间进行;并且重要时刻(如国家重大会议期间、年终结算期间等)禁止进行有风险的操作及施工。
(二)应针对应急操作流程进行定期的沙盘演练和跑位演练,演练内容应尽量接近真实情况。
(三)在维护、测试、巡检、故障处理、日常操作及施工等工作中,应采取预防措施,避免工伤和通信事故的发生。
(四)在操作设备时,应采取防静电措施,且不应佩戴手表、戒指等金属物品,避免损坏电路板。
(五)不应带电作业,经批准的带电作业,应做好绝缘防护措施。
(六)登高作业或搬运笨重物件时,注意安全,避免人身伤亡或器材损坏。
(七)设备维护用品、资料和包装必须在离开时带出机房。
(八)非设备管理人员不应私自操作任何设备。
(九)运维人员应掌握触电后的急救方法。
(十)运维人员应掌握防火灭火常识和消防器材的使用方法。
(十一)设备上架安装时,设备间距和位置应合理考虑;设备安装前应考虑功耗,确保不超过供电系统的负载;设备安装时必须接地。
(十二)应划定保洁区域,定期做好保洁工作,保证机房地板及地板下的无尘状态;重要区域进行保洁工作时应有运维人员现场监督和指导。
(十三)机房内施工及机房二次施工期间,要在工程施工管理规则中明确对人员操作安全管理办法。如:操作时应注意机房区域内非特殊需要,严禁进行明火作业和电气焊,若确有必要,必须经过相关部门批准,并采取相应严密措施;必须按照施工管理规范进行线缆及管道的敷设,且要用非燃材料对穿墙洞进行封堵;机房区域内施工或安装设备时,必须进行楼板承重、地板承重和机柜承重的计算,严禁超限;施工人员安全操作及非施工人员在施工现场的安全管理规则等。
应制定信息安全管理制度,明确信息资产、风险评估、信息防泄漏、上岗人员及人员流动相关的信息安全等方面的工作细则,规避出现信息安全的问题,并应定期全面分析安全风险,评估应对措施。
(一)制定信息资产设备安全管理制度时应注意:应定期收集信息资产,分析面临的威胁,设置相应的控制措施;数据中心废弃的资料应定期集中销毁;数据中心废弃的磁介质应进行消磁处理或直接销毁等。
(二)制定操作信息安全管理制度细则时应注意:所有设备应设有安全密码,防范未授权人员修改设备配置或改变设备运行状态;运维人员使用的所有计算机应设置开机密码、系统登录密码和屏幕保护密码,并安装防病毒软件;运维人员办公使用的计算机应与管理和监控数据中心设施的计算机物理隔离,且后者不能连接互联网;非运维人员进入机房区域时,应有运维人员全程陪同等。
(三)制定信息通讯安全理制度细则时应注意:数据中心设施非特殊需要,严禁连接外部网络;若确有必要,必须经过相关部门批准,并采取相应严密措施;根据信息系统的安全等级需要,对机房进行安全分区管理,各分区应配备满足安全等级要求的安全措施;布放线存在跨机房或延至机房外的情况,需要得到相关人员的批准。
(四)制定文档管理安全管理制度细则时应注意:对不同信息安全安等级的各种介质类的文档及资料,应要有明确的加密等级标识。
应制定人身安全管理制度规则,针对数据中心内工作及工作交流的人员,在环境、业务操作、施工作业、物流运输、人员流动、工余休息等方面以及在应急机制中,提出人身安全管理明细要求。
结合物理安全管理、操作安全管理、信息安全管理、人身安全管理的规范,制定相关的安全培训管理制度,应制定相应的全培训管理制度规则;并将安全事件应急演练培训应纳入数据中心应急管理制度中。
(一)应对运维新入职的人员进行全面及严格的安全培训,待考核通过后才能上岗。培训内容应包括但不限于各系统的工作原理、操作流程、应急预案、历史事故和管理制度等。
(二)应对运维人员进行定期的安全培训,宣讲新发现的安全威胁、行业安全事故、运维管理最佳实践、新颁布的相关制度或标准,提升运维人员的安全知识和安全技能。
(三)应对运维人员结,合应急管理培训,定期进行安全应急事件演练。
(四)应定期对运维人员进行考核,督导运维人员更新理论知识、熟练操作流程、牢记管理制度、清楚应急预案。
(五)应定期对涉密人员进行保密教育和保密考核。
(六)应对进入数据中心的临时操作人员和施工员,做好安全、保密、教育。
(七)应对进入数据中心的临时访客及其陪同人员,做好安全、保密、教育。
第十章 数据中心一体化运维管理
1. 数据中心一体化运维管理平台宜包括:集中监控系统、能效管理系统、容量管理系统、资产设备管理系统、配置管理系统、组织人员管理系统、计划任务管理系统、运维流程管理系统、应急演练管理系统。
2. 应具有一定的冗余、容灾、恢复能力,保障365*24的高可用性要求。
3. 应具有分权分域的角色、权限控制机制。
4. 应具有完善的访问控制机制,保障数据资产安全。
5. 应具有监控告警功能,平台异常应触发告警。
6. 应具有系统级用户操作日志记录。
7. 应具有自动备份、回滚功能。
8. 应具备移动化特征,满足实际运维场景的使用方式。
1. 监控系统应具备基本的监控对象数据采集、阈值设置、阈值判断与异常告警功能。
2. 告警方式不少于两类,包括声光、文字短信、语音短信、邮件等。
3. 告警系统应保障其及时性,关键指标延迟不超过15秒、一般指标不超过30秒。
4. 监控系统应具有告警定级功能,应与运维流程(如事件管理等)关联。
5. 监控系统的容量应具有可扩展能力,当管理对象增加时,可进行弹性扩容,扩容过程不造成系统中断。
6. 安防视频监控数据存储在安全的存储介质中,保留时间应大于等于3个月;其它监控数据保留时间视具体业务场景而定。
7. 监控系统覆盖率、准确性须达到一定要求,视具体业务场景而定,宜与数据中心规模、等级、组织管理成熟度相匹配。
8. 监控系统应具有趋势分析功能,能为决策提供数据支撑。
9. 监控系统覆盖范围包括动力环境、安防、消防等。
1. 数据中心的能效指标宜包括:全年累计PUE、阶段PUE、瞬时PUE、全年累计WUE、阶段WUE、瞬时WUE、全年平均IT负载、阶段IT负载、瞬时IT负载。
2. IT设备用电量采集监测点一般应部署在UPS输出端、列头柜输出端、机柜PDU输出。
3. 应可分别计量各机房模块的能效指标。
4. 应根据不同运维场景下的能效指标数据,分析并制定优化措施。
1. 计量监测容量指标包括:空间(标准机柜位、U位)、电力、制冷、承重、网络。
2. 应可针对不同类型的设备进出转移,进行容量的预测评估分析。
3. 应可制定容量计量监测的阈值,并实现动态监测告警。
4. 非自用数据中心,容量管理系统应与财务销售系统集成,实现资源容量的订购、分配、交付。
1. 建立资产设备台账清单;
2. 管理资产设备全生命周期;
3. 管理资产设备供应商及相关维保合同;
4. 资产设备进出及转移流程的运行管理;
5. 制定资产设备盘点计划,确认盘点范围,记录现场盘点信息,提供盘点统计分析报告;
6. 可查看资产设备的故障记录、变更记录、维护记录、相关操作手册(SOP、MOP),可追溯资产设备的过往历史操作节点及日志。
1. 识别与归类基础设施关键性设备对象和关系类型;
2. 针对不同设备对象类型提供可制定适配的配置项属性;
3. 建立关键性设备对象间的关联关系;
4. 建立影响分析模型。
1. 定义组织结构、岗位配置、工作职责、技能要求及指派规则;
2. 管理人员基本档案信息及具备的技能;
3. 管理人员、岗位的权限、工作范围及负荷。
1. 值班排班体系管理功能包含:班次定义、排班计划制定及调整 、可控的签到签退功能,交接班环节控制,支持交接班日志的统计生成及归档。
2. 日常巡检功能包含:巡检工作内容记录及统计分析;巡检工况的现场记录;对监控系统数据正确性复核;故障的现场确认及报告处理。
3. 维护保养任务管理:维护保养计划应包含计划周期、计划内容、维护类型(自行维护或第三方维护)、维护对象(资产设备管理范围内的设备)、适用的预案操作说明、执行方;宜细化到设备级统计的维护保养记录;维护保养工作的质量评估报告。
1. 运维流程的类型,包括事件、问题、变更、日常工作及服务请求;
2. 应有明确的运作分类,包括事件分类、问题分类、变更分类、工单分类、服务请求分类,细化不同流程单的具体内容;
3. 运维工单具备标准的流程控制,包括开单、指派、接单响应、处理、挂起、解挂、完成、关闭;
4. 应有可控制的审批流程,基于业务要求设置某一类型流程执行阶段的审批规则,满足全员审批和单一审批等不同模式;
5. 应有SLM服务水平管理,定义SLA内容、服务目标及阀值,进行计量监测;
6. 基于运维流程统计分析对流程持续优化。
1. 识别和记录演练场景,包括市电切换、UPS故障、精密空调故障等;
2. 针对已识别的演练场景定义演练模板及周期;
3. 应发布和管理预案文档信息(SOP、MOP、EOP);
4. 应制定和执行演练计划,记录演练过程,评定演练结果,优化演练预案。
1. 应对数据中心统一化管理平台各模块的运维数据报表做统一发布管理;
2. 应满足可定制扩展的新增报表需求;
3. 应具备完整的数据访问控制机制,可针对不同岗位及人员发布不同数据范围的报表。
第十一章 质量管理的监督与检查
为确保数据中心安全运行,应规范数据中心的基础设的质量管理过程的监督与检查工作。为数据中心提供安全、稳定的设备及系统运行环境,及时、正确、安全地为用户提供高效服务,提高对用户服务的品质保证,注重持续改进,以期实现用户满意。
重点从数据中心运行维护工作的质量管理的体系化、全员化、过程管控和持续改进的监督与检查入手,确保数据中心运营服务满足相关法律、法规以及国家规范的要求。
数据中心基础设施运行维护质量管理的监督与检查的首要目的是数据中心运行这环境安全和设备的物理安全;提高数据中心运行的稳定性和连续性;并通过运营流程的优化,不断提升运行维护服务效率。
1.数据中心基础设施运行维护质量管理应全过程监督与检查。
2.数据中心运维管理人员,从运维管理质量要求的角度,监督与检查数据中心基础设施全生命周期各阶段过程及各阶段间衔接移交过程的质量控制管理,并持续改进与增强用户满意度。
3.数据中心运维管理人员,从运维所需的技术、管理、审计和达标准需求角度,提出其对数据中心建设和改建要求及质量管理监督与检查要求。
4.数据中心运维管理人员,从运维管理质量要求的角度,对数据中心基础设施建设和改建的设计资料质量进行质量管理审核、监督与检查。
5.数据中心运维管理人员,从运维管理质量要求的角度,监督与检查数据中心基础设施新建和改造阶段的设备及施工采购质量管理。
6.数据中心运维管理人员,从运维管理质量要求的角度,监督与检查数据中心基础设施新建和改造阶段的施工质量管理。
7.数据中心运维管理人员,从运维管理质量要求的角度,监督与检查数据中心建设和改造项目的设备与施工交付的质量审核。
8.数据中心运维管理人员,在数据中心基础设施运行维护服务阶段,严格遵循数据中心运营规范和流程开展日常运营工作,持之以恒,避免因工作疏漏造成不可估量的损失。
9.监督与检查数据中心运营组织内的职责、权限得到规定和沟通,并设立与质量管理监督与检查相应的岗位职能及沟通机制。
10.监督与检查数据中心运维管理人员精通数据中心专业知识和运营技能,及时发现并消除安全隐患,同时,通过新技术的引入,提升团队的运营服务能力。
10.监督与检查数据中心基础设施及运维服务工作质量,制定相应的量化考核、监视、过程控制管理规则,并通过监督与检查运营流程的优化及量化管理,不断提升运行维护服务效率。
11.监督与检查数据中心运维管理人员,在数据中心基础设施运行维护服务阶段,从运维管理质量要求的角度,既要日常巡检,还要定期对现有基础设施的运行情况及其服务质量进行周月季度和年度健康检查,发现不符合项,提出纠错措施、预防措施和风险防范措施,并提出持续优化改进措施和方法,消除质量隐患。
12. 数据中心运维管理人员监督与检查数据中心基础设施运行维护质量计划编制与执行。
13. 数据中心运维管理人员应加强监督与检查内审管理、资源管理,从建设需求、规划、设计、采购、研发、实施、评审、验证、需求及过程变更的控制,以及各环节服务过程质量管理,并对全生命周期的质量管理过程的可追溯性进行严格的记录标识。
1.数据中心基础设施运行维护团队,应利用质量方针、质量目标、审核结果、数据分析、纠正措施和预防措施以及管理评审,持续改进质量管理体系的有效性。
2.数据中心运维管理人员监督与检查数据中心基础设施运行维护管理工作的质量改进,应甄别关键改进要求,按照过程方法控制改进管理,增强满足质量要求的能力,全方位改进。
3.数据中心运维管理人员监督与检查在数据中心基础设施运行维护服务阶段,从运维管理质量要求的角度,对内部及其外包服务工作的质量以及数据中心基础设施的运行质量进行管理,并持续改进与增强客户及其相关利益方的满意度。
4.数据中心运维管理人员监督与检查数据中心基础设施运行及维护质量的持续改进与纠正预防措施及跟踪验证管理,可提高数据中心运行的稳定性和连续性。
第十二章 其他
1) 定义
数据中心运行维护成本管理制度的标准
2) 作用
本章内容作用于数据中心运行维护成本管理流程与制度的标准,为数据中心运行维护制定运行维护管理流程与制度提供系统性建议。
3) 范围
适用于国家电网新建和在用数据中心运行维护成本管理流程与制度的制定
数据中心运行维护成本包含如下内容:
l 数据中心人员成本::数据中心运行维护阶段,涉及到的所有人力成本(包括服务外包人员成本);
l 数据中心的各系统维护保养成本:根据数据中心预防性维护计划,基础设施的生命周期,进行每年、每季度、每月、每周的基础设施维护和改造升级的成本;
l 数据中心能源成本:数据中心运行所发生的能源成本,应按照GB32910.3的要求包含水、电、柴油;
l 数据中心改造成本:针对基础设施的生命周期,应用需求与数据中心自身需求所发生的扩容、改造或更新的成本;
l 房屋建筑物和土地成本摊销或租金:自建或改建数据中心的土地成本摊销,自建或改建建筑物的成本摊销及装修费折旧均应计入数据中心长期运营成本。
l 设备折旧或租金:设备购买成本折旧均应计入数据中心长期运营成本。数据中心设备如果采用租赁方式,每期支付给租赁方的租金费用应计入数据中心长期运营成本。折旧期限为7-10年
l 耗材成本:数据中心正常运维中使用的各类耗材。
l 其他运行维护成本:行政成本、故障成本。
数据中心运维成本的管理,包括成本预算管理,成本过程管理,成本决算管理和运维成本审计
1) 运维成本预算管理
数据中心初始正式投入运维,应根据建设阶段的合同中的定义和约定确定保修,保养、维修和更换等范围和内容,同时,根据设计和实际负载的使用率,进行以上运维成本的估算。每财年开始之前要建立运维成本模型和年度运维成本预算。
2) 运维成本过程管理
在数据中心实际运维过程中,应根据月度、季度固定周期,进行月度、季度分解,同时,按照各个子系统和设备进行分解,准确分析运维实际发生成本,进行记录,比较和分析,并出具分析报告。
数据中心用户可以按照各个子系统进行独立核算,诸如电气系统,制冷系统,消防系统和通讯系统等进行独立核算。在横向方面,按照时间轴进行统计,比较和分析,建立成本基准
3) 运维成本决算管理
以年度作为一个固定的成本核算周期,对过去一个周期内发生的运维成本进行决算。按照数据中心所属组织的财务制度进行运维成本核算和决算。
1, 建立决算工作组织,由财务部作为决算工作的主管部门。
2, 建立决算工作报表,报表体系由四部分组成,具体包括:基础数据表、填报说明、分析表和分析报告。
3, 进行决算审核,采用自行审核、集中会审、委托审核等多种形式,对决算的基础数据表、填报说明、分析表和分析报告进行检查。
4, 决算数据资料的管理,决算数据资料必须以各种介质存放的各类基础数据表、填报说明、分析表和分析报告。
4) 运维成本的审计
数据中心应根据自身组织的情况和相关的规定,进行外部及内部运维成本审计,周期为季度,年度,并出具季度,年度报告。
数据中心所属的组织,根据数据中心相关的管理规定,进行外部审计,审计的内容也包括运维成本审计。同时,组织也可按照组织内部的财务等规定,进行内部运维成本审计。
1, 季度,年度审计工作目标
l 确定成本的内容构成是否合规、记录是否完整。
l 确定成本的计算方法是否合理、相关计算是否正确。
l 确定成本在会计报表中的披露是否充分恰当。
2, 成本审计的程序
l 评审成本内部控制的健全性和有效性。
l 分析成本总体的真实性与正确性。
l 审查成本核算的真实性、合法性和正确性。
l 审查成本账务处理的合规性与正确性。
l 验证成本在会计报表上表达的公允性。
3, 成本审计的内容
l 数据中心人员成本的审计
l 数据中心的各系统维护保养成本的审计
l 数据中心能源成本的审计
l 数据中心改造成本的审计
l 房屋建筑物和土地成本摊销或租金的审计
l 设备折旧或租金的审计
l 耗材成本的审计
l 其他运行维护成本的审计
1)定义
数据中心供应商管理规范
2)作用
本章规范了数据中心供应商管理,确保供应商提供高质量的服务。
3)适用范围
本制度适用于数据中心对供应商的资格预审、选用、续用等过程的管理,供应商包括设备供应商、服务供应商、外包商。
数据中心运维管理者而言,供应商的管理内容至少包含如下几个方面。
1)供应商的选择
在供应商选取原则方面, 通常情况下应考虑该厂商在相关专业领域的产品质量、应用范围、客户群体、厂家资质、专业经验、售后服务、维保体系及满足数据中心服务要求等方面的能力。
2)供应商的评估
数据中心选择供应商需经过入围评估审核。 入围评估针对潜在供应商,是指在现有供应商范围之外,对潜在供应商进行入围资格确认的过程。通过入围评估的供应商,可作为数据中心服务提供者侯选对象,具备了入围数据中心运维管理的最基本条件, 后续具体采购活动中的评标、询价评比、谈判环节,按照数据中心采购部门相关管理办法及要求执行。
供应商的入围评估步骤如下:
l 成立评估小组,评估小组由各级采购部门和业务需求部门项目主管以及支撑单位专家组成,由采购负责人担任组长。
l 拟定评估标准,数据中心运维专业负责人或需求方提供相关技术指标等专业信息,采购部门拟写商务条款,共同制定评估标准,评估标准应征得全部评估小组成员同意,并报主管部门审批。
l 实施评估,评估应以满足规定的评估标准为准则。评估结果经本级采购部门负责人审批后,进行供应商信息库存档录入工作。
l 复审分级,按照年度核定供应商级别,作为后续采购项目入围、选用、淘汰的决策依据。
3)供应商的合同签订
数据中心应拟定签订服务合同的流程。如果供应商可能接触到数据中心的重要信息,双方还应签订保密合同以保护数据中心重要信息的安全。
4)供应商的考核机制
供应商开始为数据中心提供服务后, 数据中心应定期对供应商的产品质量、服务质量进行考评。考评周期可以根据其提供服务的性质和工作量选择,但一个合同期内至少应进行定期服务考评。
数据中心应根据供应商提供的设备及服务水平协议, 考评其提供的相关设备质量、服务质量,听取客户对相关服务的满意情况,从而对其提供的设备、服务进行评估。
考评结果应作为供应商续签合同,是否继续履行合同的依据,也可以作为督促供应商持续改进的依据
5)供应商的关系管理
建立并巩固数据中心与供应商之间的关系,需要数据中心将一些服务机会研讨、服务质量评估等工作,纳入到日常的供应商管理流程当中。
l 对于一级供应商,优先采购,放宽检验,简化合同签订流程,提高先期付款比例。
l 对于二级供应商,维持正常采购,要求供应商持续改善。
l 对于三级供应商,进行能够保证基本需求的采购,作为次级采购对象,可作为非重要产品的采购对象。
l 对于四级供应商(外围),作为非主要采购对象,处于考察性质。
l 对于级别下降的供应商, 视情况不同可采用数据中心服务需求部门范围内的通报批评,建立履约保证金并酌情扣除,取消供应资格等方式进行惩罚。
l 对于级别下降且已经处于四级的供应商, 在完结所有项目后应从供应商信息库中淘汰。
1、数据中心应根据项目管理相关标准与规范,建立数据中心项目立项、采购、实施、验收的完整流程,确保用户项目的按时高质量交付。项目实施管理过程包括:
2、数据中心应指定客户服务团队专人作为项目经理,负责用户项目实施管理。项目经理应依据项目合同、SOW、SLA等相关文件,对工作任务进行分解,确定项目组人员,制定工作计划、分配项目任务。
3、对于涉及场地改造的服务项目,场地改造方案除满足用户需求外,还应满足数据中心在供电、制冷、消防等方面的技术要求,并得到数据中心设施运维主管书面确认。
4、项目实施中涉及线路申请的,项目经理应做好申请进度跟踪,避免线路申办延期。对于IP地址分配、线路调试、资源调度(管井等)方面具体工作,宜做好内外部的资源协调。
5、数据中心项目实施工作完成后,应先经过内部验收,内部验收无误后提交给用户进行场地验收。验收单中宜明确初始电量、线路开通日期、带宽等后续费用结算所需信息,并得到用户签字确认。
6、宜建立正式的运维交接与转运维流程,将项目实施相关文档及要求交接至数据中心日常运维团队。
1、数据中心宜建立服务台和服务热线,通过邮件、电话、电子平台等方式,接听和受理来自用户的各类服务请求。
2、数据中心应建立投诉管理流程,对用户投诉进行分级,明确不同级别用户投诉受理、处理和反馈流程。
条文解释:
用户投诉根据用户类型、投诉渠道、严重性等因素,可以对用户投诉进行分级并建立相应处理流程。如:
(一) 一级投诉:用户以书面函件方式发出的投诉,2小时内响应,1个工作日内反馈处理结果;并且安排高层拜访;
(二) 二级投诉:用户以邮件或电话等方式发出的投诉,1个工作日内响应,2个工作日内反馈处理结果;
(三) 三级投诉:主动回访用户时,由用户反馈的投诉,2个工作日内响应,一周内反馈处理结果。
3、数据中心应建立事件管理流程,明确事件发生时与用户的通报机制,并向用户提交书面事件报告。
4、数据中心应建立变更管理流程。应制定变更方案,按照合约要求提前向用户提交变更申请。变更申请应经用户审批通过后方能实施。
5、数据中心宜根据合约要求或实际工作需要,制定用户拜访和沟通计划,与用户进行良好的互动与沟通。
6、数据中心应根据合约要求,定期向用户提交服务报告。服务报告应得到用户的书面确认。
7、数据中心应配合用户或用户委托的第三方审计公司对项目合同执行情况的审计,陪同并提供审计所需材料,并完成审计相关整改项的落实。
1、数据中心应通过对服务交付和支持能力的测量、分析和评估,持续优化和改进数据中心服务交付能力。
2、数据中心宜建立独立的质控部门和质控流程,对项目合同执行情况进行定期检查,确保用户服务与交付满足合约要求。
3、数据中心服务商应建立用户满意度管理流程,由质控部门独立实施用户满意度调查,以获得用户对数据中心服务能力的客观评价及改进建议。
4、数据中心应通过各类内外部培训,包括理论培训和操作实训,持续提高数据中心运维人员的服务交付能力。
5、数据中心宜建立服务交付能力的测量指标,对数据中心服务交付能力进行持续测量、评估和跟踪。数据中心应至少每年一次,对服务交付能力进行评估并制定优化改进措施。
测量指标根据组织业务特点制定,常见的服务交付能力测量指标包括:
1. 项目按时完工率;
2. 用户满意度及投诉数;
3. 服务请求响应及时率和完成率;
4. 事件数量,SLA履行情况;
5. 变更完成率。
国有产权转让的债权债务处置方案
【本文标题和网址,转载请注明来源】基础设施管理的内容包括哪些(基础设施管理的内容) http://www.gdmzwhlytsq.com/hyxw/249400.html