황범 한산씨엔에스 상무

▲ 황범 한산씨엔에스 상무
[컴퓨터월드]

진단의 목적

데이터센터의 시설수준과 레벨 등 주요 항목은 프로젝트 초기에 의사결정 과정을 통해 결정(요건정의)된다. 의사결정과정을 거친 이들 항목은 디자인(Design)에 반영되고 이후 시설의 완성과 나아가 운영까지 각 단계(Step)별로 계획된 절차에 따라 수행된다.

일반적으로 프로젝트 초기에 실시하는 컨설팅과 엔지니어링은 시설의 구성에만 관여하게 되며 그 운영은 사용자의 몫으로 프로젝트가 완료될 때 구성되는 운영팀이 맡는 경우가 일반적이다. 따라서 새롭게 구성되는 운영팀은 프로젝트의 결과물인 도면과 매뉴얼만 인계받으며 프로젝트 초기에 의도했던 요건정의 항목들의 충족여부 등은 등한시하는 경우가 있다.

이러한 상황에서 데이터센터의 진단은 시간이 경과하면서 변화된 환경(각기 다른 입주사의 요구사항, 부하용량 증가, 기술변화에 따른 장비의 온도환경 변화, 장비의 노화 등)에서 초기에 의도했던 디자인 개념(Design concept)이 유지되고 있는지, 보다 진보된 기기 및 설계기법과 비교해 부족함은 없는지, 위험(Critical risk point) 발생 요인은 없는지 등 데이터센터를 생명체라 가정했을 때 어느 곳에 아픔과 상처가 있으며 얼마나 위험한지를 평가하고 나아가 개선방안을 제시하는 의사의 역할이라 할 수 있다.


진단의 순서와 내용

데이터센터의 진단은 다음과 같이 디자인 리뷰, 시설현황 및 상태점검 그리고 분석 및 방안제시 등 3단계로 진행된다.
 

▲ 데이터센터의 진단 3단계

처음 디자인 리뷰 단계에서는 데이터센터의 설계내용을 파악하며 주로 설계도서와 준공도면이 그 대상이 된다. 요건정의와 각 계통의 시스템 구성이 일치하는지, 장비의 구성과 용량은 충분한지, 장비의 용량은 적합한 온습도 조건을 기준으로 계산되었는지, 데이터센터 및 부속실의 온습도 기준은 적합한지, 에너지 절약을 위한 시스템은 적용되었는지 등이 중점 점검사항이다.

시설현황 및 상태 점검에서는 실제 사이트(Site)의 시설을 점검하는 행동단계(Activation)를 의미한다. 도면에 맞게 시설되었는지, 장비의 상태는 양호한지, 제어는 잘 되고 있는지, 주요 Transfer 시스템의 동작 상태와 설정은 적합한지 등을 확인한다.

개별 장비의 상태를 확인하기 위해서는 테스트 장비가 필요하며 아래 테이블은 일반적으로 사용되는 테스터의 종류들이다. 모든 측정 장비는 사용 전에 그 기기의 성능을 확인해야 하며 전문 검·교정 업체의 확인을 받은 유효성이 입증된 제품을 사용해야 한다.
 

▲ 일반적으로 사용되는 테스트의 종류

최근 관심이 집중되고 있는 에너지절약은 주로 공조시설과 연관된다. 이는 Free-cooling과 같은 시스템 상의 방안 외에 아래처럼 센터의 운영과 관련된 요소가 많으므로 운영자의 교육 및 지식전달도 진단의 내용에 포함된다.
 

▲ 데이터센터 운영과 관련된 내외부적 요소

대부분 인프라 시설은 자동제어 시스템에 의해 운영된다. 제어성능에 문제가 생기면 시스템이 오동작 하거나 온도/유량/풍량의 Unbalancing을 초래해 효율이 떨어지며 리스크(Risk)가 상승한다. 이러한 문제를 해결하기 위해 자동제어 시스템의 모니터링 포인트(Monitoring point) 확인과 함께 감시/연산/조절 기능이 적합한지 여부를 확인해야 한다.

모든 데이터센터는 높은 가용성(Reliability)과 함께 낮은 PUE, 즉 보다 효율성이 좋은 저비용의 센터 운영을 목표로 한다. PUE는 소비전력의 간략한 연산으로 센터의 효율을 판단하는 지표로 사용된다. 위의 내부적/외부적 요소들의 조정만으로 상당한 개선이 될 수 있으며, 이 또한 진단항목에 포함된다. 경우에 따라서는 CFD(Computational Fluid Dynamics)를 활용해 센터 내의 온도분포와 그 개선 방안에 보다 구체적으로 접근하기도 한다.

분석 및 방안제시 단계에서는 실제 점검 결과(Data)를 기준으로 적합성/효율성/안정성의 관점에서 필요한 항목들을 분석한다. 전력분석, 열화상 측정, 온습도 분포 측정, 유량측정, 풍량 측정 등 정밀점검 및 측정 결과물이 개별 항목으로 정리되며 이 중 리스크(Risk) 또는 이슈(Issue)가 되는 부분은 별도로 요약해 정리된다.

일반적으로 가용성은 Tier level을, 효율성은 PUE를 판단의 척도로 사용한다. 검토 항목별로 발견된 리스크와 Inefficiency 요소들은 개선을 위한 대안과 함께 대략적인 비용을 포함하고 있다.
 

진단 결과와 의미

시설의 수준(Level), 가용성(Reliability), 효율성(PUE), 위험요소(Risk), 문제점 및 개선사항(Issue) 등과 같은 진단의 결과물은 센터 운영자에게 제공되는데, 이 때 각종 결과물은 센터운영자가 모든 상황을 제대로 파악할 수 있도록 상세하고도 객관적이어야 한다.

개선사항에는 비용뿐 아니라 비즈니스에 미치는 영향의 정도와 예상시간을 포함해야 한다. 센터운영자 또는 의사결정자가 개선을 위한 프로세스(Process)의 진행, 자본투입 여부를 결정하는 근거를 제공할 수 있어야 하며, 필요할 경우에는 리모델링(Remodeling), 센터 이전 등 다른 대안을 모색할 수 있는 방향을 제시할 수 있어야 한다.

의사에 따라 같은 환자에 대해 다른 처방이 나올 수 있는 것처럼 데이터센터의 진단 또한 참여하는 엔지니어에 따라 다른 결과가 나올 수 있다.

적합하지 못한 진단결과와 방향 제시는 의사결정권자로 하여금 잘못된 결정을 내릴 수 있게 한다. 진단은 엔지니어링(Engineering)에 기반을 두고 있다. 이는 개량화에 의한 객관적이며 구체적인 데이터(Data) 작성을 의미한다. 따라서 진단에 참여하는 엔지니어는 능력, 수준, 경험이 풍부해야 한다. 시설들의 상호간 연관관계와 영향을 한 눈에 파악할 수 있는 경험과 능력을 갖추어야 한다는 의미이다.

가장 중요한 점은 시설의 책임자가 내 시설의 건강상태를 정확하게 인지하려는 의지이다. ‘내 센터는 괜찮겠지…’하는 막연한 생각은 자칫 대처하기 어려운 상황을 초래할 수 있다. 정기 건강검진처럼 시설물 또한 정기적인 리스크(Risk) 진단을 필요로 한다.

 

 

 

[Contribution]

Risk Diagnosis of Facilities Such as Data Center and Its Meaning
Managing Director Hwang Beom of Hansan C&S Co., Ltd.

▲ Managing Director Hwang Beom of Hansan C&S Co., Ltd.
[Computerworld]

Objectives of Diagnosis

The major categories of data center including the class and level of facilities are decided (Requirement Definition) through the decision-making process at the beginning of the project. After going through the decision-making process, these categories are reflected in the design, and afterward, they are performed according to the planned procedure by steps until the completion of the facility, and further to the operation.

Generally, the consulting and engineering conducted at the beginning of the project only involve the formation of facilities, and the operation is up to the users, which is generally undertaken by the operation team formed at the completion of the project. Accordingly, the newly formed operation team only inherits the blueprint and manual, which are the results of the project, and in some cases neglect whether the categories of the requirement definition intended at the beginning of the project were fulfilled.

Under these circumstances, diagnosis of data center takes on the role of the doctor, when assuming that data center is a living creature, to diagnose where it is painful and injured, how dangerous it is, and further, to propose a method of improvement for the following: whether the Design Concept intended at the beginning is maintained under the changing environment (requirements from different resident companies, increase in capacity of the load, change in the temperature environment of the equipment according to the technological changes, aging of the equipment, etc.) as time passes, whether there are any deficiencies compared to the more advanced devices and design techniques, and whether there are any factors that could generate Critical Risk Points.


The Order and Details of Diagnosis

The diagnosis of data center is carried out in 3 steps as follows: design review, current status of facilities and inspection of the conditions, and analysis and proposal of measures. 

▲ 3 Steps of Diagnosis of Data Center

In the initial design review step, design details of the data center are identified, and for the most part, drawings and specifications, and as-built drawings are the targets. The major inspection items include whether requirement definition and the configuration of each system correspond to each other, whether the configuration and capacity of the equipment are sufficient, whether the capacity of the equipment was calculated based on the appropriate temperature and humidity conditions, whether the temperature and humidity standards of data center and auxiliary room is appropriate, and whether the system to conserve energy was applied.

The current status of facilities and inspection of conditions refers to the activation step in which the facilities at the site are actually inspected. Whether the facilities were built according to the as-built drawing, whether the conditions of the equipment are satisfactory, whether it is well-controlled, whether the operating conditions and settings of major transfer systems are appropriate, and many other items are checked.

In order to check the conditions of individual equipment, test equipment is needed, and the table below contains the types of testers that are generally used. For all measuring equipment, the performance of the devices should be checked before use, and products that have been proven efficient and received confirmation from a professional inspection company or calibration company must be used. 

▲ Types of Tests That are Generally Used

Energy conservation, which is the recent focus of attention, is mostly related to air conditioning and heating equipment. In this regard, besides a measure on the system such as free-cooling, there are as many factors related to the operation of the center such as the following, so the education and knowledge delivery of the operator is included in the details of the diagnosis. 

▲ Internal & External Factors Related to the Operation of Data Center

Most infrastructure facilities are operated by automatic control system. If there is a problem to the control performance, the system malfunctions or causes unbalancing in temperature/flow rate/wind volume, dropping efficiency and increasing the risk. To solve these problems, you should check the monitoring point of the automatic control system and whether the surveillance/calculation/control functions are appropriate.

All data centers have the goal of better efficiency and low cost center operation, which has high availability and low PUE. PUE is used as an indicator to determine the efficiency of the center with simple calculation of electric power consumption. It can be improved dramatically with just the adjustments to the above internal/external factors, and these are also included in the diagnosis items. According to circumstances, by using CFD (Computational Fluid Dynamics), we sometimes approach the temperature distribution inside the center and its improvement measures more concretely.

In the analysis and measure proposal step, based on actual inspection results (Data), necessary items are analyzed from the perspective of appropriateness/efficiency/safety. Precise inspection and measurement results such as power analysis, thermal image measurement, temperature & humidity distribution measurement, flow measurement, and wind volume measurement are organized into individual categories, and of those, the parts that could be of risk or issue are separately summarized.

Generally, availability uses tier level, and efficiency uses PUE as the scale of judgment. The risk and inefficiency factors found in each reviewed category include the alternatives for improvement and approximate cost.
 

Diagnosis Results and Their Meaning.

The results of diagnosis such as the level, availability, PUE, risk, issues and their improvements of the facilities are provided to the center operator. In that case, various results must be detailed and objective so that the center operator can identify every circumstances correctly.

For the improvements, not only the cost, but the level of influence to the business and expected time should be included. The center operator or decision maker should be able to provide grounds for deciding to implement the process and capital investment for improvement, and if needed, must be able to suggest a direction to seek alternatives such as remodeling or center relocation.

As there could be different prescriptions to the same patient depending on the doctor, diagnosis of data center can have different results depending on the participating engineers.

Inappropriate diagnosis results and direction guidance may lead to wrong decisions by the decision makers. Diagnosis is based on engineering. This means objective and concrete data composition by quantification. Accordingly, the engineers participating in the diagnosis must have rich ability, level, and experience. It means that the engineer must be equipped with experience and ability to identify at a glance the mutual relations and effects of the facilities.

The most important factor is the will of the person in charge of the center to exactly recognize the conditions of their facilities. A vague idea, “My center will be alright…,” may cause a difficult situation to deal with. Like regular health check-ups, facilities need routine risk diagnosis.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지