DPM ‘셀파’ 도입으로 선제적 장애대응 가능해져

[컴퓨터월드] LG그룹 계열의 유무선 통신회사인 LG유플러스(LGU+)는 1996년 설립된 LG텔레콤을 전신으로 한다. 2010년 LG그룹 소속의 3개 통신사가 하나로 합병돼 LG텔레콤으로 출범, 이후 LG유플러스로 개편됐다. 모바일 통신 사업과 유무선 전화뿐만 아니라, 사물인터넷(IoT), 기업 대상 통신 보안 서비스 등도 제공하고 있다.

대규모 IT시스템의 실시간 운영이 필연적인 통신사에 있어 시스템 장애에 대한 조기 대응과 원인 분석은 전체 사업의 성패와도 직결되는 일이다. 이에, 과거 3사 통합 이전부터 지금에 이르기까지, LG유플러스는 데이터베이스(DB) 모니터링 솔루션 활용을 통해 안정적이고 효율적인 IT운영에 도움을 받고 있다. 현재 운영 중인 많은 서비스는 물론 향후 전개할 다양한 사업을 위한 기반을 미리 닦은 셈이다.

 

대고객업무용 통합IT시스템 ‘유큐브’

지난 2010년 LG텔레콤, 데이콤, 파워콤 3사 통합과 함께 LG유플러스는 IT시스템 통합이라는 당면과제에 직면했다. 각사가 IT시스템을 따로 운영하고 있었기에 고객이 상품에 가입하려면 유·무선을 별도로 가입해야 했고, 사용요금과 납부내역을 조회하려면 상품에 따라 개별 홈페이지 로그인이 요구됐다. 물론, 가입과 상담을 담당하는 직원들이 여러 개의 시스템을 오가면서 일일이 확인하며 업무를 보는 것도 흔한 모습이었다.

이에 LG유플러스는 3사 통합에 이어 유·무선 고객 및 상품에 대한 정보가 단일화된 IT통합 시스템 ‘유큐브(U Cube)’ 구축을 추진, 2012년 완료하면서 통합된 창구를 열었다. 이로써 다양한 통신 상품의 가입과 개통과 관련한 신속한 대응은 물론, 고객에 대한 분석을 통해 여러 결합 상품과 요금제를 선보일 수 있는 기반을 마련했다. 고객 서비스 품질뿐 아니라 현업 담당자들의 업무효율 제고도 이뤄낸 사례다.


‘유큐브’의 동반자, DB모니터링 솔루션

LG유플러스는 3사 통합 이전인 지난 2008년부터 보다 안정적이고 효율적인 IT시스템 운영을 위해 DB성능관리(DPM) 솔루션을 도입해 사용해왔다. ‘유큐브’ 구축과 함께 DB모니터링에 있어서도 규모가 확대된 시스템을 무리 없이 관리할 수 있는지 여부가 관건이 됐다. 시스템 규모가 커지면서 서버 증설이 이어졌고 응답시간도 계속 늦어졌는데, 단순히 하드웨어를 증설하는 것은 대안이 되지 못했기에 DB모니터링에 더욱 집중할 필요가 있었다.

LG유플러스는 기존 도입된 솔루션의 확대 적용을 우선적으로 시도했으나, 대량 트랜잭션 발생 시 모니터링과 로그 분석 기능에 한계가 있는 게 발견됐다. 또한 DB 과부하가 발생하면 성능분석이 필수적인데, 기사용 중이던 제품에서는 성능데이터가 누락되는 경우도 자주 발생했다. 이에 따라, ‘유큐브’ 시스템의 장애원인 파악과 신속한 해결, 그리고 성능분석과 그 결과 활용 등에 초점을 맞춰 DB모니터링 솔루션 PoC(개념검증)를 수행하게 됐고, 새롭게 셀파소프트의 ‘셀파’ 솔루션 도입을 결정했다.

▲ DPM ‘셀파’는 누락 없는 DB성능정보 수집에 강점을 지녔다.

‘셀파’ 제품의 데몬 성능이 우수하고 CPU 사용률도 낮아 과부하가 발생해도 성능로그 수집에 문제가 없는 등의 제품안정성이 높은 점수를 받았고, 제조사인 셀파소프트가 SQL 튜닝 및 DB 성능 진단 등 기술서비스에 대한 강점을 바탕으로 적극적인 기술지원을 제공했기에 기사용 제품의 윈백을 결정할 수 있었다는 게 회사 측 설명이다. ‘셀파’는 대용량화된 데이터 처리의 성능 안정화에 중점을 두고 ‘유큐브’ 및 대 빌링 서비스의 오라클 DB 모니터링 구현에 적용됐으며, 통합 모니터링을 위한 통합 대시보드도 함께 마련됐다.


장애·이슈 조기대응으로 만족도 제고

새로운 DB모니터링 솔루션의 도입을 통해 LG유플러스는 ‘유큐브’ 및 대 고객 빌링 서비스 시스템 전반에 대한 종합적인 모니터링 및 분석을 수행 가능한 체계를 갖췄다. DB 성능 장애나 이슈 발생에 대한 조기대응이 가능해진 것이다. ‘셀파’ 솔루션 도입 후 DB 성능 정보 수집이 충분히 이뤄지면서 개선이 필요한 부분을 발췌해 작업을 수행할 수 있게 됐고, 이를 통해 속도와 성능에서 개선 효과를 거두면서 IT운영자 및 현업사용자들의 만족도 향상을 이룰 수 있었다.

▲ ‘셀파’ 통합 대시보드 화면

LG유플러스는 시스템 전반의 이슈를 통합 관리하면서 세부적인 원인 파악과 분석 및 대응이 가능하도록 하는 것은 물론, 데이터에 대한 변경관리나 영향분석 및 접근제어에도 DB모니터링 솔루션의 기능을 접목시켜 활용하고 있다. 향후에는 HTML5 기반으로 개발된 ‘셀파오라클’ v4.2로 2018년 상반기 중 업그레이드가 예정돼있으며, 이를 통해 기사용 중이던 제니퍼소프트의 APM(앱성능관리) 솔루션 ‘제니퍼’와의 연계로 WAS(웹애플리케션서버)와 DB를 한 화면에서 관리할 수 있는 시스템을 구축함으로써 더욱 명확하고 신속한 장애분석 환경을 구축할 계획이다.

▲ 윤여명 LG유플러스 IT인프라팀 기술책임
[인터뷰] “IT시스템은 기반부터 잘 닦아야”

DB모니터링 솔루션을 새롭게 도입하는 과정에서 애로사항이 있었다면?

2011년도에 검토, 2012년에 도입을 완료했다. DBA들을 설득하는 게 가장 어려웠다. 실시간 모니터링도 주요한 업무인데, 성능이 더 낫다는 것을 알고 있어도 그간 익숙했던 화면을 바꾸려니 꺼려하더라. 그래서 화면을 기존과 유사하게 커스터마이징하는 과정을 거쳤다. 도입 이후 장애나 이슈를 더 빠르게 알아내고 처리할 수 있는데다 DB성능 분석도 잘 이뤄졌으며, 이는 속도와 성능의 개선으로 이어져 현재는 IT는 물론 현업에서도 솔루션 도입에 대해 만족하고 ROI(투자효율)도 높은 것으로 여긴다.

DB모니터링 솔루션은 현재 IT백오피스 시스템에는 대부분 적용돼있다. 가장 유용하게 쓰이는 곳은 역시 ‘유큐브’로, 80%가량의 리포트가 이곳에서 나온다. 셀파소프트가 어떠한 요구사항에 대해서도 적극적으로 검토하고 반영하는 모습이 인상적이었으며, 상용부터 오픈소스까지 다양한 DBMS(DB관리시스템)에 대해서도 그에 맞는 기술지원을 제공받을 수 있었다. 그래서 요즘은 새로운 DB가 구축될 때마다 모니터링 솔루션도 조기에 적용하고 있다.

IT인프라 운영 노하우가 있다면.

24시간 운영돼야 하는 대규모 시스템은 문제가 발생했을 때 즉시 인지하고 조치로 이어져야 한다. 장애 발생에 대한 즉각적이고 적절한 대응이 IT운영에 있어 가장 어려운 부분이다. 이를 위해 담당자는 나날이 발전하고 있는 IT에 대한 지식과 경험을 꾸준히 쌓아나가야 하며, 무엇보다 IT시스템 설계가 잘 이뤄지는 게 중요하다. 해당 시스템의 용도에 맞게 설계하는 것은 물론이고, 필요 시 증설할 수 있도록 유연성과 확장성도 고려돼야 한다. 아키텍처를 초기부터 잘 설계해야 안정적인 운영의 기반을 닦을 수 있다.

 

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지