데이터 표준화 및 다차원 분석으로 첨단 교통서비스 체계 마련
전사적 업무 정보 통합으로 경영 효율 및 고객가치 향상 효과 거둬, 2단계 사업 진행 중

한국도로공사는 다양한 업무 부서에 흩어져 있는 정보시스템을 통합하는 대대적인 작업을 진행하고 있다. 2003년 11월 구축한 싱글사인온 기반의 통합포털인 '하이포탈(Hi-Portal)'과 공사의 근간 업무라 할 수 있는 고속도로 통행료징수시스템(TCS, Toll Collection System)의 도입에 이어 지난해에는 전사적 데이터웨어하우스(EDW) 구축 사업에 나섰다. 지난해 1단계 사업에는 특히, EDW의 백미라 할 수 있는 데이터 마이닝 솔루션을 적용, 각 사업 부문의 정보를 연계·분석해 교통량을 정확히 예측하고 재난이나 사고에도 신속히 대응하는 첨단 교통서비스 제공을 위한 기반 체계를 마련했다. 현재 한국도로공사는 연말 완료를 목표로 2단계 확장 사업을 진행하고 있다. 이유지 기자 yjlee@rfidjournalkorea.com

한국도로공사의 전사적 데이터웨어하우스(EDW, Enterprise Data Warehouse)는 영업, 교통, 재무, 건설, 유지관리 등 각각의 업무 영역별로 나오는 정보를 모아 분석·예측할 수 있는 시스템이다.
2004년 7월부터 5개월 간 대내외 경영 환경과 경영전략, 정보시스템 전반에 대한 업무분석을 바탕으로 ISP(정보화전략계획)을 수립한 한국도로공사는 그 결과를 토대로 EDW 구축 사업계획 수립과 실무부서의 요구사항 파악, 파일럿을 통한 타당성 분석 등 사전준비를 진행했다.
총 45억원의 규모로 3년 동안 연차적인 EDW 구축 사업 계획을 세운 도로공사는 2005년 7월부터 본격적인 1단계 사업을 추진, 지난해 12월 전체 EDW 설계와 구축을 완료했다. 이 사업은 데이터 분석과 설계, 코드 표준화, 재무와 영업, 교통 등 업무 분야에 데이터마트를 구축하는 것으로, 원천데이터를 추출 변환 정제 적재하는 ETCL(Extraction, Transformation, Cleaning, Load) 툴과 온라인 분석체제(OLAP) 및 리포팅 툴, 그리고 데이터 마이닝 솔루션이 포함돼 있다.
도로공사가 EDW 구축 사업을 추진한 이유는 당시 업무 영역별로 구축되어 있는 기간계 시스템은 시스템별로 데이터를 저장하고 관리할 수 있어 축적된 데이터를 각각 활용할 수는 있지만 이를 연계한 통합 분석이나 예측은 어려웠기 때문이다.
EDW 사업을 추진하고 있는 민경숙 한국도로공사 정보처 경영정보팀장은 "기간계 업무시스템에 흩어져 있는 영역별·부서별 정보시스템을 통합하고, 그동안 축적해온 데이터를 분석해 미래를 예측할 수 있는 시스템을 마련하기 위해 진행한 것"이라고 그 사업 배경을 설명했다.
도로공사는 현재 지난 3월 2단계 사업 추진계획을 수립하고 현재 하드웨어 도입과 적용 범위를 확장하는 2단계 사업을 진행하고 있다.

실무 추진팀을 주축으로 한 분석 및 설계
1차 EDW 구축사업에는 2003년 하이포탈을 구축했던 현대정보기술이 공개경쟁 입찰방식에 의해 사업자로 선정되어 사업을 진행했다. 이 프로젝트에는 한국도로공사의 정보처 정보화추진팀 23명과 현업 담당자로 구성된 TF팀 90명을 비롯해 총 130명이 참여했다. 도로공사의 방대한 업무를 통합하는 전사적 프로젝트였던 만큼 대규모의 인력이 투입된 것이다.
프로젝트 추진에서 가장 중요했던 작업은 바로 사용자 업무 분석과 요구사항을 데이터 모델링에 반영하는 것이었다. 기간 업무에서 나온 정보를 '활용'하는 EDW의 특성상 현업의 사용을 보장하는 것이 바로 사업 성패를 결정짓기 때문. 따라서 도로공사는 전체 프로젝트 기간 중 무려 3개월 동안을 업무분석과 설계에 투자했으며 구축작업은 2개월만에 완료했다.
정보처의 프로젝트 추진팀은 먼저 ISP 결과를 통해 분석된 요구사항과 함께 현재 각 부문의 운영 시스템과 지원체계, 현행 업무와 데이터, 새로운 사용자 요구사항 등을 분석해 반영하는 과정을 거쳤다.
도로공사의 전체 업무시스템과 여기에서 나오는 방대한 데이터를 대상으로 분석하고 현업의 다양한 요구사항을 반영하는 것은 쉽지 않았다. 정보처의 최낙진 경영정보팀 정보통합차장은 "EDW는 현업의 요구사항과 기간계 시스템의 데이터 관리현황을 결합해, 운영계의 데이터 모델에 기반해 분석정보를 제공하기 위한 목적으로 설계해야 하기 때문에 쉽지 않은 작업이었다"며, "FTMS, ITS, TCS, 하이포털, 전자지불 및 하이패스, 홈페이지, 개별 유지관리 등 회사 내에서 운영 중인 전체 시스템이 분석 대상이 되었으며, 그 데이터량은 16TB에 달했다"고 당시 상황을 전했다.

교통, 영업, 재무 부문에 EDW 1차 구축
EDW 시스템 1단계 구축에서 도로공사는 리스크를 최소화하기 위해 기존 시스템을 최대한 활용하고 현재 운용되고 있는 시스템 부하를 최소화하는 것을 최우선 원칙으로 삼았다. 따라서 데이터마트를 구축하는데 필요한 OLAP과 데이터 마이닝, ETCL, 리포팅 소프트웨어만 도입하고 그 외에 필요한 서버와 스토리지, 백업과 시스템관리소프트웨어를 모두 기존 시스템을 활용했다. 대신 데이터 품질 측정도구(DQMS)로 데이터 품질을 측정하는데 활용하는 동시에 시스템 개발에 적용해 시스템 완성도를 높일 수 있도록 계획했다.
시스템 구축은 데이터 모델링, 데이터마트 구축, 데이터 마이닝 등으로 이뤄졌으며, 임원포털과 데이터 표준화 작업도 병행되었다. 먼저 확정된 요구사항을 바탕으로 데이터 모델링을 마치고, EDW 시스템을 임시영역과 통합영역, 데이터마트 영역으로 구분해 개발을 진행했다.
임시 영역은 TCS, 하이포탈, FTMS(Freeway Traffic Management System, 고속도로 교통관리시스템), ITS(Intelligent Transportation System, 지능형 교통시스템), 하이패스/전자지불 등 기간계 시스템에서 추출한 데이터를 적재해 데이터마트에 데이터를 공급하는 인프라 역할을 수행한다. 이 영역에서는 ETCL 툴을 적용해 데이터를 추출하고 주제영역에 맞는 타입으로 변환 및 정제하고 적재하는 프로세스를 진행하도록 했다. 이 중 적재 과정에서는 변환과 정제과정을 거친 데이터를 어떻게 분석하고 활용할 것인지 등의 형태와 업무로직에 따라 2차 가공 및 집계과정을 거쳐 분석영역이 데이터마트에 반영하는 작업을 한다. 데이터마트 영역은 전사적 데이터의 분석을 위해 과거 및 현재 데이터를 집약해 둔 곳으로, 일 또는 월 단위로 데이터를 변형해 적재하도록 구성했다. 이 영역이 바로 OLAP과 리포팅, 임원포털 등에 데이터 공급을 담당하고 있는 시스템이다.
교통, 영업, 재무에 적용되는 1차 EDW 개발은 교통량 대비 휴게소와 주유소의 매출 분석 등 13개 부문, 명절 기간 영업소별 주행시간 분석 등 7개 부문, 연도별 결산 실적 분석 등 12개 부문으로 각각 진행되었다. 1차 사업에서 우선 구축된 3개 업무에 적용된 DW의 데이터는 현재 일별로 5.8GB 정도가 축적되고 있다.
적용 과정에서 가장 어려웠던 부문은 바로 도로공사의 중심 업무라 할 수 있는 교통 분야. 10년 전 처음 구축된 FTMS의 꾸준한 업그레이드 작업으로 시스템 분석이 쉽지 않은데다 가장 방대한 데이터를 보유하고 있었기 때문이다. 전국의 고속도로에 설치된 수만개의 속도감지기들이 30초에 한번씩 정보를 보내오기 때문에 FTMS의 보유 데이터량이 엄청났던 것이다. 따라서 데이터를 개발서버에 옮기는 데만도 많은 시간이 걸리는데다 자칫 대국민 서비스에 영향을 줄 수 있어 민감한 작업부문이었다고.
결국 1차 사업에서는 15분 데이터를 원시데이터로 반영해 구축했다.
영업 부문의 TCS시스템 적용도 쉽지만은 않았다. 당시 통합TCS가 2006년 초 완료를 목표로 개발 중이었기 때문에 임시 설계안으로 데이터 모델링을 한 후 변경사항을 반영하는 작업을 반복했던 것. 또 TCS의 데이터도 그 양이 방대해 1개월치 데이터를 옮기는 데만도 3일 정도 소요될 것으로 예상돼 1차 사업에서는 일부 옮겨진 데이터만을 데이터마트에 사용했다.
도로공사는 재무 영역과 임원포털도 구축했으며, 사용자가 원하는 조건에 맞춰 화면을 변경하고 조작할 수 있어 비정형 보고서의 다차원 분석이 가능한 OLAP과 정해진 틀에서만 보고서를 출력하지만 응답 속도의 보장을 위한 리포팅도 동시에 구축했다.

교통 부문에 데이터 마이닝 기법 적용
데이터 마이닝 솔루션의 경우, OLAP이나 리포팅과는 달리 현업에서 데이터 마이닝에 대해서는 잘 알지 못했기 때문에 요구분석 단계에서 요구사항을 도출하는 것조차 쉽지는 않았다. 현업 사용자와의 많은 논의 끝에 정체 지점에 IC나 램프를 확장하는 것에 대한 타당성 분석이나 하이패스 위반율 최소화 방안, 사고현황 자료 도출 및 고속도로 교통사고에 따른 정체 등을 데이터 마이닝으로 분석하고자 하는 요구가 많이 나왔다. 하지만 축적되어 있는 데이터가 부족해 일단은 모든 부서의 관심 사항이자 충분한 데이터가 확보되어 있는 교통 관련 부문에만 적용하기로 했다.
도로공사는 데이터 마이닝 툴로 다양한 국내외의 레퍼런스와 대용량 처리 및 편리한 고유기능을 보유하고 있는 SPSS의 '클레멘타인'을 활용해 우선적으로 주말과 설·추석 연휴의 수도권 관문 4대 영업소의 교통량 예측에 적용했다.
교통량 예측정보시스템은 그 특성상 많은 변수가 나타나기 때문에 전영역에 적용하는 것이 힘들다고 판단해 우선적으로 서울, 동서울, 서서울, 군자 영업소의 다음주 시간대별 교통량 예측하는 것을 목표로 삼아 구축했다.

비용절감 및 업무 생산성 증대, 대고객 서비스 향상
먼저 도로공사는 교통량 예측을 위해 2002년 1월부터 당시 시점까지의 TCS 데이터를 입수해 교통량에 영향을 미치는 요소로 자동차 등록대수를 반영해 모델을 만들었다. 또 계절 추세를 가미한 통계적 시계열 모형을 기본으로 도출한 후 명절 주말, 한식 주말, 연휴 주말, 휴가철 주말의 과거 증가율을 반영해 최종 예측 모형 보정을 실시했다. 이에 따라 현재는 수도권 관문 4대 영업소의 향후 1개월 간의 교통량 예측 정보와 토·일요일별, 4대 영업소별, 입·출구 방향별, 강수지수별로 각각 최대 4주간의 주말 교통량을 예측할 수 있다. 지난 12월 19일 교통량 예측에 대한 마이닝 작업을 마쳤으며 그 후 1개월 반 동안 향후 데이터 마이닝 사업을 위한 종합계획을 수립했다.
EDW 구축은 도로공사의 정보데이터의 신뢰성과 일관성을 향상시키고 의사결정 프로세스를 개선했다. 또 다년간 축적된 대량의 데이터를 바탕으로 정확한 교통량 예측과 매출 다각화의 토대를 마련하는 효과를 거뒀으며, 분석 및 보고서 작성 업무를 자동화해 업무 편의성과 생산성을 크게 향상시킨 결과를 얻었다.
우선 데이터 표준화 작업으로 데이터 중복 최소화와 품질 향상을 꾀할 수 있었으며 다양한 분석으로 대고객 서비스 체계 강화, 인력 및 관리비용 절감 효과를 거두게 되었다. 그리고 체계적인 정보 수집과 관리, 원하는 정보의 주기별, 계층별, 사용자별 표준화가 가능해 전략적으로 내·외부 정보를 활용할 수 있게 되었으며, 보고서 생성과 유지보수 시간 및 비용을 절감할 수 있게 되었다. 또 재무 부문에 적용한 휴게소 매출 분석은 임대료 수익을 확대하는 것뿐만 아니라 이와 관련한 매출을 통합적으로 분석해 중요한 경영정보로 활용할 수 있게 됐다.
특히 교통부문에 적용된 데이터 마이닝의 경우, 기존의 추상적이고 정확성을 검증할 수 없는 일별 교통량 예측체계에서 벗어나 신뢰도가 높은 예측자료를 시간대별로 제공할 수 있다는 점에서 대고객 서비스를 크게 향상시킬 수 있는 기반을 마련했다. 또한 과거의 수작업으로 어렵게 계산되던 예측정보를 몇 번의 마우스 클릭으로 손쉽고 빠르게 구할 수 있어 업무의 효율성도 높이는 효과도 거두고 있다. 이에 대해 최 차장은 "마이닝 솔루션으로 보다 정확한 교통예측 시스템을 구축했다. 체계적으로 데이터가 축적되어 갈수록 더욱 높은 정확도를 확보할 수 있을 뿐만 아니라 급작스런 폭설 등 변화된 상황을 바로 반영해 예측할 수 있다"고 강조했다. 그리고 민 팀장은 "더욱 정확한 교통정보의 제공으로 대국민 서비스를 질적으로 개선할 수 있을 것"이라고 내다봤다.

5월부터 2차 사업 개시, 사업자 선정 완료
도로공사는 현재 EDW 2단계 구축사업을 진행하고 있다. 지난 4월 7일 입찰공고를 하고 사업자를 선정해, 연말까지 완성을 목표로 추진할 계획이다.
이번 2차 사업은 1차 사업에 비해 그 규모가 3배 이상이 되는 대규모 사업이다. 사업 내용으로는 하드웨어 및 전문 소프트웨어의 도입, 1차 구축 시스템 기능 고도화와 7개 업무 영역의 EDW 확장 구축과 성과관리시스템, 분석CRM, 메타데이터 관리시스템이 포함된다.
하드웨어로는 EDW 및 OLAP, 리포팅 마이닝 관련 서버와 디스크어레이, 백업장치, SAN 스위치 등이 포함되어 있으며, 소프트웨어로는 DBMS, ETCL, OLAP 및 리포팅 툴, 데이터 마이닝이 추가로 도입될 예정이다. 또한 기간계 시스템과 데이터마트 활용 툴들에서 제공하는 메타데이터(데이터 흐름체계도)를 하나로 관리하는 메타데이터 관리시스템도 별도 구축된다.
이번 2차 사업은 무엇보다 기간계 업무 중 1단계 구축에서 제외되었던 인력, 고객, 용지, 건설, 유지, 설계 등 7개 분야로 확대 구축되는 것이 핵심이며, 지난해 구축된 3개 분야에 대한 분석정보 최적화와 속도개선도 중요한 목표로 삼고 있다.
민경숙 팀장은 "2단계 사업으로 더욱 광범위한 데이터를 바탕으로 보다 정확하고 일관성있고 다양한 분석과 예측 데이터를 얻을 수 있을 것"이라며, "올해 목표는 한차원 향상된 EDW 구축으로 정보의 활용가치를 극대화해 고품질의 분석 및 예측정보 제공으로 경영의사결정을 지원하는 것"이라고 밝혔다.
저작권자 © 컴퓨터월드 무단전재 및 재배포 금지