데이터 품질, 분석, 공유, 보안이 기업 및 조직 경쟁력 좌우

최근 품질, 분석, 공유, 보안 등 데이터가 화두이다. 잘못된 데이터는 기업의 경쟁력을 떨어뜨릴 뿐만 아니라 회사의 대외 신인도까지 하락시킨다. 뿐만 아니라 중요한 정책 결정의 의사 판단 능력도 저하시킨다. 이같은 의사 판단 능력의 저하는 잘못된 데이터가 주요인이기도 하지만, 미래 예측을 위한 마이닝 기술의 부재에서도 그 원인을 찾을 수 있다. 기업의 경쟁력 제고를 위한 데이터 품질, 분석, 공유, 보안에 대한 최근 이슈를 집중 분석해 보고, 관련 솔루션 및 사례 등을 알아본다.<편집자>

제1부 / 데이터 품질
데이터 품질 관리, 기업경쟁력의 초석
금융·통신업계에서 제조·서비스 업종으로 도입 확산
양질의 데이터가 기업가치 및 고객만족도 제고

데이터 품질 관리 프로젝트가 본격화 될 전망이다. 지난해 하반기부터 제1금융권과 통신업체를 중심으로 시작된 데이터 품질 관리 프로젝트가 최근 들어 홈쇼핑 및 제조업계로 확산되고 있다. 데이터 품질의 중요성에 대해 기업들이 인식하기 시작한 셈으로 데이터 관련 업체들의 시장선점 경쟁도 뜨겁다. 국내 데이터 품질 관련 현황과 업계의 움직임을 들여다본다.
최은주 기자 ejchoi@rfidjournalkorea.com

사실 국내 데이터 품질 관리의 현 주소는 시작 단계다. 최근 2~3년 동안 데이터 품질에 대한 중요성이 부각되었음에도 불구하고 통신 및 금융권의 데이터 관련 프로젝트의 일부로 진행된 정도다. 우리은행, 신한은행, KT, SKT 등의 프로젝트를 들여다보면 차세대시스템이나 바젤II, 데이터웨어하우스 구축 과정에서 데이터 품질 관리를 일부 적용한 수준이다. 이처럼 데이터 품질 관리 프로젝트가 독립적으로 이뤄지지 못한 요인은 있다. 현실적으로 ROI의 객관화가 어렵고 프로젝트 결과에 대한 공개가 어렵기 때문이다.
한국데이터베이스진흥센터 전략사업실의 박민식 실장은 "최근 2~3년 동안 실시한 국내 공공기관이나 민간기업의 데이터 품질 관리 수준은 100점 만점에 60점을 조금 웃도는 정도"라고 지적한다. 그러나 이 점수도 데이터 일부에 대한 평가로 대상을 전체 데이터로 확대하면 점수는 더 낮아진다는 것이 박 실장의 설명이다.

국내 데이터 품질 수준 60점 이하
결국 기업들은 이같이 수준 낮은 데이터로 고객관리(CRM)를 했고, 경영진을 위한 BI(Business Intelligence)를 한 셈이다. 고객관리나 BI툴 도입에는 적극적이었지만 정작 근간이 되는 데이터 자체에는 관심이 없었던 것이다. 결과적으로 잘못된 기업전략과 실패한 CRM은 관련 솔루션에 대한 비판으로 이어졌다. 비즈니스오브젝트의 이용호 부장은 "기업들은 DB 구축과 관련해 SI업체와 DB벤더에 의해 DW 구축에만 집중, 데이터에 대한 원래 의미가 퇴색될 수밖에 없다"고 지적한다.
고객들은 중복된 SMS 문자나 이메일을 받으며 불만을 제기하고 심할 경우는 이탈한다. 특히 돈과 관련한 부분은 예민하다. 모 카드를 사용해온 A씨는 "오전에 카드결재를 했음에도 불구하고 오후에 핸드폰으로 결재하라는 문자를 받고 화가 났고 더 이상 그 카드를 사용하지 않는다"고 목소리를 높혔다. 고객서비스나 마케팅의 방향은 옳더라도 잘못된 데이터로 인한 파장은 비용 발생은 물론 경우에 따라서는 기업 이미지에 먹칠을 한다. 양질의 데이터를 보유하는 것 못지않게 데이터 관리의 중요성을 볼 수 있는 예다. 다행스런 것은 늦었지만 데이터 품질에 대한 관심도가 높아가고 있다는 점이다.

한국데이터베이스진흥센터는 데이터 품질에 대한 인식을 제고하기 위해 지난 3년간 공공기관을 대상으로 품질 진단 등을 하며 이슈를 제기해 왔다. 공공기관의 경우 최근 민원서비스와 행정정보 등의 공유 및 공개 요구가 증가함에 따라 데이터 품질에 대한 이슈가 커지고 있다. 많은 기관들이 ITA/EA와 관련, 데이터 구조 중심의 접근을 고려하는 것도 같은 맥락이다.

한국교육학술정보원 이용호 소장은 "교육행정정보시스템(NEIS)과 관련, 데이터 구조 및 교육관련 자료의 데이터 품질 프로젝트를 진행하여 데이터 정확도를 100%로 개선시켰다"며 "양질의 데이터가 바탕이 되었기에 연초 시작된 홈에듀 서비스가 차질 없이 진행되고 있다"고 말했다.

금융·통신 시작으로 제조까지 수요 확산
기업의 경우 데이터 품질 관련 대다수의 프로젝트가 차세대시스템이나 바젤II, DW 프로젝트와 연결되어 있다.
금융권의 경우 내년부터 시작될 바젤II 및 샤베인-옥슬리법과 관련, 위험관리시스템을 도입하더라도 그 기반이 되는 데이터 자체의 신용에 문제가 발생할 경우 법을 위반하게 된다. 농협, 신한·조흥, 우리은행 등이 차세대시스템이나 DW와 관련하여 데이터 통합과 표준화 등 데이터 품질 관리 프로젝트를 진행하는 것도 같은 이유에서다.

KT의 경우 80여개 운영시스템의 고객주소와 EDW 시스템의 고객정보 및 시설정보의 주소 정제를 위해 표준화 및 유효 고객에 대한 주소 정제를 진행했다. 현재 1차 프로젝트를 완료하고 업무 확장 부분과 신규 서비스에 대한 2차 프로젝트를 진행 중이다. 하나로텔레콤과 GS홈쇼핑도 데이터 품질을 위한 내용검증(POC)을 마쳤으며, 롯데닷컴과 현대홈쇼핑도 고객정보에 대한 데이터 품질 관리 프로젝트를 진행, 양질의 고객 데이터 보유가 생명인 업체를 중심으로 데이터 품질 관리의 중요성이 확산되고 있다.

KT 프로젝트와 관련, 한국IBM의 윤석인 차장은 "KT의 경우 EDW 구축시 데이터 품질관리를 적용시켜 고객의 입맛에 적합한 맞춤식 고급 마케팅이 가능해 졌다"고 평가했다. 데이터 품질 관리 프로젝트의 모양새에도 변화가 예상된다. 비투앤컨설팅 조광원 사장은 "내년부터는 특정 프로젝트에 얹히지 않는 데이터 품질 관리 프로젝트가 많이 등장할 것"이라고 전망한다.

데이터 관련 제품 하반기 속속 출시
데이터 품질에 대한 관심이 높아가면서 데이터 관련 제품을 공급하는 업체들의 움직임도 분주하다. IBM, 인포매티카, 비즈니스오브젝트(BO) 등 데이터 관련 업체를 비롯, 고객관리 전문업체들의 시장선점 경쟁이 뜨겁다.
IBM, 인포매티카, BO 등 데이터와 관련한 대표적 다국적 기업들은 그동안 인수 합병한 회사와의 통합제품 발표 준비 및 한국화 작업에 바쁘다. 또 국내 CRM 업체를 비롯해 관련 컨설팅 업체들도 업그레이드 버전이나 신제품 발표에 총력을 기울이고 있다.
IBM의 경우 자사의 데이터스테이지에 지난해 인수한 어센셜의 데이터퀄리티를 연계시킨 통합 제품을 올해 10월 출시할 계획이다. BO는 5개 컨설팅업체와 파트너 계약을 맺고 퍼스트로직의 한국화 제품이 발표되는 이달부터 본격 시장공략에 뛰어든다. 인포매티카는 올해 초 데이터 프로파일과 데이터 표준화를 위해 인수한 시뮬레러티시스템즈를 파워센터 데이터 통합 제품에 추가, 데이터 품질 기능을 대폭 강화시켰다. SAS는 데이터플럭스 인수 후 자바 기반으로 전환하여 C/S 기반 고객을 대상으로 엔터프라이즈 데이터 통합 서버를 공급할 계획이다.
국내 업체들도 적극적이다. 아이티플러스는 DQ마이너를 통해 KTF, 포스코, 우리은행 등의 대형 프로젝트를 진행했다. 특히 DQ마이너는 한국데이터베이스진흥센터의 품질평가 제품으로 선정되며 데이터 품질 시장에서 활약하고 있다. 디앤아이소프트의 DQ-SRMs도 단순히 품질을 평가하는 제품임에도 불구하고 조달청과 통계청을 고객으로 확보했다. 위세아이텍도 메타데이터 기반의 데이터 품질 제품을 하반기 출시할 계획이다.
국산업체의 적지 않은 성과에 대해 관련업계에서는 외국제품과 달리 2바이트 문화와 주소 값 정제 등의 강점에서 효과를 보는 것으로 분석했다. 이에 대해 외산 벤더들은 데이터 품질과 관련한 컨설팅 및 구현업체들과 파트너십을 맺어 국내 시장을 공략한다는 전략이다. 인포매티카의 이영수 사장은 "산업별 비즈니스를 이해하고 있는 업체와 함께 표준화 작업을 진행시켜야만 데이터 품질 관리 프로젝트를 성공시킬 수 있다"고 조언했다.
그러나 기업들이 데이터 품질을 위해 표준화를 하고, 솔루션을 도입하더라도 지속적인 관리가 받쳐주지 않는다면 사상누각에 불과하다. 아이티플러스의 조외현 상무는 "기존의 데이터 품질 프로젝트가 ETL이나 메타데이터에 대한 관리 수준"이라면서 "프로세스 중심의 데이터 품질을 위한 새로운 접근방법이 필요하다"고 강조했다. 때문에 데이터 표준화와 프로세스를 정립하기 위해 6시그마를 도입하거나 데이터 품질을 위한 조직을 만드는 기업들도 점차 나타나고 있다. KT와 포스코 등은 전사적인 품질 전담 조직을 갖추었으며, 최근에는 신한과 국민은행도 데이터 표준화를 위한 팀을 구성했다.

<상자기사>
행자부, '행정 정보 데이터베이스 표준화 지침' 개정판 연내 마련
각급 행정기관 협의 거쳐 올해 내에 추진

행정자치부가 행정기관을 대상으로 행정 DB에 대한 품질 유지 및 개선을 위하여 기존 '행정 정보 데이터베이스 표준화 지침'을 개정한 종합지침을 올해 안 마련할 계획이다.
행자부 관계자에 따르면 "10월까지 행정DB품질관리와 관련한 구체적인 초안을 마련하고, 각 부처의 조율을 거쳐 올해 안 시행할 계획"이라고 밝혔다.
지금까지 행자부를 비롯한 각급 지방자치단체는 각종 행정 데이터베이스 공유시 세부 항목이 틀려 비즈니스 활용 측면에서 어려움을 겪었다. 때문에 전자정부 표준화팀에서는 '행정 정보 데이터베이스 표준화지침'에 품질관리 절차를 적용하여 실제 업무에 활용 가능한 방안을 마련하여 이를 검토하고 있다.
지난 5월 시행된 현 지침은 DB구축시의 유의사항, DB산출물 작성 명세, 표준화 등에 중점을 두고 있으며, 행정정보 DB 구축을 위한 23개 사업 중 ▲국세청의 법령해석 DB 구축사업 ▲법무부 체류 외국인 DB 사업 등 11개 사업에 시범 적용하여 추진 중이다. 그리고 시범적용 결과를 바탕으로 세부적인 운영·관리 부분을 추가하여 지침의 실용성을 높여나갈 방침이다.
행자부 전자정부 표준화팀은 이를 위해 올해 상반기에 ISO 11179, 미 국방부 DOD 8420.1(데이터 표준화 절차) 등을 참고하여, 실무사용자들이 데이터 구축시 활용할 수 있도록 했다.
행자부 관계자에 따르면 "현재 시행되고 있는 EA의 수준이 대부분 최고 관리자 중심의 기획수준이다 보니 실제로 업무에 사용할 수 있는 실무자 위주의 DB관리 지침은 부족한 상황"이라고 설명하면서, 지침의 개선 방향은 "운영관리 지침과 관련하여 행정 운영을 위한 데이터 폐기 문제, 행정DB의 보안문제, 초기 데이터 품질 수준의 유지·관리, 기존 행정DB의 공동 이용" 등이라고 설명했다. 최은주 기자 ejchoi@rfidjournalkorea.com

<상자기사>
'데이터 품질 인증 제도' 시행된다
한국데이터베이스진흥센터, 공공기관 및 기업 대상
한국데이터베이스진흥센터(www.dpc.or.kr, 이하 DB진흥센터)가 오는 9월부터 국내 공공기관 및 기업을 대상으로 데이터 품질 인증을 시행한다. DB진흥센터는 이를 위해 최근 '데이터품질관리인증센터'를 설립하고, 데이터 품질 개선작업에 착수했다. 당분간은 실질적인 인증 사업보다는 공공기관 등을 대상으로 한 데이터 품질 무료 진단을 통해 품질에 대한 인식을 제고시켜 나갈 방침이다.
DB진흥센터 전략사업실 박민식 실장은 "현재 국내 공공기관이나 민간기업의 데이터 품질 수준은 100점 만점에 60점을 조금 웃도는 정도"라며 "품질의 중요성을 인식하도록 하는 것에 초점을 맞출 방침"이라고 포부를 밝혔다. 이를 위해 현재 '데이터 품질관리 성숙도 모델'을 개발 중이라고 설명했다.
이 모델을 위해 DB진흥센터는 CMMI(Capability Maturity Model Integration)를 참조하고, 그간의 데이터 관리 측정 및 사업의 노하우를 접목시켰다는 설명. 이를 통해 데이터 품질에 대한 5단계 수준을 정의하고, 관련 정책 및 제도의 도입, 솔루션 도입, 조직 및 시스템에 대한 단위별, 조직별, 최적화 등에 대한 수준을 심사한다. 박 실장은 "국제 사회에서 처음으로 데이터 품질에 대한 모델을 제시한 것인 만큼 좋은 선례를 남기도록 최선을 다하고 있다"고 말했다. 데이터품질관리 성숙도 모델에 대한 구체적인 기준은 오는 9월 확정 발표된다.
이 모델과 관련, DB진흥센터 품질평가팀의 김선영 팀장은 "데이터 품질 인증 자체에 대한 목적보다는 데이터의 정확성을 기반으로 비즈니스 전략의 활용성 측면에서 활용하기 바란다"고 말했다.
현재 우리 정부는 데이터 품질 표준화를 위해 전자정부 표준화팀에서 '행정정보DB 표준화 지침'을 마련하고 있다. 최은주 기자 ejchoi@rfidjournalkorea.com

<데이터 품질 관련 기업전략>
■디앤아이소프트
데이터 품질 평가부문 장점
디앤아이소프트는 데이터 품질 관리의 한 영역인 데이터 품질을 평가하는 DQ-SRMs(Data Quality Standadization Rule Management system)을 보유하고 있다. 2004년 조달청 프로젝트를 시작으로 2005년 일산병원, 2006년 질병관리본부에 설치하여 운영 중이다. 현재 통계청 설치를 앞두고 통계청 상황에 맞게 고객화를 마친 상태이다.
디앤아이소프트는 오는 9월 정형 데이터 확보를 위한 제품을 선보인다. 이를 위해 각각의 오류 데이터에 대한 담당자, 조직에 대한 정보와 오류 데이터에 대한 영향도 분석 지원책을 마련하고 있다.

■비즈니스오브젝트코리아
퍼스트로직의 한국화 제품 이달 발표
비즈니스오브젝트는 지난 2월 인수한 퍼스트로직의 한국화 제품을 이달 출시한다. 위세아이텍, 인우정보기술 등과 파트너십을 맺고 올해 안에 레퍼런스 사이트를 발굴할 계획이다.
Data Insight(데이터 평가, 분석 및 리포팅)와 Data Quality(Data Insight + 클린징, 매치 & 통합)는 중앙집중식 데이터 품질 서비스 환경을 제공하여 고객 및 운영 데이터를 클린징 및 표준화하며 써드파티 정보에 대한 추가와 레코드에 대한 매치 및 병합으로 기업 자산과 데이터 관계를 구축한다.
■아이티플러스
KTF, 포스코, 우리은행 경험 강점
아이티플러스는 포스코, 우리은행, KTF 등의 대형 프로젝트 경험을 바탕으로 고객에게 자사의 고유 방법론인 'Single+4 DQM'과 6시그마 수준의 데이터 품질 관리를 지원한다는 전략이다. DQ마이너는 기존 ETL이나 클린징 업체와 달리 처음부터 프로파일링과 비즈니스 룰 방식으로 데이터 품질 관리에 접근, 체계적인 방법론과 함께 기업의 데이터 품질관리 프로세스 및 시스템 구축을 지원하는 솔루션이다. 오는 9월 출시되는 DQ마이너 버전 3은 그동안의 프로젝트 경험을 솔루션에 담기 위해 방법론적인 접근을 할 계획이다.

■인포매티카
IDQ 추가해 시장 공략
인포매티카는 파워센터 데이터 통합 제품에 Informatica Data Quality(IDQ)를 추가하여 데이터 관련 시장을 공략하고 있다. IDQ는 지난 1월 인수한 데이터 프로파일과 표준화를 위한 시뮬레러티 시스템즈를 인포메티카 자체 데이터 품질 관리 프로세스를 포함한 표준 방법론을 통해 데이터 품질을 높일 수 있도록 지원한다. 중앙집중 관리와 분산구축이 가능하며 전사적인 데이터 개선 및 정제된 프로젝트 관리가 가능하다.
아직은 영문 버전으로 IDQ를 제공하고 있으나 내년 상반기 중 한글화를 완료할 계획이다. 사전(dictionary) 기능을 위해 컨설팅 파트너와, 자연어 검색이 지원되도록 서울대 시놉시스, 네이버 등과 협력해 나갈 계획이다.

■한국IBM
통신에서 제조분야까지 영역 확대
한국IBM은 KT, SKT 등의 실적을 기반으로 최근 제조분야까지 영역을 확장하고 있다. 오는 10월 Websphere Information Server를 출시하여 아키텍처 상의 통합을 완료하여 그간의 프로파일 스테이지, 퀄리티 스테이지의 연계성의 논란을 해결할 방침이다.
현재 모 제조업체를 대상으로 진행하고 있는 자재설비 및 자재 데이터 표준화 프로젝트인 MDM(Master Data Management)과 금융 프로젝트로 산업별 룰을 완성시킬 계획이다. 향후 SOA와 관련하여 필요한 개별 서비스들과 연계된 실시간의 새로운 업무들을 SOA 환경에서 서비스 할 수 있도록 지원할 방침이다.

■SAS코리아
기존 C/S 제품 고객 기반으로 시장 확대
SAS는 지난 2000년 데이터플럭스를 인수, ETL과 메타데이터, 업무 스케줄에 대한 통합을 이루었으며, C/S 기반의 Warehouse Administrator(WA)로 시장에 참여했다. 2004년 SAS의 패러다임이 자바 기반으로 바뀌면서 WA가 Enterprise Data Integration Server(EDI Server)로 변화했다. SAS코리아는 우선 마케팅을 강화하여 기존 C/S 기반 고객을 대상으로 시장을 공략한다는 전략이다. 지난해 확보한 포스코에 이어 현대자동차가 올해의 새로운 고객. EDI Server의 경우 한글지원이 가능하며, 현재 3.2 버전에서 그리드 컴퓨팅과 데이터 통합 기능을 강화시킨 3.3 버전을 조만간 출시할 계획이다.

<구축사례>
한국교육학술정보원 NEIS(교육행정정보시스템)
데이터 품질 관리로 처리성능 16배 개선, 저장 공간 33% 감소

한국교육학술정보원(www.keris.or.kr, 이하 KERIS)이 NEIS(교육행정정보시스템)을 대상으로 데이터 품질 관리 프로젝트를 진행했다. 일반적인 업계의 데이터에 대한 최근의 투자가 시스템을 늘리는 양적인 투자였다면, NEIS의 품질관리 프로젝트는 데이터의 정확도 향상과 함께 표준화 및 체계화에 따른 시스템 성능 향상의 효과까지 거뒀다.
KERIS는 NEIS의 데이터 품질 개선을 위해 지난 2004년 데이터 구조 중심의 ITA 시범사업을 착수하여 시스템 성능 16배 향상과 디스크 공간 33% 감소라는 성과를 거뒀다. 이를 기반으로 2005년에는 데이터 구조 및 애플리케이션 구조 중심의 ITA와 병행하여 정보시스템의 데이터 품질 관리 프로젝트를 본격 추진했다. 한국교육학술정보원은 데이터의 정확도를 100% 유지함으로써 교육 관련 대국민 민원서비스를 성공적으로 추진하고 있다.
KERIS는 교육인적자원부 산하의 기관으로 교육 정책 개발, 초중고 대상의 에듀넷 서비스 및 고등교육 대상의 학술연구정보서비스(RISS)를 하고 있는 교육정보 서비스 수행 전문 기관이다. 초창기 교육정보시스템의 기술지원으로 시작하여 현재는 교육행정 중앙 총괄센터의 역할을 담당하며, 시스템 개발 이후 응용 소프트웨어 관리까지 전반적인 운영을 맡고 있다.
NEIS를 운영한지는 올해로 4년째. NEIS는 2002년 11월 본격적인 서비스를 실시하여 2004년에는 응용소프트웨어, 시스템, 하드웨어 전반에 걸친 개선작업을 거쳐 현재 안정적인 운영궤도에 들어섰다. NEIS는 전국 시·도 교육청에 데이터베이스를 구축하고, 모든 교육행정기관 및 초·중·고등학교를 인터넷으로 연결하여 27개 교육행정 업무를 전자적으로 연계 처리하는 시스템. 교육청, 학교 등의 교육기관은 일반행정 22개 영역, 학교행정 5개 영역의 업무에 대해 NEIS로 처리하고 있다. 행정정보망 이용기관이 늘어나는데다가 대국민 민원서비스를 시행함에 따라 데이터 품질에 대한 중요성이 부각됐다.

행정정보망 공동 이용으로 정보 신뢰성 부각
교육행정정보센터 이용효 소장은 "과거 교육 행정과 관련된 데이터가 NEIS로 통합되기 전에는 각 시·도 교육청마다 개별 시스템을 운영했고, 특히 정보시스템에 구축된 데이터의 정합성을 진단하고 정제하는 관리체제 또는 자동화된 툴 등이 크게 부족했다"고 과거의 현황을 들려줬다. 결국 당시에는 업무 담당자가 직접 수작업으로 방대한 데이터를 일일이 확인할 수밖에 없었다.
그러나 NEIS가 활성화되면서 방대한 데이터의 정확성이 요구되었으며, 데이터를 효과적으로 진단하고 정제할 수 있는 자동화 도구의 활용과 데이터 관리 체계가 필요하게 됐다. 프로젝트에 나선 KERIS는 2003년 시스템 안정화를 완료하고, NEIS 정보자원의 효율적 관리와 시스템 간 연계 및 상호 운영성을 높이기 위해 ITA를 도입, 시스템 표준화 및 체계화 작업을 추진했다. 가시적 효과가 큰 데이터 구조를 중심으로 프로젝트에 나섰으며 그 결과 시스템 처리 성능은 최대 16배까지 향상되었고, 디스크 저장 공간도 33%나 감소했다. 특히 데이터 구조의 표준화와 체계화라는 가시적인 성과도 올렸다.
이러한 성과를 바탕으로 2005년에는 2단계 작업으로 DA(Data Architecture), AA(Application Architecture) 중심의 ITA와 정보시스템 데이터 품질 관리를 병행하며 본격적인 데이터 품질 관리를 추진했다.
함께 추진했던 민원 발급과 관련한 데이터의 품질관리로 약 30억 건에 달하는 데이터의 정확도를 100% 유지하여 홈에듀 민원서비스를 성공적으로 개통했다. 홈에듀 민원서비스는 교육관련 증명서를 가정에서 인터넷으로 직접 출력하는 서비스로 올해 3월부터 시행됐다.
이 과정에서 정보시스템간의 연계로 신규 데이터의 양은 물론 과거 데이터까지 공개됨에 따라 데이터의 양은 기하급수적으로 증가할 것이기 때문에 이를 위한 자동화 툴은 필수적이다. 방대한 데이터를 일일이 수작업으로 처리하는 데에는 한계가 있기 때문에 KERIS는 공개경쟁 입찰을 거쳐 아이티플러스의 DQ마이너(DQ-Miner)를 선정했다.
이용효 소장은 "그러나 일반적으로 아직은 데이터 품질에 대한 인식 부족으로 예산 배정이 어렵고, 전문 인력 확보의 어려움, 프로젝트 결과 공개의 어려움 등으로 겪을 것"이라며 "우선 가시적 성과를 거둘 수 있는 사업을 시작하여 점진적으로 데이터 품질에 대한 업무영역을 확대하는 방안을 모색해야 한다"고 설명했다.
이 소장에 따르면 외국의 경우 정보시스템 데이터 품질의 저하로 발생하는 손실 비용 및 재작업비용 등이 연간 예산의 10~25%를 차지하기 때문에 체계적인 데이이터 품질 관리 도입은 필수라고 했다.
KERIS는 NEIS에 대한 데이터 품질 관리를 진행하여 데이터 구조의 최적화 및 중복 데이터의 배제로 추가적인 시스템 추가 없이 성능 개선 및 저장 공간을 절약할 수 있었다.



지속적인 데이터 품질 관리의 노력 필요
하지만 아무리 데이터 품질 프로젝트를 진행해도 제대로 된 운영이 뒷받침되지 못하면 사상누각에 불과하다.
이용효 소장은 "정보시스템도 보안시스템같이 항시 감독해야한다"며 "데이터에 대한 주기별 검사 및 정제로 쓰레기 데이터가 시스템을 차지하는 것을 방지하여 시스템 성능 향상과 투자를 보호할 수 있다"고 말했다.
KERIS는 표준성과 현시성을 위해 이미 2년 전에 문서에 대한 형상관리시스템을 도입하여 가장 최근 자료가 제공되도록 했다. 기존의 데이터를 정비하는 것 못지않게 데이터의 안정성을 위해 수백 개에 달하는 테이블에 대한 일관성을 유지하는 것도 중요하기 때문이다.
또한 지난 해 국제 수준의 품질관리 체제를 확립하기 위해 영국표준협회로부터 품질경영시스템(ISO 9001) 인증을 획득하고, 업무 프로세스간의 개선을 위하여 교육인적자원부 산하 기관 최초로 6시그마 경영기법을 도입했다.

데이터 품질관리 대상 확대 및 마스터플랜 수립
KERIS는 이러한 성과를 바탕으로 올해 대상 업무 영역을 확대하여 데이터 품질 관리 사업을 추진하고 있으며, 중장기적 관점에서 '데이터 품질관리 마스터 플랜'을 추진 중이다.
우선 민원서비스를 5개 이상으로 확대하고, 행정정보공동이용에 따른 민원 첨부서류 감축 등 업무 혁신과 연계한 서비스를 28개 영역으로 확대함에 따른 데이터 품질 관리 사업에 역량을 강화한다.
이를 위해 지난 6월부터 11월 말까지 5개월 일정으로 관련 데이터 품질 진단 및 정비작업을 추진하여 고품질의 데이터를 유지한다는 계획이다.
이용효 소장은 "올해 추진하는 사업으로 NEIS의 정보시스템 품질 향상은 물론 체계적인 품질관리 절차가 수립될 것으로 기대한다"며 "이를 기반으로 하반기에 서비스 예정인 인터넷 민원발급을 성공적으로 추진하여 국민의 편익 증진 및 국가 경쟁력을 제고하길 바란다"고 말했다.

인터뷰/이용효 소장 한국교육학술정보원 교육행정정보센터
데이터 품질관리는 지속적으로 추진할 과제

NEIS에 데이터 품질 관리 프로젝트를 진행한 배경은.
전자정부 사업의 고도화에 따라 정보시스템 및 데이터 품질에 대한 중요성이 커지고 있다. 특히 대국민 민원서비스 확대와 행정정보공동이용에 따른 정보에 대한 접근으로 정보화 사업간의 상호연계와 정보기술 자원의 효율적인 관리 체계 정립이 필요했다. 이를 위해 정부는 2008년까지 모든 공공기관에 ITA를 적용하기 위해 올해 7월부터 '정보시스템의 효율적 도입 및 운영 등에 관한 법률'을 시행했다.
NEIS도 이러한 차원에서 2004년 ITA 시범사업으로 데이터 구조 중심의 프로젝트를 추진하여 가시적인 성과를 거두었고, 지난해에는 데이터 구조 및 애플리케이션 구조 중심의 ITA와 함께 데이터 품질 프로젝트를 추진했다.

데이터 품질 관리 추진으로 인한 효과는.
일반적으로 데이터 품질 저하로 발생하는 손실 비용 및 재작업비용 등이 연간 예산의 10~25%를 차지해 정보시스템에 대한 체계적인 데이터 품질관리 체제가 절실하다.
기존의 교육 행정과 관련한 데이터의 경우, 각 시·도 교육청마다 개별 시스템을 구축하고 있는데다가 데이터 관리가 자동화 툴보다 수작업으로 진행되고 있어 데이터의 오류 발생이 빈번했다. 그러나 ITA 시범사업을 진행하며 데이터 구조를 표준화하고 품질에 대한 체계적인 관리로 시스템 성능 향상과 투자를 보호할 수 있었다.
특히 30억 건에 달하는 시·도 교육청의 방대한 데이터에 대한 정확도를 100%로 유지하여 지난 3월부터 시행한 홈에듀 서비스를 차질 없이 진행했다.

프로젝트를 추진하면서 겪은 어려움은 무엇인가.
NEIS와 전자정부를 연계한 데이터의 규칙을 정하고, 과거의 데이터를 가져오는 과정이 어려웠다. 이 과정에서 개별적인 데이터에 대한 오류는 아니지만, 칼럼이나 발생 항목 등에 대한 논리 오류가 발생하여 데이터 품질 관리를 위한 자동화 도구가 필요했다.
또한 데이터에 대한 책임기관이 시·도로 나뉘어 있어 새로운 지침을 만들어가는 과정도 어려웠다. 그리고 과거의 데이터는 물론 새로운 데이터에 대한 입력할 양도 방대하여 부담스런 과정이었다. 하지만 무엇보다 데이터 품질에 대한 인식이 시기상조여서 프로젝트를 계획하고, 예산을 배정받는 과정이 어려웠다.

향후 계획과 데이터 품질 관리를 고려하는 기관에 대한 조언은.
데이터 품질 관리의 기존 성과를 바탕으로 관련 대상 영역을 확대할 계획이다. 올해 하반기에는 행정정보공동이용과 민원서비스에 대한 사업영역이 28개와 5개로 확대됨에 따라 이와 관련한 데이터 품질 관리에 집중할 계획이다.
프로젝트를 준비하는 기관들은 당장 예산 문제에 당면한다. 데이터 품질에 대한 인식은 아직 시기적으론 이르다. 더욱이 데이터 품질은 여느 시스템 투자와 달리 ROI 산출 및 결과에 대한 공개가 어려워 프로젝트 진행이 쉽지 않다. 때문에 초기에는 가시적인 결과가 나타날 수 있는 사업을 기반으로 시범사업을 만들어 영역을 확대해 나가는 것이 필요하다. NEIS의 경우 데이터구조(DA) 관점의 ITA 시범사업을 진행하며 나타난 결과를 바탕으로 사업을 지속적으로 확대하며 진행하고 있다. 정부기관의 경우 데이터 품질에 대한 프로젝트 진행보다는 ITA와 연계하여 디스크 및 서버 등의 하드웨어 전반에 대한 조율로 투자를 절약할 수 있다.
하지만 데이터 구조, 데이터 통합, 데이터 품질 등을 성공하기 위해서는 무엇보다 데이터에 대한 표준화가 선행돼야 한다. 또한 성공적인 데이터 품질관리를 위해서 단순한 지원 체제가 아닌 조직 전반에 걸친 사항으로 관련 절차나 지침을 따라야 데이터의 품질을 보장할 수 있다.

제2부 / 데이터 분석
금융분야에서 전분야로 활용 범위 확대…툴 시장 '장밋빛'

보다 시의적절한 의사 결정을 가능하게 해주는 차별화된 요인으로 각광 받던 실시간 정보는 이제 보편화 추세에 접어들었다. 중소기업들도 뉴욕 증권 거래소와 같은 속도로 빠르게 트랜잭션을 처리하고 있으며, 의사 결정자들은 광대역 네트워크를 통해 같은 사무실에 있는 것처럼 커뮤니케이션과 협업을 진행하고 있다. 단순한 속도는 이제 더 이상 경쟁력을 제공하지 못한다.

예측 분석 애플리케이션 구축 추세
그렇다면 차세대 경쟁력 강화 수단은 무엇일까? 그것은 이벤트를 미리 예측하고 적절한 평가와 분석을 통해 판단을 내리는 것이다. 데이터 웨어하우스를 미래 예측 도구인 '수정구슬'로 사용하는 과학적인 명칭인 예측 분석은 비즈니스 인텔리전스가 지향하고 있는 방향이다. 여기에는 신경망과 의사결정트리(decision trees), 베이지안 네트워크(Bayesian networks) 등의 수학적인 알고리즘을 통한 히스토리컬 데이터를 구동해 트렌드와 패턴을 밝혀내고 미래의 결과를 예측하는 것이 포함된다. 제품 수요가 폭증할 것인가? 환자의 상태가 악화될 것인가? 고객이 다른 곳으로 이동할 것인가? 이러한 추측과 결과는 서비스를 개선하고 비용을 줄이며 새로운 시장 기회를 알아내는데 있어 중요한 역할을 할 수 있다.
BCBS(Blue Cross Blue Shield)는 현재 의료 리소스를 활용해 수술 환자의 경과를 예측하고 있다. 미국 연방항공국은 사고 예방을 위해 조종사의 건강 상태와 항공 사고의 상관 관계를 규명하고 있다. 페덱스는 어떤 고객들이 새로운 서비스에 높은 관심을 갖고 있는지 혹은 경쟁사를 압도할 수 있는지를 예측하고 있다.
이러한 개념은 새로운 것이 아니다. 보험회사들은 수십 년 동안 보험통계학을 사용해 보험계약자들의 예상 수명은 얼마인지, 자동차 사고가 발생할 가능성은 어느 정도인지 예측해오고 있다. 금융 회사들의 경우 대출을 받은 사람들의 신용도를 파악하기 위해 예측 분석 기술을 도입해왔다.
현재 다른 점이 있다면 모든 직원들에 대한 매일매일의 의사 결정을 위한 '주류' 애플리케이션으로서 벤더들이 예측 분석 기술을 구축하고 있다는 것이다. IDC는 예측 분석 소프트웨어 시장이 연간 8% 성장, 2008년에는 30억 달러 규모가 될 것으로 전망하고 있다.
신생 업체인 트루디맨드 소프트웨어는 전자태그(RFID) 시스템의 데이터를 사용해 유통 업체들과 제조 업체들이 상품의 수요를 예측하고 재고를 최적화할 수 있는 공급망 애플리케이션을 개발하고 있다. 애트렌다는 개발 초기 단계에서 반도체 디자인이 스펙을 만족시키는지 여부를 확인하기 위해 예측 분석을 사용하고 있다.
IBM은 지난 5월 내장된 예측 분석을 사용해 제품 재고를 모니터링하며 히스토리컬 수요의 분석을 토대로 주문할 수 있는 유통 업체용 재고 관리 애플리케이션을 발표했다. 이러한 애플리케이션은 IBM 컨설턴트들에 의해 수년 동안 사용되어 온 것이다.

고객보다 앞서서 요구 사항 예측해야 경쟁력 확보
미국의 리치몬드 지역의 경찰들은 총기 도난이나 자동차 절도, 살인 등 특정 범죄가 특정 시간 대에 특정 지역에서 발생할 가능성을 판단하는 예측 분석을 사용하고 있다. 리치몬드 도시의 12구역을 관할하는 경찰 서장들은 30명의 경찰 인력을 어디에 배치해야 하는지를 판단해 주는 시스템에 연결된 데스크톱 컴퓨터를 사용하고 있다. 로드니 먼로 경찰 서장은 "예측 모델을 근거로 공권력의 효율적인 배치가 가능하다"고 밝혔다.
경찰관들은 이 시스템의 안내에 따라 16명의 탈주자를 체포했으며 18개의 총기류를 압수했다. 지난해 리치몬드 지역에서 5월 첫째 주에 3건의 살인 사건이 발생했던 것에 비해 올해 같은 기간에는 단 한 건도 발생하지 않았다. 먼로 서장은 "사전 예측력이 훨씬 강화된 것으로, 이제는 더 이상 가만히 앉아 사건이 발생하기를 기다리지 않아도 된다"고 언급했다.
응급 전화는 실시간 이벤트로 예측 분석 능력이 선행되어야 한다. 데이터 통합과 미들웨어 업체인 팁코 소프트웨어의 CEO인 비벡 라나디베는 데이터 예측 기능을 적용하고 있는 기업들이 지속적으로 증가할 것으로 확신하고 있다. 라나디베는 '실시간'을 전도하는데 자신의 모든 생애를 보냈지만 여전히 사건이 발생한 뒤 신속히 대응하는 형태에 불과하다면서, "그 대응 곡선을 앞당겨야 할 것"이라고 전했다.
라나디베는 최근 발간된 '예측의 힘(The Power To Predict)'이라는 책에서 자신의 생각을 피력했으며 여기에는 페덱스의 CEO인 프레드 스미스의 의견도 제시되어 있다. 스미스는 "성공한 기업들은 언제나 민첩하게 행동해왔다"면서, "하지만 더욱더 민첩하고 빠른 의사 결정과 예측력이 요구되고 있다"고 밝혔다. 그는 "고객들이 원하는 것을 고객들보다 앞서서 예측함은 물론 서비스의 장애 사고도 발생하기 전에 예측해야 한다"고 역설했다.
라나디베는 고객들의 충성도를 높이고 공급망의 효율화와 상점에서 적합한 물품의 구비를 유지하기 위해 향후 예측 분석이 폭 넓게 도입될 것으로 예측하고 있다. 팁코는 이러한 기회를 선점하기 위한 시도를 하고 있다. 팁코는 '예측 비즈니스'와 '예측의 힘'을 트레이드마크로 삼고 있으며 비즈니스의 기회를 규명하는데 있어 데이터에서의 패턴을 찾기 위해 데이터베이스와 애플리케이션을 결합한 규칙 엔진인 '팁코 비즈니스 이벤트'를 개발했다.
예측 분석은 데이터 분석의 다양한 방법을 제공하고 미묘한 패턴을 찾아내기 위해 마르코프 의사결정 프로세스, 스트림 마이닝(stream mining), 벡터 머신 지원 등의 명칭을 가진 새로운 알고리즘이 개발되어 과학적으로 향상되었다. 많은 업체들이 이러한 툴에 관심을 가지는 실용적인 이유는 기업들이 축척하고 있는 수많은 데이터를 활용하기 위해서이다. 훨씬 저렴하고 보다 강력한 컴퓨터의 도입은 모든 데이터에 대한 액세스를 가능하게 해준다. 보험 시장을 위한 예측 분석 소프트웨어를 개발하고 있는 발렌 테크놀로지스의 CTO인 리차드 블라심스키는 "몇 년 전만 해도 불가능했던 예측 분석을 다양한 방법으로 적용할 수 있다"고 말했다.
하지만 벤더들은 지나친 낙관론을 배제한 신중한 접근 방법이 요구된다. 리치몬드의 경찰관들이 사용하고 있는 시스템은 스티븐 스필버그의 영화인 마이너리티 리포트에서 존 앤더튼 반장 배역의 톰 크루즈가 범죄자들을 미리 예측해 체포했던 것과 같은 기능은 결코 할 수가 없다.
오라클의 데이터 마이닝 기술 담당 이사인 찰리 버거는 "이제 영화 같은 일이 거의 현실이 되고 있다"고 밝혔다. 오라클은 1999년 팅킹 머신즈(Thinking Machines)의 인수를 통한 데이터 마이닝 소프트웨어를 비롯해 피플소프트와 프로핏로직(ProfitLogic)의 인수를 통해 CRM을 위한 예측 분석 애플리케이션을 추가해 예측 모델링을 자사 데이터베이스에 구현했다. 버거는 "기술 벤더들은 예측 모델의 구축 및 프로세스 단계를 자동화해 사용자 층을 확산시키고 있다"고 밝혔다.

주식 자동매매시스템도 탄생
예측 분석의 정확성은 평가되는 상황의 복잡성과 기타 변수들에 따라 좌우된다. 즉, 예측 프로세스에서 많은 것이 잘못될 수도 있다는 것이다. 발렌 테크놀로지스의 블라심스키는 "최대한 현실적으로 생각해야 한다"면서, "미래를 투시하거나 천리안을 가지는 것은 불가능한 것"이라고 밝혔다.
로데 아일랜드 주립대학의 컴퓨터 과학 및 통계학 교수인 루츠 하멜은 "주식 시장의 미래를 내다볼 수 있는 날은 결코 오지 않을 것"이라고 말했다. 너무나 빨리 변하는 변수들이 너무나 많기 때문이다. 반면에, 월스트리트 회사들은 단기적인 거래 동향을 예측할 수 있으며 이를 바탕으로 자동매매시스템이 탄생, 그 결과도 비교적 흡족한 것으로 나타났다.
페덱스의 고객 마케팅 분석 담당 이사인 톰 위킨스키는 자사의 예측 분석 시스템이 제공하는 패키지 선적률의 정확도가 65~90%에 이른다고 말했다. 페덱스는 SAS의 엔터프라이즈 마이너 및 기타 툴을 사용해 고객들이 가격 변화와 신규 서비스에 어떻게 반응할 지, 어떤 고객들이 경쟁사로 이동할 가능성이 있는지 등을 예측하는 모델을 개발하고 있다. 위킨스키는 정확도가 문제의 복잡성이나 변수에 의해 좌우되는 것이 아니라 지원 데이터의 품질과 양에 따라 좌우된다고 말했다.
페덱스는 1990년대부터 고객을 예측하기 위해 예측 분석 기술을 사용하기 시작했다. 이후 페덱스는 기술 사용의 범위를 확대해 보다 복잡한 비즈니스 문제에 적용했다. CAR(Customer-At-Risk) 시스템을 포함한 애플리케이션들은 비교적 새로운 것으로, 위킨스키는 "이러한 애플리케이션이 비즈니스 프로세스의 주류가 되고 있다"고 말했다.
그는 콜 센터 등과 같이 실시간으로 운영되는 부분에도 예측 분석을 적용할 계획이라고 밝혔다. 이를 통해 고객 서비스 부서가 고객을 세분화하며 타사로 이동할 가능성이 높은 고객들을 분류해 이들을 대상으로 특화된 서비스를 제공할 수 있을 것으로 기대하고 있다.
재무 상황은 언제나 성공을 가늠하는 좋은 잣대가 되고 있다. 킨테라의 예측 분석 소프트웨어를 도입한 유타 대학의 동창회 기부금은 지난해 73%나 증가했다. 유타 대학은 킨테라의 분석 소프트웨어를 통해 30만 명의 졸업생 데이터베이스에서 기부를 할 수 있는 동창이 누구인지 판단하고 있다. 유타 대학의 연구 개발 이사인 에리카 마켄은 "제한된 리소스 내에서 누가 기부금을 낼 여력이 있는지 알아내고 그 가능성을 예측하는 것이 과제였다"고 말했다.

의료와 범죄 예방, 테러 방지에 까지 확산
금융과 마케팅 애플리케이션 분야에서 도입되던 예측 분석 기술은 의료와 범죄 예방, 테러 방지 등의 분야로 확장되고 있다.
2년 전부터 리치몬드의 예측 분석 시스템을 사용하고 있는 경찰들은 과거 15년 동안의 경찰 기록과 통화 내역, 체포 및 범죄 발생 등에 관한 자료를 모아놓은 데이터베이스를 사용해 범죄가 언제 어디에서 발생할 가능성이 높은지를 판단한다. 또한 기상 정보의 여러 요인들을 활용하며 지역 축제나 스포츠, 기타 이벤트도 추적하고 있다. 이 시스템은 SPSS의 클레멘타인 예측 분석 소프트웨어와 인포메이션 빌더스의 리포팅 및 가상화 툴, 연구 기관인 RTI 인터내셔널이 개발한 예측 모델로 구성되어 있다.
경찰관들은 어떤 사람들이 무장 강도나 자?동차 도난을 경험할 가능성이 높은지 판단하는 등 특정 범죄에 관해 시스템에 문의를 보낼 수 있다. RTI의 과학자인 콜린 맥큐는 "예를 들어, 나이트클럽 고객들이 술에 취해 표적이 될 가능성이 높은 시간에 클럽의 주차장 근처에 경찰관들을 배치해 무장 강도들을 집중 단속할 수 있다"고 설명했다.
먼로 소장은 데이터가 시스템에 추가됨에 따라 정확도가 향상되어야 한다고 말했다. 하지만 한계가 있는 것도 인정해야 한다. 분석은 주로 범죄가 발생한 시간과 장소, 유형에 국한되며 과거 범죄에 사용되었던 무기의 종류는 고려 대상이 아니다. 또한 예측 모델의 경우 거리에서 판매된 마약이 증가하는지 혹은 감소하는지 등 새로운 정보로 업데이트 되어야 한다.
국가 보안의 경우, 정부 기관들이 데이터 마이닝과 예측 분석을 어떻게 사용하고 있는지 자세하게 알 수는 없다. 하지만 퍼시픽 노스웨스트 국립 연구소의 사례를 통해 어느 정도 짐작이 가능하다. 국가안보부 테러방지대책의 일환으로, 이 연구소는 예측 분석과 가상화 기술을 통합해 테러리스트의 공격 징후를 탐지하기 위한 동향 분석과 패턴 인식에 사용하고 있다. 프로그램 매니저인 스티브 마틴은 그러한 애플리케이션의 정확성에 대해 신중한 태도를 보이고 있다. 그는 "하지만 연방 정부는 전화 통화 패턴을 분석하는데 이 기술을 사용하고 있는 것처럼 보인다"고 전했다.
또한 이 연구소는 테러리스트들이 테러를 감행하기 전에 특정 장소에서 어슬렁거릴 때 이러한 행동을 밝혀내고 보안 카메라에 잡힐 수 있다는 생각에 예측 분석과 행동 분석을 결합하고 있다.

개인의 건강 및 행태 분석 예측용으로 진화
전자 의료 기록이 보편화됨에 따라, 이러한 데이터베이스는 예측 분석을 위한 풍부한 정보 소스를 제공하게 된다. BCBS는 의료 서비스를 위해 MEDai의 신경망을 토대로 한 예측 모델을 지난 18개월 전부터 사용하고 있다.
연구 개발 및 컨설팅 담당 소이얼 모민 이사는 "심장병이나 신장병, 당뇨병을 예측할 수 있는 패턴이 있다면 이를 가능한 한 신속히 알고 싶을 것"이라면서 "이 기술이 질병을 예측할 수는 없지만 심각한 상황의 전조를 인식할 수는 있다"고 말했다.
시카고에 위치한 CMRC(Children's Memorial Research Center)는 실제로 종양의 재발을 예측할 수 있도록 한 단계 가까이 가고 있다. CMRC는 클레멘타인 데이터 마이닝 소프트웨어를 사용해 소아 뇌종양을 세분화하고 있다. 그런 다음 관련 정보를 위한 전자 의료 문서를 검색하는 툴과 예측 분석, 게놈 연구를 통해 의사들은 최적의 치료법을 결정하고 종양이 재발할 가능성을 예측하게 된다. CMRC의 뇌종양 연구 프로그램의 에릭 브레머 박사는 "이러한 개념을 통해 개인화된 의료 서비스를 앞당길 수 있게 될 것"이라고 밝혔다.
항공 업계의 경우, FAA는 최근 조종사의 건강과 항공기 사고와의 상관 관계를 규명하는 프로그램을 도입했다. FAA는 인사이트풀(Insightful)의 S-플러스와 인사이트풀 마이너 예측 분석 소프트웨어를 도입해 항공기 사고와 조종사의 의식불명 사고에 대한 정보를 교차 분석하고 있다(조종사들은 정기적인 의료 검진을 받아야 하며 검진 결과는 FAA 데이터베이스에 저장된다).
연구원들은 사고와의 연관성을 밝히기 위해 조종사의 심혈관과 신경 상태를 검사하고 조종사의 연령이 항공 안전에 영향을 끼치는지 여부를 정밀 검사할 예정이다. FAA의 항공의학연구소 생물정보학 연구팀장인 스티븐 버로뉴는 "일정 연령을 넘어선 기장들이 항공기를 조종할 때 안전 문제가 발생하는지 여부를 파악하는 것이 주안점"이라고 말했다. 개별 조종사의 신원 자료가 아닌 의료 데이터를 사용하는 이 프로그램은 또한 게놈 데이터를 비롯해 조종사의 혈액 샘플을 분석해 피로에 더 취약한지를 파악하게 된다.
발렌의 블라심스키는 트럭 운전사들의 운전 행동이나 피로에 약한 건강 상태로 인해 사고를 당할 가능성이 높은 사람들을 규명하기 위해 트럭에서 수집된 텔레매틱스 데이터를 검사하는데 사용되는 것과 유사한 기술을 자사가 사용하고 있다고 설명했다.
하지만 이러한 데이터 분석은 윤리적인 문제를 안고 있다. 예측 분석으로 인해 사람들의 유전자를 분석해 직장에서의 채용이 거부되거나 건강 상황이 좋지 않을 것이라는 예측으로 인해 보험 가입이 거부되는 등의 부작용을 초래할 수 있기 때문이다. FAA의 버로뉴는 "정부와 같은 대형 조직이 인터넷이나 이메일을 사용하는 사람들을 추적하는 오웰리안(Orwellian) 시스템과 같은 형태를 생각하면 된다"고 말했다.
리치몬드의 경찰들은 마약 판매상이나 갱들에 대한 정보나, 심지어는 개인의 범죄 기록 등을 시스템에 추가해 범죄를 저지를 가능성을 예측하는 방안을 고려 중이다. 이에 따라 프라이버시 옹호론자들의 거센 반발이 예상된다. 먼로 서장은 인종에 따른 분류가 아닌 포괄적이며 일반화된 분류로 접근해 프라이버시 문제에 대응할 방침이지만 프라이버시 옹호론자들이 이를 수용할 가능성은 확실하지 않다.
BCBS 측은 예측 기술을 잘못 사용할 경우의 잠재적인 위험성을 인식하고 있으며 예측한 건강 상태에 대한 가입자의 비밀 요청을 적극 수용할 방침이라고 밝혔다.

예측 분석 툴 시장 '장밋빛'
예측 분석 애플리케이션의 성장이 지속되리라는 것은 누구도 부인할 수 없는 추세가 되고 있다. 하지만 프라이버시 문제 등을 포함해 책임이 수반되어야 하기 때문에 관련 기술을 도입하는 사람들의 책임 의식이 요구된다. 로데 아일랜드 주립대학의 하멜 교수가 '지구에서 가장 방대한 텍스트 데이터베이스'라고 칭한 인터넷이 예측 분석 기술 도입의 '종착역'이 될 것으로 예상된다.
IBM 리서치의 데이터 분석 매니저인 치드 압트는 "예측 분석은 아직 분석가 중심의 기술에 머무르고 있지만 향후에는 비즈니스 프로세스에 접목되어 분석과 행동 간의 차이를 좁혀줄 것"이라고 밝혔다. IBM은 기업들이 결과에 대해 즉각적으로 대응할 수 있도록 서비스 지향적인 아키텍처에 예측 분석 기술을 탑재하는 방안을 연구 중이다.
테라데이터 기반의 데이터 웨어하우스인 테라데이터 웨어하우스 마이너와 Kxen 툴을 사용해 구축한 모델을 사용해 특정 가격대의 특정 상품에 대한 수요를 예측하는 업체인 오버스탁닷컴(Overstock.com)의 마케팅 분석 담당 통계학자인 스콧 버크는 "예측 분석은 점차 비즈니스 운영에 접목되고 있다"고 말했다.
이제 과거의 정보와 데이터가 미래를 예측하는데 효과적인 수단이 되고 있다. 또한 이를 활용한 기업들이 확산되면서 예측 분석 툴의 시장 전망 역시 '장밋빛'이 되고 있다.Rick Whiting

예측 분석 기술로 '평생 반려자' 찾는다
예측 분석 기술이 진실한 사랑을 찾는데 사용될 수 있을까? 이하모니(eHarmony)의 연구원들은 예측분석 툴을 사용해 온라인 데이트 업체인 자사의 서비스를 강화하기 위한 알고리즘 모델을 구축하고 있다.
데이트 사이트 이하모니가 2000년에 오픈했을 당시, 개인적인 가치 기준이나 관심사, 인성 등의 특징을 알아내기 위해 결혼한 커플을 인터뷰했던 사회 심리학자들을 고용했다. 현재 이 회사는 1,100만 명에 달하는 회원을 보유하고 있으며 2005년 한 해에만 3만3,000쌍을 결혼시켰다.
인터넷을 통한 '짝짓기'는 매우 높은 성공률을 기록하고 있다. 이는 운영 모델에 추가되어야 하는 많은 변수들이 규명되고 있으며, 변수를 효과적으로 측정하는 방법이 밝혀지고 있음을 의미한다. 이하모니의 연구 개발 부문 스티브 카터 이사는 "하지만 아직까지 규명하지 못한 변수들은 수없이 많다"고 말했다.
SPSS의 소프트웨어는 이하모니의 과학적인 리서치와 브랜드 개발, 호환성 모델, 고객 만족도 및 유지, 제품 리서치를 위해 사용되고 있다. 이를 통해 결혼하기 전의 커플을 추적해 그들의 관계가 얼마나 오래 지속되었으며 교제가 끊긴 커플은 얼마나 되는지 알아낼 것이다. 이하모니는 그러한 중요한 정보를 전세계와 공유하는 방법에 대해 모색해보아야 한다.

"미래 예측의 정확도를 높여라"
◆ 전문 영역에서 비즈니스 프로세스의 주류로 이동하고 있는 예측 분석
◆ 비즈니스 데이터와 수학적 알고리즘, 예측 모델이 주요 구성 요소
◆ IDC, 2008년 80억 달러의 시장 규모 전망

미래 예측으로 나아가는 시스템 관리 툴
IT 매니저들의 업무는 점점 예측이 불가능해질 정도로 많아지고 있으며, 그들이 사용하는 툴 역시 그러하다. 하지만 이제 상황이 점차 바뀌고 있다.
CA와 IBM은 훨씬 능동적이 되도록 자사의 시스템 관리 제품에 예측 분석 기술을 추가하고 있다. CA는 오래 전부터 뉴전트(Neugents)라 불리는 신경망 네트워킹 기술을 시도해왔지만 큰 성과는 거두지 못했다. CA의 최고 기술자인 빈스 리는 "당시에는 기술과 고객의 예측 사이의 연결점이 없었다"면서, "상당수 IT 문제들은 전원의 장애나 소프트웨어 버그 등 무작위적이었기 때문에 뉴전트가 예측할 수가 없었다"고 밝혔다.
하지만 이제는 새로운 기술이 IT 리소스의 할당과 유기적인 시스템 분할에 대한 필요성을 예측할 수 있게 되었다. 유니센터(Unicenter)와 클레버패스(CleverPath) 및 기타 CA 제품들은 패턴 인식 기술을 비롯해 여러 예측 기능을 사용, IT 시스템과 네트워크 성능 수준을 모니터링하고 있다.
IBM은 티볼리 시스템 관리 툴에 기본적인 예측 분석 기술을 도입했다. 티볼리 인텔리전트 오케스트라는 IBM의 데이터센터와 리소스, 워크로드 기능의 모델을 갖고 있다. 이 제품은 예측 알고리즘이 서비스 수준의 기준치가 초과되었다는 판단을 내리게 되면 새로운 장비를 온라인으로 구매하거나 워크로드를 재구성한다.
IBM의 토털스토리지 프러덕티비티 센터(TotalStorage Productivity Center)는 스토리지 인프라를 모니터링하며 데이터 활용을 분석해 병목 현상을 예측한다. 티볼리 애플리케이션 디펜던시 디스커버리(Tivoli Application Dependency Discovery) 매니저는 복합적인 애플리케이션을 모니터링하고 시스템이 최적의 구성에서 어긋나게 변경될 경우 경고를 보낸다.

제3부 / 데이터 공유-미, 정부와 기업 간 정보 공유

데이터 보안과 범죄 예방을 위해서는 정부 기관과 기업들의 유기적인 협력 체계 확보가
요구된다. 하지만 기업들은 자사의 정보 공유에 대해 조심스러운 태도를 보이고 있다.
테러나 기타 위험으로부터 사람들을 보호하기 위해 미국 정부 기관들은 방대한 데이터베이스에 대한 심도 있는 분석을 단행하기 시작했다. 또한 연방 정부는 기업들에게 데이터를 공유하도록 공식 요청하고 나섰다. 하지만 이러한 기업과 정부기관의 데이터 공유는 그 프로세스가 매우 복잡하고 비용도 만만치 않으며, 일부 기업들의 경우 고객의 프라이버시 보호를 내세우며 연방 정부의 요청을 거부하고 있는 상황이다.

미 정부, 기업에 고객 정보 제공 요구 거세져
미성년자 온라인 보호법(COPA) 시행의 일환으로 인터넷 업체들에게 검색 용어나 URL 검색 결과를 비롯해 다양한 정보를 요청한지 얼마 되지 않아 미국 법무부는 이보다 한층 강화된 법안을 시행하기에 이르렀다. 미국 법무장관인 알베르토 곤잘레스는 구글과 AOL, 버라이존 등의 업체들에게 가입자 정보나 기타 고객 데이터를 최소 2년 동안 유지, 정부가 범죄자 조사를 필요로 할 때마다 데이터를 제공해줄 것을 요청하고 있다. 현재 인터넷 업체들의 경우 모든 데이터를 저장해놓아야 한다는 의무 규정은 없다.
사람들은 정부 기관이 범죄나 테러리스트와 싸우는데 필요한 데이터를 보유하고 있길 바라지만 개인의 신원 정보인 이름과 주소, 사회보장번호, 웹 검색 기록 등에 대한 잠재적인 오용의 가능성이 제기될 수 있다.
최근 유럽 재판소는 유럽집행위원회와 국토안보 세관 이민국 간에 체결된 데이터 공유 협약에 대해 유럽의 프라이버시 법에 위반된다며 무효 판결을 내렸다. 양측의 협정은 테러리스트를 막기 위해 2004년부터 고안된 것이다. 이에 따라 양측은 데이터 공유 방법에 대해 다른 대응책 마련에 부산한 움직임을 보이고 있다.
이는 정부 기관이 기업의 데이터를 공유하는 사례 중의 하나이다. 미국 국가안전보장국은 AT&T를 비롯한 통신 회사들로부터 방대한 전화 통화 내역을 받고 있다. 트럭 회사들은 미국으로 들어갈 경우 화물에 대한 보고가 의무화되어 있다. 금융 회사의 경우는 의심스러운 거래 내역을 보고해야 한다. 또한 소환장을 발부해 개별 회사들로부터 데이터를 확보하고 있다.
연방 정부기관들의 기업 데이터 공유는 대부분 성공적으로 이루어져왔다. 9·11 테러 공격 이후, 정부는 운송 업체 특히 항공 업체들과 협력해 승객과 직원들의 정보를 넘겨 받아 테러리스트 목록과 대조해보고 있다. 항공 회사들의 경우, 컴퓨터를 통한 승객들의 사전 스크린 시스템인 CAPPS II이나 시큐어 플라이트(Secure Flight)라 불리는 테러감시자 명단 검색 시스템의 일환인 국토안보 프로젝트에 따라 탑승객과 항공사 직원의 자료를 제공하고 있지만 데이터 분실이나 오용의 가능성이 제기되고 있다.
프라이버시 옹호론자들은 수백만 건에 이르는 데이터의 양과 저장되는 기간, 제공되는 데이터의 범위 등을 걱정하고 있다. 이번 협약에 따라, 유럽의 항공사들은 관세이민국에 최대 34비트의 탑승객 정보를 제공해야 하는데, 탑승객 정보에는 이름을 비롯해 항공권을 현금으로 구입했는지 혹은 카드로 결제했는지 등의 구매 방법에서부터 기내식으로 무엇을 주문했는지 등이 포함되어 있다. 국토안보국은 최대 3년 6개월 동안 해당 정보를 보유할 수 있다. 이번 협정은 유럽연합 법원이 정한 만료시한 9월30일 전에 재협상이 될 예정이다.
데이터 공유가 매우 정밀하고 조심스럽게 시행되고 있지만 또 다른 문제가 있다. 미국 질병통제 및 예방 센터는 조류 독감의 발발에 대비해 국제 항공사들에게 탑승객들의 긴급 연락처 정보를 6개월 동안 저장해둘 것을 요청하고 있다. 유럽항공연합의 정보 관리자인 데이비드 핸더슨은 "이러한 요청을 수행하기 위한 인력과 비용이 만만치 않다"고 밝혔다.

'국가안보영장'이라는 이름으로 무소불위의 파워 과시
정부는 소환장이나 '국가안보영장'의 형태로 데이터를 요청하고 있다. 소환장은 판사의 승인을 받아야 하며 구글이 올해 초에 했던 것처럼 비즈니스에 어려움을 겪게 하거나 너무 모호할 경우 기각될 수 있다. 국가안보영장은 판사의 서명을 받지 않아도 되는 FBI가 발부하는 소환장으로, 은행과 보험, 전화, ISP와 신용 기록을 확인할 수 있다(의료 기록은 제외). 일반적인 소환장과는 달리, 국가안보영장을 받은 기업들은 거부할 권리가 없다.
FBI는 국가안보영장을 남용하고 있는 것처럼 보인다. 워싱턴 포스트는 지난해 정부가 3만 건의 영장을 발부했다고 보도했다. 법무부 대변인은 워싱턴 포스트의 보도가 정확하지 않다고 지적했지만 얼마나 발부되었는지는 확인해주지 않았다. 법무부는 검찰이나 검사가 발부한 소환장이 얼마인지 추적하지 않는다.
게다가 법무부는 영장의 수신자에게 부과되는 비용을 모니터링 하지도 않는다. AOL의 경우 수십 명의 직원들이 연간 12,000건의 법률 집행 요청을 처리하고 있다. 이러한 요청의 1/5는 정보 공유에 관한 것이다.
한편, 기본원칙도 바뀌고 있다. ISP 업체들의 전자 정보 제공을 의무화한 미국에 이어 유럽 의회와 법원은 지난해 12월 통신 업체들이 전화와 인터넷 기록을 2년 동안 저장토록해 테러방지 조사에 협조해야 한다는 법안을 승인했다. 마이크로소프트는 '유럽의 데이터 저장 및 유지 법안'에 따르기 위해 내부 데이터 유지 정책을 재검토하고 있다고 밝혔다.
기업들은 정부의 데이터와 정보 요청에 대해 때때로 거부하고 있다. 구글의 경우가 그러하다. 구글은 법원의 규칙에 따르면서도 법무부가 처음에 요청했던 것보다 훨씬 적은 데이터만을 제공했다. 구글의 변호사인 니콜 웡은 "법원이 정한 내용이 정부나 그 누구도 인터넷 업체들로부터 데이터를 요청할 때 '백지 위임장'을 가진다는 것을 의미하지는 않는다"고 회사 블로그에서 밝혔다.
소규모 ISP인 Lariat.net의 브렛 글라스 사장은 정부로부터 고객 데이터에 대한 요청을 받아본 적이 없으며 만일 요청을 받는다면 이를 거부할 것이라고 말했다. 그는 "연방 정부나 의회 또는 FCC 등 누구라도 우리에게 데이터를 제공하라고 요청해온다면 법률적인 소송을 정식으로 제기할 것"이라면서 "데이터는 우리의 것이 아닌 고객의 것"이라고 밝혔다.
컨설턴트인 리차드 윈터는 데이터를 공유하는 기업들의 경우 기술적인 문제가 있다면서 특히 중앙의 데이터 웨어하우스를 보유하고 있지 않을 경우 어려움이 있다고 말했다. 그는 정부 기관들이 여러 IT 시스템에 분산된 자료를 찾는 것은 쉽지 않을 것이라면서 많은 기업들이 분산된 데이터를 한 곳에 모아 회사 내부에서 사용하는 데에도 상당한 작업이 요구된다고 지적했다.
데이터 공유는 예민한 문제이다. 어스링크와 마이크로소프트, 비자 등은 이에 대해 공식적인 언급을 하지 않고 있으며, 구글은 정부의 소환장을 받은 것은 인정하지만 구체적인 수치는 밝히질 않고 있다.

비즈니스에 도움되지 않으면서 '부담'만 가중
국토안보부와 EC의 협정은 시큐어 플라이트 프로그램보다 한층 강화된 것이다. 미국 운송보안국(TSA)은 지난해 10월, 탑승권을 가진 탑승객을 테러리스트 목록과 비교해보는 등 실시간 트랜잭션 데이터를 통합하려는 시큐어 플라이트의 계획이 항공사의 IT 시스템을 업그레이드하지 않고는 구현하기 어렵다고 인정한 바 있다.
일부 항공사들은 고객의 프라이버시를 보호하는 것을 넘어선 행위에 대해 공개적으로 불만을 제기해왔다. 제트블루(JetBlue)는 액시엄(Acxiom)을 위탁 업체로 선정해 150만 명 이상의 승객 정보 5백만 건을 토치 컨셉트(Torch Concepts)에 이관하기로 한 2003년의 시도에 많은 비난을 받은 바 있다. 토치 컨셉트는 군사 시설에 접근을 시도하는 사람들의 특성을 분석하는 데이터 마이닝 툴을 개발하고 있다. 제트블루는 TSA의 공식 요청 문서를 받은 다음에 참여하기로 동의했었다. 훗날 제트블루의 CEO인 데이비드 닐맨은 데이터 제공이 자사의 프라이버시 정책을 위반한 것이라고 시인했다.
안보 이유로 인해 항공 업계는 정부가 주도하고 있는 데이터 공유 프로젝트에 참여해야 하는 필요성을 이해하고 있다. 하지만 미국과 유럽의 업계 전문가들은 미국 정부가 더욱 체계적으로 조직화해야 할 것을 촉구하고 있다. 항공사들은 미국을 목적지로 향해 가는 항공기에 탑승한 승객의 정보를 이륙 후 15분 내에 제공할 것을 요구하는 TSA 시큐어 플라이트 프로그램과 관세이민국의 API(Advanced Passenger Information) 프로그램에 적용 받는 것을 원치 않고 있다.
항공운수협회의 CEO인 제임스 메이와 유럽항공협회의 회장인 울리히 슐레트-스트라트하우스는 국보안보부 장관인 마이클 처토프에게 보낸 서한에서 "두 프로그램은 긴밀한 협력 하에 기능을 발휘해야 하며 커뮤니케이션이나 프로그래밍, 정보 요청에 대한 불필요한 복제 행위가 없어야 한다"고 언급했다. 메이와 슐레트-스트라트하우스는 시큐어 플라이트와 API가 정부의 항공탑승 금지자 명단을 대신하거나 항공사로부터 요청한 데이터가 복제되지 않도록 요청했다.
금융 서비스 회사들은 정부 기관이 아닌 누군가에게 데이터가 넘어가는 것을 원치 않고 있으며, 테러리스트의 금융 거래를 막는 선에 그쳐야 한다고 요구하고 있다. 미국 재무부의 금융 범죄에 관한 의심스러운 행동 보고서(SAR) 파일은 1996년 처음 요청한 이후 매년 증가해 지난 해에만 919,000개의 보고서가 작성되었다.
은행들은 SAR에 대해 우려를 표명하고 있는데 특히, 애국법(Patriot Act)이 제정된 이후 이를 위반할 경우 최대 100만 달러의 벌금이 부과되며 최악의 경우에는 금융 회사의 면허가 취소될 수 있다. 450여 개의 지점을 운영하고 있는 자이언스 뱅코프의 기업 규제 준수 매니저인 켈리 이더링톤은 "9·11 이후 규제가 극도로 심해졌다"고 말했다. 다른 은행들과 마찬가지로, 자이언스는 의심스러운 행동을 언제나 보고하고 있지만 법 집행 요청이 지난 수년 동안 크게 높아지고 있는 상황이다.
미국의 100대 금융 서비스 회사들의 컨소시엄인 BITS의 존 칼슨 이사는 SAR에 대해 "금융 회사들에게 아무런 이점도 제공하지 않고 부담만 안겨주고 있다"고 토로했다. 그는 업계의 과도한 규제와 고객 프라이버시를 보호해야 하는 이중고를 안고 있는 금융 업종의 입장을 대변하면서 법적인 기반이 없거나 법원이 발부한 공식 문서가 없이는 정부 기관에 데이터를 제공하지 않을 것이라고 밝혔다.

보안상 취약해 제공된 정보 악용 소지 커
정부 기관들이 수집한 기업 정보와 인터넷 데이터로 할 수 있는 일은 무엇일까? 일부 회의론자들은 모든 정보가 하나로 묶인 방대한 데이터베이스가 전체 시민들의 정보로 쌓일 수 있다고 걱정하고 있다. 국방기관의 연구원들이 수년 전에 이러한 방법으로 테러리스트를 알아내기 위해 데이터 마이닝 작업을 진행했던 사례도 있어 충분히 가능한 얘기로 들린다. 이 프로그램은 당시 여론의 악화에도 불구하고 2년 이상이나 진행된 바 있다.
다소 다르지만 연관성이 있는 우려 사항은 한 가지 목적으로 수집된 데이터가 다른 목적으로도 사용될 수 있다는 점이다. 최근 USA Today는 FBI가 범죄자들로부터 수집한 DNA 증거 자료를 사용해 신원이 확인되지 않은 수많은 사망자의 신원을 확인할 계획이라고 보도했다.
또한 일단 연방 정부 손에 넘어간 데이터는 보안을 확신할 수가 없게 된다는 우려도 있다. 지난 5월 미국 보훈부에서 발생한 2,650만 전역군인 및 가족들의 신상 정보 도난 사건을 보면 납득이 가는 주장이다. 보훈부는 전에도 보안이 취약하다는 지적을 받아왔지만 제대로 된 보안 정책이 실행되지 않았다. 보안은 많은 데이터가 축적되고 오랫동안 저장되는 기관에서 그 중요성이 더욱 커지고 있다.
암호화가 한 해결책이 될 수는 있지만 암호화된 데이터는 쉽게 검색하기가 어렵기 때문에 정부 기관에서 사용하는데 어려움이 따른다. 기업과 정부 기관의 데이터 공유는 결코 쉽지 않은 과제임에 틀림 없다.
Larry Greenemeier

유럽연합과 미국 정부 기관의 데이터 공유 논란
지난 5월30일, 유럽 재판소는 미국과 유럽이 미국으로 가는 항공기 탑승객의 데이터를 공유하도록 체결한 협정에 대해 무효 판결을 내렸다. 이번 판결은 미국 정부가 소환장을 사용해 인터넷 회사들로부터 데이터를 취합하려는 시도에 대해 어려움을 겪게 하는 계기가 될 전망이다.
유럽 재판소는 유럽 연합의 항공사들이 컴퓨터 예약 시스템에 저장된 승객에 대한 정보를 미국행 항공기가 이륙한 후 15분 이내에 미국 세관이민국에 전송해야 한다는 것을 골자로 한 2004년 협약에 대해 불법이라고 판결을 내렸다. 이에 따라 유럽 위원회의 변호사들은 9월30일까지 새로운 데이터 공유 협약에 대한 초안을 마련하거나 항공사와 정부 기관간의 갈등을 그대로 내버려둘 수밖에 없게 되었다.
이는 또한 기업들이 데이터에 대한 정부의 요청에 대응하는 서로 다른 방법을 제시하고 있다. 일부 항공사들은 요청을 따르고 있지만 거부하고 있는 항공사도 있어, 유럽연합이 의무조항으로 만들 것인지의 여부를 강요하고 있다. 유럽 의회가 처음에는 협약이 충분하다고 판단했지만 데이터 보호 문제가 법정으로 가게 되었다.
2004 협약은 미국 정부가 어떠한 정보를 언제, 얼마나 오랫동안 보유해야 하는지 규정한 매우 특별한 협정이었다. 승객 데이터는 테러 방지와 심각한 범죄 예방 차원에서만 사용될 수 있었다. 조사와 무관하다면 데이터는 3년 6개월 이상 보관이 불가능했다. 다른 어떤 정부 기관도 세관 이민국의 데이터베이스에 직접 접근할 수 없었다. 세관 이민국은 EU 항공사 예약 시스템으로부터 승객 정보를 전송 받을 수 있지만 인종이나 종교, 의료 기록 등과 같은 민감한 정보는 걸려내는 자동 시스템을 구현할 경우에 한해서만 허용된다.
이제 데이터 공유가 불법이라는 판결이 내려진 상황에서, 이해 당사자간의 협약만으로는 충분하지 않게 되었다.

IBM, 데이터 마이닝 툴 강화
정부 기관들이 데이터를 수집하게 되자, 이를 활용할 수 있는 방안을 모색하게 되었다. IBM은 정부 기관들이 테러리스트와 범죄자를 체포하기 위해 원본 데이터를 분석할 수 있게 해주는 기술과 기업을 하나로 집중시키고 있다.
IBM은 지난해 공공 및 사설 데이터베이스의 결합을 통해 범죄 행위를 밝혀낼 수 있는 소프트웨어 개발 업체인 SRD를 인수했다. SRD의 소프트웨어는 테러리스트로 알려진 사람과 통화한 사람의 전화번호를 알아낼 수 있다. SRD의 설립자였으며 현재는 IBM의 분석 솔루션 그룹의 과학자인 제프 조나스는 "모든 기관들이 경쟁자나 적들보다 많은 데이터를 확보하고 싶어한다. 이는 미국 정부도 예외가 아니다"라고 말했다.
조나스는 어떤 정부 기관이 자사 소프트웨어를 사용하고 있는지는 밝히지 않았다. SRD는 중앙정보국(CIA)의 벤처캐피털 자회사인 In-Q-Tel로부터 투자를 받은 바 있다. 이 기술은 또한 라스베가스 카지노에서 사용되어 직원과 고객간의 의심스러운 커넥션을 탐지하는데 활용되고 있다.
IBM은 항공기 탑승객에 대한 정보 공유에 대한 미국과 유럽의 규제 기관 간의 협약에 대한 판결을 해결하기 위해 SRD 소프트웨어를 판매할 계획이다. DB2 AR(Anonymous Resolution)은 두 가지 데이터로 암호화해 사용자가 규정한 범주를 토대로 대조해보며 데이터는 암호화된 상태로 남아있어 판독할 수 없다. 이러한 설정을 통해 미국과 유럽연합 국가 기관들은 미국의 탑승금지 목록에 올라 있는 사람들의 신원 확인이 가능하다. 조나스는 "유럽연합의 불법 판결 이후 프라이버시를 보호하는 동시에 자료 검색이 가능한 솔루션이 될 수 있을 것"이라고 기대했다.
IBM은 언어분석시스템을 개발하고 있는 LAS를 인수하면서 분석 제품을 확장하고 있다. LAS는 사람들이 이름을 조금 바꾸더라도 원래의 이름과 대조하여 바뀐 이름을 밝혀내는 소프트웨어를 개발하고 있는데, 미국 정부기관들은 이러한 분석 시스템을 통해 테러리스트가 이름을 바꾸어 비행기에 탑승하더라도 이를 잡아낼 수 있을 것으로 기대하고 있다. 이 소프트웨어는 국토안보부와 FBI, 미국 세관이민국에서 사용되고 있다.

제4부 / 데이터 보안
최근 미국 보훈부(Veterans Affairs Department)에서 발생한 전역군인의 개인정보 파일 도난 사건이 보도되면서 해당부서의 취약한 IT 보안 문제가 도마 위에 오르고 있다. 이에 대한 정치권의 비판과 여론의 신랄한 비난이 연일 제기되고 있지만 취약한 보안 정책에 대해 시정이 요구된 것은 어제 오늘의 일이 아니다. 더 이상 늦기 전에 최적의 보안 정책을 실행해야 한다.

모바일화 쉬워져 도난 위험도 커져
이번 사건은 보훈부의 한 분석담당 직원이 전역 군인들의 데이터를 사무실에서 집으로 가져가 자신의 PC에서 일을 계속하려다가 디스크를 도난 당하면서 발생하게 되었다. 이 데이터에는 2,650만 명의 전역 군인들의 이름과 사회보장번호, 생년월일이 포함되어 있다. 그 직원은 해당 데이터와 함께 노트북, 외장 하드 드라이브를 지난 5월 3일 강도에 의해 도난 당했다.
보훈부는 그 동안 여러 단계에서 표준 보안 정책을 도입해 실행하고 있었지만 제대로 이루어지지 않았다. 해당 직원의 경우 중요한 정보에 대한 접근 권한이 있었지만 사무실에서만 액세스가 허용되었다. 하지만 그러한 보안 정책은 거의 모르거나 무시되고 있었다. 보훈부의 조사 결과, 그 직원은 남은 업무를 처리하기 위해 상부에 보고하지 않고 2003년부터 데이터를 집으로 가져간 것으로 알려졌다.
더욱이, 보훈부는 정보 유출을 막기 위해 중요한 데이터에 대한 암호화 정책도 보유하고 있지만 이번에 도난 당한 데이터는 암호화되지 않았다. 또한 보훈부의 짐 니콜슨 장관에 따르면 데이터 도난 사건이 발생한 뒤 2주가 될 때까지도 상부에서는 그 사실을 몰랐던 것으로 나타났다.
취약한 보안 정책 실행으로 인해 발생한 이번 정보 유출 사건은 보훈부와 니콜슨 장관을 곤경에 빠뜨리고 있다. 니콜슨 장관은 백악관과 미 의회에 사고에 대한 설명을 해야 했고 책임 추궁을 당해야만 했다. 니콜슨 장관은 책임을 통감하는 동시에 화도 치밀어 올랐다. 그는 "나 자신도 전역군인이기 때문에 화가 날 수밖에 없다. 솔직히 말하면 거의 미칠 지경"이라고 밝혔다. 보훈부는 도난 당한 데이터에 있는 모든 사람들에게 피해 사실을 확인하고 있다.
이번 사건을 두고 미 의회는 즉각적으로 해결책 마련을 촉구하고 나섰다. 래리 크레이그 아이다호주 상원의원은 보훈부가 해당 데이터를 모두 보유하고 있을 필요가 있었는지 의구심을 제기했다. 하지만 그 역시 "시민들은 정부기관이나 전역군인 파일을 요청할 경우 당일에 해당 정보를 받을 수 있기를 원하고 있으며 이를 위해서 정부 기관들은 그러한 정보를 보유하고 있어야 한다는 당위성을 인정할 수밖에 없다"고 밝혔다.
크레이그 의원은 이번 사건에 대해 "집에서 업무를 계속하기 위한 보훈부 직원의 잘못된 판단에서 비롯된 단순한 사고이길 바란다"면서, "하지만 이번 사건을 계기로 정보를 외부로 가지고 나가는 것이 얼마나 쉬운가 하는 사실을 무시해서는 안 된다. 이는 결코 간과할 문제가 아니다"라고 말했다.
이번 보훈부의 데이터 도난 사건이 시사하는 바는 크다. 조직 및 기업들은 직원들의 올바른 판단에 너무 의지하면 안 되며 직원들이 정책을 준수하기를 바라기만 할 수는 없다는 점이다. 판단이나 정책이 잘못될 경우 이를 보완할 수 있는 보안 시스템을 구축해야 한다. 데이터가 노트북이나 메모리 스틱, PDA 등으로 '모바일화'가 됨에 따라 데이터 도난의 위험성은 더욱 커지고 있다.

사이버 보안 의식 및 프라이버시 인식 과정 진행
PRC(Privacy Rights Clearinghouse)에 따르면, 이번 보훈부의 데이터 도난 사건은 지난해 여름의 신용 카드 결제 대행 업체인 카드시스템즈의 정보 유출 사건 이후 최대 규모의 의도적인 데이터 절도 사건이다. 현재까지 경찰은 이번 보훈부의 데이터 도난이 강도에 의한 우발적인 사건이라고 보고 있다. 하지만 놀라운 것은 특정 개인이 어떻게 엄청난 양의 데이터에 접근하고 암호화 없이 이동하며 상부에 보고조차 하지 않았는가 하는 점이다. 지난 3월 피델리티 인베스트먼트(Fidelity Investments)에서는 196,000명의 HP 직원 이름과 주소, 사회보장번호, 생년월일 등의 정보를 도난 당한 적이 있는데, 이번 사건과 매우 유사한 점이 많다.
보훈부의 IT 보안 정책과 실행을 수년 동안 비판해왔던 보훈부의 조지 옵퍼 감찰관에 따르면, 보훈부는 모바일 데이터와 데이터 보안에 관련된 위험성을 심각하게 받아들이지 않았다고 밝혔다. 그는 "연방정보보안관리법을 토대로 검토한 결과, 보훈부는 회계연도 2001부터 서비스 거부 공격과 중요 시스템 붕괴, 민감한 데이터에 대한 인증되지 않은 액세스에 위험성을 노출해 정보 보안의 취약점이 심각한 것으로 조사되었다"고 증언했다.
그는 또한 "한 감찰관은 회계연도 2004에 보훈부가 IT 운영에서 보안을 개선할 수 있는 16가지 권고사항을 만들어 제출했었다. 여기에는 IT 보안 프로그램의 중앙화를 비롯해 효과적인 패치 관리 프로그램을 도입할 것, 인증되지 않은 액세스와 중요 정보를 잘못 사용하고 있는 것에 대한 대처 방안을 마련할 것 등이 포함되어 있었다. 하지만 그 권고사항 중 하나도 이행되지 않았다"고 증언했다.
이번 보안 침해 사건과 관련해, 보훈부는 모든 직원들에게 사이버 보안 인식 및 프라이버시 인식 과정을 진행하고 있다. 또한 중요 데이터에 대한 직원들의 접근 권한을 재배치하고 이에 대한 상부 보고를 확실하게 진행할 방침이다.

데이터 이동시의 기업 보안 방안
기업들이 보훈부와 같은 종류의 데이터 손실을 막을 수 있는 방법에는 여러 가지 단계가 있다. 가장 중요한 것은 암호화로, 보훈부 정책에서도 요구된 사항이었지만 실제로는 구현되지 않은 것이다. 암호화는 PC와 메모리 스틱, 백엔드 데이터베이스 내부, 심지어는 네트워크에서 이동하는 데이터에서도 이루어질 수 있다. M-시스템즈는 USB 디바이스와 메모리 스틱에 저장된 데이터를 암호화해준다. 인그리언 네트웍스의 i110 데이터시큐어 플랫폼은 네트워크 어플라이언스의 암호화 키를 중앙에서 관리한다. 마이크로소프트의 익스체인지 호스티드 서비스에는 이메일로 전송되는 데이터를 보호하는 암호화 기능이 포함되어 있다.
하지만 암호화는 데이터를 암호화하는데 사용되는 키가 부적절하게 관리될 위험성이 있다. 버튼 그룹의 트렌트 헨리 분석가는 "암호화를 적절하게 관리하지 않을 경우 데이터를 영원히 날려버릴 수 있다"고 경고했다. 대부분의 암호화 소프트웨어는 IT 전문가가 키를 안전하게 저장하고 불러올 수 있는 관리 인터페이스를 제공하고 있다.
암호화는 금융 서비스와 의료 및 기타 규제가 엄격한 업종에서 널리 사용되고 있다. 하지만 대부분의 기업들은 가격이 비싸다거나 사용하기 어렵다는 등의 이유로 도입하지 않고 있거나 암호화 정책을 실행하지 않고 있다. 하지만 가트너의 어비바 리탄 분석가는 "보안 침해 사건에 대처하는 것보다는 암호화 비용이 훨씬 저렴하다"고 말했다. 그녀는 10만 명 이상의 고객 정보를 암호화하는데 필요한 시스템, 서비스, 프로세스의 합리적인 비용은 약 50만 달러 수준이라고 밝혔다.
기업들이 모바일 디바이스의 분실이나 도난으로 인해 데이터가 침해되는 것을 방지하는데 있어 암호화가 유일한 방법은 아니다. 또 다른 방법은 데이터를 모바일 디바이스에 저장하지 않는 것이다. 직원들이 원격으로 업무를 수행해야 할 경우, SSL VPN 소프트웨어를 사용하면 중요 데이터도 원격으로 접근할 수 있다. 기업들은 또한 데이터가 외장 단말기나 이메일을 통해 네트워크 외부로 유출되는 것을 막아주는 소프트웨어와 네트워크 어플라이언스를 구축할 수도 있다. 아웃바운드 데이터 콘텐츠를 실시간으로 분석하는 기술도 존재한다. 이러한 형태의 소프트웨어와 어플라이언스를 제공하는 수많은 벤더 중의 하나인 워크셰어는 최근 데이터 유출을 차단하는 위험 관리 어플라이언스와 PC 기반의 소프트웨어를 발표했다.
버튼의 헨리는 "데이터 보안이 크게 향상된 것처럼 보이지는 않지만 지난 몇 년 동안 개선되고 있다"고 말했다. 보안을 위한 여러 법안들이 발표되면서 기업들의 보안 향상 역시 서서히 이루어지고 있다. 그는 "보안 침해 사건은 여전히 발생 빈도가 높지만 발생할 때마다 언론에 크게 발표되고 있으며, 이러한 언론의 보도로 인해 보안을 유지하려는 움직임도 증가하고 있다"고 전했다.

위험에 대처할 수 있는 시스템과 정책 적극 도입해야
오하이오 주립대학의 법학 교수인 피터 스와이어는 "정부기관에서 특히 보안을 강화해야 한다. 기업의 경우 보안 침해 사건이 발생할 경우 IT 부서에 예산이 확충된다. 이제 이러한 움직임이 정부기관에도 일어나 보안을 업그레이드하도록 압박해야 할 필요가 있다"고 지적했다.
법률적인 환경 변화가 보안 준수에 큰 영향을 미치고 있다는 것은 당연하다. 미국의 전역 군인들을 들끓게 했던 데이터 도난 사건은 미국 의회에 데이터 보안에 대한 경각심을 다시 한 번 높여주는 계기가 되고 있다. 최근 하원의 에너지산업위원회와 재정서비스위원회는 각각 데이터 프라이버시와 보호 법안을 제출했다. 하원의 승인까지 얼마나 걸릴지는 아직 확실하지 않지만 이러한 법안 제출이 효력을 발휘할 것임에는 틀림 없다. 사이버보안산업협회가 1,150명의 미국 성인을 대상으로 실시한 설문 조사 결과, 개인 정보 도용이나 인터넷 범죄로부터 현재의 법률이 보호할 수 있다고 응답한 비율은 20%도 안 된다. 응답자의 75% 이상이 의회가 더욱 강력한 법안을 마련해야 한다고 대답했다.
정부기관과 기업들이 무엇이 위험한 행동인지를 깨닫는다면 새로운 법률이 필요치 않으며 보안 침해 사건도 줄어들 것이다. 보훈부의 사례처럼 수많은 직원들이 남은 업무를 위해 데이터를 매일밤 집으로 가져가고 있다. IT 담당자들은 그러한 위험에 대처해야 하며, 기업들은 위험성을 줄일 수 있는 시스템과 정책을 도입하도록 아낌없는 지원을 제공해야 한다
.Larry Greenemeier
저작권자 © 컴퓨터월드 무단전재 및 재배포 금지