데이터의 정확성*완전성*일관성 확보로 시장 성장세

일반적으로 데이터 퀄리티(data quality)라고 부르는 데이터 품질 관리에 대해 앞으로 3회에 걸쳐 소개하겠다. 국내에 처음 소개되는 비즈니스 오브젝트의 데이터 품질 솔루션(2006년 4월에 인수합병한 퍼스트 로직 제품)의 사상을 기본으로 어떻게 데이터 품질을 증진시키고 있는지를 알아보고자 한다.

첫 회에는 간략하게 데이터 품질 시장의 상황을 살펴보고, 두 번째 회에서는 데이터 평가 및 프로파일링(data assessment & profiling)의 기술적인 부분을 다룰 계획이다. 마지막 회에는 종합적인 데이터 품질 관리를 위한 중앙 데이터 품질 허브로 어떻게 데이터를 정제하고 결합시켜 통합할 수 있는지에 대해 기술적으로 접근해 보고자 한다.

데이터 품질, IT와 현업 모두에게 중요
데이터의 품질은 기업에게 매우 중요하고 또 치명적인 요소가 될 수 있다. 차라리 보고되지 않는 데이터의 결과가 낫지, 잘못된 데이터를 기업의 총수에게 보고할 경우 기업의 방향성을 잃어버릴 수도 있기 때문이다. 데이터 품질의 중요성은 일반적으로 IT 부서라고 말하는 전산팀의 직원들에게만 국한된 것이 아니다. 마케팅, 회계, 생산 등의 현업을 담당하고 있는 부서의 책임자를 포함하여 기업을 움직이는 C 레벨의 임원들이 직접적으로 부딪치며 관장해야 한다. 그렇게 하면 그 결과는 기업의 투자수익률(ROI) 증진으로 나타나는데 그 구체적인 사례는 이 글의 뒷 부분에 언급해 놓았다.

필자는 미국 주소 데이터를 통한 주소 정제(address cleansing) 기능을 테스트하며 느낀 점이 많았다. 그들은 기업의 데이터에서 우리가 놓치고 있는 부분을 이미 자유자재로 활용하고 있었다. 이러한 부분이 우리의 데이터 사상과 어우러진다면 기업의 이익과 더불어 불필요하게 낭비되는 인적, 금전적, 시간적인 손실을 줄일 수 있을 것이라는 생각이 들었다.



▲ <그림1> 데이터 품질 처리를 위한 간단한 예제



시장과 기술 동향에 앞서 간단한 예제를 한번 살펴보기로 하자. 최근의 기술 발전이 어느 정도인지, 데이터 관리를 위해 사용하던 SQL 문장이 이제는 먼 일인 듯하다. <그림 1>에서 보여주는 샘플 화면은 직관적인 GUI 화면으로 데이터에 대한 정제, 파싱, 매칭, 통합 등을 위한 기능이 워크플로우 형태로 진행되는 것을 보여준다. 아직도 SQL 문장을 사용해야 하는가? 한번쯤은 이 부분을 고민해야 할 것 같다.



▲ <그림2> 데이터 품질도구의 전체화면



그렇다면 도구의 전체적인 화면은 어떨까? <그림 2>에서 도구의 전체 화면을 확인할 수 있다. 한눈에 확인해도 깔끔한 디자인이 돋보이고 5개의 창으로 구성된 화면 배열은 데이터 품질 증진을 위한 프로젝트를 수월하게 수행할 수 있을 것으로 생각되지 않는가? 도구마다 조금씩 상이하겠지만 여기에서 보여주는 예제는 품질 관리 솔루션 시장에서 세계 1위 제품의 화면이다. 대부분의 도구가 이러한 부분을 따라가고자 노력할 것이라는 생각이 든다.

왼쪽의 상단 창은 데이터 품질 처리를 위해 작성해 놓은 수많은 변형 기능(아마도 이 도구를 사용하게 되면 너무 많은 변형 기능 때문에 정확한 변형 기능을 찾는데도 애로사항이 발생할 것이다)이 나열되고 이를 선택할 때마다 오른쪽 상단에 이에 대한 설명과 예제가 친절하게도 안내된다. 이러한 기능을 통해 수많은 데이터 처리 방법을 숙지하고 도구를 더욱 쉽게 사용할 수 있게 된다. 하단부의 2개의 창은 데이터 처리를 위한 기능의 각각에 대한 상세 설정이 표시된다.

이 도구는 기본적으로 한글을 지원하도록 유니코드 체계와 UTF-8 체계를 갖추고 있으며 엔진은 윈도우, 유닉스(AIX, HP-UX, Solaris), 리눅스를 지원하고 있다. 한 가지 아쉬운 점은 설명 부분이 한글로 지원되었으면 하는 부분인데 이는 한글 처리가 가능하도록 수정할 수 있다. 물론 누군가가 이와 같은 수고스러운 작업을 해야 한다는 전제가 있지만, 작성된 모든 프로젝트의 내용은 XML 파일 타입으로 저장되며 이 도구를 사용하게 될 여러분은 기업만의 데이터 특성에 따라 라이브러리 형태로 저장하여 재활용할 수 있다. 더욱이 각각의 컴포넌트와 프로젝트에 대한 설명을 한글로 주석 처리를 할 수 있으므로 한 번에 끝나지 않을 데이터 품질 증진 작업을 위해 많은 도움을 받을 수 있을 것이다.



▲ <그림3> 데이터품질 도구의 결과 리포팅



여러 가지 형태로 프로젝트를 수행한 후, 그 결과는 어떻게 확인될까? 이 글을 읽는 독자들은 궁금증이 더하리라 생각된다. <그림 3>에서 샘플 화면을 소개한다. 한글이 보이지 않는다고 실망하시지 마시라. 이 부분은 위에서도 언급했듯이 모두 한글 입력이 가능하다. 샘플은 한글 입력을 하지 못하는 사용자가 만든 보고서이니까.

보고서는 이외에도 더 많이 생성되며 왼쪽의 보고서는 프로젝트라고 표현되는 1개의 데이터 품질 처리를 위한 작업에 대한 전체적인 결과를 보여준다. 파이 차트의 각각에 대해 오른쪽의 보고서와 같이 여러 가지의 보고서가 자동적으로 생성되어 결과를 확인할 수 있게 된다. 상단 우측의 로고가 벤더사의 로고임을 걱정하시지 마시라. 이 보고서는 모두 고객사의 환경에 맞도록 수정이 가능하다. 리포팅 툴을 사용해보신 독자라면 이 보고서가 어떤 툴에 의해 생성되었는지 금세 눈치를 채시리라 믿는다. 본론으로 들어가 데이터 품질 시장과 기술 동향 그리고, 데이터 품질 증진 사례를 살펴보겠다.

BO, IBM 등 M&A로 포트폴리오 강화
최근 몇 년간 수많은 기업에서 데이터 품질에 따른 영향력을 깨닫고 품질 증진을 위한 솔루션을 찾기 시작하면서 데이터 품질 툴의 시장은 빠르게 가시화 되고 있다. 일반적으로 고객연계관리(CRM) 분야에서 성명과 주소를 갖는 고객 데이터의 정제 과정으로 인식된 데이터 품질 툴은 기능에 대한 영역을 넓히고 있으며, 보다 앞선 사고를 하는 기업에서는 다른 데이터 영역에서 이 솔루션의 타당성을 인식하게 되었다.

현 시점에서 데이터 품질에 대한 이니셔티브는 고객 중심의 애플리케이션의 데이터에 초점을 맞추고 있지만 그 영역은 빠르게 넓혀지고 있다. 기업은 데이터 품질이 비즈니스 전략에서 중요한 요소로 작용한다는 것을 깨닫고 새로운 규제와 법안에 대한 투명성을 데이터 측면에서 확보해야 한다는 점을 강조하게 되었다. 따라서 비즈니스 성과를 정확하게 제어하고 리포팅 하는 부분이 바로 데이터 품질에서 시작된다는 점을 확신하게 됐다.

데이터 품질 툴 시장은 연간 대략 3억불 정도의 라이선스 매출을 보이고 있다.(출처:가트너 MQ for Data Quality Tools, 2006) 데이터 품질 툴과 데이터 품질에 대한 인식과 관심이 증진됨으로써 시장은 확장되고 있고 신규 벤더들이 이 시장에 진입하고 있다. 비즈니스 오브젝트와 IBM 등 대형 벤더들은 M&A로 기존의 제품 포트폴리오에 데이터 품질 기능을 추가하여 신규 제품을 발표하고 있다. 최근에 발표된 가트너의 보고서를 보면 시장의 경쟁 상황을 쉽게 확인할 수 있다.

데이터 품질 툴은 다양한 관점에서 데이터 품질에 대한 문제점을 해결하기 위해 전형적인 ETL(추출, 변형, 적재) 툴의 추가 제품으로 혹은 단독 제품으로 시장을 형성하고 있다. 데이터 품질 관리에 대한 시장의 정의는 다음과 같다.



▲ <그림4> 데이터 품질 도구에 대한 매직쿼더런트


파싱 및 표준화 : 텍스트 필드를 분해하여 값을 산업 표준 및 로컬 표준 (주소 데이터 표준 등), 사용자 정의 업무 규칙 및 패턴에 맞도록 포맷팅 하는 과정
클렌징(정제) : 업무 영역의 제약 사항이나 데이터 품질에 대한 업무 규칙 등을 처리하기 위한 데이터 값에 대한 수정 과정
매칭 : 데이터 집합 내에서 혹은 데이터 집합 간 연관된 엔트리를 식별, 링크 혹은 합병하는 과정
프로파일링 : 데이터 품질에 대한 상세 정보를 제공하고 데이터 품질 이슈를 식별하기 위해 도움을 주는 통계 정보(메타 데이터)를 얻기 위한 데이터 분석 과정
모니터링 : 기업의 데이터 품질 증진을 위해 업무 규칙에 대한 데이터 적합성을 지속적으로 관리하는 과정
엔리치먼트 : 소비자에 대한 인구통계학적 혹은 지리학적 속성과 같은 외부 소스로부터 연관된 속성을 추가함으로써 데이터 값을 보다 풍부하게 하는 과정

벤더에서 제공된 데이터 품질 툴은 비록 시장이 성장세에 있지만 일반적으로 IT 팀에서 사용되고 있다. 또 데이터 품질 증진 이슈만이 아니라 ERP, CRM 및 BI 등 업무 애플리케이션의 영역에서 사용이 증가하고 있다. 2006년 1월 인포메이션위크(Information Week)는 비즈니스 인텔리전스(BI) 툴을 조직 내부에 확대 적용할 기업의 담당자를 대상으로 리서치를 실시했는데 다음과 같은 결과가 나왔다.

내부 직원의 과반수가 향후 2년 내에 BI 툴을 사용할 것이라고 응답자의 38% 가 답변
현재 BI 툴을 많은 사용자가 활용할 수 없는 이유는 무엇인지에 대해 응답자의 51% 가 기존 시스템의 데이터 통합 이슈라고 답변하고, 45%는 데이터 품질 이슈라고 대답

실용적인 사용으로 데이터 품질 지속해야
데이터 품질 증진은 1회성의 업무가 아니라 지속성을 요구하는 작업이다. 데이터에 대한 정확성, 완전성 및 일관성을 강조하기 위해서 데이터 품질 솔루션은 툴과 기술, 서비스 및 방법론을 포함해야만 한다. 데이터 품질 솔루션은 기존의 데이터 상태를 확인할 수 있는 데이터 프로파일링, 에러에 대한 식별과 수정이 가능한 데이터 클렌징(정제) 및 검증, 데이터 감사 그리고 품질 보장을 위한 연속적인 모니터링으로 구성된다. 따라서 데이터 품질을 관리하는 솔루션은 다음과 같은 데이터 품질 프로세스로 구성되어야 한다.



▲ <그림5> 데이터품질 프로세스



측정 : 데이터 결함의 수와 형태를 정량화
분석 : 데이터 결함의 성질과 원인을 평가
파싱 : 데이터 구조에서 데이터 요소를 식별하고 고립화
표준화 : 업무 규칙 (rule)과 써드 파티 참조 데이터에 따라서 데이터 값, 측정 단위 및 포맷을 정규화
정확성 : 데이터 값을 검증하고 정확성 제공, 부가적인 데이터 소스와 함께 작업하는 알고리즘 셋에 기반을 두고 데이터 추가
향상 : 기존의 데이터에 활용도를 높이기 위해 신용 등급, 인구통계학적인 정보, 지리학적인 정보, 이메일 주소와 같은 부가적인 데이터를 추가
매칭 : 동일하거나 완전히 다른 데이터베이스 내부에 있는 중복 레코드를 식별
병합 : 한 주어진 엔터티의 존재에 대해 다중 레코드로부터 유일무이한 데이터 요소를 단일한 마스터 데이터 소스로 병합
리포팅 : 프로세스의 각 스텝 별로 데이터 품질 정보 제공

데이터 품질은 기업의 데이터에 대해 정확성, 일관성 및 완전성에 관련된 부분이다. 데이터의 정확성이 가장 중요한 위치를 차지하고 있으며, 또한 완전성과 일관성을 함께 제공해야 한다. 예를 들어 기업의 여러 부서에 대한 전체 세일즈 매출액을 결정하기 위해 여러 부서의 매출 데이터가 통합되어야 한다. 한 부서는 원화로 다른 부서는 달러 또는 엔화로 보고된다면 각 부서의 매출을 하나로 측정할 수 있도록 측정 단위를 변환하는 일이 필요하다.

데이터 통합 작업은 수많은 데이터 소스가 존재하는 데이터웨어하우스 환경에서 매우 중요한 일이다. 물론 운영 환경에서도 중요하다. 이러한 통합 작업을 성공적으로 이끌기 위해서 다양한 소스의 각각에 대한 데이터 품질이 핵심 이슈가 된다. 데이터 품질을 보장하지 않는 상태로의 데이터 통합은 기초부터 흔들리게 되는 상황으로 발전하게 된다. 결국 데이터 품질 솔루션은 실용적이고 일상적인 감각으로 사용되어야 한다. 예를 든다면 다음과 같다.

트랜잭션 시스템에서 정확한 데이터가 만들어지고 있다는 것을 확신하도록 소스 수준에서 잠재적인 에러를 수정
데이터 품질을 운영 시스템으로 디자인. 예를 들어, 데이터 값들이 적절한 레코드 필드로 입력되도록 설계 (하나의 필드에 주소를 모두 입력하지 않고 기본 주소, 상세 주소 등으로 구분)
모든 사람이 동일하게 인지하도록 조직 전반에 대한 공통 데이터 정의를 설정. 예를 들어 현업 2인이 매주 20시간씩 각각 일한다면 1인이 40시간 일한 것으로 표현하는지 2인이 20시간 일한 것으로 표현하는지에 대한 결정. 두 부서가 서로 다르게 표현한다면 인당 매출액 지표를 비교할 수 있는가?
데이터 품질은 성명, 주소 데이터에 국한된 것이 아니라 전체 기업의 데이터로 확장된다는 것을 인식하는 것
제품, 고객, 직원, 협력사, 회계 계정 등과 같은 마스터 데이터나 참조 파일이 수많은 운영 시스템과 분석 시스템에 대해 공통적이라는 것을 식별하고, 이러한 시스템에 대해 공유될 수 있는 단일하고 가치 있는 통합 데이터 뷰를 제공하기 위해 마스터 데이터 관리 이니셔티브를 적극적으로 설정하는 일
데이터 품질이 유지되고 있고 나빠지지 않는다라는 것을 확실히 하기 위해 애플리케이션과 경고 그리고 분석 시스템에 대한 모니터링과 감사 작업을 지속적으로 수행하는 일. 신규 에러의 원인을 발견하고 정확하게 측정하는 일. 지속적인 모니터링은 수많은 데이터가 변경되기 쉬운 만큼 또한 필요하게 된다. 예를 들어, 미국 우정국에서는 매년 4,400만건 이상의 주소 변경이 발생한다. 이것은 이전에 올바른 데이터가 지금은 틀린 데이터가 된다는 것을 의미한다.

TDWI(The Data Warehousing Institute)의 2002년도 '데이터 품질과 하한선' 이라는 보고서에서는 "낮은 품질의 고객 데이터가 우편 요금, 프린트 비용, 인건비 부담을 가중시켜 미국의 경우 연간 6,100억 달러 정도의 비용을 소모하고 있다"고 측정했다. 이것은 고객과의 관계가 소원해지는 것이 아니라 고객을 잃는다는 것을 의미한다. 2006년 4월에 TDWI는 '데이터 거버넌스를 통한 기업의 데이터 품질 확보'라는 보고서에서 다음과 같은 결론을 도출했다. "응답자 중 53%의 기업에서 낮은 데이터 품질로 인해 손실과 문제점 혹은 비용 소모를 겪고 있다."



▲ 데이터 품질 증진 사례



이 글을 읽은 독자라면 데이터 품질의 개괄적인 내용과 이러한 작업이 왜 중요한지에 대해 조금이나마 이해했으리라 판단된다. 다음 연재는 좀더 기술적인 내용으로 접근해보고자 한다. 하지만 매뉴얼을 기술하는 것은 아니니 현업의 책임자들도 쉽게 접근할 수 있을 것이다. 1회 연재를 마치며 한마디를 덧붙이고 싶다. "데이터 품질이 보장되지 않은 상태에서 제대로 된 경영 성과 관리는 없다"

이용호
비즈니스오브젝트코리아 부장/컨설턴트



저작권자 © 컴퓨터월드 무단전재 및 재배포 금지