위세아이텍 와이즈 DQ, 데이터 품질· 생산성 향상, 비용절감은 물론 프로젝트 기간도 단축

[컴퓨터월드] 빅데이터, 사물인터넷(IoT), 머신러닝(AI) 등이 실 생활에 적용되면서 데이터 품질의 중요성이 강조되고 있다. 데이터를 통해 가치 있는 정보를 생산하기 위해서는 데이터의 양도 중요하지만 데이터의 품질 또한 매우 중요하다는 의미이다. 데이터의 품질에 문제가 있을 경우 제대로 된 결과물을 기대할 수는 없는 것이다. 지난 27년간 데이터의 품질에서부터 활용까지 다양한 솔루션을 공급해온 위세아이텍(대표 김종현)이 최근 선보인 머신러닝을 적용한 자동화된 데이터품질 관리도구인 ‘와이즈 DQ(WISE DQ)’에 업계의 관심이 모아지는 이유도 여기에 있다.

빅데이터와 머신러닝 전문기업인 위세아이텍이 최근 발표한 ‘와이즈 DQ’는 머신러닝 기법이 적용돼 과거 규칙기반으로 진단할 수 없는 데이터를 처리할 수 있다. 특히 와이즈 DQ에 탑재된 통계적 품질진단 기능은 위세아이텍이 20여 년간 축적해온 데이터 관리 경험이 있었기에 가능했으며 여기에 머신러닝 기법이 적용돼 데이터의 품질관리 수준을 크게 끌어올렸다는 평가를 받고 있다.

위세아이텍의 ‘와이즈 DQ’는 데이터탐색, 도메인판별, 이상값탐지, 텍스트분석 기능을 포함한 머신러닝 기반의 데이터품질 관리도구로 다음과 같은 장점을 갖고 있다.

 
첫째, 데이터탐색 기능은 데이터의 기본적인 기술통계정보, 데이터 분포, 데이터 패턴 및 시각화기능을 제공해 사용자가 직관적으로 데이터 값의 분포를 확인할 수 있다. 데이터 분포는 숫자형, 문자형 특징을 구분해 히스토그램과 막대그래프로 대략적인 데이터의 분포를 확인할 수 있다.

요약정보는 데이터 항목의 값에 대한 평균, 표준편차, 최빈값등 기본적인 기술 통계정보를 제공하며, 컬럼분석은 데이터의 Null건수, 최소값, 최대값, 최소 길이, 최대 길이의 정보를 제공해 데이터에 대한 범위를 분석할 수 있다. 데이터 패턴은 유일한 데이터 값의 건수를 분석해 많이 사용되는 데이터순위로 정보를 제공한다.

 
둘째, 도메인 자동판별은 머신러닝 알고리듬을 이용해 데이터항목의 의미, 데이터 형식·패턴을 분석해 데이터의 특성 즉 데이터 도메인을 자동 분류한다. 분류된 도메인에 따른 품질지표를 매칭해 품질을 진단하고 개선활동까지 지원함으로서 데이터 품질 향상과 데이터 표준화 지원 도구로 활용할 수 있다.

표준화된 항목의 경우에는 항목의 논리명, 물리명을 형태소 분석해서 도메인 판별에 사용된 파생변수의 값과 추천된 도메인결과의 적합도를 제공하여 도메인을 자동 판별할 수 있도록 근거를 제시한다.

표준화되지 않은 항목은 명칭의 분석으로는 판별이 불가능하기 때문에, 데이터 타입, 길이등 항목의 정의와 실제 값의 특성을 파생 변수를 추가하여 추천된 도메인의 적합도와 판별 근거를 제시한다.

 
셋째, 이상값탐지 기능은 다양한 머신러닝 알고리즘을 적용해 과거 데이터의 규칙이나 범위가 명확하지 않은 경우에 진단할 수 없었던 데이터의 이상값 탐지가 가능하다. 또한 사용자정의 이상값탐지 기능은 정형적인 데이터분석에서 처리하기 힘든 데이터 전처리를 사용자가 시각화된 워크플로우 기능을 사용하여 쉽게 처리하고 다양한 유형의 이상값을 탐지할 수 있는 기능을 제공한다.

단변량 이상값 탐지는 하나의 데이터 항목에 대해 Box Plot기법으로 이상값을 탐지한다. 그 결과 이상값으로 추정되는 데이터 및 Box Plot 차트를 제공해 이상값을 처리하고, 라벨링 할 수 있는 기능을 제공하는 등 학습에 의한 이상값 탐지의 정확도를 높일 수 있다.

 
다변량 이상값 탐지는 하나 이상의 데이터 항목을 조합해 사용하며, Isolation Forest, Elliptic Envelop, One Class SVM, Local Outlier Factor 등 네가지 알고리즘을 제공한다. 단변량 이상값 탐지와 마찬가지로 이상값으로 추정되는 데이터를 제공하고, 항목간의 상관관계도 찾아낸다.

사용자정의 이상값 탐지는 사용자가 데이터 전처리(Subset, Join, Filter, Cleansing) 수행 후에 이상값을 탐지하고 결과를 저장할 수 있는 기능으로, 원본데이터의 가공이 필요한 이상값 탐지의 경우에 유용하게 사용할 수 있다.

 
넷째, 데이터 매칭 및 중복관리는 데이터간의 유사도를 판단하는 기능이다. 같은 의미지만 다르게 관리되는 데이터 항목의 유사도를 파악해 동일한 속성인지 판별해주고, 동일한 내용의 다른 표현에 대해 추천 용어를 제공해준다.

데이터 매칭은 두 개 이상의 데이터셋에서 동일한 의미로 사용되는 항목을 찾을 때 사용할 수 있으며, 부모/자식간의 종속관계와 텍스트의 동일한 속성을 판별해주는 기능이다. 데이터 매칭을 통해 서로 다른 데이터셋간의 관계성을 찾을 수 있으며, 참조무결성도 검증할 수 있다.

데이터 중복관리는 다양하게 입력된 텍스트 항목에서 동일한 의미를 갖는 텍스트를 판별하고 추천하며 사용자가 추천된 용어를 저장 할 수 있는 기능이다. 중복관리기능은 사용자의 데이터 오입력이나, 동일한 의미의 다양한 입력값을 표준용어로 정제할 때 유용하게 사용될 수 있다.

와이즈 DQ는 이런 기법을 적용해 데이터 전처리부터 품질진단, 개선데이터 추천까지 데이터품질 전반의 자동화 수준을 향상시켜준다. 이를 통해 데이터 품질과 생산성을 높이고 프로젝트에 들어가는 시간과 인력 비용을 낮출 수 있다. 특히 텍스트 클러스터링을 통한 데이터 정비 기술은 일반 정형데이터 뿐만 아니라 빅데이터 분석에 필요한 다양한 비정형 데이터까지 폭넓게 활용할 수 있다.

순수 국내기술로 개발된 데이터 품질관리 제품인 ‘와이즈 DQ’는 13년 동안 공공, 금융 등 다양한 분야의 대규모 사업에 적용돼 입증된 솔루션이다. 특히 데이터가 핵심인 금융권에서 절반 이상이 와이즈 DQ를 적용해 이미 시장에서 제품 우수성은 입증됐다고 할 수 있다. 머신러닝 기술이 적용된 자동화된 데이터품질 관리도구인‘와이즈 DQ’가 시장에서 주목받는 이유이다.

김종현 위세아이텍 대표는 “머신러닝을 이용한 데이터 품질관리”를 통해 데이터관리 시장을 선도하는 것은 물론 위세아이텍도 데이터의 신뢰성 확보 및 활용성을 위해 보다 좋은 서비스를 지속적으로 개발하겠다”고 밝혔다.
 

 
“의료분야를 시작으로 금융 등으로 적용분야 확대해 나갈 것”

황덕열 위세아이텍 전무


데이터 품질의 중요성이 강조되면서 위세아이텍이 최근 발표한 머신러닝을 적용한 자동화된 데이터품질 관리도구 ‘와이즈 DQ’이 주목받고 있다. 위세아이텍은 올해 의료분야를 시작으로 내년에는 금융분야 등으로 ‘와이즈 DQ’의 적용 분야를 확대해 나간다는 방침이다. ‘와이즈 DQ’의 개발 주역인 황덕열 위세아이텍 전무를 만나봤다.


Q. 기존의 데이터 품질관리 솔루션이 갖고 있는 한계는?
일반적인 데이터 품질관리 제품들은 데이터의 속성값을 확인하는 데이터 프로파일링과 해당 도메인의 특징을 반영한 업무규칙을 활용한다. 가령 의료 분야의 데이터를 확인할 경우 환자의 키가 일반적인 사람에 비해 너무 크다든가, 체중이 숫자가 아닌 문자로 기록돼 있다든가, 입원 날짜가 퇴원 날짜보다 늦다거나 하는 경우가 기존의 방법들을 활용한 데이터 품질관리에 해당한다.

하지만 이러한 방법들은 해당 항목이 무엇을 의미하며 어느 정도의 유효값을 갖는지에 대해 사전에 정의할 필요가 있다. 다시 말해 도메인에 대한 지식이 미리 갖춰져 있지 않으면 데이터 품질관리가 불가능하며, 솔루션을 도입한다고 하더라도 많은 시간이 소요되기 마련이다.

Q. 위세아이텍은 기존의 한계를 어떻게 극복했는가?
위세아이텍의 와이즈DQ는 도메인에 대한 지식이 없더라도 품질관리가 가능하게 만들겠다는 목표로 개발됐다. 사용자가 분석 대상인 데이터의 특성을 대략적으로 파악할 수 있도록 하는 동시에 특정 데이터의 이상 여부를 피드백해줄 수 있다. 이를 위해 크게 4가지의 새로운 기능이 추가됐다.

먼저 탐색적 분석을 통해 데이터를 파악하기 위한 기본적인 통계 분석을 제공한다. 해당 컬럼이 어떤 데이터를 갖고 있으며 편차와 패턴은 어떤지를 분석함으로써 전체적인 특성을 대략적으로 파악할 수 있도록 돕는다.

특성이 파악된 데이터에 대해서는 자동화된 도메인 선정이 이뤄진다. 머신러닝을 통해 기존에 학습된 데이터들과 비교함으로써 분석 대상인 데이터가 어떤 도메인의 데이터인지를 파악해 사용자에게 추천해준다. 특히 데이터 값에 대한 표준화가 이뤄져 있는 경우, 가령 전화번호나 이메일 주소와 같이 특정한 형태를 가진 데이터들이 집합해 있는 경우 보다 정확한 추천이 가능하다.

▲ 와이즈DQ의 도메인 자동분류 화면

이상값 탐지는 일반적으로 숫자로 구성된 데이터의 이상여부를 파악하는 데에 활용되며, 데이터 종류에 따라 다양한 알고리즘을 준비해 각각 다르게 적용하고 있다. 크게 변별량 탐지와 다변량 탐지로 나눌 수 있는데, 변별량 탐지는 하나의 컬럼 안에서 특정 범위를 상당히 벗어나는 데이터를 자동으로 탐지한다. 해당 컬럼의 평균치와 편차치를 과도하게 벗어나는 데이터를 사용자가 직접 확인하도록 알람을 주는 방식 등이다.

다변량 탐지는 컬럼 상에서 데이터 하나하나의 값은 이상하지 않지만 해당 데이터를 전체적으로 파악했을 때 이상한 경우를 찾아낼 수 있다. 가령 의료 분야에서 환자의 신체정보에 대한 데이터에서 나이가 5살인데 키가 180cm를 넘는다거나 체중이 90kg를 넘는다면, 이는 각각의 수치는 문제가 없으나 전체를 봤을 때는 이상값이라고 볼 수 있다.

마지막으로 텍스트 매칭에는 데이터 프로파일링과 코드 분석, null 분석 등을 활용한다. 일반적으로 텍스트로 작성된 데이터는 정확히 일치하지 않으면 서로 다른 데이터로 인식하는 문제를 가지고 있다. 가령 같은 컬럼에 동일한 데이터를 저장할 경우 ‘도널드 트럼프’와 ‘트럼프 도널드’, ‘와이즈DQ’와 ‘WiseDQ’는 서로 다른 데이터로 인식된다.

이러한 문제를 방지하기 위해서는 데이터를 표준화할 필요가 있으며, 이를 위해 와이즈DQ는 단어를 3D 벡터값으로 변환해 데이터 간의 거리를 계산함으로써 유사한 데이터값을 찾아내고, 해당 값들을 대표할 수 있는 표준 데이터를 추천해준다.

이를 통해 오입력과 중복입력을 방지할 수 있는 것은 물론, 서로 다른 데이터들에서도 가장 관계성이 높은 컬럼을 찾아내 손쉽게 통합할 수 있다.

Q. 와이즈DQ를 활용한 비즈니스 전략은?
- 올해 연세의료원과 함께 의료데이터를 중심으로 시범적용에 들어갔다. 이미지 정보와 같이 난이도가 높은 것들은 배제하고 기본검사나 예진정보 등을 중심으로 데이터 품질관리를 적용했다. 이 과정에서 사전에 도메인 설정을 하지 않았음에도 맥박이나 호흡, 체온, 혈압 등에 대해 일부 이상값들을 찾아낼 수 있었으며, 나이·성별·체중·키 등을 함께 고려하는 다변량 탐지 역시 원활하게 동작하는 것을 확인할 수 있었다.

▲ 와이즈DQ의 이상값탐지 화면

또한 소변검사 이후의 색을 입력하는 부분에 대해 텍스트 분석을 적용해 데이터 표준화와 중복 방지가 가능했다. 실무 현장의 교수들 역시 와이즈DQ로 분석한 데이터에 대해 높은 만족도를 보였다.

올해에는 연세의료원을 중심으로 의료 도메인에 대한 지속적인 자가학습과 라벨링을 통해 정교함을 개선하는 한편, 내년에는 금융 도메인 영역으로도 비즈니스를 확대할 계획이다. 가령 금융 분야에서 활용되고 있는 이상거래탐지시스템(Fraud Detection System, FDS)은 여전히 비즈니스 룰 기반으로 이뤄지는 경우가 많은데, 이와 같은 경우에 와이즈DQ가 제공하는 머신러닝 기반의 이상값 탐지가 유용하게 활용될 수 있을 것이다.

Q. 개발 과정에서 어려웠던 점과 향후 개선 방향은?
가장 큰 문제는 데이터 수집이 어려웠던 점이다. 특히 보건의료데이터와 같이 개인에 대한 민감정보는 공개가 불가능하고, 그만큼 학습과 검증이 어렵다는 문제에 부딪힌다. 올해 연세의료원과의 협업이 아니었다면 의료 분야에서의 검증이 불가능했을 것이다. 실제 프로젝트를 진행할 때도 자사의 장비를 연세의료원 내에 반입해 테스트한 후, 철수 시에 모든 장비를 초기화하고 나왔다. 이와 같은 데이터 부족 문제에 대해서는 공공데이터 개방 측면에서 정부의 노력이 필요한 부분이라고 본다.

또한 데이터 분석에 있어서 특정 알고리즘이 잘 맞는 항목에서는 좋은 결과를 보이지만, 다른 항목에서는 형편없는 경우가 있었다. 데이터의 특징에 따라 어떤 알고리즘을 사용하느냐가 매우 중요하다. 따라서 와이즈DQ에는 하나의 분석에도 여러 개의 알고리즘을 준비함으로써 이와 같은 문제에 대응하고 있다.

다변량 이상값 탐지에는 현재 5개 알고리즘을 적용하고 있고, 사용자가 직접 복수의 알고리즘을 사용해보고 가장 적합하다고 판단되는 것을 선택할 수 있다. 다만 여전히 분석이 어려운 패턴을 가진 데이터들이 있기 때문에 지속적인 알고리즘 추가가 필요한 부분이다.

 

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지