포괄적이고 표준적인 방법론


CRISP-DM 데이터 마이닝 방법론은 단계(phase), 일반과제(generic task), 세부과제(specialized task), 실행 예(process instance)의 4가지 개념으로 표현되는 세 가지 과제(task)로 구성된 계층적 프로세스 모델이다.
최상위 수준에서 데이터 마이닝 프로세스는 다수의 단계로 구성되어 있는데 각 단계는 몇 가지 일반 과제(generic task)로 이루어져 있다.

두 번째 수준은 모든 가능한 데이터 마이닝 상황을 커버하기에 충분할 정도로 총체적으로 되어있기 때문에 일반(generic)이라고 부른다. 일반과제는 가능한 완전하고 안정되게 작성되었다. 완전하다는 것은 데이터 마이닝 전과정과 가능한 데이터 마이닝 응용 모두를 커버할 수 있다는 것을 의미하고 안정적이라는 것은 새로운 모델링 기법 같이 아직 예측하기 어려운 개발에도 유효해야 한다는 것을 의미한다.

세 번째 수준인 세부과제는 특정한 상황에서 일반과제가 수행해야 하는 실행방법을 설명하는 부분이다. 예를 들면 두 번째 수준인 일반 과제는 정제된 데이터라고 할 수 있고 세 번째 수준은 숫자 값의 정제, 범주 값의 정제 및 데이터 마이닝 문제 유형이 군집화인지 모델링 예측인지 같은 다양한 상황에서 이 과제를 각각 처리하는 방법이라고 할 수 있다.



▲ CRISP-DM의 데이터마이닝 방법론



분리되어 표현되는 단계와 과제들은 각 과제에 가장 이상적인의 순서에 의해 수행된다. 실제로 많은 과제는 다른 순서로 수행 될 수 있고 그것은 자주 선행 과업의 역행 및 특정 작업을 반복을 유발한다. CRISP-DM의 프로세스 모델은 데이터 마이닝 과정을 통해 실행 가능한 모든 방법을 포착하려고 시도하지 않는데 이는 이러한 작업이 지나치게 복잡한 프로세스 모델을 요구하기 때문이다.

네 번째 단계인 실행 예는 실제 데이터 마이닝 업무의 실행, 결정사항과 결과를 기록한다. 실행 예는 상위 수준에서 정의된 업무에 따라 체계화되어 있는데 일반적으로 일어나는 업무보다는 특정업무에서 실제로 행해진 것이 표현된다.

CRISP-DM 모델
1) 비즈니스 이해(Business understanding) : 이 초기의 단계는 프로젝트 목적의 이해와 비즈니스적 관점에서 지식을 데이터 마이닝 문제 정의를 위해 전환하고 목적 달성을 위한 예비 계획을 수립하는 것을 요구한다.

2) 데이터 이해(Data understanding) : 데이터 이해 단계는 초기 데이터 수집을 시작으로 데이터 파악을 위한 활동, 데이터의 품질 확인, 데이터에서 통찰력 발견 및 또는 숨겨진 정보를 위한 가정으로부터 흥미 있는 서브셋 탐색으로 진행된다.



▲ CRISP-DM 모델



3) 데이터 준비(Data preparation) : 데이터 준비 단계는 초기의 데이터로부터 최종 데이터셋을 구성하기 위한 모든 활동들을 커버한다. 데이터 준비 과제에서 다중으로 업무가 수행되는 것 같으나 규정된 순서는 아니다. 과제는 모델링 툴을 위한 데이터 변환과 정제뿐만 아니라 테이블, 기록과 속성 선택 등을 포함한다.

4) 모델링(Modeling) : 이 단계는 다양한 모델링 기법이 선택되어 적용된다. 일반적으로 동일한 데이터 마이닝 문제 유형을 위한 몇 가지 기법들이 있다. 몇몇 기법들은 데이터 형태상의 특정 요구사항을 갖고 있다. 게다가 데이터 준비 단계로 되돌아가는 것이 종종 필요하다.

5) 평가(Evaluation) : 프로젝트에서 이 단계는 데이터 분석 관점으로부터 높은 품질을 갖는 모델을 만든다. 최종 전개를 진행하기 전에 만들어진 모델을 평가하고 재검토하는 철저한 평가가 꼭 필요하다.



▲ <표>CRISP-DM 모델



6) 전개(Deployment) : 일반적으로 모델의 생성이 데이터 마이닝 프로젝트의 끝은 아니다. 데이터의 지식을 확대시키는 것이 모델의 목적이라면 획득된 지식은 잘 체계화되어야 하고 고객이 그것을 사용할 수 있도록 방법을 제시해야 한다.

1) 비즈니스 이해

업무 목적의 결정
- 배경 : 프로젝트를 수행하게 된 동기와 발생적 이유 및 프로젝트 발주 기업의 분석상의 고통(Pain)요소를 파악하기 위한 과정이다. 프로젝트 수행을 위한 기업의 전체적인 의지와 조직원 및 TFT(Task Force Team)의 구성을 알아볼 수 있으며, 차후 분석의 향방을 가늠할 수 있어 프로젝트의 진행방향에 참고할 수 있다.

- 비즈니스의 목적 : 데이터 마이닝은 단순한 시스템이 아니라 고급 분석을 하는 과정이다. 따라서 데이터 마이닝을 수행하기 전에 비즈니스의 목적을 파악하여, 비즈니스와 데이터 마이닝 분석결과를 결합하여 최종 결과 및 모형에 분석적, 경영적 근거를 마련할 수 있다.

- 성공적 비즈니스의 기준 : 비즈니스의 목적 파악 후 비즈니스와 데이터 마이닝을 연계시키는데 가장 핵심적인 성공요소를 규정하여, 내부 지침과 데이터 마이닝 프로젝트 수행 시 비즈니스 부분과의 충돌에 대한 기준을 미리 설정한다.

현황평가
- 자원 및 재고 : 비즈니스에 대한 정성적인 요소들에 대한 파악의 완료 후 현재 조직의 인적, 물적 자원의 현황과 그 재고 상태들을 파악하기 위한 과정이다. 이 현황파악을 통해서, 데이터 마이닝의 솔루션 적용에 문제점 등을 파악할 수 있고, 투입인력의 역할분담과 필요 산출 인원 및 대략적인 프로젝트 수행기간이 산출되어질 수 있다.

- 요구 / 가정 / 제약 : 데이터 마이닝 프로젝트를 수행하는데 조직(또는 기업)에서 산출을 원하는 요구사항을 파악하여 해당 요구사항의 산출을 위해 전제가 되어야 하는 가정사항, 프로젝트 수행에 발생하는 제약조건을 알아보는 과정이다.

- 위험도 및 임시비용 : 데이터 마이닝 프로젝트를 수행하는 과정에서 발생할 수 있는 위험 요인과 이런 위험요인의 출현시 지출되는 임시비용, 그리고 예측 밖의 상황에 대한 비용들을 프로젝트 수행 전에 미리 파악하는 것이 목적이다.

- 전문용어 및 약어
외부인력들과 같이 데이터 마이닝을 수행을 하면, 용어가 일치하지 않는 문제 또는 특정 기업이나 내부적으로 사용하는 용어들로 인하여 의사소통에 문제가 있을 수 있다. 여기서는 프로젝트를 수행하는데 사용되는 업무상의 전문용어와 약어에 대한 정의를 내리고 이들을 정리하여 문서화를 시켜준다.

- 비용 및 이익 : 데이터 마이닝을 하는 원칙적인 이유를 재무적인 관점에서 바라보는 단계이다. 프로젝트를 수행하는데 필연적으로 발생하는 비용과 이 프로젝트의 수행결과 얻어지는 기대이익을 평가 산정하는 것이 목적이다.


데이터 마이닝 목표 설정
- 데이터 마이닝 목표 : 비즈니스의 목표를 성공적으로 달성하기 위해 세부적인 데이터 마이닝의 목표를 정하여 본격적인 프로젝트의 수행 과제를 지정한다.

- 데이터 마이닝 성공기준 : 데이터 마이닝의 최종목표 선정 후 이 목표를 정확하게 수립하기 위해 지원을 받거나 구성원들에게 요구되어지는 사항을 구체적인 성공기준으로 정립한다.

프로젝트 계획 수립
- 프로젝트 계획 : 비즈니스의 이해 최종 단계부분으로 앞에서 조사 및 협의 도출이 되었던 내용들을 가지고 데이터 마이닝 프로젝트에 들어가기 전 프로젝트의 진행 방향, 일정, 진행방법, 인력 운영안 등의 모든 사전계획을 총 집결시키는데 목적이 있다.

- 툴 및 기법 초기평가 : 비즈니스 이해의 마지막 프로세스이다. 프로젝트 계획이 수립되면 이 프로젝트를 수행할 각종 툴과 중요 기법들에 대해서 기초적인 테스트와 평가를 하고 정리를 해두도록 한다.

2) 데이터 이해
초기 데이터 수집
- 초기 데이터 수집 보고서 : 데이터 마이닝의 성공적인 수행을 위하여, 여러 시스템에 산재 되어져 있는 데이터들을 수집하고, 기초적인 데이터 사항 등을 기술하는 목적이 있다. 데이터를 수집하면서 시스템에 대한 이해와 기초적인 업무도 동시에 파악한다는 의미가 있다.
데이터 기술
- 데이터 기술 보고서 : 초기데이터 수집에서 파악된 내용에 대한 구체적인 정리를 관련 시스템과 연결하여, 최종 데이터 수집 및 파악 업무를 마무리 짓는다.

데이터 탐색
- 데이터 탐색 보고서 : 데이터 기술 보고서에 의거하여 정리된 데이터 들을 간단한 기술통계, 그래프 등을 이용하여 기초적인 분포와 일반적인 상황 요약한다.

데이터 품질
- 데이터 품질 보고서 : 데이터 탐색과 각종 품질 점검기법을 이용하여, 모델링에 사용될 수 있는 데이터들에 대한 품질을 파악한다.

3) 데이터 준비
데이터 선택
- 포함/제거 근거 보고서 : 탐색과 품질 검사 작업이 완료된 데이터에 대해 각 모델링을 하는데 필요한 데이터와 그렇지 못한 데이터들을 구분하고, 근거를 기술하는 과정이다.

데이터 정제
- 데이터 정제 보고서 : 활용예정인 데이터에 대해서, 모델에서 사용할 수 있도록 데이터를 가공하는 작업의 내역과 그 이유를 기술하여 데이터 변화 상태를 정리한다.

데이터 생성
- 유도속성 정의서 : 데이터의 생성시 처음부터 새롭게 생성되는 것이 아니라 필드들의 여러 변환 등을 통해서 생성이 되어진다. 이렇게 속성이 다른 필드나 수식에 의거하여 변환하는 경우 그 변환이 되는 속성과 변환식을 정의하는 것이 목적이다.

- 생성 레코드 정의서 : 일반적으로 기업의 상황 변경이 있는 경우 특정 레코드가 추가가 되어지거나 새로운 범주(또는 flag)가 생성될 수 있다. 데이터 중에서 필드의 형태가 아닌 새로운 레코드 또는 새로운 범주가 생성되는 경우를 파악하기 위한 내용을 기술하는 목적이 있다.

데이터 통합
- 결합 데이터 정의서 : 여러 개의 데이터의 단위가 흩어져서 있는 경우 이들 조건에 의하여 결합을 하는 경우의 방법과 조건들을 기술하는 목적이다. 데이터의 변환의 한 방법으로 조건에 의거하여, 데이터들 간의 결합 상태를 알려 주고 이로 인하여 새로운 데이터 셋이 생기는 과정을 정리하여 최종 분석을 위한 데이터 마트(Data Mart)의 구축에 기반이 되는 의미를 가지고 있다.

데이터 형식 적용
- 개정 데이터 정의서 : 최종적으로 조정과 변환이 이루어진 데이터 셋을 모델 등에 맞게 형식의 적용을 바꾸어 데이터 셋을 최종적으로 사용할 수 있도록 마무리 역할 정의를 기술하는 보고서이다.

데이터 마트
- 데이터 셋, 데이터 셋 기술서 : 데이터의 이해와 준비가 완료되면 마지막으로 최종 정리를 하는 과정이다. 데이터 마이닝의 데이터 마트를 구축하는 것이 목적이다.

4) 모델링

모델링 기법 선택
- 모델링 기법 보고서 : 데이터 마이닝의 목적에 맞는 모델을 선택하는 과정과 그 모델에 대한 설명 그리고 해당 모델을 선택한 근거를 기술한다.
- 모델링 가정 보고서 : 모델링의 기법을 선택 한 후 해당 기법에 따른 가정사항을 정리하여, 모델링 기법의 활용에 차질이 없도록 기술하는 것이 목적이다.

시험설계 생성
- 시험 설계 보고서 : 데이터 마이닝의 관리학습(supervised learning)에서 데이터 셋을 분리하는 기준을 정의하고, 분리되는 데이터들의 목적을 기술한다. 개발하고자 하는 모형에서 데이터의 용도목적에 따른 분류의 기준 수립과 근거 및 내용을 서술하는 의미가 있다.

모델 생성
- 파라미터 설정 정의서 : 데이터 마이닝에서 적용되는 모델들에 대한 모형 구성 파라미터를 기술하고, 파라미터의 변경을 관리하는 것을 목적으로 한다.

- 모델 정의서 : 프로젝트에서 목표 결과를 얻기 위해 각종 조정과 변환 모델링 기법들의 조합을 통해서 생성되는 모형을 정의하고 그 내역을 기술한다.

- 모델 기술서 : 생성된 모델에 관하여 처음 데이터의 입력부터 최종 전개까지의 일련의 모든 과정을 기술한다.

모델 평가
- 모델 평가서 : 모델에 대한 모든 설정과 정의 그리고 수행의 완료 후 최종적인 만들어진 모델의 신뢰도 평가를 기술한다.

- 변경 파라미터 설정 보고서 : 모델을 수행한 뒤 모델의 알고리즘의 변경이 필요한 경우 최적의 모델 알고리즘을 위해 파라미터를 변경하게 되는데 이 변경된 파라미터를 재기술하는 목적을 가진다.

5) 평가
결과평가

- 데이터 마이닝 결과평가 : 데이터 마이닝의 모델에 대한 결과뿐만 아니라 전체적인 데이터 마이닝의 결과와 만족도를 평가하고, 결과에 대한 프로젝트 구성원들의 의견을 기술한다.

- 인정된 모델 보고서 : 데이터 마이닝 결과에 대한 구성원들의 평가가 기대 수준을 충족한 경우 최종적으로 모델을 인정하는 내용을 기술한다.

프로세스 검토
- 프로세스 검토 보고서 : 데이터 마이닝의 시작부터 전 단계의 과정인 구성원이 인정된 모델의 생성 과정을 다시 검토를 하고, 검토 후 조치사항을 기술한다.

향후 단계 결정
- 가능행동 리스트 : 데이터 마이닝 프로젝트의 평가 마지막 단계로 향후 가능한 프로세스를 목록화하여 의사결정을 지원하는 것을 기술한다.

- 의사결정 보고서 : 가능행동 리스트를 근거로 하여 향후 프로젝트의 진행방향에 대한 의사결정을 하고, 그 근거와 내역을 기술한다.

6) 전개

전개계획 수립
- 전개계획서 : 데이터 마이닝의 결과 도출과 함께 이 결과를 지속적으로 활용을 하고, 이를 위하여 데이터 마이닝을 시스템화 시키기 위한 계획을 수립하는 목적이 있다.

유지보수 계획 수립
- 유지보수 계획 보고서 : 시스템이 완료되고, 일반적으로 TFT(Task Force Team)가 해산을 한 다음 데이터 마이닝의 결과에 대해서 프로젝트 기간동안 부족한 부분을 충족시키고, 운영의 방향을 잡아주는 목적이 있다.

- 에러 복구지침 : 데이터 마이닝 시스템을 운영을 하는 경우 사용자의 실수 또는 시스템 상의 결함과 기타 다른 어떤 이유로도 에러(Error)가 발생할 수 있다. 이런 에러가 발생시 초기에 긴급하게 대응을 하기 위한 목적이 있는 보고서이다.

최종 보고서
- 촤종 보고서 : 전개의 가장 일반적이고, 필수적인 과정으로 데이터 마이닝의 모든 과정별 결과와 수행 도중 도출된 문제점, 향후 진행과정을 논리적으로 기술한다.

- 최종 프리젠테이션 보고서 : 최종 보고서에서 공개 가능한 내용중 결과중심의 주요 요점과 과정을 요약하고, 최종 발표하는 목적이 있다.

프로젝트 재검토
- 재검토 보고서 : 프로젝트의 종료 후 전체 프로젝트 산출물과 보완 사항 및 미결사항을 중심으로 전체 프로젝트를 재검토하는 과정을 기술한다.

이제까지 살펴본 CRISP-DM은 계속해서 발전하는 데이터 마이닝 수행방법론이다. 지금 단계는 개론적 표준정의가 완료된 상태이고, 특정한 애플리케이션이나 특정한 산업분야로 각론을 발전시키는 단계이다. CRISP-DM은 가장 많은 데이터 마이너들이 사용하고 있는 방법론이며, 가장 포괄적이고 표준적인 방법론으로 자리 잡아가고 있으며, 모든 데이터 마이너들의 좋은 동반자로 더욱 발전하리라 믿어 의심치 않는다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지