기초통계분석 실전 튜토리얼: 데이터 가공 및 분석(1)

[컴퓨터월드]

▲ 김소연 SAS 커스터머케어(Customer Care)팀 수석

1. SAS EG 시작하기 - SAS 데이터셋으로 데이터 가져오기 <2016.8월호>
2. 데이터 분석 첫걸음 - 데이터 합하기, 파생변수 만들기 <2016.9월호>
3. 데이터 가공 및 분석(1) - 통계량 탐색, 그래프 탐색 <이번호>
4. 데이터 가공 및 분석(2) - 리포트, 통계 분석, 상관 분석
5. 시각화 분석 통한 인사이트 찾기(1) - SAS 비주얼 애널리틱스 데이터 탐색
6. 시각화 분석 통한 인사이트 찾기(2) - SAS 비주얼 애널리틱스 리포트 디자인


지난 연재를 통해 우리는 ‘SAS 엔터프라이즈 가이드(SAS Enterprise Guide)’에서 분석작업을 하기 위해 라이브러리를 설정하고, 엑셀과 텍스트 데이터를 SAS 데이터셋으로 가져와 하나의 마스터테이블 ‘QUERY FOR TOY’을 만들었다. 지금부터는 이 마스터데이터를 이용해 몇 가지 분석을 해보자.


1. 통계량 탐색

일원 빈도 분석: 문자형 데이터

하나의 데이터셋으로 데이터를 만든 다음에는 가장 먼저 데이터 내 변수의 빈도나 분포를 탐색해야 한다. 이때 ‘일원빈도분석’을 이용한다. 이 일원빈도분석은 문자형 데이터를 효율적으로 볼 수 있다.

 

 

 

 

분석변수로 ‘제품라인’과 ‘달성등급’을 선택하고, 그룹 분석변수로 ‘대륙 판매시설’을, 도표는 ‘막대그래프’를 선택하면, 그림에서 보는 것처럼 대륙별로 제품라인에 대한 빈도를 시각적으로 확인할 수 있다. 즉 변수 하나하나에 대한 빈도를 산출하고 테이블을 구성해 그 결과를 그래프로 볼 수 있다.

요약 통계량: 숫자형 데이터

숫자형 데이터에 대한 분포를 확인할 필요도 있다. 이때는 ‘요약통계량’ 기능을 이용한다. 분석변수(매출액, 매출영업비용, 매출마케팅비용)와 분류변수(제품브랜드)를 선택해 브랜드에 따라 어떤 차이가 있는지 알아보자.

 

 

 

 

 

 

분석변수와 분류변수를 선택해 넣고, 왼쪽 ‘통계량’에서 기본, 백분위수를 선택하고, 도표를 선택해 ‘실행’한다. 두 가지 제품 브랜드(Novelty, Toy)의 관측치, 변수, 평균, 표준편차 등 기본적인 통계량을 볼 수 있다. Novelty와 Toy가 매출영업비용은 비슷하지만, Novelty의 매출마케팅비용이 3배 높고, 그에 따라 매출액도 3배가량 높아진 것을 볼 수 있다. 또 히스토그램을 통해 단변량적인 분포를 확인할 수 있다.

 

 

 

 

이 같은 방법으로 다양한 요약 통계량을 확인할 수 있다. 분석변수나 분류변수, 그룹 분석변수 외에도 ‘편집’ 버튼을 클릭해 특정 조건의 데이터를 확인할 수도 있다. 이번에는 ‘편집’을 클릭해 전체 대륙이 아닌 ‘NA’만 선택, 그에 따라 분류변수를 ‘판매시설-국가’로 선택하면 NA 3개국에 대한 각각의 분포를 볼 수 있다. 매출영업비용은 비슷하지만 매출마케팅비용이 CA가 높고 매출액도 높은 것으로 보인다. 제품브랜드에 상관없이 매출영업비용은 비슷하지만 매출액이나 매출마케팅비용이 달라지는 것을 확인할 수 있다.

한편, 메뉴 바의 ‘설명’이나 ‘그래프’를 보면 동일한 기능이 마법사 형태로도 추가적으로 존재하는 것을 볼 수 있다. 두 가지 모두 동일한 결과를 나타내는 기능이지만, 마법사가 보다 직관적이고 손쉬운 환경을 제공한다.

요약 테이블 작성: 매트릭스 형태 리포트 생성

지금까지 소개한 일원빈도분석이나 요약통계량은 단변량 즉, 하나의 변수에 대한 분포를 보기에 적합한 기능이다. 그러나 분석을 하다보면 단변량적 분석 외에도 변수들의 기술 통계량을 행과 열 구조의 매트릭스 형태로 리포트를 생성해야 할 때도 있다. 이번에는 제품라인별 평균 매출액과 평균 영업비용을 국가별로 출력하는 요약 테이블을 작성하고, 그 결과를 데이터셋으로 생성해보도록 하겠다.

 

 

먼저, ‘작업’에서 ‘요약테이블’을 클릭한다. 분석변수를 보면 파란 동그라미로 1, 2, 3이라는 숫자가 적혀있는데, 숫자형 변수를 갖다놓으라는 의미다. 이밖에도 분류변수는 숫자형 변수, 문자형 변수, 날짜형 변수가 모두 가능하다는 것을 알 수 있다. 따라서 숫자형 변수를 넣어야 하는 분석변수에 다른 변수를 넣으면 입력되지 않는다.

 

 

 

 

이제 분석변수에 숫자형 변수인 ‘매출액’, ‘매출영업비용’을 드래그해서 넣고, 분류변수에는 행과 열에 넣을 ‘제품브랜드’, ‘판매시설-국가’를 선택해 넣는다. 그러나 ‘실행’ 버튼이 활성화되지 않는 것을 확인할 수 있는데, 요약테이블을 작성하기에 부족한 부분이 있다는 의미다.

이때는 ‘요약테이블’을 선택해 ‘사용 가능한 변수’에서 네 가지 변수를 오른쪽 미리보기로 드래그-앤-드롭해서 요약 형태로 만들어본다. 그리고 ‘사용 가능한 통계량’에서 통계량을 선택해 지정하고 ‘실행’ 버튼을 클릭한다. 작성된 요약테이블에서 브랜드별, 국가별 매출액과 매출 영업비용을 확인할 수 있다.

 

 

 

 

이번에는 제품라인별 평균 매출액과 평균 영업비용을 국가별로 출력하는 요약테이블을 작성하고, 그 결과를 데이터셋으로 생성해보도록 하자. 마찬가지 방법으로 ‘요약테이블 수정’을 클릭해 데이터에서 분석변수(매출마케팅비용, 매출제품생산비용)와 분류변수(달성등급, 판매시설-국가)를 선택한다. 요약테이블을 클릭해서 사용할 변수와 통계량을 미리보기에 드래그-앤-드롭하고 ‘실행’ 버튼을 누르면, 달성등급에 따라 국가별 매출마케팅비용과 매출제품생산비용을 확인할 수 있다.


2. 그래프 탐색

지금까지 분석을 하기 위해 가장 먼저 파악해야 하는 ‘통계량 탐색’을 실행해봤다. 분석을 하기 위해서는 통계량 탐색 외에도 그래프를 이용한 직관적인 탐색도 필요하다. 지금부터는 ‘SAS 엔터프라이즈 가이드’의 그래프 기능을 알아보자.

 

 

 

 

‘작업’에서 ‘그래프’를 선택하면 다양한 그래프를 볼 수 있다. 본 학습에서는 제품브랜드별 매출액 차이가 국가별로 어떻게 달라지는지를 파악하기 위해 막대그래프, 특히 ‘단순 수직 막대 그래프’를 이용해본다. 그래프 칼럼은 ‘판매시설-국가’, 합계는 ‘매출액’, 그룹 분석 칼럼은 ‘제품브랜드’로 설정하고 ‘실행’을 하면, 브랜드별로 국가별 매출액 차이를 파악할 수 있다.

 

 

 

 

이번에는 3개 변수(제품라인, 판매시설-국가, 매출액) 간의 관계를 그래프로 나타내보자. 막대 그래프 메뉴에서 ‘3D 그룹형 컬러 수직 막대’를 선택해 하나의 그래프로 그려보도록 하겠다. 그래프 칼럼은 ‘제품라인’, 그룹화 칼럼은 ‘달성등급’, 합계 칼럼은 ‘매출액’으로 설정하고 ‘실행’하면, 제품라인별, 달성등급별 매출액을 그래프로 확인할 수 있다.

이렇듯 한 테이블에서 제품 라인과 달성등급을 볼 수 있기 때문에 분석 결과를 더욱 직관적으로 이해할 수 있다. 이 그래프를 통해 영업대표의 실적 달성등급이 높다고 해서 모든 제품라인에서 실적이 높지는 않다는 것을 알 수 있고, 달성등급 및 제품라인별로 매출액 차이가 나는 점도 파악할 수 있다.

이처럼 인사이트를 찾고자 하는 형태에 따라 다양한 형태의 그래프를 선택해 직관적으로 이해할 수 있다. 지금까지 GUI 환경에서 강력한 분석 기능을 수행하는 방법을 살펴봤다.


3. 프롬프트

‘SAS 엔터프라이즈 가이드’에서는 자주 사용되지만 변경이 빈번하게 일어나는 조건(필터)을 사전에 정의해두고, 실행 시 입력받도록 만드는 ‘프롬프트’ 기능을 제공한다. 프롬프트를 사용하면 SAS를 통해 생성한 모형이나 프로그램에 대해 조건 값을 변경하면서 시뮬레이션을 수행하거나 다양한 조건에 의한 결과를 비교해 분석할 수 있다.

프롬프트는 리소스 서버 리스트에 있는 프롬프트를 오픈하거나, 질의 빌더를 오픈해 생성할 수 있다. 여기서는 질의 빌더에서 프롬프트 관리자를 만들어보겠다.

 

 

 

 

 

 

지역인 ‘대륙’을 선택하는 프롬프트를 생성해보겠다. ‘질의 빌더-질의 빌더 수정’을 선택해 ‘프롬프트 관리자’를 열어 ‘추가’를 클릭, 이름과 표시되는 텍스트를 입력하고 프롬프트 유형과 값을 선택해 입력한다. 프롬프트 유형은 ‘텍스트’, 생성방법은 ‘정적 리스트에서 값 선택’을 선택한 뒤, 값 리스트에서 ‘값 가져오기’를 선택해 값을 가져온다. 최종 데이터셋에서 가져올 데이터(toy-prod)를 택하고 다시 ‘값 가져오기’를 클릭, EU와 NA라는 두 가지 값을 만들어놓고 ‘확인’을 누르면 프롬프트가 생성된다.

 

 

 

 

 

 

이제 프롬프트를 입력하기 위한 조건을 선택한다. ‘데이터 필터’에서 프롬프트에서 받는 조건을 넣는다. ‘데이터 필터’ 탭을 클릭한 후 오른쪽 ‘새로운 필터’ 아이콘을 클릭, ‘기본필터’를 지정해 순서대로 진행하면 필터 조건에 ‘대륙’이 추가된다.

 

 

‘실행’ 버튼을 누르면, 원하는 대륙만 선택해서 분석해볼 수 있게 된다. 이때 어느 대륙인지를 묻는 질문이 나온다. NA 대륙을 선택해 ‘실행’하면 NA 데이터만 들어있는 것을 확인할 수 있다. 이 같은 프롬프트는 대륙뿐만 아니라 제품브랜드를 선택해서도 할 수 있다.

이번 학습에서는 SAS 데이터셋에 준비한 데이터를 기반으로 다양한 통계량 탐색을 하고, ‘SAS 엔터프라이즈 가이드’의 그래프 기능을 중심으로 그래프를 이용한 직관적인 탐색을 해봤다. 또한 분석하거나 리포팅해야 할 데이터의 조건이 달라져도 매번 프로세스를 변경할 필요 없이 프롬프트의 선택 값만 달리해줌으로써 쉽고 빠르게 작업할 수 있는 ‘프롬프트’ 기능도 살펴봤다.

다음에는 통계량 탐색, 그래프 탐색 등 그동안 다양한 방법으로 탐색해온 결과를 SAS 리포트로 살펴보고, 통계분석과 상관분석을 해볼 계획이다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지