기초통계분석 실전 튜토리얼: 시각화 분석 통한 인사이트 찾기(1)

[컴퓨터월드]

▲ 김소연 SAS 커스터머케어(Customer Care)팀 수석

1. SAS EG 시작하기 - SAS 데이터셋으로 데이터 가져오기 <2016.8월호>
2. 데이터 분석 첫걸음 - 데이터 합하기, 파생변수 만들기 <2016.9월호>
3. 데이터 가공 및 분석(1) - 통계량 탐색, 그래프 탐색 <2016.10월호>
4. 데이터 가공 및 분석(2) - 리포트, 통계 분석, 상관 분석 <2016.11월호>
5. 시각화 분석 통한 인사이트 찾기(1) - SAS 비주얼 애널리틱스 데이터 탐색 <이번호>
6. 시각화 분석 통한 인사이트 찾기(2) - SAS 비주얼 애널리틱스 리포트 디자인


지난 네 차례 연재에서 우리는 SAS 엔터프라이즈 가이드(SAS Enterprise Guide)를 이용해 업무에서 가장 많이 사용하는 엑셀과 텍스트 데이터를 가져와 SAS 데이터셋으로 만들고, 통계량 탐색, 그래프 탐색 등 다양한 데이터 탐색과 기초적인 분석을 해봤다. 특히 복잡한 코딩 작업을 하지 않고서도 드래그-앤-드롭, 클릭-앤-클릭만으로도 분석 작업이 가능하다는 사실을 알 수 있었다.

지금부터는 시각화 분석에 대해 알아보고자 한다. SAS의 비주얼 인텔리전스와 고급분석 기술을 결합한 데이터 시각화 솔루션인 SAS 비주얼 애널리틱스(SAS Visual Analytics)는 데이터 탐색에서 리포팅까지 전체 프로세스를 빠르게 시각화하므로 인사이트를 직관적으로 확보할 수 있다.

 
 
 
 

SAS 엔터프라이즈 가이드를 이용해 데이터를 분석했던 동일한 서버에 시각화 분석을 해볼 수 있는 곳으로 다시 로그인을 한 화면이다. ‘데이터 탐색’을 클릭해 최종적으로 만들었던 ‘QUERY FOR TOY’라는 마스터 데이터셋을 이용해 분석을 진행해보겠다. 최종적으로 만들었던 데이터와 동일한 데이터를 사용할 것이므로 ‘데이터 소스 선택’을 클릭, ‘데이터 가져오기’에서 ‘SAS 데이터셋’을 선택하고, 최종적으로 만들었던 마스터 테이블인 ‘QUERY FOR TOY’를 선택하고 ‘확인’ 버튼을 누른다.

 
 

데이터를 가져온 화면이다. 동일한 테이블의 동일한 변수를 가져왔지만 지금까지 사용했던 테이블 형태의 데이터와는 약간 다른 모습이다. ‘범주’에는 명목형 데이터, ‘측도’에는 숫자형 변수들이 존재한다. 한편 오른쪽 상단에는 다양한 시각화 툴들이 있다. 원하는 분석 방향에 맞춰 시각화 툴을 선택해서 분석하면 된다.

 
 

범주에서 ‘제품 브랜드’를 오른쪽으로 드래그하면 오토 차팅 기능이 있어서 자동으로 가장 적절한 그래프를 가져온다. 제품 브랜드인 Toy와 Novelty의 빈도 수를 시각적으로 볼 수 있다. 아울러 이 그래프 위에 ‘제품 라인’을 드래그하면 Toy와 Novelty 브랜드 밑에 8가지 제품 라인이 들어간 것을 확인할 수 있다.


계층 생성하기

때로는 특정 제품 브랜드 라인 밑에 있는 어떤 제품이 실적이 높은지, 또는 비용을 많이 썼는지 등 하이어라키를 톱다운 해가면서 분석할 필요도 있다. 이때는 새로운 계층을 만든다.

 
 

데이터 메뉴에서 ‘새로운 계층’을 선택해 ‘이름’을 입력한 다음, 상위 레벨인 ‘제품 브랜드’를 선택하고, ‘제품 라인’을 그 밑에, 다시 그 밑에 ‘제품’을 선택해서 하이어라키 구조를 만들어 넣는다.

 
 

왼쪽 데이터 부분을 보면 범주와 측도 사이에 ‘제품 계층’ 변수가 새롭게 생성된 것을 확인할 수 있다. 오른쪽 그래프 범주에서 ‘제품 브랜드’와 ‘제품 라인’을 제거하고, ‘제품 계층’을 드래그한다.

 
 

그 결과 제품 브랜드인 Toy와 Novelty가 가장 먼저 나타나고, ‘Toy’를 클릭하면 그 밑에 3개의 라인이 있는 것을 확인할 수 있다. 다시 ‘Figure’ 라인을 클릭하면 해당 라인 밑에 7개 제품이 있는 것을 볼 수 있다.

 
 

한편, 데이터를 보면 ‘범주’에는 각각의 변수별로 개수(숫자)가 있다. 아울러 ‘측도’의 경우 ‘측도상세정보’를 보면 측도변수에 대한 기본적인 통계량이 나온다. 최소, 최대, 평균 통계량뿐만 아니라 그래프적인 통계량과 좀더 심도 있는 통계량을 확인할 수 있다. 따라서 각 변수별로 분포도를 유연하게 확인할 수 있다.

 
 

지금까지는 ‘빈도’를 중심으로 살펴봤다. 이번에는 ‘매출액’을 가져와보자. 왼쪽 데이터에서 ‘매출액’을 선택해 ‘빈도’ 자리에 드래그하면, 브랜드는 바뀌지 않고 매출액이라는 측도만 변화한 것을 볼 수 있다. 매출액과 더불어 ‘매출 마케팅 비용’을 드래그해서 함께 볼 수도 있다. 제품 계층별로 매출액과 마케팅 비용을 그래프로 확인할 수 있다.

 
 
 
 

여기에 또다시 ‘매출 마케팅 비용’을 드래그하면, 제품 계층별로 매출액과 마케팅 비용을 그래프로 확인할 수 있다. 마찬가지로 Novelty라는 브랜드명을 클릭해 제품 계수층을 톱다운 해가면서 분포들을 하이어라키별로 볼 수 있다.


필터

지금까지는 기본적인 막대 그래프를 갖고 분석해봤다. 이번에는 오른쪽 ‘필터’ 기능을 이용해보자.

 
 

‘필터’를 클릭하고 ‘Novelty’ 제품으로 돌아가서 오른쪽 하단을 보면, 전체 데이터 중에 Novelty가 18%를 차지하고 있다는 것을 확인할 수 있다.

 
 
 
 

특정 기간의 데이터를 보려면 먼저 ‘거래일’ 데이터를 필터 아래 ‘시각화’ 영역에 드래그한다. 지금 사용하고 있는 데이터는 2000년 1월 3일부터 2013년 10월 16일까지 약 13년 정도의 데이터인 것을 알 수 있다. 데이터 그래프 밑에 자리한 화살표를 이동시키면 데이터 양이 줄어드는 것(0.63%)을 확인할 수 있다. 그리고 계층을 올라가면 데이터 양이 많아진다.

 
 
 
 
 

한편, Toy 제품 중 일부(Board Game)를 빼고 싶다면 Toy 제품을 톱다운 해가면서 해당 항목 ’Board Game’을 찾아 선택 후, 마우스 오른쪽 버튼을 클릭해 ‘선택사항 제외’를 선택해 삭제한다.


테이블 분석

지금까지 막대 그래프로 기본적인 분석을 봤다. 이번에는 테이블 형태로 분석해보자.

 
 
 
 

먼저 상단에서 ‘교차 테이블’ 아이콘을 클릭한다. 교차 테이블은 일종의 요약 테이블 형태로 통계량을 뽑아보고 리포트를 만들어볼 수 있다. 왼쪽에는 ‘제품 계층’을 드래그해서 넣고, 위에 ‘판매시설-국가’를 갖다놓으면 제품 브랜드별 판매 국가별 빈도를 볼 수 있다. 오른쪽 측도 부분에 원하는 측도를 변수로 넣으면 또 다른 테이블을 만들 수 있다.

 
 

‘매출액’과 ‘매출 영업 비용’을 측도에 넣으면 제품 계층별로, 국가별로 매출액과 매출 영업 비용을 확인할 수 있다. 제품 계층을 사용했기 때문에 특정 제품 브랜드, 라인별로 톱다운해서 확인할 수 있다.

 
 
 
 

이 요약 교차 테이블은 보다 시각적으로 꾸밀 수도 있다. 오른쪽 ‘속성’ 탭에서 ‘칼럼 부분합 표시’를 선택하거나, ‘행 합계 표시’를 선택하거나, 합계 위치를 ‘앞’이나 ‘뒤’로 선택해 좀 더 유연하게 리포트를 작성할 수 있다.


시차별 분석(버블 도표)

이번에는 제품별 매출액 및 실적이 지난 13년간 어떻게 변화됐는지를 시차별 분석으로 알아보자.

 
 

시차별 분석을 위해서는 ‘버블 도표’ 아이콘을 클릭해 사용한다. 버블 도표를 선택하면 다음과 같은 화면이 나오며, 금액이나 실적을 버블로 표시해준다.

 
 

먼저 제품 계층별로 두 가지 측도가 어떻게 변화하는지를 보자. 왼쪽 데이터에서 ‘제품 계층’을 선택해 오른쪽 그룹에 갖다놓는다. X축 측도에는 ‘매출액’, y축 측도에는 ‘매출 영업 비용’을 끌어다놓는다. 파란색 버블이 ‘Toy’, 연두색 버블이 ‘Novelty’이다.

 
 
 
 

매출액과 매출 영업 비용이 어떻게 달라졌는지 보기 위해 버블 크기를 ‘시장 점유율’로 넣고, 거래일을 ‘애니메이션’에 드래그 한 다음, ‘재생’ 버튼을 누르면, 시간의 흐름에 따라 매출액과 영업비용이 어떻게 바뀌었는지를 애니메이션으로 볼 수 있다.

 

재생 중 ‘정지’ 버튼을 누르면 보다 자세히 확인할 수 있다. 지금 그림에서는 2001년 2월부터 한 달 사이에 매출액이 곡선 흐름을 보이며 증대했다가 줄어들고, 영업비용도 0~400 범위 내에서 변화하고 있음을 알 수 있다.

 
 


지도 데이터

우리가 갖고 있는 데이터에는 지역별 위치정보(대륙, 국가, 주)가 있다. 따라서 이번에는 지도에 실적을 집계해서 분석해보겠다.

 
 

상단에서 ‘지도’ 아이콘을 클릭해 지도 시각화 창을 선택한다.

 
 
 
 

지도에서 어느 위치에 어떤 데이터를 뿌려줄지 지정한다. 데이터를 보면 11개 국가, 2개 대륙, 61개 주에 대한 판매시설 데이터가 있다. 각각의 지리 정보를 지도 시각화창에 뿌리기 위해서는 사전작업이 필요하다.

대륙의 경우 마우스 오른쪽 클릭해 ‘지리-사용자정의’를 눌러 위도와 경도 값을 선택해 입력한다. 이렇게 하면 왼쪽 데이터에서 범주형으로 돼있던 대륙 변수가 지리 형태의 변수로 변환된 것을 확인할 수 있다. 지도에 표시할 수 있는 형태로 데이터가 바뀐 것이다.

 
 

동일하게 ‘국가’나 ‘주’도 지리 형태의 변수로 변환한다. 이로써 범주형으로 있던 3가지 지리정보들이 지리 데이터로 변환됐다. 대륙별로 어떤 빈도를 보이는지 알기 위해 ‘대륙’을 드래그해서 지도 위에 놓으면, NA와 EU 간의 빈도 차이를 볼 수 있다.

 
 

측도값을 빈도가 아닌 매출액으로 보려면, ‘매출액’을 드래그해서 지도 위에 넣으면 두 대륙 간 매출액 차이를 볼 수 있다.

 
 
 
 

대륙 중에서도 어떤 국가, 어떤 주에서 이러한 매출을 차지하는지 계층을 통해 알아보자. 데이터에서 ‘새로운 계층’을 선택하고, 새로운 계층의 ‘이름’을 만든 다음, 하이어라키가 높은 순으로 대륙, 국가, 주를 선택해 계층에 넣는다. 이렇게 계층을 만든 후 오른쪽 지리에서 ‘지리계층’을 선택한다.

 
 

결과 화면이다. 파란색 NA 버블을 누르면 NA 중에서도 ‘미국’쪽 매출이 많다는 걸 볼 수 있다. 또 오른쪽 색상에 ‘시장 점유율’ 데이터를 갖다놓으면 시장 점유율을 직관적으로 확인할 수 있다.

 
 

NA 중에서도 미국쪽의 매출액과 시장 점유율이 높다는 것을 한눈에 볼 수 있다. 여기서 연두색 버튼을 클릭하면 미국 내에서도 어느 주에서 매출액이 높은지를 볼 수 있다.


지금까지 SAS 비주얼 애널리틱스의 ‘데이터 탐색’ 기능을 이용해 다양한 시각적 탐색을 해봤다. 먼저 SAS 엔터프라이즈 가이드를 이용해 최종적으로 만들었던 데이터를 가져왔고, 이 데이터를 기반으로 특정 제품 라인 밑에 있는 여러 제품 중 어떤 제품이 실적이 높은지 알아보기 위해 계층을 생성, 톱다운 해가면서 분석을 했다.

아울러 필터 기능을 이용해 특정 기간의 데이터를 분석하고, 막대 그래프 분석과 함께 교차 테이블 아이콘을 클릭해 테이블 형태의 분석도 했다. 시간의 흐름에 따른 데이터의 변화를 보기 위해 버블도표를 클릭해 시차별 분석을 하고, 데이터에 있는 지역별 위치정보를 활용해 지도 데이터도 작성하고 분석해봤다.

이를 통해 분석 목적에 따라 시각화 툴을 선택하고, 드래그-앤-드롭 또는 클릭-앤-클릭만으로도 쉽고 간편하게, 그리고 빠른 분석 결과를 얻을 수 있다는 것을 볼 수 있었다. 다음달에는 SAS 비주얼 애널리틱스의 또 하나의 강력한 기능인 ‘리포트 디자이너’를 활용해 간단하게 리포트를 생성하는 방법을 알아보고자 한다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지