황범석 이글루시큐리티 PS팀 부장

▲ 황범석 이글루시큐리티 PS팀 부장

[컴퓨터월드] ICT를 기반으로 하는 제4차 산업혁명이라는 거대한 파도가 밀려오면서, 혁명의 핵심 요인 중 하나인 빅데이터 분석의 중요성은 IT, 제조, 금융, 유통, 공공 등 다양한 산업군에 걸쳐 점점 높아지고 있다. 이미 상당수의 기업과 기관들은 인터넷과 연결된 기기, 애플리케이션, 네트워크 등에서 생성되는 다양한 데이터를 모아 분석함으로써 신제품을 출시하고, 생산의 효율성을 높이며, 기업의 사업 전략을 세우고 있다.

그리고, 정보보안 역시 빅데이터 분석이 필수적으로 요구되는 분야 중 하나다. 그 동안 정보보안 분야의 빅데이터 분석은 아주 작은 오차에 따른 잘못된 판단으로도 자칫 막대한 피해를 초래할 수 있다는 우려 때문에 다른 산업 분야에 비해 도입이 늦었던 것이 사실이다. 그러나, 매일 최소 수백만에서 수조 이상의 보안 이벤트가 발생할 정도로 분석해야 할 정보가 기하급수적으로 증가하고 있는 만큼, 보안 데이터에 대한 빅데이터 분석은 날로 지능화된 형태로 급증하고 있는 보안 위협에 맞서 기업의 보안성을 높이기 위한 필수 요건이 되고 있다.

▲ 대표적인 빅데이터 분석 방법

정보보안 분야에서 주로 활용되는 데이터 분석 기술은 크게 네 가지로 구분된다. ▲정형·비정형 데이터 정보를 가공하지 않고 데이터의 전체적인 특성을 살피는 ‘탐색적 데이터 분석(EDA)’, ▲‘탐색적 데이터 분석’에 의해 파악된 문제적 행위를 구체적 가설에 기반해 분석하는 ‘확증적 데이터 분석(CDA)’, ▲미래 상황 예측에 초점을 둔 ‘예측 데이터 분석(PDA)’, ▲과거에 발생한 이벤트 결과를 분석하는 ‘묘사적 데이터 분석(DDA)’이다. 정보보안 분야에서의 데이터 분석은 아래 예와 같이 구현될 수 있다.

먼저, 모든 정형 비정형 로그와 풀 패킷 데이터를 수집해 입력하고, 이에 대한 ‘탐색적 데이터 분석’을 실행해 문제 발생의 원인이 되는 이상 징후를 탐색한다. 이어서 네트워크, 엔드포인트, 시스템 단을 아우르는 ‘확증적 데이터 분석’을 통해 앞서 도출된 가설을 뒷받침할 수 있는 데이터화된 객관적 증거를 찾는다. 이후, 머신 러닝 및 통계 모델링 기법이 적용된 예측 모델을 이용해 분석을 수행하고, 최종적으로 도출된 분석 결과를 최신 위협 정보와 결합해 통합적으로 분석하고 관리한다.

▲ 정보보안 분야에서의 데이터 분석 과정


정보보안 분야에서 주로 활용되는 데이터 분석 기법은?
이 중 ‘탐색적 데이터 분석(EDA)’과 ‘확증적 데이터 분석(CDA)’은 특히 가장 많이 사용되고 있는 분석 형태이다. ‘탐색적 데이터 분석’은 통계학계의 피카소로 알려진 응용통계학자 존 튜키(John W.Tukey)에 의해 제안된 분석 기법으로 데이터를 가공하지 않고 수집한 그대로 ‘탐색적인’ 분석을 실행하는 것이 특징이다. 히스토그램, 줄기잎그림(stem and leaf plot), 상자수염그림(box and whisker plot), 산점도(scatter plot) 등의 시각화 기법이 ‘탐색적 데이터 분석’에 주로 사용된다.

히스토그램과 줄기잎그림은 변수가 1개인 일변량 데이터의 분포를 알기 쉽게 보여준다. 단, 히스토그램에서는 각 관측값의 정확한 값을 확인할 수 없고 줄기잎그림에서는 확인이 가능하다는 차이점이 있다.

▲ 히스토그램

▲ 줄기잎그림

상자수염그림은 ▲최소값 ▲25%에 위치하는 수(제 1사분위수) ▲50%에 위치하는 수(제 2 사분위수 혹은 중앙값) ▲75%에 위치하는 수(제 3사분위수) ▲최대값을 의미하는 4분위수(Quartiles)를 이용해 자료를 배열하는 형태다. 4분위수에 해당되는 부분은 상자로, 그 밖의 범위에 포함되는 데이터는 선으로 연결해 표시한다. 평균값이 전체 데이터값을 대표한다고 보기 어려운 경우 주로 사용되며, 이상치(outlier)의 위치와 데이터값의 비대칭 여부를 쉽게 확인할 수 있다.

▲ 상자수염그림: A,C,G열에서 이상치를 확인할 수 있다

산점도는 짝을 이룬 두 변수 간의 상관관계를 쉽게 파악할 수 있게 보여주는 기본적인 그래프이다. 점의 산포 상태에 따라 두 데이터 간에 관계가 있는지 혹은 없는 지, 또한 그 관계가 강한지 약한지를 쉽게 확인할 수 있다.

▲ 산점도

‘확증적 데이터 분석’은 특정한 목적, 즉 가설과 주장을 뒷받침하기 위한 근거 자료를 확보하기 위해 데이터를 분석한다는 점에서 가공되지 않은 데이터에서 특정 징후를 찾아내고 이를 통해 가설을 이끌어내는 ‘탐색적 데이터 분석’과 차이점을 가지고 있다. t-test, F-test, 분산분석(ANOVA), 상관분석, 회귀분석, 카이제곱검정, 모비율 검정, 비모수적 검정 등의 가설검정 도구가 ‘확증적 데이터 분석’에 주로 활용된다.


통계 분석: 탐색적 데이터 분석, 확증적 데이터 분석 활용
‘탐색적 데이터 분석(EDA)’과 ‘확증적 데이터 분석(CDA)’은 일일 최소 1백만 건에서 최대 수백억 건 이상 발생하는 대용량의 방화벽, 넷플로우, 패킷 데이터를 보다 빠르게 분석하는 통계 분석(Statistical Analysis)을 수행하는 데 유용하게 사용될 수 있다. 그럼, 두 데이터 분석 기법을 활용해 방화벽 로그 데이터에서 공격 침해 및 장애 원인을 도출한 사례를 확인해 보도록 하겠다. 처음 두 단계에는 ‘탐색적 데이터 분석’이, 다음 두 단계에는 ‘확증적 데이터 분석’이 적용된다.

■ 단계 1. 발생하는 모든 이벤트의 흐름을 파악한다.

꺽은 선 그래프(Line chart)를 활용해 전체 이벤트를 시각화함으로써 시간에 따른 보안 이벤트 추이 현황을 파악하고, 이격도 관점(disparity)에서 평균을 크게 벗어난 특정 범위에 대한 상세 분석을 단계적으로 실시한다.

▲ 전체 이벤트 추이 현황

■ 단계 2. 주요 필드 별 그룹화 분석을 수행한다.

이격도가 발생한 시간을 기준으로 출발지 IP, 목적지 IP, 서비스 포트, 프토토콜 등 주요 필드를 추출해 그룹화 분석을 수행한다.

▲ 필드별 그룹화 분석 과정

■ 단계 3. 주요 필드 기준 상세 검색을 수행한다.

▲ 주요 필드 기준 상세 검색

■ 단계 4. 주요 필드 별 연계 검색을 수행한다.

▲ SPiDER TM V5.0의 시각화 기능을 활용한 ‘확증적 데이터 분석’


행위 분석: 탐색적 데이터 분석, 확증적 데이터 분석 활용
최근 랜섬웨어 공격에 빈번히 이용되고 있는 악성코드 감염 여부 역시 ‘탐색적 데이터 분석’, ‘확증적 데이터 분석’ 기법을 활용해 보다 정확하게 판별할 수 있다. ‘탐색적 데이터 분석’ 과정에서 추출된 증상을 ‘확증적 데이터 분석’을 통해 검증하는 형태로, 처음 두 단계에는 ‘탐색적 데이터 분석’이, 다음 두 단계에는 ‘확증적 데이터 분석’ 기법이 적용된다.

■ 단계 1. 특정 조건을 입력해 단일 경보 설정을 한다.

▲ 단일 경보 설정

▲ 경보 조건 예시


■ 단계2. 단일 경보를 통해 추출된 근거 데이터를 시각화해 나타낸다.

▲ SPiDER TM V5.0의 시각화 기능을 활용한 ‘확증적 데이터 분석’: 다수의 출발지 IP에서 특정 목적지 IP TCP 445 포트 혹은 다수 목적지 IP TCP 445 포트로 접근하는 흐름을 쉽게 확인할 수 있다.

■ 단계 3. ‘TCP View’ 프로그램과 진단 사이트를 활용해 실행파일 형태의 악성코드 여부를 검증한다.

악성코드 감염이 의심되는 PC에 접속해 네트워크, 파일, 프로세스의 이상 행위를 분류하고 분석하고, 악성코드 감염 진단 사이트에서 악성코드로 의심되는 실행파일의 감염 여부를 확인한다.

▲ ‘TCP View’ 프로그램을 활용해 악성코드 감염이 의심되는 PC의 네트워크 세션 확인

▲ 악성코드 감염 여부 확인 사이트를 통해 악성코드로 의심되는 실행파일 진단


보안 데이터를 분석하고 이에 따라 의사결정을 내리는 보안 전문가의 역할은 더 중요해질 것
인공지능·빅데이터·사물인터넷 등 다양한 신기술이 결합되고 모든 것이 연결되는 제 4차 산업혁명 시대의 도래에 따라, 방대한 보안 데이터를 빠르게 분석하고 이에 따라 정확한 의사결정을 내리는 보안 전문가의 역할은 더욱 중요해질 전망이다. 매일 그 기록을 새롭게 갱신할 정도로 기하급수적으로 증가하고 있는 정보의 홍수 속에서 의미 있는 보안 데이터를 추려내고, 이를 토대로 사이버 위협의 주요 원인을 보다 빠르고 정확하게 찾아낼 수 있어야 하기 때문이다.

따라서 보안 담당자들은 대용량의 보안 데이터를 한정된 시간과 예산 내에서 보다 빠르게 분석할 수 있도록 앞서 소개한 ‘탐색적 데이터 분석’, ‘확증적 데이터 분석’ 등 고도화된 데이터 분석 기법을 적극적으로 활용할 필요가 있다. 더 나아가, 이를 통해 파악하고 검증한 결과물들을 인공지능이 스스로 학습하고 자동 처리 분석할 수 있도록 머신러닝 기술이 적용된 ‘예측 데이터 분석’까지 수행한다면, 지금까지 발생하지 않았던 새로운 유형의 위협도 보다 선제적으로 탐지하고 대응할 수 있게 될 것이다.

다시 말해, 보안 전문가가 직접 수행하는 보안 데이터 분석 업무는 점점 줄어들지만, 보안 전문가들의 역할은 더욱 중요해질 것으로 예측된다. 보안 담당자들이 일일이 들여다보아야 했던 방대한 정보들을 자동적으로 분석하고, 그 중 위협 정보를 빠르게 선별해 제공하며, 충분한 학습을 통해 공격을 예측하는 보안 시스템을 구축하기 위해서는, 장기적이고 복합적인 보안 데이터 분석을 통해 올바른 의사결정을 내릴 수 있는 사람이 반드시 필요한 까닭이다.
 

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지