[기고] 데이터 분석의 진화, 인공지능

데이터 분석과 인공지능의 만남, 무엇이 달라졌을까?

[컴퓨터월드] 최근 몇 년간 4차 산업혁명이라는 키워드가 여러 전문가나 미디어를 통해 자주 언급되며 빅데이터, 인공지능, 사물인터넷 등의 용어가 더 이상 낯설지 않게 됐다. 4차 산업혁명은 연결, 탈중앙화, 공유, 그리고 개방을 통해 지능화된 세계를 지향한다. 그리고 빅데이터(Big Data Statistical Analysis), 인공지능(AI, Artificial Intelligence), 로봇 공학(Robot Engineering), 양자 암호, 사물인터넷(IoT, Internet of Thing), 무인 운송(자율주행) 등이 이러한 지능화 세계 구축을 위한 핵심 기술로 주목받고 있다.

오늘날 우리 사회는 4차 산업혁명이라는 큰 흐름 아래 있다. 업종을 막론하고 신기술을 활용해 새로운 시대의 리더로 도약하기 위한 투자 및 연구가 활발히 진행되고 있다. 특히 2020년은 코로나19로 인한 팬데믹으로 전 세계가 일시정지 상태를 한차례 경험하면서, 향후 미래에 대한 불안에 대응하는 ‘예측’의 영역이 조금 더 현실과 가까워졌음을 느낄 수 있는 한 해였다. 불확실성과 불안의 시대를 겪으며 예측 영역은 모든 산업 군의 필수 요소 중 하나로 자리 잡았다. 그리고 이를 위한 인공지능과 자동화(Automation) 기술은 비약적인 발전을 거듭하고 있으며 이는 데이터 분석 분야에도 큰 영향을 줬다.

불확실성 줄이고 정확한 예측을 위해서는 무엇보다 그 바탕이 되는, IT 기반 4차 산업혁명 시대의 ‘원유’라고도 불리는 데이터의 분석이 중요하다. 이에 초기 빅데이터 분석부터 보다 정확한 예측을 위한 인공지능 분석까지, 데이터 분석의 발전 방향을 정보보안 관점에서 살펴보며 앞으로의 전망에 대해 생각해보는 시간을 가져보고자 한다.

정보보안 분야에서의 데이터 분석

정보보안 분야에서 가장 많이 활용되는 데이터 분석 기술은 크게 네 가지로 구분된다. ▲정형 비정형 데이터 정보를 가공하지 않고 데이터의 전체적인 특성을 살피는 ‘탐색적 데이터 분석(EDA)’ ▲‘탐색적 데이터 분석’에 의해 파악된 문제적 행위를 구체적 가설에 기반해 분석하는 ‘확증적 데이터 분석(CDA)’ ▲미래 상황 예측에 초점을 둔 ‘예측 데이터 분석(PDA)’ ▲과거에 발생한 이벤트 결과를 분석하는 ‘묘사적 데이터 분석(DDA)’ 등이다.

정보보안 분야의 데이터, 다시 말해 로그는 ▲정형 로그(네트워크 이벤트, 탐지 롤 이벤트, 시스템 이벤트 등) ▲반정형 로그(네트워크 원본 데이터인 Pcap, 엔드포인트 포렌식 원본 데이터인 메모리, 디스크 덤프 파일 등) ▲비정형 로그(동영상, 음성, 이미지 파일) 등으로 분류할 수 있으며, 그 중 정형 로그와 반정형 로그가 실제 업무에 활발히 사용되고 있다. 특히 통합보안관제 업무에서는 정형 로그인 네트워크 이벤트와 탐지 롤 이벤트를 ‘통합보안관제(SIEM)’의 상관분석 기능을 통해 실시간으로 처리하고 있다.

정보보안 분야에서의 데이터 분석 과정은 총 4단계로 나눠 구현된다. 가장 먼저 정형/반정형 로그를 수집해 입력하고, 이에 대한 ‘탐색적 데이터 분석’을 실행해 문제 발생의 원인이 되는 이상 징후를 탐색한다. 그 다음에는 네트워크 이벤트, 탐지 롤 이벤트, 엔드포인트, 시스템 단을 아우르는 ‘확증적 데이터 분석’을 통해 1단계에서 나타난 징후에 대한 객관적인 증거를 찾는다. 이후 인공지능 및 통계 모델링 기법이 적용된 예측 모델을 이용해 분석을 수행하고, 최종적으로 도출된 분석 결과를 최신 위협 정보와 결합해 통합적으로 분석 및 관리한다.

▲ <그림 1> 정보보안 분야에서의 데이터 분석 과정(출처: 이글루시큐리티)

탐색적 데이터 분석, 확증적 데이터 분석 활용 예시(통계 분석)

‘탐색적 데이터 분석’과 ‘확증적 데이터 분석’은 일일 최소 1백만 건에서 최대 수백억 건 이상 발생하는 대용량의 네트워크 이벤트, 탐지 롤 이벤트, 경보 이벤트, 네트워크 Pcap 데이터 등을 보다 빠르게 분석하기 위해 통계 분석(Statistical Analysis) 및 규칙 기반의 상관 분석 기법을 활용한다.

자 이제 지금까지 소개한 이론적인 내용을 방화벽 로그 데이터에서 공격 침해 및 서비스 장애 원인을 도출한 사례를 통해 자세히 살펴보도록 하겠다. 처음 두 단계에는 ‘탐색적 데이터 분석’이, 다음 단계에서는 ‘확증적 데이터 분석’이 적용된다.

■1단계: 발생하는 모든 이벤트의 흐름을 파악한다
선 도표(Line chart)를 활용해 전체 이벤트를 시계열 기준으로 시각화한다. 시간에 따른 보안 이벤트 추이 현황을 파악하고, 이격도 관점(disparity)에서 평균을 크게 벗어난 특정 범위에 대해 상세 분석을 단계적으로 실시한다.

■2단계: 주요 필드 별 그룹화 분석을 수행한다
이격도가 발생한 시간을 기준으로 출발지 IP, 목적지 IP, 서비스 포트, 프로토콜 등 주요 필드를 추출해 그룹화 분석을 수행한다.

■3단계: 주요 필드 기준 상세 검색을 수행한다
2단계 그룹화 분석에서 임계치 이상의 건수나 비율(Ratio)이 높은 출발지 IP및 목적지 IP를 상세 검색을 통해 분석한다.

■4단계: 주요 필드 별 연계 검색을 수행한다
2단계 그룹화 분석에서 나온 임계치 이상의 건수나 비율(Ratio)이 높은 출발지 IP 및 목적지 IP등 이기종 보안 장비의 이벤트를 상관 분석을 통해 분석한다.

▲ <그림 5> ‘스파이더 TM V5.0’의 시각화 기능을 활용한 ‘확증적 데이터 분석’(출처: 이글루시큐리티)

인공지능(AI) 분석 활용 예시

그렇다면 이제 인공지능 기술이 데이터 분석과 만나 어떠한 변화를 가져오게 됐는지 살펴보도록 하자. 인공지능 데이터 분석 프로세스는 다음의 4가지 단계로 나눠볼 수 있다. ▲네트워크 접근 로그, 보안 시스템 탐지 이벤트, 경보 이벤트 등을 선정하는 ‘데이터 정의 단계’ ▲전체 데이터를 기준으로 위협 모델의 목적에 맞는 특성(Feature)을 추출하고 학습 데이터를 생성하는 ‘전처리 단계’ ▲원하는 목적에 맞는 위협 모델을 생성하고 이에 맞는 알고리즘을 선정해 전처리된 데이터의 학습을 진행하는 ‘모델 생성 및 학습 단계’ ▲지도 학습 및 비지도 학습 예측 후 검증하고, 예측 정확도 향상을 위한 피드백 및 예외 처리를 수행하는 ‘검증 단계’ 등이다. 해당 프로세스를 통해 인공지능 시스템은 데이터 분석을 기반으로 한 예측을 수행할 수 있으며, 이에 따라 보안관제 업무에 도움을 주는 예측 결과 활용 방안은 <그림6>과 같다.

▲ <그림 6> 인공지능 시스템 데이터 분석 절차(출처: 이글루시큐리티)

■지도 학습
현재 대다수의 기업 및 기관에서는 내/외부에서 발생하는 웹 해킹, 분산서비스거부공격(DDoS), 악성코드 감염 등의 보안 위협에 실시간으로 대응하기 위해 SIEM의 경보 및 대응 프로세스를 활용하고 있다. 만약 이러한 실시간 위협 대응에 사전 라벨링 학습과 같은 지도 학습 알고리즘을 적용한다면, 예측 결과의 정확도 향상을 통한 신속한 탐지가 가능해진다.

▲ <그림 7>지도 학습을 통한 탐지 이벤트에 대한 정확도 향상(출처: 이글루시큐리티)

■비지도 학습
최근 발생한 보안 사고의 추이를 살펴보면 외부에서 내부로 공격하는 인바운드(INBOUND) 공격뿐만 아니라 내부의 사용자, 서버 그리고 단말 등을 공격해 외부로 중요 정보를 유출하는 아웃바운드(OUTBOUND) 공격이 과거에 비해 크게 늘어났음을 확인할 수 있다. 이에 따라 인바운드, 아웃바운드 등 구간에 구별 없이 현재 운영 중인 보안 시스템이 놓칠 수 있는 모든 영역에 대한 대응이 한층 중요해졌다.

분석 전문가들은 비지도 학습을 통해 예측된 결과를 기준으로 1차 분석을 수행하고, 시계열·네트워크 흐름 기준 상관 분석을 2차적으로 수행함으로써 보안 시스템의 관리적/기술적 미탐지 영역에 대한 보완을 해나가고 있다.

▲ <그림 8> 비지도 학습에 의한 보안 시스템의 미탐지 위협 예측(출처: 이글루시큐리티)

■지도 학습과 비지도 학습의 상관 분석
분석의 기본 원칙은 육하원칙(5W1H)이다. 어떤 사건이 발생했을 때 이를 육하원칙, 다시 말해 누가(WHO), 언제(WHEN), 어디서(WHERE), 무엇을(WHAT), 왜(WHY), 어떻게(HOW)로 나눠 생각해보면 일련의 과정을 보다 논리적으로 이해하는 데 도움이 된다. 보안 데이터 분석도 마찬가지다. 각각 따로 떨어져 있는 데이터를 육하원칙에 따라 정리해 시각화하는 과정을 거친다면, 해당 이벤트의 본질을 더욱 직관적으로 파악할 수 있을 것이다. SIEM이 이기종간 상관 분석을 수행하는 이유도 여기에 있다.

그러나 지도 학습의 예측 결과와 비지도 학습의 예측 결과를 개별적으로 분석했을 때는 이러한 분석의 기본 원칙인 육하원칙을 충족시키기 어렵다. 이에 SIEM과 마찬가지로, 인공지능 시스템에서도 지도 학습의 실시간 및 정확성과 비지도 학습의 넓은 예측 영역을 결합해 분석하는 과정이 필요하다. 두 결과에 대한 시계열 및 이기종 상관관계 분석을 수행한다면, 더욱 종합적인 예측 데이터를 얻을 수 있다.

▲ <그림 9> ‘스파이더 TM AI 에디션(SPiDER TM AI Edition)’ 지도 학습 예측 결과(출처: 이글루시큐리티)

<그림9> 화면은 지도 학습 예측 결과다. 앞서 이야기했듯이 지도 학습은 보안관제 업무의 핵심 요소인 실시간성을 보장한다. TMS/IPS 등에서 탐지된 이벤트를 라벨링 된 학습 데이터 기준으로 정확하게 예측하면서, 보안관제 요원의 분석 및 침해 사고 대응 시간을 대폭 단축시킨다.

▲ <그림 10> ‘스파이더 TM AI 에디션’ 비지도 학습 예측 결과 (출처: 이글루시큐리티)

<그림10> 화면은 비지도 학습 예측 결과다. 비지도 학습은 탐지 롤 기반 보안 시스템에서 미탐되는 영역에 대해 FW, WEB 등의 접속 로그를 기준으로 이상 행위를 예측, 보안관제 분석의 범위를 넓혀준다. 즉 인공지능 알고리즘을 통해 탐지 롤 기반의 보안 시스템을 보완할 수 있는 방안을 제시한다.

▲ <그림 11> ‘스파이더 TM AI 에디션’ 위협 인사이트 결과 (출처: 이글루시큐리티)

지도/비지도 학습 결과에 상관 분석 기법을 적용한 위협 인사이트는 시계열, 공격자/공격 대상 IP, 공격단계(Kill-Chain, 킬체인) 형태의 다양한 분석 결과를 제시해 준다. 이를 통해 육하원칙에 맞는 분석 결과를 한눈에 확인할 수 있으며, 위협에 대한 정보를 직관적으로 파악할 수 있다.

데이터 분석 전문가 역할은 더욱 중요해진다

다양한 신기술이 융합되고 모든 것이 연결되는 4차 산업혁명 시대가 도래함에 따라, 쏟아지는 정보의 홍수 속에 의미 있는 데이터를 빠르게 선별 및 분석하고 또 이에 알맞은 의사결정을 내리는 데이터 분석 전문가의 역할은 더욱 중요해질 전망이다. 폭발적으로 증가하고 있는 보안 데이터 속에서 의미 있는 보안 데이터를 학습하고, 이를 토대로 사이버 위협의 주요 원인을 보다 빠르고 정확하게 찾아낼 수 있어야 하기 때문이다.

데이터 분석 전문가는 정보 보안 담당자들과 역할을 나눠 대용량의 보안 데이터를 빠르게 분석하기 위해 앞서 소개한 ‘탐색적 데이터 분석’, ‘확증적 데이터 분석’ 등 고도화된 데이터 분석 기법을 활용해 지금까지 발생하지 않았던 새로운 유형의 위협도 보다 선제적으로 탐지하고 대응할 수 있어야 한다.

다시 말해 보안 업무를 성공적으로 수행하는데 있어서 데이터 분석 전문가의 역할은 점점 커질 것으로 전망된다. 방대한 정보를 자동으로 분석하고 그중 위협 정보를 빠르게 선별해 제공하며 충분한 학습을 통해 공격을 예측하는 차세대 보안 시스템을 구축하고 운영하기 위해서는, 복합적인 보안 데이터 분석을 통해 올바른 의사결정을 내릴 수 있는 데이터 분석 전문가가 반드시 요구되기 때문이다.

황범석 @

다른기사 보기

상단영역

본문영역

[기고] 데이터 분석의 진화, 인공지능

데이터 분석과 인공지능의 만남, 무엇이 달라졌을까?

기사 댓글 0

비회원 로그인