‘사고 후 대응’에서 ‘사전 예방’으로…기존 문제 해결 위한 대안 될 것

[컴퓨터월드] 고도화된 지능형 지속 위협(APT)뿐만 아니라 서비스형 랜섬웨어(RaaS)에 이르기까지, 전 세계적으로 공격자들의 보안 위협은 시간이 갈수록 정교해지고 그 수 또한 늘어가는 추세다. 2015년 한 해 동안 발생한 신종 악성코드는 4억 3천만 개에 이르며, 이는 초당 13개에 이르는 어마어마한 양이다.

이 같은 악성코드의 범람에 기존의 보안 방식으로는 곧 한계에 부딪힐 거라는 의견이 제기되고 있다. 수없이 등장하는 악성코드에 하나하나 대응해나가는 것은 쉽지 않은 일이며, 그나마도 사고 발생 이후에야 이를 인식하고 추가 피해를 막기 위한 대응을 해나간다. 더군다나 대응책을 세우기 무섭게 공격자는 약간의 코드 변조만으로 다시 그것을 우회해나가려는 시도를 하게 된다.

이러한 상황을 타개하기 위해, 보안업계는 지금 머신러닝을 접목한 보안 환경 구축에 신경을 쏟고 있다. 사고발생 후에야 대응책을 구축해나가는 것이 아니라, 축적된 악성코드 데이터를 학습한 AI를 보안 솔루션에 탑재해 아직 데이터가 확보되지 않은 악성코드까지 잡아내겠다는 것이다.


Papers, Please

2013년에 발매된 인디게임 ‘페이퍼, 플리즈(Papers, Please)’는 독특한 설정과 사회 풍자적 성격, 자연스럽게 플레이어의 갈등을 이끌어내는 시나리오 등으로 게임성을 인정받았다. 플레이어는 가상의 공산주의국가 ‘아스토츠카’의 하나 뿐인 출입국 검문소 심사관이 돼, 국경을 넘어 들어오려는 사람들의 서류를 확인하고 입국 허가 혹은 거부 도장을 찍어주는 일을 담당하게 된다.

해외에 나갔다가 돌아오는 국민들, 아스토츠카를 찾은 여행객, 일거리를 찾아 밀입국하려는 노동자, 국제 수배 중인 범죄자, 아스토츠카의 체재를 뒤엎으려는 테러리스트 등 하루에도 수십 명의 입국 요청자가 출입국 검문소를 찾는다. 플레이어는 제한 시간 안에 최대한 많은 사람들의 서류를 심사해야만 한다. 결격사유가 없는 사람에게 입국 거부 도장을 찍거나 서류를 위조해 밀입국하려는 사람을 제대로 잡아내지 못하면 벌점을 부과 받게 되며, 정교한 서류를 준비한 테러리스트를 잡아내지 못하면 아스토츠카에 체제 전복이 일어나 돌이킬 수 없는 결과가 발생하기도 한다.

처음에는 여권과 얼굴, 신분증 정도만 확인하면 되지만, 하루하루 지나갈수록 심사 절차가 점점 까다로워진다. 여권 이외에도 입국 허가서, 노동 허가서 등의 기초적인 서류가 추가되며, 전 세계적으로 질병이 발생했을 경우에는 예방접종 인증서 등도 요구하는 등 플레이어가 확인해야 할 사항이 점점 늘어난다. 일사천리로 일이 진행되던 초반과 달리 입국 심사에 걸리는 시간은 계속 늘어나게 되며, 밀입국을 시도하려는 사람들이 점점 더 정교하게 조작된 서류를 준비함에 따라 플레이어가 실수를 저지르는 일도 빈번해진다.

▲ ‘페이퍼, 플리즈’(왼쪽)의 플레이어가 겪는 고충은 보안 업계에 산적한 문제들과 일맥상통한다.

인력만으로는 모두 대응할 수 없는 보안 위협

보안의 역할은 말하자면 ‘페이퍼, 플리즈’에 등장하는 플레이어의 역할과 같다. 시스템 상에서 오고가는 수많은 파일들의 ‘여권’을 조사해 악성 파일을 찾아내고 적절한 조치를 취하는 것, 이것이 기본적인 보안의 기능이다. 게임 상에서 시간이 흐를수록 혼자서 감당할 수 없을 만큼 많은 업무량과 정교한 서류 조작으로 잦은 실수가 발생하는 것처럼, 보안 업계 역시 시시각각 늘어가는 보안 위협들과 점점 정교하고 지능적으로 변해가는 공격들에게 항상 노려지고 있다는 점에서도 유사성을 찾을 수 있다.

새해를 맞아 국내외 많은 보안 기업들이 2017년 보안시장 전망을 발표했다. 올해 보안 시장에는 IoT, 랜섬웨어, 커넥티드카 등 여전히 다양한 이슈들이 발생할 것으로 전망됐다. 그 와중에 대부분의 업체가 공통적으로 지적한 부분은 바로 ‘보안 위협의 다양화와 지능화’였다. 한동안 많은 이슈를 만들었고 지금도 여전히 요주의 대상인 APT(Advanced Persistent Threat) 공격, 2016년 보안시장을 뜨겁게 달구고 2017년의 주요 이슈로도 부각되고 있는 랜섬웨어 등은 여전히 보안 업계의 난제로 남아있다.

이러한 상황에 기존의 보안 솔루션들이 가진 악성코드 대응 구조는 이미 한계에 이르렀다는 지적이 나오고 있다. 점점 다양화, 고도화 돼가는 공격에 기존의 방법으로는 대처할 수 없다는 주장이다. 지난해 11월, 시만텍코리아는 오늘날 보안 업계가 직면하고 있는 위협 중 신종 악성코드의 등장 속도에 대해 이야기한 바 있다. 시만텍코리아에 따르면 2015년 한 해 동안 시만텍 측이 탐지한 신종 악성코드는 4억 3천만 개 수준으로, 이는 일일 117만 개, 초당 13개에 달하는 양이다. 악성코드가 이처럼 빠르게 증가하고 있는 상황에 시그니처에 기반한 기존의 리액티브(reactive) 방식으로는 속도를 맞추기가 쉽지 않으며, 이에 따라 기존의 보안 방식은 한계에 달했다는 지적이 나오고 있다.

▲ 악성코드, 랜섬웨어 등이 유포되는 유해 사이트 역시 매년 빠르게 증가하고 있다. (출처: 수산아이앤티)

소 잃고 외양간 고치는 격의 보안 방침 역시 이러한 지적을 뒷받침한다. 기존의 시그니처 기반 방식은 보안사고가 발생한 후 이에 대응하기 위해 만들어진다. 악성코드에 대응할 수 있는 시그니처가 만들어졌다는 말은 이미 어느 지점에서 보안 사고가 발생했다는 것을 의미한다. 만약 신종 악성코드가 활성화돼 보안 시스템에 감지되지 않았더라면 이에 대응하는 시그니처도 만들어지지 않았을 것이기 때문이다.

또한 사고 발생 후 이에 대응하기 위해 시그니처에 기반한 보안 솔루션 업데이트가 이뤄지면, 이를 파악한 공격자가 다시 이를 우회할 수 있도록 악성코드에 약간의 수정을 가해 재배포한다. 그렇게 되면 보안 업체 측은 다시 이것을 막을 수 있는 업데이트를 수행해야 하며, 이 역시 공격자의 악성코드 수정을 통해 우회될 수 있다. 이 과정에서 주도권은 언제가 공격자가 쥐고 있다는 점에서, 이는 과도한 인력 낭비이자 지루한 소모전에 불과하다.


글로벌 보안기업들, 적극적 AI 도입

지난해 11월, 시만텍은 AI 기술이 적용된 엔드포인트 보안 솔루션 ‘SEP 14(Symantec Endpoint Protection 14)’를 공개했다. 박희범 시만텍코리아 대표는 SEP 14 출시 간담회에서 “전 세계적으로 1초에 10개 이상 발생하는 엔드포인트 위협을 사람이 실시간으로 막아내는 것은 불가능에 가깝다”며, “SEP 14에 탑재된 AI 기술은 이 같은 상황에 대응하기 위한 것”이라고 밝혔다.

실제로 AI 기술이 탑재된 SEP 14는 실시간으로 올라오는 악성코드 100개를 상대로 탐지 성능 데모를 시연해, 해당 악성코드에 대한 시그니처가 갖춰지지 않은 상황에서도 90개 이상을 탐지해냈다. 악성코드에 감염돼 보안사고가 발생한 후에야 추가피해를 막기 위해 대응책을 갖추던 기존 방식과 달리, AI가 접목된 보안 솔루션은 선제적인 사고 예방과 침입 방지를 해낼 수 있다.

 


SEP 14 (Symantec Endpoint Protection 14)


시만텍의 SEP 14는 기존의 시그니처 방식이 아닌 머신러닝 방식을 택한 엔드포인트 보안 솔루션이다. 악성코드를 분석하기 위한 시그니처를 엔드포인트에 보관할 필요가 없어 엔드포인트 및 클라우드 환경에서 AI를 활용해 강력한 보안 성능을 제공하면서도 상대적으로 더 적은 용량, 더 적은 PC 자원을 요구한다.

또한 기존에 알려지지 않은 새로운 악성코드에 대해서도 높은 수준의 탐지율을 보여, 증가하는 새로운 보안 위협에도 대처할 수 있다.

카스퍼스키랩 역시 자사의 보안 분야에 머신러닝을 접목했다. 카스퍼스키랩의 머신러닝 기반 악성코드 분석 시스템 ‘아스트라이아(Astrea)’는 파일 콘텐츠에 대한 구체적인 정보 없이도 자동화된 분석을 통해 악성코드 여부를 탐지해낸다. 탐지된 악성코드는 카스퍼스키랩 클라우드 데이터베이스에 등록되며, 이렇게 아스트라이아를 통해 등록된 악성코드는 2012년 전체의 7.53%에서 2016년 40.5%로 꾸준히 증가하고 있다.

현재 카스퍼스키랩 클라우드 데이터베이스에 등록돼 있는 10억 개의 악성코드 중 2억 개가 아스트라이아에 의해 추가됐으며, 앞으로도 이 비율은 점점 증가해나갈 전망이다. 카스퍼스키랩 측은 “매일 발생하는 사이버 위협은 그 수가 너무 많아 수동으로 처리하는 것이 불가능하다”며 “최선의 방법은 악성코드 탐지 및 분석 프로세스를 자동화 하는 것”이라고 전했다.

▲ ‘아스트라이아’를 통해 탐지·등록되는 악성코드의 비율은 매년 꾸준히 증가하고 있다. (출처 : 카스퍼스키랩)

특정 악성코드의 시그니처에 의존하지 않는 AI 보안 솔루션은 이처럼 실시간으로 제작·배포되는 악성코드도 탐지·대응할 수 있다. 정형화된 패턴을 살짝 비틀어 보안 시스템을 우회하려는 시도도 보다 정확하게 탐지해내는 모습을 보여주며, 이렇게 탐지해낸 악성코드 데이터를 클라우드를 통해 공유하고 다시금 머신러닝에 활용함으로써 꾸준히 성장·학습해나가는 보안 솔루션으로 기능한다.


AI, 목표와 데이터로 스스로 알고리즘 구축

보안 솔루션에 시그니처 기반의 리액티브 방식만이 아닌 머신러닝을 활용하고자 하려는 시도는 일찍부터 있어왔다. 기존에 축적돼 있는 수많은 악성코드들의 데이터를 분석해 특정 악성코드의 시그니처 없이도 잡아내게 하려는 시도였다. 그럼에도 불구하고 최근 들어서야 보안 업계의 AI와 머신러닝이 중요하게 다뤄지는 것은 단순히 ‘알파고(AlphaGo)’ 이슈로 인한 사회 분위기 때문만은 아니다. 그보다는 제대로 된 머신러닝이 이뤄지기 위해 반드시 필요한 빅데이터 처리가 가능해졌기 때문이라고 봐야할 것이다.

‘알파고’가 수많은 바둑 기사들의 기보데이터를 학습해 최정상급의 바둑 실력을 보여준 것처럼, AI가 머신러닝을 통해 목표로 하는 성능을 보여주기 위해서는 올바른 데이터가 제공돼야만 한다. 야심차게 준비한 머신러닝이 무가치한 ‘가비지 인, 가비지 아웃(garbage in, garbage out)’으로 끝나지 않기 위해서는, 무엇보다 중요한 선결과제로써 충분한 빅데이터 처리능력이 요구됐던 것이다.

물론 기존의 보안 방식도 데이터를 활용하는 것은 같다. 기존의 시그니처 방식 보안 업데이트에도 당연히 악성코드에 대한 데이터가 요구된다. 파일 평판, 해시값, 접근 경로나 실행파일 유무 등 악성 코드에 대한 정확하고 다양한 데이터가 필요한 것이다.

머신러닝과 기존 방식의 차이점은 바로 데이터에 대한 접근 방식에 있다. 유사한 방법을 사용한 ‘알파고’를 예로 들면, 구글 딥마인드의 ‘알파고’ 개발진들은 ‘알파고’에게 수많은 바둑기사들의 기보를 제공했을 뿐, 어떤 상황에 어떻게 대응해야하는지를 알려주지는 않았다. 이런 이유로 ‘알파고’의 바둑 기량이 사람의 프로그래밍으로 구축된 것이 아닌 AI의 기계학습(머신러닝)으로 만들어졌다고 하는 것이다.

▲ 구글 딥마인드의 ‘알파고’는 주어진 목표와 데이터만을 가지고 바둑에서 이기는 알고리즘을 스스로 구축했다.

윤광택 시만텍코리아 CTO는 “기존 방식이 데이터를 미리 분석하고 대응방법을 프로그래밍해서 떠먹여주는 형태라면, 현재의 머신러닝은 목표와 미리 선별된 샘플만 주고 목표에 도달하는 방법을 AI가 스스로 생각하게 만드는 것”이라고 설명했다. 올바른 목표(악성코드 탐지 등)와 데이터(축적된 악성코드 데이터)만을 제공하고, 목표를 달성하기 위한 알고리즘은 AI가 직접 구축하는 것이 기존 방식과 머신러닝의 차이점이라고 할 수 있겠다.


AI, 모든 문제의 해결사는 아니야


물론 머신러닝으로 구축된 AI가 기존의 보안 방식을 완전히 대체한다는 것은 아니다. AI 역시 보안 분야에 접목된 하나의 기술일 뿐이며, 기존의 모든 문제점을 해결할 수 있는 만능의 도구는 아니다. 실제로 AI를 접목한 시만텍의 SEP 14 역시 기존의 평판 데이터 방식이나 화이트 리스트 방식을 병용하고 있으며, 빈번히 사용되는 일부 악성코드의 시그니처 파일은 여전히 SEP 14 솔루션이 설치된 엔드포인트 내에 보관되고 있다.

평판 데이터, 화이트 리스트, 시그니처 방식 등의 기존 보안 방식이 일부 문제를 가지고 있는 것은 사실이지만, 이들 역시도 AI와 비교해 나름의 강점을 가지고 있는 부분이 있다. 가령 이들을 통해 이미 검증된 파일에 대해 하나하나 전부 악성코드 검사를 실행하는 것은 PC의 자원만 낭비될 가능성이 높고, 불필요한 검사를 통해 오탐지가 발생하게 되면 보안 관리자의 인력 또한 낭비되는 결과로 이어질 수 있기 때문이다.
중요한 것은 AI와 머신러닝이 기존 보안 방식을 완전히 대체할 수도, 그럴 필요도 없다는 것이다. 보안과 AI의 접목은 한 단계 진화한 차세대 보안 방식이라기보다, 기존 방식의 문제점을 보완할 수 있는 또 다른 보안 수단으로 인식하는 것이 바람직할 것이다.

홍준혁 이글루시큐리티 대전관제운영팀 과장은 본지 2016년 11월호를 통해 보안 분야에서 머신러닝의 활용이 두드러질 것이라고 전망한 바 있다. 홍 과장은 보안 관제 분야에서 AI가 수년간 축적된 데이터를 토대로 정상적인 상황과 비정상적인 상황을 구분할 수 있도록 학습과정을 거치게 되면, 보안 관리자가 모든 문제 상황에 대해 하나하나 확인해야했던 업무를 줄이고 업무 효율성을 늘릴 수 있게 되리라고 주장했다. 이처럼 보안 분야에서 AI와 머신러닝의 가능성은 높게 평가되고 있다. 충분히 갖춰진 데이터와 이를 적절히 활용할 수 있는 역량이 갖춰진다면, 이를 학습한 AI는 기존의 보안 방식에 산재해있던 다양한 문제들을 해결하는데 큰 도움을 줄 수 있을 것이다.


AI의 도입, 데이터의 확보만이 능사가 아니다

▲ 윤광택 시만텍코리아 CTO
- 윤광택 시만텍코리아 CTO

만약 기존에 알려진 모든 악성코드의 데이터를 학습한 AI 보안 솔루션이 있다면 어떻게 될까? 어느 대학 연구실에서 전 세계 모든 보안 기업들이 보유한 악성코드 데이터를 학습한 AI 보안 솔루션을 개발해낸다면?

이론상 해당 보안 솔루션은 기존의 모든 악성코드들은 물론 향후에 나오게 될 그와 유사한 악성코드들도 모두 탐지해낼 수 있을 것이다. 완전히 새로운, 유사성이라고는 조금도 찾아볼 수 없으며 작동 방식조차 새로운 악성코드가 개발되지 않는 한, 해당 보안 솔루션은 외부의 위협으로부터 사용자 환경을 안전하게 지켜낼 수 있을 것이다.

그러나 모든 악성코드를 학습한 보안 솔루션은 완벽에 가까운 보안성능과 함께 치명적인 단점도 함께 갖는다. 바로 오탐지의 문제다. AI 보안 솔루션이 더 많은 데이터를 학습하고 더 많은 악성코드 로그를 발견해낼수록 기업의 보안 관리자는 엄청나게 불어난 오탐지 로그도 함께 마주하게 될 것이다.

아무리 악성코드 탐지를 잘 해낸다고 해도 이처럼 오탐지가 많으면 이는 연구실에서나 사용할 만한 실험용 모델일 뿐, 상용화가 불가능하다. 반대로 오탐지를 줄이기 위해 일정 부분의 데이터를 솎아내 탐지 영역을 한정하게 되면, 이번에는 그 틈새를 파고드는 보안 위협에서 안전할 수 없다. 당연한 말이겠지만, 오탐지를 줄이기 위해 보안상 취약점을 가진 보안 솔루션 역시 상용화는 불가능하다.

우리는 실제 사용이 가능한 보안 제품을 제공해야하는 벤더이고, 따라서 상용화와 고객의 실제 사용 환경을 고려해야만 한다. 하루가 다르게 새로운 데이터가 쏟아져 나오는 보안 환경에서 미탐지와 오탐지는 발생할 수밖에 없지만, 섣불리 어느 한 쪽을 줄이고자 신경쓰다보면 반대쪽이 감당할 수 없을 만큼 불어나는 결과를 가져오게 될 것이다.

이처럼 단순히 자사의 보안 솔루션에 AI 혹은 머신러닝을 도입하는 것과, 이를 상용화 가능한 수준으로 조절해내는 것은 별개의 문제다. 기존에 알려진 모든 악성코드에 대한 데이터를 가지고 있다고 하더라도, 그것을 적절히 분류해 머신러닝을 이용해 접근할 부분과 다른 방식으로 접근할 부분을 구분할 수 있는 역량이 필요하다. 이를 통해 필요 이상의 탐지 과정을 막아 오탐지 발생과 불필요한 자원 낭비를 방지하고, 기존의 보안 방식과 타협하고 적절한 수준의 대체 보안 수단을 강구해 치명적인 위협을 놓치는 일이 없도록 해야 한다.

AI와 머신러닝은 데이터만 제공하면 모든 상황에 대처할 수 있는 만병통치제가 아니며, 그저 다른 보안 방식과 마찬가지로 사용자의 관리가 필요한 하나의 보안 테크놀로지에 지나지 않는다. 이 테크놀로지를 올바르게 활용해 오탐지와 미탐지 사이에서 밸런스를 갖추는 것, 그 사이에 발생하는 보안상 공백을 적절한 수단을 갖춰 방어해 내는 것, 그것이 바로 AI 보안 솔루션을 제공하는 벤더의 역량이다.

 

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지