다크웹상 각종 범죄 데이터 효과적으로 추출하도록 훈련

[컴퓨터월드] 국내 사이버 보안 스타트업인 에스투더블유(S2W, 대표 서상덕)가 카이스트(KAIST) 연구진과 공동으로 다크웹(Dark Web)에 특화된 대규모 언어 모델(LLM) ‘다크버트(DarkBERT)’를 개발했다고 발표해 전 세계 인공지능(AI) 업계의 관심을 받고 있다.

익명성을 강화한 특정 브라우저를 사용해야만 접속할 수 있어 ‘인터넷 세계의 뒷골목’으로 불리는 다크웹에는 각종 범죄와 연결될 수 있는 불법 정보들이 넘쳐나는 것으로 알려져 있다. 이런 다크웹을 통해 일어나는 범죄에 관한 데이터를 AI로 손쉽게 수집하고 추출할 수 있는 ‘다크버트’의 등장은 최근 마약과 해킹, 개인정보 유출 등의 사건으로 골머리를 썩고 있는 각국 치안당국과 기관 및 기업들에게 반가운 소식이 되고 있다.

특히 ‘다크버트’는 국내보다는 해외에서 더욱 많은 관심을 보이고 있으며, S2W는 인도네시아 공공기관에 AI 다크웹 보안 솔루션을 공급할 수 있는 통로를 빠르게 확보하며 기대감을 높이고 있다.

사이버 범죄의 온상 ‘다크웹’

다크웹은 마약, 개인 및 기업 대상의 정보 유출, 랜섬웨어 공격, 해킹, 성착취물, 무기 거래 등 최근 급증하는 사이버 범죄들의 온상이 되고 있는 익명 기반의 네트워크다. 각종 불법거래와 유해 콘텐츠들로 가득하지만, 익명성을 강조한 전용 브라우저를 통해 다크웹을 탐색한 뒤 접속을 종료하면 접속자의 정보가 남지 않는다. 이처럼 빠르게 사라지는 휘발성이 다크웹의 특징이며, 최근에는 탈중앙화 기술까지 활용해 보호되고 있다.

다크웹은 일반적인 인터넷 브라우저로는 접속이 되지 않으며, 추적이 불가능한 익명화 기술이 적용돼 있다는 점에서 기관과 기업들은 물론 많은 수사기관까지 실체를 파악하는 데 어려움을 겪으면서 소위 ‘어둠의 네트워크’라고도 불리고 있다. 이런 점에서 다크웹에서 정확한 출처를 갖거나 증거가 되는 데이터를 얻는 것은 매우 어려운 것으로 알려져 있다.

지난 2018년 카이스트 네트워크 보안 전문 연구진을 주축으로 설립된 S2W는 이러한 다크웹상에서 각종 범죄 데이터를 효과적으로 추출할 수 있도록 훈련한 다크웹 전문 언어 모델 ‘다크버트’를 개발했다는 소식을 최근 알렸다. S2W는 다크웹, 암호화폐에 대한 자체 분석 기술을 보유한 데이터 인텔리전스 기업이다. S2W의 다크버트는 지난 5월 4일 세계적인 자연어처리 학술대회 ACL(Association for Computational Linguistics)에서 연구 성과가 채택되고 논문이 공개되면서 AI 학계의 주목을 받았다.

이번 연구를 주도한 카이스트와 S2W 연구진은 “다크웹을 학습시킨 AI 모델은 전 세계적으로 처음”이라며 “다크웹과 같은 신종 사이버 위협에 대한 효과적인 대응력을 전 세계의 기관과 기업에 보급할 수 있는 계기가 마련된 것이라 기대감이 높다”고 설명했다.

ACL학회에 채택된 다크버트 논문
ACL학회에 채택된 다크버트 논문

범죄 분류·탐지·모니터링과 관련 은어 이해·추론 가능

논문에 따르면 다크버트는 인텔 제온 골드 6348 CPU와 4대의 엔비디아 A100 80GB GPU를 탑재한 시스템을 활용해 훈련됐다. S2W에 따르면 다크버트는 △다크웹상의 범죄/위협 활동에 대한 정확한 분류 △랜섬웨어 및 정보 유출 사이트에 대한 탐지 △사이버 안보나 범죄에 대한 중요한 위협 활동 모니터링 및 탐지 △범죄자와 해커들이 사용하는 은어와 신조어에 대한 높은 이해력과 추론 등 다크웹의 문제점을 해결하는 데 필요한 여러 영역에서 활용될 수 있다.

다크버트의 AI 언어모델 생성과정 및 사어버 보안에서의 활용영역 설명 도표
다크버트의 AI 언어모델 생성과정 및 사어버 보안에서의 활용영역 설명 도표

특히 다크버트는 다크웹 내 콘텐츠 중 위협 수준이 높은 것을 선별할 수 있는 기능을 갖추고 있다. 수많은 다크웹 데이터 중 위협 수준이 극도로 높은 것을 실시간으로 선별하고, 이를 사용자에게 제공할 수 있다. 이러한 점에서 기존 AI 언어 모델에 비해 사이버 범죄에 더 유용하게 활용될 수 있다는 게 S2W 측 설명이다.

‘챗GPT(ChatGPT)’, ‘바드(Bard)’, ‘빙챗(Bing Chat)’ 등으로 대표되는 최근의 생성형 AI 모델들은 사실에 근거한 답변을 주기 위해 최신 데이터에 액세스하는 것과 한편으로 검색엔진과도 결합해 사용되는 추세다. 그러나 이처럼 공개된 범용 언어 모델은 다크웹에 직접 접근이 불가능하며, 다크웹의 복잡한 언어 특성을 잘 이해하도록 학습되지 못했기 때문에 사이버 보안 위협과 관련해서는 정확한 정보를 제공하는 것에 한계가 있다.

S2W는 자체 개발한 다크웹 검색엔진과 다크버트를 결합해 최신 범죄 데이터 중 위협 수준이 높은 것을 실시간으로 선별하고 이를 사용자에게 제공할 수 있도록 했다. 또한 다크버트는 기존의 생성형 AI 모델과 결합·연동하는 형태를 채택, 다크웹을 포함한 사이버 보안에 대한 정보에 대해 부정확한 부분을 보완하면서 사용 가능하다는 강점도 있다. 다크버트는 트랜스포머(Transformer) 구조 기반의 ‘로버타(RoBERTa)’ 모델의 특성을 사용해 문제를 해결한다. 로버타는 구글이 2018년 공개한 자연어 처리(NLP) 모델 ‘버트(BERT)’를 기반으로 메타(Meta, 구 페이스북)의 연구진이 2019년 개발한 모델이다.

다크버트 연구 프로젝트 리더인 S2W AI팀장 정진우 박사는 “로버타 모델은 기본적으로 긴 텍스트에 대한 문맥 이해 능력이 뛰어나, 이를 다크웹에 학습시킬 경우 범죄 관련 신조어가 등장하더라도 어떤 단어인지 추론할 수 있는 특성이 있다. 소위 말해 다크웹에서 뜻을 모르는 단어를 괄호 표시로 대체해 놓고, 문맥상 이 자리에 어떤 범죄에 해당하는 단어가 나타날 수 있는지를 확률적으로 예측해 이것이 범죄 관련 신종 은어임을 밝혀내는 방식으로 작동한다”면서 “현재는 영어 기반으로 학습돼 있으나 한국어 등 다른 언어로 확장이 용이하며, 최근 심각한 문제가 되고 있는 마약 등에도 은어의 탐지와 분류에 효과적으로 적용할 수 있다”고 말했다.

다크버트 논문 교신저자인 KAIST 신승원 교수는 “다크버트는 다크웹 약 6백만 페이지(2.2TB, 테라바이트) 이상에 달하는 정보를 학습했으며, 사이버 위협 시나리오별 테스트를 통해 유출된 정보를 효과적으로 탐지하고 식별하는 훈련을 수행했기 때문에 정확성과 신뢰성이 핵심인 보안 분야에서 사용이 가능한 AI 모델이다”라고 설명했다.

[참고자료]

일반 생성형 AI 모델과 다크버트 비교 테스트 내용

사이버 범죄와 관련한 동일한 질문을 챗GPT, 바드, 그리고 다크버트 기반 문답 시스템에 각각 입력해 봤을 때, 다크버트와의 문답 내용을 비교한 S2W 내부 테스트 버전의 결과를 소개한다.


< 비교 시험 #1 >

[질문내용]

- “최근에 한국에서 일어난 데이터 유출사고에 대해서 알려줘”

- “Recent south Korean data breach incidents”

(왼쪽부터) 바드, 챗GPT, 다크버트 비교 시험 #1 (자료=S2W)
(왼쪽부터) 바드, 챗GPT, 다크버트 비교 시험 #1 (자료=S2W)

[내용설명]

- 바드는 몇 가지 사건을 뉴스 헤드라인 정도의 내용으로 리스트업 해 주고 있음. 실제 발생연도와 맞지 않는 오류 발생. 정확한 정보 습득을 위해서는 내용에 대한 교차검증이 필요.

- 다크버트는 최근의 보안사고에 대해 다크웹 게시물 내용, 다크웹 주소, 유출된 정보 내역 등의 구체적인 정보를 제공.


< 비교 시험 #2 >

[질문내용]

- “4~5월 텔레그램에서 많이 언급된 마약 은어는?”

(왼쪽부터) 바드, 챗GPT, 다크버트 비교 시험 #2 (자료=S2W)
(왼쪽부터) 바드, 챗GPT, 다크버트 비교 시험 #2 (자료=S2W)

[내용설명]

- 바드와 챗GPT의 경우 마약에 대해서는 응답하지 않음.

- 다크버트는 마약 신조어 및 거래에 관련된 문맥을 이해해 결과를 전달.


S2W는 현재 일반에 다크버트를 공개할 계획이 없으며 앞으로도 수사기관, 정부기관 등 사이버범죄 정보를 취급할 수 있는 공익적 기관이 사이버 안보, 학문적 연구, 기업 보안 강화 등의 목적으로만 사용할 수 있도록 한다는 방침이다. 또한 다크버트는 다크웹을 학습한 AI모델이나 다른 채널의 데이터에도 적용이 가능하다.

“한국 사이버 보안 AI 기술에 전 세계 주목”

지금까지 국제적인 해킹 사건이나 다크웹에 기반을 둔 랜섬웨어 조직, 글로벌 마약사이트 등을 추적 및 검거하기 위한 수사는 특정 국가의 소수 전문가 집단에 의해 국한적으로 진행됐다. 그러나 지금과 같은 전 세계적 초연결의 시대에서는 각 국가별로 사이버 안보 역량을 갖춰야 할 필요성이 강조되고 있다. 특히 AI를 활용한 효율적인 사이버 보안 경쟁력 확보는 최근 보안 업계가 공통적으로 관심을 가지고 있는 분야이기도 하다.

지난 3월 미국 바이든 행정부가 발표한 국가 사이버 보안 전략 행정 명령서(FACT SHEET: Biden-Harris Administration Announces National Cybersecurity Strategy)에서도 사이버 범죄에 대응한 미국과 우방국의 보안 역량 강화 방안을 명시하고 있다. 이제 각국의 사이버 안보력과 주요 기관·기업의 사이버 위협 대응 수준은 조직의 경쟁력이자 국력의 기준이 되고 있다. 그만큼 사이버보안의 중요성은 갈수록 커지고 있다.

사이버보안 전략에 대한 바이든 정부의 행정 명령서 (백악관 발표, 2023.3.2)
사이버보안 전략에 대한 바이든 정부의 행정 명령서 (백악관 발표, 2023.3.2)

2023년을 전후로 한층 더 강력해진 사이버 보안에 대한 미국 정부의 노선에 따라, 국내에서도 정부와 민간기업 간 사이버 보안 전력 강화를 위한 협력 사례가 크게 증가하고 있다. 실제로 2022년 11월에 국가정보원, 과학기술정보통신부, 국방부 등이 포함된 정부기관과 안랩, 이스트시큐리티, SK쉴더스, 체이널리시스, 그리고 S2W 등까지를 포함하는 5개 민간 보안 기업이 민관 합동 협력 센터인 ‘국가 사이버 안보 협력센터’를 처음으로 함께 개설하고 사이버 위협 통합 대응에 나서고 있다. 한국뿐 아니라 세계적으로도 새로운 디지털 환경에 부합하는 사이버 보안 대비책에 대한 정부기관 및 기업의 투자와 지출이 늘어날 것으로 예상된다.

이런 측면에서 S2W는 이번 다크버트 개발이 전 세계 최초로 사이버 보안과 관련된 AI 원천 기술을 한국이 리드하는 사례가 될 가능성이 있으며, 한국의 사이버 보안 업계에 수출 활로를 여는 한편, 추가적 원천 기술 개발에 대한 동력이 될 것으로 기대하고 있다고 밝혔다.

S2W 서상덕 대표는 “다크버트는 국경의 경계가 없는 무수히 넓은 위협 공간에서 공격자의 행동을 꼼꼼히 살펴보며 수사와 분석을 돕는 AI다. 이를 위해서는 사이버 범죄에 사용되는 언어를 잘 학습하고 이해하는 것이 기본이다”라면서 “다크버트는 가장 어두운 곳의 정보를 다루지만 밝고 안전한 세계를 지키는 일에 지금까지 출시된 어떤 AI 언어 모델보다 의미 있는 기여를 하게 될 것”이라고 강조했다.


인도네시아 공공기관에 다크웹 보안 솔루션 ‘자비스’ 공급 타진

다크버트 개발 소식을 발표한 S2W는 바로 며칠 뒤 인도네시아 공공기관에 자사의 다크웹 보안 솔루션인 ‘자비스(XARVIS)’를 공급하기로 했다는 소식도 전했다. ‘자비스’는 S2W의 다크버트가 탑재된 사이버 위협 인텔리전스(CTI) 솔루션으로, 최근 다양한 정부 기관과 기업의 큰 주목을 받고 있다.

S2W는 이번 계약을 통해 인도네시아 주요 정부기관에 사이버 보안 솔루션을 제공하고, 인도네시아를 대상으로 하는 사이버 범죄의 예방을 위해 협력할 예정이다.

이번 수출은 다국적 보안 솔루션 공급사인 텐서 시큐리티 아시아 퍼시픽(Tenser Security Asia Pacific)과의 협력을 통해 이룬 성과다. 텐서 시큐리티는 아시아 시장을 중심으로 주로 정부와 공공기관에 보안 솔루션을 공급하는 전문 기업으로, 올해 초 S2W와 파트너십을 맺고 본격적으로 이번 수출 건에 대해 함께 힘써왔다. 양사는 지난 6월 8일 체코 프라하에서 열린 국제보안세미나에서의 계약 체결을 시작으로 아시아 시장 내 S2W 보안 솔루션의 공급 확대를 위해 협력해 나간다는 계획이다.

S2W 서상덕 대표(왼쪽)와 텐서 시큐리티 파리드 알리아스 싱가포르 지사장이 체코 프라하 국제보안세미나 현장에서 ‘자비스’ 공급 계약을 체결하고 기념 사진을 촬영하고 있다.
S2W 서상덕 대표(왼쪽)와 텐서 시큐리티 파리드 알리아스 싱가포르 지사장이 체코 프라하 국제보안세미나 현장에서 ‘자비스’ 공급 계약을 체결하고 기념 사진을 촬영하고 있다.

텐서 시큐리티의 파리드 알리아스(Farid Alias) 싱가포르 지사장은 “S2W의 기술력은 놀라운 수준이며 보유한 솔루션들은 모두 글로벌 경쟁력이 있다. 이번 계약을 시작으로 함께 아시아 시장을 확대해 나갈 예정이다”라고 밝혔다.

S2W 서상덕 대표는 “이번 수출을 시작으로 본격적으로 해외 시장 공략에 나서 한국의 보안 기술력이 세계에서 통한다는 것을 증명하고 싶다. 또한 S2W의 다크웹발 사이버 범죄 방지용 솔루션이 우방의 안보에 기여하도록 노력하겠다”고 말했다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지