티맥스AI 한상도 AI연구소장

티맥스AI 한상도 AI연구소장
티맥스AI 한상도 AI연구소장

[컴퓨터월드] 티맥스에이아이(티맥스AI) 연구소 직원들이 구글이 지난 5월 개최한 캐글(Kaggle) 경진대회에서 상위 5%에 해당하는 우수한 성과를 거뒀다. 청각 장애인의 주변인들이 수화를 빠르고 쉽게 이해할 수 있도록 돕는 팝 사인(PoP Sign)에 탑재되는 인공지능(AI) 예측 모델을 개발하는 대회로 1,165팀 중 28등을 차지하며 티맥스AI의 행동 인식 분야 연구 역량을 입증했다. “이번 경진대회에서 거둔 우수한 성과가 티맥스 그룹이 개발 중인 슈퍼앱의 R&D 역량을 방증한다”고 말한 티맥스AI 한상도 AI연구소장을 만나 구글 캐글 경진대회와 AI 모델 개발 과정을 상세히 들어봤다.


1,165팀 중 28등 차지, 상위 5%

구글 주최로 열리는 캐글 경진대회는 글로벌 기업들이 제시한 해결 과제를 전 세계 개발자들이 공개 경쟁 방식으로 해결책을 내며 승부를 겨루는 대회다. 캐글은 안토니 골드블룸이 2010년 창립한 예측모델 및 분석 대회 플랫폼 운영 기업이다. 캐글에서 운영하는 플랫폼에 기업 및 조직에서 데이터와 해결 과제를 등록하면, 데이터 사이언티스트가 이를 해결하는 모델을 개발하고 경쟁한다.

캐글은 2017년 3월 구글에 인수됐다. 흔히 캐글 경진대회는 AI 개발자라면 누구나 경쟁을 통해 자신의 실력을 검증받고자 하는 가장 큰 무대며, AI 올림픽 또는 AI UFC로도 불린다. 언제나 누구든 이 플랫폼을 통해 캐글 대회를 개최할 수 있다.

2023년 5월 개최된 캐글 경진대회의 주제는 구글 텐서플로우 라이트(TensorFlow Lite) 프레임워크를 이용해 미디어파이프 홀리스틱 솔루션에서 추출된 랜드마크 데이터를 학습시켜 미국 수화(American Sign Language)를 분류하는 것이다. 조지아 공과대학교, 로체스터 공과대학교 국립 청각장애 기술 연구소, 그리고 청각 장애인 전문 예술가 네트워크(Deaf Professional Arts Network)가 협력해 대회 데이터셋을 구축했다.

이번 경연에는 한국, 미국, 일본, 중국 등 세계 각국에서 1,165개의 팀(인원 1,400명)이 참가해 약 3개월 동안 경연을 벌였다. 구체적으로 데이터셋과 연습문제를 부여한 후 각자 AI 모델을 개발한다. 이후 AI 모델에 운영진이 접근할 수 있도록 애플리케이션 프로그래밍 인터페이스(API)를 열고, 모델에 대한 정확도를 평가하는 방식이다. 상위 10개 팀에 금메달이, 상위 5%는 은메달, 상위 10%는 동메달을 수상한다.

티맥스AI에서는 연구본부 연구2실 4팀 윤동주, 정원준 연구원이 한 팀을 이뤄 참가했다. 이번 대회에서 1,165팀 중 28등을 차지했으며, 은메달을 수상했다. 연구원들은 팝 사인이라는 청각 장애인 주변인들이 수화를 빠르고 쉽게 이해할 수 있는 애플리케이션에 탑재될 AI 예측모델을 개발했고, 정확도는 85.8%였다.

다음은 티맥스AI 한상도 연구소장과의 구글 캐글 경진대회 참여 과정에 대한 인터뷰를 일문일답으로 정리한 것이다.

 티맥스AI 한상도 연구소장은 “이번 우리 연구원들의 구글 캐글 경진대회 수상은 티맥스AI의 연구 역량을 잘 보여줄 수 있었던 기회였다. 수화 인식은 행동인식의 하위 범주다. 우리 연구원들이 개발한 AI 모델을 티맥스 그룹이 집중하고 있는 슈퍼앱에도 적용할 수 있을 것으로 예상하고 있다”고 설명했다.
티맥스AI 한상도 연구소장은 “이번 우리 연구원들의 구글 캐글 경진대회 수상은 티맥스AI의 연구 역량을 잘 보여줄 수 있었던 기회였다. 수화 인식은 행동인식의 하위 범주다. 우리 연구원들이 개발한 AI 모델을 티맥스 그룹이 집중하고 있는 슈퍼앱에도 적용할 수 있을 것으로 예상하고 있다”고 설명했다.


“수화에 맞도록 트랜스포머 구조로 가공”

Q. 이번 대회에서 개발한 AI 모델을 소개해달라.
A. 이번 대회의 주제는 청각장애인의 수화를 주변인이 이해할 수 있도록 돕는 애플리케이션에 탑재될 AI 모델을 개발하는 것이다. 수화 동작이 어떠한 의미이며, 얼마나 정확하게 해석할 수 있는지가 중요했다.

티맥스AI 연구원들은 트랜스포머(Transformer) 구조를 이용해 AI 모델을 개발했다. 트랜스포머는 2017년 구글 AI가 발표한 논문인 ‘어텐션 이즈 올 유 니드(Attention is All You Need)’에 소개된 아키텍처다. 어텐션 메커니즘(Attention Mechanism)을 이용해 데이터의 모든 위치를 고려하는 구조다. 인코더와 디코더로 구분돼있는 트랜스포머가 수화데이터를 잘 이해할 수 있도록 변형했다.

구체적으로 수화데이터를 트랜스포머에 입력하는 것(인코더)과 입력된 데이터가 연산과정을 통해 출력된 값(디코더)을 사용자가 이해할 수 있도록 변환하는 것이 핵심이다. 특히 수화데이터를 벡터 값으로 변환하는 인코딩 과정이 가장 핵심이다. 티맥스AI 연구원들은 이번에 의사결정경계(아크페이스)라고 하는 학습법을 적용했다. 이를 통해 AI 모델의 정확도와 성능을 상당히 끌어올렸다.

Q. 결정경계학습법은 무엇인가.
A. 논문에 따르면 특정 분류 알고리즘을 사용해 데이터셋에서 분류기를 훈련하는 동안, 데이터 포인트를 특정 클래스로 구분하는 결정 경계라고 하는 일련의 하이퍼 평면을 정의하는 학습법이라고 나온다.

쉽게 말하면 좌표계에 뿌려진 좌푯값을 구분하는 학습법이다. 일반적으로 AI 모델이 하는 것 중 하나는 데이터를 받아서 숫자 값으로 치환하는 작업이다. 이렇게 바뀐 좌푯값을 좌표계에 뿌리게 되면 군집이 생긴다. 가령 손을 좌우로 돌리는 행위라든가, 손을 위아래로 휘젓는 행위라든가 각 행동에 따라 좌푯값들이 그래프에 군집되는 형태로 나타난다. 좌우로 돌리는 모양의 경우 A라는 좌푯값 근처로 군집되고, 위아래로 휘젓는 동작은 B라는 좌푯값에 군집될 수 있다. 이를 분류하는 학습법이다.

Q. 준비하는 과정에서 기술적으로 어려웠던 점과 해결 방안은.
A. 수화데이터는 많이 접해본 데이터 형태가 아니었다. 주로 영상과 사진데이터를 많이 접한다. 하지만 수화데이터는 고정된 사람이 손만 움직인 상태에서 직선으로 가공(스켈레톤, 관절 좌표 데이터) 데이터를 확보하는 형태다. 이번에는 영상으로 데이터를 받았는데 영상에 스켈레톤 좌표 값과 손가락에 대한 수치 값을 부여받았다.

데이터에 노이즈가 많이 들어있어 처리하기가 상당히 까다로웠다. 데이터가 특정 노이즈에 치우치지 않게 적절히 분절하는 과정이 필요한데, 이 부분이 쉽지 않았다. 이번 데이터셋은 시간에 따라 연속된 사람의 관절 좌표 데이터였다. 그리고 이 관절 좌표는 센서를 통해 측정된 값이 아닌 미디어파이프라는 행동 평가(Pose Estimation) 모델의 추론값이다. 시퀀스 중간에 좌표가 유실되거나 부정확하게 예측되는 등 노이즈가 많은 데이터였다.

이렇게 노이즈가 많은 데이터에서는 AI 모델이 데이터에 너무 맞춰져 새로운 데이터에 대한 예측 성능이 저하되는 현상인 과적합(Overfitting)을 유의해야 한다. 보통 교차검증(Cross-Validation)을 통해 성능을 확인한다. 또한 정확한 교차검증 성능을 얻기 위해서는 학습 데이터를 편향되지 않게 폴드(Fold)를 잘 나눠야 한다. 하지만 데이터 자체 노이즈가 많아 이 부분이 까다로웠다.

우리는 과적합을 막기 위해 데이터 관점과 모델 관점에서 접근했다. 데이터 관점에서는 특정 인물에 과적합이 되지 않게 폴드를 구성하고 다양한 데이터 증강 방법들을 시도했다. 데이터 증강 방법들로는 △좌우 반전 △깍는 작업(Shear), △회전(Rotation) 등 기본적인 방법부터 △수화를 촬영하는 사람들의 몸집을 다양하게 스케일링(Scaling)하는 방식 △왼손(오른)잡이인 사람을 오른(왼)손잡이로 바꾸기 △프레임 추가·삽입(Frame Interpolation) 등의 방법을 시도했다.

다음으로 모델 관점에서는 모델의 성능을 높이기 위해 데이터 증강 기법과 모델 일반화 기법을 다양하게 적용했다. 레귤러라이저(Regularizer)를 다양하고 강하게 부여했다. 레귤러라이저로는 드롭아웃 레이트(Dropout Rate)를 매우 크게 설정했고, 라벨 스무딩(Label Smoothing), L2 레귤러라이저(L2 Regularizer), 아크페이스 로스(Arcface loss)를 사용했다.

Q. 아쉬웠던 점은.
A. 기술적으로 아쉬웠던 점은 시간 분배를 제대로 하지 못했다는 점이다. 이번 대회에서 AI 모델을 개발할 때 통상 데이터를 어떻게 가공할지에 대한 부분과 모델을 어떻게 고도화할지에 대한 부분 등 2가지 관점이 있었다.

이번 대회에서는 데이터를 어떻게 가공할지에 많은 시간을 할애했다. 수화 데이터에 익숙지 않기 때문에 이 작업에 많은 시간을 투입했다. 때문에 모델을 고도화하는 작업에 많은 신경을 쓰지 못했다. 8(데이터 가공):2(모델 고도화) 비율로 시간을 할애했다. 모델 고도화에도 시간을 더 할애했다면 AI 모델 정확도가 더 높았을 것으로 예상한다. 이 부분이 아쉬운 것 같다.


“티맥스AI 연구 역량 증명”

Q. 티맥스AI 연구소 직원들은 어떻게 구성돼있는가.
A. 연구소에는 총 88명이 근무하고 있다. 직원들의 직무는 크게 UI·UX 디자이너, 프론트엔드, 백엔드, AI 모델 개발자 등 4가지로 구분된다. 이 중에서도 티맥스AI 연구소의 핵심은 AI 모델 개발자다.

네이버, 카카오, 삼성SDS 등 대기업·빅테크를 제외하고 중견기업 이하에서 AI 모델 개발자 30명을 보유하고 있는 기업은 없을 것이다. 현재 AI 모델 개발자들은 자연어 처리를 활용한 자연어 인터페이스 서비스, 음성인식, 비전 AI 등 3가지 분야에 주력하고 있다.

Q. 대회에 티맥스AI 연구원이 자발적으로 참여했다는데, 회사의 문화는 어떠한가.
A. 티맥스AI 연구소는 연구원들의 직무를 본업과 부업으로 구분하고 있다. 본업은 각 직책에 따라 정해진 일을 수행하는 것이며, 부업은 다양한 경험을 할 수 있는 활동을 의미한다. 부업은 강제가 아니다.

데이터를 다루는 연구원이 기술과 관련해 다양한 경험을 할 수 있도록 권장하고 있다. 현재 티맥스AI의 연구원들은 대부분 자발적으로 참여하고자 하는 문화가 짙다. 여기에는 자유로운 사내 문화가 한몫하는 것 같다. 본업만 제대로 해준다면 일에 절대 개입하지 않는다. 출퇴근 시간도 자유롭다. 이러한 자유로운 문화가 연구원들의 다양한 대회 참여, 아이디어, 성과 도출로 이어지는 것 같다. 실제로 티맥스AI 연구소 직원들은 일을 스스로 찾아서 하며, 성과를 내고자 하는 열망이 강해 최신 기술도 빠르게 파악하고 적용해보고자 하는 의지도 강하다.

복지 역시 탄탄하다. 자유로운 출퇴근 시간과 함께 연구원에게는 1인 1실을 제공하고 있다. 실제로 2020~2022년까지 빅테크 기업을 중심으로 기술 인력 이탈이 이슈였다. 하지만 티맥스AI는 퇴직자가 거의 없었다. 이직률이 높지 않다는 것은 연구원들이 근무하는 것에 대해 높은 만족감과 성취도를 느끼고 있다는 의미이기도 하다.

Q. 회사 차원에서 이번 대회 성과가 고무적일텐데. 이번 대회가 주는 의미는.
A. 이번 구글 캐글 경진대회에서 우수한 성과를 거둔 것에 대해 회사 차원에서는 슈퍼앱의 성능을 자신할 수 있는 계기가 될 것으로 바라보고 있다. 현재 티맥스 그룹 전사 차원에서 서비스형 인프라(IaaS), 서비스형 플랫폼(PaaS), 서비스형 소프트웨어(SaaS)를 통합한 노코드 개발 플랫폼인 슈퍼앱을 개발하고 있다.

시스템 플랫폼은 ‘슈퍼 클라우드’, ‘슈퍼 OS’, ‘슈퍼 프레임’, ‘슈퍼 티베로’ 등으로 구성돼있고, 그 위에는 A&C 플랫폼이 올라간다. A&C 플랫폼에는 ‘WAPL 플랫폼’, ‘슈퍼 UX’가 탑재된다. 특히 WAPL 플랫폼 위에 AI 모델, 메타버스가, 슈퍼 UX에는 빅데이터 솔루션이 탑재된다. 마지막으로 최상단 앱 플랫폼에는 금융, 교육, 커머스, 전문가, 게임, ERP, CRM, DOC 등 특정 가상화된 애플리케이션이 구동된다.

이번 연구2실 4팀 윤동주, 정원준 연구원이 우수한 성과를 냈다는 점은 회사의 AI 연구 역량의 수준이 높다는 것을 의미한다. 이 두 연구원 못지 않게 우리 연구원들의 기술력도 상당히 높다. 많은 사람들이 티맥스가 공개할 슈퍼앱에 큰 기대를 걸고 있다고 생각한다. 이 같은 기대에 보답할 수 있는 우수한 플랫폼을 출시할 수 있도록 총력을 기울이겠다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지