데이터 중요성 비례해 품질도 향상돼야
명세서 현행화 및 시스템 개선 기회 제공

[컴퓨터월드] 데이터 품질은 AI 성능을 결정하는 핵심 요소 중 하나다. 좋은 AI 모델을 도입한다 해도 데이터 품질에 문제가 있다면 원하는 결과를 얻기 어렵다. 하지만 AI에 비해 데이터는 그 중요성을 충분히 인정받지 못하는 실정이다. 이에 정부는 기업들의 데이터 품질을 향상하고 관련 산업을 활성화하기 위해 지난해부터 데이터 품질인증 제도 확산에 적극 나서고 있다.

(사진=픽사베이)
(사진=픽사베이)

AI 발전과 더불어 중요해진 데이터

머신러닝에서부터 생성형 AI에 이르는 수많은 AI 기술, 그 밑바탕에는 데이터가 있다. 머신러닝은 특정 모델 또는 추출 방법으로 컴퓨터가 주어진 데이터를 학습해 추론 결과를 만드는 기술이다. 생성형 AI는 텍스트, 이미지 등을 생성한다는 점에서 차이가 있으나, 많은 데이터를 학습하는 구조는 머신러닝과 유사하다.

얼마나 좋은 데이터를 학습하느냐는 AI 성능을 가르는 중요한 지점이다. 그 때문에 개발사들은 품질 높은 데이터를 확보하기 위해 노력하고 있다. 머신러닝 개발이 활발하던 시기에는 데이터에 세부 정보를 입력하는 ‘라벨링(Labeling)’으로 데이터 품질을 개선했다. 라벨링은 가공되지 않은 이미지, 텍스트 등에 정보를 붙임으로써 모델이 학습할 수 있는 맥락(Context)을 제공하는 기술이다. 이를 바탕으로 머신러닝 모델은 보다 정확한 예측을 제공할 수 있다.

생성형 AI 중 하나인 거대언어모델(LLM)을 개발하는 기업의 상황 역시 크게 다르지 않다. 다만 천문학적 규모의 데이터를 신경망으로 학습하는 LLM은 라벨링 작업이 머신러닝보다 상대적으로 덜 중요하다. 대신 기본 모델(파운데이션 모델)을 높은 성능으로 개발하기 위해 전문 서적, 신문 등 유용한 정보를 담은 자료를 확보해야 할 필요성이 높다. AI 기술 유행은 달라졌으나 데이터의 중요성은 여전한 셈이다.


부족한 관리 역량…내부 상황 파악 못 한 기업도

품질 높은 데이터는 AI 도입을 원하는 기업에도 필요하다. 기본 AI 모델은 다양한 목적에 두루 쓰일 수 있는 ‘범용’으로 만들어지기에, 그대로 가져와 사용하는 경우 기업이 원하는 결과를 거두기 어렵다. 따라서 기업은 개발사와 협력해 내부 데이터를 활용해 분야, 환경 등에 적합한 형태로 ‘미세조정(파인튜닝)’하는 과정을 거쳐야 한다. 이 미세조정 작업 역시 좋은 데이터가 뒷받침돼야 완성도를 높일 수 있다.

현시점 데이터는 그 중요성에 비해 충분한 조명을 받지 못하고 있다. 많은 기업이 눈에 불을 켜고 뛰어난 AI 모델을 찾아다니지만, 정작 내부 데이터 상황은 파악하지 못한 경우가 많다. 한 업계 관계자는 “과거에 비해 데이터 구조 변경 등이 쉬워짐에 따라, 데이터 명세서나 개체-관계 모델(ERD) 등을 관리하기가 까다로워졌다. 기업을 만나보면 데이터 명세서를 아예 보유하고 있지 않거나, 초기 버전에서 변경되지 않고 유명무실한 상태로 유지하는 곳도 많다”고 말했다.

이뿐 아니라 보유한 데이터가 다양해지며 품질 관리도 어려워졌다. AI 학습에는 정형 데이터와 더불어 이미지, 동영상, 텍스트 등 비정형 데이터까지 요구된다. 이에 따라 기업이 확보해야 하는 데이터 종류가 늘어났다. 특히 비정형 데이터는 테이블의 행과 열 같은 정해진 구조가 없어 전처리 과정이 필요한 등 정형 데이터보다 관리가 어렵다. 품질 관리 방안도 데이터 종류마다 제각기 다를 수밖에 없는데, 그 모두를 아우르는 역량을 갖춘 기업은 많지 않은 상황이다.


정부, 데이터 산업 육성 위해 품질인증 마련

정부는 AI 기술 발전 등으로 중요도가 높아진 데이터 산업을 육성하고자 지난 2022년 4월 ‘데이터 산업진흥 및 이용촉진에 관한 기본법(이하 데이터산업법)’을 시행했다. 데이터산업법은 정책 추진 체계를 구축하고 가치평가, 품질인증, 데이터거래사 등의 신규 제도를 마련하는 등 산업 활성화를 위한 기반 수립을 골자로 하고 있다.

과학기술정보통신부는 지난해 4월 시행령 제20조(데이터 품질관리 등)에 근거해 관련 지침을 마련하고 품질인증기관을 공모했다. 정책, 법률, 기술 분야 등 전문가들로 구성된 자문단이 서류를 검토하고 수행 계획 등을 평가했다. 이에 따라 같은해 7월 와이즈스톤, 씨에이에스, 한국정보통신기술협회(TTA) 등 총 3곳을 데이터 품질인증기관으로 선정했다.

인증 기관은 ISO(국제표준화기구)/IEC(국제전기기술위원회) 표준에 근거, 과기정통부 지침과 국내 기관 가이드라인 등을 바탕으로 심사 방법을 수립해 지난해 11월부터 품질인증을 시작했다. 인증 대상은 데이터 내용(정형, 비정형)과 관리체계로 구성되며, 데이터 품질 점수에 따라 A, B, C 등 3개 등급으로 분류된다.

와이즈스톤이 에이아이매틱스의 ‘글로벌 실 도로 주행 영상 데이터’에 비정형 데이터 품질인증 A등급을 수여했다. (사진=와이즈스톤)
와이즈스톤이 에이아이매틱스의 ‘글로벌 실 도로 주행 영상 데이터’에 비정형 데이터 품질인증 A등급을 수여했다. (사진=와이즈스톤)

특히 과기정통부는 올해 7월, 인증 대상을 기존 정형 데이터에서 비정형 데이터까지 확대했다. 전 분야에 걸쳐 AI 기술이 보편화함에 따라 데이터 품질에 대한 산업 내 다양한 요구에 대응한다는 계획이었다.

그 결과, 지난 9월 와이즈스톤이 에이아이매틱스의 ‘글로벌 실 도로 주행 영상 데이터’에 비정형 데이터 품질인증 최고 등급인 A등급을 수여하는 첫 사례를 만들었다. A등급은 필수 심사 항목과 3개 이상의 선택 심사 항목에서 개별 최소 점수 0.95 이상 평균 점수 0.99 이상을 기록해야 받을 수 있는 등급이다.


데이터 품질 향상 위한 오류 점검, 컨설팅 지원

데이터 품질인증으로 기업들은 현재 관리 상황을 점검하는 동시에 오류 보완 등으로 품질을 높이는 기회를 얻는다. 우선, 기업은 인증 과정에서 데이터 명세서를 생성하거나 현행화한다. 이후 해당 명세를 기준으로 실제 데이터 품질을 심사해 오류를 수정하는 과정을 거친다. 오류 보고 및 품질 향상 컨설팅을 통해 최종 개선된 결과로 인증을 결정하는 만큼, 기업이 데이터 관리 기반을 마련하는 첫 단계로도 적합하다.

비정형 데이터는 품질인증을 통한 점검이 더 효과적이다. 비정형 데이터는 크게 이미지, 텍스트, 동영상 등 객체와 이를 설명하는 메타데이터로 구성된다. 학습데이터의 경우, 객체에 담긴 의미를 풀어내기 위한 라벨링 정보도 포함된다. 품질인증은 이 같은 비정형 데이터의 구성 요소 전반을 점검한다.

와이즈스톤 ICT시험인증연구소 고재정 센터장은 “비정형 데이터는 객체, 메타데이터, 라벨링 데이터 등을 모두 살펴본다. 객체는 이미지, 동영상 등 파일이 실제로 열리는지 프로그램 등을 활용해 검사한다. 메타데이터는 객체와 맞는 내용이 담겼는지 점검한다. 가령 사진이라면 해상도 정보가 데이터에 빠져서는 안 된다. 이러한 필수 기준을 준수했는지 심사한다”고 설명했다.

이어 고재정 센터장은 “라벨링 데이터는 설명이 정확하게 담겼는지 점검한다. 동영상은 내용 설명이 영상과 일치하는지 확인하고, 이미지는 바운딩 박스(Bounding Box) 등 요소가 제대로 돼 있는지 살펴본다. 다만 라벨링 데이터는 사람이 직접 눈으로 봐야 하는 경우가 많아 까다롭고 오랜 시간이 소요된다. 기업에서 이를 일일이 검사하기란 어렵기에 인증기관의 도움이 필요하다”고 강조했다.


지원사업으로 낮아진 문턱…“제도 활성화 기대”

과기정통부는 데이터를 생산·유통·활용 중인 중소기업이 품질인증에 적극 참여할 수 있도록 지원사업을 운영하고 있다. 해당 사업은 올해 1, 2차로 두 차례에 걸쳐 진행되며, 총 67개사가 최대 1,150만 원까지 품질인증 비용을 지원받는다. 올해 4~5월간 진행된 1차 사업에서는 10개 기업을 선정했으며, 2차 사업은 지난 6월부터 예산 소진 시까지 57개 기업에 인증 비용을 제공한다.

신청을 원하는 기업은 한국데이터산업진흥원(K-DATA)에 서류와 사업 수행 계획서를 제출하면 사업성 평가를 받게 된다. 데이터 기반 사업 우수성, 지원 필요성 등을 점검 후 지원기업 선정이 이뤄지며 기업, 인증기관, K-DATA 간 3자 협약을 통해 사업이 확정된다.

와이즈스톤 고재정 센터장은 “지원사업을 통해 내부 데이터를 점검하고 품질을 높임과 동시에 인증서까지 취득할 수 있는 좋은 기회”라고 평가하며 “정부에서 장기적 계획을 세우고 제도 활성화를 고민하는 만큼 향후 다양한 혜택도 제공될 것으로 기대한다. 인증기관에서도 저변 확대를 위해 힘쓰겠다”고 말했다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지