[데이터 구축‧개방‧활용] 데이터 구축-유통-활용 전 과정에 하이패스 뚫는다

[컴퓨터월드] 지난해 1월 시작된 코로나19(COVID-19) 팬데믹으로 인해 전 세계는 격변의 소용돌이에 휘말렸다. 각국의 봉쇄조치 등으로 인해 세계 경제는 심각한 충격을 받았으며, 경제 및 사회적 구조도 빠르게 변화하고 있다. 전 세계는 코로나19가 불러온 ‘뉴노멀(New Normal)’ 시대를 대비하기 위해 지금까지 동분서주하고 있다.

이에 지난해 7월 우리 정부는 코로나19가 불러온 경제위기를 극복하고, 더 나아가 새로운 미래를 설계하기 위해 ‘한국판 뉴딜 종합계획’을 발표했다. 특히 한국판 뉴딜은 경제 전반의 디지털 혁신과 역동성을 확산하기 위한 ‘디지털 뉴딜’이 중요한 한 축을 담당하고 있다.

‘디지털 뉴딜’은 우리나라가 강점을 갖고 있는 정보통신(ICT) 산업을 기반으로 데이터 경제를 활성화시키기 위한 전략이다. 데이터의 활용도를 높여 전 산업의 생산성을 비약적으로 높일 수 있도록 관련 인프라를 빠르게 구축한다는 계획이다. 디지털 뉴딜 정책에는 ▲D·N·A(Data, Network, AI) 생태계 강화 ▲교육인프라 디지털 전환 ▲비대면 산업 육성 ▲사회간접자본(SOC) 디지털화 등의 목표가 담겨 있다.

이제 2021년 7월, 정책 발표 이후 1년이 지났다. 그동안 ‘디지털 뉴딜’과 관련해 많은 내용이 발표됐다. 정부의 빠른 지원에 힘입어 본격적으로 사업이 추진된 분야도 있으며, 아직 세부 정책을 설정하는 단계에 머문 분야도 있었다. 1주년을 맞이한 디지털 뉴딜 정책을 점검해본다. 

디지털 뉴딜의 핵심은 데이터 준비

최근 몇 년 사이 많은 국내 기업들은 데이터 혹은 AI 기반 서비스를 구축하기 위해 노력하고 있다. AI가 실제 비즈니스에 가져다주는 효과가 가시적으로 드러나면서 관련 기술 확보에 대한 관심도 뜨겁다. 우수한 AI를 개발하기 위해서는 정확한 데이터와 우수한 알고리즘 모델이 모두 필요하다. 하지만 많은 기업들이 AI 개발을 위한 데이터 확보에 난항을 겪고 있다. 실제 AI 서비스 개발 프로젝트에서는 데이터를 수집하고 가공해 AI 학습에 사용할 수 있도록 준비하는 과정에 대부분의 시간이 소요된다.

가장 큰 문제는 AI 학습용 데이터를 구축하는 작업을 한 기업이 감당하기에는 부담스럽다는 점이다. AI 모델을 학습시키기 위해서는 최소한 수십만 건의 데이터를 확보해야 하는데, 성공할지 어떨지 확신할 수 없는 신규 서비스 하나를 개발하기 위해 막대한 시간과 비용을 투자하는 것은 선뜻 결정짓기 어려운 문제다.

이에 정부는 디지털 뉴딜 정책의 핵심 과제로 양질의 AI 학습용 데이터 확보를 선포했다. 데이터 활용 수요가 높은 분야에 정부 예산을 투입해 양질의 데이터를 선제적으로 구축하고, 이를 기업들이 손쉽게 활용할 수 있도록 제공함으로써 혁신적인 AI 서비스를 출시할 수 있도록 돕겠다는 취지다. 정부는 해당 사업에 지난해에만 추경 예산을 포함해 2,925억 원의 예산을 투입했으며, 향후 2025년까지 약 2조 5,000억 원의 예산을 순차적으로 투입할 계획이다.

이에 대한 업계의 반응은 가히 폭발적이어서, 지난해 하반기에 추진된 사업자 공모에 1,900개 이상의 기업‧기관이 지원했다. 특히 직접적인 IT 분야 이외에도 제조, 농‧축‧수산, 교통‧물류 등 전통적인 산업분야에서도 많은 기업들이 참가했다. 최종적으로 데이터 구축에는 국내 주요 AI·데이터 전문기업, 서울대‧한국과기원 등 48개 주요 대학, 서울대병원‧아산병원 등 25개 병원을 포함한 총 674개 기업·기관이 참여했다.

데이터 확보와 준비가 AI 프로젝트의 대부분을 차지한다. (출처: NIA)
데이터 확보와 준비가 AI 프로젝트의 대부분을 차지한다. (출처: NIA)

수요자 중심의 맞춤형 데이터 구축

특히 새로운 AI 학습용 데이터 구축사업은 그동안 산발적으로 추진된 각 산업계의 데이터 구축사업을 통합하고 문제점을 개선했다는 점에서 의미가 크다. 지난 2017년부터 정부는 AI 산업 활성화를 위해 데이터가 필요하다는 점을 인식하고, 다양한 방면에서 대규모 데이터 구축사업을 추진해왔다. 공공기관이 보유하고 있는 데이터를 선제적으로 공개하고, 다수의 기업‧기관들이 보유한 데이터를 수집해 공유할 수 있는 플랫폼을 마련해왔다. 하지만 명확한 가이드라인 없이 산발적으로 프로젝트가 추진돼 데이터 간의 불균형이나 편향성 문제가 발생했고, 실제 활용을 염두에 두지 않고 양적인 확장에만 힘을 쏟다보니 정합성이 떨어지기도 했다. 이렇다보니 기껏 만들어놓은 데이터셋이 활용되지 못하는 결과가 일어났다.

지난해부터 추진된 새로운 AI 학습용 데이터 구축사업은 이러한 문제를 인지하고 개선하기 위한 시도가 더해졌다. 이전에 추진했던 사업들의 성과와 실책, 각 산업 분야와 데이터의 성질을 고려해 최적화된 데이터 구축 방법론을 체계화하고 적용했다. 가장 중요한 변화는 공급자를 중심으로 데이터의 양적 확장을 도모하는 것이 아닌, 데이터의 실제 활용을 염두에 두고 수요자가 원하는 데이터를 제공하는 것에 초점을 맞췄다는 점이다.

이를 위해 정부는 데이터 구축 사업의 라벨링 프로세스를 개선했다. 데이터 라벨링 업무는 복잡하고 어렵지는 않지만, AI 학습용 데이터를 구축할 때 가장 많은 시간과 비용이 소요되는 업무다. 산업 분야별로 차이는 있겠으나 대체로 전체 시간과 비용의 60~80%는 데이터의 수집과 라벨링 작업에 소요된다. 만약 수요자가 처음부터 라벨링이 완료된 데이터를 확보할 수 있다면 AI 서비스 개발에 소요되는 시간과 비용을 크게 줄일 수 있을 것이다. 이를 위해 사업 전체에 적용되는 데이터 라벨링 가이드라인을 마련하고, 각 데이터의 성질과 목적에 따라 필요한 라벨링 품질과 양을 구분함으로써 효율적인 라벨링 데이터 생산이 가능하도록 했다. 자동화된 라벨링 도구를 도입해 생산성 또한 높였으며, 라벨링 업무의 기술적 난이도가 높지 않고 단순반복적이라는 점을 고려해 경력단절여성이나 취업준비청년 등 누구나 참여할 수 있는 크라우드소싱 방식을 적극적으로 활용해 약 4만여 명의 국민 참여를 이끌어냈다.

학습용 데이터의 품질과 활용성을 검증하고 관리하는 과정에도 분야별 전문가와 전문기관, 활용기업 등이 힘을 모았다. 8대 분야 산·학·연 전문가 80여명이 참여하는 품질자문위원회를 운영해 전문적인 품질관리 지원체계를 구축했고, 주요 대기업과 스타트업, 대학 및 연구기관 등 20여 개 기업·기관이 참여해 데이터 활용성 검토를 진행했다. 품질관리 전문기관인 한국정보통신기술협회(TTA) 및 전문기업 등과 협력해 고품질의 데이터를 안전하게 활용하도록 데이터 품질관리 수준을 대폭 강화해왔다.

이렇게 구축한 데이터를 손쉽게 활용할 수 있는 수단도 마련했다. 가령 AI 학습용 데이터를 개별 컴퓨팅 환경으로 다운받지 않고 클라우드 상에서 활용할 수 있도록 지원하거나, 수요자의 개발 환경이나 깃허브(Github)와 연동하는 등이다. 이를 위해 과학기술정보통신부(이하 과기정통부)와 한국지능정보사회진흥원(이하 NIA)이 운영하고 있는 AI 허브(AI Hub) 플랫폼을 통해 새롭게 구축한 AI 학습용 데이터를 개방한다.


AI 허브로 데이터 개방 가속화

AI 허브는 지난 2017년부터 기업이나 개인이 구축하기 어려운 21종의 AI 학습용 데이터를 구축하고 개방해왔다. 지난 2019년까지는 이용자가 5,000명 미만에 머물렀으나, AI 학습용 데이터 구축사업을 통해 지속적으로 제공하는 데이터의 양과 질이 향상되고 기업들 간에 입소문을 타면서 지난해에는 13,000여 명으로 크게 늘었다. 누적 데이터 활용 사례 역시 2019년 대비 3배 이상인 49,085회로 확대됐다.

이러한 추세를 가속화하기 위해, 지난 6월 과기정통부는 그동안 AI 학습용 데이터 구축사업으로 마련한 4억 8천만 건의 데이터를 추가로 공개했다. 해당 데이터는 ▲음성·자연어(한국어 방언 등 39종) ▲헬스케어(암진단 영상 등 32종) ▲자율주행(도로주행영상 등 21종) ▲비전(스포츠 동작 영상 등 15종) ▲국토환경(산림수종 이미지 등 12종) ▲농‧축‧수산(가축행동 영상 등 14종) ▲안전(노후 시설물 이미지 등 19종) ▲기타(패션상품 이미지 등 18종) 등 8대 분야 170종으로 구성됐다.

이번에 공개된 데이터는 민간의 활용 가능성이 높고 산업계의 파급 효과가 큰 분야를 우선적으로 구축했다. 특히 해외에서 구축한 데이터셋으로는 대체가 불가능했던 한국어 데이터, 국내 도로환경 데이터, 농‧축‧수산 데이터 등을 제공해 의미가 남다르다. 예를 들어 한국어 방언 데이터의 경우, 데이터 개방 전 활용성 검토 단계에서 기존 서비스의 음성 인식률을 12% 향상시키는 결과를 만들어내기도 했다. 또한 헬스케어 등 개인정보 및 민감정보가 포함될 우려가 있는 분야는 민간에서 데이터 구축‧활용이 어렵다는 점을 고려해, 구축 이후에 추가적인 검증을 실시해 법적 안전성이 확보된 59종의 데이터를 이번 데이터 공개에 포함시켰다.


2025년까지 1300여 종 데이터 추가 공개

지난해 사업 계획에 따르면 향후 학습용 데이터 구축사업을 통해 개방될 데이터는 2025년까지 1,300여 종에 달한다. 지난해 12월에는 음성‧자연어, 컴퓨터 비전, 헬스케어, 농‧축‧수산, 교통, 재난‧안전‧환경 등 6개 분야에서 200여 종의 과제를 발굴했으며, 지난 1월에는 제조‧금융‧교육 등 전략분야를 포함한 7개 분야에서 110개의 과제 후보안을 추가로 공개했다.

이에 과기정통부는 향후 AI 학습용 데이터 구축사업으로 마련한 데이터들이 다양한 산업분야에서 활용되고 성과를 올릴 수 있도록 ‘AI 데이터 활용협의회’를 마련했다. 협의회는 이번에 공개한 170종 데이터의 활용성 검토에 참여한 기업‧기관을 중심으로 구성됐다. AI 허브로 공개되는 데이터를 적극 활용하고 성과를 공유하는 한편, 지속적으로 데이터 품질 제고와 개선을 위해 협력한다는 계획이다.

AI허브 중심의 데이터 집중 개선 프로세스 (출처: 과기정통부)
AI허브 중심의 데이터 집중 개선 프로세스 (출처: 과기정통부)

한편 NIA는 AI 학습용 데이터의 대규모 개방에 발맞춰 AI 허브의 활용 환경을 개선했다. 본인 인증 한 번으로 데이터에 대한 접근 및 활용이 가능하도록 회원가입 시스템을 개선하고, 직관적인 데이터 탐색을 위해 UI/UX도 개선했다. 하반기에는 원하는 데이터를 한결 쉽게 찾을 수 있도록 검색 체계를 과제명 중심에서 사물·객체 중심으로 개편할 계획이다. 이외에도 의견수렴을 위한 온라인 창구를 개설하거나 TTA 및 KISA와 협력해 이용자 의견에 신속하게 대응하기 위한 TF를 마련하는 등, 지속적인 AI 허브 개선에 힘을 쏟는다.


‘데이터 고속도로’ 뚫는 빅데이터 플랫폼 구축

AI 학습용 구축사업이 직접적인 지원으로 국내의 데이터를 양적으로 확대하기 위함이라면, 한편에서는 축적한 데이터를 공유하고 확산시키기 위한 플랫폼 전략도 추진돼왔다. 과기정통부와 NIA가 주도해 지난 2019년부터 추진한 ‘빅데이터 플랫폼 및 센터 구축사업’이 그것이다. 다양한 산업 분야에서 이미 구축돼 있는 양질의 데이터를 생산 및 유통할 수 있는 체계를 만들어 문재인 정부가 제시한 ‘데이터 고속도로’를 만들기 위함이다.

그동안 국내 기업들은 각자 독자적으로 데이터를 수집 및 구축해 활용해왔다. 양질의 데이터를 독점적으로 확보하는 것은 기업의 경쟁력에 직결되므로, 이를 다른 기업이나 기관들과 공유할 이유가 없기 때문이다. 빅데이터 플랫폼 사업은 이렇게 기업들이 숨기고 있는 데이터들을 밖으로 끄집어내어 서로 공유함으로써 데이터의 활용성을 높이기 위해 마련됐다. 기업들이 당장의 데이터 공개에 부담을 느낄지라도, 장기적으로는 다른 기업들이 공개한 데이터와 자신들의 데이터를 결합해 더 큰 이익을 낼 수 있다는 확신을 심어주는 게 관건이었다.

처음 사업이 시작된 2019년에는 ▲금융 ▲환경 ▲문화 ▲교통 ▲헬스케어 ▲유통·소비 ▲통신 ▲중소기업 ▲지역경제 ▲산림 등 10개 분야가 선정됐다. 10개 핵심 플랫폼에서 각 산업별 특징을 살린 데이터들을 결합해 시너지를 일으키고, 이렇게 결합된 데이터들을 플랫폼 간의 유기적인 소통으로 다시 결합시켜 다른 곳에서는 찾아볼 수 없는 가치를 가진 데이터들을 생산하겠다는 목표다. 여기에 다시 2020년에는 ▲농식품 ▲디지털 산업혁신 ▲라이프로그 ▲소방안전 ▲스마트치안 ▲해양수산 등 6개 분야가 추가돼, 현재는 총 16개 분야별 빅데이터 플랫폼이 구축돼 운영 중에 있다.

특히 공공과 민간이 보유한 데이터 간에 시너지를 일으키기 위해, 각각의 플랫폼 구축은 해당 분야에서 양질의 데이터를 보유하고 있다고 판단된 기업들과 이를 적절히 활용할 수 있는 기술력을 갖춘 기업, 그리고 이를 지원할 수 있는 공공기관들이 컨소시엄을 구성해 추진했다. 가령 최초 10개 플랫폼 중 가장 높은 점수를 획득한 ‘문화체육관광 빅데이터 플랫폼’의 경우, 한국문화정보원을 중심으로 22개 기업·기관이 컨소시엄을 구성해 참여했다.


플랫폼 자생이 목표…데이터 지도로 성과 높여

사업 1차 년도인 2019년에는 10개 플랫폼의 인프라 구축에 힘을 쏟았다. 3월부터 사업 공모를 실시해 10개 분야에서 44개 빅데이터 과제를 접수했으며, 하반기부터는 본격적인 플랫폼 및 센터 구축을 추진해 기반을 다졌다. 이어 사업 2차 년도인 2020년에는 기존에 마련한 플랫폼과 센터들이 정상 작동할 수 있도록 체재를 가다듬는 한편, 활용 가능성이 높을 것으로 예상되는 6개 분야를 새롭게 선정해 플랫폼 구축에 들어갔다.

데이터 지도에서는 빅데이터 플랫폼 및 센터의 데이터 현황을 한 눈에 확인할 수 있다.

특히 지난해에는 플랫폼 상 데이터의 활용 가능성과 접근성을 높이기 위한 시도가 이어졌다. 플랫폼 상에 데이터를 모으더라도 접근성이 떨어지면 의미가 없다. 수요자가 손쉽게 플랫폼에 접근하고 구축된 데이터를 구매하는 한편, 이를 통해 성과를 거두고 시너지를 창출할 수 있어야 지속적으로 수요가 이어질 수 있다. 이는 빅데이터 플랫폼 구축사업의 최종 목표가 민간 수요를 통해 플랫폼이 자생할 수 있도록 만드는 것이기 때문에 더욱 중요하다.

이에 과기정통부와 NIA는 빅데이터 플랫폼의 데이터 현황을 한 눈에 확인할 수 있는 ‘빅데이터 플랫폼 통합 데이터 지도(이하 데이터 지도)’ 서비스를 출시했다. 데이터 지도 서비스는 빅데이터 플랫폼들이 생산‧공개하는 데이터들을 분야별‧유형별‧주제별‧지역별로 구분해 시각화한 통계 정보를 제공한다. 또한 시맨틱 검색을 통해 이용자가 원하는 데이터 간의 연관성을 자동으로 분석해 제공함으로써 일반인도 손쉽게 데이터 분석‧융합을 할 수 있도록 지원한다. 앞서 설명한 AI 허브를 비롯해 올해 구축된 무역빅데이터플랫폼, 한국관광데이터실험실 다른 데이터 플랫폼과 연계한 검색이 가능하도록 해 이용자 편의성도 높였다.

정부의 노력에 힘입어 16개 빅데이터 플랫폼의 활용 성과는 지속적으로 높아져왔다. 2021년 4월 기준으로 데이터 개방 4,036건, 데이터 활용 112,325건, 유료 데이터 거래 3,335건 등 사업 추진 초창기에 비해 괄목할 만한 성과를 달성했다. 하지만 아직까지 사업 초기 목표였던 ‘민간 수요를 통한 자생’에는 미치지 못하는 것은 사실이다.

16개 빅데이터 플랫폼 활용 성과 (출처: 과기정통부)
16개 빅데이터 플랫폼 활용 성과 (출처: 과기정통부)

4대 혁신 과제로 데이터 플랫폼 강화한다

지난 6월 정부는 빅데이터 플랫폼 구축사업을 성공시키기 위해 ‘민‧관 협력 기반 데이터 플랫폼 발전전략’을 발표했다. 여기서는 각 산업별 빅데이터 플랫폼들을 효율적으로 확충 및 활용하고, 민‧관 협력을 기반으로 데이터 전주기를 지원하는 플랫폼을 구축한다는 목표로 4대 추진전략이 제시됐다.

먼저 분야별 대표 빅데이터 플랫폼 확충 및 연계를 강화한다. 국내에서는 이미 각 부처 및 기업들이 운영하는 129개 데이터 플랫폼(공공 108개, 민간 21개)들이 존재한다. 이들을 빅데이터 플랫폼 구축사업을 통해 마련된 16개 플랫폼들과 연계해, 검색과 분석, 보고서 작성 등 서비스 중심의 고도화를 추진한다. 이러한 통합 및 고도화는 데이터 지도 서비스를 중심으로 이뤄지며, 각 플랫폼에 축적된 데이터의 메타데이터를 데이터 지도 서비스에 반영하는 방식으로 추진한다. 또한 산재된 데이터 플랫폼들의 효과적인 연계와 활용을 위해 정부, 공공기관, 민간기업을 아우르는 ‘민‧관 데이터 플랫폼 발전협의체’를 구성할 계획이다.

데이터 플랫폼 확산‧발전을 위한 4대 핵심 전략 (출처: 과기정통부)
데이터 플랫폼 확산‧발전을 위한 4대 핵심 전략 (출처: 과기정통부)

데이터 플랫폼을 통한 데이터 거래와 유통 체계도 강화한다. 공공기관이 빅데이터 플랫폼이 제공하는 융합 서비스 등을 손쉽게 활용할 수 있도록 디지털 서비스 전문계약제도에 데이터 서비스 부문을 추가할 계획이다. 또한 플랫폼을 통해 데이터를 공급하는 기업이 수요자들에게 맞춤형 데이터를 제공할 수 있도록 시장의 데이터 수요를 미리 알려주는 ‘수요 예보제’를 도입한다. 이외에도 데이터산업진흥원이 추진하고 있는 데이터 바우처 서비스를 빅데이터 플랫폼 사업에도 적용해, 일정 요건이 갖춰진 플랫폼에서 자유롭게 데이터 바우처로 원하는 서비스를 받을 수 있는 ‘바우처 원서비스(One Service)’를 신설할 계획이다.

데이터 활용 역량이 부족한 기업들을 위한 체계도 마련된다. 2022년까지 중소기업 및 스타트업을 위한 데이터 분석서비스 이용권(바우처)를 지원하고, AI 서비스 개발 등을 위한 플랫폼 데이터를 할인 및 무상으로 제공한다. 또한 데이터 3법 개정에 따라 선호도가 높아지고 있는 가명정보의 활용을 촉진하기 위해 빅데이터 플랫폼 상의 개인정보 관리체계를 개선하고, 사전 준비에서부터 가명정보 데이터 결합 신청‧반출 등 전 과정에 걸친 컨설팅을 제공하고 시범사업도 추진할 계획이다.

마지막으로 데이터 표준과 품질 관리 체계를 점검한다. 빅데이터 플랫폼 상에서 데이터가 원활히 공유‧유통될 수 있도록 메타데이터 등을 표준화하고, 필요에 따라 공공‧민간이 공동으로 마련한 연계 표준사전을 공공분야에 반영하는 체계를 마련한다. 또한 비정형 데이터에 대한 수요가 높아지고 있다는 점을 감안해, 향후 비정형 데이터 품질관리 방법을 개발하는 등 데이터 품질관리 가이드를 지속적으로 고도화하고 현장에 적용한다.


데이터 아이디어 현실화 돕는 바우처 지원사업

앞서 소개한 AI 학습용 데이터 구축사업과 빅데이터 플랫폼 구축사업은 각각 양질의 데이터 확보와 유통 등에 주력했다. 한편 정부는 데이터에 대한 수요를 늘리고 실제 서비스에 활용되는 사례를 확산시키기 위해 ‘데이터 바우처 지원사업’도 함께 추진해왔다.

해당 사업은 데이터를 활용한 서비스 개발과 비즈니스 창출을 필요로 하는 기업에게 데이터 구매 및 가공에 필요한 바우처를 지원하는 사업으로, 지난 2019년부터 데이터 거래 활성화 및 서비스 개발 촉진 등을 목적으로 추진됐다. 해당 사업은 데이터 자체를 확보하기 위해 사용할 수 있는 ‘데이터 구매’ 바우처와, 데이터 분석이나 활용 역량이 부족할 때 도움을 받을 수 있는 ‘데이터 가공’ 바우처 등으로 나뉘어있다.

지난 2년여 간 많은 중소기업‧스타트업들이 데이터 바우처를 통해 혁신적인 데이터 기반 서비스 개발에 힘써왔다. 아이디어가 있어도 역량이나 자본이 부족해 실현하지 못했던 기업들이 바우처 지원사업을 통해 실제 비즈니스 성과를 달성할 수 있었다. 이러한 수요기업들은 데이터 기반 비즈니스 진행 경험과 노하우를 마련하고 구체적인 결과물을 획득할 수 있어, 향후 새로운 데이터 기반 비즈니스를 개발하고 활성화하는 데에도 도움을 줄 수 있게 됐다.

데이터 바우처 지원사업 개요
데이터 바우처 지원사업 개요

또한 수요기업에 데이터를 판매하거나 분석 서비스 등을 제공한 공급기업들 역시 자사의 데이터 관련 역량을 통해 비즈니스 성과를 창출하고 관련 노하우를 획득하는 기회를 얻을 수 있었다. 특히 우수한 데이터 관련 역량을 보유하고 있더라도 실제 사례(레퍼런스)가 없어 비즈니스 확장에 어려움을 겪던 기업들이, 바우처 지원사업을 통해 다수의 데이터 관련 프로젝트를 추진하고 성공시킴으로써 대외적으로 자사의 역량을 증명할 수 있었다는 설명이다. 데이터를 수집하고 생성하는 기업에서부터 이를 가공‧분석하는 기업, 실제 수요기업과의 연계와 이를 통한 노하우 축적과 재활용에 이르기까지 데이터의 선순환 생태계를 만들었다는 평가다.

데이터 바우처 지원사업에 대한 높은 수요에 힘입어, 과기정통부는 해당 사업에 지난해(575억 원)보다 두 배 이상 확대한 1,230억 원을 지원한다고 밝혔다. 수요기업의 열렬한 호응에 힘입어 부문별로 ▲데이터 구매 2,207건 ▲일반 가공 서비스 1,295건 ▲AI 가공 서비스 2,677건 등 총 6,179건이 접수됐으며, 이 중 ▲데이터 구매 1,200건 ▲일반 가공 서비스 480건 ▲AI 가공 서비스 900건 등 총 2,580개 사례가 선정됐다.


공급기업 선별 등 제도 개선도 갖춰져야

한편 다수의 데이터 판매 및 서비스 공급기업들은 데이터 바우처 지원사업의 성과를 높이기위해 개선이 필요하다고 조언하고 있다. 실제 데이터 환경을 이해하지 못한 채 일괄적인 지원이 이뤄지다보니 한계가 있다는 지적이다.

가장 큰 문제는 적절한 공급기업 선정이 이뤄져야 한다는 점이다. 데이터 바우처 지원사업이 매년 좋은 성과를 거두면서 지원 규모가 확대되고 있는데, 이에 따라 소위 ‘눈먼 돈’을 노리는 기업들이 대거 등장하고 있다는 지적이다. 이는 비단 데이터 바우처 지원사업만이 아니라 대부분의 정부 지원사업에서 공통적으로 지적되는 사항이지만, 정부가 디지털 뉴딜 정책에 힘을 싣고 매년 막대한 예산을 투입하면서 역량이 부족한 공급기업들이 대거 참여해 문제가 확대되고 있다.

이에 대해 일부 공급기업들은 이전 데이터 바우처 지원사업에서 수요기업의 주요 요구사항을 분석해 공급기업들이 갖춰야 하는 역량 수준을 파악하고, 이를 바탕으로 공급기업 선정 기준을 현실화해야 한다고 주장한다. 또한 수요기업이 원하는 서비스 수준을 제공할 수 있는 공급기업을 손쉽게 찾을 수 있는 프로세스를 마련하고, 여기에 공급기업이 갖추고 있는 기술력이나 인력 수준, 관련 레퍼런스 경험 등을 확인할 수 있는 시스템이 갖춰져야 한다는 것이다. 이러한 체계가 갖춰지지 않으면 수요기업이 우수한 아이디어를 가지고 있더라도 제대로 된 서비스를 받지 못해 실패로 이어질 수 있기 때문이다.

또한 일회성 지원만 제공되는 지원 방식에도 문제가 있다는 지적이 나온다. 데이터 바우처를 통해 우수한 아이디어를 실제 비즈니스 사례로 구축하더라도, 안정적인 운영이 가능한 시점까지는 지속적인 유지‧보수나 서비스 제공이 요구되는 경우가 있기 때문이다. 이에 추가적인 유지‧보수 서비스를 위한 비용이 부담스러워 새로운 비즈니스를 지속하지 못하는 경우가 발생한다. 이에 현재 일회성으로 제공되는 바우처 지원 체계를 개선해, 수요기업의 필요에 따라 유연한 지원이 이뤄져야 한다는 설명이다.


데이터 바우처 가공기업, 대가 산정 방식에 문제 제기 나서

한편 데이터 바우처 지원사업을 주관하고 있는 데이터산업진흥원이 올해부터 일방적으로 데이터 가공 서비스 공급기업의 비용 정산 방식을 변경하면서 공급기업들이 피해를 보고 있다는 주장이 제기됐다. 데이터 가공 서비스는 엄연히 용역사업인데도 실제 비용 정산 방식에 지원사업과 같은 기준을 적용하면서 물의를 빚고 있다는 것이다.

데이터 가공 서비스 공급기업(이하 가공기업)들은 수요기업들에게 필요한 데이터를 가공하고 활용까지 도와주는 서비스를 제공한다. 이 과정에서 지원 혜택을 받는 것은 수요기업이며, 가공기업은 서비스를 제공하는 용역사업을 수행하는 셈이다. 실제로 가공기업은 서비스 제공 후 비용 정산을 위해 데이터산업진흥원에 부가세 10%가 포함된 세금계산서를 발행하는 등, 일반적인 용역사업과 같은 프로세스를 수행했다. 따라서 가공기업에 대한 비용 정산은 용역사업 형태로 이뤄져야 한다.

일반적인 데이터 관련 용역사업은 한국SW산업협회(KOSA)에서 매년 통계 조사를 근거로 제정‧발표하는 ‘SW사업 대가산정 가이드’를 따르거나, 기획재정부에서 제시하는 예산집행 가이드를 참조한다. 이에 따르면 인건비에 임차료‧일반판관비‧고용보험료‧품질관리비‧감가상각비 등의 제반 경비를 포함해 최종적인 비용을 산정한다.

문제는 데이터산업진흥원이 올해부터 가공기업에 대한 비용 정산에 ‘지원사업’ 방식을 취하고 있다는 점이다. 지원사업의 경우 용역사업과 달리 대부분의 제반 경비가 인정되지 않는다. 지원사업은 임차료나 판관비 등을 수행기업이 자체 부담하도록 권고하는 추세이기 때문이다. 심지어 비용 정산 시 사업에 참여한 인력의 실제 급여 이체 내역까지 요구하는 등, 인건비에 4대 보험이나 퇴직금 등도 인정하지 않고 있어 더욱 문제가 크다. 지원사업에서도 최소한 4대보험이나 퇴직금 등 직원 고용에 필요한 기본적인 경비는 인정돼야 한다.

사실 데이터 바우처 지원사업은 기타 다른 지원사업과는 비용 정산에 다소 차이가 있다. 일반적인 바우처 지원사업은 수요기업에게 비용을 지원하고, 수요기업이 공급기업에게 재화나 서비스를 구매하는 형태로 이뤄진다. 이 경우 정부와 수요기업 간에는 ‘지원사업’ 방식의 비용 정산이 이뤄지고, 수요기업과 공급기업 간에는 ‘용역사업’ 방식의 정산이 이뤄진다.

한편 수요기업의 규모가 영세해 바우처 신청이나 사후 처리와 같은 행정적인 절차를 밟기 어려운 경우, 수요기업은 재화나 서비스만 제공받고 정부가 공급기업에게 직접 비용을 지불하기도 한다. 데이터 바우처 지원사업도 여기에 속한다. 수요기업은 데이터와 서비스를 받고, 비용 정산은 데이터산업진흥원과 가공기업 사이에서 이뤄진다. 따라서 진흥원과 가공기업 사이에서는 ‘용역사업’ 방식의 정산이 이뤄져야 한다.

SW사업대가기준과 데이터산업진흥원이 요구하는 비용 산정기준 비교 (예시)
SW사업대가기준과 데이터산업진흥원이 요구하는 비용 산정기준 비교 (예시)

이는 데이터산업진흥원이 본 사업의 지원 대상을 정확히 파악하지 못하고 있어 발생하는 문제로 보인다. 가공기업 역시 데이터 바우처 지원사업을 통해 비즈니스 매출을 올리는 등 간접적인 혜택을 받기는 했지만, 엄밀히 따져서 지원사업의 혜택을 받는 것은 수요기업이다. 가공기업은 수요기업에게 용역 서비스를 제공하고 정당한 대가를 받아야 하는 입장이다. 그런데도 단지 데이터 바우처 지원사업이 ‘지원사업’이라는 이유로 가공기업의 비용 정산에도 지원사업과 같은 방식을 적용하고 있다.

한 가공기업 관계자는 “데이터 바우처 지원사업에 의해 제공한 서비스는 엄연히 수요기업에게 용역을 제공한 ‘용역사업’이며, 국세법을 적용해 세금계산서를 발행하고 계약서 상에 약 10%의 이윤을 표시한 사실 역시 이를 증명한다”며, “공정한 SW 시장 조성과 적정대가 지불을 통한 SW 발전을 위해 제정된 ‘SW진흥법’의 취지를 이어가기 위해서라도, 이번 데이터 바우처 지원사업의 비용 정산 방식의 현실화가 반드시 필요하다”고 밝혔다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지