국내 데이터 유통 생태계 부진…유통 활성화 위한 정부 정책 진행 중

[컴퓨터월드] 흔히 4차 산업혁명의 원유가 데이터라고 말한다. 원유를 제대로 사용하기 위해서는 땅속에 있는 원유를 찾아서 캐내고 사용할 수 있도록 가공해 소비자에게 전달하는 과정이 필요하다. 데이터 역시 마찬가지다. 전 세계 어딘가에서 생산된 데이터가 그것을 필요로 하는 사용자에게 전달되기까지, 데이터를 수집하고 구축하고 가공해서 사용자에게 전달하는 일련의 유통 과정이 필요하다.

아직 국내에서는 체계적인 데이터 유통 생태계가 구축되지 않고 있다. 하지만 최근 정부에서 앞장서서 대규모 예산을 투입해 데이터 유통 활성화를 위한 정책을 시행하고 있다. 국내 데이터 유통 생태계의 현황과 현재 진행되고 있는 데이터 유통 활성화 정책들을 살펴본다.


유통 없이 성장하는 산업은 없다
제조 산업에서 올바른 유통 생태계 없이 발전할 수 있는 분야는 없다. 원재료의 획득부터 제품 생산, 판매까지 직접 이뤄지던 산업혁명 이전의 가내수공업 시대라면 모를까, 분업과 전문화가 이뤄져 있는 오늘날 현대 사회에서는 원자재가 상품으로 가공돼 소비자에게 도달하기까지 수많은 이해당사자를 거치게 된다. 이 과정에는 성숙한 유통 생태계가 반드시 요구된다.

이는 IT 산업에서도 마찬가지다. 올바른 제품을 생산하기 위해 원자재를 구매하고 완성된 제품을 소비자에게 전달하기 위해서는 유통 체계를 제대로 갖춰야만 한다. 그렇다면 IT 산업 분야에서 원자재에 해당하는 것은 무엇인가? 많은 요소들이 있겠지만, 가장 기본적이면서도 중요한 것은 바로 데이터일 것이다.

데이터를 기반으로 시장을 분석하거나 새로운 서비스를 만들고자 하는 기업들은 양질의 데이터를 확보하는 데에 목말라있다. 특히 인공지능(AI) 기반의 서비스들은 알고리즘을 학습시키기 위해 양질의 데이터가 반드시 필요하다. 하지만 기업들이 가내수공업처럼 사내에서 자체적으로 수집·생산하는 데이터만으로는 우수한 제품이나 서비스를 개발하는 데에 한계에 부딪힌다. 이러한 요구에 부응해 전 세계적으로 데이터 유통 생태계가 빠르게 발전하고 있다.

가령 미국의 경우 개인정보 활용이 비교적 용이해 세계 최대 규모의 민간 데이터 브로커 시장이 형성돼 있으며, 그 규모는 약 1,500억 달러에 달한다. 액시엄(Acxiom), 엡실론(Epsilon)과 같은 데이터 브로커 기업들은 소비자들의 데이터를 수집·가공·분석해 이를 원하는 기업들에게 맞춤형으로 제공하고 있다. 특히 이러한 전통적인 데이터 브로커 기업 외에도, 데이터 시각화 플랫폼을 보유한 클릭(Qlik)이 주요 35개국의 기업 재무정보, 주식시세정보, 인구·산업통계정보 등을 분석한 데이터를 글로벌 유수의 기업에게 판매하는 등 창의적인 아이디어를 보유한 데이터 활용 스타트업들도 빠르게 성장하고 있다.

일본은 2016년 범정부 차원의 4차 산업혁명을 위한 7대 추진전략을 발표했으며, 이 중에는 데이터 활용 촉진을 위한 인프라 정비 전략이 포함돼있다. 일본 총무성과 NTT, 히타치, 도쿄전력 등 일본의 민간 대기업 100개 사가 참여해 2020년까지 ‘IoT 빅데이터 거래소’ 설립을 준비하고 있다. 일본은 현재 IoT 기술의 핵심인 센서 분야에서 전 세계 시장의 40% 이상을 독식하고 있으며, 해당 분야에서 IoT 데이터의 가공과 활용을 강화해 자연스러운 데이터 거래 시장을 형성하겠다는 목표다.

또한 중국은 2014년부터 정부 차원의 ‘빅데이터 산업발전 클러스터 구축계획’에 따라 혼합국유기업 형태의 데이터 거래 플랫폼인 귀양빅데이터거래소, 상해데이터거래센터 등을 구축·운영 중이다. 귀양빅데이터거래소의 경우 2018년 5월 기준으로 약 3억 위안(약 505억 원)의 거래가 이뤄졌으며, 데이터 유통 플랫폼(GBDEX) 운영을 통해 공공·민간 데이터의 거래뿐만 아니라 데이터 가공이나 가치평가 등의 서비스도 제공한다. 특히 최근에는 거래소 내에서 자체적으로 데이터를 가공하는 방식을 벗어나, 데이터 가공 전문 기업들을 발굴·육성하고 업무를 이관함으로써 데이터 거래 시장 활성화를 노리고 있다.

물론 기업 규모가 크고 운영 중인 서비스가 다양한 대기업들은 자사의 서비스만으로도 충분한 데이터를 수집·생산할 수 있다. 구글이나 네이버와 같은 대규모 포털사이트들은 해당 서비스를 운영하는 것만으로도 어마어마한 데이터를 실시간으로 생산하고 있다. 이런 기업들은 어느 정도 수준까지는 사내에서 생산하는 데이터만으로도 충분한 신규 서비스 개발과 운영이 가능할 것이다.

하지만 이러한 대기업들 역시 기존에 다뤄보지 못한 새로운 서비스를 개발하기 위해서는 사내에서 생산하지 못하는 새로운 데이터를 필요로 한다. 또한 대다수의 스타트업, 중소·벤처기업들은 양질의 데이터는 커녕, 보유하고 있는 데이터의 총량부터가 부족한 실정이다. 따라서 이들은 사내에서 만들어내지 못하는 데이터를 외부에서 구할 수 있는 방법을 찾아야 한다.


“필요한 게 있어도 파는 곳을 모른다”
한국데이터산업진흥원이 발간한 ‘2018 데이터산업백서’에 따르면 국내 데이터 거래 시장은 약 5,000억 원으로 추정된다. 이는 물론 적지 않은 규모지만, 전체 데이터 산업 시장 규모가 15조 이상이라는 점을 고려한다면 충분치 않은 숫자다.

▲ 국내 데이터산업 시장 규모(2010~2018, 단위: 억 원, 출처: 한국데이터산업진흥원)

플랫폼 차원에서는 한국정보화진흥원(NIA)의 ‘공공데이터포털’이나 한국데이터산업진흥원의 ‘데이터스토어’ 등의 공공 플랫폼, SK텔레콤의 ‘빅데이터허브’나 LG CNS의 ‘오디피아(ODPia)’ 등 민간 플랫폼이 마련돼 있다. 또한 플랫폼을 통하지 않은 개별 거래는 데이터 활용이 활발한 통신·금융·기업정보 분야에서 직접 구매 계약을 통해 이뤄지고 있다. 그러나 개별 거래라 하더라도 데이터 가공·분석 기반의 컨설팅 매출이 대다수를 차지하고 있어, 데이터 그 자체를 거래하는 사례는 미흡한 실정이다.

국내에서는 아직까지 데이터 유통이 활성화돼 있다고 보기 어렵다. ‘2018 데이터산업 현황 조사’ 보고서에 따르면, 국내 데이터서비스 사업체 중 데이터 구매·판매 등 거래 경험이 있는 기업은 44.3%에 불과하다. 나머지 절반 이상의 기업들은 자사의 데이터 확보를 위해 데이터 거래를 적극적으로 활용하지 않고 있다. 또한 한국데이터산업진흥원의 ‘데이터스토어’의 경우, 2012년부터 오픈해 운영해왔음에도 2018년까지 거래된 데이터는 턱없이 낮은 3,000여 건에 지나지 않아, 우리나라의 데이터 유통 현실을 여실히 보여주고 있다.

데이터 거래 경험이 있는 사용자들은 특히 ▲쓸만한 양질의 데이터 부족(44.0%) ▲불합리한 데이터 가격 선정(37.4%) ▲데이터 유통 채널 부족(37.4%) 등을 데이터 거래 시 애로사항으로 꼽았다. 이외에도 데이터 사업자들은 데이터 거래가 원활하지 못한 장애요인으로 ▲데이터를 무료로 사용하려는 이용자 인식(28%) ▲데이터 상품 검색의 어려움(24%) ▲개인정보 및 법·제도 문제(20%) ▲거래방법 정보 부재(14%) 등을 지적했다.

국내에서는 많은 기업들이 데이터를 구할 수 있는 방법을 모르거나 실행할 수가 없어 어려움을 호소하고 있으며, 데이터의 구축·가공·유통·활용 등 가치사슬 전반에 걸쳐 폐쇄적인 데이터 축적과 표준화에 대한 제약으로 혁신적인 움직임이 일어나지 않고 있다. 한 SW업계 관계자는 “같은 회사의 이웃 부서끼리도 서로 무슨 데이터를 가지고 있는지 모른다”고 지적했다. 즉 이를 개선하기 위해서는 공급자와 수요자를 잇는 데이터 거래의 장을 마련하고, 원하는 데이터를 찾고 비교할 수 있는 검색 체계를 갖춰야 한다.

양질의 데이터 확보 및 활용은 기업의 경쟁력과 IT 기술력에 직결되는 문제다. 실제로 스위스 국제경영개발원(IMD)이 선정한 ‘2017 빅데이터 활용도 순위’에서 우리나라는 63개국 중 56위에 불과했고, OECD의 ‘2017 디지털 경제 아웃룩’에서는 빅데이터 분석 활용 비율이 4%로 나타나 주요국 가운데 꼴찌를 기록했다. 즉 우리나라의 데이터 활용률은 세계적으로도 낮은 수준이며, 이를 개선하기 위해서는 빅데이터 활용 수준을 끌어올릴 수 있는 범정부적인 혁신이 요구되는 상황이다. 올바른 데이터 유통 플랫폼 마련은 이러한 과제를 달성할 수 있는 효과적인 수단이 될 수 있다.
 

전 산업 분야 아우르는 ‘빅데이터 플랫폼’ 구축
그동안 정부에서는 공공데이터에 대한 규제를 완화하거나 데이터 거래를 위한 플랫폼을 만들겠다고 선언하는 등, 국내에 올바른 데이터 유통 생태계를 만들기 위한 노력을 지속해왔다. 특히 문재인 대통령은 지난해 8월 개최된 데이터 규제혁신 행사에 참석해 “대한민국은 인터넷을 가장 잘 다루는 나라에서 데이터를 가장 잘 다루는 나라로 변화해야 한다”고 강조하며, 2019년에 1조 원의 예산을 투입해 국내 데이터 산업을 강화하겠다고 밝힌 바 있다.

이러한 노력의 일환으로, 과학기술정보통신부(이하 과기정통부)는 공공과 민간이 협업해 활용 가치가 높은 데이터를 생산·구축하고 개방 및 공유할 수 있는 체계를 마련하기 위한 ‘빅데이터 플랫폼 및 센터’ 공모 사업을 추진했다. 해당 사업은 분야별 10개의 빅데이터 플랫폼과 이와 연계된 기관별 센터 100개소를 구축해, 센터에서 수집된 데이터를 플랫폼에서 분석·유통함으로서 양적·질적으로 높은 수준의 데이터 가치 창출 생태계를 조성한다. 이를 통해 데이터 유통을 활성화시켜 혁신적인 서비스를 발굴 및 확산하는 데이터 산업의 육성 기반을 마련하겠다는 취지다.

플랫폼 및 센터 구축에는 3년간 총 1,516억 원이 투입되며, 예산은 ▲데이터 생산·구축·수집·분석·유통·활용 등을 위한 인프라 구축 ▲데이터 품질 확보 및 표준화 등 양질의 데이터 재생산 비용과 창업 지원 ▲데이터 도메인별 전문 교육 ▲데이터 활용을 위한 전문기술 지원 등에 활용된다. 매년 사업에 참여한 기관·기업들에 대한 실태조사와 성과평가를 거쳐 계속 지원할지 여부를 결정할 계획이다.

1차 년도인 올해에는 총 2차례에 걸쳐 640억 원 규모로 사업을 추진한다. 앞서 과기정통부는 지난 3월 6일부터 4월 16일까지 사업 공모를 실시해 총 10개 분야에서 44개 과제를 접수했으며, 총 2차례의 평가절차를 거쳐 최종적으로 10개의 과제를 선정했다. 특히 각 컨소시엄을 구성하는 센터들이 보유하고 있는 데이터와, 이를 융합해 구축할 수 있는 구체적인 서비스 방안들이 많은 주목을 받았다. 센터가 보유하고 있는 데이터를 결합해 일반에 공개·개방함으로써 데이터 생태계를 풍부하게 하고, 실제로 실현 가능한 서비스를 구현함으로써 융·복합 데이터를 활용한 비즈니스 성공사례도 만들어나가겠다는 전략이다.

▲ 빅데이터 플랫폼 및 센터 구축사업에 선정된 10개 과제

과기정통부 관계자는 “데이터의 수요가 플랫폼을 통해 공급 기업에 전달이 되고, 이에 따라 데이터가 재생산돼 다시 수요자에게 제공되는 등, 데이터 생태계가 만들어지기 위해서는 많은 이해관계자의 협력과 참여가 중요하다”며, “이번 사업의 성공을 위해서는 데이터 공급기업뿐만 아니라 수요기업들의 많은 관심이 필요하다. 지금까지 유통되지 않았던 다양한 데이터들이 분야별 플랫폼을 통해 쉽게 확보할 수 있는 길이 열려있으니 기관·기업들의 많은 관심과 활용을 바란다”고 밝혔다.

 

한국문화정보원 ‘문화체육관광 빅데이터 플랫폼’

공공분야의 문화 데이터를 총괄 관리하는 한국문화정보원은 과기정통부의 ‘빅데이터 플랫폼 및 센터’ 구축 사업에 22개 참여기관과 컨소시엄을 구성해 참여했다. 한국문화정보원의 ‘문화 빅데이터 플랫폼’은 심의위원들로부터 “오랜 기간 센터의 구성과 플랫폼의 방향성을 고민한 흔적이 보인다”는 평가를 받으며, 종합평가에서 가장 높은 점수를 획득해 1위 과제로 선정됐다.

한국문화정보원은 지난해 12월부터 컨소시엄 참여 기관들이 가지고 있는 데이터와 역량을 분석해 유기적인 협업 체계를 구축하고, 빅데이터 센터에 참여하는 10개 기관을 공공과 민간 분야에서 각각 5개씩 구성해 양쪽의 데이터와 수요를 모두 아우를 수 있도록 했다. 특히 관련 범위가 매우 넓은 문화 분야에서 하나의 일관된 청사진을 그릴 수 있도록 센터 선정에 심혈을 기울였다는 설명이다.

컨소시엄에서는 우선 다양한 공연이나 문화활동에 대한 정보를 학습하고 사용자에게 맞춤형 추천을 해주는 ‘마이 컬처럴 라이프(My Cultural Life, 가칭)’ 서비스를 준비한다. 공공 서비스에서 ‘민원24’가 국민들의 다양한 민원 사례를 한 번에 처리하는 것처럼, 문화활동에 대해서도 사전에 공연 추천부터 내비게이션 안내, 공연 후에는 음반·도서 등 관련 상품도 추천해주는 원스톱 통합 서비스를 제공하겠다는 계획이다. 1차 년도에는 우선적으로 공연과 전시에 한정해 시범 서비스를 구축하고, 2차 년도부터 도서와 체육 분야로 확대하며 본격적인 서비스를 구축한다.

한국문화정보원 관계자는 “공공데이터포털을 보면 문화·관광 분야 데이터의 민간 활용 사례가 타 분야에 비해 독보적으로 높다. 이는 데이터의 품질이 특별히 뛰어나다기보다는, 문화·관광 분야 자체가 타 산업과의 융합이 쉽고 비즈니스 모델로 손쉽게 접근할 수 있기 때문”이라며, “IT 종사자들만 이용할 수 있는 어려운 빅데이터가 아니라, 일반인들을 포함해 더욱 다양한 소비층들에게 실질적인 혜택을 줄 수 있는 부분까지 고려하겠다”고 말했다.

영세사업자 위한 데이터 구매비용 지원
한편 과기정통부는 또한 한국데이터산업진흥원과 함께 데이터 유통 활성화를 위한 ‘2019 데이터 바우처 지원사업’을 추진했다. 데이터 바우처 지원사업은 중소·벤처기업, 스타트업, 소상공인 등이 보다 손쉽게 양질의 데이터를 확보하고 적극적으로 데이터 기반의 혁신 서비스를 구축할 수 있도록 돕기 위해 데이터 구매 및 가공에 필요한 비용 등을 지원하는 제도다. 이는 중소·벤처기업 등 수요자 입장에서 부족한 재원을 충당해 데이터 기반의 혁신을 앞당기는 것은 물론, 다양한 데이터를 보유한 판매기업과 역량있는 가공기업을 발굴해 데이터 공급시장을 창출하기 위한 목적도 있다.

데이터 바우처 지원 사업은 한국데이터산업진흥원의 데이터스토어를 활용해 진행된다. 먼저 데이터 판매·가공기업(공급기업)이 자사의 데이터 상품과 서비스를 데이터스토어 상에 공개하면, 수요기업들이 필요한 상품과 서비스를 선택해 데이터 바우처를 신청할 수 있다. 아울러 공급기업으로 선정되지 않은 기업의 데이터 상품이나 서비스를 신청하려는 경우 ‘데이터 이용매칭 신청’을 통해 요청할 수 있으며, 한국데이터산업진흥원은 요청받은 데이터 상품 또는 서비스를 확인하고 공급기업으로 등록해 수요기업이 필요한 상품을 이용할 수 있도록 돕는다.

특히 수요기업들이 중소·벤처기업, 스타트업, 소상공인 등 영세사업자로 구성돼 있어 정부지원사업 신청이 생소할 것을 고려해, 데이터 바우처 신청을 위해 제출해야하는 서류 작성을 돕는 ‘코칭 서비스’를 제공한다. 데이터 바우처 신청 및 준비에 어려움을 겪는 경우 한국데이터산업진흥원을 통해 온·오프라인 코칭 서비스를 받을 수 있다. 이외에도 필요한 데이터 상품이나 공급기업을 찾는 데에 어려움을 겪는 수요기업들을 위해 지속적으로 설명회 및 매칭데이를 개최한다. 오프라인 매칭데이에 참여하기 어려운 수요기업의 경우 데이터스토어 상에서 온라인 매칭 서비스를 이용할 수도 있다.

▲ 데이터 바우처 지원사업 개요

데이터 바우처 지원사업에는 지난 5월 기준 총 209개 기업이 공급기업으로 선정됐다. 통신사나 카드사와 같은 대기업은 물론, 마케팅·기상정보·무역·위성·문화 등 다양한 분야에서 57개 판매기업과 152개 가공기업이 공급기업으로 선정돼 데이터 스토어에 등록됐다. 공급기업은 상시 모집 중이며, 수요기업들의 필요와 요구를 고려해 언제든 추가될 수 있다.

한국데이터산업진흥원 측은 “데이터 유통 시장이 잘 조성되지 않은 국내 상황에서 필요한 데이터를 확보하기는 매우 어려운 상황이다. 중소·벤처기업, 소상공인, 스타트업 등 자금력이 부족한 기업의 경우 비즈니스에 필요한 데이터를 확보하기 가장 좋은 방법은 데이터 바우처와 같은 정부지원 사업을 활용하는 것”이라고 밝혔다.

▲ 17개 2차 데이터 바우처 수행기관

또한 이에 더해 “중소·벤처기업, 스타트업 등은 양질의 데이터를 보유하고 있는 기업과 거래할 수 있는 기회를 만드는 것조차 쉽지 않았다. 거래 협의를 진행한다고 하더라도 협상력이 약해 불리한 입장에 놓이거나, 거래 도중에 비즈니스 모델을 빼앗길 위험이 있어 협의를 중단하는 경우도 빈번하다”면서, “데이터 바우처는 영세사업자들의 데이터 구매 또는 가공 서비스 이용에 대한 비용 부담을 줄여주는 것은 물론, 공급기업들과 대등한 위치에서 협의를 진행할 수 있는 기회를 제공한다”고 강조했다.

한편 지난 3~4월 진행된 1차 수요기업 공모에는 데이터 구매가 104건, 가공 서비스가 226건으로 총 330여 개의 수요가 접수됐으며, 최종적으로 200개 기업이 수요기업으로 선정됐다. 또한 2차 수요기업 공모는 사전에 선정된 17개 데이터 바우처 수행기관이 분야별로 홍보 및 신청을 받으며, 최대 수용 가능한 수요 건수는 980건이다.

끝으로 한국데이터산업진흥원 관계자는 데이터 바우처를 신청하려는 기업들에게 “수요기업 선정의 가장 중요한 선발기준은 데이터 활용을 통해 사업성과를 극대화하거나 경영상 효율성을 높일 수 있는지 여부”라며, “구매 또는 가공하려는 데이터의 활용 사례를 명확히 제시하고, 해당 데이터를 통해 추진하는 비즈니스가 어떻게 사업을 고도화하고 경영 효율성을 제고할 수 있는지 등 구체적인 효과를 제시하는 것이 중요하다”고 조언했다.

▲ 박상원 딥네츄럴 대표

“한국어에 최적화된 언어 학습 데이터 구축·가공”
박상원 딥네츄럴 대표

Q. 딥네츄럴이 제공하는 학습 데이터 서비스란?
학습 데이터는 머신러닝 모델을 학습시키기 위한 목적으로 정제된 데이터다. 머신러닝 모델은 학습 데이터에 나타난 패턴들을 그대로 익히는 것이기 때문에, 잘 정제된 고품질 학습 데이터를 사용할수록 결과물의 성능이 좋아진다. “쓰레기가 들어가면 쓰레기가 나온다(Garbage In, Garbage Out)”는 건 머신러닝 분야의 대표적인 격언이다.

하지만 학습 데이터를 생산하기 위해서는 데이터를 정제하고 라벨링하는 데에 많은 시간과 역량이 필요하다. 그렇다보니 AI를 개발하는 기업·학교·연구소 등에서 직접 학습 데이터를 생산하기 어려운 경우가 많다. 이에 따라 국내에도 ‘아마존 메카니컬 터크(Amazon Mechanical Turk)’와 같은 데이터 수집·가공 플랫폼이 서서히 등장하고 있다.

딥네츄럴은 텍스트, 음성, 영상 등에서 학습용 언어데이터를 전문적으로 생산하는 ‘딥네츄럴AI(DeepNatural AI)’ 서비스를 제공한다. 대화형 AI가 적용되는 다양한 제품 및 서비스를 학습시키는 데에 활용할 수 있으며, 딥러닝 기반의 자연어처리 기술을 이용해 학습 데이터를 생산함으로써 품질과 생산성을 높이면서도 작업 기간을 단축했다.
 

Q. 학습용 언어 데이터를 구축함에 있어 가장 중요한 요소는?
머신러닝을 활용해 개발하고자 하는 SW의 기능과 목적을 고려해 최적화된 학습 데이터를 설계하는 것이다. 이를 위해서는 대규모 데이터셋을 구축하기 전에 토이 시스템을 개발해보는 것이 효과적이라고 생각한다. 또한 활발한 커뮤니케이션을 통해 학습 데이터 구축 프로세스가 목표한 대로 진행되고 있는지 확인하는 것도 중요하다. 신뢰도 100%를 지향하면서 꼼꼼하게 작업하고 리뷰하는 것은 기본이다.

▲ AI 학습용 한국어 언어 데이터를 생성하는 ‘딥네츄럴 AI’

Q. 국내 데이터 유통 환경에 맞춰 해외와 차별화한 요소가 있다면?
아무래도 언어의 차이가 가장 크다. AI 연구를 선도하는 국내 기업과 해외 기업의 규모 차이도 있고, 한국어는 영어나 중국어에 비해 사용하는 인구와 연구자들이 적을 수 밖에 없다. 영어권에는 BYU, Gigaword, Europarl 등 중규모 이상의 공개된 언어 데이터가 있지만 한국어는 많이 부족한 실정이다. 우리나라 역시 국립국어원 주도로 1998년부터 2007년까지 ‘21세기 세종계획’이라는 말뭉치 구축사업이 진행됐지만, 여전히 많은 연구진들과 개발자들은 고품질 한국어 데이터에 목말라있다.

현재 우리의 ‘딥네츄럴 AI’ 서비스는 한국어 언어 자원을 수집·가공하는 기능을 우선적으로 개발하고 있다. 2020년부터는 한국어 이외의 언어 데이터도 지원할 예정이지만, 지금은 보다 중요한 한국어 데이터에 집중하고 있다.

또한 한국데이터산업진흥원의 데이터 바우처 지원사업에 가공 서비스 기업으로 선정돼, ‘딥네츄럴 AI’를 데이터스토어에 등록했다. 초기 스타트업들이 AI 기술 개발을 위해 큰 비용을 투자하기는 쉽지 않으므로, 데이터 바우처 지원사업이 국내 데이터 산업을 활성화시키고 AI 기술력을 향상시키는 마중물 역할을 해주길 바란다.

‘임계점’ 넘기 위해 정부 투자 선행돼야
한편 국내 SW업계에서는 정부 주도의 데이터 유통 생태계 활성화에 대해 긍정적인 평가를 내리고 있다. 한 업계 관계자는 “데이터는 무조건 많고, 연결되고, 개방되면 유리하다. 다른 자원은 공유하고 사용하는 만큼 줄어들지만, 데이터는 오히려 가치가 늘어나는 자원이다. 정부가 이를 인식하고 융단폭격에 가까운 투자에 나선 것 같다”고 평가했다.

이전까지는 행정안전부나 기상청, 통계청 등 전문적인 데이터를 보유한 기관들이 공공데이터 개방에 앞장서왔다. 최근에는 시청 수준의 작은 지자체들이 시정 데이터를 공개하는 사례가 늘어나고 있으며, 개인정보보호법 등에 의해 공개가 제한되고 있던 데이터들에 대해서도 정부가 앞장서서 규제를 개선하는 등 공개 방안을 찾고 있다.

공유·개방·유통되는 데이터가 특정한 임계점 이상으로 늘어나면 이를 활용해 혁신적인 비즈니스 모델을 구축하는 사례가 빠르게 확대되고, 데이터 기반의 스타트업들이나 다양한 데이터를 융·복합해 대규모 프로젝트를 수립하는 사례가 일어나는 등 활용 사례가 폭발적으로 늘어날 전망이다. 하지만 민간 시장에서 자생적으로 대규모 데이터 유통 플랫폼을 구성하거나 공개 데이터 플랫폼을 만들어나가는 것은 어려우므로 정부가 주도적으로 데이터 생태계 확충에 나서는 것은 환영할 일이다.

다만 이러한 데이터들이 원활히 공유되고 유통되기 위해서는 데이터를 공유할 수 있는 기술과 표준화에 대한 고민이 필요하다. 각 기관에서 생산 및 구축해 공개하는 데이터들이 같은 기술 플랫폼 상에서 단일한 데이터 표준을 지키면서 서로 공유될 수 있다면 데이터의 활용성이 비약적으로 상승하기 때문이다.

데이터 공유 방식에 있어 현재 가장 주목받고 있는 플랫폼은 CKF(Comprehensive Knowledge Foundation)에서 개발한 오픈소스 데이터 연계 플랫폼 CKAN(Comprehensive Knowledge Archive Network)이다. CKAN은 그대로 사용하면 메타데이터나 데이터 라이프사이클을 관리할 수 있는 플랫폼이지만, 같은 CKAN을 사용하고 있는 다른 플랫폼과 손쉽게 연결할 수 있는 특징을 가지고 있다. 데이터 분석이나 시각화와 같은 기능은 다른 플랫폼에 비해 상대적으로 부진하지만, 데이터 관리·운영·라이선싱 등 본연의 목적인 데이터 연계와 유통을 위한 기능에서 우수하다.

또한 데이터들 사이의 상호운용성을 확보하기 위한 표준으로는 DCAT(Data Catalog Vocabulary)이 사용되고 있다. DCAT 역시 데이터 카탈로그들 사이의 문법을 통일해 데이터 검색 및 활용성을 높일 수 있으며, 여러 사이트 간의 데이터 분산 저장 및 공유 환경을 지원하는 데에 유리하다. 국내에서도 많은 기관들이 데이터 연결을 보장하는 표준 인터페이스 규격을 DCAT을 선택해 활용하고 있다.

▲ CKAN DCAT 기반으로 구축된 유러피안 데이터 포탈(왼쪽)과 HDX(오른쪽)

CKAN과 DCAT의 조합은 전 세계에서도 널리 사용되고 있는 공유 플랫폼 구성이다. ‘유러피안 데이터 포탈(https://www.europeandataportal.eu)’, ‘아이리쉬 오픈 데이터 포탈(https://data.gov.ie)’, ‘HDX(https://data.humdata.org)’ 등이 대표적이다.

현재 국내에서도 2011년 7월 오픈한 ‘공공데이터 포털’, 서울시청의 ‘열린 시정’, 한국데이터산업진흥원의 ‘데이터스토어’ 등이 CKAN과 DCAT을 활용하고 있다. 아울러 과기정통부의 ‘빅데이터 플랫폼 및 센터’ 구축사업에서도 CKAN과 DCAT을 표준 기술로 지정해, 향후 국내 데이터 유통·공유 플랫폼들의 기준으로 자리잡을 것으로 보인다.

“CKAN DCAT, 전 세계와의 데이터 공유 가속화할 수 있는 기술”
김형근 모비젠 연구소장

▲ 김형근 모비젠 연구소장

Q. CKAN DCAT 방식이 선호되는 이유는?
CKAN과 DCAT은 이미 해외에서 검증된 사례가 많고, 정부에서 추진하고 있는 데이터 공유·유통 플랫폼 구축에 최적화된 ‘표준’과 ‘개방’을 지키는 플랫폼이다.

CKAN에서는 서로 다른 데이터센터들 간에 데이터를 공유·연계할 수 있고 이를 ‘하베스팅(harvesting)’이라는 용어로 표현한다. 하베스팅을 하면 CKAN으로 구축한 데이터 센터 간에는 서로 손쉽게 데이터를 ‘수확’하고 활용할 수 있다.

이는 비단 국내에만 한정된 게 아니다. 전 세계에서 많은 기관들이 CKAN DCAT 방식을 지켜서 데이터 플랫폼을 구성하고 있으며, 다양한 데이터 표준 중 가장 국제적인 협력이 잘 일어나고 있다. 따라서 국내에서 CKAN DCAT을 준수해 구성한 데이터 플랫폼에서는 CKAN으로 구현된 해외 플랫폼의 데이터도 손쉽게 활용할 수 있다. 한국정보화진흥원에서는 ‘데이터스토어’의 ‘글로벌 데이터’ 페이지에서 CKAN DCAT으로 구성된 다양한 해외 데이터 플랫폼들을 안내하고 있으며, 해당 플랫폼에 올라가있는 데이터 상품들을 확인할 수 있다.
 

Q. 모비젠이 보유한 오픈 데이터 플랫폼 기술은?
모비젠은 지난 2017년부터 국책과제인 ‘국제표준 기반 오픈 데이터 유통 플랫폼 확장 기술 개발’에 참가해 ‘아이리스(IRIS) 오픈 데이터 플랫폼’을 개발했다. ‘아이리스 플랫폼’은 국제 표준에 기반한 유통 플랫폼으로서 CKAN을 고도화하고 국내 환경에 맞게 다양한 관리 및 유통 기능을 추가한 솔루션이다.

가령 유료 결제 기능 등이 새롭게 추가됐다. 본래 CKAN은 데이터의 무료 공유·개방을 위해 만들어진 플랫폼이다. 그래서 CKAN 자체에 별도의 결제 기능은 포함돼 있지 않다. 그런데 국내에서는 유료 데이터를 가지고 있는 기관들을 영입하고 데이터의 개방과 거래를 모두 실행하기 위해서는 유료 결제 모듈을 더할 필요가 있었다. 그래서 결제 기능을 CKAN과 연계해 유통 플랫폼으로 재조정하는 기능을 추가했다.

한편 해당 국책 과제의 목표에는 CKAN을 우리나라 환경에 맞게 조정하는 것 뿐만 아니라 오픈소스 CKAN에 대해 코드 기여를 하는 것도 포함돼 있었다. 현재 모비젠은 CKAN에서 사용하고 있는 성능 관련 이슈와 실시간 스트림 하베스팅 기능 등에 대해 코드 기여를 하고 있다.


Q. 공공데이터는 사용하기 어렵고 품질이 낮다는 불만에 대해 어떻게 생각하는가?
전 세계 어디를 가나 처음부터 깔끔하게 만들어져 있는 데이터는 단 하나도 없다. 무료로 공유되는 데이터의 품질이 낮으니 우리는 못하겠다고 내던지는 게 아니라, 질낮은 데이터를 가져다가 가다듬고 가공해서 사용할 수 있도록 만들어서 써야 한다. 그렇게 하고 싶지 않다면 적절한 비용을 지불하고 데이터 가공 업체를 이용해도 될 것이다. 어느 쪽이든 비용이 드는 작업이다.

데이터를 가공하는 데에는 비용이 들고, 따라서 외부에서 생산된 데이터를 필요로 하는 기업이라면 데이터에 대한 구매 비용을 예산으로 할당해야 한다. 우리가 1년 예산을 짤 때 서버 구매비용이나 인프라 유지 비용 등을 고려하는 것처럼, 데이터 구매에 어느 정도 예산을 투자할 것인지 고민할 필요가 있다. 데이터에 대한 소비가 늘어나면 데이터를 생산하는 생태계도 확대될 것이고, 이는 전체적인 데이터의 품질 향상으로 이어질 것이다.

“데이터 유통, 모두의 업무로 이해해야”
김형근 모비젠 연구소장은 “데이터 개방과 공유 정책을 각 기관의 중요한 업무로, 각 개인의 중요한 역할로 인식해야한다”고 강조했다. 공공기관과 기업들이 자사의 이익만 신경쓰며 데이터를 꽁꽁 숨기는 것은 바람직하지 못하며, 이는 해당 데이터의 가치를 떨어트린다는 점에서 국가적인 손실일 뿐만 아니라 해당 기관의 손실이기도 하다.

데이터를 공유하기 위해서는 해당 데이터를 생산하고 공유하려는 담당자가 최소한의 가공을 해야 한다. 이는 본래라면 하지 않아도 될 업무이기에 당연히 일은 늘어나고, 처음 해보는 일이라면 쉽지 않을 수도 있다. 하지만 데이터를 공개하기 위해 정리하고 손보는 과정에서 그 데이터가 가지고 있는 가치를 재조명하게 되고, 그렇게 가공돼서 가치를 부여받은 데이터가 유통되면서 서로 다른 가치를 가진 데이터를 만나 시너지를 일으키게 될 것이다.

데이터의 공유와 개방, 민간 데이터까지 포함한 유통 생태계를 만들고자 하는 정부의 방침에 대해서는 공공과 민간 모두 긍정적인 반응을 보이고 있다. 멀지 않은 미래가 데이터 중심 사회로 예측되는 가운데, 정부의 데이터 중심 정책이 어떠한 결과로 이어질지 귀추가 주목된다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지