[커버스토리] 생성형 AI, 데이터 업계 변화의 ‘신호탄’을 쏘다

‘데이터 시대’에서 ‘모델의 시대’로 데이터 유통 약화에 합성데이터, 데이터 웨어하우스 회귀 등 주목

2025-02-28     박재현 기자

[컴퓨터월드] 혁신성을 앞세운 생성형 인공지능(Generative AI)이 산업 전반으로 빠르게 확대되고 있다. 생성형 AI는 데이터 분석에도 스며들었다. 바로 데이터 분석 전(全) 주기 중 데이터 활용·분석 단계에서 생성형 AI가 고정적으로 쓰이는 것이다. 뿐만 아니라 앞단인 데이터의 수집·유통·저장 과정에도 변화를 야기하고 있다. 이미 수많은 데이터를 학습한 AI 모델이 유통되기에 일반 기업이 데이터를 대거 수집할 필요가 없어졌기 때문이다. 이제 데이터를 대규모로 확보하고 유통하는 데 집중했던 ‘데이터 시대’가 저물고, 수많은 데이터를 학습한 AI 모델이 유통되는 ‘모델의 시대’가 도래하고 있다. 데이터 시대에서 모델의 시대로 바뀌면서 변화하는 사항들을 조명해 본다.


생성형 AI 이용 기업, 데이터 유통 필요성 약화

거대언어모델(LLM) 기반 생성형 인공지능(AI)은 작게는 특정 부서나 공공기관의 업무에 사용되거나, 크게는 기업의 비즈니스 그 자체로 적극 확대되고 있다. 부서나 공공기관에서는 축적된 데이터를 특정 산업에 맞게 이미 여러 차례 데이터가 학습된 생성형 AI에 입력해 비서와 같이 활용하고 있기도 하고, 국내에서 소프트웨어(SW) 비즈니스를 영위하는 기업은 보유한 제품에 공개된 생성형 AI 모델이나 자체 개발·패키징한 AI 모델을 접목해 비즈니스 인텔리전스(BI) 기능을 고도화하며 비즈니스의 활로를 모색하고 있다.

이러한 행태는 기존의 수집·생성, 저장, 통합·관리, 분석, 활용 등 데이터 분석 전(全) 주기 가운데 데이터 분석·활용 단에 생성형 AI 모델이 고정됐다는 의미로도 해석된다. 기존에는 기업들이 데이터를 직접 수집하고 ETL(추출·변환·적재) 도구를 활용하는 등의 과정을 거쳐 정제한 후, 분석 목적에 맞게 데이터 웨어하우스(DW)나 데이터 마트(DM)를 구성하고 데이터 분석 툴을 사용해 인사이트를 뽑아냈다. 하지만 최근에는 데이터 수집 과정 없이 이미 학습이 잘 돼있는 AI 모델을 가져와 정제된 데이터를 입력하고 즉각적으로 인사이트를 추출하고 있다.

정부가 운영하는 공공데이터포털 화면

이처럼 데이터 수집 과정이 간소화되기 시작했다는 것은 기존의 데이터 수집, 즉 유통 과정의 중요도가 낮아진다는 방증이기도 하다. 일반적으로 기업들은 자체적으로 보유한 데이터 외에도 데이터 분석 인사이트의 품질을 향상하기 위해 외부의 데이터도 수집했다. 이렇게 수집한 수많은 데이터를 데이터레이크(DL)에 모아 필요한 데이터를 뽑아 분석했다. 고품질의 결과를 얻기 위해서는 자체적으로 보유한 데이터 외에도 추가로 데이터를 수집할 수밖에 없었다.

사실 지금까지의 데이터 유통 과정은 공개된 데이터를 합법적으로 구매할 수 있는 마켓플레이스를 통해 확보하거나, 암암리에 데이터 브로커(Data Broker)를 통해 구매하는 방식으로 이뤄졌다. 우리 정부의 AI 허브를 비롯해 합법적으로 데이터를 구매할 수 있는 방식도 있다. 공개 데이터 역시 데이터 품질은 좋지만, 의료 산업군과 같이 특정 산업군의 경우 공개된 데이터가 목적에 맞지 않아 활용되기 어렵다.

데이터 유통 업계 한 관계자는 “타국 기업을 통해 데이터를 유료로 구매해서 사용하곤 한다. 실제로 AI 모델의 성능을 향상하는 과정에서 필요한 데이터 영역이 존재한다. 하지만 공개 데이터로는 특성화된 AI 모델의 수요에 충족할 수 없는 경우가 있다”면서 “일례로 의료데이터의 경우 일반 병원이 보유한 X레이 데이터는 해상도가 낮고 프로토콜에 차이가 있어 사용할 수 없다. 하지만 높은 해상도의 X레이 데이터를 보유한 대학병원의 경우 개인정보보호법으로 인해 활용하기 어렵다. 그렇기에 데이터 브로커를 통해 외국의 데이터를 받아오곤 한다. 이를 통해 X레이 데이터를 학습시켜 새로운 병증 유형에 대응할 수 있는 의료 AI 모델을 확보할 수 있게 된다”고 설명했다.

아울러 이러한 데이터 브로커를 활용하는 또 다른 이유로 한 관계자는 “우리나라는 데이터 거래소들에서 체계적으로 데이터들이 유통되고 있다. 데이터의 종류에 따라 다르지만, 비정형 데이터의 경우 품질 차원에서 문제도 있다. 가령 텍스트로 이뤄진 비정형 데이터의 경우 특정 종류의 대화 말뭉치가 있는 정도일 뿐이지, 말뭉치 자체를 평가하는 방법이나 점수 등이 없다. 또한 AI 학습이 쉽도록 RAG와 같이 포매팅이 잘 된 문서가 아닌 DB에서 쿼리를 날려 받을 수 있는 구조다. 이러한 패턴의 변화도 필요하다”고 말하며 비정형 데이터 관련 데이터 거래소의 부족한 점을 지적했다.

데이터 유통 과정의 간소화로 인해 더 이상 기업들은 데이터 수집·유통에 공수를 쏟지 않아도 된다는 것이다. 이는 곧 데이터 확보를 위한 노력을 비즈니스에 더욱 집중할 수 있는 기회이기도 하다. 크게 보면 유통, 조달 체계의 변화로 ‘데이터의 시대’가 아닌 ‘AI 모델의 시대’로 진화하고 있음을 시사한다.

한국교통대학교 곽정환 교수는 “기업들이 자체적으로 수많은 데이터를 유통하고 조달할 필요 없이, 이미 수많은 데이터를 토대로 학습한 모델을 일반 기업들이 활용하고 있다. 기존의 데이터 분석 과정에서는 적게는 수십억 원, 많게는 수천억 원이 들어가는 투자가 필요했지만, 대규모 투자 없이 모델 이용료로 같은 가치를 얻을 수 있기 때문”이라면서 “이는 데이터 유통이 아닌 이제 AI 모델 유통이 강화하고 있음을 시사한다. 가령 생성형 AI 모델을 유통하는 기업은 스마트팩토리(SmartFactory)나 스마트팜(SmartFarm) 등 특정 산업군에 적합하게 패키징하고 유통하기 시작할 것이다. 이는 데이터의 시대는 저물고 모델의 시대가 떠오를 것이라는 점을 방증한다”고 설명했다.


AI 공급사, 데이터 수집·유통 ‘고심’…국내 AI 기업 환경 ‘가혹’

생성형 AI 모델을 분석에 활용하는 일반 기업들이 늘면서 데이터 유통의 중요성이 약해지는 한편, AI 모델 공급사들은 데이터 수집·유통 과정을 되려 강화되고 있다.

생성형 AI 모델을 활용하기만 하면, 기업들은 대규모 데이터를 모두 모을 필요가 사라진다. 이미 클라우드나 AI 모델 공급사들이 엄청난 양의 데이터를 학습해 똑똑한 모델을 만들어놨고, 이를 호출해 사용하기만 해도 충분한 성능을 발휘하기 때문이다. “우리 회사가 직접 데이터를 대량으로 확보해 뭔가를 분석해 봐야겠다”는 동기가 크게 줄어든다.

이와는 반대로 AI 모델 공급사나 패키징 기업들은 꾸준히 많은 데이터를 확충해 좋은 모델을 만들고 시장에 출시하고 있다. AI 모델 공급사 입장에서는 데이터 유통의 중요성이 확대된다는 의미다. ‘생성형 AI 모델’이라는 포장지 안에 엄청난 양의 데이터 가치가 담겨 있는 것이다.

하지만 AI 모델 공급사들은 데이터 부족 문제를 마주하고 있다. 실제 최근 ‘AI 모델 학습을 위한 데이터 부족’ 문제가 대두되고 있다. 생성형 AI를 대표하는 권위자인 오픈 AI의 샘 올트먼 CEO는 “챗GPT(ChatGPT)가 학습할 수 있는 데이터가 3년 내 없어질 것”이라고 강조한 바 있다. 실제로 오픈 AI는 학습 데이터 부족 문제로 GPT-4 이후 메이저 업데이트를 못 하고 있다. 테슬라 및 xAI의 일론 머스크 CEO는 “인간이 생성한 데이터의 누적 총량은 훈련 목적으로 소진된 상황이다. 고품질의 데이터는 이미 대부분 사용됐다. 또한 데이터 스크래핑 규제가 생겨 데이터 수집이 제한되고 있다”면서 “사용 가능한 데이터의 상당 부분은 반복적인 데이터기에 품질이 낮다. 고품질이면서 다양한 종류의 데이터에 대한 필요성이 중요해졌고, 부족 문제는 더욱 심화될 것”이라고 역설한 바 있다.

일론 머스크 CEO는 “AI 학습에 쓸 실제 데이터 거의 고갈됐다”고 강조했다.

AI 모델 공급사들의 데이터 부족 문제는 AI 모델 진화 과정에 △모델 개선 둔화 △비용 증가 △편향성 위험 증가 등을 초래할 수 있다. 먼저 고품질의 데이터가 부족할 경우 모델 개선이 둔화할 수 있다. AI 모델의 크기가 커지면서도 더욱 개선되기 위해서는 필요한 데이터의 양이 기하급수적으로 늘어난다. AI 모델이 접근할 수 있는 데이터가 소진될 경우, 성능 고도화를 꾀하기 어려워 모델 기능이 잠재적으로 정체될 수 있다. 이는 곧 AI 모델 공급사로 하여금 훈련 주기와 강도를 조절해야 할 뿐만 아니라, 데이터의 양이 아닌 품질에 의존하도록 강요하게 된다.

이는 곧 편향성 위험도 증가로 이어진다. 일반 AI 모델이 데이터가 소진돼 유사한 데이터 풀에서 훈련될 경우, 기존 답변 품질과 유사하게 균형을 맞출 수 있는 새로운 답변이 아닌 기존 답변에서 어긋난 방향으로 출력값을 제시하게 될 것이라는 얘기다. 마지막으로 비용 역시 증가한다. 데이터가 부족할 경우 AI 모델 공급사들은 고품질 데이터를 얻기 위해 값을 대거 투입해 데이터 거래를 추진하고자 할 것이다. 예를 들어, 오픈 AI는 기존 미디어 조직 및 게시자로부터 독점 데이터 세트를 확보하기 위해 수억 달러를 소비하기도 했다. 이는 대규모 모델의 훈련비용을 늘리게 된다. 예산이 부족한 AI 모델 공급사의 AI 모델 고도화에 제약이 발생하게 되는 것이다.

이러한 AI 모델 학습을 위한 데이터 수집·유통의 문제는 글로벌 AI 기업보다 국내 AI 기업에 크게 다가오고 있다. 한국교통대학교 곽정환 교수는 “미국 오픈 AI의 경우 GPT-3.5 이전 버전은 위키피디아나 책 내용 등을 학습데이터로 활용했다. 하지만 GPT-3.5 이후 버전부터는 민감한 데이터를 상당히 많이 활용했다. 그렇기에 GPT-4.5부터는 AGI(인공 일반 지능) 수준에 근접할 정도의 성능을 낸다고 알려졌다. 아마 사람들이 사용하면서 수집한 데이터를 기존의 데이터와 이격해 학습하는 방식을 채용하고 있을 것”이라면서 “우리나라는 글로벌 AI 기업과 달리 여건조차 마련돼있지 않다. 개인정보보호법과 공개데이터 활용 제한, 저작권 문제, 라이선스 계약 복잡성, AI 기본법 내 AI 사업자의 학습데이터 공개 의무화 등 데이터 수집 규제가 너무 많은 상황이다”라고 부연했다.

국내 AI 기업들이 준수해야 하는 데이터 확보 법적·제도적 제약은 데이터 수집과 활용을 위한 비용과 복잡성을 크게 증가시킨다. 또 이는 AI 모델의 성능 향상과 혁신을 저해하는 주요 요인으로 작용하고 있다. 향후 정부와 산업계가 협력해 규제 빗장을 허용할 수 있는 범위 내에서 구체화 및 해소하고, AI 개발에 필요한 데이터 활용 환경을 개선해야 한다.


대안으로 합성데이터 부각…장밋빛 전망도

이러한 상황에서 최근 해결책으로 주목받고 있는 키워드가 있다. 바로 ‘합성데이터(Synthetic Data)’다. 이에 대해 세종사이버대학교 AI 교육센터장 및 IT커뮤니케이션센터 소장인 김덕진 교수는 “이제 더 이상 학습할 수 있는 공개된 데이터가 없다. 실제로 고품질의 데이터나 이미지 데이터의 경우 부족한 상황에 직면했다. 이런 상황에서 데이터를 확보하는 방안은 두 가지다. 하나는 기업이 보유하고 있는 공개되지 않은 데이터에 접근하는 것, 다른 하나는 새로운 데이터를 만드는 것이다. 하지만 전자의 경우 데이터를 매매할 수 있는 마이데이터(Mydata) 환경이 마련되기까지 시일이 소요될 수 있고, 제대로 지켜지지 않으면 도덕적인 차원에서의 문제가 발생할 수 있기에 위험 요소가 존재한다”면서 “그렇기에 최근 업계에서는 데이터를 새롭게 만드는 합성데이터에 주목하고 있고, 실제로 합성데이터를 시도하는 기업 및 조직도 생기기 시작했다”고 설명했다.

합성데이터는 실제 데이터를 다양한 알고리즘에 합성해 새롭게 생성된 데이터를 의미한다. 딥러닝 기법을 채용한 생성적 적대 신경망(GAN) 및 확률론적 접근법을 기반으로 하는 변분 오토인코더(VAE) 등과 같은 알고리즘에 실제 데이터를 결합해 데이터를 생성한다. 두 가지 알고리즘 모델은 작동 방식과 목표에 차이가 존재하지만 기존 데이터를 학습해 새로운 데이터를 생성하는 데 중점을 둔 모델이다.

한국교통대학교 곽정환 컴퓨터소프트웨어학과 교수는 “GAN은 생성자(Generator)와 판별자(Discriminator) 등 두 개의 신경망이 서로 경쟁하며 학습하는 구조를 갖고 있다. 생성자는 새로운 데이터를 생성하려고 시도하는 신경망이고, 판별자는 생성된 데이터가 실제 데이터인지 만들어진 데이터인지 판별하는 신경망이다. 두 신경망 사이의 경쟁 과정을 통해 생성자는 실제와 구분이 어려운 데이터를 생성한다. 확률론적인 접근법을 기반으로 구동되는 VAE는 입력된 실제 데이터를 잠재공간(Intent Space)으로 변환하고 이를 이용해 데이터를 생성하는 기법이다. 데이터 분포를 학습해 실제 데이터와 유사한 새로운 데이터를 생성할 수 있다. 가령 자동차 이미지를 학습한 VAE는 특정 색상, 외관, 헤드라이트 조건 등을 제어하며 새로운 데이터를 만드는 것을 예로 들 수 있다”고 합성데이터의 두 가지 핵심 기법을 소개했다.

이처럼 데이터 부족 문제를 직면하고 있는 현 AI 및 데이터 업계에서는 합성데이터에 주목할 수밖에 없는 상황이다. 국내 AI 및 SW 권위자인 한 관계자는 “합성데이터는 원하는 형태의 데이터를 저렴하고 도덕적으로 값싸게 만들 수 있다. 또 AI 알고리즘 모델이 만들고자 하는 분야의 데이터 패턴을 잘 인식하기만 하면 합성데이터를 만들기도 쉽다. 물론 보유한 데이터가 적으면 어렵지만, 데이터를 적정량 보유한 곳이라면 쉽게 생성할 수 있다. 그렇기에 데이터 부족 문제를 해결할 수 있는 합성데이터의 전도는 유망하며, 향후 데이터를 수집하고 생성하는 핵심 방안으로 자리매김할 것이다”라고 강조했다.

[인터뷰] “실시간 데이터 처리 방식 대두될 것”
세종사이버대학교 AI교육센터장/IT커뮤니케이션센터 소장 김덕진 교수

향후에는 스트리밍 데이터 처리가 중요해질 것으로 예상된다. 기존 데이터 분석을 통한 의사결정의 경우 AI가 완전 학습한 데이터를 기반으로 답했다. 하지만 거기에 검색엔진을 붙여서 AI와 상호작용하고, AI는 RAG를 통해 현행 데이터까지 읽어올 수 있는 방식으로 고도화되고 있다.

이 과정에서 AI는 보유한 데이터에서 결괏값을 찾기 위해 시간을 할애한다. 달리 말하면 보유한 데이터에서만 결괏값을 만들며 데이터가 늘어나지는 않는다. 생성형 AI 시대에는 외부에 있는 데이터를 연결해 실시간으로 스트리밍하고 결과를 던지는 형태가 주목받을 것이다. 데이터를 구조화하는 과정에서 주기를 정해 스트리밍 데이터를 저장·학습한 후 휘발해도 된다. 예를 들면, 박사과정을 마친 신입사원을 1년간 해외 연수를 보내기보다 매일 글로벌 최신 정보를 볼 수 있도록 해주면 오히려 업무 역량이 더욱 높아질 것이다. 최신 정보를 구조화해서 주면 답변을 잘할 수 있도록 만든다는 것이다.

스트리밍 데이터를 AI에 활용할 수 있는 가능성도 충분하다. 현재 소속 센터에서는 스트리밍 데이터인 주식 데이터를 생성형 AI와 접목해 주식 매매 의사결정을 지원할 수 있는 서비스도 시험했다. 주식 데이터는 장이 열린 동안 실시간으로 주가 정보가 변동한다. 이때 AI 모델은 이전에 주식과 관련된 정보를 학습한 상황이다. 이때 지속적으로 발생하는 데이터를 비롯해 5시간 통합 데이터, 7일 통합 데이터를 입력하고 주식 매매를 물어볼 수 있다. 차트 데이터는 일정 주기가 지나면 누적되지 않도록 휘발성 구조를 채택하기도 했다.

물론 이러한 문제는 규제 관리와도 연결될 것이고, 스트리밍 데이터의 소유권 및 저작권의 문제도 중요해질 것으로 본다. 가령 모든 데이터를 수집하고 AI를 학습하는 과정에서 2차 저작권은 분명 이슈가 될 것이다.

인터넷으로 뉴스를 크롤링하지 않고 단순히 보고 정보를 습득하고 페이지에서 나가는 것과 같은 형태로 저작권 문제서 벗어날 수도 있을 듯하다. 이와 관련해서 휘발성·비휘발성 데이터 관리 체계, 저작권 트래킹 체계 등도 개발될 수 있을 것 같다.

 

합성데이터 남발 시 ‘모델 붕괴’ 우려…관건은 품질 확보

합성데이터가 ‘데이터 수집·유통 체계 확보’라는 문제 해결에 열쇠로 부상할 것이라는 전망은 자명한 사실이 되고 있다. 합성데이터는 실제 데이터를 통계적 모델이나 AI에 적용해 생성한 인공적인 데이터로 실제 데이터의 분포, 구조, 특성을 모방하면서도 다양성과 희귀 케이스 보완, 비용 및 시간 절감 등에 이점을 준다.

하지만 합성데이터의 품질에 대한 우려도 존재한다. △사실성 부족 △편향 전파 △모델 붕괴 △개인정보 및 보안 위험 등이 대표적이다. 먼저 합성데이터는 실제 데이터를 기반으로 생성된다. 하지만 기존 데이터가 갖는 복잡한 상관관계나 변형을 누락할 수 있다. 합성데이터가 쓰이는 AI 모델이 상관관계나 복잡성을 완전히 이해하지 못하는 경우도 존재한다.

아울러 편향성이 전염된다는 점이다. 합성데이터는 실제 데이터를 기반으로 생성된다. 이는 달리 말하면 기존 데이터가 편향성을 띠는 경우 합성데이터 세트에서는 더욱 증폭될 수 있다는 것이다. 다음은 개인정보 보호 및 보안 위험이다. 합성데이터는 개인정보를 보호할 수 있는 수단이면서 동시에 기존 데이터의 개인정보가 포함될 수 있는 여지가 있다. 민감한 데이터가 관련될 때 재식별의 위험을 야기할 수 있다. 특히 합성데이터를 생성하는 과정에서 기존 데이터가 보유한 유해한 정보를 계승하는 것과 같은 비윤리적 생성을 관리해야 한다.

마지막으로 가장 중요한 ‘모델 붕괴(Model Collapse)’ 우려가 있다. 모델 붕괴는 자체적인 출력값을 재학습하는 생성형 AI 모델에서 발생하는 현상이다. 생성형 AI 모델이 합성데이터를 다시 학습 데이터로 사용하게 되면, 원래의 실제 데이터 분포와 차이가 있는 오류나 노이즈가 점차 누적된다. 이렇게 누적된 오류는 모델이 원래 데이터의 희귀한 부분이나 미세한 차이를 잃어버리게 만들고 종국에는 모델 붕괴로 이어진다.

아울러 누적된 오류나 노이즈는 다음 학습 단계에서 다시금 누적되고 늘어나면서, AI 모델이 왜곡된 데이터를 학습하게 한다. 이로써 모델의 출력이 원래 분포에서 크게 벗어나게 만드는 결과를 낳는다.

합성데이터로 인해 모델 붕괴가 발생하면 AI 모델 답변의 다양성도 줄어든다. 품질이 낮은 합성데이터가 AI 모델에 적용되면 전체 분포를 포착하지 못하고, 극히 일부의 데이터 특정 패턴이나 종류만을 반복적으로 생성하게 된다. GAN과 같은 모델에서는 생성자가 한정된 몇 개의 모드를 생성하면서 판별자를 속이게 되는데, 전체 데이터 분포의 다양성을 축소할 수 있다.

이렇게 합성데이터로 인해 발생한 모델 붕괴가 지속되면 모델의 일반화 능력과 품질이 크게 저하된다. 실제 환경의 다양한 상황을 반영하지 못하게 돼 새로운 입력에 대해 적절한 반응을 보이지 못하며 일반화가 저해될 수 있고, 반복적으로 자기 출력을 학습할 경우, 모델은 점차 ‘평범한’ 출력만을 내면서 창의성이나 예측력이 크게 떨어진다. 이는 결국 AI 시스템의 전반적인 성능 저하로 이어질 수 있다.

생성형 AI 챗봇 이미지(출처: 픽사베이)

합성데이터를 기반으로 AI 모델을 학습할 때 품질을 높일 수 있는 방법도 존재한다. 한국교통대학교 곽정환 교수에 따르면, 통상적으로 합성데이터를 기반으로 AI 모델을 학습할 때 실제 데이터와 합성데이터를 동시에 사용한다. 이때 실제 데이터와 합성데이터의 비율을 조정하면, 모델 붕괴 발생 비율이 현저하게 줄어든다는 것이다. 대체로 실제 데이터와 합성데이터의 비율을 70%:30% 혹은 50%:50%로 조정하는 것이 AI 모델 고도화를 위한 학습에서 모델 붕괴 발생 확률이 낮았다. 혹은 실제 데이터 30%, 합성데이터 70% 비율도 긍정적인 결과를 보인 바 있다.

세종사이버대학교 김덕진 교수는 “합성데이터 기반 AI 모델 학습 과정에서 중요한 것은 합성데이터를 실제 데이터와 균형감 있게 활용해야 한다는 것이다. 어느 한쪽에만 치우쳐 재학습을 지속하면 오히려 모델의 다양성과 신뢰도가 줄어들 수 있다. 결국 합성데이터를 적극적으로 사용하되, 품질을 꼼꼼히 체크하고, 실제 데이터로 점검하면서 모니터링할 수 있는 체계를 갖추는 것이 매우 중요하다”고 강조했다.

향후 합성데이터와 관련한 품질의 중요성을 강조할 것으로 예상되는 가운데, 고품질의 합성데이터 비율(레시피)을 만들고 자산화하는 것이 하나의 시장으로 떠오를 것이라는 전망도 나온다. 김덕진 교수는 “데이터 라벨링 기업들의 경우 데이터에 꼬리표를 잘 붙인 고품질의 데이터를 갖고 합성데이터를 만드는 사업으로 확대할 수 있다. 이 과정에서 합성데이터를 만드는 비율이 곧 경쟁력이 될 것”이라면서 “합성데이터로 인해 데이터 분석가의 역할이 확대될 것으로 추측된다. 데이터 분석가들이 실제 데이터를 수집·정제하고 분석하는 것을 넘어, 합성데이터 기반 AI 모델 성능 모니터링, 합성데이터 품질 보증 등과 같이 합성데이터의 품질을 유지하고 관리하며 평가하는 일까지 도맡을 것으로 예상된다”고 전망했다.


데이터 웨어하우스로 회귀할까, 레이크하우스로 진보할까

데이터 수집·유통 관점에서 생성형 AI가 많은 변화를 초래하고 있다. 이러한 변화는 데이터 수집의 바로 다음 단계인 저장에도 영향을 주고 있다.

과거에는 ‘일단 데이터를 많이 모아두면, 언젠간 쓰이겠지’라고 생각하는 경우가 많았다. 그러면서 스키마리스(Schemaless) 형태로 무작정 쌓아두는, 이른바 데이터레이크(DL) 방식이 최근까지 국내·외 기업들 사이에서 유행했다. 하지만 생성형 AI로 인해 데이터 수집을 위한 유통 과정에 변화가 생겼고, 이러한 변화는 저장 단에도 영향을 주기 시작했다.

바로 ‘데이터레이크’로의 전환 트렌드가 △데이터 웨어하우스로의 회귀 △데이터 레이크하우스(Data Lakehouse)로의 진보 등 두 갈래로 나뉘기 시작한 것이다.

먼저 데이터 웨어하우스로 회귀하려는 움직임이 예상된다. 데이터 분석과 활용 단에 수많은 데이터를 이미 학습한 대형 AI 모델이 존재하고 있기에, 기업에서는 데이터레이크에 수많은 데이터를 보관할 필요가 줄어든 것이다. 이러한 움직임은 ‘필요할 때 쓰려고 무작정 쌓아두는 것보다는, 중요한 데이터에 더 집중하는 것’에 적합한 데이터 웨어하우스 개념의 중요성이 다시금 부상할 것이라는 얘기다. 이는 무조건적인 데이터의 양보다 데이터의 품질·정확도·거버넌스를 중시하는 쪽으로 기업의 전략이 선회할 수 있다는 점을 시사한다.

데이터 저장소 변천 (출처: 스노우플레이크)

이와 동시에 또 다른 갈래도 눈에 띈다. 바로 데이터레이크와 데이터 웨어하우스의 강점만을 결합한 ‘데이터 레이크하우스’로의 고도화다. 이와 관련해 한국교통대학교 곽정환 교수는 “데이터레이크가 사라지지는 않을 것으로 예상된다. R&D나 비정형 데이터를 분석하기 위해선 여전히 데이터레이크가 필요할 수 있다. 하지만 시대가 바뀌면서 기업들은 유연하지만 체계도 갖춘 형태인 데이터 레이크하우스와 같이, 데이터 웨어하우스의 품질 관리와 데이터레이크의 유연함을 결합한 모델을 채택할 것으로도 예상된다”고 말했다.

두 갈래의 진화 방향을 종합해 보면, 미래는 필요한 데이터를 빠르게 흡수하되 결정적으로 핵심 데이터는 엄격한 스키마와 품질 관리를 적용하는 방향일 것으로 예상된다. 여기에 더해 생성형 AI까지 더해지면, 사실상 ‘데이터를 어디까지 보관할 것인지, 어떤 상태로 유지할 것인지’를 보다 정교하게 고민하기 시작할 것이다. 데이터레이크에 무작정 쌓아두는 방식보단, 목적이 뚜렷하고 품질이 보장된 데이터 웨어하우스 형태 혹은 더욱 고도화된 데이터 레이크하우스가 부각될 가능성이 높다.

한편, 현재 업계에서는 데이터 레이크하우스가 조명받고 있다. 하지만 아직 많은 기업이 데이터 웨어하우스에 머물고 있거나 데이터레이크로 일부만 전환한 상황이다. 기업의 데이터 분석 역량이나 데이터 축적 환경에 따라 차이는 있지만, 현황을 톺아보면 많은 투자를 병행해야 하는 데이터 레이크하우스로의 전환보다는 기존 운영 중인 데이터 웨어하우스를 탄탄하게 강화하고 데이터를 깔끔하게 정제하는 방식으로의 방향이 우세할 것으로 예상된다.

[인터뷰] “학습에 필요한 데이터만 정제해 저장하는 체계 갖춰야”
한국교통대학교 곽정환 교수

Q. 데이터 관련 자문을 하면서 본 AI 기업들의 데이터 현황은.
A. AI와 관련해 데이터를 가꾸고 관리하는 기업이 있는 반면, 그렇지 못한 기업들도 많다. AI 관련 비즈니스를 영위하는 기업 중에는 이미 데이터레이크를 구축한 기업들이 많다. 하지만 면면을 살펴보면, 데이터레이크에 무작정 데이터만 수집하는 경향이 짙다. A 기업은 데이터를 어떠한 목적으로 수집했는지를 설명하지 못했다. 이 기업의 경영진은 ‘데이터가 없는 것’보다 ‘데이터가 많은 것이 좋다’는 생각을 하고 있었다.

또 다른 B 기업은 데이터 현황을 살펴봤을 때 ‘왜 이렇게까지 노력해서 데이터를 수집할까’라는 생각을 하게 만든 곳도 있었다. B 기업은 전문가에게 자문받고 끊임없이 데이터를 수집하고 있었다. 하지만 B 기업처럼 데이터 수집 주기가 빈번한 경우, 전체 데이터셋에서 일부를 선택해 대표성을 갖는 소규모 집합(샘플)을 만드는 과정인 ‘데이터 샘플링(Sampling)’은 느슨해진다. 이 기업은 1시간 단위로 데이터 샘플링이 이뤄지고 있었다. 데이터가 끊임없이 수집되는데 정작 로컬에 있는 데이터들의 패턴을 놓치고 있었다. 통상 학계 연구에서는 데이터 샘플링 주기가 0.25초 정도다.

Q. 데이터 수집 체계를 관리하지 못하는 기업에게 조언한다면.
A. AI가 주류인 현재, 무작정 데이터를 확보하는 것이 중요하다고 고수한다면, 경쟁에서 살아남을 수 없다. 꼭 필요한 데이터만 모으고, 학습에 필요한 형태로 잘 저장하는 체계가 갖춰져야 한다. 데이터 레이크하우스를 구축한다면 데이터 수집 이후의 체계를 잘 관리할 수 있다고 생각한다. 데이터 레이크하우스는 필요한 데이터를 빠르게 수집하되, 결정적인 핵심 데이터에는 엄격한 스키마와 품질 관리를 적용할 수 있다. 이를 기반으로 비즈니스의 목적으로 삼는 서비스나 솔루션에 적합하고 필요한 양질의 데이터를 잘 관리하고, 모델을 효과적으로 활용하는 것이 가치 있다고 생각한다.