[진단] 수면 위로 떠오른 AI 학습 데이터 저작권 분쟁

뉴욕타임스, 저작권 침해로 오픈AI 고소…쟁점은 공정이용 조항
TDM 면책 등 법·제도 마련 필요, 산업 발전·저작권 균형 맞춰야

[컴퓨터월드] 생성형 인공지능(AI)에 대한 관심이 커지는 만큼 이에 비례해 관련 분쟁도 늘어나고 있다. 챗GPT(ChatGPT) 등장 후 AI 관련 데이터, 콘텐츠 등에 대한 저작권 소송이 지난해 초부터 이어지고 있다. 특히 최근 뉴욕타임스가 오픈AI와 마이크로소프트(Microsoft, 이하 ‘MS’)를 저작권 침해로 고소하며 AI 학습의 저작권 문제가 수면 위로 떠올랐다. 뉴욕타임스와 오픈AI 간 법정 분쟁의 쟁점을 짚어보고, 국내외 AI 저작권 관련 상황에 대해 살펴본다.

뉴욕타임스 ‘수익 손실’ 주장, 오픈AI “소송 실익 없어”

지난해 12월 27일(현지시간) 미국 유력 일간지 뉴욕타임스가 저작권 침해를 이유로 오픈AI와 MS에 대해 소송을 제기했다. 뉴욕타임스 측은 “자사가 발행한 수백만 개의 기사가 뉴스 매체와 경쟁하는 자동화된 챗봇을 훈련하는 데 쓰였다”고 주장했다.

특히 뉴욕타임스는 고소장에 몇 가지 사례를 인용하며 오픈AI가 유료 구독을 해야 볼 수 있는 기사를 거의 그대로 발췌해 사용자에게 제공했다고 밝혔다.

뉴욕타임스는 챗GPT가 MS의 검색엔진 ‘빙(Bing)’으로 뉴욕타임스의 제품 리뷰 사이트 ‘와이어커터(Wirecutter)’의 결과를 그대로 재현한 사례를 제시하고 “와이어커터 기사 및 제휴 링크에 대한 트래픽 감소로 수익 손실이 발생한다”고 설명했다. 이 밖에도 환각(Hallucination) 현상으로 인한 뉴욕타임스 브랜드의 잠재적 손실 등을 언급하며 오픈AI와 MS에 대해 “정당한 대가 없이 얻은 자사의 콘텐츠로 고객을 빼앗는 대체재를 만들고 있다”고 말했다.

오픈AI는 지난달 8일 공식 블로그를 통해 뉴욕타임스 저작권 침해 소송에 관한 입장을 밝혔다. (출처: 오픈AI 홈페이지)

오픈AI는 지난달 8일(현지시간) 공식 블로그를 통해 “뉴욕타임스의 소송은 실익이 없다”는 입장을 밝혔다.

오픈AI는 저작권을 침해했다는 뉴욕타임스의 지적에 대해 “공개적으로 사용 가능한 인터넷 자료로 AI 모델을 학습시키는 것은 공정이용에 해당한다”고 설명했다. 또한 공정이용은 여러 분야에서 인정받고 있으며, EU(유럽연합)·일본 등에서는 AI 모델의 학습을 허용하는 법률이 있다는 점을 강조했다.

오픈AI는 이런 상황에서도 사이트 접근을 거부하는 옵트아웃(opt-out) 조항을 마련했으며, 뉴욕타임스는 지난해 8월 이를 적용한 바 있다고 덧붙였다.

뉴욕타임스의 원문이 그대로 쓰였다는 주장에 대해서는 챗GPT가 학습한 정보를 그대로 답변으로 내놓는 ‘역류(Regurgitation)’ 현상으로 빚어진 문제이며, 이를 방지하는 조치를 했다고 답했다. 또한 오픈AI는 “AI는 모든 인류의 지식을 학습하기 때문에 특정 분야의 데이터는 전체의 아주 작은 조각일 뿐이다. 뉴욕타임스를 포함한 단일 데이터 소스는 모델의 의도된 학습에 큰 비중을 차지하지 않는다”고 강조했다.

아울러 기록 분석, 기사 번역 등 시간이 많이 드는 작업을 지원하고, 독자와 연결되는 방법을 제공하는 등 언론과 협력해 새로운 기회를 창출하고 있다고 주장했다.

핵심 쟁점은 ‘공정이용’

뉴욕타임스와 오픈AI 간 저작권 분쟁을 이해하기 위해서는 우선 미국 저작권법의 ‘공정이용(fair use)’ 조항을 짚어봐야 한다.

미국 연방저작권법 제107조에는 비평, 논평, 시사 보도, 교수, 학문 또는 연구 등의 목적을 위해 저작물을 공정하게 이용하는 것은 저작권 침해가 아니라는 공정이용 일반조항이 있다. 단, 이를 판단하는 데는 △이용의 목적 및 성격 △보호되는 저작물의 성격 △이용된 부분이 차지하는 비중과 중요성 △저작물 이용이 해당 저작물의 잠재적 시장이나 가치에 미치는 영향 등 4가지 요건을 충족해야 한다는 조건이 있다.

이와 관련된 IT 분야의 대표적 사건은 구글 북스 라이브러리 프로젝트(Google Books Library Project)의 저작권 침해 소송이다. 구글은 2004년 대학 도서관의 소장 도서를 스캔하고 이를 디지털화해 도서관에 기증하고 독자에게 무료로 공개하는 프로젝트를 추진했다. 이를 두고 미국 출판협회(APP, Association of American Publisher)와 작가조합(AG, Authors Guild)가 2005년 저작권 침해 소송을 제기하며 법적 다툼이 시작됐다.

해당 소송과 관련, 미 항소법원은 2015년 구글의 라이브러리 프로젝트는 공정이용에 해당하며 저자의 저작권을 침해하지 않는다고 판결했으며, 2016년 연방대법원까지 올라갔지만 기각되며 구글의 승소로 마무리됐다.

위와 같은 공정이용 조항을 기준으로 뉴욕타임스와 오픈AI의 소송을 이해해 볼 수 있다. 한국법제연구원 정원준 부연구위원은 “만약 오픈AI가 뉴욕타임스의 콘텐츠를 가져가 기사를 만드는 데 활용했다면 저작권 위반이다. 하지만 언어적 표현, 사실관계 등을 학습하는 데 썼다면 비표현적 이용으로 판단해 공정이용으로 볼 수 있다”고 설명했다. 여기서 비표현적 이용이란 저작물의 표현성을 이용하지 않고 정보분석, 연구, 학습 등의 기능적 목적으로 이용하는 것을 뜻한다.

이어 정원준 부연구위원은 “비중과 중요성 측면에서는 학습 데이터 전체에서 뉴욕타임스 기사가 차지하는 비중을, 시장에 미치는 영향 측면에서는 오픈AI가 뉴욕타임스의 경제적 가치를 침해하는지를 따져볼 수 있다”고 말했다. 다만 “소송의 전체 내용을 알 수 있는 상황은 아니라 결과를 단정하기는 어렵다”고 덧붙였다.

EU, 일본은 ‘텍스트·데이터 마이닝 조항’ 마련

공정이용 일반조항이 없는 유럽과 일본 등에서는 ‘텍스트·데이터 마이닝(Text and Data Mining, TDM)’ 관련 면책 규정을 마련해 웹 크롤링(Web Crawling)과 같은 다량의 데이터 수집 작업을 부분적으로 허용하고 있다.

전남대학교 법학전문대학원 류시원 교수의 논문 ‘저작권법상 텍스트·데이터 마이닝 면책 규정 도입 방향의 검토’에 따르면, 텍스트 마이닝은 문자·이미지·음성 등으로부터 정보를 발견 및 해석하는 기술을, 데이터 마이닝은 데이터베이스처럼 구조화된 데이터셋에서 정보를 얻어내는 기법을 의미한다.

텍스트 마이닝과 데이터 마이닝은 의미에 약간의 차이가 있지만 일반적으로 같은 의미로 사용하고 있다. 류시원 교수는 “기술 발달에 따라 텍스트 마이닝과 데이터 마이닝의 경계가 흐려지고 있다. 이에 따라 정책적 논의에서는 양자를 결합해 ‘텍스트·데이터 마이닝’이라고 칭하는 것이 일반화됐다”고 설명했다.

TDM은 AI, 빅데이터, 머신러닝 등 많은 양의 데이터가 요구되는 기술을 고도화하는 데에 필요하다. 하지만 TDM의 특성상 불특정하게 수집한 데이터 안에 저작물이 포함될 수 있으며, 이 때문에 저작권 보호제도와 충돌할 가능성이 높다. TDM 면책 조항은 이러한 문제를 해결하기 위해 마련된 것이다.

다만 공정이용 일반조항과 TDM 면책 조항은 다소 차이가 있다. 공정이용은 분야를 떠나 이용의 목적·성격 등을 고려해 저작물을 사용할 수 있도록 허용하는 데 반해, TDM 면책 조항은 웹 크롤링 등 TDM 과정에서 불특정한 저작물이 수집되는 경우를 보호하는 것으로 제한된다.

한국법제연구원 정원준 부연구위원은 “TDM은 데이터 수집 과정에서 부득이하게 저작물이 포함될 수 있는데, 이를 일일이 사전에 허락받는 것은 불가능하다. 이런 문제로부터 자유롭도록 하는 제도가 TDM 면책 조항이다”고 설명했다.

데이터의 중요성이 높아지며 세계 각국에서는 사업·연구 등에서 TDM의 긍정적 효과를 유지할 수 있도록 저작권법에 TDM 면책 규정을 도입하기 시작했다.

우선, EU는 2019년 채택된 DSM 지침(Directive on Copyright in the Digital Single Market)을 통해 TDM 면책 규정을 마련하고 있다. EU의 TDM 조항은 크게 △연구기관·문화유산기관이 학술연구 목적으로 TDM을 수행하거나(제3조) △합법적으로 접근 가능한 저작물 등에 대한 TDM을 수행하기 위해 복제 및 추출하는 경우(제4조)를 허용하고 있다.

2021년 영국 정부가 AI 개발·활용 촉진을 위해 TDM 예외를 확대하는 계획을 발표했으나 창작자 집단, 각 정부 부처 등의 반대로 아직 도입되지 못한 상황이다.

일본은 앞서 나온 EU, 영국의 경우보다 폭넓게 TDM을 허용하고 있다. 일본 저작권법 제30조의4에는 저작물에 표현된 사상이나 감정을 자신 또는 타인이 향수하는 것을 목적으로 하지 않는 경우 어떠한 방법으로든 사용할 수 있다고 명시돼 있다. 여기서 향수(享受)란 사전적으로 ‘예술적인 아름다움이나 감동 따위를 음미하고 즐김’을 의미한다. 다시 말해 일본은 그림, 문학 등의 작품을 복제해 또 다른 작품을 만드는 표현적 이용만 제한하며, 이외의 경우에는 폭넓게 인정하고 있다.

주요국 TDM 면책 관련 법제 비교 (출처: 류시원(2023), 저작권법상 텍스트·데이터 마이닝 면책 규정 도입 방향의 검토, 선진상사법률연구 제101호, 법무부)

국내에도 공정이용 조항 존재, 허용 범위는 미국과 달라

한국 저작권법에도 한미 FTA를 통해 2011년 도입된 공정이용 조항이 존재한다. 저작권법 제35조의5는 공정이용 일반조항으로서 “저작물의 일반적인 이용 방법과 충돌하지 아니하고 저작자의 정당한 이익을 부당하게 해치지 아니하는 경우에는 저작물을 이용할 수 있다”고 나와 있다. 함께 명시된 고려 사항도 미국의 공정이용 조항의 조건과 동일하다.

하지만 한국의 공정이용 조항은 적용에 있어 미국과 현저한 차이를 보인다. 산업 발전과 표현의 자유를 중시해 비표현적 사용에 대해 폭넓게 허용하는 데 반해, 한국은 엄격히 판단하는 경향이 있다.

한국법제연구원 정원준 부연구위원은 “국내에도 미국과 동일한 공정이용 조항이 있으나 상업적 이용을 비교적 협소하게 판단하는 경향이 있다. 또한 관련된 명시적 대법원 판례도 부재한 상황”이라며 “AI 학습을 위한 웹 크롤링을 문제로 소송이 발생할 경우, 어떤 결과가 나올지 아직 불분명하다”고 말했다.

공정이용 조항이 불분명한 상황에서 국내 IT 산업 발전을 활성화할 수 있도록 EU, 일본과 같은 TDM 면책 조항을 마련해야 한다는 의견이 2020년경부터 학계를 통해 나오기 시작했다. 특히 지난해부터 AI 산업이 급속도로 발전함에 따라 TDM 면책 조항이 필요하다는 목소리에 힘이 실리고 있다.

과학기술정보통신부가 주관하는 제4기 인공지능 법제정비단은 지난해 12월 15일 ‘생성형 AI와 규제개선 방향 논의’를 주제로 공개세미나를 개최하며, 국내 AI 기업을 위한 법·제도의 필요성을 제언한 바 있다.

법제정비단 1분과장을 맡고 있는 고려대학교 이성엽 교수는 이날 세미나에 참석해 “생성형 AI 등장 후 AI 분야는 큰 변화를 겪고 있으며 이와 관련된 법·제도적 문제도 끊임없이 제기돼 왔다”면서 “규제 개선이 빠르게 이뤄지지 않는다면 국내 AI 산업이 글로벌 수준을 따라잡을 만큼 발전하는 데 어려움이 있다”고 말하며 정부 각 부처와 국회에 적극적인 해결 방안을 부탁했다.

더불어민주당 도종환 의원(2021년), 무소속 황보승희 의원(2023년) 등이 TDM 면책 조항을 포함한 저작권법 개정안을 발의했으나 현재 국회에 계류된 상황이다. 21대 국회 임기가 오는 5월 29일까지이므로 해당 법안들이 통과될 가능성은 낮은 편이다.

이와 관련해 한국저작권위원회 법제연구팀 김찬동 팀장은 “저작권 문제를 두고 이해관계자들이 첨예하게 대립하고 있어 국회에서의 논의가 더딜 수밖에 없다”고 말했다.

안내서를 두고 SW 업계에서는 우려스럽다는 목소리를 내고 있다. 안내서 내 AI 사업자 주요 안내 사항에 “AI 학습을 위한 저작물 이용 시 사전에 저작권자로부터 적절한 보상 등의 방법으로 적법한 이용 권한 확보”라고 나온 부분이 문제였다. 한국소프트웨어산업협회(KOSA) 산하 초거대AI추진협의회는 같은 날 해당 문구에 대한 삭제를 제언하는 건의서를 문체부에 제출했다.

KOSA는 보도자료를 통해 “거대언어모델(LLM)은 수백억 개 이상의 파라미터(매개변수)를 갖춰야 하고 이를 학습하기 위해 방대한 데이터가 필요하다. 안내서에서 권고하는 내용에 따르면 데이터의 이용 목적, 기간, 대가 등을 건건이 협의·계약해야 한다는 의미로 풀이될 수 있다”고 밝히며 “글로벌 빅테크 기업이 연이어 새로운 초거대 AI 모델과 서비스를 발표하는 가운데, 이런 절차로는 신속한 기술 개발이 어려우며 글로벌 경쟁에서 뒤처질 수밖에 없다는 것이 업계 의견”이라고 강조했다.

KOSA 혁신성장본부 안홍준 본부장은 “생성형 AI가 단기간에 급속도로 성장 중이지만, 이와 관련된 법과 제도가 아직 마련되지 못했다. 합리적인 문제 해결을 위해서는 저작권 거래 플랫폼이라든가 데이터 수집 시 저작물을 걸러내는 필터링 같은 대안도 고민해 봐야 한다. 충분한 논의가 이루어지지 않은 상황에서 먼저 가이드라인이 나오는 것은 다소 문제가 있을 수 있다”고 밝혔다.

이어 안홍준 본부장은 “법적 근거가 불분명한 상황에서 안내서가 업계 지침으로 자리 잡아 향후 입법·사법 판단에 영향을 미치지 않을까 우려스럽다”고 덧붙였다.

AI 저작권에 대한 심도 있는 논의가 필요하다는 점에는 동의했다. 김찬동 팀장은 “지난해는 생성형 AI가 급속도로 확대되던 시점이었기에 관계자들의 이해도를 확인하고, 저작권 쟁점과 정보를 교류하는 데 그쳤다”며 “올해는 이 점을 보완, 세부 사항을 논의하기 위해 폭넓은 인적 구성을 마련함으로써 AI 기술 및 관련 산업이 발전하면서도 창작자를 보호할 수 있는 시스템을 구축해 나갈 계획”이라고 말했다.

본격적인 AI 시대…중소기업·스타트업 위한 제도 필요

KOSA 안홍준 본부장은 “글로벌 빅테크가 주도하는 미국과 달리, 국내는 중소기업, 스타트업에서도 자체 모델을 발표하고 있다. 이러한 다양성이 국내 시장의 강점”이라고 평가하며 “하지만 중소기업과 스타트업은 여건상 법무팀을 별도로 마련하지 못하는 경우가 많아 저작권 문제를 해결하기 힘들다. 산업이 확대되는 시점에서 저작권 분쟁에 휘말린다면, 국내 시장에는 적잖은 타격이 될 것”이라고 전망했다.

이어 안홍준 본부장은 “업계에서도 적법한 절차와 대가 지급이 필요하다는 점에 공감하고 있다. 다만 그 기준과 규정이 모호해 어떻게 대응해야 할지 알 수 없는 상황을 우려하는 것이다. 심도 있는 논의를 통해 적절한 해결 방안을 모색할 수 있길 바란다”고 덧붙였다.

김호준 기자 hojun@itdaily.kr

다른기사 보기

상단영역

본문영역