[초점] 이미지 생성 AI, 대표 모델과 이슈는?

저작권·일자리 관련 법·제도 뒷받침돼야

[컴퓨터월드] 생성형 인공지능(AI) 시장을 차지하기 위한 경쟁이 치열하다. 지난해 12월 오픈AI(OpenAI)의 GPT 3.5 엔진 기반 대화형 서비스 ‘챗GPT(ChatGPT)’출시 후 일어난 현상이다. 대화형 서비스뿐 아니라 복잡한 프롬프트를 이해해 마치 사람이 그린 듯한 결과물을 만드는 이미지 생성 AI도 속속 출시되고 있다. 이미지 생성 AI 시장은 광고, 미디어 등 활용 분야가 다양해 향후 큰 폭의 성장이 예상된다. 시장을 주도하는 업체가 없는 상황에서 이미지 생성 AI의 현재와 전망에 대해 살펴본다.

이미지 생성 AI는 인공지능을 활용해 이미지를 생성하고 작업하는 기술 또는 소프트웨어를 의미한다. 사용자가 명령어(프롬프트)를 입력하면 그에 맞는 이미지를 생성하고, 사용자는 이를 바탕으로 자신이 원하는 이미지를 선택, 편집할 수 있다.

이미지 생성 AI의 장점은 복잡한 자연어 프롬프트를 이해해 사람이 그린 것 같은 정교한 이미지를 생성하는 것이다. 이미지 생성 AI는 짧은 단어에 그치지 않고 긴 문장까지 소화하며 이를 구체적인 이미지로 표현한다. 고양이 이미지를 원할 경우, ‘햇빛이 드는 거실에 검은 얼룩무늬 고양이가 하품하며 누워 있다’ 같은 긴 문장을 통해 구체적인 이미지를 생성 가능하다. 또한 생성된 이미지에 추가적인 프롬프트를 입력해 더욱 적합한 이미지를 찾을 수 있다.

이미지 생성 AI의 원리

그렇다면 AI는 어떻게 이미지를 생성할 수 있을까? 쉽게 설명하면 잘못된 이미지를 완성된 형태로 만드는 과정을 AI가 끊임없이 반복 학습해 이미지를 생성하는 것이다. 이미지 생성 AI의 대표적인 기술은 ‘확산(Diffusion) 모델’과 ‘적대적 생성 신경망(Generative Adversarial Network, GAN) 모델’ 등이 있다.

확산 모델은 데이터와 노이즈를 오가며 이미지를 생성하는 법을 학습한다. (출처 엔비디아) — 확산 모델은 데이터와 노이즈를 오가며 이미지를 생성하는 법을 학습한다. (출처=엔비디아)

우선, 확산 모델은 완전히 노이즈로 구성된 원본 이미지에서 노이즈를 점진적으로 제거해 원본 이미지에 더 가까운 이미지를 생성하는 기술이다. AI는 형체를 알아볼 수 없는 상태에서 원본에 가까운 상태로, 그리고 다시 반대로 오가는 작업을 반복하며 결과를 학습한다.

적대적 생성 신경망 모델은 생성자(Generator)와 구분자(Discriminator) 간의 적대적 대립을 통해 실제와 구분하기 어려운 가짜 데이터 생성을 유도한다. 생성자는 실제가 아닌 데이터를 만들고 구분자는 그 데이터를 실제와 구별하는 역할을 맡는다. 이런 과정을 반복해 실제와 아주 가까운 이미지를 생성한다.

초기 이미지 생성 AI는 적대적 생성 신경망 모델이 중심이었으나 생성자와 구분자가 고루 학습되지 않으면 편향적인 결과를 낳을 수 있다는 단점이 있었다. 학습 및 생성에 더 안정적인 확산 모델이 자연어 프롬프트로부터 이미지를 생성하는 데 두각을 나타내기 시작했고, 많은 이미지 생성 AI가 확산 모델을 채택하고 있다.

시장의 선두 주자, 달리와 미드저니

현재 시장에 수십 개의 AI 모델이 나와 있는데 그 중 널리 알려진 모델은 오픈AI의 달리(DALL·E)다. 생성형 AI GPT-3 모델이 사용된 달리는 2021년 1월 공개되며 이미지 생성 AI의 가능성을 대중에게 처음 알렸다. 달리를 업그레이드한 ‘달리2(DALL·E 2)’는 지난해 4월 출시됐는데 전보다 화질이 향상됐고, 이미지 편집·수정 등의 기능이 추가됐다. 달리2는 이전보다 사실적인 이미지를 생성하는 데 성공해 큰 관심을 끌었다. 초대장을 받고 회원이 되면 제한적으로 무료 이용이 가능했으나 지난 4월부터 유료화가 진행됐다. 다만 오픈AI 협력사 마이크로소프트(MS)의 검색엔진 빙(Bing)에서 ‘이미지 크리에이터(Image Creator)’를 통해 달리를 무료로 이용해볼 수 있다.

‘미드저니(Midjourney)’도 빼놓을 수 없다. 미드저니는 올해 4월 해리포터 영상으로 대중에게 널리 알려졌다. 영상은 미드저니로 생성된, 영화 해리포터 시리즈 속 배우가 유명 패션 브랜드 ‘발렌시아가’의 의상을 입고 있는 이미지로 구성됐다. 실제 배우와 흡사한 얼굴에 이질적인 의상으로 세간의 관심을 모았고, 미드저니로 만든 유사한 영상이 유튜브에 여럿 올라왔다. 인스턴트 메신저 디스코드(Discord)를 통해 실행되는 미드저니는 무료 체험이 가능했으나 현재는 이용권을 구입해야 한다.

저작권 문제에 초점 맞춘 어도비 파이어플라이

오픈AI, 미드저니 같은 새로운 기업뿐 아니라 기존 소프트웨어 업체에서도 이미지 생성 AI에 내놓으며 세계적 흐름을 따라가고 있다. 40년간 그래픽 솔루션 분야에 입지를 다져온 어도비(Adobe)는 지난 3월 ‘어도비 파이어플라이(Adobe Firefly)’를 공개했다.

어도비는 저작권 문제 해소에 초점을 맞췄다. 이미지 생성 AI는 학습을 위해 확보한 데이터, AI가 만들어낸 결과물에 대한 문제를 겪어 왔다. 어도비는 어도비 스톡(Adobe Stock) 이미지, 개방형 라이선스 및 저작권이 만료된 콘텐츠를 학습해 사용자가 저작권 문제로부터 자유롭도록 있도록 지원한다. 또한 기업 고객에 생성된 이미지로 인한 저작권 침해 소송 시 법적 비용을 부담한다는 면책 조항을 마련했다.

어도비는 기존 제품군에 파이어플라이를 적용해 시너지 효과를 거두겠다는 방침이다. 생산성을 높이고자 포토샵, 익스프레스 등 자사 소프트웨어에 파이어플라이를 적용하고, 한국어 포함 100개 이상의 언어로 프롬프트 지원 범위를 확대하며 전 세계 사용자를 확보하려는 노력을 이어가고 있다.

카카오브레인 등 국내 기업도 따라잡기에 한창

세계적인 흐름에 발맞춰 국내 기업도 이미지 생성 AI를 내놓고 있다. 카카오의 AI 연구 전문 자회사 카카오브레인은 지난해 12월 AI 아티스트 ‘칼로(Karlo) 1.0’ 모델을 오픈소스 커뮤니티 깃허브(GitHub)에 공개했고, 지난달 이를 업그레이드한 ‘칼로 2.0’을 출시하며 본격적인 행보에 나섰다.

카카오브레인에 따르면, 칼로 2.0은 약 3억 장 규모의 텍스트-이미지 데이터 세트를 학습, 높은 언어 이해력을 바탕으로 완성도 높은 그림을 생성할 수 있다. 해상도는 최대 2048x2048을 지원해 다양한 크기의 이미지를 지원한다. 이미지상의 공간감, 입체감, 동물의 털과 같은 텍스처를 세밀하게 표현하는 기능도 보강됐으며, 무료 생성 이미지 수를 월 최대 60만 장까지 확대했다.

아울러 카카오브레인은 칼로 2.0 오픈 API를 카카오디벨로퍼스에 공개했다. 카카오디벨로퍼스는 웹 서비스, 모바일 앱 등을 개발하는 데 필요한 플랫폼과 카카오의 다양한 서비스와 연계할 수 있는 부가기능을 제공하는 개발자 전용 웹사이트다. 카카오브레인은 이를 통해 국내 AI 생태계 발전에 기여한다는 계획이다.

이어 ‘칼로 100X 프로그램’을 출범, 지난달 6개 기업을 선정해 칼로를 활용한 AI 모델 서비스 개발을 지원하며 영향력을 키우고 있다. 카카오브레인은 프로그램에 참여한 기업에 최신 이미지 생성 AI 기술뿐 아니라 인프라, 전략적 투자 등을 제공한다. 또한 앞으로 참여 스타트업을 지속 모집해 다양한 기업과 혁신적인 AI 적용 사례를 발굴해 나갈 예정이다.

카카오브레인 김일두 각자대표는 “‘칼로 100X 프로그램’을 통해 산업 전문성을 갖춘 다양한 스타트업을 지원하는 협력 구조를 만들어 나갈 것”이라고 설명했다.

광고·미디어에 활용…법·제도적 문제 남아

이미지 생성 AI는 미디어와 결합해 여러 비즈니스에서 사용되고 있다. 국내에서는 신한금융그룹이 지난해 미드저니로 광고 포스터를 제작했고, 지난달 삼성생명이 AI로 이미지를 생성한 영상 광고를 공개한 바 있다.

해외에서는 글로벌 케첩 브랜드 하인즈(Heinz)가 달리를 활용한 ‘케첩 그리기 캠페인’을 진행했다. 하인즈는 크리에이티브 에이전시 리씽크(Rethink)와 협력, 달리에 ‘케첩’이 들어간 단어를 무작위로 입력해 이미지를 생성했다. 그 결과 스타일은 조금씩 다르지만 전반적으로 하인즈 케첩의 용기 모양과 비슷한 이미지가 여럿 만들어졌다. 하인즈는 이를 모아 홍보 동영상을 제작해 미국 시장 내 자사 케첩의 탄탄한 입지를 소개했다.

달리로 생성한 이미지로 만든 하인즈 광고 (출처 리씽크) — 달리로 생성한 이미지로 만든 하인즈 광고 (출처=리씽크)

이미지 생성 AI의 가능성에 주목해 이커머스 관련 사업을 확장하는 스타트업도 있다. 생성 AI 스타트업 드랩은 지난달 상품 사진을 자동 생성하는 ‘드랩아트(Draph Art)’를 출시했다. 사진에서 상품을 추출 후 이에 어울리는 배경을 찾아서 합성하거나 AI가 새로이 만들어 준다. 이뿐 아니라 조명·그림자를 사진에 맞게 조정하고 색감을 맞추는 등의 후보정 작업까지 지원한다.

드랩 이주완 대표는 “서비스 초기에는 상품 사진 제작 기능 위주로 지원하지만 앞으로 광고 배너·상세 페이지 제작 등 커머 운영에 필요한 기능 업데이트를 계획하고 있다”고 밝혔다.

생성된 이미지로 작품을 만드는 경우도 늘고 있다. 지난해 미국 ‘콜로라도 주립 박람회 미술 대회’의 디지털아트 부문 대상을 거머쥔 ‘스페이스 오페라 극장’은 AI로 제작돼 논란이 일었다. 작품을 만든 제이슨 앨런(Jason Allen)은 손으로 그리지 않고 AI에 명령어를 입력해 그림을 제작했다. 부정행위가 아니냐는 지적이 있었지만, 디지털 기술을 창작 과정에 사용할 수 있다는 규칙이 있어 주최 측은 앨런의 손을 들어줬다.

올해 초에는 디즈니가 드라마 ‘시크릿 인베이젼’의 오프닝 영상을 이미지 생성 AI로 제작했다. AI에게 작품을 위해 제작된 콘셉트 아트를 학습해 만들었다. 글로벌 기업이 영상 산업에 AI 기술을 사용한 첫 사례여서 이를 두고 예술에서 인간과 AI 사이의 타협 지점에 대한 논의가 이어졌다.

특히 AI로 만든 오프닝 영상은 비슷한 시기에 일어난 미국 내 창작자 노동조합의 파업과 맞물려 더 큰 화제를 낳았다. 지난 5월에는 미국작가조합(WGA)이, 지난달에는 미국 배우·방송인 노동조합(SAG-AFTRA)이 AI 콘텐츠 제작에 대한 반발로 시위에 나섰다. 뉴욕타임스 등 현지 언론에 따르면 할리우드 양대 노동조합이 파업에 나선 것은 63년 만의 일이었다. 여러 논란에 제작사 측은 AI는 창작자를 보조하는 용도로 사용됐으며 영상 제작에 감독·애니메이터 등의 공로가 들어갔다고 해명했다.

AI로 제작된 콘텐츠의 저작권에 대한 논란도 남아있다. 로이터 통신 등의 외신에 따르면, 미국 저작권청(USCO)은 지난 2월 미드저니로 만들어진 만화 이미지는 저작권 보호를 받을 수 없다는 결정을 내렸다. USCO는 크리스 카슈타노바(Chris Kashtanova) 작가에게 그의 만화 ‘여명의 자리아(Zarya of the Dawn)’에서 쓴 글, 이미지 선택·배치 등은 저작권을 인정하나, AI가 생성한 이미지 자체는 저작권을 인정할 수 없다고 설명했다. 이후 USCO는 ‘AI 저작물 등록에 관한 가이드라인’을 지난 3월 공개, AI가 사용된 작품은 등록 출원에 있어 기계 복제인지 작가의 의도가 반영된 작품인지 AI 사용 정도와 상황을 고려해 사례별로 평가하겠다고 발표했다.

또한 USCO는 생성된 이미지에 대한 저작권 등록 출원을 거절하며 “현 저작권법은 인간 정신의 창조적인 힘에 기초를 두며 지적 노동의 성과만을 보호할 뿐”이라고 밝혔다. 이어 “기계 또는 단순 기계적 프로세스에 의해 생산된 저작물을 등록하지 않는다”고 덧붙였다. 이처럼 저작권법은 인간의 지적 노동 여부에 초점이 맞춰져 있어, AI 작업물을 저작권으로 보호할 수 있는 시스템은 현재 마땅치 않다. 하지만 이미지 생성 AI가 활성화됨에 따라 관련 결과물이 늘고 있어 이에 대한 제도 마련을 요구하는 목소리는 커질 전망이다.

기술 발전에 힘입어 이미지 생성 AI를 활용하는 비즈니스가 더욱 확대되고 있다. 프롬프트 입력만으로 누구나 이미지를 만들 수 있다는 점은 매력적이기 때문이다. 하지만 일상에 이미지 생성 AI가 폭넓게 자리 잡기 위해서는 기술뿐 아니라 법·제도적 차원의 합의 및 개선 방안이 필요한 상황이다.

김호준 기자 hojun@itdaily.kr

다른기사 보기

상단영역

본문영역

[초점] 이미지 생성 AI, 대표 모델과 이슈는?

저작권·일자리 관련 법·제도 뒷받침돼야

기사 댓글 0

비회원 로그인