품질 검증 및 라이선스, 저작권 등 책임 있는 개발·활용 위한 정부 노력 필요
[컴퓨터월드] 최신 IT 기술의 중심에는 언제나 오픈소스가 있다. 빅데이터, 클라우드, 그리고 최근의 생성형 AI까지, IT 패러다임이 바뀔 때마다 오픈소스의 중요성은 오히려 더 커졌다. 오픈소스 활용 역량이 부족하면 새로운 기술을 제대로 구현하기 어렵다.
이러한 상황에서 생성형 AI로 인해 오픈소스 생태계에도 많은 변화가 일어나고 있다. 생성형 AI가 만드는 코드에 대한 품질 문제, 저작권 및 윤리 문제, 라이선스 관리에 대한 중요성이 강조되는 등 오픈소스에도 예측 불가능한 변화의 파도가 몰려오기 시작했다. 생성형 AI 시대, 오픈소스 생태계가 마주할 도전과 기회는 무엇인지 조명해 본다.
오픈소스 생태계, 생성형 AI로 저변 확대
생성형 AI는 애플리케이션 개발 생산성 혁신의 주역으로 부상했다. 생성형 AI를 활용해 음성으로 코드를 짜는 ‘바이브 코딩’ 도구인 ‘커서 AI’를 비롯해 주변에서 흔히 사용되는 챗GPT나 구글의 제미나이를 사용해 코드를 자동으로 생성하고 오류를 찾아 수정할 수 있다.
최근에는 요구사항에 맞게 전체 SW 아키텍처까지 제안하는 AI 도구도 등장하고 있다. AI 기반 마이크로서비스 전환과 실시간 SW 아키텍처 모니터링 등을 지원하는 ‘v펑션(vFunction)’과 AI 어시스턴트를 활용한 플로우차트와 같은 다이어그램을 AI가 자동 생성 및 제안 도구 ‘브로드믹스(Boardmix)’, 애저 기반 생성형 AI 앱 설계·배포 플랫폼 ‘애저 AI 파운드리(Azure AI Foundry)’ 등이 대표적이다.
이 같은 생성형 AI 도구들은 개발자로 하여금 단순 반복적인 작업에 들던 공수를 줄여 복잡한 문제 해결에 집중할 수 있도록 해준다. 특정 기능을 구현하기 위해 수십 줄의 코드를 직접 작성하지 않고도 AI를 이용해 순식간에 초안 코드를 만들 수 있다.
생성형 AI의 등장은 오픈소스 생태계에도 큰 변화를 가져왔다. AI 모델이 발전하는 과정에서 ‘개방’과 ‘협업’이라는 오픈소스의 기본 정신이 자연스럽게 녹아들었다. AI 모델의 신뢰성과 품질을 높이기 위해서는 아키텍처, 학습 데이터, 학습 코드 등이 투명하게 공개돼야 하는데, 이는 오픈소스의 핵심 가치와 맞닿아 있다.
오픈소스는 AI 모델과 기술이 광범위하게 공유되고 확산될 수 있는 기반 생태계가 되고 있으며, 이는 AI 기술의 혁신과 표준화를 가능하게 만들고 있다. AI는 오픈소스 프로젝트의 개발 효율성을 높이고, 새로운 기여자 유입을 촉진하며, 궁극적으로 오픈소스 생태계를 활성화하는 데 기여한다. 이를 통해 AI와 오픈소스의 두 기술은 발전 속도를 더욱 가속화할 수 있다.
현재 오픈소스 생태계는 생성형 AI로 인해 많은 변화가 감지되고 있다. 코딩 능력이 다소 부족하거나 특정 분야에 대한 전문성이 없는 비(非)개발자들이 AI 도구의 도움을 받아 오픈소스 프로젝트에 기여할 수 있게 됐다.
글로벌 오픈소스 기업 관계자는 “생성형 AI는 코딩 진입 장벽을 낮춰 비개발자를 오픈소스 생태계로 유입하게 한다. 특히 다양한 배경을 가진 개발 인력이 오픈소스 생태계에 참여하며 더욱 풍부하고 다각적인 관점의 아이디어와 코드를 생산할 가능성이 높아진다. 생성형 AI로 인해 오픈소스의 저변이 확대되고 있다”고 부연했다.
클라우드 시기, 인프라 기반 적용…AI 시대 서비스 혁신에 ‘집중’
과거 클라우드가 IT 트렌드를 주도하던 시기에 오픈소스는 주로 클라우드 인프라를 구축하고 운영하는 기반 기술로 활용됐다. 리눅스, 도커, 랜처, 엔진엑스, 쿠버네티스와 같은 오픈소스는 클라우드 플랫폼을 구성하는 핵심 요소였다. 기업들은 오픈소스를 활용해 비용을 절감하고 유연성을 확보할 수 있었다. 오픈소스 프로젝트 기여 방식 역시 주로 인프라 SW의 안정성과 기능 개선에 초점이 맞춰졌다.
생성형 AI 시대가 오면서 오픈소스 전략 역시 이에 맞춰 진화하고 있다. 클라우드가 시장을 주도하던 때에는 주로 인프라 수준의 오픈소스 활용이 주를 이뤘다면, 지금의 생성형 AI 시기에는 AI 모델, 학습 데이터셋, AI 개발 프레임워크 등을 오픈소스로 활용하고 있다.
이에 대해 한국오픈소스협회 심호성 부회장은 “생성형 AI 시대, 오픈소스는 AI 기술의 민주화를 촉진하고 특정 기업의 독점을 견제하며 AI 혁신 경쟁을 가속화하는 중요한 동력이 되고 있다”면서 “기업들은 클라우드 환경에서 오픈소스 AI 모델을 활용해 새로운 서비스를 빠르게 구현하고, 커뮤니티의 기여를 통해 모델 성능을 개선하는 전략을 취하고 있다. 이는 단순히 비용 절감을 넘어, 혁신 속도와 시장 확장을 위한 핵심 전략이 되고 있다”고 설명했다.
결과적으로 오픈소스는 생성형 AI 생태계의 핵심 동력으로 자리매김하고 있다. 단순한 개발 방식의 변화를 넘어 SW 생태계 전반의 패러다임 전환에 깊숙이 관여하고 있는 것이다. 오픈소스는 생성형 AI 시대에 그 역할이 퇴색되기는커녕 오히려 확대되고 있다.
생성형 AI 코드 개발 트렌드 떠오르며 품질 검증 과제 대두
최근 개발자들이 생성형 AI가 만든 코드를 오픈소스 프로젝트에 통합하면서 새로운 문제가 나타나고 있다. 바로 생성형 AI가 만들어 낸 코드의 품질과 검증에 대한 문제다. 생성형 AI가 코드를 만들어 낼 수 있게 된 이유는 오픈소스로 수많은 코드가 공개됐기 때문이다.
한국오픈소스협회 심호성 부회장은 “생성형 AI는 기본적으로 데이터 학습을 통해 결과물을 만들어 낸다. 코드라는 결과물을 내놓으려면 수많은 코드를 학습해야 가능하다. 하지만 AI가 일반 기업 개발자들이 짠 코드를 불법으로 학습할 수 없어 대부분 AI는 공개된 코드인 오픈소스를 학습한다. 때문에 생성형 AI가 만든 코드에 오픈소스가 담겨있을 확률이 상당히 높다”면서 “오픈소스로 공개된 코드는 처음부터 완성된 코드도 존재하지만, 많은 기여자들이 커뮤니티에 참여해 꾸준히 수정하고 업그레이드한다. 결국 생성형 AI가 생성한 코드의 품질을 검증하는 과정이 필요하다는 얘기다”라고 부연했다.
실제로 한 글로벌 조사기관에 따르면, 생성형 AI가 만든 코딩 도구를 활용하는 개발자들이 폭발적으로 늘어나고 있지만, AI가 제안한 코드를 신뢰하지 못해 수동으로 검토하거나 재작성하는데 상당한 시간을 들이고 있는 것으로 나타났다. 개발 생산성을 높여주는 것은 분명한 사실이지만, 그만큼 코드 품질에 대한 불안감도 이면에 자리잡고 있다.
한 AI 개발자는 “실제로 AI가 생성한 코드를 검증해보니 4분의 1에 달하는 코드에서 기능적 오류나 사실관계 오류가 발견됐다. 프로젝트 맥락이나 팀의 코딩 규약에 맞지 않는 코드, 문맥을 이해하지 못한 코드는 품질을 떨어뜨리는 주요 원인이 되고 있다”면서 “AI가 만드는 코드의 양이 폭증하면서 기업에서는 기존 AI 개발 코드를 수작업으로 리뷰하는 작업이 한계에 다다랐다는 말도 나온다”고 말했다.
최근 개발자들은 AI가 만든 코드를 오픈소스 프로젝트에 통합하려는 시도를 하고 있다. 한 SW 기업 관계자는 “AI가 만든 코드는 빠르게 생산된다. 또 코드의 품질을 매번 확인하기 어려우니 오픈소스로 공개·통합하려는 시도도 나타나고 있다. 다른 기여자들의 도움을 받을 수 있다는 장점 때문이다. 이 때 기존 오픈소스 프로젝트의 엄격한 기준에 맞춰 통합하려는 노력이 필요하다”고 주문했다.
이런 변화는 오픈소스 프로젝트 기여자들에게는 새로운 도전이다. AI가 생성한 코드를 무조건 받아들이는 것이 아닌 각 프로젝트의 코딩 표준, 아키텍처 원칙, 보안 정책에 부합하는지 엄격하게 검토하고 검증해야 한다.
개발자들은 잘 만든 코드를 오픈소스로 공개하고 모듈화하여 재활용함으로써 오픈소스 생태계 발전에 기여할 수 있다. 하지만 잘못된 코드를 분별할 수 있는 능력이 있어야 이런 일이 가능하다. 오픈소스 프로젝트 기여자들이 코딩 역량 외에 AI가 생성한 코드에 대한 깊이 있는 이해와 비판적 사고를 길러야 한다는 점을 시사한다.
EDB 김희배 한국지사장은 “오픈소스 커뮤니티 기여자들은 이제 AI와의 협업 능력과 AI가 생성한 코드에 대한 깊이 있는 이해를 바탕으로 오픈소스 프로젝트의 방향성을 제시하고 품질을 유지하는 데 집중해야 한다”면서 “오픈소스 커뮤니티 구성원은 AI가 생성한 코드를 학습하고 개선하며, 궁극적으로는 AI의 발전에도 기여하는 선순환 구조를 만들어야 한다”고 역설했다.
덩달아 화두에 오른 라이선스 및 저작권 문제
생성형 AI 코드의 품질 검증 이슈가 대두되면서 오픈소스 라이선스와 저작권 문제도 이슈로 떠올랐다. AI가 생성한 코드의 품질 문제뿐 아니라, 기업이 라이선스 관리를 소홀히 하면 법적 위험에 직면할 수 있다.
생성형 AI는 오픈소스 코드 등 방대한 인터넷 데이터를 학습해 코드를 생성한다. 이 과정에서 GPL과 같이 강한 카피레프트(Copyleft) 라이선스가 적용된 오픈소스 코드가 무단으로 재생산될 수 있으며, AI가 라이선스 정보를 제대로 제공하지 않아 저작권 침해 소지가 발생할 수 있다는 지적이다.
외신을 종합해보면, 주요 대형언어모델(LLM) 14종 중 상당수가 기존 오픈소스 코드와 ‘유사성’이 높은 코드를 생성하면서도, 라이선스 정보를 제대로 안내하지 못하고 있었다. 일부 모델은 전체 생성 코드의 약 2%가 기존 오픈소스와 사실상 동일한 수준이었음에도, GPL 등 카피레프트 라이선스에 대한 안내가 이루어지지 않았다. 기업에서 AI가 만든 코드를 제품에 포함시켰다가 라이선스 위반으로 소송에 휘말리거나, 제품 출시 지연, 코드베이스 전체 재작성 등 심각한 피해를 받을 수 있다는 것이다.
‘깃허브 코파일럿’의 오픈소스 개발자들이 MS와 깃허브, 오픈AI를 상대로 집단 소송을 벌인 사건이 있다. 2022년 11월, 오픈소스 개발자들은 “깃허브 코파일럿이 오픈소스 코드 라이선스(GPL 등) 의무를 어기고, 코드 생성 시 저작권 고지 및 라이선스 정보를 누락했다”며 집단소송을 제기했다. 개발자들은 코파일럿이 자신들의 오픈소스 코드를 무단으로 학습 및 재생산하고, 라이선스 고지 없이 제품에 포함시킨 점을 문제 삼았다.
이는 생성형 AI가 생성한 코드의 라이선스 문제로 인한 직접적인 사례는 아니지만, 오픈소스 코드의 라이선스 안내가 원활히 이루어지지 않는다면 언제든 발생할 수 있다는 점을 보여주고 있다.
한국오픈소스협회 심호성 부회장은 저작권 문제로 직결될 수 있다는 점도 경고했다. 실제로 게티 이미지와 스테빌리티 AI의 소송, 오픈AI의 저작권 침해 혐의 등 AI 학습 데이터의 저작권 문제와 AI가 생성한 결과물의 저작권 귀속 문제는 세계적으로 논쟁의 중심에 있다. AI가 기존 저작물을 직접 복제한 것이 아니라 학습해 새로운 창작물을 생성한 경우에도 저작권 침해로 간주되는지 여부가 특히 핵심 쟁점이 되고 있다. 쉽게 말해 기존 저작물의 ‘변형’으로 볼 것인지, 아니면 ‘파생 저작물’로 보고 원작자의 허락이 필요한지 명확한 기준이 없는 상황이다.
한국오픈소스협회 심호성 부회장은 “AI가 생성한 코드는 저작권 문제로 직결된다”면서 “이에 대응해 우리 정부에서도 AI를 담당하는 헤드쿼터(HQ) 조직을 통해 AI 생성 코드에 대한 저작권 체계를 정비해야 한다. 뉴턴은 ‘내가 업적을 이뤘다면 그것은 거인의 어깨 위에 올라섰기 때문’이라고 말했다. 이를 저작권과 결부해 풀이해보자. 거인의 어깨라는 건 앞선 코드 개발자들이 만든 코드다. 이를 더 발전시킨 것이라면, 응당 앞선 개발자의 결과물이 있었다고 명시해야 한다는 것”이라고 말하며 저작권에 대한 문제가 생성형 AI 및 오픈소스 생태계에 잘 반영되지 않는다면 소송이나 여러 문제가 야기될 것이라고 경고했다.
이어 심호성 부회장은 “한국오픈소스협회는 문화체육관광부 저작권위원회와 함께 라이선스 및 거버넌스 교육 사업을 진행하고 있다. 협회가 문화를 만들고 인식을 제고해서 할 수 있는 마중물 같은 역할을 지속하고 있다”며 “법적, 윤리적 프레임워크의 재정립 없이는 AI 시대에 오픈소스는 끊임없이 분쟁에 휘말릴 수밖에 없을 것이다”고 덧붙였다.
부분적 개방 ‘오픈워싱’ 전략 대두…장기간 지속될 경우 생태계 악영향
최근 많은 기업이 자체적으로 학습·개발한 AI 모델을 오픈소스로 공개하고 있다. 이는 AI 기술을 민주화한다는 점에서 바람직한 일이며 더 많은 개발자와 연구자들이 AI 기술에 접근하고, 모델을 개선하며 새로운 기능을 추가할 수 있게 된다. 텐서플로우나 파이토치와 같은 오픈소스 프레임워크와 모델은 이미 AI 연구 및 개발의 표준으로 자리잡아 생태계를 확장하고 있다. 전 세계적으로 AI 경쟁이 촉진되는 상황에서 특정 기업의 독점을 막는 역할을 하고 있다.
하지만 그 이면에는 보안 취약성 증가, 악용 가능성, 독점적 활용을 통한 수익 창출이라는 문제를 야기하기도 한다. 누군가는 공개된 AI 모델을 딥페이크 등에 악의적으로 사용할 수 있고, 개발자가 모델에서 취약점을 발견하면 광범위한 피해가 발생할 수 있다.
최근에는 AI 모델을 전적으로 공개할 경우 여러 문제가 발생할 수 있다는 점 때문에 부분적으로 개방하는 ‘오픈워싱(Openwashing)’ 전략을 채택하는 기업들이 늘고 있다. 오픈워싱은 AI 모델을 구성하는 코드와 가중치는 공개하되, 학습 데이터와 훈련 과정은 비공개한다.
오픈AI가 GPT-2까지는 공개했지만, GPT-3부터 모델을 비공개로 운영하며 API 기반 서비스로 전환한 것이 대표 사례다. 오픈AI는 학습 데이터와 훈련 알고리즘을 비공개로 유지하면서도 GPT 기반의 유료 API 서비스를 제공하며 AI 생태계를 선점하는 전략을 택했다. 연구 초기 ‘AI 기술을 모두에게 개방한다’는 비전을 내세웠지만, AI 기술이 상업화되면서 기업 중심의 폐쇄적인 운영 방식을 선택한 것이다.
AI 모델의 훈련과 운영에는 막대한 비용이 들어가는데, 기업이 AI 모델을 전부 공개하면 경쟁사들이 해당 모델을 무료로 사용할 가능성이 높아지고 이는 결국 경쟁력 약화로 이어지게 된다. 이런 이유로 AI 기업들은 AI 모델 전체를 공개하지 않고 제한적으로 공개하는 오픈워싱을 채택하고 있다. 오픈워싱을 채택하는 또 다른 이유는 학습 데이터까지 다 공개하는 과정에서 AI 모델 개발 시 발생할 수 있는 저작권 문제 때문이다.
오픈워싱 전략이 장기화되면 오픈소스 생태계에 부정적인 영향을 미칠 수 있다. 예를 들어 메타는 라마(LLaMA) 모델에 제한적 라이선스를 적용해 오픈소스의 장점은 살리면서도 자사 이익을 보호하고 있다. 이런 전략은 단기적으로는 기업의 법적 리스크를 줄이고 투자 회수에 도움이 된다 하지만 오픈소스 생태계의 개방성과 혁신이 위축될 수 있다는 우려도 있다. 오픈소스 생태계가 건강해야 AI 모델과 비즈니스 모두 성장할 수 있다. 기업들이 오픈소스의 개방성과 자사 비즈니스 모델 간의 균형점을 신중히 찾아야 하는 이유이다.
오픈소스 기반 AI 모델 활용 위한 기업 자정 노력 필요
생성형 AI 시대 오픈소스의 가치와 중요성은 더욱 커지고 있다. 오픈소스 기반 AI 모델의 책임 있는 개발 및 활용을 위해서는 이를 활용하는 기업의 자정 노력과 정부의 지원 및 가이드라인이 필요한 상황이다.
AI 및 SW 업계 복수의 관계자들은 오픈소스 기반 AI 모델 활성화를 위해서는 산업 현장의 목소리를 정책에 적극적으로 반영해야 한다고 주장한다. 급변하는 AI 기술 트렌드와 오픈소스 생태계의 특성을 제대로 이해한 후 정책과 가이드라인을 제정해야 한다는 것.
이와 관련 AI 기업 한 관계자는 “국내 오픈소스 AI 모델인 카카오의 ‘카나나’, 네이버클라우드의 ‘하이퍼클로바X’는 기업이 단독으로 개발한 것이 아니라 연구자·개발자 커뮤니티 등 다양한 현장 주체의 참여와 협력을 통해 발전해왔다. 단순한 코드 공개를 넘어, 현장 의견이 반영돼야 연구자·기업의 실제 활용성이 높아지고 국내 AI 경쟁력 강화로 이어질 수 있다”고 말했다.
특히 공공사업 및 조달 정책에서 오픈소스 AI 모델의 진입장벽을 해소하는 노력도 요구된다. 현재 조달 정책은 오픈소스 기반 AI 솔루션 활성화를 고려하지 않아 현장의 다양한 혁신적인 모델이 공공 영역에 진입하기 어려운 상황이다.
한국오픈소스협회 심호성 부회장은 “생성형 AI 시대, 오픈소스가 AI 관련 정책에 담겨야 한다”며 “오픈소스 활용 내역을 명확히 할 수 있는 제도, 품질 관리 기준, 그리고 조달 체계 등 다각적인 정부의 노력이 필요하다”고 말했다.
또한 정부가 오픈소스 정책을 설계하는 과정에서 글로벌 표준을 지향해야 한다는 목소리도 제기되고 있다. 2027년부터 유럽은 소프트웨어 자재명세서(SBOM, Software Bill of Materials) 법제화를 시행하게 된다. 미국은 행정명령을 통해 소프트웨어 공급망 관리의 중요성을 강조하고 있다. 중국 정부에 제품을 공급하기 위해서는 코드를 공개해야 한다. 이에 발맞춰 우리 정부도 △SBOM 등 국제 표준 도입 △라이선스 및 보안 검증 강화 △오픈소스 활용 생태계 확장 △민관 협력 및 실질적 지원책 확대 등을 통해 국내 기업들이 오픈소스 기반 AI 모델로 서비스를 개발하고 수출할 수 있도록 해야 할 것이다.
물론 우리 기업들의 자정 노력도 필요하다. 현재 우리나라 SW 기업 대다수는 패키지 솔루션을 개발하는 과정에서 오픈소스 코드를 활용하고 있으나 이를 공개하는 것을 꺼리는 경향이 있다. SBOM과 같은 법·제도 시행을 눈앞에 둔 상황에서 오픈소스를 사용한 것을 숨기지 말아야 한다.
국내 기업들은 그동안 오픈소스를 활용했다고 밝히면 솔루션의 가치가 떨어진다는 우려를 갖고 있었다. 그러나 이제는 오픈소스 사용 사실을 숨길 수 없게 됐다. 오히려 기업이 오픈소스 활용 내역을 투명하게 공개할 경우 솔루션의 신뢰도와 가치가 높아질 수 있다.
한국오픈소스협회 심호성 부회장은 “생성형 AI 시대 오픈소스 생태계는 혁신의 토대가 됐고, 글로벌 SW 진출을 위한 신뢰 기반으로 자리매김하고 있다. 이를 잘 보여주는 사례가 국내 보안기업인 라온시큐어다.
라온시큐어는 인도네시아 국가 디지털 ID 설계 컨설팅을 마쳤다. 지난해에는 ‘옴니원 디지털아이디’를 오픈소스로 공개해 깃허브를 통해 ‘옴니원 오픈 DID 프로젝트’를 운영하며 개발자들의 참여를 도모하고 있다”면서 “글로벌로 진출을 고려한다면 기업의 솔루션에 적용된 오픈소스 코드를 숨겨선 안 된다. 오픈소스를 공개하는 글로벌 표준을 기준으로 삼아야 진출도 가능하다. 국내 기업들이 오픈소스 활용 공개에 대한 인식을 전환해야 하는 시점이다”라고 사례를 들어 설명했다.
생성형 AI 시대, 오픈소스 생태계가 건강하고 지속 가능하게 발전하기 위해 가장 중요한 것은 특정 AI 모델에만 초점을 맞추는 것이 아니라, 다양한 AI 모델이 잘 자라고 자유롭게 활용될 수 있는 오픈소스 생태계 자체를 튼튼하게 가꾸는 일이다.
봄에는 도다리, 여름에는 민어, 가을에는 전어, 겨울에는 대방어처럼, 시기마다 주목받는 제철 생선이 있다. 제철 생선도 중요하지만, 이 생선들이 오랫동안 우리 식탁에 오르기 위해선 건강한 바다라는 환경이 뒷받침돼야 한다. 특정 오픈소스 기반 생성형 AI 모델(제철 생선)에 대한 관심도 필요하지만, 그보다 더 중요한 것은 AI 모델이 지속적으로 활용될 수 있는 생태계(바다)를 조성해야 한다.
AI라는 트렌드는 앞으로도 지속될 것이다. 이런 상황에서 오픈소스 생태계를 건강하게 지켜낼 방법을 고민해야 한다. 오픈소스 생태계라는 바다는 잔잔할 때도 있지만, 때로는 파도(위기)가 치기도 한다. 파도에 휩쓸리지 않고 안전하게 항해하기 위해서는 전략이 필요하다.
구체적으로 오픈소스 커뮤니티의 자율적인 검증과 협력 문화를 더욱 활성화해, AI가 생성한 코드의 품질을 높이고 문제 발생 시 신속히 대응할 수 있는 역량을 키워야 한다. 이를 위해 정부, 기업, 커뮤니티가 긴밀히 협력해 정보 공유, 표준 제정, 교육 등을 함께 추진해야 한다.
생성형 AI가 인류에 기여하는 혁신 기술로 자리 잡으려면, 오픈소스 생태계의 장기적 번영을 위한 전략이 필요하다. 우리는 오픈소스라는 바다를 안전하게 항해할 준비가 되어 있는가. 이 질문에 대한 답이 AI 시대 한국 오픈소스의 미래를 좌우할 것이다.


