[인터뷰] “다양한 사례 확보해 AI 품질 표준화 위한 객관적 모델 개발”

정혜정 인공지능품질연구포럼 의장(평택대학교 데이터정보학과 교수)

[컴퓨터월드] 인공지능 품질 표준화를 위해 산·학·연 전문가들이 한데 모였다. 지난 9월 24일 인공지능품질연구포럼이 발족된 것이다. 인공지능 및 SW 품질 분야 산·학·연 전문가로 구성된 인공지능품질연구포럼은 인공지능 품질 표준화를 위한 연구·개발을 목적으로 하고 있다. 인공지능 산업 활성화 과정에서 야기되는 품질 이슈 및 국민의 재산 및 생명과 직결되는 안전 문제 등에 대해 대응 방안을 모색하게 된다. 인공지능품질연구포럼은 인공지능과 SW 품질 분야 전문가는 물론 데이터 등 ICT 분야별 전문가를 영입해 나갈 예정이다. 다양한 분야의 산·학·연 전문가를 영입함으로써 외연을 확장하고 전문성을 강화하기 위해서다.

포럼의 초대 의장에는 정혜정 평택대학교 데이터정보학과 교수가 선출됐다. 정혜정 의장은 그동안 국제표준화기구인 ISO/IEC JTC1/SC7에서 SW와 시스템 엔지니어링 분야 전문가로 활동하면서 국내외 SW 품질 표준화에 기여해 왔다.

“국내에서 인공지능 품질 분야에 특화된 포럼이 생겨났다는 것만으로도 큰 의미가 있다. 인공지능 품질 표준화 연구활동을 통해 AI강국 토대 마련에 힘쓰겠다”고 말한 정혜정 의장을 만나봤다.

Q. 최근 SW와 AI의 품질에 대한 중요성이 특히 강조되고 있는데 그 이유는.

최근 4차 산업혁명 이후의 삶, 코로나19 이후의 삶에 대한 유튜브 영상을 본적이 있다. ‘SW 컨트롤 에브리띵, 즉 ‘SW가 모든 것을 조종한다’는 것이 주요 내용이었다. 실제 앞으로 우리의 모든 삶은 소프트웨어가 조정하게 될 것이다.

코로나19로 모든 수업이 온라인으로 이루어지고 있다. 얼마 전 우리 학생들을 대상으로 중간고사를 어떤 형태로 치를 것인가에 대해 설문조사를 한 적이 있다. 개인적으로는 학교에 나와 시험 보는 것이 좋다는 생각이었으나 설문조사 결과 80% 이상이 온라인 시험을 선호했다. 단편적인 사례지만, 앞으로 모든 게 이처럼 바뀔 것이다.

우리 포럼을 만드는데 많은 도움을 준 이영석 와이스즈톤 대표는 직원들을 강제로 재택근무 시키고 있다고 한다. 회사와 직원들이 코로나 이후의 변화하는 상황에 쉽게 적응할 수 있도록 대비하고 있다는 것이다. 많은 전문가들은 코로나 이후에는 아무리 발버둥쳐도 과거로 돌아갈 수 없다고 말한다. 그럴 것이다.

코로나로 인해 많은 업종이 어려움을 겪고 있지만 SW 분야만큼은 예외다. SW업계는 코로나를 오히려 기회로 활용하면서 호황을 누리고 있다. 소프트웨어가 앞으로 우리의 모든 삶을 조종할 것이라는 반증이기도 하다.

여기서 가장 주목해야 할 분야가 바로 AI다.

요즘 국가에서 SW 안전에 대한 평가를 강조하고 있다. 관련된 인력 양성에도 공을 들이고 있다. 철도 항공 의료 등 무엇보다 안전이 중요한 분야에서 SW가 많이 활용되고 있기 때문이다. 이러한 분야에서 SW는 아주 작은 결함만으로도 큰 문제를 야기할 수 있다. SW 안전에 대한 품질문제가 중요한 이유이다. 특히 AI 분야는 모든 것들이 인간이 컨트롤할 수 없는 부분까지 모델링이 된다. 때문에 AI 분야에서 품질은 더더욱 중요하다.

AI 제품에 대한 새로운 품질 기준 체계 마련

Q. 국내 SW와 AI 품질 인증 분야 상황을 진단한다면.

그동안 국내에서 SW 품질에 대해 다소 소홀한 경향이 있었다. SW 품질과 관련된 기관이 별로 없다는 데서도 이러한 상황을 알 수 있다. 국가기술표준연구원에서 품질에 대한 연구는 많이 하고 있는데 SW보다는 HW에 치중돼 있다. 그나마 TTA에서 SW 인증을 담당하면서 SW 품질에 대한 인식 수준이 높아졌다고 할 수 있다.

최근 들어 산업계와 학계 등을 중심으로 소프트웨어 품질을 높이려는 움직임이 일고 있다. 대표적으로 10년 넘게 소프트웨어 품질관련 사업을 해온 와이즈스톤을 들 수 있다. 이 회사는 KOLAS 인증을 받으면서 SW에 대한 인증을 시도하고 있다.

이번 인공지능품질연구포럼이 발족된 것도 와이즈스톤의 이영석 대표의 힘이 컸다. 나를 비롯해 데이터와 AI 연구 하는 교수들 중심으로 AI에 대한 인증이 필요하다는 공감대를 형성하고 이를 바탕으로 와이즈스톤과 한국표준협회(KSA)가 공동으로 AI 품질을 인증하는 AI플러스(AI+)인증제도를 개발했다.

본래 SW 품질은 국제 표준(ISO/IEC 25023)을 기반으로 한다. 여기서는 8가지 면에서 품질을 바라본다. ▲기능성 ▲신뢰성 ▲사용성 ▲유지보수성 ▲이식성 ▲효율성 ▲상호운용성 ▲보안성 등이다.

하지만 AI 제품은 여기에 딱 맞추기 어렵다. 가령 기능의 정확성이라고 했을 때, 데이터를 기준으로 봐서 AI 모델의 정확도를 평가해야 하는데 이걸 판단하기가 어렵다. 따라서 AI 제품에 대한 새로운 품질 기준을 체계적으로 다듬을 필요가 있다. 이를 위해 SW 품질에 대한 연구와 데이터 분야의 연구가 합쳐져야 한다. AI 제품은 알고리즘(SW)만으로는 품질평가가 불가능하기 때문이다. 데이터가 들어가야 한다. 즉 알고리즘(SW)과 데이터에 대한 품질 평가가 동시에 이루어져야 하는 것이다. 포럼이 만들어진 이유도 상당부분 이런 문제를 논의하고 해결하기 위함이다.

“회원들이 돌아가면서 주제를 발표하고, 그 문제에 대해 집중 토론하는 등 외연확장보다는 연구활동에 힘을 쏟을 계획이다.”

Q. SW품질과 AI품질은 어떤 면에서 차이가 있는가.

비슷하긴 하지만 약간 다르다. 오피스SW는 오차가 좀 있어도 된다. 근데 항법SW는 조금의 오차도 허용해서는 안된다. 앞으로 오피스SW나 항법SW나 어디든 AI가 적용될 것이다. AI 품질 역시 마찬가지다. 오피스SW에 적용되는 AI는 오차가 좀 있어도 되지만, 항법SW에 적용되는 AI는 오차가 허용되지 않는 높은 품질을 갖춰야 한다.

특히 자율주행차에 적용되는 AI 품질은 매우 중요하다. 사람의 생명과 직결되기 때문이다. 미국에서 공부할 때 자율주행차에 대한 설문조사를 한 적이 있다. 앞으로 직진을 하면 내 가족이, 우회하면 수십명의 사람이 다칠 경우 AI가 어떤 결론을 내려야 할까라는 질문이다. AI를 적용할 때 기술적인 문제이외에도 법적 윤리적인 문제도 생각해야 한다는 점을 보여주는 대목이다.

정확한 정답이 없는 이런 문제를 어떻게 테스트하고 학습시킬 수 있겠는가? 자율주행차는 이미 완성됐지만 아직 본격적으로 운행되지 못하고 있는 것도 상당부분 이런 문제에서 기인한 것이라 볼 수 있다. AI는 모든 상황에 대해 다 모델링이 돼야 하는데, 정답을 내리기 어려운 문제들이 있어 모델링이 어렵다는 것이다.

AI 품질 수준은 상황에 따라 다르기 때문에 단적으로 말하기 어렵다. 일반적으로 품질을 테스트할 때 SW는 기능이 얼마나 잘 구현돼 있는 지를 점검한다. AI는 재현율 등을 보고 품질을 평가한다. 재현율은 쉽게 말해서 “AI가 정답을 얼마나 잘 맞추는가”이다.

Q. AI 품질 기준에 대한 체계화가 필요하다는 생각이 드는데.

아직 AI 품질에 대한 모델 기준은 없다. 그나마 한국표준협회와 와이즈스톤이 협업해서 AI+ 인증을 내놓은 게 시작이라고 본다. 철도나 항공 등 일부 산업 분야에서 나름대로 품질에 대한 평가 기준을 갖추고는 있으나 그동안 IT, 특히 AI 분야에서 접근하는 품질 평가 기준은 없었다. 최근 이에 대한 품질평가 기준에 대한 필요성이 제기되고 있으며 인공지능품질연구포럼에서 AI 품질에 대한 모델을 만들어 갈 계획이다.

국가 경쟁력 강화를 위해 정부가 AI와 빅데이터 분야에 투자를 확대하고 있는 상황에서 이에 대한 품질 평가의 필요성이 제기되고 있다. 포럼 결성에 큰 역할을 한 와이즈스톤 이영석 대표 역시 KOLAS 인증을 획득하면서 SW와 AI 품질 인증에 대한 필요성을 절감했다고 한다.

품질을 평가할 때 AI와 데이터에 대한 평가가 함께 이뤄져야 한다. 우리 포럼에서는 AI에 대한 기술과 와이즈스톤을 비롯한 기업들이 현장에서 얻은 레퍼런스 경험을 결합해서 품질연구에 반영할 계획이다. 한국표준협회의 AI+ 인증 사례도 활용할 것이다.

산업 현장의 사례, 한국표준협회의 사례를 모두 참고하고 국제 표준(ISO IEC 25023)까지 더해 체계화 시켜보려 한다. 산학연이 협력해 공동으로 연구하고 그 결과를 체계화 할 경우 우리나라가 이 분야에서 선두에 설 수 있을 것이다.

외연 확장보다는 연구활동에 전념

Q. 인공지능품질연구포럼은 어떻게 구성돼 있는지, 또한 앞으로의 계획은.

우리 포럼에는 단체나 기업이 아닌 개인이 구성원으로 참여하고 있다. 주로 교수들이 회원으로 참여하고 있으며 일부 AI 관련 기업 대표가 참여하고 있다. 포럼을 외형적으로 확장하기 보다는 연구활동에 전념하면서 내실을 기하자는 데 의견을 모았다.

인공지능품질연구포럼은 인공지능 품질 표준화를 위한 객관적인 품질 모델 개발 등 다양한 연구·개발 활동을 펼치게 된다. ▲인공지능 특성에 맞는 품질평가 기술 및 평가모델 연구·개발 ▲세미나 및 워크숍을 통한 인공지능 품질 기술·정보 확산 및 보급 ▲인공지능 품질 표준화 전략 수립 및 국내·외 표준화 활동 ▲산학연 전문가 풀(Pool)을 통한 표준화 정책 개발 및 제안 등이 그것이다.

업계에서 우리 포럼에 많은 관심을 보이고 있다. 그만큼 우리 포럼의 역할에 기대를 하고 있다는 의미이기도 하다. 우선 레퍼런스를 많이 확보할 계획이다. AI는 아직 연구 사례도 적고 관련 경험도 부족해 레퍼런스 확보가 가장 시급하다. 산업 분야별로 많은 레퍼런스를 만들어야 한다.

포럼은 한 달에 한 번 열린다. 지난번 창립 총회 때는 국제적으로 주목하고 있는 SW품질 모델에 대해 토론했다. 앞으로 회원들이 돌아가면서 주제를 발표하고, 그 문제에 대해 토론하면서 품질을 테스트할 수 있는 방법을 찾고 레퍼런스를 늘려가려고 한다.

지난 9월 24일 와이즈스톤 본사에서 인공지능품질연구포럼 창립총회가 열렸다. 총회 후 기념사진을 찍고 있는 모습.

Q. AI는 분야가 다양해 공통된 품질 표준이 어렵다는 생각이 드는데.

클라우드도 분야가 다양해 품질을 평가하는 기준이 다 다르다. 이런 경우 품질 평가의 기준은 개발사에서 제시하는 제품 설명과 가이드라인을 보고 그것과 맞는지를 확인하는 식으로 이뤄진다. AI 분야도 많은 레퍼런스가 쌓이면 이러한 가이드라인이 나올 수 있을 것이다. ISO/IEC 25023이라는 표준 하에서 AI에 적용할 수 있는 모델을 만드는 게 핵심이다.

Q. 레퍼런스를 확보하는 게 중요하다고 했는데 레퍼런스 확보 방안은.

일단 데이터를 최대한 많이 모으는 게 중요하다. 하지만 데이터에 대한 확인은 필요할 것이다. 정부와 기업에서 AI를 강조하다보니 조금만 새로우면 죄다 AI라고 이름을 붙이는 경향이 있다. 한 예로 AI 데이터 바우처 사업을 보면 AI라 할 수 없는 것도 AI라는 이름을 붙이는 경우가 있다. 먼저 AI 사례와 그렇지 않은 것들을 구분하는 게 필요하다는 생각이다.

같은 AI 레퍼런스라고 하더라도 모델별로도 구분할 필요가 있다. AI 모델을 구분해서 카테고리를 만들고, 카테고리 별로 관련 제품들을 찾아내고 해당 제품에 대한 직접적인 확인이 필요할 것 같다. AI는 종류가 많을뿐 아니라 일반 SW와 달리 HW 의존도도 크다. 이 모든 걸 다 고려해야 한다. 이런 이유로 한 사람이 잘한다고 해서 좋은 결과가 나올 수 없다. 모두가 다함께 연구하고 고민해야 하는 이유이다.

그동안 우리나라는 SW 품질 평가 분야에서는 선도적으로 잘 해왔다고 생각한다. AI라는 용어는 예전부터 존재했지만 AI가 활성화되기 시작 한 것은 고작해야 2~3년 전 부터다. 정부에서도 인재양성프로젝트를 추진하는 등 많은 투자를 하고 있다. AI 품질에 대한 연구를 안 할래야 안할 수 없는 분위기가 형성된 것 같다.

Q. 해외 품질 표준화 활동 현황은.

나는 국제 표준 멤버로 활동하고 있다. ISO/IEC JTC 1/SC 7 멤버이다. 여기에서 SW 품질을 다룬다.

ISO/IEC 25023은 전 세계적으로 협력하면서 아이디어를 만들어가고 있다. 이를 기반으로 우리나라에 맞게 체계화해서 만든 게 GS인증이다. 업계에서 GS인증을 인정하는 것도 국제 표준을 기반으로 만들었기 때문이다

ISO/IEC 25023은 다양한 분야에 적용할 수 있다. SW 종류와 분야에 맞도록 커스터마이징 해서 품질을 테스트한다. 우리나라에서 SW품질을 평가할 때도 이를 적용한다. AI 품질도 이에 맞춰서 진행하려 한다. AI 분야에 적용하기 위해서는 많은 연구가 필요하다. 오늘날 AI는 단순한 밥솥부터 로봇 등에 모두 적용돼 있다. 따라서 이런 연구는 반드시 필요하다는 생각이다.

Q. 국내 품질 연구 활동 현황은.

SW 품질 모델은 TTA에서 상당부분 담당하고 있다. GS 인증 역시 TTA의존도가 높다. GS인증은 국내 기업들의 SW 품질에 대한 인식에 많은 변화를 가져다 줬다.

SW 품질 평가와 관련해 다양한 모델을 갖고 있는 TTA는 최근들어 AI분야도 연구를 하고 있으며 그 결과 AI를 적용한 SW에 대한 다양한 연구사례를 확보하고 있다. 와이즈스톤을 비롯한 민간 기업은 물론 학계에서도 SW와 AI에 대한 품질 활동에 관심을 보이고 있어 향후 많은 변화가 예상된다.

Q. 품질 연구의 기본이 되는 SW 테스트가 중요하다는 생각이 든다.

테스트를 안해 본 사람은 아주 단순하게 생각하는 경향이 있다. 기능 몇 개 시험해보는 정도로 생각한다. 하지만 테스트를 위해서는 평가 방법을 고민해야 한다.

한 예로 데이터를 다루는 데 SPSS라는 프로그램이 있고 R이 있다. SPSS는 윈도우에서 클릭만으로 가능한 반면 R은 프로그램을 직접 짜야 한다. 사용면에서는 SPSS가 훨씬 우수하다고 볼 수 있다. 그러나 결과물은 R이 훨씬 다양하다. 어느 쪽이 더 좋다고는 할 수 없으며 이 경우 테스트 방법이 달라야 한다.

매뉴얼을 보고 테스트해야 할 기능을 찾고 어떻게 테스트 시나리오를 짤 지를 고민해야 한다. TTA가 간단한 제품에도 몇 주씩 시간을 들여 테스트하는 이유이다. AI 품질도 단편적인 성능이나 기능만 보면 안 된다.

Q. 국내에는 SW테스트 시나리오 만드는 사람들이 별로 없는 것 같다.

우리 학생들은 졸업 후 리서치 회사나 테스트회사에 많이 취업하는 데 회사마다 대우가 천차만별이다. 기업들은 아직까지도 SW테스트에 많은 비용과 역량을 투자하겠다는 인식이 적다. 이런 이유로 SW테스트에 대한 적절한 대가 산정이 이뤄지지 않고 있다. 실제 현장 실사를 나가보면 SW테스트 업계 회사들이 너무 영세하다. 국내 SW테스트 시장은 아직 과도기가 아닐까 싶다.

하지만 시장이 활성화 되고 있는 것은 틀림없는 사실이다. 내가 2000년도 TTA에 갔을 때는 SW테스트에 대한 수요가 별로 없었는데, 지금은 오히려 일감이 밀려있다. 10년 전만 해도 10대 리서치 회사의 연봉이 낮았는데 지금은 많이 개선됐다. 테스트 분야도 시간이 지나면 개선될 것으로 확신한다.

김호 기자 sokim9303@itdaily.kr

다른기사 보기

상단영역

본문영역

[인터뷰] “다양한 사례 확보해 AI 품질 표준화 위한 객관적 모델 개발”

정혜정 인공지능품질연구포럼 의장(평택대학교 데이터정보학과 교수)

기사 댓글 0

비회원 로그인