사니예 알래이베이(Saniye Alaybeyi) 가트너 시니어 디렉터 애널리스트

▲ 사니예 알래이베이(Saniye Alaybeyi)
가트너 시니어 디렉터 애널리스트

[컴퓨터월드] 설명 가능한 인공지능(AI)은 블랙박스(black-box) AI 모델의 의사결정 과정을 보여주기 위한 시도라고 할 수 있다. 이러한 모델은 설명 및 해석이 가능해야 한다고 가정한다.

‘설명 가능한 AI’라는 용어는 업계에서 널리 사용되고 있지만, ‘설명 가능성’보다는 AI 모델의 ‘해석 가능성’에 중점을 두고 살펴볼 필요가 있다. 애플리케이션 리더들은 종종 설명 가능한 AI의 본질과 그것이 필요한 이유 및 시기에 대해 혼란스러워 한다. 이러한 혼란은 기업들의 AI 도입을 늦추는 원인으로 작용하기도 한다.

대부분의 소프트웨어 개발자들은 블랙박스 AI의 가장 일반적인 형태인 딥 뉴럴 네트워크(deep neural networks, DNN)의 개발을 어려워한다. 그러나 DNN을 직관적으로 파악할 수 없다면 심각한 결과를 초래할 수 있어 반드시 개발해야 하는 과제이기도 하다.


첫 번째 오해: 설명 가능성의 부재는 블랙박스 AI에 특정한 새로운 문제를 제기한다

설명 가능성의 결여는 새로운 현상이 아니다. 많은 IT 시스템 역시 과거에 설명이 어려웠음에도 불구하고 성공적으로 구축됐다. 본질적으로 해석이 가능한 큰 직선회귀(linear regression) 및 심층 의사결정 분지도(decision tree)와 같은 전통적인 머신 러닝 모델 조차 너무 크고 복잡해 완전한 해석 및 설명이 불가능 하다.

설명 가능성은 ‘쉬운’부터 ‘어려운’, ‘매우 어려운’ 그리고 ‘불가능한’에 이르기까지 연속선 상에 존재한다. 의사결정에 규칙 기반 모델을 사용하고 수천 개의 규칙, 데이터 지점 및 가중치가 존재한다면, 그 모델이 특정한 결정을 내리는 이유와 방법에 대해서 설명하기 어려워 질 것이다. 또한 의사결정 분지도 내에 존재하는 수천 개의 가지가 있다면, 그 분지도 또한 쉽게 해석할 수 없을 것이다. 따라서 이러한 모델들은 설명 및 해석이 어려울 뿐 아니라 조건이 변화함에 따라 규모를 판단하기도 어려워진다.

기술 산업에서 설명 가능성이 부족한 대표적인 사례로 구글의 검색 엔진을 들 수 있다. 구글은 특정 검색 결과가 나타난 이유에 대해 종종 항의를 받아왔다. 또 다른 사례가 있다. 수년 동안 판매된 파라세타몰(paracetamol)과 같은 약물 복용 시 발생하는 특정 부작용에 대한 원인 역시 아직 명확하게 알려지지 않고 있다. 하지만, 해당 약물은 통증 완화에 비교적 효과적이며, 부작용은 복용자의 1% 미만으로 나타나 비교적 ‘안전하다’는 평가를 받고 있다.

제언

• 독립적으로 취할 수 있는 조치의 범위를 정의하고, 허용할 수 없는 결과를 식별하며, 인간 개입을 위해 이러한 결과를 표시하는 프로그램화 된 경계를 만들어라. 사용자들은 성능이 나쁜 시스템을 신뢰하지 않는다. 때문에 AI에서 도출된 잘못된 결과의 수를 최소화하는 것은 매우 중요하다.

• 시스템이 점차 복잡해짐에 따라 나타나는 설명 가능성의 결함을 수용하라. 그러나 눈에 띄는 결점이나 잠재적인 편향을 강조하고 문서화하여 향후 수정할 수 있도록 해야 한다.


두 번째 오해: 모든 블랙박스 AI는 설명 및 해석이 가능해야 한다

애플리케이션 및 이해관계자마다 AI에 대한 설명 가능성과 이해 수준에 대한 요구 사항은 다를 수밖에 없다. 개인 정보 보호, 보안, 알고리즘 투명성 및 디지털 윤리에 대한 구체적인 요구 사항은 처한 상황이나 규제 환경에 따라 다르게 나타난다.

배포 전 사전 테스트가 가능한 인사이트(insight)를 생성하는 AI는 인간 또는 시민에 대한 결정을 내리는 ‘독립적인’ AI 보다 설명에 대한 필요성이 적다. 또한, AI에는 인간 또는 경영진을 비롯한 윤리 위원회에 대한 기본적이고 전문적인 자문이 요구될 수 있다. 일례로, 전통적으로 남성이 여성보다 높았던 신용등급 평가에 AI가 적용되면서 사람들이 이용할 수 있는 대출 한도에 불균형이 일어나게 됐다.

자동차 보험 정책에 적용된 AI는 오히려 젊은 여성들에게 혜택을 줬다. 젊은 남성들이 상대적으로 많은 사고를 일으키고 높은 보험료를 요구한다는 결과가 도출됐기 때문이다. 인간은 AI가 데이터를 기반으로 올바른 결론을 도출했는지, AI의 결론에 따라 젊은 남성에게 더 많은 보험료를 거둬들여야 하는지, 아니면 AI 결정을 뒤집어야 하는지를 선택해야 한다.

자율주행 등 폐쇄 루프(closed loop)에서 의사결정을 내리는 AI 시스템은 윤리적 및 법적 이유로 그 책임이 엄청나다고 할 수 있다. 특정 사건이 발생했을 때 책임 문제에 대해 살펴볼 필요가 있다.

제언

• 법적 분쟁 발생 시 책임 소재를 명확하게 할 수 있도록 자료 및 결정 설계를 문서화하라.

• 이해관계자가 설명 가능성과 정확성 사이에 균형을 잡을 수 있도록 보장하라.

• 해석 가능한 모델 대용을 통해 블랙박스 AI 모델이 내리는 결정을 설명하라. 데이터 시각화 툴을 사용해 이해관계자에게 데이터 가시성을 제공하라.

• 시범을 보이고 블랙박스 테스트 과정을 정확하게 설명하라. 모델은 설명할 필요는 없지만 방어는 할 수 있어야 한다. 시범을 보이거나 검토할 때 비즈니스 부문 리더들을 참여시켜라.


세 번째 오해: 블랙박스 AI가 내린 결정은 완벽하게 설명이 가능하다

DNN이 선도적인 기술로 부상하면서 기존 머신 러닝 기술은 특정 문제에 내재된 복잡성에 적절히 대처할 수 없을 것이라는 인식이 있다. 이미지 인식 및 기계 번역은 컴퓨터 과학자들이 50년 이상 적절한 솔루션을 개발하지 못한 영역이다.

DNN의 출현으로 최근 돌파구를 마련했지만, DNN이 복잡한 솔루션에 대한 간단한 설명을 제공해줄 수 있을 것이라는 기대를 품는 것은 옳지 않다. DNN은 인간의 이해 범위를 초월하는 수백 가지 차원에서 작동하기 때문이다.

따라서 모든 로직 트리(logic tree)들을 해석하고 모든 연관성을 따르는 것은 인간의 능력 밖이라는 가정을 해야 한다. 2017년 알파고가 월드 바둑 챔피언을 꺾었던 것처럼 말이다. 제약 분야에서 의사들이 많은 의약품의 효과를 완벽하게 이해할 수 없음에도 불구하고 약을 처방할 수 있는 이유도 마찬가지다. 90% 이상의 환자들에게 도움을 주고, 부작용을 일으킬 확률이 거의 없다고 가정하기 때문이다.

또한, DNN이 개인당 15TB의 데이터를 보유한 채 수백만 명의 환자의 게놈을 조사해 인류 웰빙과 건강을 관리하는 경우도 이와 같을 것이다.

설명에 오류가 있을 수 있다는 사실도 고려해볼 필요가 있다. 잘못된 정보는 종종 오해를 불러일으키고 신뢰성을 떨어뜨린다. 신뢰성을 높일 수 있는 최선의 방법은 철저한 시스템 테스트다. 하지만 현재 인기 있는 첨가 요인 분석 알고리즘인 SHAP(SHapley Additive exPlanations) 및 특정 모델에 구애 받지 않는 기법인 LIME(local interpretable model-agnostic explanations) 등과 같은 설명 가능한 AI의 방법론은 소위 ‘특징 중요성’에 한정하여 해석 가능하기 때문에 종종 제한적이고 불만족스럽다.

제언

• 복잡한 AI 시스템이 불가능한 속도와 규모로 일관되고 정확한 결과를 만들어낼 수 있는지를 증명하라.

• 시스템이 어떻게 AI 결과에 필요한 편향을 도입하여 결과의 균형을 맞출 수 있는지를 입증하라.


네 번째 오해: 인간의 결정은 블랙박스 AI의 결정보다 더 설명 가능하다

사람들이 지식, 이해력, 기술, 직관 등이 한계에 도달하면서 의사결정의 질은 경험에 따라 향상된다. 보다 나은 의사결정을 내리는 사람에게는 더 많은 책임이 부여되는 경향이 있지만, 모두가 알다시피 조직을 통한 성장 과정은 일정하지 않다. 인간의 의사결정은 복잡하고 때로는 이해할 수 없는 과정이다.

실제 우리는 일반적으로 ‘촉’에 의한 결정을 상관습의 일부로 받아들인다. 데이터가 제공하는 메시지를 더 잘 이해할 수 있는 데이터 중심적인 새로운 관리자 계층이 등장한지는 몇 년 되지 않았다. 하지만, 유익한 자료를 선별하고 모순적인 자료는 걸러내는 것은 여전히 비즈니스 관리자 및 임원들에게 상당부분 습관으로 남아 있다.

인간의 의사결정을 설명하기 어려운 이유는 다양하다. 과거의 결정을 반복하면 차선의 결정을 내릴 수 있으며 이 경우 의사결정의 어려움으로부터 벗어날 수 있을 것이다. 대량 데이터를 고려한 AI 시스템은 일관된 결정을 내린다. 이러한 일관성은 많은 예측할 수 있는 상황에서 시스템을 확장할 수 있다는 점에서 매우 중요하다.

제언

• 의구심이 드는 결정을 강조하기 위해 AI 기반 애플리케이션에 제한 및 규제를 두어라.

• 성별 또는 인종에 대한 편견 등과 같은 비즈니스 문제를 야기할 수 있는 숨은 패턴을 탐지하기 위해 통계 자료를 수집하라.

• 앙상블 기법을 사용하여 거짓 긍정 및 거짓 부정을 최소화하라.


다섯 번째 오해: 설명 가능한 AI를 구매할 수 있다

일부 공급업체는 사용자가 모델의 결정을 이해하는 데 도움이 되는 기술적 메커니즘을 사용한다. 하지만, API 호출 또는 설명가능성 점수는 기업의 IT 리더들이 모델이 특정한 결정을 내리는 이유에 대해 해석하기에 충분하지 않다. 공급업체의 툴을 통해 도출된 설명 가능한 AI의 결과는 컴퓨터 공학 지식이 없는 사람들에게는 여전히 이해하기 어렵다.

설명 가능성은 인간이 이해할 수 있어야 한다. 이런 이유로 설명가능성 점수 또는 API 반환 값은 인간이 이해하고 납득할 수 있도록 번역되어야 한다. 해당 작업은 주로 데이터 과학자들에 의해 수행되어야 하며, 그들은 개별 사업 부문의 문제점을 파악하고 해당 결과를 사람이 이해할 수 있는 용어와 도메인을 위한 문맥으로 변환하는 데 도움을 줄 수 있는 도메인 전문가들과 긴밀히 협력해야 한다.

설명은 도메인을 위한 내용이어야 하며, 구제적인 방법으로 설명할 수 있는 것에 대해 비즈니스 이해관계자와 협상한 결과여야 한다. 설명은 종종 의사결정을 자동화하거나 지원하는 파생된 통계를 기반으로 맞춤화된 메타 분석이다.

제언

•검증 방법을 포함해 AI 툴 및 플랫폼 공급업체들의 능력을 평가하라. 평가 기준 항목은 ▲인간이 내용을 인식하고 이해할 수 있는 방식으로 모델의 결정을 설명 ▲이해관계자들과의 신뢰를 구축 ▲사용된 모델들을 뒷받침한다 등 세 가지다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지