포항공대, ITB 의미론적 분석까지 가능한 자동 분석 시스템 개발

[컴퓨터월드] 자연어처리(NLP) 기술이 고도화되면서 산업계에 빠르게 적용되고 있다. 정형화되지 않은 일상적인 문장도 보다 정확히 인식하고 처리할 수 있게 되자, 그동안 기술 도입을 꺼리던 분야에서도 NLP를 활용해 생산성을 높이려는 시도를 하고 있다.

특히 최근에는 한 건의 비즈니스 계약을 위해 수백 페이지의 문서를 검토해야 하는 글로벌 플랜트 엔지니어링 분야에서 NLP 기술 도입에 나서고 있다. 사업 규모가 수천억 원 대에 이르면 한 건의 계약서를 분석하기 위해서만 몇 주 이상의 시간이 소요된다. NLP 기술을 활용해 빠르게 계약서를 분석하고 독소조항을 찾으려는 시도가 이어지고 있는 것이다.


계약서만 수백 페이지…전문 로펌까지 투입해야

국내 건설사들에게 있어 글로벌 플랜트 엔지니어링 비즈니스는 매우 큰 사업 기회다. 수주 금액만 수천억 원 대에 달하는 초대형 사업들이기 때문이다. 프로젝트를 성공적으로 마무리했을 때 얻을 수 있는 이득이 크기 때문에 많은 국내 대기업들이 해외 플랜트 엔지니어링 사업에 촉각을 곤두세우고 있다. 한때 플랜트 엔지니어링은 우리나라 경제의 효자상품 중 하나였다.

하지만 플랜트 엔지니어링은 비즈니스 규모가 큰 만큼 위험부담도 크다. 최근에는 국내 건설사들이 해외 플랜트 엔지니어링 프로젝트를 수주했다가 성과를 내지 못하는 경우도 있다. 잘못된 투자로 조 단위의 손실을 겪는 경우도 있다는 것이다. 이에 대해 산업계 일각에서는 설계 전문성 부족과 원가 계산 역량 부족 등, 기본적인 프로젝트 정보 분석이 제대로 이뤄지지 않았기 때문이라고 지적한다.

특히 플랜트 엔지니어링의 EPC(Engineering Procurement Construction) 분야에서는 계약 체결 단계에서 확인해야 하는 문서만 해도 최소 수백 페이지에 달한다. 실제로 한 대형 글로벌 플랜트 엔지니어링 프로젝트는 본 계약서(condition of contract)만 해도 300페이지, 기술요구사항(SOW. Scope Of Work)은 700페이지에 달했다. 프로젝트 규모가 대형화되면서 검토해야 하는 문서가 수천 페이지에 달하는 경우도 있다.

심지어 양이 많은 것은 물론이거니와 내용까지 어렵고 복잡하다. 짧으면 반 페이지, 길면 한 페이지가 넘어가는 장문 및 복문 구성, 일반적으로 사용되지 않는 어려운 전문 표현들 사이에서 겉으로 드러나지 않도록 숨겨져 있는 독소조항들을 찾는 것은 쉽지 않은 일이다. 검토 단계에서 자사에 불리한 독소조항들을 찾아내지 못한다면 프로젝트 진행 중에 심각한 피해로 이어질 수도 있다. 이렇다보니 이런 프로젝트의 입찰안내서(ITB, Invitation to Bidder) 작성과 분석만 전문적으로 다루는 글로벌 로펌들이 있을 정도다.

최근에는 IT 기술을 활용해 ITB 분석을 정확하고 효율적으로 수행하려는 요구가 늘어나고 있다. 자연어처리(NLP, Natural Language Processing) 기술을 활용하려는 시도다. NLP 기술을 활용하면 사람 손으로는 분석에 몇 주나 걸릴 만한 ITB를 몇 시간 안에 분석해, 해당 업무에 소요되는 시간을 크게 줄일 수 있을 것으로 기대된다. 이미 법조계에서는 챗봇을 통한 법률 상담이나 AI의 계약서 분석 사례가 나와 있다는 점을 감안하면 성공 가능성 역시 높을 것으로 예상된다. 미국에서 법 지식을 다수 학습한 AI로 계약서 분석을 수행한 결과 인간 변호사 대비 소요 시간이 약 98% 줄어들기도 했다.


SK‧대우건설, NLP 활용한 분석 시스템 구축

국내에서는 SK건설이 처음으로 AI 기반의 ITB 분석 시스템을 구축했다. SK건설은 지난 2019년부터 SK C&C의 ‘에이브릴(Aibril)’을 활용해 관련 연구와 시스템 개발에 착수했으며, 약 1년 만인 2020년 1월에 시스템을 오픈했다.

SK건설의 ITB 자동 분석 시스템

‘에이브릴’은 SK C&C와 IBM이 협력해 ‘왓슨 익스플로러(IBM WEX, IBM Watson Explorer)’를 기반으로 개발한 AI 서비스다. 여기에 그동안 SK건설이 축적해온 방대한 양의 공사정보‧품질관리‧안전‧환경 등을 학습시킨 결과, ITB 분석 정확도는 약 94%로 나타났다. 이 정도면 AI 단독으로 ITB 분석을 수행할 수는 없겠지만 담당자들의 업무를 보조하는 데에는 충분한 수치다. SK건설은 “새로운 시스템을 활용하면 ITB 분석을 자동화해 기존 대비 소요 시간을 60% 이상 줄이고 정확도도 높일 수 있다”고 설명했다.

대우건설은 글로벌 기업 SAS의 기술을 도입했다. ‘SAS 비주얼 텍스트 애널리틱스(SAS Visual Text Analytics)’를 활용해 AI 기반 ITB 분석 시스템 ‘바로답(BaroDAP)’을 구축했다. ‘바로답’은 사전에 학습한 3억 개 이상의 단어를 바탕으로 ITB의 문서 구조를 빠르게 분석해 공종별 카테고리에 맞춰 분류하고, 각 카테고리에 맞는 체크리스트를 제공해 발주처의 요구사항이나 제약사항을 파악할 수 있도록 돕는다. 여기에 SAS의 국내 파트너사 피앤씨스타의 ‘이지PDF’ 솔루션을 활용해 PDF로 구성된 ITB 문서에서도 텍스트나 테이블 추출 등을 자동화했다. 프로젝트 전체 공종에 대해 일목요연하게 파악할 수 있도록 간편화된 대시보드도 제공한다.

‘SAS 비주얼 텍스트 애널리틱스’로 생성한 분류 모형 화면

SK건설과 대우건설은 ITB 분석 자동화 시스템을 구축해 플랜트 엔지니어링 프로젝트의 업무 효율을 높였다. 하지만 한 업계 전문가는 아직 국내에 제대로 된 NLP 기반의 ITB 분석 시스템이나 기술은 없다고 주장했다. 두 기업 모두 ITB 분석의 일부만을 자동화했을 뿐이라는 설명이다.

ITB는 크게 두 가지 문서로 분류할 수 있다. 앞서 언급한 본 계약서(COC)와 기술요구사항(SOW)이다. 이 중 분석 자동화의 난이도가 높은 건 본 계약서이다. 복문과 장문으로 점철돼있기에 문맥과 내용을 이해할 수 있는 의미론적 분석이 필요하고, 따라서 고도화된 NLP 기술을 요구한다. 독소조항이 교묘하게 숨겨져 있을 가능성도 높다.

반면 기술요구사항은 본 계약서에 비해 분석 자동화 난이도가 낮다. 여기에는 프로젝트의 구체적인 설계변수들이 수치로 기록돼있다. 예를 들어 특정 부품의 크기나 소재 제한, 내열‧내한 성능 등이다. 따라서 기술요구사항에 대한 분석은 프로젝트를 수주하려는 기업이 수행할 수 있는 범위 내의 사업인지를 수치적으로 검토하는 게 대부분이다. 여기에는 NLP 기술보다도 텍스트 및 테이블 추출‧분석, 카테고리 분류 등의 기술이 요구된다. 국내 기업들이 구축한 ITB 분석 자동화 시스템은 기술요구사항 분류와 분석 성능은 뛰어나지만, 보다 고도화된 NLP 기술이 요구되는 본 계약서 분석 성능에는 아직 의문이 남는다는 지적이다.


포항공대, 본 계약서까지 분석 가능한 기술 개발

현재 국내에서는 보다 고도화된 NLP 기술력을 적용한 ITB 분석 과제가 진행 중이다. 산업통상자원부는 지난 2012년 ‘AI 기반 엔지니어링 빅데이터 통합 분석 지원 시스템 개발’ 과제를 발주했다. 여기에는 ‘지식베이스 아키텍처 설계’나 ‘플랜트 설비 예측정비 모델 구축’ 등과 함께 ‘엔지니어링 ITB 분석 프로토타입 개발’이 주요 목표로 포함됐다. 해당 과제는 위세아이텍이 수주했으며, 이 중 ITB 분석 프로토타입 개발은 포항공과대학교 PM연구실이 주도적으로 진행했다.

기존의 ITB 분석 자동화 시스템들이 상대적으로 쉬운 기술요구사항에 초점을 맞췄다면, 포항공대가 주도한 ITB 분석 프로토타입 개발 과제는 고도화된 NLP 기술을 활용해 본 계약서 분석까지 자동화하는 것을 목표로 한다.

한편 본 계약서 분석은 기술요구사항 분석보다 훨씬 높은 NLP 기술력이 필요하다. 한 페이지 이상 늘어지는 장문과 단서 문장이 복잡하게 얽힌 복문 사이에서 의미론적 분석을 통해 문맥을 정확히 짚어내야 하기 때문이다. 하지만 이를 통해 얻을 수 있는 이득은 상당하다. 전문 로펌이 수 주간 매달려야 하는 수백 페이지의 본 계약서 분석 작업을 몇 시간 안에 끝낼 수 있기 때문이다.

실제로 법조계에서는 AI를 활용해 법률자문 등을 제공하는 리걸테크(legal-tech)가 주목받고 있다. 여기에는 사람 대비 훨씬 빠른 서비스 속도가 큰 부분을 차지한다. 국내에서도 인간 변호사와 AI가 법률 자문 대결을 벌인 결과, 인간 변호사 팀이 제한 시간 안에 답변을 내놓지 못한 반면 AI는 10초 이내에 정확한 답변과 보완해야 할 항목까지 제시해 눈길을 끌었다. AI가 법조인의 역할을 대체할 수 있을 지에 대해서는 갑론을박이 있지만, 최소한 업무 효율을 크게 높일 수 있는 도구로써의 가능성은 충분히 보여줬다는 평가다.

이번 과제를 주도한 포항공대 이을범 교수는 “미국에서는 이미 AI 변호사에 대해 많은 테스트를 진행하고 있는데, 인간 변호사가 100시간 걸릴 업무를 2시간 안에 끝낼 수 있는 것으로 나타났다. 물론 실무에 적용하면 데이터를 전처리하거나 입력하는 등 세팅에 시간이 걸리기 때문에 이렇게 극단적인 차이는 나지 않겠지만, 최소한 10배 이상은 빠를 것으로 확신한다”고 설명했다.


정확도 90% 이상 기록…상용화 초읽기

분석 결과의 정확도 역시 ITB 자동 분석 시스템의 중요한 평가 요소다. 분석 속도가 아무리 빠르다 한들 잘못된 결과를 낸다면 시간과 역량을 낭비하는 꼴이기 때문이다. 특히 한 번의 비즈니스로 수천억 원이 왔다갔다하는 플랜트 엔지니어링 분야에서는 ITB 분석에 대한 정확도가 매우 중요하다.

지난 몇 년간의 과제 수행을 통해 포항공대에서 개발한 ITB 분석 시스템의 정확도는 프로토타입 단계를 넘어 상용화가 가능한 수준에 이르렀다. 복잡한 문장이 포함된 본 계약서를 분석한 결과 중요성이 높은 30개 핵심 독소조항을 90% 이상의 정확도로 찾아냈다. 이는 같은 문서를 사람이 분석한 결과와 비교해 일치 여부를 판별한 것이며, ITB 분석 시스템에 완전히 의존하지는 않더라도 사람이 직접 수행하던 업무를 보조하기에는 충분한 수치로 보인다.

포항공대 측은 ITB 분석 시스템이 인터페이스까지 개발 완료돼 있어 가까운 시일 내에 시범 서비스가 가능할 것으로 예상했다. 브라우저 상에서 ITB 분서를 업로드하면 위험요소나 독소조항들을 찾아 이용자에게 고지하는 식이다. 상용화 이후에는 웹브라우저에서 손쉽게 접근할 수 있는 클라우드 서비스로 제공할 계획이며, 시스템 개발을 지원한 국내 A사는 시범적으로 해당 서비스의 프로토타입을 활용하고 있는 것으로 알려졌다.

만약 국내에서 개발한 ITB 분석 자동화 기술이 성공적인 결과를 달성해 플랜트 엔지니어링 업계에 안착한다면, NLP 기술의 상용화 수준을 한 단계 높일 수 있을 뿐만 아니라 가장 주목받고 있는 분야 중 하나인 리걸테크 분야를 선도할 수 있을 것으로 보인다. 현재 전 세계의 많은 기업들이 각축전을 벌이고 있는 NLP 기반의 ITB 문서 분석에 대해 국내 연구진들이 새로운 지평을 제시할 수 있을지 결과가 주목된다.

“세계 최초 완전한 ITB 분석 자동화 기술”
이을범 포항공과대학교 철강‧에너지소재대학원 교수


Q. ‘엔지니어링 ITB 분석 프로토타입 개발’ 과제의 의의는?

ITB 중 본 계약서에 대한 자동화된 분석은 아직 글로벌 리더 기업들도 상용화하지 못한 기술이다. NLP 기술을 활용할 때 가장 일반적으로 사용하는 것은 IBM과 SAS의 제품인데, 실제로 라이선스를 구매해 사용해본 결과 기대에 미치지 못하는 성능을 기록했다.

문제는 EPC 분야와 ITB 분석에 대해 최적화가 되지 않았다는 점이다. 글로벌 기업들의 기술력은 뛰어나지만, 다양한 분야에 범용적으로 맞출 수 있도록 제품을 개발하다보니 ITB 분석이라는 한정된 영역에서 만족스러운 성능을 발휘하지 못하는 것으로 보인다. 멸치처럼 아주 작은 생선을 잡아야 하는데, 튼튼하고 편리할지언정 그물코가 너무 커서 제 역할을 하지 못하는 그물을 사용하는 격이다. 여기서 성능을 높이기 위해 커스터마이징을 하려면 추가적인 자원이 소요되는데, 최소한 몇 십 억원의 예산과 1년 이상의 시간이 필요할 것이다. 성공할 것이라는 보장이 없는 기술에 대해 이 정도의 자원을 선뜻 투자할 기업은 없다.

이번 과제는 정부 지원을 통해 ITB 분석에 특화된 시스템을 개발하는 것이다. 기존 제품들이 갖추고 있는 범용성을 포기하고 플랜트 엔지니어링 분야의 ITB에만 집중했다. 기업들이 나서기 어렵지만, 미래에 꼭 필요한 기술에 대해 정부가 일찍부터 지원하고 상용화 수준에 이르렀다는 점에서 고무적이다. 해당 기술이 상용화된다면 국내 플랜트 엔지니어링 기업들의 비즈니스가 크게 개선될 것으로 기대된다.


Q. 이번 과제에서 가장 어려웠던 점은?

행정적인 문제와 기술적인 문제로, 사용할 수 있는 기술이 제한되는 점이었다.

행정적인 문제는 학습용 데이터 수급이었다. 본 계약서 분석까지 가능한 AI를 개발하기 위해서는 당연히 다수의 ITB 문서가 필요한데, 기업들이 보안상의 이유로 해당 데이터를 공유하기를 꺼려했기 때문이다.

그나마 이번 과제에 참여한 기업들이 몇몇 있었고, 이전에 다른 정부 과제를 추진하거나 현업 교육 및 자문 등을 수행하면서 확보한 것들이 있어서 최소한의 데이터는 확보할 수 있었다. 그럼에도 충분하지는 않았기 때문에 적은 양의 데이터로 최대한의 효율을 낼 수 있는 기법들을 사용해야 했다. NLP 기법 중에서도 룰과 학습을 함께 수행할 수 있는 것들이 유리했다. NER(Named Entity Recognition)이나 룰 기반의 프레이즈 매처(PhraseMatcher) 같은 상용 엔진들이 많은 도움이 됐다. 이 중에서도 어떤 엔진이 가장 최적인지를 연구해, 적은 데이터를 가지고 보다 높은 성과를 달성할 수 있는 방법을 찾았다.

기술적인 문제는 ITB 분석이라는 목표에 몇몇 최신 기술들이 맞지 않아서 발생했다. 예를 들어 NLP 분야에서 주목받는 기술로는 텍스트를 벡터값으로 표현하는 워드투벡터(Word2Vec)가 있다. 텍스트를 벡터화하게 되면 성격과 트렌드는 파악할 수 있지만, 두 값이 선형적으로(linear) 연결되지 않는다. 이렇게 되면 “분석 대상의 위험 수준은 70점짜리다”라거나 “독소조항이 낮은 수준으로 있다”는 식으로 파악하게 된다. 하지만 ITB 분석에서는 해당 문서의 정확히 어느 문장이 왜 독소조항인지를 정확히 찾아내야 한다. 그러니 향후 기술 수준이 더 높아진다면 모를까, 현 시점에서 워드투벡터 기술은 사용할 수 없었다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지