[강좌] 금융 문서 지식 추출의 정확도를 높이는 AWS 생성형 AI 서비스 적용 방안

아마존웹서비스(AWS) 전현상 솔루션즈 아키텍트

2025-08-29     전현상
아마존웹서비스(AWS) 전현상 솔루션즈 아키텍트

[컴퓨터월드] 금융 분야의 방대한 문서에서 정확한 데이터를 추출하는 것은 금융 기업들의 핵심 경쟁력이 되고 있다. 그러나 금융 문서의 복잡성과 다양한 형식으로 인해 기존 광학 문자 인식(OCR) 및 규칙 기반 시스템은 정확도와 효율성 면에서 한계를 보인다.

이번 기고에서는 아마존 세이지메이커(Amazon SageMaker)와 아마존 베드록(Amazon Bedrock) 같은 생성형AI(GenAI) 서비스를 활용해 금융 문서에서 데이터 추출의 정확도를 획기적으로 높이는 방법을 소개한다. 특히 PDF 문서에서 텍스트, 표, 수치 데이터를 추출하는 파이프라인 구축 과정과 문서 처리 시간을 단축하고 데이터 추출 정확도를 거대언어모델(LLM)에게 맡겨 향상시킨 방법을 소개한다. 또한 자동화된 문서 처리가 금융 기관의 빠른 의사결정, 규제 준수 강화, 운영 효율성 증대에 어떻게 기여하는지도 살펴본다.

이러한 접근법은 단순한 텍스트 추출을 넘어 문서의 구조적 이해와 금융 도메인 지식을 결합해 보다 정확하고 신뢰할 수 있는 데이터 추출 방안을 제시한다.
 

1. 소개

금융 산업은 방대한 양의 문서 데이터를 처리해야 하는 독특한 도전에 직면해 있다. 연간 보고서, 규제 문서, 계약서, 대출 신청서, 투자 설명서 등 수많은 문서에서 정확한 정보를 추출하는 것은 금융 기관의 효율적인 운영과 의사결정에 핵심적인 요소이다.

그러나 기존의 OCR 기술이나 규칙 기반 시스템은 금융 문서의 복잡한 구조와 다양한 형식을 처리하는 데 한계를 보여왔다. 특히 금융 문서에 포함된 표, 그래프, 각주, 법적 용어 등을 정확히 해석하고 구조화된 데이터로 변환하는 과정에서 오류가 빈번하게 발생한다.

전통적인 문서 처리 시스템은 생성형 AI(GenAI)의 발전으로 새로운 전환점을 맞고 있다. 아마존 세이지메이커와 아마존 베드록과 같은 생성형 AI 서비스는 단순한 텍스트 인식을 넘어 문서의 맥락과 구조를 이해하고, 관련 정보를 정확하게 추출할 수 있도록 해준다. 그러나 이러한 모델들도 때때로 ‘환각(Hallucination)’이라 불리는 현상을 보이는데, 이는 실제 문서 내용과 일치하지 않는 정보를 생성하는 문제를 말한다. 이러한 환각은 정확성이 생명인 금융분야에서 심각한 위험이 될 수 있다.

금융 문서 처리에서 특히 중요한 것은 숫자 데이터의 정확성, 표와 그래프에 담긴 의미, 법적 용어의 정확한 해석이다. 예를 들어, 재무제표에서 수익과 비용을 잘못 인식하거나, 규제 문서에서 중요한 준수 요건을 누락하는 경우 심각한 비즈니스 결정 오류나 법적 문제로 이어질 수 있다.

이번 기고문에서는 아마존웹서비스(Amazon Web Services, 이하 AWS)가 생성형 AI 서비스를 활용해 금융 문서에서 데이터 추출의 정확도를 높이는 방법에 대해 중점적으로 알아본다. 특히, 딥러닝 기반의 문서 청킹(chunking) 기술을 활용해 복잡한 금융 문서를 의미 있는 단위로 분할하고, 이것을 다시 아마존 베드록 LLM에게 전달 분석하는 과정에서 금융 전문가의 페르소나를 부여하는 접근법을 소개한다.

이 방식에서는 아마존 베드록 LLM이 금융 애널리스트, 규제 전문가, 또는 투자 고문과 같은 특정 전문가 역할을 수행하며 문서를 분석하고, 스스로 중요한 질문을 도출해 그에 대한 답변을 문서에서 직접 찾아내는 프로세스를 구현한다. 이 방법은 단순히 정보를 추출하는 것을 넘어, 문서의 맥락을 이해하고 금융 전문가의 시각에서 가치 있는 인사이트를 발굴해낸다.

또한 이러한 접근법이 금융 문서의 특성에 따라 어떻게 최적화될 수 있는지, 그리고 추출된 정보의 신뢰성을 검증하는 방법에 대해서도 살펴본다.
 

2. 본론

1) GPU 가속 PDF 문서 추출: 언스트럭처드(Unstructured) 라이브러리와 엔비디아(NVIDIA) GPU를 활용한 고속 텍스트 추출

금융 문서는 일반적인 텍스트 문서와 달리 복잡한 구조적 특성을 가지고 있다. 재무제표, 감사보고서, 공시자료 등의 금융 문서에는 다단 레이아웃, 복잡한 표, 각주, 섹션 간 상호참조, 그래프, 차트 등이 혼재돼 있어 기존 OCR이나 단순 텍스트 추출 도구로는 원본의 의미와 구조를 온전히 보존하기 어렵다. 특히 금융 문서에서 숫자 데이터나 법적 용어의 정확한 추출은 정보의 신뢰성과 직결되는 중요한 문제다.
 

(1) 금융 문서 청킹에서 언스트럭처드 라이브러리의 활용과 도전 과제

최근 문서 청킹 분야에서 주목받는 언스트럭처드 라이브러리는 이러한 문제를 상당 부분 해결할 수 있는 강력한 도구다. 이 라이브러리는 문서를 단순히 텍스트로 변환하는 것을 넘어서 문서의 구조적 특성을 이해하고 요소별로 분류할 수 있다. 문단, 제목, 표, 목록, 이미지 등을 별도의 요소로 인식하고 추출하므로, 문서의 구조적 의미를 보존한 채 텍스트를 추출할 수 있다.

그러나 딥러닝 기반 언스트럭처드 라이브러리 사용에는 두 가지 주요 도전 과제가 있다:

종속성: 고품질 문서 처리를 위해서는 테서랙트(Tesseract) OCR, 포플러(Poppler), 오픈CV(OpenCV) 등 다양한 리눅스 라이브러리가 필요하며, 이들의 설치와 구성은 복잡하다. 특히 정확한 버전 호환성을 맞추기가 쉽지 않다.

리소스 요구: 고해상도 전략과 표 구조 추론 등 고급 기능을 활용하려면 량이 크게 증가하며, 대규모 문서 처리 시 이러한 성능 이슈가 더욱 심화된다. 따라서 GPU 모드의 동작이 필수적이다.
 

(2) 아마존(Amazon) GPU 인스턴스를 활용한 언스트럭처드 라이브러리의 문서 청킹 성능 개선

아마존 클라우드의 엔비디아 GPU 인스턴스를 활용하면 언스트럭처드 라이브러리의 문서 추출 성능 문제를 효과적으로 해결할 수 있다. AWS는 다양한 GPU 기반 인스턴스 유형(G4, G5 등)을 제공해 대규모 청킹 처리에 병렬 컴퓨팅을 가능하게 한다. 이러한 GPU 가속을 통해 수백 페이지에 달하는 복잡한 금융 보고서도 빠르게 처리할 수 있다.

GPU 문서 추출의 가장 큰 장점은 속도다. CPU만 사용할 때보다 여러 배 빠른 속도로 문서를 처리할 수 있어, 수 시간 걸리던 대규모 문서 처리 작업을 몇 분 안에 완료할 수 있다. 예를 들어 분기별 금융 보고서나 대규모 감사 보고서와 같은 복잡한 문서들도 GPU 가속을 통해 실시간에 가까운 속도로 처리할 수 있다.

특히 표와 그래프가 많은 금융 문서나 다단 레이아웃으로 구성된 규제 문서의 경우, GPU 처리가 더욱 효과적이다. 아마존 GPU 인스턴스를 활용한 문서 추출은 이미지 인식, OCR, 표 구조 분석 등 계산 집약적 작업에서 월등한 성능을 발휘한다. 이 방법을 활용하면 금융 문서의 복잡한 구조도 정확하게 인식하고 처리할 수 있다.

그림 1. 금융 문서 블럭 추출의 실제 예시[1] (출처 : 기획재정부 금융위원회, 한국은행 금융감독원 외환수급개선방안, 2024 )

<그림 1>은 언스트럭처드 라이브러리를 통해 추출한 블럭 단위의 도표 및 텍스트 추출 예시다. 왼쪽의 텍스트 영역과 오른쪽의 복잡한 시계열 그래프가 각각 개별 요소로 식별돼 추출된 것을 볼 수 있다. 이처럼 금융 문서의 복잡한 도표와 그래프도 별도의 의미 단위로 정확하게 분리해 추출할 수 있어, 후속 처리 과정에서 데이터의 맥락과 의미를 보존할 수 있다.

이렇게 GPU 가속을 통해 효율적으로 추출된 문서 데이터는 즉시 다음 단계의 처리로 이어진다. 다음 섹션에서는 이 추출된 문서의 텍스트를 이용한 과정에서 아마존 베드록의 클로드(Claude) 모델을 활용해 어떻게 고품질 질문-답변 쌍을 추출 생성하는지 자세히 살펴본다.
 

2) Q&A 추출 자동 생성: 아마존 베드록 LLM 모델을 사용해 고품질 금융 질문-답변 쌍 생성

금융 문서의 진정한 가치는 방대한 데이터 속에서 의미 있는 인사이트를 추출할 수 있을 때 실현된다. 기존 문서 처리 방식은 단순 텍스트 추출에 그쳐 금융 전문가의 추가 해석이 필요했지만, 아마존 베드록의 LLM은 이 과정을 혁신적으로 변화시킨다.

이 섹션에서는 금융 전문가의 관점으로 문서를 자동 분석하고, 핵심 정보를 질문-답변 형태로 구조화해 즉시 활용 가능한 지식으로 변환하는 프로세스를 소개한다. 이는 단순한 데이터 추출을 넘어 금융 문서의 맥락과 전문성을 보존하는 지능형 분석 패러다임의 전환점이다.

그림 2. GPU 컨테이너 처리 프로세스 흐름도 (출처 : PDF QA 추출[2] )

위 그림은 금융 문서에서 고품질 Q&A 데이터를 자동으로 생성하는 통합 프로세스를 보여준다. 이 시스템은 AWS의 강력한 서비스들을 활용하여 엔드투엔드(end-to-end) 파이프라인을 구성한다. 금융 PDF 문서가 입력되면 언스트럭처드 파티션 추출기를 통해 구조화된 텍스트 블록 리스트로 변환되고, 이어서 전문가 퀴즈 프롬프트 처리를 거쳐 아마존 베드록 API(Amazon Bedrock API)의 클로드 LLM에 전달된다. 이후 반환된 응답은 문자열 파서와 커스텀 JSON 파서를 통해 최종적으로 구조화된 JSONL 형식의 질문과 대답 데이터 쌍으로 변환된다.

이 AWS 기반 아키텍처의 가장 큰 장점은 플랫폼 확장성과 통합 관리 환경이다. 특히 아마존 베드록을 통한 LLM 접근은 LLM 사용에 별도의 인프라 구축 없이 최신 AI 모델을 쉽게 활용할 수 있게 해준다. 이제 이 시스템의 핵심 기능인 Q&A 자동 생성 과정을 자세히 살펴보자.
 

(1) 금융 전문가 페르소나를 활용한 자기질문-자기응답 기법

금융 문서에서 가치 있는 질문-답변 쌍을 생성하기 위한 핵심은 아마존 베드록과 같은 LLM에 금융 전문가의 관점을 부여하는 것이다.

아마존 베드록을 통해 제공되는 클로드와 같은 LLM 모델은 금융 문서의 복잡한 내용을 이해하고 처리하는 데 탁월한 능력을 보인다. 특히 이번 기고문에 소개하는 AWS 금융 SA팀의 ‘자기질문-자기응답(Self-questioning and Self-answering)’ 기법은 아마존 베드록이 문서를 분석하면서 스스로 중요한 질문을 도출하고, 문서 내용에 기반하여 답변을 제공하도록 한다.

이 프로세스는 다음 단계로 진행된다:

1. 이해 : 아마존 베드록 LLM은 먼저 제공된 청크의 전체 내용을 이해한다.

2. 생성: 금융 전문가 페르소나를 기반으로 문서에서 중요한 정보나 인사이트에 대한 을 생성한다.

3. 답변 추출: 생성한 질문에 대한 을 문서 내용에서 직접 찾아 제공한다.

4. 검증: 답변이 문서 내용에 명확히 근거하는지 확인한다.

AWS 금융 SA팀은 아래와 같이 아마존 베드록에 ‘금융 전문가 페르소나’ 기법을 적용했다. 이 접근법은 모델이 단순히 텍스트를 요약하거나 변환하는 것이 아니라, 마치 금융 분석가나 감사관이 문서를 검토하듯 전문적인 관점에서 중요한 정보를 식별하고 질문화하도록 유도한다.

위 표와 같은 페르소나의 설정은 아마존 베드록 LLM이 추출된 청킹 금융 문서 단락의 전문적인 맥락을 이해하고, 단순한 사실 추출을 넘어 의미 있는 분석적 질문을 생성할 수 있게 한다. 예를 들어 단순히 “회사의 수익은 얼마인가?”라고 묻는 대신 “문서에 기반한 전년 대비 영업이익 감소의 주요 원인은 무엇이며, 이것이 회사의 장기 수익성에 어떤 영향을 미칠 수 있는가?”와 같은 심층적인 질문을 생성할 수 있다.

이 방식의 중요한 장점은 아마존 베드록 LLM이 특정 금융 문서의 맥락을 이해하고, 그 문서에서 실제로 답변할 수 있는 질문만 생성한다는 점이다. 이는 모델의 환각을 최소화하고 응답의 신뢰성을 크게 높여준다.

그림 2-1. 외환정책 문서에서 아마존 베드록이 자동 생성한 Q&A 부분 (출처 : 기획재정부 금융위원회, 한국은행 금융감독원 외환수급개선방안, 2024)


아래 표는 외환 수급 개선 방안 보고서에서 금융 전문가 페르소나를 적용한 아마존 베드록이 자동 생성한 JSONL 형식의 질의응답 데이터 예시다. 이 결과에서 볼 수 있듯이, LLM은 마치 외환금융 전문 교수가 문서를 분석하듯 핵심적인 정책 질문을 도출하고 보고서 내용에 충실한 답변을 구조화된 형태로 제공했다. 외환보유액, 선물환포지션 한도 조정과 같은 전문적인 내용을 정확하게 포착하여 Q&A 쌍으로 변환했다. 이처럼 생성된 고품질 데이터셋은 금융 기관이 정책 문서를 빠르게 분석하고 핵심 내용을 파악하는 데 큰 도움이 된다.

금융 문서에서 자동으로 생성된 고품질 Q&A 데이터는 다양한 목적으로 활용될 수 있다. 내부 지식 관리 시스템, 직원 교육 자료, 고객 서비스 챗봇, 규제 준수 확인 도구 등에 적용돼 금융 기관의 정보 접근성과 의사결정 효율성을 크게 향상시킬 수 있다.

다음 섹션에서는 지금까지 설명한 GPU 가속 문서 추출과 Q&A 생성 프로세스를 AWS 환경에서 어떻게 효율적으로 통합해 구현할 수 있는지 살펴본다.
 

3) 아마존 머신러닝 배치 잡을 활용한 효율적 구현

 그림 3. 아마존 생성형 AI기반 고품질 금융 문서 Q&A 데이터 자동 추출 시스템[3] (출처 : https://assets.fsi.kr/videos/qna-extract.mp4)

문서의 지식 추출을 위해 지속적으로 GPU 인스턴스를 운영하는 것은 비용 측면에서 비효율적이다. 금융 문서 처리는 주로 특정 시점(분기 보고서 발행 시기, 규제 보고 기간 등)에 집중돼 있어, 항상 클라우드에 GPU 자원을 유지하는 것은 비용 낭비가 될 수 있다. 아마존 세이지메이커 프로세싱 잡(Processing Job) 기능을 활용하면 필요한 시점에만 리소스를 할당하고, 작업이 완료되면 자동으로 리소스를 해제하는 효율적인 접근이 가능하다.
 

(1) 금융 통합 문서 처리 파이프라인 구축

앞서 설명한 GPU 기반 문서 추출과 아마존 베드록 LLM을 활용한 Q&A 생성 프로세스를 하나의 통합된 파이프라인으로 구축하기 위해 아마존 세이지메이커 프로세싱 잡은 이상적인 솔루션을 제공한다. 이 접근법의 핵심은 모든 처리 단계를 컨테이너화해 필요할 때만 실행하는 것이다.

이 방법은 금융 문서 처리와 Q&A 생성을 위한 완전한 파이프라인을 단일 작업으로 실행한다. 지식 추출을 위한 문서는 아마존 S3(Amazon S3) 버킷에서 미리 저장한 다음 작업이 시작되면 가져오고, 결과 Q&A 데이터는 다시 아마존 S3에 저장된다.
 

(2) 아마존 세이지메이커를 활용한 금융문서 추출의 Docker 컨테이너를 통한 종속성 관리

그림 4. 아마존 세이지메이커 프로세싱 동작 예시

문서 정보 추출에 필요한 언스트럭처드 라이브러리는 설치 과정이 복잡하다. 다양한 프로그램들이 서로 맞물려 작동해야 하며, 이들 간의 버전 호환성도 맞춰야 한다. 처음부터 이런 복잡한 설정을 매번 하는 것은 마치 요리할 때마다 모든 재료를 직접 농장에서 기르는 것과 같다.

아마존 세이지메이커에서는 이 문제를 도커(Docker) 컨테이너로 간단히 해결한다. 도커 컨테이너는 필요한 모든 프로그램과 설정을 미리 포장해둔 상자와 같다. 한번 이 상자를 만들어 두면 필요할 때마다 그대로 꺼내 사용할 수 있다. 금융 문서 처리에 필요한 모든 도구가 담긴 이 컨테이너를 아마존 ECR(Amazon ECR)이라는 창고에 보관해두고, 필요할 때마다 불러와 사용하는 방식이다.

이 방식의 장점은 번거로운 설치 과정을 단 한 번으로 줄이고, 항상 동일한 환경에서 작업할 수 있다는 것이다. 특히 여러 팀이 협업하거나 시스템을 확장할 때 일관성을 유지하는 데 큰 도움이 된다.
 

(3) 온디맨드 GPU 리소스 활용을 통한 비용 최적화

금융 업계에서는 분기별 보고서나 연간 공시 자료 등 특정 시점에만 대량의 문서 처리가 필요한 경우가 많다. 이런 상황에서 고성능 GPU 서버 전원을 1년 내내 운영하는 것은 비용 낭비다.

아마존 세이지메이커 프로세싱 잡은 ‘필요할 때만 빌려 쓰는’ 방식으로 작동한다. 마치 자주 사용하지 않는 전문 공구를 구매하는 대신 필요할 때만 대여하는 것과 같다. 예를 들어 분기별로 재무 보고서를 처리하는 경우, 1년에 4번, 각각 몇 시간만 GPU 리소스를 사용하면 된다.

이러한 접근법을 사용할 경우 비용을 크게 절감할 수 있다. 매월 GPU 서버를 유지하는 대신 필요할 때만 사용하는 방식으로 전환해 배치 잡으로 사용하면 연간 IT 인프라 비용의 약 80% 이상을 절감할 수 있다. 특히 대규모 금융 기관에서 여러 부서가 다양한 문서를 처리할 때 이러한 비용 절감 효과는 더욱 크게 나타난다.
 

(4 )대규모 금융 문서 처리를 위한 병렬 배치 작업

금융 기관에서는 때로 수백 개의 보고서를 동시에 처리해야 하는 상황이 발생한다. 아마존 세이지메이커 프로세싱 잡은 이런 대규모 작업을 여러 개의 작은 작업으로 나누어 동시에 처리하는 기능을 제공한다.

이것은 마치 대량의 우편물을 처리할 때, 한 사람이 순차적으로 처리하는 것보다 여러 직원이 나누어 동시에 처리하는 것과 같은 원리다. 예를 들어 100개의 분기 보고서를 10개의 배치로 나누어 병렬로 처리하면, 처리 시간을 약 1/10로 단축할 수 있다.

더 복잡한 작업 흐름이 필요한 경우, AWS 스텝함수(Step Functions)나 아마존 세이지메이커 파이프라인(Amazon SageMaker Pipelines)과 같은 도구를 활용하면 여러 단계의 작업을 자동으로 조율할 수 있다. 금융 문서 처리 과정에서 데이터 품질 검증이나 규제 준수 검토와 같은 복잡한 추가 단계를 포함해야 할 때 특히 유용하게 활용할 수 있다.
 

5. 결론 : 금융 기관을 위한 맞춤형 AI 솔루션의 미래

금융 문서를 활용한 AI 데이터 추출과 분석은 단순한 기술적 과제를 넘어 금융 기관의 디지털 혁신과 경쟁력 강화를 위한 핵심 요소로 자리 잡았다. 우리가 살펴본 아마존 세이지메이커와 아마존 베드록을 활용한 접근법은 금융 기관이 직면한 고유한 도전 과제를 효과적으로 해결하는 방안을 제시한다.

금융 산업은 다른 어떤 분야보다 정확성, 규제 준수, 보안이 중요하다. 이번 기고문에서 소개한 아마존 세이지메이커 프로세싱 잡을 이용한 GPU 가속 문서 추출과 아마존 베드록 LLM 기반 Q&A 생성 파이프라인은 이러한 금융 산업의 특수성을 고려해 설계됐다. 금융 전문가 페르소나를 통한 지능형 질문-답변 생성은 금융 고객들의 실제 비즈니스 고민을 같이 해결하는 방향으로 개발되었다.

금융 기관은 분기 보고서, 연간 공시, 규제 변경과 같이 주기적으로 처리해야 할 문서가 있다. 이러한 패턴에 최적화된 온디맨드 방식의 인프라 활용은 상당한 비용 절감과 운영 효율성을 제공할 수 있다.

이러한 방법론은 실제 금융권 현장의 피드백을 통해 지속적으로 발전해 왔으며, 여러 금융 기관들과의 협업 과정에서 얻은 인사이트가 반영되었다. 특히 금융보안원의 AI 역량 강화 프로그램에서 활용된 강의 자료로써 국내 금융 보안 전문가들의 의견을 수렴하며 발전했고, ‘AWS 서밋 서울 2025(AWS Summit Seoul 2025)’에서는 금융 기관 고객들의 실제 사용 사례와 함께 이 접근법의 실용성이 공유되었다. 이러한 과정은 기술 자체보다 금융 기관의 실질적인 문제 해결에 초점을 맞추는 계기가 되었다.

AWS는 대한민국 금융 산업의 특수성을 깊이 이해하고, 단순한 기술 제공을 넘어 각 기관의 고유한 요구사항에 맞춘 AI/ML 솔루션으로 실질적 비즈니스 가치를 창출하는 데 도움을 주고 있다. AWS는 금융 고객의 AI 경쟁력 강화를 위해 금융 산업의 신뢰할 수 있는 동반자로서 함께 성장해 나가고 있다.

 

레퍼런스

[1]. 기획재정부 금융위원회, 한국은행 금융감독원 외환수급개선방안, 2024

[2]. PDF Q&A추출 가이드, AWS 금융보안원 AI 강의 자료, GitHub repository (https://github.com/hyeonsangjeon/PDF2LLM-Tuning-Studio/tree/main/pdf_qa_extraction)

[3]. AWS Summit 2025, 금융 AI 부스, PDF QA 추출 프로세스 데모(https://assets.fsi.kr/videos/qna-extract.mp4)