한국한의약진흥원 지능정보화센터 한예원 주임연구원

[컴퓨터월드] 4차 산업혁명 시대에 빅데이터와 인공지능(AI, Artificial Intelligence)은 다양한 산업에서 새로운 혁신을 주도하는 핵심 기술로 자리 잡고 있다. 특히 헬스케어 분야에서는 코로나19 팬데믹 이후 환자 진단, 치료 계획, 예후 예측 등 지능형 의료 서비스를 제공하기 위해 빅데이터와 인공지능의 역할이 더욱 확대되고 있다. 이러한 의료 패러다임의 전환과 기술의 발전은 현대 의학뿐 아니라 전통적인 한의약에도 새로운 가능성을 열어주고 있다.

한의약은 오랜 세월 축적된 경험과 지식을 바탕으로 독자적인 치료법과 건강관리 체계를 발전시켜 왔으나, 현대적 데이터 분석 기술과의 연계는 아직 초기 단계에 머물러 있는 것이 현실이다. 이제는 한의약 분야에서도 빅데이터와 인공지능 기술을 적극적으로 도입해 한의약의 과학화와 표준화를 촉진하고, 안전성과 유효성을 객관적으로 입증해야 할 때다.

한의약 분야에서는 보건복지부와 관계 부처가 합동으로 ‘한의약 육성법’에 따라 제4차 한의약 육성발전 종합계획(2021~2025)을 수립했다. 이를 바탕으로 한국한의약진흥원(보건복지부 산하 공공기관으로, 한의약 육성법 제13조에 근거해 한의약기술의 진흥을 효율적으로 지원하기 위해 설립)은 첨단 기술을 활용한 한의약 발전 기반 마련을 위해 한의약 빅데이터 Hub 구축, 한의약 빅데이터 기반 인공지능 활용 체계 마련 등 과제를 수행하고 있다.

한국한의약진흥원의 지능정보화센터(센터장 김상진)와 임상정보빅데이터추진단(단장 서병관)은 한의약 빅데이터ㆍ인공지능 활용 기반 구축을 목표로 ‘한약 인공지능 플랫폼 구축’, ‘한의약 임상정보 빅데이터 지원센터 구축’, ‘한의약 정보 인프라 구축’의 세 가지의 주요 사업을 추진하고 있다.

총 7편의 연재에서는 한의약 빅데이터·인공지능 생태계 조성을 위한 전략을 제시하고, 세 가지의 주요 사업을 현재와 미래 전망, 그리고 도전 과제라는 카테고리로 나눠서 다뤄 본다.

1. 한의약 빅데이터·인공지능 생태계 조성을 위한 전략 (10월 호)
2. 한약 실험정보 공동 활용을 위한 한약 인공지능 플랫폼 구축의 현재와 미래 (11월 호)
3. 특정 질환 치료를 위한 GCN 기반 한약재 조합 예측 모델 (이번 호)
4. 한의약 임상정보 빅데이터 허브 구축의 과정과 미래 전망 (다음 호)
5. 한의 표준 전자의무기록(EMR) 확산을 통한 한의약 임상정보 선진화
6. 전통적 한의약의 디지털 전환으로 한의약 정보 인프라를 향한 도전
7. 한의약 특허기술 거래를 통한 한의약의 미래 가치 창출

한국한의약진흥원 지능정보화센터 한예원 주임연구원
한국한의약진흥원 지능정보화센터 한예원 주임연구원

서론

한의약은 오랜 기간 임상 등을 통해 축적된 경험과 지식을 바탕으로 독자적이면서도 복잡한 치료법과 함께 보건의료 체계를 발전시켜 왔다. 특히 한약 처방은 증상, 질병, 그리고 환자의 전반적인 상태를 종합적으로 고려해 이뤄지며, 이에 따라 많은 규칙과 정교한 상호작용이 존재한다. 이러한 복합성을 이해하기 위해 ‘네트워크 약리학(Network Pharmacology)’이라는 방법론이 활용되고 있으며, 이를 통해 한약의 다양한 구성 성분과 이들이 인체 내에서 타깃하는 대상 간의 복잡한 상호작용을 정밀하게 분석하고 표현할 수 있다.

최근에는 네트워크 약리학과 인공지능(AI)을 결합해 복잡한 생물학적 상호작용을 이해하고 예측하는 연구가 활발히 진행되고 있다. 이러한 연구는 신약 개발, 신효능 예측, 질병 맞춤형 약재 추천 등 다양한 분야에서 활용되고 있다. 한약재에는 다양한 성분이 포함돼 있으며, 각 성분은 서로 다른 효능과 복잡한 상호작용을 한다. 따라서 최적의 효능을 발휘하기 위해 이러한 성분들 간의 복합적인 관계를 면밀히 분석해야만 한다.

이번 기고에서는 지난 2편에서 소개한 한약 인공지능 플랫폼 구축 사업을 통해 수집된 한약 실험정보 데이터와 외부 공공 데이터베이스를 융합해 활용한 사례를 통해 인공지능 모델 개발 과정과 그 의미를 살펴보고자 한다.

이번 연구는 자체적인 한약재 조합 예측 모델 개발의 초기 단계에 불과하지만, 이를 바탕으로 연구를 점차 확장해 나갈 수 있는 발판을 마련할 것으로 기대된다. 이전 기고문에서 언급했듯이, 2025년에는 ‘한약 실험정보 지식 서비스’를 개방하고 시범 운영할 계획이며, 2026년에는 사용자 경험을 반영한 고도화를 통해 ‘한약 실험정보 공동활용 시스템’으로 발전시킬 예정이다. 현재의 인공지능 모델 개발 연구가 무한한 확장 가능성을 확인하는 중요한 근거가 돼, 공개 가능한 수준의 모델을 개발하고 이를 산업체의 상용화 지원에 활용할 계획이다.


본론

<그림 1>은 한약 실험정보를 활용한 인공지능 모델 개발 절차를 단계별로 보여주는 예시이다. 크게 3단계로 나누어 살펴보도록 한다.

그림 1. 인공지능(네트워크 약리학) 기반 한약의 신효능 예측 절차(예시)
그림 1. 인공지능(네트워크 약리학) 기반 한약의 신효능 예측 절차(예시)

1. 데이터 수집 및 네트워크 구축

우리가 목표로 하는 타겟 질환에 적합한 약재 조합을 예측하기 위해 필요한 데이터는 기본적인 한약 실험정보뿐만 아니라, 타겟(질병, 바이오마커 등), 약재, 분자(단백질, 유전자 등) 정보 등이 있다. 이때 분석 정보 간의 상호 관계성이 핵심이며, 이를 다층 레이어로 통합한 연결 관계를‘한약 통합 네트워크’라고 한다. 그럼 한약 처방에 다빈도로 사용되는 구성 약재들의 조합을 예측할 데이터와 네트워크는 구축된 상태다.


2. 네트워크 약리학 분석 및 인공지능 모델 개발

네트워크 약리학 분석 과정의 하나로, 한약-성분-질병 간의 복잡한 관계를 표현하기 위해 그래프 임베딩 기법을 사용해 네트워크 요소 간 연결과 배치를 나타내는 대규모 네트워크 토폴로지(Topology)를 도출한다. 이렇게 도출된 네트워크를 기반으로, 처방 및 문헌에서 발견된 약재 조합 패턴을 딥러닝 모델(GNN, Graph Neural Networks; LLM, Large Language Model 등)에 적용해 인공지능 모델을 학습시킨다.


3. 신규 한약 조합 후보 도출 및 핵심 기전 분석

최종적으로 학습된 모델은 특정 질병에 효능을 나타낼 수 있는 약재 조합 후보군을 도출하며, 네트워크 약리학 분석을 통해 그들 중 가장 유효한 최적의 조합을 도출해 낼 수 있게 된다. 이는 직접적인 한약-성분-질병 연결뿐만 아니라 한약 통합 네트워크 내의 미묘한 상호작용까지 고려해 새로운 약재 조합을 제안한다.

<그림 1>에서는 삼중음성유방암의 치료를 위해 ‘황련’과 ‘인삼’이라는 한약재 조합이 도출된 예시를 볼 수 있다.

이제 앞서 설명한 절차를 바탕으로, 실제로 수행된 알고리즘의 사례와 그 결과를 살펴보자.


· 타깃 질환 선정 및 학습용 데이터 구축

우리는 본격적인 인공지능 모델 개발에 앞서 개념증명(PoC, Proof of Concept)으로서 특정 질환을 선정하고, 그 질환에 효과적인 약재 조합 예측을 수행했다. 특정 질환으로 선택한 삼중음성유방암(TNBC, Triple-Negative Breast Cancer)은 에스트로겐수용체(ER, Estrogen Receptor), 프로게스테론수용체(PR, Progesterone Receptor), 표피성장인자수용체2(HER2, Human epidermal growth factor Receptor 2)라는 3가지 바이오마커 수용체를 가지지 못한(음성) 유방암을 말한다. 이는 유방암 중에서도 진행 속도가 빠르고 전이와 재발 위험이 높은 공격적인 예후를 보이는 것으로 알려져 있다. 우리는 이 질환에 효과가 있는 한약재 조합을 예측하기 위해 STITCH와 같은 공개된 데이터베이스에서 여러 약재의 효능, 성질, 사용 이력, 질병 처방 이력 등의 데이터를 수집하고, 이를 인공지능 학습용 데이터로 가공했다. 그리고 각 약재 조합의 효과를 분석했다.


· 한약 통합 네트워크 수행 및 결과

한약 통합 네트워크 원리를 기반으로 한약-성분-질병 간의 관계를 시각화한 결과는 <그림 2>와 같다. 그래프의 각 노드(Node)는 한약, 성분, 질병을 나타내고, 엣지(Edge)는 그들 간의 치료적 관계(예: 상호보완적 효과, 금기 관계 등)를 의미한다. 이번 연구에서 사용된 GCN(Graph Convolution Network) 모델은 이러한 그래프 구조 데이터를 처리하는 데 뛰어나며, 노드 간의 의존성과 상호작용을 효과적으로 파악할 수 있다.

그림 2. 한약 통합 네트워크
그림 2. 한약 통합 네트워크

이번 연구에서는 GCN 중에서도 가장 기본 구조로 작동하는 Vanilla-GCN을 학습에 사용했다. 배치 사이즈(batch size:전체 데이터 셋을 여러 작은 그룹으로 나누었을 때 하나의 소그룹에 속하는 데이터 수)는 1,024, 학습율은 0.001, epoch(모든 데이터 셋을 학습하는 횟수)는 10,000으로 설정했다. 학습 과정에서 epoch가 진행됨에 따라 훈련 및 테스트 셋의 손실값 변화율, 정확도 등 수렴 값을 확인했으며, 최종적으로 모델이 도달한 최고 성능은 <표>와 같다.

 표. 최종 모델의 성능 지표
 표. 최종 모델의 성능 지표

모델의 정확도가 0.867, F1-score가 0.869로 나타나 준수한 성능을 보였으므로, 한약 통합 네트워크를 활용해 ‘특정 질환에 작용하는 약재 조합의 유효성’을 예측하는 데 이 모델이 타당성을 갖추었다고 판단할 수 있다.


결론

이번 기고문에서는 특정 질환에 작용하는 약재 조합을 추천하기 위해 네트워크 약리학 분석 기법을 활용해 한약 통합 네트워크를 구축하고, 이를 GCN 학습을 통해 약재 조합을 추천하는 모델을 제안했다. 이 모델은 새로운 약재 조합을 개발하고 실험하기 위한 지식정보로써 예측에 유용하게 활용될 수 있을 것으로 기대된다.

향후 연구에서는 실제 추천된 약재들이 예상대로 작동하는지를 실증해 신뢰성을 입증하고, 나아가 약재 ‘조합’을 넘어 ‘배합(용량 등)’까지 예측할 수 있는 확장형 모델을 개발하고자 한다.

※ 이번 기고문은 ‘2024년 대한의료정보학회 추계 학술대회' 연제논문을 기초로 작성된 내용입니다.

관련기사

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지