한국공학대학 경영학과 강지훈 교수

한국공학대학 경영학과 강지훈 교수
한국공학대학 경영학과 강지훈 교수

[컴퓨터월드] 2025 CES에서 엔비디아(NVIDIA)의 CEO 젠슨 황은 기조연설에서 미래기술의 중요한 축으로 ‘물리 인공지능(Physical AI)’개념을 강조하며, 물리적 시스템과 인공지능의 융합기술이 산업과 공학 전 분야를 혁신할 것이라고 말했다. Physical AI는 기존의 빅데이터를 처리하는 인공지능 시스템을 넘어서 물리적 세계를 이해하고 이를 기계와 로봇에 반영하는 기술로, 자율주행, 스마트 제조, 에너지 최적화 등 다양한 분야에서 핵심적인 역할을 수행할 것으로 기대되고 있다. Physical AI의 여러 핵심 요소 중 하나는 AI 기술이 직면한 공학적 난제들을 해결하는 것이다. 기존에 수많은 학자들이 집대성한 자연과학 및 공학 원리(예: 방정식, 시뮬레이션 결과 등)를 AI 모델에 통합적으로 학습시킴으로써 모델의 물리적 신뢰성을 확보하고 데이터 기반 추론의 한계를 극복한다는 것이다. 3회에 걸친 연재를 통해 이 주제의 핵심 아이디어를 공유하고자 한다.

ㆍ물리적 지식과 머신러닝 기술의 연결을 통한 공학 문제의 해결 : Physics-informed ML(이번호)

ㆍ수학 도구를 활용하여 변화를 모델링 하는 방법, PIML의 핵심개념 소개 (3월호)

ㆍPIML 연구의 주된 흐름과 사례, 향후 가능성 (4월호)

1. 머신러닝의 최신 흐름과 공학적 난제, 그 해결의 실마리를 찾아서

머신러닝 모델은 데이터 분석과 문제 해결의 핵심 도구로 자리 잡으며, 다양한 산업 혁신을 주도하고 있다. 특히 딥러닝 모델은 복잡한 데이터에서 숨겨진 패턴을 발견하는 데 있어 탁월한 성능을 보이며 사회 전분야의 AI 시대를 이끌고 있다. 특히, 대규모 데이터를 활용한 언어 및 이미지(비전), 음성(오디오), 추천시스템 등은 수많은 비즈니스에서 핵심 기술로 이미 도입돼 활용되고 있으며 그 탁월한 성능과 기술 발전의 속도 역시 주목받고 있다.

이러한 분야의 연구 접근법은 주로 SOTA(state-of-the-art)성능을 달성하는 데 많은 비중을 두고 있으며, 데이터가 다양하고 풍부한 환경과 복잡한 비선형 함수 모델링을 근간으로 인터넷 검색 및 추천, 이미지의 인식과 분류, 자연어 처리 및 언어 생성 등 데이터 중심 애플리케이션에서 놀라운 성과를 거뒀다. 하지만 이러한 독보적인 성능과 연구자들의 노력에도 불구하고, 대부분의 머신러닝 모델링들은 공학(ex. 해석, 설계, 시뮬레이션, 신뢰성, 품질, 제어 등)문제와 같은 특화 영역에서는 몇 가지 뚜렷한 한계점을 보이고 있다.

공학 문제는 대부분 물리적인 제약과 해당 분야 전문가들의 사전 지식을 포함해야 하며, 데이터는 획득 비용이 높고 제한적(ex. 실험)이다. 특히 이런 데이터 제한으로 인한 외삽(extrapolation : 데이터 안에 없는 케이스에 대한 설명 및 예측 문제)이 중요한 상황에서의 높은 신뢰도 요구는 현대 머신러닝이 주로 따르는 방향성 (ex. 빅데이터 안에서 복잡한 정답을 자동화된 프로세스로 도출하려는 노력)과 공학 문제의 특성이 충돌하는 부분이라고 할 수 있다.

머신러닝 모델링의 현재 흐름과 공학문제 응용에서의 주요 한계점은 다음과 같이 요약할 수 있다.

1) 빅데이터에 대한 의존성: 머신러닝 알고리즘들은 주로 좋은 품질의 대규모 데이터에서 학습해 높은 성능을 달성하지만 실험 데이터나 관측 데이터가 제한적인 공학 문제에서는 이러한 모델들의 적용이 어려운 경우가 많다. 데이터 부족으로 인해 모델의 성능 저하 및 편향(bias)문제가 발생할 수 있다.

예를 들어, 항공기 부품의 피로(fatigue)에 대해 센서를 통해 파악하고, ML을 활용해 피로 수명을 예측하고자 한다면 수많은 실험 데이터가 필요한데, 이러한 실험은 고가의 장비와 긴 시간이 필요하기에 확보 데이터가 제한적일 수밖에 없다. 이런 상황에서는 ML 모델을 일반적으로 과적합(overfitting)이나 낮은 예측 성능을 야기한다.

2) 해석 가능성의 부족: 대표적으로 딥러닝 기반의 비선형 모델들은 복잡한 패턴이 내재되어 있는 문제의 경우 잘 해결하지만, 가능성은 일반 수리적 모델에 비해 떨어지고 해당 분야의 특성적인 물리적인 제약(ex. 에너지/운동량 보존 법칙, 경계 조건, 시간 연속성 등) 조건을 반영하지 못 할 가능성이 있다. 이러한 부분들은 공학 설계 및 응용 분야에서 신뢰성과 설명가능성을 충분히 제공하지 못한다는 한계점이 있다.

3) 내삽 VS 외삽: 일반적으로 머신러닝 모델들은 학습 데이터의 범위 내(내삽 : interpolation)에서는 높은 예측 성능을 보이지만, 범위를 벗어난 경우(외삽)에서는 그 예측 신뢰도가 급격히 떨어진다. 이는 학습 데이터 외의 조건에서 발생하는 공학적 문제 해결에 결정적인 제약으로 작용한다.

예를 들어, 딥러닝 기반의 자율주행 시스템은 도로와 차량 데이터를 학습해 높은 정확도의 상황 판단과 주행 제어를 수행할 수 있지만, 이러한 시스템은 다양한 환경에 대한 데이터가 충분한, 즉 일반적인 환경에서는 우수한 성능을 보이는 반면 폭설, 폭우, 안개 등과 같은 극한 환경에서는 충분한 신뢰도를 보장받지 못하는 경우가 많다. 이러한 일반적인 수집범위를 벗어난 외삽 환경에 대해 서도 기대한 만큼의 결과를 보이는 모델을 확보하는 것이 공학 모델링에서는 매우 중요한 요인이다.

4) 과학적 비합치성(scientific inconsistency):  데이터에 전적으로 의존하는 모델들은 관측치들의 가장 일반적이고 대표적인 패턴을 설명하는 것이 최우선이다. 때문에 편향된 샘플을 기반으로 학습할 경우, 도출된 모델이 자연과학의 일반법칙에서 어긋나거나 상충되는 경우가 생기게 된다.

예를 들어, 머신러닝 모델을 통해 화학 반응 데이터를 학습시켜 반응 후의 생성물 질량을 예측할 경우, 모델이 학습데이터에서 물리적 조건을 반영하지 못한다면 생성물 질량이 반응물 질량보다 많거나 적은 결과를 산출할 수 있다. 이는 우리가 학창시절 배웠던 질량 보존 법칙과 모순되며, 화학 설계나 공정에서도 ML모델의 신뢰성을 떨어뜨리는 결정적 계기가 되기도 한다.


정리하자면 공학문제의 모델링은 본질적으로 데이터 확보에 비용이 많이 들고, 데이터의 개체수가 일반 소스에 비해 현저히 부족하며, 물리적인 제약과 동시에 외삽에 대한 리스크가 반영되어야 한다고 정의할 수 있다.

예를 들어 비행기의 터빈 엔진에 들어가는 블레이드의 설계는 다양한 상황과 환경에서의 구조적인 안정성과 효율성을 예측할 수 있는 모델이 필요하다. 이러한 경우 모델은 학습 데이터에는 존재하지 않는 극한의 조건에서도 합리적인 예측을 제공해야 한다는 점에서 기존 데이터에 의존하는 학습방식만으로는 한계가 있다.

이러한 근본적인 문제를 해결하기 위해, 데이터 중심의 접근법(주요 ML 방법론)에 물리적인 지식을 통합한 PIML(Physics-informed Machine Learning) 기법이 최근 몇 년간 공학 및 과학 분야에서 주목받고 있다. PIML은 단어에서 주는 의미와 같이, 물리적 지식을 기반으로 머신러닝 모델을 학습하는 방법론들을 통칭한다.

필자가 판단하기에 아직까지 한국에서는 PIML 개념이 산업응용레벨까지 통용되는 수준은 아니지만, 최근 들어 다양한 분야의 연구자들이 여러 형태로 물리+머신러닝 연구 성과물을 지속적으로 보여주고 있다. 필자를 포함한 이 분야의 연구자들은 이러한 연구를 통해 많은 공학 모델링이 필요한 분야에서 PIML이 위에 언급한 데이터가 부족한 상황, 학습데이터 분포를 넘어선 외삽 문제, 과학적 합치성 문제를 해결하고자 꾸준히 노력하고 있다.

사실, 이 두 가지 모델링 사상을 유기적으로 결합하는 것은 직관적이고 논리적으로 자연스럽다. 따라서 문제의 특성을 명확히 이해한다면, PIML 연구와 산업적 활용은 단지 시간의 문제일 뿐이라고 생각한다.


2. 물리학과 머신러닝 : 변화의 언어를 공유하다

그렇다면 공학/과학계의 대선배들부터 지속돼온 물리학과 머신러닝 방법론을 어떻게 결합할 수 있을지에 대해 생각해 보자.

우리가 살아가는 세계의 자연, 사회, 경제, 문화 등 모든 것들은 항상 ‘변화’한다. 해가 뜨고 지고, 강물은 멈춰 있지 않고 항상 흐르며, 주가는 하루가 다르게 요동치고, 사람은 하루하루 늙어간다. 오랜 옛날부터 사람들은 이런 변화를 이해하기 위해 관찰(observe)과 기록(data)을 반복해왔다. 이런 변화에 대한 관찰의 결과로 인간들에겐 자연의 변화에 대한 내재 법칙을 이해하고 표현할 언어가 절실해졌고, 이는 ‘수학’이라는 체계를 구성함으로써 급격히 발전돼 왔다. 수학은 세상의 변화에 대해 패턴과 법칙을 이해하고 설명하는 언어로써, 공학, 물리학, 사회과학, 그리고 머신러닝, 최적화, 현대 AI 알고리즘 등에 이르기까지 공학응용 분야의 기반이 되고 있다.

그렇다면 과연 어떻게 기존의 물리적 법칙과 머신러닝 방법론을 합칠 수 있을까? 머신러닝과 물리학은 서로 다른 방식으로 문제를 해결하지만, 근본적으로는 같은 원칙과 도구를 공유한다고 볼 수 있다. 두 접근법 모두 입력(input)과 출력(output)간의 관계를 모델링하며, 이는 다음과 같은 수학적 형태로 나타낼 수 있다.

위 식을 간단히 설명하면, 세상의 변화(y(world))를 어떤 함수(f(x) : 물리식 혹은 머신러닝)로 표현하고 그 둘을 빼게 되면 내 모델로써 설명할 수 없는 오차(잔차)가 발생하게 되고, 모델링이란 것은 결국 이 오차를 최대한 작게(min), 그리고 아무런 의미(혹은 패턴)가 없도록(white noise)하는 것임을 표현하고 있다.

분석가들의 모델링, f(x)란 결국 변화의 원인 변수와 변화 발생의 메커니즘을 최대한 수학적 언어로 설명하고, 그 나머지 영역이 아무런 해석의 여지가 없어지는 단계를 지향한다고 볼 수 있다.

예를 들어, 공중에서 자유낙하하는 공이 땅에 닿기까지의 시간은 공의 높이라는 변수를 고려하여 모델링을 수행하면 그 외의 환경 요인들은 무시할 수 있는 수준의 오차만 유발할 수준이어야 제대로 된 모델링의 결과라 판단된다. 하지만 현실적으로 공기 저항 같은 변수는 일반적으로 낙하하는 물체 속도에 매우 유의한 영향을 주기 때문에, 이에 대한 고려없이 모델링을 수행하면 오차(error)에는 분명 더 설명할 수 있는 여지가 남게 된다. 때문에 변화의 언어체계인 수학은 유의한 ‘변수’의 투입과 그 ‘변수’ 간의 상호작용(interaction)을 체계적으로 표현해 현실과 모델 산출물을 일치, 혹은 동기화(synchronization)시키는 목표를 갖게 된다

이러한 기본 원리는 물리학과 머신러닝 방법론이 공통적으로 지향하고 있다. 수학은 단순히 변화의 법칙을 기술하는 데 그치지 않고, 현실의 복잡성을 모델에 반영하기 위한 체계적 도구로 활용된다. 특히 위의 예시에서 언급한 공기 저항과 같은 물리적으로 중요한 변수들은 시스템에서 실제 현상을 반영하는 데 핵심적인 역할을 한다. 이러한 변수들을 정량적으로 표현하고, 다른 변수들과의 상호작용을 고려하는 과정은 모델의 신뢰성을 크게 향상시킨다.

이는 머신러닝에서도 동일하게 적용되며, 모델이 데이터와 자연 법칙을 조화롭게 통합하도록 돕는다. 결론적으로, 수학은 이러한 변수의 효과를 총체적으로 고려해 관측 데이터와 모델 출력간의 차이를 줄이는 역할을 수행하고, 이를 통해 현실과 모델을 일치시킨다. 이 부분이 물리학과 머신러닝 방법론들의 공통 지향점이라 할 수 있다.

그림 1. 물리 모델의 검증/개선 체계 vs 데이터 기반 모델(ML)의 검증/개선 체계
그림 1. 물리 모델의 검증/개선 체계 vs 데이터 기반 모델(ML)의 검증/개선 체계

<그림 1>은 물리 모델과 머신러닝 모델이 각각의 강점을 바탕으로 자연의 변화라는 문제에 대해 어떻게 접근하는지를 보여준다. 공통적으로 두 프로세스는 모두 데이터>지식>모델링>해석 및 결론이라는 절차를 따르고 수학적 도구를 활용해 변화를 표현하며, 변수 간의 관계를 정량화하고 오류를 최소화해 현실 세계와 모델간의 일치를 목표로 한다. 다만 물리 모델은 상대적으로 이론적 근거를 중심으로 모델링과 예측(시뮬레이션)을 통해 자연현상을 좀 더 구체적으로 이해하는 데에 목적이 있다면(understanding), 머신러닝 모델은 데이터를 기반으로 모델을 도출(혹은 데이터에 적합)해 실질적인 예측 성능을 제공하는 데(Prediction) 강점이 있다.

이러한 공통점과 각 방법론의 장점들은 물리학과 머신러닝이 상호 보완적으로 작용할 수 있는 기반이 된다.

결국 PIML은 물리적 제약을 데이터 기반 머신러닝에 통합함으로써, 더 강력하고 신뢰성 높은 모델을 구축하며, 다양한 공학 문제들의 해결과 자연현상 예측에서 혁신적인 패러다임을 제시하고 있다.

다음회에서는 우리가 초등학교부터 대학때까지 배우며 활용해 온 수학이 변화를 표현하는 데 어떤 의미를 갖는지, 그 원리를 중심으로 되짚어보겠다. 또한, 이를 바탕으로 물리 모델과 머신러닝, 그리고 PIML 알고리즘이 어떻게 오차를 줄이고 이를 최대한 작고 의미 없게 만드는지에 대한 대표적인 사례들을 살펴보겠다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지