한국지능정보사회진흥원 임상혁 책임연구원

임상혁 한국지능정보사회진흥원 책임연구원
임상혁 한국지능정보사회진흥원 책임연구원

인식형 AI부터 물리적 AI로의 변화

[컴퓨터월드] AI 기술은 지난 수십 년간 단계적으로 진화를 거듭해 왔다. 엔비디아 젠슨 황 CEO는 CES 2025 기조연설에서 ‘물리적 AI의 시대’가 도래했다고 선언하며, AI가 단순한 인식과 생성을 넘어 물리적 세계와 직접 상호작용하는 새로운 패러다임으로 진입했음을 강조했다. 그는 AI가 ‘인식형 AI(Perception AI)’, ‘생성형 AI(Generative AI)’, ‘에이전틱 AI(Agentic AI)’를 거쳐, 물리적 세계에서 처리하고 추론하고 계획하며 행동하는 ‘물리적 AI(Physical AI)’로 진화하며, 이것이 AI 혁명의 다음 단계이자 궁극적인 목표라고 설명했다.
 

· 인식형 AI (Perception AI): 이미지 인식, 음성인식, 패턴 분석 등을 통해 데이터를 해석하고 분류하는 기능을 담당한다. 컴퓨터 비전, 자연어 처리, 머신러닝 알고리즘이 핵심 기술이며, 얼굴 인식 시스템이나 음성 어시스턴트 등에 활용된다.

· 생성형 AI(Generative AI): GPT, DALL-E 등과 같은 모델을 통해 텍스트, 이미지 등 새로운 콘텐츠를 생성한다. 트랜스포머 아키텍처와 대규모 언어 모델(LLM)이 핵심 기술이며, 창작 도구나 코딩 어시스턴트 등으로 구현된다. 최근 LLM 기술의 급격한 발전으로 대중적으로 친숙한 AI 서비스가 되었다.

· 에이전틱 AI(Agentic AI): 자율적 의사 결정과 계획수립이 가능한 AI로, 다중 도구 사용과 복잡한 워크플로우 실행을 특징으로 하며 목표를 설정하고 행동하는 AI를 의미한다. 강화학습, 계획 알고리즘, 멀티에이전트 시스템이 핵심 기술이며, 자동화된 업무 처리 등에 적용된다. 최근 앤트로픽(Anthropic)의 MCP, 구글(Google)의 A2A 등이 정교한 에이전틱 AI 기술로 주목받고 있다.

· 물리적 AI(Physical AI): 디지털 세계를 넘어 실제 물리적 환경에서 작동하며, 로봇, 자율주행차 등을 통해 현실 세계와 직접 상호작용하는 특징을 가진다. 최근 LLM 및 멀티모달 기술과 결합해 더욱 빠르게 진화할 것으로 예상되는 분야이다. 센서 융합, 실시간 제어, 환경 적응 학습이 핵심 기술이며, 휴머노이드 로봇, 자율주행차, 스마트 팩토리 등의 형태로 구현된다.
 

CES 2025에서 젠슨 황 CEO가 발표한 물리적 AI로의 진화 과정. (출처 : nvidia.com, CES2025 Highlights Deck(2025))
CES 2025에서 젠슨 황 CEO가 발표한 물리적 AI로의 진화 과정. (출처 : nvidia.com, CES2025 Highlights Deck(2025))


물리적 AI(Physical AI)란?

물리적 AI는 인공지능(AI)의 한 분야로, 디지털 공간에 머무르던 기존 AI와 달리 물리적 세계에서 직접 행동하고 상호작용하도록 설계된 AI 시스템이다. 이는 센서로 실세계 환경을 인식하고, AI 모델로 상황을 판단하며, 액추에이터를 통해 물리적 행동을 수행하는 통합 시스템으로 구현된다. 특히 물리적 AI는 자율 주행 차량, 산업용 로봇, 휴머노이드 등 다양한 하드웨어와 결합해 현실 세계의 복잡한 문제를 해결하고 광범위한 파급효과를 가져올 핵심 인공지능 기술로 주목받는다.

물리적 AI의 주요 특징은 다음과 같다. 첫째, 다양한 센서를 통해 주변 환경 변화를 감지하고 즉각 대응하는 실시간 환경 인식 및 적응 능력이다. 둘째, 로봇팔, 그리퍼 등을 통해 객체를 조작하고 이동하는 물리적 조작 능력이다. 셋째, 경험을 통해 지속적으로 성능을 개선하며 새로운 상황에 적응하는 학습과 진화 능력이다.
 

이러한 물리적 AI는 센서, 액추에이터, AI 모델, 그리고 안전한 학습과 검증을 위한 시뮬레이션 환경 등을 핵심 구성 요소(기술)로 한다.

· 센서 기술: AI가 주위 환경을 정확하게 인식하기 위한 핵심으로, 라이다(LiDAR), 카메라, 레이더, IMU(관성측정장치) 등이 사용된다. 이들 는 융합 360도 환경 인식, 정밀 거리 측정, 객체 인식을 가능하게 한다.

· AI 모델: 환경과의 상호 작용으로 최적 행동 패턴을 학습하는 강화학습이 핵심이며, 전문가 행동을 모방하는 모방학습(Imitation Learning)도 빠른 학습을 위해 활용된다.

· 시뮬레이션 환경: 유니티(Unity), 엔비디아 아이작 심(NVIDIA Isaac Sim) 등의 플랫폼을 사용해 실세계와 유사한 환경에서 안전한 학습과 검증을 수행한다. 이는 위험하거나 비용이 많이 드는 실제 테스트를 보완한다.

· 액추에이터 기술: 물리적 동작을 실행하는 부분으로, 모터 등이 포함되며 정밀한 제어와 빠른 응답 속도가 요구된다. 최근에는 소프트 등 새로운 방식도 개발되고 있다.
 

이처럼 물리적 AI를 구성하는 AI 모델, 시뮬레이션 환경 등 핵심 기술들은 다양한 로보틱스 분야에 응용되며 그 가능성을 확장하고 있다. 그중에서도 물리적 AI가 사회 전반에 큰 변화를 불러올 것으로 주목받는 대표적인 적용 영역은 자율 주행 기술과 휴머노이드 기술이다. AI와 결합함으로써, 이 두 분야는 큰 기능적 향상과 함께 가파른 시장 성장이 전망될 뿐 아니라, 선도 국가 및 글로벌 기업들의 전략적 관심 또한 집중되고 있는 핵심 영역이다.

이 두 핵심 영역을 중심으로 물리적 AI가 어떻게 각 영역에 융합돼 기술적 발전을 이끌고 있는지, 그리고 관련 선도 기업들의 주요 동향은 무엇인지 구체적으로 살펴본다.
 

자율 주행과 AI의 융합

자율 주행 기술은 복잡하고 동적인 환경에서 실시간 의사 결정을 요구하므로, 기존 규칙 기반 시스템으로는 도로 위의 무수한 변수와 예외 상황 처리에 한계가 있어 AI와의 융합이 필수적이다. AI는 다중 센서 데이터 통합 분석을 통한 ▲환경 인식 정확성 향상, 다른 차량·보행자 행동 예측을 통한 ▲예측 능력 향상, 교차로·합류 구간 등에서의 ▲복잡한 상황 의사 결정 능력을 제공한다.

현재 발전 방향은 센서 입력부터 조향, 가속, 제동까지 전체 과정을 하나의 신경망으로 학습하는 End-to-End 학습 방식으로 모이고 있으며, 이는 기존 모듈화 시스템보다 더 자연스럽고 인간과 유사한 주행을 가능하게 한다.

초기 자율 주행 시스템은 미리 정의된 규칙에 따라 동작하는 룰 기반(Rule-Based) 접근법을 사용했으나, 이는 예측 불가능한 예외 상황에 취약했다. 대량의 주행 데이터를 통해 스스로 패턴을 학습하고 새로운 상황에 적응하는 딥러닝 기반 AI 학습으로의 전환은 자율 주행 기술의 패러다임을 바꾸었다. 특히 컨볼루션 신경망(CNN)을 통한 이미지 인식과 순환 신경망(RNN)을 통한 시계열 예측이 핵심 기술로 자리 잡았다.

라이다 센서는 정확한 3D 환경 인식을 제공하지만, 높은 비용과 악천후 성능 저하의 한계로, 카메라 기반 비전 시스템과 AI를 결합한 접근법(예: 테슬라)이 주목받고 있다. 테슬라 FSD는 v12부터 기존 C++ 코드를 제거하고 실제 주행 영상을 학습한 단일 신경망 모델로 전환, '퓨어 비전(Pure Vision)' 전략을 강화했다.
 

자율 주행 선도 기업의 현황은 다음과 같다.

· 테슬라(Tesla) FSD: v12는 엔드투엔드 신경망 기반으로, 비전 트랜스포머(Vision Transformer) 아키텍처를 활용해 다중 카메라 영상을 동시 처리하고, 대규모 실제 주행 데이터 학습 및 OTA(Over-The-Air) 업데이트를 통해 성능을 지속적으로 개선한다.

· 리오토(LiAuto) : 33개 센서 융합 기술과 엔비디아 오린(NVIDIA Orin) 칩셋 기반 고성능 컴퓨팅, 배터리 교환 시스템 연계 자율 충전 기능이 특징이다.

· 화웨이(Huawei) : 자체 개발 MDC 컴퓨팅 플랫폼과 고정밀 지도 기술을 결합, 5G 통신 기술 연계 V2X(Vehicle-to-Everything) 통신이 강점이다.

· 샤오펑(XPeng) : 비전 기반 접근법과 자체 개발 엑스넷(X-Net) 신경망, 대규모 중국 도로 데이터를 활용해 LiDAR 없이도 도시 자율 주행을 구현했다.
 

이 분야에서 특히 물리적 AI를 활용한 합성데이터(실제 데이터가 아닌 알고리즘이나 시뮬레이션을 통해 인위적으로 생성된 데이터)의 적용·활용이 활발하게 이루어지고 있다. 엔비디아 드라이브 심(NVIDIA Drive Sim)은 포토리얼리스틱 렌더링과 정확한 물리 시뮬레이션으로 실세계와 유사한 테스트 환경을 제공하며, 코스모스(COSMOS)는 생성형 AI를 활용해 실제 주행 영상 기반으로 새로운 시나리오의 주행 영상을 생성, 희귀하거나 위험한 상황의 안전한 시뮬레이션을 가능케 한다. 즉, 합성데이터를 통해 실제 데이터 수집의 한계(위험 상황 재현의 어려움, 희귀 시나리오 확보의 난점, 높은 비용 문제)를 극복하려 하고 있다.

합성데이터는 자율 주행 AI 모델 학습 및 검증에서 ▲희귀 상황(사고, 극한 날씨 등) 학습 ▲안전한 테스트 환경 제공 ▲비용 효율성 증대 등의 역할을 한다. 검증 과정에서는 심-투-리얼(Sim-to-Real) 전이 학습을 통해 시뮬레이션 학습 모델이 실세계에서도 잘 동작하도록 한다.

AI가 실제 세계의 물리 법칙을 이해하고 예측할 수 있도록 돕는 월드 파운데이션 모델 NVIDIA Cosmos(우측) (출처 : nvidia.com)
AI가 실제 세계의 물리 법칙을 이해하고 예측할 수 있도록 돕는 월드 파운데이션 모델 NVIDIA Cosmos(우측) (출처 : nvidia.com)


휴머노이드 로봇과 AI의 융합

휴머노이드 로봇은 인간과 유사한 형태와 기능을 가진 로봇으 로, 이족 보행, 물체 조작, 언어 소통 등 인간의 능력을 모방한다. 핵심 기능으로는 환경 인식 및 내비게이션, 이족 보행 및 균형 제 어, 양손을 이용한 정교한 물체 조작, 인간과 자연스러운 상호 작 용이 있다. 휴머노이드 로봇이 지닌 가장 큰 이점은 다른 산업 용 로봇 등과 다르게 ‘인간을 닮았다’라는 직관적인 사실에 있다.

이는 인간의 손길이 필요했던 어떤 환경, 어떤 작업에서도 로 봇이 투입돼 인간의 업무를 수행하거나 지원할 수 있음을 의미 한다. 결과적으로 인간이 수행해 온 업무 영역에서 로봇이 그 역할을 대체하거나 인간과 협력할 수 있다는 유연성과 범용성 을 부여한다. 가장 빠르게 적용될 수 있는 분야로는 다음을 예 상할 수 있다.
 

· 산업 현장(제조, 물류): 제조업에서 기존 산업용 로봇이 수행하 기 어려운 복합적이고 유연한 작업(조립, 검사, 포장 등)을 담 당하며, BMW, 현대 등 자동차 제조사들이 검증 중이다. 물 류 분야에서는 창고 내 피킹, 패킹, 분류 작업에 활용될 것으 로 기대된다.

· 서비스, 가사, 재난 대응 분야: 서비스 분야(호텔, 병원 등 고객 응대), 가사 도우미(고령화 사회 핵심 솔루션), 재난 대응(위 험 지역 수색, 구조) 등에서 활용될 전망이다.
 

물리적 AI는 휴머노이드의 지능을 혁신적으로 향상시키고 있다. ▲실시간 환경 적응 능력 향상으로 예상치 못한 상황 변화 에 즉각 대응하고, ▲학습 능력 고도화로 새로운 작업을 빠르게 습득하며 기존 경험을 새로운 상황에 적용하고, ▲인간과의 협 업 능력 강화로 복잡한 작업을 함께 수행할 수 있게 된다. 휴머 노이드의 핵심 기술 요소는 다음과 같다.
 

· 이족 보행 및 균형 제어: ZMP(Zero Moment Point) 제어, 관 성 측정, 실시간 궤적 계획이 필요하며, 최근 머신러닝을 활 용한 적응적 보행 제어로 다양한 지형에서의 안정성이 향상 됐다. 모델 예측 제어(MPC), 강화학습 기반 제어 등도 활용 된다.

· 물체 조작(Manipulation): 정밀한 그립 제어, 힘 피드백 시스템, 객체 인식 및 추적 기술이 필요하다. 최근 딥러닝(이미테이션 러닝, 강화학습)과 촉각 센서 발전으로 다양한 물체 조작 능 력이 향상되고 있다.

· 환경 인식 및 상호 작용(HRI) 기술: SLAM(Simultaneous Localization and Mapping) 기술로 실시간 지도 생성 및 위 치 파악을 하며, 다중 센서 융합으로 정확한 환경 인식을 수행 한다. 자연어 처리, 표정·제스처 인식을 통한 인간-로봇 상호 작용(HRI)과 안전한 물리적 상호 작용 기술이 중요하다.

· LLM 및 VLM (Vision-Language Model) 통합을 통한 고도화: GPT-4o, Claude-3 등 멀티모달 AI 모델 통합은 휴머노이 드 로봇의 지능을 획기적으로 향상시켜, 시각 정보와 언어적 지시를 동시에 이해하고 처리하게 한다. 이를 통해 자연어 명령 이해, 상황 이해, 학습 효율성이 증대된다.
 

휴머노이드 분야의 주요 선도 기업의 개발 현황 및 동향은 다 음과 같다. (개발사/로봇명)

· 테슬라(Tesla) / 옵티머스(Optimus): 범용 휴머노이드로 설계, 테슬라 FSD 칩 기반 AI 컴퓨팅과 360도 시각 인식이 특징이 며, 자동차 제조 경험을 바탕으로 대량 생산 가능성을 목표 로 한다.

· 피겨 AI(Figure AI) / 피겨 03(Figure-03): 상업 배포 목표로 OpenAI와 협력해 고도화된 언어 이해 능력과 정밀한 손가 락 제어 능력을 갖췄으며, BMW 자동차 제조 설비에서 테스 트 중이다.

· 앱트로닉(Apptronik) / 아폴로(Apollo): 물류와 제조업에 특 화된 휴머노이드로, 모듈형 설계와 교체할 수 있는 배터 리 시스템으로 연속 작업이 가능하며 안전 중심 설계가 특 징이다.

· 보스턴 다이내믹스(Boston Dynamics) / 아틀라스(Atlas): 기술적 완성도가 높은 휴머노이드로, 뛰어난 이족 보행 능력과 동적 균형 제어, 복잡 지형 이동 능력을 보여주며 최근 전기 구동 방식으로 업그레이드됐다.

· 유니트리 로보틱스(Unitree Robotics) / H1 / G1: 중국의 대표적인 로봇 기업으로, 뛰어난 동적 제어 기술과 높은 가성비를 바탕으로 휴머노이드 로봇 H1 및 G1을 발표했다. 특히 G1 모델은 비교적 저렴한 가격대로(약 16,000$) 산업 및 서비스 분야 에서의 빠른 상용화를 목표로 하고 있으며, 민첩한 움직임과 AI 기반 상호 작용 능력을 강조한다. 
 

주요 휴머노이드 분야 기업이 발표한 최신 모델들. (출처 : 각 기업 자료)
주요 휴머노이드 분야 기업이 발표한 최신 모델들. (출처 : 각 기업 자료)

마무리

지금까지 살펴본 바와 같이 물리적 AI는 인식, 생성, 에이전 트 단계를 넘어 현실 세계와 직접 상호작용하는 AI 기술의 새로 운 지평을 열고 있다. 특히 자율 주행과 휴머노이드 로봇 분야 에서 AI와의 융합을 통해 혁신적인 변화를 주도하고 있다.

자율 주행 분야에서는 엔드투엔드 학습 방식, 신경망을 활 용한 카메라 중심의 비전 시스템, 그리고 합성데이터 활용이 기술 발전을 견인하며 주요 기업들의 경쟁을 치열하게 만들고 있다. 휴머노이드 로봇 또한 인간의 작업 환경에 투입될 수 있는 유연성과 범용성을 바탕으로, LLM 및 멀티모달 AI 기술 과 결합해 지능과 활용성이 빠르게 고도화되고 있으며, 테슬 라, 피겨 AI 등 다양한 기업들이 상용화를 목표로 개발에 매진 중이다.

이러한 물리적 AI와 로보틱스의 발전은 산업 현장의 자동화 수준을 높이고 새로운 서비스를 창출하는 등 긍정적 가능성을 제시하는 한편, 기술의 안전성, 사회적 수용성 및 윤리적 고려 사항 등 다각적인 검토가 필요한 과제도 함께 안고 있다. 앞으로 이 기술 분야의 지속적인 연구개발과 함께 사회적 논의가 병행 될 것으로 전망된다.

저작권자 © 컴퓨터월드 무단전재 및 재배포 금지