2024년 세계 자동차 시장의 규모는 4조 달러다. 자동차 산업은 파급력이 커서 전후방 산업까지 고려하면 자동차 1달러 판매 시 경제 전체에는 4.23달러의 추가 파급이 생긴다. 그리고 모바일 기술과 서비스 산업의 규모는 2025년 세계GDP인 5.8%인 6조 5천억 달러다.
하지만 미래 휴머노이드 시장은 이를 한창 상회할 것으로 예상딘다. 젠슨 황은 피지컬 AI를 제조업 물류에서 50조 달러 규모의 혁신으로 판단한다. 보수적 시각의 모건 스탠리는 2050년 약 5조 달러 규모로 예상하며, 혁신적인 머스크는 옵티머스의 수요를 장기적으로 100억 대 이상으로 예상한다. 대당 가격이 2만달러라면 30경원 규모다. 자동차가 도로공간을, 모바일이 스크린, 가상 공간을 지배했다면 피지컬 AI는 일상 자체를 차지할 것이기에 규모가 가장 클 것은 자명하다.
인간은 스스로 완전히 의식하지 못한 체 수많은 감각과 움직임, 판단과 조화롭게 통합하게 일상을 살아가는 암묵지 덕분이다. 암묵지는 언어적으로 완벽하게 설명하기 어렵고 몸에 체화되어 있으며 직관적이고 경험적인 지식이다. 결국 이는 이런 특성으로 인해 명시적으로 프로그램라는 것이 사실상 불가능하다.
그렇기에 규칙기반방식으로 명시적 규칙을 일일이 코딩하는 것으로는 암묵지의 학습이 불가능하다. 해결방법은 드리븐 방식이다. 로봇에게 다양한 컵을 집은 데이터를 제공하여 무수한 경험을 통해 스스로 요령을 터득하게 하는 것이다.
그래서 미국의 기업들은 로봇의 개발을 하드웨어 방식이 아닌 가상공간에서 두뇌를 개발하는 방향에 집중하고 있다. 미국의 스킬드 AI는 AI모델과 시뮬레이션, 데이터 학습과 같은 SW개발만 집중한다. 피지컬인텔리전스도 가상공간에서 훈련시켜 로봇외 두뇌를 개발하려 한다. 결국 로봇의 가치 중심이 정교한 하드웨어에서 AI기반 소프트웨어, 즉 지능으로 이동중인 것이다.
로봇이 현실에서 사람과 그리고 같은 로봇과 협업하며 움직이려면 현실의 맥락을 알아야 한다. 이는 단순 모방을 넘어서는 것이다. 그 안에 담긴 의미를 파악해야 하기 때문이다. 그리고 과학자들은 이것이 가능하려면 인간의 언어를 이해해야 한다고 생각했다. 그래서 로봇에겐 LLM이 필요하다. 세상을 책으로만 배운게 LLM이다. LLM에서 더 나아가 실제 세상을 눈으로 보게 하려는 시도가 멀티모달AI의 한 종류인 VLM이다. 이로 인해 LLM은 시각 이미지와 언어사이의 연결고리를 학습하게 도니다. 사진을 보고 그럴듯한 해석이 가능해진 것이다. 또 이를 넘어선 것이 VLA다. 이는 시각언어행동모델로 시각정보를 이해한 후 실제 행동으로 바꿔주는 모듈을 포함한 구조다.
결국 세상을 이해하기 위해 언어라는 지능의 핵이 필요했고, 그 지능이 현실과 연결되기 위해 시각이라는 눈이 필요했으며, 마침내 보고 이해한 것을 바탕으로 물리적 세상과 상호작용하는 행동이라는 손발이 필요했던 셈이다. 이것을 위해 LLM, VLM, VLA가 차례로 등장한 것이다.
자율주행 업계는 규칙 기반 방식 제어의 한계로 인해 롱테일 문제에 봉착한다. 롱테일 문제는 거의 발생하지 않지만 일어날 수 있는 상황을 말한다. 이를 일일히 규칙에 입력하는 것은 불가능하고, 이로 인해 이런 예외적 상황 발생시 로봇은 대응을 하지 못해 효율성이 크게 떨어진다. 이런 문제를 해결한 것이 FSD다. 자율주행을 챗GPT처럼 생성하는 것이다. 자율주행도 수백만의 뛰어난 운전자의 주행을 보고 배우게 하자는 것이다. 구글 웨이모는 규칙 기반 방식이고, 테슬라는 데이터 드리븐 방식이다.
구글웨이모는 규칙기반 방식이라 고가의 라이다가 필요하다. 테슬라는 기본적으로 사람의 눈 정도가 필요해 카메라 및 레이더를 이용해 훨씬 저가다. 샌프란시스코 주행시험에서 웨이모는 43분 테슬라는 15분이 소요되었다. 웨이모는 규칙기반이라 변칙적인 고속도로 주행이 어려웠지만 테슬라는 그것이 가능했고, 교통체증시 우회도로 이용까지 했기에 가능한 기록이었다. 여기에 테슬라는 전 세계 도로에서 운행되는 수백만대의 테슬라 차량에서 매일 수십억 km 주행영상에서 데이터 수집이 가능하다.
피지컬 AI는 당장은 기술력의 한계로 짧은 시간에 고속 연산은 어렵다. 그래서 저속 연산으로 수행 가능한 영역이 적합하다. 그리고 기본 가격대가 높은 곳이 좋다. 로봇은 비싸기 때문이다.
농업분야는 피지컬 AI가 적용되기 좋다. 특히 한국은 식량자급율이 20%에 불과한데다 농업인구는 초고령상태다. 국토의 대부분이 산지라 기계 운용에 변수도 많다. 국내에는 27만개 과수원이 있다. 이중 농약살포기를 쓰는 대규모는 6-7만개 수준이다. 매년 4-5천개 교체 수요가 있다. 대당 가격이 5천만원이면 시장규모가 연간 2천억에서 3천억이다. 일본은 한국의 8배 시장이며, 동남아시아는 한국의 800배 규모다. VLA살포기는 다양한 지형과 지물, 변수, 나무, 열매를 모두 학습한 기기이므로 농업에 적합하다.
국방도 피지컬 AI의 적용영역이다. 21세기 전쟁은 무인자산으로 위험을 전가하는 시대다. 군인 1인이 다수의 무기체계를 퉁제하는 형태다. 인공지능 기반 지휘통합체제는 LLM기반 전략수립 및 작전 지휘가 이뤄지고 이를 바탕으로 인간이 최종 결정을 하여 작전을 내린다. 그럼 인간이 통제하는 무기체계들이 피지컬 AI기반으로 자율운영 기술체계로 전투에 임하는 것이다. 이들은 인간 지휘관이 명령하면 상황에 맞춰 해석, 계획, 실행하는 자율성을 갖는데 이는 전장이 극도의 비정형성을 갖기 때문이다. VLA기반 무기체계는 AI모델 변경 및 업데이트만으로도 정찰 로봇을 공격로봇 및 인명구조 로봇으로 전환이 가능하다 하드웨어가 아닌 소프트웨어 변경으로 무기가 바뀌는 새로운 시대인 것이다.
미국은 소모성 무기체제로 전환 중이다. 모자이크 전쟁이라 한다. 항모, 전투기 등 소수의 기대 플랫폼 대신 수많은 작고 저렴한 무기 네트워크도 연결되어 전투력을 발휘하는 것이다. 현대전은 전자전이 필수다. 적의 통신망을 마비시키는 재밍인데 이것에 당하면 클라우드 기반 인공지능은 무용지물이다. 그래서 온디바이스 인공지능이 필수다. 다라서 제한된 전력하의 고성능 칩이 요구된다.
건설 분야도 피지컬 AI적용 분야다. 제조업 분야의 생산성이 2배 향상되는 동안 건설업의 생산성은 제자리였다. 이는 제조업과는 다르게 건설 현장이 매우 비정형적이고 예측 불가능해서 자동화하기 어려웠기 때문이다. 건설업은 3D업종으로 인력부족에 시달려, 인건비가 매우 높고 인력이 고령화했다. 건축비가 상승하고 있어, 사회적 부담이 커지고 있다.
건설기술은 손끝의 감각인 암묵지가 크다. 이것이 건설기술자의 고령화로 세월과 같이 대개 사라진다. 숙련 기술자의 작업과정을 데이터로 축적하고 VLA로 훈련하면 소실될 그들의 암묵지를 계승하고 한층 발전시킬 수 있다. 건설업은 매우 큰 시장이 될 가능성이 있다. 2024년 기준 건설장비는 1614억 달러, 2032년이면 2713억 달러로 예상된다. 로봇작업이 도입되면 공기가 단축되고, 건설비와 현장관리비, 금융이자, 산재비, 보험료, 종합적 건설비용이 크게 감축될 것으로 예상된다.
제조업에서 가장 중요한 것은 인건비다. 인건비는 최저임금의 상승, 주52시간 노동, 복지비용의 상승으로 해마다 상승한다. 세계 제조업의 인건비는 수조 달러 규모로 추정된다. 사람이 직접 해야하는 것은 전체 노동의 50%이상이다. 일부기업은 물류센터를 건설 단계부터 로봇의 작업효율을 극대화하는 로봇 친화적인 환경을 만든다. 상품규격 표준화, 선반비치, 컨베이어벨트 동선의 배치를 로봇에 최적화시킨다. 이러면 굳이 VLA수준의 로봇이 필요없다. 국내의 서빙로봇 임대료는 월 30-60만원으로 인건비 대비 매우 저렴하다. 즉, 모든 분야에서 비싼 VLA가 필요하지는 않은 것이다.
로봇은 머리가 가장 중요하지만 머리가 아무리 뛰어나도 몸이 움직이지 않는다면 무용지물이다. 몸 역시 중요한 것이다. 로봇 구동에 가장 중요한 장치는 아무래도 액추에이터다. 이는 제어신호를 기계적 운동으로 바꿔주는 장치로 인간의 근육과 관절에 해당한다. 테슬라 옵티머스에는 액추에이터가 28개 장착되며 피규어 AI에는 40개 이상이 장착된다. 휴머노이드 1기당 엑추에이터는 원가의 30%이상을 차지할 정도로 중요부품이다.
엑추에이터는 모터, 감속기, 인코더, 센서로 구성된다. 이중 힘을 내는 모터와 그것을 줄이는 감속기가 핵심이다. 모터는 유압식과 전기식, 공압식이 있다. 아틀라스는 유압식을 쓰다가 전기식으로 전환했다. 유압식은 강한힘을 내는데 크게 유리하나 에너지 효율이 낮고, 기름이 새는 문제와 운도변화에 민감에 외부 노출이 어렵다. 전기식 모터는 유압에 비해 정밀 토크가 가능하고, 성능 개선이 빠르고, 유지관리가 용이하며, 대량생산과 가격경쟁력이 있다. 다만 폭발적 힘은 유압식만 못하다.
감속기는 모터의 빠른 회전속도를 의도적으로 줄인다. 모터의 빠른 회전을 줄이며 느린 회전이 강한 힘으로 전환된다. 감속기는 하모닉 감속기와 RV감속기가 있다. 하모닉은 정밀도가 높고 작고 가벼워 로봇 팔과 손목, 손가락 같은 곳에 사용된다. RV는 구조적으로 복잡하고 무거우나 큰 토크를 감당한다. 외부 충격에 강하고, 안정적이라 주로 무게를 지탱하는 다리 관절이나 허리, 몸통에 쓰인다.
모터는 중국에 의해 대량생산되어 단가가 낮다. 하지만 감속기는 정밀도와 내구성이 중요해 생산난이도가 높아 일본이 장악하고 있다. 최근 중국의 리더라이브와 라이푸알이 등장했고, 한국에서는 SBB테크와 SPG, STP등이 이를 생산한다.
휴머노이드에게는 감각도 매우 중요하다. 특히 시각이 중요하다. 인간 수준의 시각을 갖추려면 카메라만으로는 불충분하다. 인간은 2개의 눈으로 공간의 깊이를 파악하나 로봇은 두개로는 어렵다. 그래서 스테레오 카메라나 뎁스 카메라가 필요하다. 2대의 카메라를 간격을 두고 배치해 좌우 영상의 시차를 삼각측량으로 거리 계산을 하는 것이다.
관성측정장치는 인간의 전정기관에 해당한다. 가속도계와 자이로스코프로 구성된다. 기울어짐, 회전, 변화를 감지한다.
힘-토크센서는 로봇의 관절이나 손끝, 발끝 등에 부착되어 외부에서 가해지는 힘이나 회전력을 측정한다. 이걸로 로봇은 물체를 얼마나 세게 밀고 바닥을 얼마나 세게 딛고 있는지를 깨닫는다.
촉각센서는 로봇의 피부에 해당한다. 물체와의 접촉여부, 세밀한 압력 분포, 표면의 거친 정도를 감지해 정교한 조작이 가능하다.
로봇에는 자신의 몸상태를 느끼는 고유수용성 센서와 외부환경을 느끼는 외부용 센서가 있다. VLA모델에게는 이런 센서가 중요하다. 감각을 맥락으로 승화시켜 주는 것이다. 향후 센서의 가치는 개별 성능보다는 서로 다른 센서들이 측정한 데이터를 얼마나 지능적으로 융합하는 지에 달려 있다. 로봇이 세상을 보고, 자신의 움직임을 느끼고, 그 사이의 관계를 스스로 학습할 때 비로소 지능이 탄생하는 것이다.
휴머노이드의 생김새상 배터리가 장착가능한 부위는 몸통뿐이다. 등에 가방처럼 부착하면 무게 중심이 높아져 보행안정성이 저해된다. 배터리는 가벼워야 한다. 무거우면 결국 배터리 소모량도 커지기 때문이다. 휴머노이드의 전력소모는 롤러코스터다. 움직이거나 힘을 쓰면 큰 전력을 쓴다. 이런 극심한 변동성을 견디려면 배터리는 높은 파워밀도를 갖춰야 한다.
최근 배터리의 화학적 한계를 제어와 관리기술로 보완하려는 접근인 지능형 배터리 관리 시스템이 있다. 이는 배터리 전압과 전류를 모니터링하는 것을 넘어서 과충전, 과방전을 방지하고 여러 셀 사이에 전압균형을 맞추고, 고부하 사이의 발생열을 효과적으로 고나리해 배터리의 안전과 수명을 보장하는 기술이다.
배터리는 중국은 LFP, 한국은 NCM계열이 강하다. 중국의 것은 가격이 싸고, 안정성이 높지만 에너지 밀도가 작다. 한국의 삼원계열은 안정성은 부족하고 가격이 비싸나 에너지 밀도가 높다. 그래서 휴머노이드에 적합하다.
통신속도와 보안성, 비용문제로 인해 피지컬AI의 두뇌는 결국 온디바이스로 로봇의 두뇌 안에 탑재 될 수 밖에 없다. GPU는 성능은 뛰어나나 발열, 전력 소모가 심하다. NPU는 고성능이면서도 저젼력에 발열이 상대적으로 낮아 더 적합하다.
현재 미국의 빅테크들은 로봇의 두뇌 훈련 즉, VLA의 개발에 실제 세계보다는 가상세계를 통한 시뮬레이션 학습을 하고 있다. 2023년 연구에 의하면 시뮬레이션 학습 로봇이 현실세계에서도 약 84%까지 작동하는데 성공했다. 그래서 적극적인 것이다. 최고이 시뮬레이터는 엔비디아의 아이작심이다. 피직스라는 엔비디아의 물리엔진을 쓴다.
LLM에 비해 VLA는 더 작고 효율적이다. VLA의 파라미터는 70억개 수준이다. 지피티4는 2조개정도다. 이는 일부러 작게 만드는 것이다. 온디바이스 개발이 목표이기 때문이다 피지컬 AI학습에 있어 GPU개수보다 본질적인 것은 데이터 저장을 위한 스토리지와 전송을 위한 네트워크 인프라다. LLM은 학습 데이터가 텍스트 위주라 데이터 양은 많아도 조각이 작아 전송속도나 저장이 중요치 않다. 하지만 VLA는 영상 위주로 학습해서 데이터 총량은 작아도 조각이 크고 전송속도와 저장장치가 커야한다.
휴머노이드 로봇에서는 테슬라와 피규어 AI, 유니트리가 선두다. 셋을 비교하면 유니트리만 가격과 접근성을 높이기 위해 키와 몸무게가 어린 아이 수준이며 나머지 둘은 성인 정도의 크기와 무게다. 3사 모두 액추에이터가 내재화 되어 있으며, 테슬라는 카메라만 탑재하지만 피규어 AI는 카메라와 라이다를 갖이 쓴다. 유니트리는 배터리 무게를 크게 줄여 교체식이다. 테슬라는 AI모델과 자율주행 반도체 자체 설계 기술을 갖고 있다. 피규어 AI는 헬릭스라는 자체 VLA모델을 갖고 있다. 유니트리는 로봇 하드웨어와 플렛폼 공급을 맞추는 형태다.
테슬라는 자동차 산업에서의 수직통합을 휴머노이드에도 적용한다. 이미 액추에이터, 로봇 무릎관절등 로봇 하드웨어 부문에서 독립적인 기술체제를 구축했다. 이 수직통합은 데이터 수집, 인공지능모델훈련, 실제 차량 배포의 선순환을 가져온다. 현재 테슬라 차량에는 2019년 개발한 3.0버전의 인공지능이 탑재되어 있다. 2026년 5버전이 출시되는데 이는 15배 향상된 성능이다. 테슬라는 옵티머스가 향후 테슬라 기업가치의 80%이상을 차지할 것으로 예상한다. 테슬라는 모터, 반도체, 배터리, 부품, 데이터, 인공지능, 소프트웨어 모두를 자체 생산하는 유일한 기업이다.
엔비디아는 피지컬 AI시대의 핵심 인프라를 장악한다.
프로젝트 GROOT를 통해 로봇의 두뇌라 할 수 있는 VLA구조의 휴머노이드 범용 파운데이션 모델을 공개했다. 이는 인간의 행동을 관찰해 자연어를 이해하고 움직이고 모방하도록 설계된다. 어떤 휴머노이드에도 이식하는 범용 지능 구현이 목표다.
시뮬레이터 플랫폼인 옴니버스도 있으며, 아이작심도 여기에 포함된다.
추론칩인 젯슨AGX토르도 출시되었다. 기존 젯슨 오린보다 7.5배 향상되었고, 에너지도 개선되었다. 이처럼 엔비디아는 피지컬 AI개발과 구동을 위한 인프라를 장악하고 있다. 따라서 향후 거의 모든 로봇 제조사는 엔비디아에 세금을 바칠 수 밖에 없는 형태다.
미국은 피지컬 AI의 강자지만 구조적 약점도 있다.
우선 소프트웨어와 알고리즘은 상당히 강하지만 역시나 제조업을 포기한 국가인 만큼 하드웨어가 약하다. 테슬라를 뺀다면 나머지 기업은 핵심센서, 액추에이터, 정밀 부품을 모두 해외의존한다. 그리고 인재도 문제다. 인공지능 부문의 인재 상당 수가 외국계이며, 그 중에서도 중국계가 상당수다. 마지막은 인공지능 반도체 분야의 구조적 취약성이다. 온디바이스 추론용 인공지능 반도체 시장에서 강점을 가진 기업이 별로 없다.
중국은 로봇의 모든 것을 국가 단위의 가치사슬 수직 통합을 천명했다. 2025년 기준 전 세계 휴머노이드 가치사슬 기업의 56%가 중국 기업일 정도다. 로봇원가의 30%를 먹는 액추에이터는 중국의 최우선 타깃이다. 그리고 센서인 뎁스 카메라도 잘 만든다. 다만 힘-토크센서와 촉각센서 부분이 취약하다. 배터리 역시 삼원계가 약하다.
중국은 베이징은 국가전략 연구기관, 대학, 정책, 자본이 집중되어 피지컬 AI 연구와 전략 수집의 두뇌역할을 한다. 상하이와 항저우는 베이징이 설계한 두뇌를 산업환경에서 학습, 검증하는 실험실이다. 선전은 초고속 제조망과 공급망을 통해 미 모든 과정을 가속화하여 실제 산업으로 연결하는 공장처럼 기능한다.
중국의 남동부 장감 삼각주를 따라 이어진 상하이, 항저우에는 육룡이라 불리는 딥시크, 유니트리 등 중국을 대표하는 스타트업과 6000개에 달하는 인공지능 기업이 있다. 과거 중국은 세계의 공장이었지만 지금은 데이터 공장으로 탈바꿈 중이다. 2024년 1년간 선전 지역의 로봇 관련 특허 출원 및 등록 건수는 전년 대비 35%가 증가했다. 로봇 가치 사슬 기업도 무려 7만 4천개 증가했다. 2025년 7월 선전 중강구 대형 쇼핑센터 거리에는 세계 최초 로봇 백화점이 등장했다. 판매, 부품공급, 유지보수, 고객 피드백, 임대, 맞춤 제작의 로봇 관련 원스톱 서비스가 가능하다.
중국은 로봇에 강점이 많다. 거대한 내수시장이 있고, 정부 주도의 강한 추진력과 대중의 거부 없는 높은 수용력이다.
단점은 미국의 기술 제재로 인한 첨단 장비의 도입 어려움과 해외 의존성, 정부 주도의 지원으로 인한 보조금 중심 정책으로 도덕적으로 해이한 부실 기업이 많아 양적으로는 우수해도 질적으로는 취약한 부분이 적지 않다는 점이다.
한국은 2015년 다르파 로봇 챌린지에서 카이스트 휴보가 우승할 정도였지만 이후 산업계와 정권의 무능으로 로봇 산업에서 밀려났다. 미국과 중국은 현재 2-3세대 휴머노이드로 나아가고 있지만 한국은 아직 1세대에 머무른다.
다만 한국은 전통적 제조업 강국으로 기존의 모든 산업이 휴머노이드 제작과 직간접적으로 관련하여 휴머노이드 제작에 강한 강점을 지닌다. 단순한 부품 공급 국가가 아니라 완성형 휴머노이드 국가로의 잠재력이 충분한 것이다.
한국 기업들도 움직이고 있다. 삼성은 레인보우 로보틱스를 인수하여 로봇을 준비하고 있고, 현대차는 보스턴 다이내믹스를 통해 이를 실현하고 있다. 한국의 로보티즈는 액추에이터를 하나의 모듈로 통합해 다이나믹셀이라는 제품으로 출시했다. 다만 힘-토크센서가 내장되지 않고 하모닉 감속기를 쓰진 않는다. 한국은 에스비비테크가 2023년 하모닉 감속기를 국산화했다.
한국의 최대 약점은 센서 부분이다. 하지만 삼원계 배터리도 강하고, 팹리스와 파운드리 기업이 존재하는 유일한 국가다. 가장 큰 문제는 로봇의 머리인 VLA의 개발이다. 이것이 걸음마 수준이다. LG의 액사원이 피지컬 AI.를 개발하고 있다.
로봇 두뇌 개발에는 파운데이션 모델과 월드 모델이 있다. 전자는 어떤 형태의 로봇에도 적용될 수 있는 범용 두뇌를 개발하는 것이고 후자는 더 근본적인 것으로 세상의 물리법칙, 인과관계를 로봇에게 내재시켜 세상을 이해하고 예측 능력을 키우는데 중점을 두는 것이다.
월드모델의 구현을 위해서는 감정이나 본능, 생존 같은 부분은 없어도 된다. 논리사고나 현실 모델링 같은 인간 뇌의 대뇌피질 부분만으로도 추운하다. 피지컬 AI의 진보는 얼마나 인간처럼 보이는가가 아니라 얼마나 인간에게 유용하는가 이기 때문이다. 즉, 인간의 재현이 아니다.
그리고 로봇의 소프트화도 중요하다. 로봇이 인간과 밀접해질수록 그 표면도 인간의 피부처럼 말랑말랑한 형태가 될 가능성이 높다. 다만 이는 제어의 복잡도를 현저히 증가시킨다. 재질이 부드러우면 자유도가 크게 증가해 정밀한 계산이 안되기 때문이다. 물론 VLA로 해결이 가능하다.
장차 피지컬 AI가 일상으로 들어오려면 다음의 조건이 해결되어야 한다
우선 생각의 속도다. 인간 수준의 움직임을 보이려면 0.1초나 0.05초의 반응 속도가 필요하다. 하지만 현 시점은 0.3초 수준이다. 더 빨라져야 현실적 협응이 가능하다.
다음은 기억의 부재다. 현재의 인공지능은 사실상 기억을 전혀 하지 못하고, 보조적 장치로 인간과의 경험에 대해 일부 기억하는 수준이다.
마지막은 학습의 딜레마다. 현재 인공지능 모델은 추가학습이 불가능해서 새로운 내용을 학습하려면 처음부터 모든 것을 다시 학습해야 한다. 이것을 해결해야 한다.