← 메인으로
EP. 84·26.02.08·⭐⭐⭐⭐·1시간 24분 2초

Physical AI를 알아보자 (sudoremove 박종현 대표)

ChatGPT가 글 세상을 바꾼 것처럼, VLA라는 기술이 로봇 세상을 통째로 바꾸려 하고 있어 — 그 원리·현황·기회를 한 방에 정리한 입문편.

▶ 유튜브에서 원본 보기← 앞: EP 83. 이야기로 읽는 트랜스포머: 윤회하는 토큰의 순례→ 다음: EP 85. OpenClaw와 2026년 2월의 신호들

EP 84. Physical AI를 알아보자 (sudoremove 박종현 대표)

🗺️ 이 영상의 위치

⚡ 5분 요약

한 줄

ChatGPT가 글 세상을 바꾼 것처럼, VLA라는 기술이 로봇 세상을 통째로 바꾸려 하고 있어 — 그 원리·현황·기회를 한 방에 정리한 입문편.

핵심 3개

1) "로봇에 GPT가 들어갔다" — VLA가 뭔지 기존 로봇은 '이 상황엔 이렇게 움직여라'는 규칙을 코딩으로 다 짜놨어. VLA는 그 규칙을 없애고, 눈(카메라)·말(텍스트 명령)·행동(모터 각도)을 하나의 AI 모델로 연결해. 그러면 처음 보는 환경, 처음 보는 물건도 알아서 대처하는 '범용 로봇'이 가능해지는 거야.

2) 가장 큰 난관 — 데이터가 없어 ChatGPT는 인터넷에 있는 글 전부를 학습했잖아. 근데 로봇 행동 데이터(관절 각도 값)는 인터넷에 없어. 사람이 VR 끼고 직접 로봇 조종해서 하나씩 쌓아야 해. 이게 지금 이 판의 핵심 병목이자 가장 큰 기회야.

3) 올해~내년, 시장 진입 타이밍 박종현·노정석 둘 다 "GPT-3 모멘트가 Physical AI에서 올해 아니면 내년에 온다"고 봐. LLM 열차 놓쳤다고 느끼는 사람들한테, 이쪽은 아직 타이밍이 있다는 게 이 영상의 결론이야.

가장 인상적인 한 마디

"4분 정도의 데모는 고급 텔레오퍼레이션이랑 다를 바가 없다."

한나야, 이게 무슨 말이냐면 — 요즘 로봇 회사들이 "봐봐 우리 로봇 혼자 일해!" 하고 올리는 영상, 사실 뒤에서 사람이 원격 조종한 거랑 구분하기 어렵다는 거야. 과장 광고 스멜 맡는 법 알려준 거지.

한나가 지금 당장 시도해볼 것

유튜브에서 "Boston Dynamics Atlas CES 2026"이랑 "Figure Helix robot" 영상 두 개만 찾아봐. 2분이면 돼. 박종현이 설명한 "어떤 게 진짜 지능이고 어떤 게 그냥 퍼포먼스인지" 구분하는 눈이 생기거든. 콘텐츠 주제로도 바로 써먹을 수 있어.

📖 시간대별 영상 흐름 (15분 정도 걸려, 시간 있을 때만)

0~15분: "로봇 영상 보면서 — 이게 진짜 지능이야?"

노정석이 "오늘 너무 재밌을 것 같다"며 들떠서 시작해. 게스트는 sudoremove 채널 운영하는 박종현. 조용하고 차분한 말투인데 내용은 묵직해.

박종현이 제일 먼저 한 게 CES 2026에서 가장 핫했던 Boston Dynamics Atlas 영상 틀기야. 사람처럼 유연하게 움직이는 휴머노이드. 근데 박종현이 딱 한마디 해. "이거 사실 별다른 지능 없어요." 그냥 미리 짜둔 동작 반복하는 거라서, 날아오는 공 잡거나 예상 못 한 상황에 대처하는 건 이때 데모에선 없었다는 거야. 현대 주가는 올랐지만.

그다음 보여준 게 진짜 지능 있는 Atlas 연구 영상. 물건이 아무렇게나 널려 있어도 알아서 집고 접고 정리해. 하키 채로 방해해도 끄떡없어. 박종현이 "안 되던 게 되는 게 Physical AI의 본질"이라고 정리해줘.

Sharpa라는 생소한 회사의 트럼프 카드 딜링 데모, Figure Helix 주방 정리 데모도 보여줘. Helix 영상에서 박종현이 재밌는 포인트 짚어 — "저 로봇이 골반으로 서랍 닫는 거 봐요. 사람처럼 학습한 거야." 근데 바로 이어서 "4분 짜리 데모는 텔레오퍼레이션이랑 구분 불가"라고 쿨하게 식혀줘. 진짜 대단한 건 10만 줄 C++ 코드를 모델이 대체했다는 것, end-to-end가 됐다는 것.


15~35분: VLA가 뭔지, 왜 어려운지

박종현이 본론 들어가. Physical AI를 좁게 정의해 — "end-to-end 학습으로 비정형 상황을 다 커버하는 지능이 탑재된 로봇." NVIDIA가 마케팅용으로 넓게 쓰는 것과 다른 정의야.

VLA 설명은 깔끔해. LLM(텍스트 이해) → 거기다 눈(카메라) 붙이면 VLM → 거기다 행동(모터 각도) 붙이면 VLA. 노정석이 "모터 좌표 뽑아내는 거죠?"라고 요약하고, 박종현이 "관절 각도예요"라고 다듬어줘. 게임 비유도 나와 — "화살표 키 누르는 게 action이에요."

진짜 핵심은 데이터 문제. 박종현이 로봇 동작 데이터 화면 띄워줘. 카메라 3개 영상 + 아래에 꾸불꾸불 흐르는 관절 각도 그래프. 이게 로봇 학습 데이터인데, 인터넷에 없어. 사람이 직접 VR 끼고 조종해서 하나씩 쌓아야 해. Tesla가 시급 50달러에 텔레오퍼레이터 고용했던 사례, 조건이 "10kg 메고 7시간 걷기"였다는 거 들으면서 노정석 반응이 재밌어. "이거 나 못 할 것 같은데?"

박종현 본인이 Vision Pro 끼고 시뮬레이터에서 텔레오퍼레이션 해봤는데, "2시간 하면 얼굴 아프고 4시간 하면 멀미"난대. 그리고 로봇 한 대당 사람 한 명 붙어야 해서 scalable하지 않다는 게 이 판의 본질적 한계.


35~55분: 어떻게 풀고 있나 — 데이터 전쟁

데이터 문제를 풀려는 접근들을 쭉 훑어줘.

NVIDIA 방식: 시뮬레이터에서 데이터 모으고, 그걸 Cosmos라는 세계모델로 뻥튀기. 배경·조명·재질 바꿔서 다양한 케이스 만드는 거야. 노정석이 "강화학습 + dataset augmentation이네요" 하고 딱 정리해줘.

1X 로봇(NEO) 얘기가 나오면서 분위기 확 달아올라. 이 회사가 로봇을 일단 팔고, 아직 AI가 못 하는 건 원격으로 사람이 대신 해줘. 그러면서 데이터 쌓는 전략. 박종현이 주문까지 넣어놨대. 노정석이 "Tesla FSD 전략이랑 똑같네!" 하고 흥분해. 박종현은 한 발 더 나가서 "인건비 싼 나라에서 텔레오퍼레이션, 인건비 비싼 나라에 로봇 배포하면 전 세계 물리 노동 가격이 맞춰지는 계기가 될 수도 있어요"라고 해. 노정석이 "비즈니스가 주는 즐거움"이라고 감탄하는 구간.

HuggingFace의 LeRobot도 나와. 커뮤니티가 오픈소스 로봇으로 다 같이 데이터 올리고, 그 데이터로 만든 모델이 SmolVLA. 이 전략이 박종현이 개인적으로 제일 좋아하는 방향이기도 해.

스케일링 법칙 얘기도 나와. 최승준이 "이 분야에도 scaling law 있나요?" 물어보고, 박종현이 "데이터 많아지면 성능 좋아지는 건 이미 여러 회사가 관찰했다. 어디까지 갈진 모른다"고 답해. 노정석이 "GPT-2 수준"이라고 비유하고, 박종현이 "첫 번째 generality를 보이기 시작한 단계"라고 동의해.


55~75분: 모델 구조 해부 — 다 비슷하게 생겼어

박종현이 작년에 나온 VLA 모델들(NVIDIA GR00T, Figure Helix, Gemini Robotics 등)을 까서 비교해줘. 핵심 발견: 다 비슷하게 수렴했어.

공통 구조는 "System 1·2 분리". 큰 VLM이 느리게 상황 판단하고(System 2), 작은 Diffusion 모델이 빠르게 행동 생성(System 1). 최승준이 "흥미롭네요, System 2가 먼저네요"라고 하고, 박종현이 "상황 인지는 천천히 해도 되는데 행동은 엄청 빨라야 해요"라고 설명해.

Gemini Robotics는 큰 모델을 클라우드에서 돌리고 작은 모델만 로봇 안에. 박종현이 "Google이 클라우드를 사업 모델로 팔려는 거 보이죠"라고 짚어.

그리고 왜 Diffusion이 들어오냐 — action은 연속적(continuous)인데 LLM은 이산적(discrete) 토큰만 뱉거든. 말에는 '중간값'이 없지만, 팔 각도에는 중간이 무한히 있잖아. 그래서 Diffusion으로 연속적인 action을 생성하게 된 거야. 올해 CES 나온 최신 모델들은 촉각까지 추가해서 System 0·1·2 3단계 구조로 업그레이드됐어.


75~84분: Physical Intelligence의 본질, 그리고 기회

박종현이 핀을 집는 자기 손 슬로모션 영상 보여줘. 1초 안에 눈 안 보고 집었는데, 그 안에 촉각 처리·의사결정·실패·수정이 5번 있었다는 거야. "이게 Physical Intelligence야. Cognitive Intelligence랑 완전히 다른 지능이에요."

Moravec's Paradox도 소개돼 — 체스는 AI가 잘 하는데, 주머니에서 열쇠 꺼내는 건 왜 이렇게 어렵냐. 사람한테 당연한 게 로봇한테 제일 어렵다는 역설.

Reporting Bias 이야기도 인상적이야. 인터넷 텍스트엔 '코끼리가 냉장고에 안 들어간다'는 말이 없어. 너무 당연하니까 아무도 안 썼거든. LLM이 그 당연한 상식을 모르는 이유야.

마지막에 박종현이 사업 방향 공유해. ① HuggingFace처럼 커뮤니티+오픈소스로 저렴한 로봇 대중화 ② 게임/가상세계를 물리 시뮬레이션으로 써서 데이터 문제 + 평가 문제 동시 해결. 노정석이 "LLM 열차 못 탄 사람들 여기 오면 된다"고 마무리해.


💡 한나 버전 사전

"Physical AI"가 뭐야?

  • 전문가 설명: AI가 디지털 세상이 아닌 물리 세상에서 직접 몸을 움직여 행동하는 것. 로봇·자율주행 등이 해당.
  • 한나 버전: 지금까지 AI는 '말하고 쓰는' 것만 했잖아. Physical AI는 AI가 직접 손 들고 청소하고, 설거지하고, 물건 나르는 거야. 인플루언서가 글로만 소통하다가 오프라인 팝업 열어서 직접 팬들이랑 만나는 것처럼, AI가 현실 세계로 나온 버전.

"VLA(Vision-Language-Action Model)"가 뭐야?

  • 전문가 설명: 카메라 영상(Vision)과 텍스트 명령(Language)을 받아서 로봇 행동(Action)을 출력하는 AI 모델.
  • 한나 버전: 유튜브 알고리즘이 "이 시청자가 뭘 보고 싶어 하는지(Vision)" + "검색어(Language)"를 합쳐서 "다음 영상 추천(Action)"을 내놓는 것처럼, 로봇판 추천 엔진이야. 다른 점은 추천 대신 실제로 팔을 움직인다는 것.

"Teleoperation(텔레오퍼레이션)"이 뭐야?

  • 전문가 설명: 사람이 원격에서 직접 로봇을 조종하는 것. VR 기기 등을 사용해 사람의 동작을 로봇에 그대로 전달.
  • 한나 버전: 한나가 라이브 방송에서 직접 말하는 게 아니라 작가가 귓속말로 대본 불러주고 한나가 그대로 말하는 것. 겉으로 보면 로봇이 일하는 것 같은데 뒤에서 사람이 조종 중인 거야.

"End-to-end 학습"이 뭐야?

  • 전문가 설명: 중간에 사람이 짜둔 규칙 없이, 입력에서 출력까지 모든 과정을 AI가 스스로 학습하는 방식.
  • 한나 버전: 예전엔 콘텐츠 기획→촬영→편집→업로드 각 단계마다 다른 담당자가 따로 있었는데, 이제 AI 하나가 "팔로워 늘어라"는 목표만 받고 전 과정을 알아서 처리하는 것. 중간 관리자 없애버리는 거야.

"Scaling Law(스케일링 법칙)"이 뭐야?

  • 전문가 설명: 모델 크기·데이터·연산량을 늘리면 성능이 예측 가능하게 좋아진다는 법칙. LLM에서 검증됨.
  • 한나 버전: 팔로워가 1만일 때보다 10만일 때 협찬 단가가 오르듯이, 데이터 많이 넣을수록 AI가 규칙적으로 똑똑해진다는 거야. 이 법칙이 로봇에도 적용될까 — 지금 다들 그걸 테스트 중.

"Sim-to-real Gap"이 뭐야?

  • 전문가 설명: 시뮬레이터(가상환경)에서 학습한 로봇이 실제 세상에 나오면 성능이 떨어지는 현상.
  • 한나 버전: 릴스 조회수 잘 나오던 콘텐츠가 유튜브 쇼츠로 그대로 올리면 왜 안 터지지? 하는 그 느낌. 환경이 조금만 달라도 잘 안 돼.

"Diffusion(디퓨전) 모델"이 뭐야?

  • 전문가 설명: 노이즈에서 출발해 점점 정교한 결과물을 만드는 생성 AI 기법. 이미지 생성(Stable Diffusion)에 많이 쓰임.
  • 한나 버전: 영상 편집할 때 처음엔 대충 컷 나누고, 보정하고, 자막 넣고, 섬네일 다듬고 — 단계적으로 정교하게 만드는 과정이야. 로봇 행동도 이런 식으로 '점점 다듬어서' 최종 동작을 만들어내는 거.

"Robot Foundation Model"이 뭐야?

  • 전문가 설명: 특정 작업·몸체에 한정되지 않고 다양한 로봇에서 다양한 작업을 수행할 수 있는 범용 로봇 AI.
  • 한나 버전: 인스타 전용 크리에이터, 유튜브 전용 크리에이터가 따로 있던 시대가 있었잖아. 지금은 멀티플랫폼 크리에이터가 어디든 다 잘하는 것처럼 — 어떤 로봇 몸체에도, 어떤 작업에도 다 쓸 수 있는 '멀티플랫폼 AI'.

"Moravec's Paradox"가 뭐야?

  • 전문가 설명: AI가 체스·수학 같은 고차원 사고는 잘 하는데, 아이도 하는 물건 집기·걷기 같은 행동은 오히려 못한다는 역설.
  • 한나 버전: 한나가 브랜드 전략 미팅은 척척 잘 하는데, '카페에서 아이패드 꺼내 와이파이 연결하고 파일 공유하기' 같은 게 더 어색한 것처럼 — 당연한 거라 생각한 게 알고 보면 제일 복잡한 거야.

"Reporting Bias(리포팅 편향)"가 뭐야?

  • 전문가 설명: 글이나 기록에는 특이하고 주목할 만한 정보만 남고, 당연한 것들은 기록되지 않는 현상.
  • 한나 버전: 한나가 여행 브이로그 찍을 때 멋진 뷰는 다 찍는데, 숙소 벽 색깔이나 수건 위치는 안 찍잖아. LLM은 그 찍힌 것들만 배워서 당연한 상식을 모르는 거야. "코끼리는 냉장고에 안 들어가"는 당연해서 아무도 안 썼으니까.

🔥 노정석 어록 모음

"LLM 열차에 탑승하지 못한 인재들은 가볼 만하다."

분위기: 영상 마무리에서 진심으로 확신하며, 조언하듯 담담하게.

한나 풀이: GPT·Claude 같은 LLM은 이미 빅테크들이 판을 다 짜놔서 개인이 뛰어들기엔 늦었어. 근데 Physical AI는 아직 초기야. 박종현이 "50만 원짜리 로봇 사서 이틀 만에 VLA 학습까지 해봤다"고 할 정도로, 지금 진입하면 선구자가 될 수 있는 타이밍이라는 거야.


"되겠네라기보다는 아주 잘 되고 있네."

분위기: 최승준이 "되겠네"라고 조심스럽게 말하자, 노정석이 살짝 웃으면서 교정해줌. 기분 좋게 단호한 톤.

한나 풀이: Physical AI가 "언젠가 될 것"이 아니라 "지금 이미 되고 있다"는 거야. GPT-2에서 GPT-3로 넘어가던 그 시점과 비슷한 상황이라는 게 두 사람 공통 인식. 이 발언이 나온 맥락이 중요한데 — "우리가 이걸 봐도 되는 건가?"가 아니라 "우리가 이걸 지금 해야 하는 건가?"로 질문이 바뀌는 순간이야.


"사실은 종현님이 말씀하신 이 original dataset의 coverage 문제랑도 또 정확하게 align된 문제로 들리네요."

분위기: 박종현 얘기 듣다가 점들이 이어지는 순간, 노정석이 흥분 반 감탄 반으로.

한나 풀이: Tesla가 FSD(자율주행) 발전시킬 때 '처음엔 고속도로만 → 시내 → 시골'로 커버리지를 늘린 전략이, 로봇 데이터 수집 전략이랑 완전히 같다는 거야. 새 분야 뛰어들 때 이 패턴 알고 있으면 어디서 기회 보면 될지 눈에 들어와.


🎬 한나 적용 포인트

2) "4분 데모는 텔레오퍼레이션"— AI 뉴스 판별안 키우기 로봇·AI 회사 홍보 영상 볼 때 쓸 수 있는 프레임이야. "이 영상이 몇 분짜리야? 완전 자율이라고 명시돼 있어?" 이 두 가지만 확인해도 뻥카 걸러낼 수 있어. 한나가 AI 트렌드 콘텐츠 만들 때 이 기준으로 영상 리뷰하면 신뢰도가 올라가. "저 로봇 영상 사실은 이래요"류 팩트체크 콘텐츠도 나올 수 있어.

3) 1X NEO 전략 — 한나 굿즈 비즈니스에 적용 로봇이 아직 완벽하지 않아도 파는 거, 부족한 건 사람이 채워주는 거 — 이거 사실 한나가 이미 하고 있는 방식이잖아. 신규 서비스나 구독 채널 시작할 때 "완성되고 런칭"이 아니라 "일단 팔고 내가 직접 채워주면서 데이터(=고객 피드백) 쌓기"로 가는 전략이야. Tesla처럼. 1X처럼.

4) "커뮤니티가 이길 수 있다" — 팬덤이 곧 경쟁력 박종현이 HuggingFace 전략을 제일 좋아하는 이유: 커뮤니티가 다 같이 데이터 올리면 어떤 대기업도 못 이긴다는 거야. 한나 입장에서 보면 이건 팬덤 활용법이야. 팬들이 콘텐츠 기여하고, UGC(유저 생성 콘텐츠) 올리고, 공동 프로젝트 하는 구조 — 그게 알고 보면 이 시대 가장 강한 전략이라는 거. 혼자 다 만들지 말고, 참여시켜.

🏷️ 태그