EP 69. 지금, AI 최전선의 방향—프런티어의 바깥에서 프런티어를 이야기하기

🗺️ 이 영상의 위치

시간순: 전체 115편 중 88번째 · 2025-09-27
시기 배경: 2025하 (AI 추론·에이전트 폭발기 / GPT-5·Claude Code 경쟁 격화 시점)
난이도: ⭐⭐⭐⭐ (어려운 개념 10개)
⬅️ 앞 영상: EP 68. 궁극의 인공지능 상상하기: 인간 격차를 얇게 만드는
➡️ 다음 영상: EP 70. 100x 엔지니어의 Claude Code 활용법
- 연결 이유: 이번 화가 "AI 최전선 기술 방향"을 이론으로 짚었다면, 다음 화는 그 최전선 도구인 Claude Code를 실제로 100배 써먹는 법을 보여줌

⚡ 5분 요약

한 줄

AI 최전선이 지금 어디로 가는지 — 추론·에이전트·강화학습이 전부고, 1~2년 안에 안개가 너무 짙어서 아무도 그 너머를 못 본다.

핵심 3개

1) 지금 빅테크가 올인하는 건 "추론 + 에이전트" 딱 두 개야 멀티모달(이미지·영상)이 중요하다고 다들 말하지만, Anthropic·DeepSeek·Moonshot AI 같은 데는 그거 내려놓고 추론과 에이전트에 집중 중이야. 텍스트 데이터가 이미지보다 압도적으로 "지능에 가까운" 데이터라는 게 내부 컨센서스거든.

2) AI 학습의 핵심이 "데이터 모으기"에서 "평가 환경 만들기"로 바뀌었어 예전엔 문제가 고정돼 있고 방법을 찾았다면, 이제는 방법(강화학습)을 찾았으니 평가할 환경을 만드는 게 일이야. 수학 올림피아드 수상자나 PhD를 시간당 100달러에 고용해서 AI 훈련용 퀴즈 환경을 짜는 게 지금 빅테크의 실제 작업이야.

3) 1~2년 뒤는 진짜 안개 속이야 — 힌튼이 말한 "The Fog of Progress" 30년 전엔 30년 후가 안 보였는데, 지금은 3~~6개월 후만 보이고 1~~2년이 안개야. 자율 학습·장기 기억·멀티 에이전트 문제가 풀리면 지금 열심히 만들고 있는 것들이 한순간에 의미 없어질 수도 있어.

가장 인상적인 한 마디

"인간은 KPI만을 위해서 일을 하진 않죠. 지금 모델은 약간 KPI만 가지고 살도록 학습을 시키고 있다면, 그것보다는 더 나은 다른 보상은 있지 않을까."

한나야, 이게 무슨 말이냐면 — 지금 AI는 "조회수"만 보고 움직이도록 훈련받았는데, 사람은 그것 말고도 호기심·뿌듯함·습관으로 움직이잖아. 그 "KPI 외의 보상"을 AI한테도 줄 수 있어야 진짜 자율 학습이 된다는 거야.

한나가 지금 당장 시도해볼 것

지금 네 콘텐츠 분야에서 "AI에게 시킬 수 있는 일"을 딱 하나 골라서, 그 일의 **성공 기준(루브릭)**을 문장으로 써봐. 예: "인스타 캡션이 좋으려면 — ①첫 줄에 질문이 있고 ②이모지 3개 이하 ③브랜드 톤 유지." 이게 네가 AI 강화학습 환경을 설계하는 감각을 직접 익히는 첫 걸음이야.

📖 시간대별 영상 흐름 (15분 정도 걸려, 시간 있을 때만)

0~15분: 새 호스트 김성현 등장 — "나는 프런티어 밖에 있지만, 방향은 말할 수 있어"

노정석이 반갑게 소개한다. 네이버 HyperCLOVA(네이버 자체 AI 모델)에서 일하는 AI 엔지니어 김성현. 최승준은 "요즘 새 모델 나오면 기술 보고서 읽기 전에 성현 님 페이스북부터 본다"며 찐팬 인증을 한다. 분위기는 스터디 모임에 진짜 고수가 와준 느낌.

김성현이 조심스럽게 시작한다. "프런티어(최전선) 얘기는 프런티어에 있는 사람이 해야 맞는데, 걔네들은 말 안 해요." 그러면서 작년의 Q* 소동을 꺼낸다. 다들 'Q-러닝이니 A* 알고리즘이니' 추측했지만 거의 다 틀렸고, 결국 맞은 건 "search 말고 RL(강화학습) 해"라고 했던 Denny Zhou 같은 프런티어 인사들뿐이었다는 거야. 그래도 추측 자체가 의미 없진 않았어 — 방향이 맞으면 방법은 나중에 찾으니까. 결국 DeepSeek R1이 그 방향의 결실이었지.

15~35분: "전반전은 끝났다" — 방법의 시대에서 평가의 시대로

김성현이 핵심 주장을 꺼낸다. OpenAI 연구자 Yao Shunyu가 쓴 "The Second Half(후반전)" 개념 — 전반전은 문제가 고정되고 방법을 찾는 시대였어. 이미지 분류, 텍스트 감정 분석 같은 거. 근데 이제 방법(강화학습)은 찾았으니 후반전은 평가를 만드는 시대라는 거야.

최승준이 "Goodhart's Law(구드하트의 법칙)가 걱정된다"고 끼어든다. 지표를 목표로 삼으면 지표만 올리게 된다는 경제학 개념이야 — 인스타 팔로워 수만 KPI로 삼으면 팔로워 수만 늘고 진짜 팬은 안 생기는 것처럼. 김성현도 "영원한 문제"라고 인정하면서도, 강화학습이 가능해진 이상 평가 설계가 곧 학습을 결정한다는 관점이 지금 OpenAI 내부 컨센서스에 가깝다고 말한다.

hallucination(AI가 사실을 지어내는 현상) 이야기도 나온다. OpenAI가 최근 논문에서 이걸 "평가의 인센티브 문제"로 봤다는 거야. '모른다'고 하는 것보다 찍어서라도 답 내는 게 점수에 유리하니까 AI가 거짓말을 배웠다는 거지.

35~55분: 환경 스케일링 — 지금 빅테크가 실제로 하는 일

"환경 스케일링"이라는 말이 나온다. RL(강화학습)을 시키려면 세 가지가 필요해: ①지시(어떤 웹앱 만들어줘), ②환경(실제로 코딩할 수 있는 공간), ③보상(unit test 통과하면 점수). 이 세 묶음을 최대한 많이 만드는 게 환경 스케일링이야.

노정석이 탁 정리한다. "이것만 한다고 봐야죠." 빅테크들이 지금 하는 일의 핵심이라는 거야. xAI(일론 머스크 회사)가 "STEM tutor"라는 직종으로 수학 올림피아드 수상자, 이공계 박사들을 시간당 최대 100달러에 고용하는 것도 이 때문이야. AI 훈련용 문제 환경을 만드는 데 그 사람들이 필요한 거지.

그런데 문제가 있어 — 너무 비싸고, 만들기 어렵다는 거야. 그래서 요즘은 모델이 환경을 스스로 만들게 하는 "합성 환경" 연구도 한창이야. Kimi K2(중국 Moonshot AI 모델), Alibaba 논문 등에서 비슷한 시도가 나오고 있어.

ICPC(국제 대학생 프로그래밍 대회) 이야기도 나온다. 인간 최강 팀이 11문제를 풀 때, AI(GPT-5 + IMO급 모델 조합)가 12문제를 다 풀었다는 거야. 가장 어려운 문제는 240분을 붙잡고 있었어. 최승준이 "약간 섬뜩하다"고 했고, 그 말이 딱 맞는 분위기였어.

55~70분: 앞으로 풀어야 할 6가지 — 자율 학습·장기 기억·멀티 에이전트

김성현이 중국 팟캐스트에서 가져온 6가지 전망을 공유한다. 중국 StepFun의 Zhang Xiangyu와 OpenAI 출신 Yao Shunyu — 두 진영이 놀랍도록 비슷한 문제를 고민하고 있다는 게 포인트야.

자율 학습: 지금은 사람이 환경을 다 설계해서 줘야 해. 근데 사람은 스스로 실험해보고 환경을 만들잖아. AI도 그럴 수 있어야 하지 않을까? 내적 보상(내가 이게 좋다는 걸 스스로 느끼는 것)이 없으면 페르마의 마지막 정리처럼 수십 년짜리 문제는 절대 못 풀어.

장기 기억(메모리): 진짜 에이전트가 되려면 기억이 필요해. 가중치를 업데이트해야 하는지, 컨텍스트(대화창)에 넣으면 되는지는 아직 모름. 컨텍스트가 10억 토큰짜리가 된다면 그걸로 풀릴 수도 있어.

멀티 에이전트: Noam Brown이 OpenAI 멀티 에이전트 팀에 있는데 아무 말도 안 해. "기존 멀티 에이전트 접근과 우리 건 완전히 다르다"는 말만 남기고. Anthropic이 웹 검색 에이전트를 만들면서 "리드 에이전트 + 요약 에이전트 + 메모리 에이전트" 구조를 사용한다는 건 알려졌어. 여기서 중요한 건 이 시스템 전체를 강화학습으로 학습시킬 수 있다는 거야. 에이전트들이 서로 더 잘 협력하는 법을 스스로 배우게 되는 거지.

노정석이 웃으면서 "에이, 모르겠다. 이놈들아, 다 해 먹어라" 하고 툭 던진다.

7076분: "The Fog of Progress" — 안개는 12년 앞에 이미 깔려 있어

힌튼이 강의에서 한 말 — 안개 속 고속도로에서 앞차 후미등이 가까울 때는 보이지만, 거리가 멀어질수록 기하급수적으로 어두워진다. 기술 발전의 불확실성도 이와 같다는 거야.

근데 김성현이 힌튼과 다른 점을 짚는다. 힌튼은 "5~~10년은 보이고 30년은 안 보인다"고 했는데, 지금은 **3~~6개월은 보이고 1~2년이 안 보인다**는 거야. 안개의 규모가 이미 몇 년이 아니라 몇 달 단위로 줄었어.

Zhang Xiangyu는 "지금 얘기한 문제들, 1~3년 안에 풀릴 것 같다"고 했다는 것도 공유해. 노정석이 "그럼 지금 열심히 만드는 게 다 의미 없어지는 거 아니냐"는 말을 꺼내고, 그러면서도 "오늘 내가 사과나무 한 그루를 심는 건 여전히 옳은 자세"라는 결론을 낸다.

마무리는 훈훈해. 노정석·최승준이 "성현 님 포스트는 그냥 뉴스 조합이 아니라 씹어 먹고 내놓는 생각"이라고 진심으로 칭찬하고, 김성현은 "우려했는데 의견 공유는 즐겁다"고 답한다.

💡 한나 버전 사전

"프런티어 랩(Frontier Lab)"이 뭐야?

전문가 설명: AI 기술의 최전선을 달리는 최상위 연구·개발 조직. OpenAI, Anthropic, Google DeepMind, DeepSeek 등.
한나 버전: 유튜브로 치면 구독자 1000만 이상에 트렌드를 직접 만드는 메가 크리에이터 그룹이야. 나머지는 그 사람들 따라가는 거고.

"강화학습(Reinforcement Learning, RL)"이 뭐야?

전문가 설명: AI가 행동을 반복하면서 보상 신호를 받아 스스로 개선해 나가는 학습 방법.
한나 버전: 쇼츠 올릴 때마다 조회수 피드백 받으면서 "이 편집 방식이 먹히네" 하고 다음에 더 잘하는 것과 똑같아. AI가 정답 맞히면 점수 받고, 틀리면 점수 잃으면서 스스로 나아지는 거야.

"환경 스케일링(Environment Scaling)"이 뭐야?

전문가 설명: AI를 강화학습 시키기 위한 훈련 환경(문제 세트 + 수행 공간 + 평가 기준)을 대규모로 늘리는 작업.
한나 버전: 브랜드 협업 제안서를 AI한테 잘 쓰게 하려면 — "이런 조건이면 이런 제안서가 좋다"는 예시 상황을 수천 개 만들어줘야 해. 그 예시 세트 만드는 게 환경 스케일링이야.

"루브릭(Rubric)"이 뭐야?

전문가 설명: AI 응답의 좋고 나쁨을 판단하는 세부 평가 항목 목록. 보상 신호를 만드는 데 사용.
한나 버전: 영상 퀄리티 체크리스트랑 같아. "썸네일에 얼굴 있는지, 자막 있는지, 첫 3초에 훅 있는지" 같은 항목들. AI 훈련에선 이걸 자동으로 점수 매기는 데 써.

"멀티 에이전트(Multi-Agent)"가 뭐야?

전문가 설명: 여러 AI 모델이 서로 다른 역할을 맡아 협력·통신하면서 복잡한 작업을 수행하는 시스템.
한나 버전: 한나 혼자 기획·촬영·편집 다 하는 게 싱글 에이전트라면, 기획팀·편집팀·자막팀이 따로 있고 한나가 총괄하는 게 멀티 에이전트야. 각 팀이 AI고, 총괄도 AI인 버전.

"verifiable(검증 가능)"이 뭐야?

전문가 설명: AI의 답이 맞는지 틀린지를 사람 없이 알고리즘으로 확인할 수 있는 성질.
한나 버전: 댓글 감정 분석(긍정/부정) 결과는 검증 쉬워. 근데 "이 캡션이 감성 있냐?"는 검증하기 어렵잖아. 전자가 verifiable, 후자가 non-verifiable.

"long context(롱 컨텍스트)"가 뭐야?

전문가 설명: AI가 한 번에 참조할 수 있는 텍스트의 길이. 길면 길수록 더 긴 문서나 대화 내용을 기억하며 처리할 수 있음.
한나 버전: 숏폼 AI가 20초짜리 영상 스크립트만 기억한다면, 롱 컨텍스트 AI는 네 유튜브 영상 100편을 한번에 읽고 답해줄 수 있는 거야.

"The Fog of Progress(진보의 안개)"가 뭐야?

전문가 설명: 힌튼이 사용한 표현. 기술 발전 속도가 너무 빨라서 가까운 미래는 보이지만 멀어질수록 예측이 불가능해지는 상태.
한나 버전: 알고리즘 변화 예측이랑 같아. 다음 주 어떤 포맷이 먹힐지는 어느 정도 감 오는데, 6개월 뒤 플랫폼 생태계가 어떻게 바뀔지는 아무도 몰라. 지금 AI 세계는 그 안개가 1~2년 앞에 이미 깔려 있어.

"할루시네이션(Hallucination)"이 뭐야?

전문가 설명: AI가 사실이 아닌 정보를 마치 사실인 것처럼 생성하는 현상.
한나 버전: 협찬 정보를 잘못 기억해서 브랜드명 틀리게 말하는 거랑 같아. AI도 데이터에 한 번만 나온 정보는 "아마 이거겠지?" 하고 지어내버려.

"온라인 학습(Online Learning) / 지속적 학습(Continual Learning)"이 뭐야?

전문가 설명: AI가 배포된 후에도 새 경험을 계속 학습하며 발전하는 방식. 기존 지식을 잃지 않으면서 새 것을 더하는 게 핵심 과제.
한나 버전: 지금 AI는 출시 전에 공부 다 끝내고 나오는 수험생이야. 온라인 학습은 현장에서 일하면서 매일 배우는 신입사원 같은 거 — 회사 맥락을 스스로 습득하면서 점점 더 잘하는 에이전트가 되는 거지.

🔥 노정석 어록 모음

"에이, 모르겠다. 이놈들아, 다 해 먹어라."

분위기: 멀티 에이전트 시스템이 서로 학습까지 한다는 설명을 들으면서 반쯤 포기한 듯 터뜨린 한마디. 웃음 섞인 좌절감이었어.

한나 풀이: 이게 농담처럼 들리지만 사실 아주 정직한 반응이야. 기술 속도가 인간이 따라잡기엔 너무 빨라지고 있다는 걸 업계 베테랑도 느끼고 있다는 거거든. "다 해 먹어라"는 말 뒤에 "그럼 나는 뭘 해야 하지"라는 질문이 붙어 있어.

"강화학습은 엄밀하게 얘기하면 저는 라벨 생성기라고 항상 생각하거든요. 우리가 가지고 있지 않은 데이터셋을 가보지 않은 도메인들을 돌아다니면서 얘가 explore하고, 일을 받으면 그걸 데이터셋으로 탁 만들어서 결국은 모든 것들을 다 supervised learning으로 전부 바꿔주고 있는 기계라고 보는 거고."

분위기: 기술 개념을 자기만의 언어로 정리해온 게 느껴지는, 확신에 찬 톤. 복잡한 걸 심플하게 꿰뚫을 때 노정석 특유의 서늘한 자신감이 나와.

한나 풀이: AI가 스스로 훈련 데이터를 만들어가는 기계라는 거야. 마치 인스타 알고리즘이 "이 콘텐츠 반응 좋네" 하고 자동으로 배우는 것처럼 — AI가 새 영역에서 직접 뛰면서 "이게 맞다/틀리다"를 기록해 다음 학습 재료로 써. 데이터가 없던 분야도 결국 뚫린다는 무서운 얘기야.

"그런 쪽에 있는 문제들로 사업이라든지 인간의 관심 분야 등을 옮기는 것만이 기회가 남아 있는 거 아닌가. 나머지 부분들 — '이런 거 하면 쿨해 보이겠네,' '이런 거 만들어야지, 이런 제품 좋아.' 불과 1년 전까지만 해도 working하던 그런 영역들은 저는 솔직히 다 위험하다고는 생각하고 있습니다."

분위기: 프로그램 마무리 직전 갑자기 진지해지는 노정석. 웃음기 없이, 시청자 직접 보고 말하는 느낌으로.

한나 풀이: "AI로 이런 거 만들면 멋있겠다"는 감각으로 사업하면 위험하다는 경고야. AI가 빠르게 그 자리를 대체하니까. 반면 인간의 욕망(게으름·탐욕·소유욕)이나 느리게 바뀌는 제도·문화 영역은 AI가 단기간에 못 건드려. 한나의 사업도 "AI가 못 건드리는 인간적인 것" — 팬과의 관계, 라이프스타일 공감, 커뮤니티 — 에 더 집중해야 한다는 얘기로 읽혀.

🎬 한나 적용 포인트

① 내 콘텐츠 도메인에 "AI 훈련 환경"이 있다면 나한테 유리해 지금 빅테크가 "코딩 환경"을 많이 만들어서 코딩 AI가 폭발했잖아. 반대로 "인스타 캡션 최적화 환경" 같은 건 아직 아무도 제대로 안 만들었어. 네가 크리에이터로서 "좋은 캡션의 기준" 100개를 정의하고, 그걸 AI 학습 데이터로 팔거나 서비스화하는 건 충분히 가능한 틈새야.

② "단기 예측 가능 구간"을 써먹어 — 3~6개월 계획만 잡아 김성현 말대로 3~6개월은 어느 정도 보여. AI 에이전트 트렌드가 코딩에서 사무·콘텐츠로 넘어오는 타이밍을 캐치해서 지금 당장 "AI 활용 크리에이터" 포지셔닝을 잡아둬. 1년 넘어가면 뭐가 될지 아무도 모르니까, 6개월 단위로 빠르게 피봇할 준비를 해두는 게 맞아.

③ "멀티 에이전트 팀장"처럼 생각해 Word 만드는 에이전트, Excel 만드는 에이전트가 따로 있고 그걸 총괄하는 에이전트가 있다는 개념 — 한나한테도 적용돼. 리서치 AI, 캡션 AI, 답글 AI, 일정 AI를 따로 쓰면서 한나는 총괄 디렉터 역할만 해. 각 AI한테 루브릭(좋은 결과의 기준)을 명확히 줄 수 있는 사람이 가장 효율적인 AI 팀장이 되는 거야.

🏷️ 태그

시기: #2025하
주제: #AI기술전망 #추론에이전트 #강화학습 #환경스케일링
인물: #힌튼 #노암브라운 #DeepSeek
자유: #프런티어안개 #환경스케일링 #자율학습