EP 73. 씁쓸한 교훈 The Bitter Lesson

🗺️ 이 영상의 위치

시간순: 전체 115편 중 92번째 · 2025-10-26
시기 배경: 2025하 (AI 추론 모델 전성기 / LLM+RL 결합이 산업 표준이 된 시점)
난이도: ⭐⭐⭐⭐ (어려운 개념 10개)
⬅️ 앞 영상: EP 72. AI & 인터페이스
➡️ 다음 영상: EP 74. 비즈니스 관점에서 오늘의 AI : 도망자 연합 발족 선언
- 연결 이유: 이 영상에서 "도망자 연합" 같은 움직임이 필요하다는 뉘앙스가 나왔고, 다음 영상에서 그게 실제 선언으로 이어짐

⚡ 5분 요약

한 줄

AI 역사의 전설 Sutton이 "LLM, 내가 말한 거 다 오해했어"라고 폭탄 발언을 터뜨렸고, 그게 진짜 맞는 말인지 틀린 말인지 세 명이 1시간 반 동안 치열하게 뜯어봤어.

핵심 3개

1) Sutton의 폭탄선언 — "The Bitter Lesson을 너네가 다 오해했다" AI 연구의 70년 역사를 되돌아보면 "사람의 지식을 주입하는 것"보다 "연산을 늘리는 것"이 항상 이겼어. 이게 Bitter Lesson인데, LLM 업계가 이걸 자기네 편인 줄 알고 인용해왔거든. 근데 Sutton 본인이 나타나서 "그게 아니야, 인터넷 데이터도 결국 인간 지식을 주입하는 거라 내가 비판한 것"이라고 해버린 거야. AI 업계 전체가 멘붕.

2) RLVR — 왜 갑자기 AI가 수학을 잘 풀게 됐냐 기존엔 모델이 틀린 답을 내놔도 리뷰어를 속이면 보상을 받을 수 있었어(리워드 해킹). RLVR은 "정답만 정답으로 인정"하는 방식이라 이 해킹이 막혀. 거기다 모델이 스스로 자유롭게 추론하게 냅두니까, 프리트레이닝 때 묻혀있던 진짜 실력이 갑자기 드러나는 현상이 생긴 거야. 이게 지금 AI 추론 폭발의 핵심 이유야.

3) OOD 문제 — AI가 아직 못 넘는 진짜 벽 모델은 본 적 없는 영역(Out-of-Domain)에서 여전히 무너져. 카파시도 자기가 만든 특이한 코드베이스에 에이전트를 써봤더니 다 망가지더라고 했을 정도야. 이게 AGI로 가는 길에서 가장 큰 미해결 문제고, 이걸 풀려면 모델이 "항상 학습하는 것" 자체가 에이전트의 일부가 돼야 한다는 게 김성현의 결론이야.

가장 인상적인 한 마디

"만약 저명한 노과학자가 무언가가 불가능하다고 말한다면, 그건 높은 확률로 틀렸다."

한나야, 이게 무슨 말이냐면 — Sutton이 "LLM으로는 진짜 AI 못 만들어"라고 했는데, 클라크의 법칙에 따르면 그런 말이야말로 오히려 "될 수도 있다"는 신호일 수 있다는 거야.

한나가 지금 당장 시도해볼 것

Sutton 인터뷰 원본(Dwarkesh Podcast)을 30분만 들어봐. 전부 이해 못 해도 돼. "이게 왜 이렇게 논란인가"를 분위기로 느끼는 것만으로도 다음 AI 뉴스가 훨씬 맥락 있게 들려. 유튜브에 "Sutton Dwarkesh" 검색하면 바로 나와.

🏷️ 태그

시기: #2025하
주제: #강화학습 #AI철학 #추론모델 #AGI논쟁
인물: #서튼 #카파시
자유: #BitterLesson #RLVR #OOD문제