EP 75. (수학 공식 없는) 강화 학습 이야기

🗺️ 이 영상의 위치

시간순: 전체 115편 중 94번째 · 2025-11-09
시기 배경: 2025하 (AI 추론 모델 경쟁 격화 / 포스트 트레이닝이 승부처가 된 시대)
난이도: ⭐⭐⭐⭐ (어려운 개념 10개)
⬅️ 앞 영상: EP 74. 비즈니스 관점에서 오늘의 AI : 도망자 연합 발족 선언
➡️ 다음 영상: EP 76. 교육과 AI: 한미유치원 설립자 최승준의 생각과 실천
- 연결 이유: RL과 학습 이론을 깊게 다룬 직후, 최승준이 교육 현장에서 같은 원리를 어떻게 적용하는지로 자연스럽게 연결

⚡ 5분 요약

한 줄

AI가 "그냥 외우는 것"에서 "진짜 생각하는 것"으로 넘어가는 원리 — 그게 바로 강화 학습(RL)이야.

핵심 3개

1) 왜 AI는 원래 "생각 없이 답"부터 했나 인터넷에 있는 데이터 대부분이 "질문-정답" 형태야. 풀이 과정이 없어. 그러니까 AI도 그냥 즉답하는 버릇이 생긴 거야. 마치 댓글창에서 아무도 근거 없이 "그냥 파리임ㅇㅇ" 하는 것처럼. 그게 할루시네이션의 근원이야.

2) 강화 학습이 "생각하는 AI"를 꺼낸 방법 생각하고 답하는 패턴은 원래 AI 안에 아주 낮은 확률로 숨어 있었어. RL은 그 낮은 확률의 패턴이 정답을 더 많이 맞힌다는 걸 발견하고, 그 패턴에 보상을 줘서 기하급수적으로 끌어올린 거야. 억누르던 걸 꺼낸 게 아니라, 잘하는 패턴에 계속 "이거 잘했어!" 해준 것.

3) 핵심은 "자기 능력으로 직접 해봐야" 한다 다른 사람(전문가)이 푼 걸 그냥 따라 하면(off-policy) AI가 못 가는 길을 계속 보여주는 꼴이야. AI가 직접 자기 방식으로 도전하고(on-policy), 맞으면 보상, 틀리면 패스 — 이 구조여야 진짜 일반화가 일어나.

가장 인상적인 한 마디

"우리네 인생 자체가 on-policy RL이죠."

한나야, 이게 무슨 말이냐면 — 우리도 남 따라 한다고 다 되는 게 아니잖아. 내가 직접 부딪혀보고 잘됐을 때 "이게 나한테 맞는 방법이네" 하고 굳히는 게 진짜 성장이라는 거야. AI도 똑같이 그렇게 배운다는 뜻이야.

한나가 지금 당장 시도해볼 것

ChatGPT나 Claude한테 질문할 때 "바로 답 말고, 단계별로 생각하면서 답해줘"라고 붙여봐. 이 영상에서 배운 CoT가 실제로 켜지거든. 답의 품질이 달라지는 걸 바로 느낄 수 있어.

📖 시간대별 영상 흐름 (15분 정도 걸려, 시간 있을 때만)

0~10분: 중국 AI가 또 치고 올라왔다 — Kimi K2 등장

노정석이 "오늘 녹화는 11월 8일 토요일 아침"이라고 시작하면서, 어제 중국 Moonshot AI에서 Kimi K2 Thinking이라는 모델을 냈는데 GPT-5, Claude Sonnet 4.5 Thinking이랑 비교해서 안 밀린다고 해서 화제라고 소개해.

김성현이 바로 이어받아서 포인트를 짚어줘. 요즘 AI 모델이 빨리 나오는 이유가 프리트레이닝(처음부터 대규모로 학습)이 아니라 포스트 트레이닝(이미 만든 모델을 다듬는 과정)이 중심이 됐기 때문이래. 포스트 트레이닝은 레시피 개량만 하면 되니까 주기가 훨씬 빨라진다는 거야.

그리고 Kimi K2가 코딩·수학만 강조하는 게 아니라 창의적 글쓰기도 같이 챙긴다는 게 흥미롭다고 해. 노정석이 "Anthropic은 실용·B2B에, OpenAI·Kimi는 범용 지능에 방점을 두는 것 같다"고 정리해.

10~25분: 강화 학습이 뭔데? — AlphaGo부터 LLM까지

김성현이 강화 학습 소개를 시작해. 자기 또래 엔지니어들은 AlphaGo로 딥러닝을 시작해서 RL에 애정이 깊은데, 자기는 "골치 아픈 걸 왜 굳이 해?" 하고 피하다가 LLM 시대가 되면서 어쩔 수 없이 하게 됐다고 솔직하게 털어놔. 좀 귀여운 고백이야.

강화 학습 설명은 간단해. 에이전트가 환경 속에서 행동하고, 보상이 들어오면 그 행동들의 확률을 높이는 것. 그런데 문제가 있어 — 좋은 결과가 나왔을 때 그게 어떤 행동 덕분이었는지 알기가 어렵다는 거야(Credit Assignment Problem). 노정석이 "도박할 때 사람들이 패턴 없는 데서 패턴 찾는 것처럼"이라고 자연스럽게 연결해줌.

그다음엔 RLHF(인간 피드백 강화 학습) 설명이야. AI가 응답 두 개를 만들면, 사람이 어느 게 더 좋은지 골라주고, 그 기준으로 보상 모델을 만들어서 AI가 사람이 좋아하는 응답을 더 잘 내도록 학습시키는 것. 최승준이 "그게 비지도 학습 아니야?" 하고 헷갈려하고, 노정석이 중간에서 정리해줘.

25~40분: 왜 AI는 할루시네이션을 일으키나 — SFT와 off-policy의 함정

김성현이 핵심 문제를 꺼내. AI한테 전문가가 써준 정답(SFT 방식)으로 학습시키면 어떤 일이 생기냐고.

모델이 아는 질문이면 괜찮아. "프랑스 수도는 파리" → 아는 거 말하는 법을 배우는 것. 그런데 모르는 질문이면? 정답은 억지로 쓰여 있고, 모델은 모른 채 학습을 하면 "몰라도 일단 뭔가 답하는 패턴"을 배워버린다는 거야. 그게 할루시네이션의 씨앗이야.

여기서 on-policy / off-policy 개념이 나와. 운전을 배우는 AI에게 인간이 운전한 데이터를 줬는데, 그 인간이 갈 수 있는 경로를 AI는 못 간다면? AI는 현실에 나갔을 때 자기가 한 번도 본 적 없는 상황에 놓이게 돼. 이게 off-policy의 함정이야. 최승준이 잠깐 멍하게 있다가 고개 끄덕이는 구간이야.

40~52분: 왜 "생각하면서 답하면" 더 잘 맞히나 — 오버피팅과 일반화

김성현이 오버피팅 이야기를 풀어. 흔히 "모델이 너무 크면 오버피팅"이라고 하는데, 사실 핵심은 "모델이 풀 수 있는 문제를 줬냐"야. 너무 작은 사진은 사과인지 모른다 — 정보 자체가 없으면 아무리 단순해도 못 풀어. 반대로, 2차 방정식을 한 번에 풀 수 없는 모델은 답 자체를 외워버려. 그게 오버피팅이야.

단계별로 쪼개면? "근의 공식 가져오기 → 숫자 넣기 → 계산하기" 이렇게 나누면 각 단계가 모델이 풀 수 있는 난이도가 돼. 그러면 모델이 알고리즘을 배울 수 있고, 일반화가 일어나.

그리고 인터넷 데이터 문제. 수학 포럼에서 Cleo라는 유저가 아무 풀이 없이 적분 정답을 뚝 내놓은 사례를 보여줘. 인터넷에 이런 "질문-즉답" 패턴이 넘쳐나서, AI가 그걸 배운 거야. 그나마 희망적인 건 어떤 포럼에서 여러 사람이 주거니 받거니 하며 문제를 같이 풀어나가는 데이터가 드물지만 존재한다는 거야 — 바로 그게 추론하는 AI를 만든 씨앗이 됐대.

52~64분: DeepSeek R1이 왜 통했나, 그리고 우리 인생도 on-policy다

김성현이 빌드업을 마무리해. AI가 추론하지 않고 즉답하는 확률이 훨씬 높지만, 추론했을 때 정답일 확률이 더 높다는 비대칭 구조가 있어. RL은 정답에 보상을 주니까, 낮은 확률로 등장하는 "추론 패턴"이 보상을 기하급수적으로 받게 돼. 1이 2가 되고, 2가 4가 되고, 4가 8이 되고 — 엄청 빠르게 주류가 되는 거야. 최승준이 "CoT가 강화된다는 거죠?" 하고 확인하고, 노정석이 "compute가 많아질수록 된다는 말로 요약 가능하죠?" 하고 쐐기를 박아.

DeepSeek R1은 단순했어. "생각은 <think> 안에, 답은 <answer> 안에 써라" — 그것만 시키고, <think> 안에 뭘 쓰는지는 AI 마음대로. 그랬더니 추론이 저절로 생겼어. 최승준이 "Anthropic도 비슷한 <anth_think> 태그를 일찍부터 쓰고 있었다"고 끼어들어.

마지막에 노정석이 "우리 인생도 on-policy RL 아닌가요?" 하고 터트리는데, 이게 이 영상의 클라이맥스야. 보상 함수는 돈, 명예 같은 외부 것도 있지만, 스스로 상위 가치로 보상 함수를 짜는 사람이 위대하다고. 최승준이 "다음 주 교육 편이랑 연결할 말이 너무 많다"면서 참는 얼굴이야.

💡 한나 버전 사전

"강화 학습(RL, Reinforcement Learning)"이 뭐야?

전문가 설명: 에이전트가 환경 속에서 행동하고, 보상을 최대화하도록 스스로 학습하는 방법.
한나 버전: 유튜브 알고리즘이 "이 콘텐츠 올렸더니 조회수 터졌다 → 이런 포맷 더 올려라" 하고 너한테 신호를 주는 것처럼, AI도 "이렇게 했더니 정답 → 이 패턴 더 쓰자"를 스스로 배우는 거야.

"포스트 트레이닝(Post-training)"이 뭐야?

전문가 설명: 대규모 사전학습이 끝난 모델을 RLHF·SFT 등으로 다듬는 후처리 학습 단계.
한나 버전: 영상 원본 촬영(프리트레이닝)은 끝났고, 이제 편집·자막·썸네일 작업(포스트 트레이닝)으로 퀄리티 올리는 단계야. 편집 레시피 좋으면 같은 원본으로도 훨씬 잘 나와.

"SFT(Supervised Fine-Tuning)"가 뭐야?

전문가 설명: 전문가가 직접 정답을 써준 데이터로 AI를 지도학습 방식으로 미세 조정하는 것.
한나 버전: 브랜드 담당자가 "이런 말투로 써" 하고 예시 스크립트 잔뜩 줘서 AI 작가를 훈련시키는 것. 근데 예시에 없는 상황은 AI가 아무 말이나 지어낼 수 있어.

"RLHF(Reinforcement Learning from Human Feedback)"이 뭐야?

전문가 설명: 사람이 AI 응답 두 개 중 좋은 걸 고르고, 그 선호를 기반으로 보상 모델을 만들어 RL에 쓰는 방법.
한나 버전: 팔로워한테 A/B 테스트 해서 "어떤 게 더 좋아?" 물어보고, 그 반응을 기준으로 앞으로 콘텐츠 방향을 정하는 것.

"on-policy / off-policy"가 뭐야?

전문가 설명: 학습하는 AI와 행동하는 AI가 같으면(on-policy), 다르면(off-policy).
한나 버전: on-policy는 "내가 직접 릴스 올려보고 반응 보고 내가 배우는 것". off-policy는 "선배 크리에이터 영상 보고 배우는 것". 선배 방식이 내 채널에 안 맞을 수 있으니까 직접 해봐야 진짜 내 것이 돼.

"CoT(Chain of Thought)"이 뭐야?

전문가 설명: AI가 최종 답을 내기 전에 중간 추론 과정을 단계별로 써내는 것.
한나 버전: 유튜브 영상 기획할 때 "바로 결론 쓰지 말고, 이 영상 왜 만들지 → 누구를 위해 → 훅은 뭐로 → 그러니까 제목은 이거" 하고 단계별로 생각하는 것. 그냥 결론 직행할 때보다 훨씬 좋은 답 나오잖아.

"오버피팅(Overfitting)"이 뭐야?

전문가 설명: 모델이 학습 데이터를 너무 외워버려 새로운 데이터에 일반화가 안 되는 현상.
한나 버전: 특정 트렌드에만 최적화된 콘텐츠 만들다가, 그 트렌드 끝나면 아무것도 못 하는 상태. 응용력 없이 패턴만 외운 것.

"할루시네이션(Hallucination)"이 뭐야?

전문가 설명: AI가 사실이 아닌 내용을 자신 있게 만들어내는 현상.
한나 버전: 잘 모르는 브랜드 협찬 제품을 "그냥 좋다고 해야지" 하고 아무 말이나 써버리는 것. 모른다고 못 하는 상황에서 억지로 채운 결과야.

"MoE(Mixture of Experts)"가 뭐야?

전문가 설명: 모델 내부에 여러 전문가 모듈을 두고, 입력마다 일부만 활성화해 효율을 높이는 구조.
한나 버전: 팀 내에 글 잘 쓰는 사람, 영상 잘 편집하는 사람, 기획 잘하는 사람이 따로 있고, 상황마다 필요한 사람만 투입하는 것. 전원이 매번 다 달라붙는 것보다 훨씬 효율적이잖아.

"퍼플렉시티(Perplexity)"가 뭐야?

전문가 설명: AI가 다음 토큰을 예측할 때 평균적으로 몇 개의 선택지 사이에서 고르는지를 나타내는 불확실성 지표.
한나 버전: 다음에 올릴 콘텐츠 포맷을 고를 때 "숏폼이냐 롱폼이냐 카드뉴스냐 라이브냐…" 선택지가 많을수록 퍼플렉시티가 높은 거야. 학습이 잘 될수록 선택지가 "숏폼이지 뭐" 수준으로 확 줄어드는 것.

🔥 노정석 어록 모음

"우리네 인생 자체가 on-policy RL이죠. 보상이 떨어지는 게 예쁜 여자친구를 사귄다든지, 돈을 많이 번다든지, 어디 가서 상을 받는다든지. 그리고 그런 explicit한 보상 함수 말고 스스로 자기 안의 structure에서 보상 함수를 더 상위적인 가치로 짜내는 사람들이 위대한 방향으로 나아가는 것 같고."

분위기: 기술 토론이 끝난 순간 갑자기 인생론으로 확장하는, 노정석 특유의 "이게 다 연결되는 거잖아" 톤.

한나 풀이: 사회가 만들어놓은 보상(조회수, 팔로워, 협찬)에만 최적화된 크리에이터는 결국 알고리즘 노예가 돼. 진짜 오래 가는 크리에이터는 자기만의 "왜 이걸 만드나"가 있는 사람 — 그게 자기 내면의 보상 함수야.

"결정적인 '그런데 말입니다'라고 하는 그런 토큰들이 있는 거네요."

분위기: 김성현이 어려운 개념을 설명하다 잠깐 숨 고를 때, 노정석이 유머로 핵심을 한 방에 정리하는 장면.

한나 풀이: AI가 글을 쓸 때 99%는 자동으로 흘러가고, 딱 "그런데 말입니다" 같은 전환점 토큰들이 가장 어렵고 중요하다는 거야. 영상으로 치면 "그러니까 결국은…" 하는 순간 — 그 순간이 콘텐츠의 진짜 승부처인 것처럼.

"성현님, 저희가 audience에게 도움이 될 것들을 조금은 더 제공해야 될 것 같아요."

분위기: 60분 내내 고개를 끄덕이다가, 마지막에 솔직하게 "이번 편 좀 어려웠다"고 인정하는 현실 감각.

한나 풀이: 아무리 좋은 내용도 듣는 사람 눈높이에 안 맞으면 다 날아가. 콘텐츠 크리에이터 관점에서 이게 제일 중요한 제작 원칙이잖아 — 내가 알고 싶은 것 말고, 보는 사람이 받아갈 수 있는 것.

🎬 한나 적용 포인트

2) 내 콘텐츠 기획에 "on-policy" 마인드 적용하기 남의 성공 공식만 따라 하면(off-policy) 내 채널이 그 사람 능력에 맞는 길을 걷게 돼. 내가 실제로 못 가는 길이야. 유사 채널 벤치마킹은 참고용으로만 쓰고, 결국 내 채널·내 성격·내 팔로워 특성으로 직접 테스트해봐야 진짜 내 것이 생겨. 조회수 안 나온 영상도 "내 on-policy 데이터"야 — 버리지 말고 분석해.

3) AI한테 브리핑 문서 요청할 때 "단계별 추론" 요청하기 Kimi K2 같은 최신 추론 모델에 "결론만 말고, 이 캠페인이 왜 잘 될지/못 될지 단계별로 추론하면서 분석해줘"라고 붙여봐. RL이 길러낸 CoT 능력이 실제로 켜져서, 그냥 즉답할 때보다 훨씬 날카로운 인사이트가 나와. 협찬 제안서 검토, 채널 방향 고민, 대본 피드백 모두 쓸 수 있어.

🏷️ 태그

시기: #2025하
주제: #강화학습 #추론모델 #포스트트레이닝 #일반화
인물: #김성현
자유: #수학공식없는RL #CoT탄생원리 #on-policy인생론