EP 81. DeepSeek이 바꿔버린 모든 것: MoE와 RLVR, 2025년 AI 회고

🗺️ 이 영상의 위치

시간순: 전체 115편 중 101번째 · 2025-12-30
시기 배경: 2025하 (AI 에이전트 폭발기 / DeepSeek 충격 1년 후, 2025년 연말 회고)
난이도: ⭐⭐⭐⭐ (어려운 개념 9개)
⬅️ 앞 영상: EP 80. 2026년은 과학의 해가 될까? AI와 과학
➡️ 다음 영상: EP 82. 원리를 생각하는 프롬프팅
- 연결 이유: 2025년 AI 기술 회고에서 배운 원리를 실제 프롬프팅에 어떻게 적용하는지로 자연스럽게 이어짐

⚡ 5분 요약

한 줄

DeepSeek 하나가 2025년 AI 판을 통째로 바꿨고, 2026년엔 AI가 스스로 배우고 스스로 일하는 단계가 올 수도 있어.

핵심 3개

1) 2025년 AI의 진짜 주인공은 중국이었어 DeepSeek, Kimi, MiniMax, Alibaba… 올해 세상에 나온 최상급 공개 AI 모델은 전부 중국 거야. 미국 빅테크는 자기 모델을 꽁꽁 숨겨두는 동안, 중국은 레시피까지 공개하면서 판을 뒤집었거든. 한정된 자원으로 최고 성능을 만든 방법이 바로 MoE와 RLVR이야.

2) MoE: 같은 돈으로 7배 성능 뽑는 마법 기존 AI가 생각할 때마다 전체 뇌를 다 쓴다면, MoE는 필요한 전문가 뇌만 골라서 써. 같은 학습 비용으로 무려 7배 성능이 나오고, 모델이 커질수록 격차는 더 벌어져. 이제 MoE 안 쓰면 이상한 시대가 됐어.

3) 2026년 핵심 키워드: AI가 스스로 배운다 코딩 에이전트가 "시키면 하는" 단계라면, 다음은 "알아서 하는" 단계야. 사람이 데이터 안 만들어줘도 AI가 스스로 필요한 걸 배우는 지속 학습(continual learning)이 2026년의 최대 화두. 김성현 박사는 이게 실현될 확률을 50%로 봤어.

가장 인상적인 한 마디

"모델은 제품이고 데이터는 모델이다"

한나야, 이게 무슨 말이냐면 — 아무리 AI 구조를 잘 짜도 결국 무엇을 먹이느냐(데이터)가 AI 자체를 결정한다는 거야. 알고리즘보다 콘텐츠 품질이 채널을 결정하는 것처럼.

한나가 지금 당장 시도해볼 것

지금 네가 쓰는 AI 에이전트(Claude, Cursor 등)에 코딩이나 기획 작업을 맡길 때 "결과만 검증"하는 방식으로 써봐. 중간 과정을 일일이 확인하지 말고, 최종 결과물이 기준에 맞는지만 체크하는 거야. 이게 바로 RLVR의 핵심 원리이고, 에이전트를 훨씬 더 잘 쓰는 방법이거든.

📖 시간대별 영상 흐름 (15분 정도 걸려, 시간 있을 때만)

0~15분: DeepSeek이 바꾼 판 — 중국이 전부 다 했다

노정석이 "2025년이 너무 가팔랐다"며 운을 떼자마자, 김성현이 조용하지만 단호하게 정리해. "생각보다 패러다임 전환은 초반에 집중됐어요. DeepSeek-R1이 나온 1월 이후로는 사실 그걸 이해하고 발전시키는 해였습니다."

올해 공개된 프런티어급 AI 모델 목록을 쭉 나열하는데 — DeepSeek, MiniMax, Kimi, Alibaba, Tencent, Ant, Meituan… 최승준이 슬쩍 끼어들어. "다 중국이에요." 노정석이 웃으며 받아. "100% 중국 아닌가요?" 김성현이 담담하게 확인해줘. "네, 100% 다 중국입니다."

여기서 중요한 포인트가 하나 나와. 예전엔 중국 기업들도 "우리 자원 내에서 작은 모델이나 만들자" 였거든. 그런데 DeepSeek이 적은 GPU로도 최고 성능을 낼 수 있다는 걸 증명하자마자, 다들 "그럼 우리도 프런티어 간다"로 방향을 확 틀었다는 거야. 자원의 한계가 아니라 의지와 방법론의 문제였던 거지.

15~35분: MoE — 같은 돈으로 7배를 뽑는 구조

김성현이 그래프 하나를 꺼내. 솔직히 그래프 자체는 복잡한데, 핵심은 간단해.

"기존 dense 모델 대비 MoE 모델은 같은 학습 비용으로 7배 이상의 성능이 나옵니다. 그리고 모델이 커질수록 이 차이가 더 벌어져요."

노정석이 고개를 갸웃하면서 물어. "근데 MoE가 왜 되는 건지 이론적으로 밝혀진 건 있나요?" 김성현이 잠깐 생각하다가 답해. "희소성이라는 개념으로 보는 게 제일 좋을 것 같아요. 수백 개의 전문가 모듈이 있는데, 매번 그 중 일부만 사용하는 거죠. 그래서 실제 연산은 적게 쓰지만 전체 시스템은 굉장히 큰 모델의 효과를 낼 수 있어요."

최승준이 "약간 조합 가능하고 모듈화된 느낌?" 하고 추임새를 넣으니 김성현이 "맞아요"라고 확인해줘. DeepSeek이 이 MoE 레시피를 잘 정립한 덕분에, 이제 다른 중국 기업들(Kimi, Mistral 등)이 DeepSeek 아키텍처를 그냥 가져다 쓰는 상황이 됐어. 마치 예전에 모두가 Llama 구조를 베이스로 썼던 것처럼.

35~50분: RLVR — RL이 에이전트를 만드는 방법

두 번째 키워드는 RLVR이야. 최승준이 깔끔하게 정리해줘. "RLHF가 챗봇을 만들기 위한 학습이었다면, RLVR은 에이전트를 만들기 위한 학습이다, 이렇게 말해도 되나요?" 김성현이 "네, 정확해요"라고 답해.

핵심 아이디어는 이래. 기존엔 AI가 중간 과정을 잘 했는지 일일이 설계해줘야 했어. 근데 RLVR은 그냥 "최종 결과물이 맞으면 보상"이야. 코딩 에이전트라면 코드가 실제로 작동하면 OK, 아니면 NO. 중간 과정은 AI가 알아서 학습해.

여기서 노정석이 재밌는 비유를 들어. "고등학교 수학 교과서에서 유제를 통해 기본 스킬을 배우지만, 뒤에 연습 문제 30개를 풀어봐야 시험을 볼 수 있잖아요." 김성현이 바로 받아. "실제로 해보지 않으면 배울 수 없는 것들이 있죠. 그게 RL의 가장 큰 역할이에요."

그리고 흥미로운 발견 하나가 나와. RL이 새로운 능력을 부여하냐 vs 기존 능력을 끌어내는 거냐는 논쟁에서 — 2025년 연구들의 결론은 이래. "기본 스킬(atomic skill)은 pre-training에서 배우고, 그 스킬들을 조합하는 능력은 RL로 배운다." 마치 사칙연산을 아는 것과, 사칙연산을 순서에 맞게 조합해서 복잡한 문제를 푸는 것은 다른 능력이라는 거야.

50~60분: 레시피는 공개됐는데 왜 중국만 하냐? + 데이터가 전부다

최승준이 좀 의아한 질문을 해. "레시피가 이렇게 알려져 있는데 왜 미국하고 중국밖에 못 한 거예요?" 세 명이 웃으면서 침묵하다가 노정석이 말해. "이게 결국 페이퍼에 안 나오는 암묵지가 있는 거야. '이 하이퍼파라미터에서 여기가 망한다'는 걸 경험해본 사람만 알거든."

김성현이 또 하나 뼈 때리는 말을 해. "모델은 제품이고, 데이터는 모델이다." 결국 어떻게 데이터를 만드느냐가 모든 걸 결정한다는 거야. 그리고 역설적인 사실 하나 — 프런티어 기업들이 데이터 가공할 때 대부분 Qwen 30B 같은 오픈 모델을 써. 모델을 만들려면 데이터가 필요하고, 데이터를 만들려면 모델이 필요한 순환 구조인 거지.

60~71분: 2026년 예측 — 스스로 배우는 AI가 온다

마지막 파트는 2026년 전망이야. 김성현이 세 가지 방향을 짚어.

첫째, 스케일업. 중국 기업들은 지금 GPU를 더 사고 싶어서 안달이 나 있어. "RL을 해보니까 모델이 클수록 더 잘 되더라. 그럼 더 키우면?" 이 욕구가 2026년에 폭발할 거야.

둘째, 지속 학습(continual learning). 사람이 데이터를 만들어주는 게 가장 큰 병목이 되고 있어. 자율주행 비유가 나와 — 90%까지는 쉽게 만들지만 99.9%를 위해선 엣지 케이스 데이터를 끝없이 모아야 하잖아. AI도 마찬가지야. 근데 AI가 스스로 "이게 중요하다"고 판단하고 배울 수 있다면? 그게 지속 학습이야. 김성현은 2026년에 이 징조가 보일 확률을 50%로 봤어.

셋째, self-play. 알파고처럼 AI끼리 경쟁하면서 스스로 발전하는 거야. 근데 바둑과 달리 언어·코딩 문제는 "어렵게 만들기"가 너무 쉬워(말도 안 되는 문제 만들면 정답률 0%니까). 그래서 "사람이 보기에 가치 있는 문제를 만드는 능력"이 핵심이고, 이게 결국 AI가 사람의 가치와 정렬되어야 한다는 얘기로 수렴해.

마지막에 노정석이 물어. "성현 님은 이런 세상에서 어떻게 사실 거예요?" 김성현이 잠깐 웃다가 담담하게 대답해. "그냥 즐기기로 했습니다."

💡 한나 버전 사전

"MoE(Mixture of Experts)"가 뭐야?

전문가 설명: AI 모델의 구조 방식. 수백 개의 소형 전문가 모듈을 두고, 매번 처리할 때 일부만 활성화해 연산 효율을 극대화하는 방식.
한나 버전: 영상 편집할 때 포토샵, 프리미어, 애프터이펙트를 다 동시에 켜두는 게 아니라, 그 장면에 필요한 툴만 딱 켜서 쓰는 거야. 전체 도구는 다 있지만 지금 당장 쓰는 건 일부야. 그래서 컴퓨터 느려지지 않으면서 엄청 강력해지는 거지.

"RLVR"이 뭐야?

전문가 설명: Reinforcement Learning with Verifiable Rewards. 검증 가능한 정답(예: 코드 실행 결과)을 기준으로 AI에게 보상을 줘서 추론 능력을 학습시키는 방법.
한나 버전: 콘텐츠 만들 때 "조회수가 1만 나왔으면 보너스, 아니면 패스"처럼 결과만 보고 평가하는 거야. 중간에 어떻게 썸네일 짰는지, 제목 어떻게 했는지는 AI가 알아서 판단하게 두고. 최종 숫자만 보는 거지.

"Dense 모델"이 뭐야?

전문가 설명: 매번 추론할 때 모든 파라미터(AI 뇌세포)를 전부 활성화하는 전통적인 AI 구조.
한나 버전: 릴스 하나 올릴 때마다 전체 팀(촬영, 편집, 자막, 기획, 디자인)을 전부 풀가동하는 거야. 반면 MoE는 그 릴스에 필요한 사람만 딱 불러서 쓰는 거고.

"Pre-training / Post-training / Mid-training"이 뭐야?

전문가 설명: AI 학습 단계. Pre-training은 방대한 데이터로 기초 학습, Post-training은 특정 용도(챗봇, 코딩 등)로 미세조정, Mid-training은 그 중간 단계.
한나 버전: Pre-training은 초중고 전과목 공부, Mid-training은 수능 특정 과목 집중 보강, Post-training은 면접용 자기소개서 다듬기야. 기초가 탄탄해야 다음이 잘 돼.

"Atomic Skill(원자적 스킬)"이 뭐야?

전문가 설명: RL 이론에서, 더 이상 쪼갤 수 없는 기본 능력 단위. 사칙연산처럼 가장 기초적인 능력.
한나 버전: 인스타 릴스의 원자 스킬은 "훅 문장 쓰기", "자막 타이밍 맞추기", "CTA 달기" 같은 거야. 이걸 따로 배우는 게 pre-training이고, 이 스킬들을 조합해서 실제 바이럴 영상 만드는 감각을 키우는 게 RL인 거지.

"Continual Learning(지속 학습)"이 뭐야?

전문가 설명: AI가 배포된 이후에도 새로운 경험을 통해 계속 학습·업데이트되는 방식.
한나 버전: 유튜브 올리면 알고리즘이 반응 보고 알아서 추천을 조정하잖아. 지속 학습은 AI 자체가 그런 거야. "이 상황에서 이게 중요하다"고 AI 스스로 판단하고 배우는 거. 지금 AI는 학습 끝나면 그냥 멈추는데, 지속 학습 AI는 계속 성장해.

"Self-play"가 뭐야?

전문가 설명: AI끼리 경쟁하면서 스스로 학습하는 방식. 알파고가 자신과 바둑을 수백만 번 두며 강해진 것이 대표 사례.
한나 버전: 크리에이터 두 명이 서로 콜라보 경쟁하면서 서로를 자극해서 퀄리티가 올라가는 거야. 한 명이 문제 내고 한 명이 풀면서 둘 다 강해지는 구조인데, 언어·코딩에선 "어떤 문제가 가치 있냐"를 판단하는 게 너무 어려워서 구현이 힘들어.

"Sparsity(희소성)"가 뭐야?

전문가 설명: MoE에서 전체 파라미터 중 실제로 활성화되는 비율. Sparsity가 높을수록(= 쓰는 비율이 적을수록) 효율이 높아지는 경향.
한나 버전: 유닛 이코노미처럼, 전체 팀원 100명 중 10명만 쓰는 게 25명만 쓰는 것보다 비용 효율이 높은 거야. 근데 AI에선 신기하게도 더 적게 쓸수록 오히려 전체 성능이 더 좋아지는 역설이 나타나거든.

"Frontier 모델"이 뭐야?

전문가 설명: 현재 기술의 최전선(frontier)에 있는 최고 성능 AI 모델. GPT-4o, Claude Opus, Gemini Ultra 등이 해당.
한나 버전: 팔로워 수 기준으로 메가 인플루언서급 AI야. 100만 팔로워 이상 느낌. 그 아래 미드티어 모델들은 중간급 인플루언서. 2025년엔 중국이 메가급을 공짜로 공개하면서 판을 뒤집은 거야.

🔥 노정석 어록 모음

"이런 레시피의 전체를 가지고 있는 사람들의 몸값이 그렇게 비싼 것 같아요."

분위기: 페이퍼에 다 나와 있는 것 같지만 실제로는 몸으로 익힌 암묵지가 더 중요하다는 걸 깨달은 표정으로 조용히.

한나 풀이: AI 개발 레시피가 논문으로 공개돼도, '이 하이퍼파라미터 여기서 틀리면 망한다'는 걸 아는 사람은 직접 해봐야 알아. 레시피를 외워도 요리 못 하는 사람이 있는 것처럼. 그래서 경험 있는 ML 엔지니어가 억대 연봉 받는 거야. 콘텐츠로 따지면 조회수 올리는 법 다 알려도, 실제로 바이럴 시켜본 사람의 감이 다른 것처럼.

"핵우산을 가지고 있었던 국가들만 한 세기를 강대국으로 살았잖아요. 그것과 똑같은 논리 아닐까요."

분위기: AI 패권 경쟁을 역사적 맥락에서 비유하면서 진지하고 묵직하게.

한나 풀이: AGI(초인공지능)를 먼저 만든 쪽이 핵 개발처럼 압도적인 우위를 갖는다는 거야. 그래서 천문학적인 돈이 투자되는 게 "거품"이 아닐 수 있다는 논리. 1등이 사다리를 걷어차면 2등은 영원히 따라잡기 힘들 수 있거든. 크리에이터로 치면 플랫폼 초창기에 진입한 사람들이 영원히 팔로워 우위를 갖는 것처럼.

"모델은 제품이고 데이터는 모델이다."

분위기: 김성현 박사의 말을 노정석이 강조하며 인용. 명언처럼 다시 한번 꺼내드는 톤.

한나 풀이: AI 구조(알고리즘)가 아무리 예뻐도 뭘 먹이냐(데이터)가 AI 자체를 결정해. 콘텐츠로 치면 편집 툴이 아무리 좋아도 어떤 소재와 스토리를 담느냐가 채널을 결정하는 거잖아. 데이터가 진짜 경쟁력이라는 거고, 이게 왜 대형 AI 기업들이 데이터 수집·정제에 천문학적 돈을 쓰는지를 설명해.

🎬 한나 적용 포인트

1) 내 콘텐츠 데이터를 AI한테 직접 먹여봐 "데이터가 모델이다"는 말, 한나 버전으로 바꾸면 "내 콘텐츠 스타일이 AI 출력을 결정한다"야. 지금 ChatGPT나 Claude 쓸 때 내 과거 영상 대본, 캡션, 댓글 반응 데이터를 같이 붙여서 프롬프트 날려봐. "이 데이터 기반으로 내 스타일로 다음 콘텐츠 기획해줘"라고. 일반 프롬프트랑 결과물 품질이 완전히 달라질 거야.

2) AI 에이전트를 "시키는 것"이 아닌 "기준 주고 맡기는 것"으로 바꿔봐 RLVR의 핵심이 "중간 과정 말고 최종 결과만 평가"잖아. 지금 AI한테 콘텐츠 초안 맡길 때 "이렇게 해, 저렇게 해" 하나하나 지시하는 대신, "최종 기준은 이거야: 20대 여성이 3초 안에 멈춰야 하는 훅, 공감형 어미, 800자 이내" 이렇게 기준만 주고 맡겨봐. 더 자연스럽고 퀄리티 높은 결과 나와.

3) 중국 AI 소식도 팔로우 시작해봐 영상에서 "중국 AI 팟캐스트 수준이 프런티어에 닿았다"는 얘기 나왔잖아. 실제로 DeepSeek, Kimi, MiniMax 같은 중국 모델들이 무료로 공개돼 있고, 성능이 GPT-4o급이야. 한나 콘텐츠에 쓸 AI 툴 다각화하면서 비용 줄이고, "나는 최신 AI 트렌드 다 알고 있어요" 포지셔닝도 생기거든. 팔로우할 계정: DeepSeek 공식, Kimi AI, 황동성(중국 AI 번역해주는 한국인 트위터 계정).

🏷️ 태그

시기: #2025하
주제: #2025회고 #MoE #RLVR #AI에이전트
인물: #김성현
자유: #DeepSeek충격 #중국AI굴기 #패러다임전환