← 메인으로
EP. 95·26.04.28·⭐⭐⭐⭐·1시간 4분 54초

DeepSeek-V4 논문 읽기

DeepSeek이 1년 4개월 만에 꺼낸 V4 — 크기는 2.5배 키우면서 연산비용은 3분의 1, 메모리는 10분의 1로 줄인 기술 충격파.

▶ 유튜브에서 원본 보기← 앞: EP 94. Claude Opus 4.7 과 낮게 열린 과실들

EP 95. DeepSeek-V4 논문 읽기

🗺️ 이 영상의 위치

⚡ 5분 요약

한 줄

DeepSeek이 1년 4개월 만에 꺼낸 V4 — 크기는 2.5배 키우면서 연산비용은 3분의 1, 메모리는 10분의 1로 줄인 기술 충격파.

핵심 3개

1) 모델은 더 커졌는데 왜 이렇게 싸졌어? 비밀은 **sparse attention(희소 어텐션)**이야. 기존 AI는 글을 읽을 때 앞에 나온 단어를 전부 다시 보는데, 얘네는 "진짜 중요한 것만 골라서" 보는 구조로 바꿨어. 덕분에 긴 글을 다룰 때 연산량이 확 줄었고, 이게 비용이 싸진 핵심 이유야.

2) 그걸 해내는 게 왜 대단해? sparse attention은 AI 연구자들 사이에서 "이론은 좋은데 실제로 학습이 너무 어렵다"는 게 정설이었어. 중국의 다른 회사들도 다 시도했다가 포기했는데, DeepSeek은 1년 동안 씨름해서 사실상 혼자 성공시켰거든. 논문 자체가 "이 과정이 얼마나 고통스러웠는지"의 증거야.

3) 이제 싸움은 post-training으로 넘어간다 base model(=기초 실력) 에서는 중국이 미국을 거의 따라잡았어. 남은 차이는 post-training(=실전 훈련, 어떻게 가르치느냐)에서 나와. 노정석 말대로 "곧 V4.1, V4.2가 나오면서 이 gap도 좁혀질 것"이라는 게 세 사람 공통 전망이야.

가장 인상적인 한 마디

"항저우의 카페에 가서 앉아서 여기에 걸리는 엔지니어들을 두고 뭔가를 물어봐야지, 프론티어가 여기에 있네라는 느낌이 저는 굉장히 많이 들었습니다."

한나야, 이게 무슨 말이냐면 — AI 최전선이 실리콘밸리가 아니라 중국 항저우에 있다는 거야. 노정석이 논문 읽다가 진심으로 충격 받아서 한 말이야.

한나가 지금 당장 시도해볼 것

DeepSeek-V4 API 직접 써봐. 지금 경쟁사 대비 가격이 극단적으로 싼 시기야 (심지어 75% 할인 이벤트도 했어). 콘텐츠 기획 브레인스토밍이나 긴 글 요약에 한번 넣어봐. "싸다 = 별로다"라는 편견이 깨질 거야.

📖 시간대별 영상 흐름 (15분 정도 걸려, 시간 있을 때만)

0~10분: 이번 주 충격 요약 — DeepSeek-V4 등장

노정석이 "이번 주에 굵직한 소식들이 많았다"면서 시작하는데, 목소리에 진짜 흥분이 섞여 있어. GPT-5.5도 나왔고 구글 행사도 열렸지만 "무엇보다도 중요한 소식은 DeepSeek-V4"라고 딱 못 박아.

영국에서 화상으로 연결된 김성현이 등장하는데, 얘가 연구 전문가라 말 한마디 한마디가 굉장히 신중해. 첫 마디부터 "중국이 pre-training에서 미국을 따라잡았거나 어쩌면 더 나은 부분도 있다"는 얘기를 꺼내. 이게 단순한 의례적 칭찬이 아니라, 진짜로 논문을 뜯어본 사람이 내리는 평가라 더 무겁게 들려.

DeepSeek-V3(=이전 모델)는 600B짜리 모델이었는데, V4는 1.6T로 모델 크기가 약 2.5배 커졌어. 그런데 동시에 비용은 확 줄었다는 게 핵심 모순처럼 들리는 역설이야.


10~25분: Sparse Attention — 이게 왜 대단한 거야?

이 구간이 영상의 심장이야. 김성현이 sparse attention을 설명하는 동안 노정석은 중간중간 "이렇게 하면 될까 싶을 것들을 다 만들어내더라고요 — 연금술 수준"이라고 코멘트해. 기술 전문가인 김성현조차 "왜 이렇게 하면 되는지는 아직 잘 모르겠다"고 솔직하게 말하는 게 인상적이야.

기존 AI는 새 단어를 만들 때 앞에 나온 모든 단어를 다시 확인해야 해 (dense attention). 글이 길수록 확인해야 할 게 제곱으로 늘어나는 구조야. 그걸 sparse attention은 "중요한 것만 골라서 본다"로 해결한 거야. 그런데 "중요한 것 고르는 것 자체"를 AI가 학습하는 게 극도로 어렵거든. 1년 동안 중국 여러 회사들이 도전했다가 다 포기했는데 DeepSeek만 해낸 거야.

결과적으로 V4는 이전 세대보다 모델이 훨씬 큰데도 연산량은 27%로 줄고(3.7배 감소), 메모리는 10%로 줄었어(10배 감소). 노정석이 "이 두 그래프가 이번 V4의 진짜 큰 한 방"이라고 정리해.


25~40분: 학습의 고통과 인프라 전쟁

김성현이 "이 논문에 DeepSeek 팀이 얼마나 고생했는지가 굉장히 잘 드러난다"고 했는데, 이 구간에서 그 증거들이 쏟아져. 학습 불안정성(=AI 훈련하다가 자꾸 이상하게 튀는 현상)이 계속 발생했고, 그걸 막기 위해 온갖 기법들을 동원했어.

그중에 Anticipatory Routing(=몇 step 전의 과거 모델 가중치를 써서 라우팅하는 방법)이라는 게 나오는데, 김성현이 "이게 왜 이렇게까지 해야 했는지 미스터리"라고 해. 다들 이해를 못 하고 있다고. 노정석이 "일종의 regularization(=과적합 방지)이 아닐까" 하고 끼어들면서 두 사람이 추측을 나눠.

인프라 얘기도 엄청 나와. 전력 throttling(=연산 밀도가 너무 높아서 전력이 한계에 달하는 현상)이 걸릴 정도로 GPU를 쥐어짰다는 대목에서 김성현이 "굉장히 낭만적인 이야기"라고 표현해. 그리고 NVIDIA 칩뿐 아니라 화웨이 칩도 함께 썼다는 게 논문에 언급돼 — 중국이 반도체 독립을 실질적으로 실험 중이라는 신호야.


40~55분: Pre-training과 Post-training, 그리고 데이터

데이터 얘기가 나오는데 김성현이 "언급을 전혀 하지 않는다"면서 의아해해. 32T 토큰을 썼다는 것만 나오고 어떻게 모았는지는 블랙박스야.

흥미로운 건 long-context pre-training이야. 일반 모델들은 처음 훈련(pre-training)할 때 짧은 글(4K~8K 토큰)로 시작하고 나중에 긴 글 처리를 얹어. 그런데 V4는 처음부터 64K 이상 길이로 훈련했어. 30T 토큰이 그 길이라는 거야. 이 선택 자체가 앞으로 중국 모델들의 새 기준이 될 것 같다고 두 사람이 동의해.

post-training(=실전 훈련) 얘기도 나와. V4가 아직 post-training에서 아쉬움이 있다는 걸 스스로 인정하는데, 노정석이 "4.1, 4.2 나오면서 이 부분이 해결될 거다"고 예상해. Anthropic이 DeepSeek에게 쿼리를 많이 당했다는 논란도 살짝 나오는데, 김성현은 "distillation보다 비교 벤치마크를 위해서였을 것 같다"고 봐.


55~65분: 이번 주 뉴스 빠르게, 그리고 마무리 선언

최승준이 GPT-5.5, 구글 클라우드 행사, Anthropic 근황을 빠르게 정리해. 모델 업데이트 주기가 Chrome 브라우저 업데이트처럼 그냥 일상이 되는 시대가 오고 있다는 얘기야.

마지막에 노정석이 결정적인 말을 해 — "이젠 AI가 얼마나 좋아졌냐"보다 "이걸 가지고 돈은 어떻게 벌 건데, 고객은 뭘 원하는데"로 관심이 급격하게 이동하는 것 같다고. SaaS 신규 주문이 급감하는 게 그 신호라면서. 앞서가는 사람들은 이미 그 질문을 하고 있다는 거야.


💡 한나 버전 사전

"Pre-training"이 뭐야?

  • 전문가 설명: AI 모델이 대량의 텍스트 데이터를 보며 언어의 기본 패턴을 학습하는 초기 훈련 과정.
  • 한나 버전: 유튜버로 치면 "촬영·편집·구성 기초 능력" 자체를 키우는 단계야. 아직 어떤 콘텐츠를 만들지 방향도 없이, 그냥 기본기를 수십만 시간 쌓는 거지. 이 단계에서 중국이 미국 수준에 왔다는 게 핵심 뉴스야.

"Post-training"이 뭐야?

  • 전문가 설명: 기초 학습이 끝난 모델에 RLHF, 지시 따르기 등 실제 사용 목적에 맞게 추가 훈련하는 과정.
  • 한나 버전: pre-training이 "기초 촬영 실력"이라면 post-training은 "이 채널은 뷰티야, 이 채널은 여행이야" 방향을 잡고 실제 팬들 취향에 맞게 세팅하는 거야. 아직 중국이 이 단계에서 미국에 살짝 밀린다고 해.

"Sparse Attention"이 뭐야?

  • 전문가 설명: 모든 이전 토큰을 참조하는 대신, 중요한 일부 토큰만 선택적으로 참조하는 어텐션 메커니즘.
  • 한나 버전: 인스타 피드를 스크롤할 때, 1000개 게시물을 다 보는 게 아니라 알고리즘이 "이거 봐" 하고 30개만 추려서 보여주는 거랑 비슷해. 근데 그 "추리는 기준" 자체를 AI가 학습하는 게 극도로 어렵다는 게 문제야.

"KV Cache"가 뭐야?

  • 전문가 설명: AI가 이전 토큰들의 정보를 저장해두는 메모리 구조. 길수록 메모리를 많이 먹어.
  • 한나 버전: 유튜브 라이브 방송 중에 이전에 나온 채팅 수백만 개를 다 기억하고 있는 메모장이야. 방송이 길수록 메모장이 터질 것처럼 커지는 거지. V4는 이 메모장 크기를 10분의 1로 줄였어.

"MoE (Mixture of Experts)"가 뭐야?

  • 전문가 설명: 하나의 거대 모델 대신, 여러 전문 소모델(expert)이 분업하는 구조. 입력마다 적합한 expert를 골라 써서 효율이 높아.
  • 한나 버전: 멀티 채널 운영하는 MCN 같은 거야. 한 사람이 모든 콘텐츠를 하는 게 아니라, 뷰티 전문, 음식 전문, 여행 전문 크리에이터들이 각자 맡은 거 처리하는 구조. 어떤 크리에이터한테 어떤 요청을 보낼지 "라우팅"하는 게 핵심이야.

"Muon Optimizer"가 뭐야?

  • 전문가 설명: Adam 이후 주목받는 신형 학습 최적화 알고리즘. 학습 속도와 데이터 효율을 높여준다.
  • 한나 버전: 콘텐츠 A/B 테스트 툴이 버전 업그레이드 됐다고 생각해봐. 똑같은 영상 올려도 알고리즘이 더 빠르게 더 잘 학습해서 구독자 반응을 더 효율적으로 반영해주는 거야. 지금 중국 모델들은 거의 다 이거 써.

"학습 불안정성"이 뭐야?

  • 전문가 설명: AI 훈련 중 손실(loss) 값이 갑자기 튀거나 발산하는 현상. 훈련이 망하는 전조증상.
  • 한나 버전: 편집 하다가 갑자기 프리미어 프로가 뻗는 거 있잖아. 저장도 안 되고 그냥 날아가는 느낌. 그걸 수십조 원짜리 연산 도중에 맞이하는 거야. DeepSeek이 V4 만들면서 이걸 엄청 많이 겪었대.

"Distillation (지식 증류)"이 뭐야?

  • 전문가 설명: 큰 모델(teacher)의 지식을 작은 모델(student)이 흡수해 학습하는 방법.
  • 한나 버전: 팔로워 1000만 인플루언서가 본인 콘텐츠 노하우를 1만 팔로워 신인에게 직접 코칭해주는 거야. 신인이 처음부터 혼자 고생하는 것보다 훨씬 빠르게 성장해.

"Benchmark (벤치마크)"가 뭐야?

  • 전문가 설명: AI 모델 성능을 비교하는 표준 테스트 셋. 수학·코딩·상식 등 여러 과목 시험지.
  • 한나 버전: 유튜브 조회수 100만을 기준으로 크리에이터 실력을 평가하는 공식 기준표 같은 거야. 다들 이 점수로 서로 비교해. 근데 점수가 전부는 아니라는 것도 다 알아.

🔥 노정석 어록 모음

"프론티어의 프론티어예요. 제가 그냥 느낌상."

분위기: DeepSeek 논문 뜯어보다가 진심으로 놀라서 나온 말. 과장이 아니라 감탄임.

한나 풀이: AI 회사들 중에서도 가장 앞선 곳을 "프론티어 랩"이라고 부르는데, DeepSeek이 그 프론티어 랩들 사이에서도 맨 앞에 있다는 거야. 연예인 중에서도 탑티어 연예인의 연예인, 그 느낌.


"항저우의 카페에 가서 앉아서 여기에 걸리는 엔지니어들을 두고 뭔가를 물어봐야지, 프론티어가 여기에 있네라는 느낌이 저는 굉장히 많이 들었습니다."

분위기: 혼잣말처럼 툭 뱉는 건데, 꽤 진지함. AI 생태계의 무게중심이 실리콘밸리에서 중국으로 이동하고 있다는 걸 실감하는 순간.

한나 풀이: 한나가 유럽 패션 트렌드 잡으려면 파리 가야 한다고 생각했는데, 알고 보니 진짜 트렌드는 서울에 있었던 것 같은 느낌? 노정석이 논문 읽다가 그걸 느낀 거야.


"이거 가지고 그럼 돈은 어떻게 벌 건데, 고객은 뭘 원하는데, 그들 사이의 gap은 어떻게 메꿀 수 있는데, 이런 이야기들로 담담하게 전진하시는 것들을 요새 좀 많이 목격하고 있습니다."

분위기: 영상 마무리 즈음에 조용하게, 그런데 단호하게. AI 기술 자체에 대한 흥분이 끝나고 이제 비즈니스로 넘어가는 시대를 선언하는 톤.

한나 풀이: 유튜브 초창기에는 "와 영상 편집이 이렇게 되네?" 하다가, 이제는 "그래서 이걸로 어떻게 수익화하지?"로 다들 넘어간 것처럼. AI도 똑같은 전환점에 온 거야. 한나한테 엄청 중요한 신호야.


🎬 한나 적용 포인트

1) "AI 툴 체험 리뷰" 콘텐츠가 지금 터지는 구간이야 DeepSeek-V4, GPT-5.5, Claude Opus 4.7이 이 한 달 안에 다 나왔어. 크리에이터 입장에서는 "나는 이걸로 실제로 콘텐츠 기획해봤는데 이랬다" 체험형 리뷰가 지금 엄청 먹히는 시즌이야. 특히 가격 비교 콘텐츠 — "비싼 GPT vs 싼 DeepSeek, 실제로 뭐가 다른가"는 지금 당장 해볼 수 있어.

2) 긴 글 처리를 적극 써봐 (long-context가 핵심 포인트였잖아) V4의 가장 큰 혁신 중 하나가 긴 문맥을 싸게 처리하는 거야. 한나가 유튜브 스크립트나 제안서 같은 긴 문서를 다룰 때, "전체 맥락을 넣고 요약/발전시켜"처럼 쓰면 이전 모델들보다 훨씬 자연스럽게 나올 거야. 이번 영상에서 long-context = agent의 능력이 커지는 것이라고 했는데, 크리에이터로 치면 "내 채널 6개월 치 콘텐츠 다 넣고 다음 기획 뭐할지 알려줘" 수준이 된다는 거야.

3) AI 쓰는 것보다 "AI로 뭘 만들지"가 이제 차별화야 노정석이 마무리에서 한 말이 한나한테 제일 중요한 인사이트야. SaaS 서비스들이 신규 주문이 급감한다는 건, 사람들이 이제 AI로 직접 자기 도구를 만들기 시작한다는 거거든. 한나도 단순히 "AI로 캡션 뽑는다"에서 더 나아가서, "AI로 내 팬들이 원하는 걸 더 정확하게 찾아낸다"는 쪽으로 고민을 옮길 타이밍이야.

🏷️ 태그