EP 62. 차세대 LLM 설계 미리 살펴보기: Kimi K2 Technical Report

🗺️ 이 영상의 위치

시간순: 전체 115편 중 78번째 · 2025-08-02
시기 배경: 2025하 (AI 에이전트 전쟁기 / 중국 프런티어 랩들이 미국 빅테크에 정면 도전하던 시기)
난이도: ⭐⭐⭐⭐ (어려운 개념 10개)
⬅️ 앞 영상: EP 61. AI, 국제수학올림피아드 금메달을 따다
➡️ 다음 영상: EP 63. GPT-5를 기다리며
- 연결 이유: Kimi K2가 "다음 LLM은 이래야 한다"고 설계도를 보여줬으니, 그 설계도의 끝판왕인 GPT-5가 실제로 어떻게 나왔는지 자연스럽게 이어짐

⚡ 5분 요약

한 줄

중국 스타트업 Moonshot AI가 2년 반 만에 GPT-4급 AI를 만든 레시피를 공개했는데, 핵심은 "AI가 도구를 잘 쓰도록 가짜 훈련 데이터를 수백만 개 찍어냈다"는 거야.

핵심 3개

1) 가짜 시나리오로 진짜 실력을 만든다 AI한테 "부동산 앱 써서 이 일 처리해봐"라고 시키려면 그 연습 문제가 있어야 해. Kimi 팀은 그 연습 문제를 사람이 만든 게 아니라 AI가 통째로 다 지어냈어. 도구도, 시나리오도, 정답 경로도 전부 합성. 이게 이 논문의 핵심 앙꼬야.

2) 데이터 품질을 높이면 같은 데이터로 더 똑똑해진다 같은 텍스트를 그냥 10번 반복 학습시키는 것보다, 그 텍스트를 미묘하게 다르게 10번 다시 써서 학습시키면 성능이 훨씬 올라가더라고. 이미지 AI에서 사진 뒤집고 흑백 만들어서 데이터 늘리던 방식이랑 정확히 같은 원리야.

3) AI가 AI를 채점하면서 스스로 성장한다 수학처럼 맞/틀 판단이 명확한 건 그냥 채점기 만들면 돼. 근데 "이 글이 감동적이냐"처럼 애매한 건 AI 자신이 평가 기준표(루브릭) 들고 스스로 채점해. 그 채점 결과로 또 학습하는 구조야.

가장 인상적인 한 마디

"안 본 것보다는 보고 일하는 게 훨씬 나으니까. 한번 연습 문제를 풀어본 거죠, 얘 입장에서는."

한나야, 이게 무슨 말이냐면 — AI도 본 적 없는 업무는 잘 못 해. 그래서 Kimi는 AI한테 가짜로라도 수천 개 업무 시나리오를 미리 경험시켜놨다는 거야. 실전 전에 족보 풀게 한 거지.

한나가 지금 당장 시도해볼 것

지금 쓰는 AI 툴(ChatGPT, Claude 등)한테 막연하게 "이거 해줘" 대신 "이 상황에서 이 도구 써서 이 순서로 해줘"처럼 단계별 도구 사용법까지 지정해서 시켜봐. AI가 도구 사용에 훈련이 덜 된 영역일수록 이렇게 구체적으로 줘야 결과가 달라져.

📖 시간대별 영상 흐름 (15분 정도 걸려, 시간 있을 때만)

0~12분: "중국 스타트업이 왜 갑자기 논문을 냈냐"

노정석이 약간 흥분된 톤으로 시작해. "기다리던 Kimi K2 논문이 드디어 나왔어요"라면서. 여기서 배경 설명을 좀 해주는데, 중국 프런티어 랩들이 하는 방식이 있대. 미국 빅테크(OpenAI, Google)이 새 기능 내면 → 중국 랩들이 재현하고 → 어떻게 만들었는지 레시피를 공개해서 → 인기를 끈다는 패턴.

Kimi K2를 만든 회사는 Moonshot AI. 2023년 초에 창업한 2년 반짜리 스타트업인데, 직원 160명에 투자금 약 1.5조~2조 원 받아서 GPT-4급 모델을 만들어버렸어. 노정석이 "이제 중국 프런티어 랩에 Moonshot도 넣어줘야 한다"고 하면서 살짝 감탄하는 분위기야.

이 논문의 포지션은 "우리 모델이 에이전트 일처리(agent workflow)를 더 잘하도록 어떻게 설계했는지 보여준다"야. 논문이라기보다 레시피 책에 가깝다고 설명해 — 미쉐린 셰프 레시피처럼, 읽으면 이해는 가는데 그대로 재현하려면 엄청난 노력이 든다는 거야.

12~28분: "학습 안정제 MuonClip, 그리고 데이터를 10번 다시 쓰는 법"

여기서 기술 얘기가 시작돼. 노정석이 "이 부분이 약간 연금술 같은 거거든요"라고 하면서 편하게 풀어주는데, 두 가지가 핵심이야.

첫 번째는 MuonClip이라는 새로운 학습 안정제. 기존에 모든 AI가 쓰던 AdamW라는 방식 대신 Muon이라는 더 효율적인 방식을 쓰고 싶었는데, 문제가 있었어 — 학습 도중에 숫자가 폭발적으로 커져버려서 학습이 망하는 거야. 그래서 "100을 넘어가면 그냥 잘라버려"라는 단순한 규칙을 추가한 게 MuonClip. 최승준이 "일종의 normalize네요"라고 하니까 노정석이 "맞아요, 그냥 나눠주는 거예요"라고 확인해줘.

두 번째는 데이터 다시 쓰기(rephrasing). 같은 텍스트를 10번 반복 학습시키는 것보다, AI가 그 텍스트를 미묘하게 다르게 10번 다시 써서 학습시키면 정확도가 훨씬 올라가더라는 거야. 최승준이 "이미지 할 때 data augmentation이랑 완전 똑같네요"라고 하니까 노정석이 "매우 닮았죠!"라며 크게 공감해. 수학 데이터는 특히 공들여서 "학습 노트 스타일"로 다시 썼다고 해.

28~45분: "모델 구조 — DeepSeek 거 베껴서 키웠다"

모델 구조 설명인데, 노정석이 "Kimi K2는 DeepSeek V3 디자인을 거의 그냥 copy해서 썼어요"라고 담백하게 말해. 근데 숫자는 더 크게 키웠어 — 전체 파라미터 1조 개(1 Trillion), 학습 데이터 15.5조 토큰. 최승준이 "굉장히 많은 거 아닌가요?" 하니까 노정석이 "어마어마하게 많은 숫자죠, 인간이 만든 모든 데이터가 다 들어와 있는 거예요"라고 해.

여기서 MoE(전문가 혼합) 구조 얘기가 나오는데, 쉽게 말하면 384개의 전문가 중에 매번 8명만 골라 쓰는 방식이야. 전문가 수가 많을수록 성능이 좋아지지만, 동시에 쓰는 수는 적을수록 연산이 효율적이야. Kimi는 DeepSeek보다 전문가 수를 늘리고, 동시 사용 수는 비슷하게 유지했어.

그리고 context window(한 번에 읽을 수 있는 분량)를 4K에서 128K로 늘리는 과정도 나오는데, 노정석 말로는 "이거 온갖 꼼수와 노하우의 집합체예요"라고. 중간에 노정석이 "이렇게 하면 잘 되더라는 게 있고 안 되면 '왜 그랬을까' 하면서 튜닝하고... 그야말로 지저분한 엔지니어링 덩어리"라고 솔직하게 말하는 장면이 인상적이야.

45~63분: "가짜 훈련 데이터를 수천만 개 찍어내는 공장"

여기가 노정석이 "이 논문의 앙꼬"라고 부르는 파트야. 에이전트 훈련용 합성 데이터를 어떻게 만들었냐는 거거든.

순서가 이래. ① 도메인을 정한다 (부동산, 헬스케어, 제조업, 게임 등 18개 분야). ② 각 도메인에서 쓸 법한 도구(tool)를 AI가 다 지어낸다. ③ 그 도구를 쓰는 에이전트도 만들고, 그 에이전트한테 시킬 업무도 만든다. ④ 그 업무를 처리하는 전체 과정(trajectory, 경로)도 AI가 다 써낸다. ⑤ 평가 기준표(rubric)도 같이 만들어서 잘된 것만 필터링한다.

최승준이 "다 가짜로 상상한 tool인데 그걸 쓸 수 있는 능력을 학습한 거잖아요"라고 정확하게 짚어주고, 노정석이 "그렇죠, 안 본 것보다 보고 일하는 게 훨씬 나으니까"라고 확인해줘. GitHub에 있는 실제 MCP 툴 3,000개도 다 긁어왔는데, 거기는 개발자 도구만 가득했고 — 그래서 Kimi가 직접 18개 비즈니스 도메인 툴을 새로 만든 거야.

노정석이 여기서 "이게 Kimi K2가 Agentic Intelligence라고 제목을 박은 이유야"라고 강조해. 실제 에이전트 앱 만들 때 모델이 못 따라오는 이유가 바로 이 훈련이 안 되어 있어서라는 거야.

63~75분: "AI가 스스로를 채점하는 강화학습"

강화학습(RL) 설명 파트야. 노정석이 "RL 파이프라인 얘기는 정말 뜬구름 잡는 얘기밖에 없어요, 자세한 건 하나도 없고"라고 솔직하게 인정하면서 설명해.

크게 두 갈래야. 수학·코딩처럼 맞/틀 판단이 가능한 영역은 채점기를 만들어서 reward를 준다. "시를 써봐"처럼 채점이 애매한 영역은 AI 자신이 루브릭(평가 기준표)을 들고 스스로 평가한다 — 이게 Self-Critiqued Policy Optimization이야.

여기서 재밌는 게 budget control이야. AI가 너무 길게 중언부언하다가 결론 못 내면 패널티를 줘. "토큰을 많이 쓸수록 좋다"가 아니라 "빠르고 정확하게 내는 게 좋다"로 학습시키는 거야. 최승준이 "token efficiency가 반복해서 나오는 키워드네요"라고 하니까 노정석이 "pre-train이든 RL이든 다 나오죠. 단위 토큰당 효율 경쟁으로 이동하고 있는 거예요"라고.

75~81분: "노정석의 논문 읽는 법 + 중국 랩에 대한 솔직한 의심"

마무리 파트인데 오히려 여기가 제일 사람 냄새 나. 노정석이 "저는 중국 프런티어 랩들이 진짜 from scratch로 만들었다기보다, 미국 빅테크에서 정보가 알음알음 흘러왔을 거라는 의심을 강하게 해요"라고 솔직하게 털어놔. 최승준이 "이직한 엔지니어는 아이디어는 쓸 수 있으니까"라고 받아주고, 노정석이 "구글이 Transformer에 특허 걸었으면 아무도 못 쓰잖아요. 탑 엔지니어 한 명 넘어가면 레시피가 다 넘어가는 거죠"라고.

그리고 자기 논문 읽는 법을 공유하는데 — 먼저 끝까지 다 읽고 → Claude Opus에게 "나는 이렇게 이해했는데 맞냐"고 물어보고 → 틀리면 교정받고 → 그걸 반복해서 "rule로 압축"될 때까지 6시간씩 태운다고. "데이터가 information으로, information이 rule로 바뀌는 거예요"라는 말이 인상적이야.

💡 한나 버전 사전

"LLM"이 뭐야?

전문가 설명: Large Language Model. 대규모 언어 모델. ChatGPT, Claude, Gemini 같은 AI들의 기반 기술.
한나 버전: 인플루언서로 치면 팔로워 수가 수십억인 메가 크리에이터야. 엄청난 양의 콘텐츠를 소화하고 뭐든 대답할 수 있는 존재.

"에이전트(Agent) / Agentic"가 뭐야?

전문가 설명: AI가 단순히 대답만 하는 게 아니라, 도구를 쓰고, 여러 단계를 스스로 계획하고, 실행까지 하는 방식.
한나 버전: AI 버전의 매니저야. "인스타 올려줘"라는 말 한마디에 사진 찾고, 캡션 쓰고, 해시태그 달고, 예약 게시까지 혼자 다 해주는 거. 단순 챗봇은 비서, 에이전트는 올라운드 스태프.

"파라미터(Parameter)"가 뭐야?

전문가 설명: AI 모델이 학습을 통해 쌓아온 지식과 패턴을 담는 숫자 단위. 파라미터 수가 많을수록 더 복잡한 것을 배울 수 있어.
한나 버전: 유튜브 채널의 콘텐츠 저장 용량 같은 거야. 1T(1조)면 창고가 어마어마하게 큰 거. Kimi K2가 딱 그 사이즈야.

"MoE(Mixture of Experts)"가 뭐야?

전문가 설명: AI 내부에 여러 '전문가 네트워크'를 두고, 각 질문마다 일부 전문가만 골라 쓰는 구조. 전체 규모는 크지만 실제 연산은 적게 써.
한나 버전: 에이전시에 전문가 384명이 있는데, 브랜드 딜 올 때마다 그중 8명만 소집하는 거야. 전체 팀은 크지만 매번 소수 정예만 움직이니까 효율적이지.

"강화학습(RL, Reinforcement Learning)"이 뭐야?

전문가 설명: AI가 행동하고, 그 결과에 따라 보상/패널티를 받으면서 더 나은 행동을 스스로 학습하는 방법.
한나 버전: 틱톡 알고리즘이 영상 올릴 때마다 조회수로 피드백 주잖아. 잘 되면 더 만들고 안 되면 방향 바꾸고. AI도 그 과정을 수백만 번 자동으로 하는 거야.

"SFT(Supervised Fine-Tuning)"가 뭐야?

전문가 설명: 이미 학습된 기본 AI에 특정 분야 데이터를 추가로 학습시켜서 그 분야를 잘하게 만드는 과정.
한나 버전: 요리 잘하는 사람한테 "우리 브랜드 레시피만 전담으로 배워봐"라고 집중 교육시키는 거야. 기본기 위에 전문성을 올리는 것.

"합성 데이터(Synthetic Data)"가 뭐야?

전문가 설명: 실제 세계에서 수집한 게 아니라 AI가 스스로 만들어낸 데이터.
한나 버전: 실제 고객 리뷰 대신 AI가 "이런 고객이라면 이런 리뷰를 쓸 거야"라고 지어낸 리뷰 데이터야. Kimi는 이걸 수천만 개 찍어냈어.

"루브릭(Rubric)"이 뭐야?

전문가 설명: 평가 기준표. AI 결과물의 품질을 판단하기 위해 미리 정해둔 세부 기준들.
한나 버전: 브랜드 콘텐츠 검수 기준표 같은 거야. "메시지 명확한가? 톤 맞나? 너무 길지 않나?" 이런 체크리스트. Kimi는 데이터 만들면서 이 기준표도 동시에 만들었어.

"컨텍스트 윈도우(Context Window)"가 뭐야?

전문가 설명: AI가 한 번에 읽고 기억할 수 있는 텍스트의 최대 분량.
한나 버전: 대화 기억력이야. 4K면 소설 한 챕터 정도, 128K면 책 한 권 분량을 기억하면서 대화할 수 있는 거.

"토큰(Token)"이 뭐야?

전문가 설명: AI가 텍스트를 처리하는 최소 단위. 대략 단어 하나~단어 조각 수준.
한나 버전: AI가 글 읽을 때 쓰는 '글자 단위 화폐'야. 15.5 trillion 토큰이면 인류가 만든 모든 텍스트가 다 들어가고도 남는 양.

🔥 노정석 어록 모음

"이게 그야말로 지저분한 엔지니어링 덩어리라고 보면 맞겠죠."

분위기: AI 모델 설계가 무슨 순수 과학처럼 보이지만 사실은 다 trial and error라는 걸 담담하게, 약간 허탈하게 인정하면서.

한나 풀이: AI 만드는 게 뭔가 고귀한 수학인 줄 알았는데, 사실은 "이렇게 해봤더니 되더라"의 반복이래. 유튜브 알고리즘 타는 것처럼 — 이론보다 실험이 먼저야.

"안 본 것보다는 보고 일하는 게 훨씬 나으니까. 한번 연습 문제를 풀어본 거죠, 얘 입장에서는."

분위기: 가짜 데이터라도 효과가 있다는 걸 설명하면서, 아주 당연한 듯 간결하게.

한나 풀이: AI도 우리처럼 경험이 쌓여야 실력이 늘어. Kimi는 AI한테 "헬스케어 앱 써서 이 일 처리해봐" 같은 가짜 족보를 수천만 개 풀게 했어. 실전에서 처음 보는 것보다 한 번이라도 비슷한 거 본 게 훨씬 나으니까.

"저도 나름 예전에 pre-train phase에 어설프게 알고 있었던 것이 강하게 post-train이 되면서 머릿속에 지식으로 자리 잡고."

분위기: 자기 공부 방식을 설명하면서, AI 학습 원리랑 인간 학습 원리가 같다는 걸 살짝 신기해하면서.

한나 풀이: 논문 읽는 것(데이터 입력) → Claude랑 토론하는 것(강화학습) → rule로 압축되는 것(파라미터에 저장). 노정석이 자기가 AI처럼 공부한다고 스스로 인정하는 순간이야.

🎬 한나 적용 포인트

1) 내 콘텐츠 데이터도 "rephrasing"해봐 같은 메시지를 인스타용, 틱톡용, 유튜브 쇼츠용으로 미묘하게 다르게 써서 올리는 거 — 이게 Kimi가 학습 데이터에 한 짓이랑 똑같아. 노정석이 "10번 rephrasing한 데이터가 그냥 10번 반복한 것보다 성능이 높다"고 했는데, 알고리즘도 비슷하게 반응해. 같은 정보를 다른 포맷으로 여러 번 내는 게 그냥 같은 포스팅 반복보다 도달이 좋거든.

2) AI한테 "도메인 목록" 먼저 줘봐 Kimi가 18개 비즈니스 도메인을 정해놓고 도구를 만들었듯이, Claude나 GPT 쓸 때 "나는 인플루언서이고, 내가 자주 다루는 분야는 뷰티·라이프스타일·협업 계약이야"라고 먼저 선언해봐. 그냥 질문만 던지는 것보다 AI가 훨씬 맥락에 맞는 답을 내놔.

3) 협업/계약 판단에 루브릭 만들어봐 AI한테 브랜드 협업 제안서를 평가받을 때 "도움이 돼요?" 말고, 체크리스트를 만들어봐 — "팔로워 1만 당 단가가 적정한가? 독점 조항이 있나? 내 톤앤매너랑 맞나?" AI가 루브릭 기반으로 평가하면 훨씬 일관된 판단을 받을 수 있어. 노정석이 "루브릭 없으면 AI 평가가 그냥 감상문"이라고 했던 거랑 같은 맥락이야.

🏷️ 태그

시기: #2025하
주제: #LLM설계 #에이전트AI #강화학습 #데이터합성
인물: #노정석 #최승준
자유: #Kimi K2 #중국프런티어랩 #합성데이터