EP 61. AI, 국제수학올림피아드 금메달을 따다

🗺️ 이 영상의 위치

시간순: 전체 115편 중 77번째 · 2025-07-27
시기 배경: 2025하 (AI 수학 정복기 / OpenAI IMO 금메달 + 인재 전쟁 폭발 2025년 여름)
난이도: ⭐⭐⭐ (어려운 개념 10개)
⬅️ 앞 영상: EP 60. 이제 질문이 병목이다: Right Questions are All You Need
➡️ 다음 영상: EP 62. 차세대 LLM 설계 미리 살펴보기: Kimi K2 Technical Report
- 연결 이유: IMO 충격 직후, 다음 세대 LLM 설계(Kimi K2)로 자연스럽게 이어짐

⚡ 5분 요약

한 줄

AI가 수학 올림픽 금메달 땄어 — 그것도 "수학 전용 앱"이 아니라 그냥 범용 모델이.

핵심 3개

1) AI가 IMO 금메달 땄다는 게 왜 충격이냐 IMO는 고등학생 천재들이 나오는 국제 수학 올림픽이야. AI가 수학을 잘 푸는 건 전에도 있었는데, 그때는 "수학 전용 특수 도구"를 쓴 거였거든. 이번엔 그냥 범용 추론 모델이 혼자 100분 넘게 생각해서 6문제 중 5문제를 풀었어. 유튜브 전용 계정 말고 본채널로 1000만 뷰 찍은 것 같은 충격.

2) "수학 전용이 아니다" — 이게 핵심 이 모델은 수학만 잘 하게 만든 게 아니야. 코딩도 하고, 글도 쓰고, 에이전트 작업도 하는 범용 모델인데 IMO를 풀었다는 거지. 마치 "뷰티 유튜버"가 갑자기 논문 발표를 했는데 그게 진짜 논문인 것 같은 상황. 확장성이 무서운 거야.

3) 2022년에 "덧셈도 못 했던" 모델이 2025년에 IMO 금메달 2022년 말, GPT-3.5가 세 자리 숫자 덧셈을 풀려면 풀이 과정을 단계별로 보여줘야 겨우 됐어. 그게 3년도 안 됐는데 IMO야. 속도 자체가 뭔가를 의미해.

가장 인상적인 한 마디

"매일 아침 눈을 떠서 지능의 최전선이 어디까지 나아갔는지 직접 보고, 거기에 조금이라도 더 힘을 보태 밀어 올릴 수 있다는 것은 정말 특권입니다."

한나야, 이게 무슨 말이냐면 — OpenAI 내부 연구자 Noam Brown이 한 말인데, 이 사람이 매일 아침 역사가 바뀌는 걸 제일 먼저 보는 자리에 있다는 거야. 노정석이 "그 특권이 진짜 부럽다"고 진심으로 부러워했어.

한나가 지금 당장 시도해볼 것

AI가 "범용 추론"으로 IMO를 풀었다는 건, 크리에이터 작업에서도 AI한테 "전문 도구" 연결 없이 그냥 긴 생각을 시키는 게 점점 강력해진다는 거야. 지금 당장 o3나 Claude Opus한테 "이 문제를 충분히 오래 생각해서 풀어봐" 식으로 생각 시간을 많이 줘봐. 짧게 답 받으려 하지 말고.

📖 시간대별 영상 흐름 (15분 정도 걸려, 시간 있을 때만)

0~12분: 어제 녹화 끝났는데 하루 만에 세상이 바뀌었다

최승준이 "타임라인이 오늘 낮에 들썩들썩했다"고 운을 떼. 노정석은 "녹화를 하고 있는 오늘은 2025년 7월 20일 일요일 저녁"이라고 운을 뗐는데, 어제도 녹화를 했는데 하루 사이에 너무 큰 일이 생겨서 급하게 다시 마이크 잡은 거야.

IMO(International Mathematical Olympiad) 설명을 간단히 해줘. 만 20세 미만, 대학 교육 안 받은 학생들이 이틀 동안 6문제 푸는 수학 올림픽이야. 하루에 세 문제, 4시간 30분. 42점 만점. 그리고 OpenAI의 (아직 공개 안 된) 모델이 이 중 다섯 문제를 자연어로 풀었다는 발표가 나왔어. 6번 문제(제일 어렵다는)만 못 풀었고. IMO 주최 측도 풀이가 맞다는 건 검증했어.

노정석이 "Gary Marcus가 IMO 문제는 못 풀 거라고 계속 비웃어 왔던 영역"이라고 짚어. Gary Marcus는 AI 회의론 쪽 대표 논객이거든. 그 사람이 틀렸다는 게 상징적이야.

12~25분: "수학 전용 도구 없이" — 이게 진짜 포인트

최승준이 핵심을 짚어. 전에 AlphaProof, AlphaGeometry 같은 모델들이 IMO 문제를 풀 때는 Lean이라는 수학 증명 전용 프로그램에 번역해서 넣고, 여러 가설을 대량으로 생성한 다음에 고르는 시스템을 썼거든. 그런데 이번 모델은 그런 "특수 도구(harness)" 없이 그냥 다음 토큰 예측 + 강화 학습만으로 혼자 100분 넘게 생각해서 풀었어.

노정석이 담담하게 정리해: "단일 모델이 오로지 추론을 통해서, 굉장히 긴 시간을 추론에 써서 풀었다는 것이 의미 있는 일."

최승준이 발전 속도 타임라인을 보여줘. 초등생 수준 GSM8K는 0.1분, 고등 수준 MATH는 1분, AIME(수학경시)는 10분, IMO는 100분. 생각 시간이 10배씩 늘어날수록 풀 수 있는 문제 레벨이 올라간 거야.

25~38분: OpenAI 내부 인물들의 소감 — 살짝 자부심, 살짝 마케팅

Alexander Wei(이번 프로젝트의 주요 인물), Noam Brown, Jerry Tworek 같은 OpenAI 멤버들 트윗을 최승준이 쭉 정리해줘. 핵심 포인트들:

이 모델은 IMO 전용 훈련을 거의 안 했다. 그냥 범용 강화학습을 계속했더니 IMO가 풀렸어.
"검증이 어렵고 보상이 명확하지 않은 문제에도 작동한다" — 노정석이 이 대목에서 귀를 쫑긋 세워. 수학처럼 답이 딱 떨어지지 않는 분야에도 AI가 작동하기 시작했다는 신호거든.
내년쯤엔 새 정리 유도 같은 오리지널 수학 연구에 기여하길 기대한다는 말도 나왔어.

노정석이 "매일 아침 지능의 최전선을 볼 수 있다는 특권이 진짜 부럽다"고 진심으로 말해. 이 구간에서 두 사람 다 살짝 멍해진 분위기야.

38~46분: Terence Tao와 신중한 목소리들 — "조건이 달라"

세계적인 수학자 Terence Tao가 "신중하게 보자"는 글을 올렸어. 깎아내리는 게 아니라, 인간 참가자 조건하고 AI 조건이 다르다는 거야. 예를 들면 AI는 며칠을 줬을 수도 있고, 문제를 재작성했을 수도 있고, 여러 인스턴스가 협업했을 수도 있다는 거지. DeepMind의 Neel Nanda(본인도 IMO 참가자 출신)도 비슷한 신중론을 냈어.

최승준이 "바둑에서의 기시감이 든다"고 해. 이세돌 vs AlphaGo 때처럼, 이제 AI한테 이런 분야를 빼앗기면 인간 참가자들을 위로하는 정치적인 멘트를 해야 하는 시절이 됐다는 거야. 노정석이 "너무 빨라요, 너무 빨라요"를 반복해.

46~55분: 인재 전쟁 + "뭘 해야 하나" 멍해진 두 사람

Meta가 Superintelligence 랩을 만들면서 AI 연구자들을 연봉 100억~1000억으로 스카우트하는 이야기. Windsurf라는 코딩 AI 회사를 OpenAI가 사려다 실패하고 창업자는 Google로 가고 나머지 팀은 Devin한테 팔린 복잡한 사건도 다뤄. 최승준이 "인재가 지금 같은 프리미엄을 받은 전례가 있었냐"는 Dan Shipper의 말을 인용하니까 노정석이 "스포츠 쪽엔 있었죠 — 호나우두"라고 받아.

마지막에 노정석이 솔직하게 말해: "우리는 무얼 해야 되는가가 항상 일관된 질문이었는데, 오늘은 머리가 멈췄어요. 답이 하나도 생각이 안 납니다." 미용실에서 이 소식 받고 '미용사가 될까' 생각했다는 농담도 던지는데, 웃기면서도 진짜 무서운 맥락이야.

💡 한나 버전 사전

"IMO"가 뭐야?

전문가 설명: International Mathematical Olympiad. 만 20세 미만 학생 대상 국제 수학 경시대회. 이틀간 6문제, 세계 최고 난이도.
한나 버전: 유튜브로 치면 수억 구독자가 보는 '쇼트폼 크리에이터 월드컵' 같은 거야. 참가 자체가 천재 인증인 대회.

"harness(하네스)"가 뭐야?

전문가 설명: AI 모델에 외부 도구나 검색, 코드 실행기 등을 연결해 특정 작업을 수행하게 하는 시스템 구조.
한나 버전: 영상 편집할 때 기본 앱 말고 플러그인, 자막 AI, 썸네일 툴을 죄다 연결한 워크플로 세트 있잖아. 그게 harness야. AI한테도 "수학 증명 전용 프로그램"이나 "후보 답 1000개 생성기" 같은 걸 연결하는 게 기존 방식이었는데, 이번엔 그것 없이 맨몸으로 풀었다는 거야.

"test-time compute"가 뭐야?

전문가 설명: 모델을 훈련할 때가 아니라 답을 내는 순간(추론 시)에 더 많은 계산 자원을 쓰게 하는 방법. 더 오래 생각하게 하는 것.
한나 버전: 유튜브 영상 촬영할 때 장비를 업그레이드하는 게 "학습"이라면, 촬영 당일 테이크를 10번 찍어서 제일 좋은 거 고르는 게 "test-time compute"야. 이번 AI는 촬영 당일에 그냥 혼자 100분 동안 생각을 계속한 거.

"강화 학습(RL, Reinforcement Learning)"이 뭐야?

전문가 설명: AI가 시행착오를 반복하면서 보상 신호를 통해 스스로 행동 방식을 개선하는 학습법.
한나 버전: 틱톡 알고리즘이 어떤 영상이 좋아요 많이 받았는지 보고 비슷한 걸 더 추천하잖아. 강화 학습은 AI 스스로가 그 알고리즘이 돼서 "이 방식으로 풀었더니 정답이 나왔네, 이렇게 더 하자"를 반복하는 거야.

"non-verifiable domain"이 뭐야?

전문가 설명: 정답이 맞는지 틀린지 객관적으로 바로 확인하기 어려운 영역. 수학 증명이나 코딩은 검증 쉽지만, 글쓰기나 전략적 판단은 어렵잖아.
한나 버전: "이 릴스 좋아?" — 좋아요 수로 검증 가능해. "이 브랜드 방향성 맞아?" — 딱 떨어지는 답이 없잖아. 후자가 non-verifiable domain이야. AI가 후자도 잘 하기 시작했다는 게 이 영상의 무서운 포인트.

"acqui-hire(어퀴하이어)"가 뭐야?

전문가 설명: acquisition(인수)과 hire(채용)의 합성어. 회사의 제품이나 매출보다 그 안의 인재를 목적으로 회사를 사는 것.
한나 버전: 어떤 소규모 크리에이터 팀이 너무 잘하는 거야. 대형 MCN이 "우리 채널이 필요한 게 아니라 저 PD, 편집자, 기획자가 필요해"라서 팀 전체를 데려오는 거. Windsurf 창업자들을 Google이 그렇게 데려간 거야.

"synthetic data(합성 데이터)"가 뭐야?

전문가 설명: 실제 데이터가 아니라 AI가 스스로 만들어낸 학습용 데이터. 모델이 문제를 풀고 그 풀이를 다시 학습 데이터로 쓰는 방식.
한나 버전: 내가 만든 영상으로 유튜브 쇼츠를 자동 생성하고, 그 쇼츠 반응 데이터를 다시 원본 영상 기획에 반영하는 루프. AI가 자기 풀이로 자기를 더 잘 가르치는 거야.

"Lean(린)"이 뭐야?

전문가 설명: 수학 증명을 기계가 이해할 수 있는 코드 형태로 작성해 검증하는 형식 증명 언어.
한나 버전: 계약서를 사람이 읽는 말로 쓰는 게 자연어 증명이라면, 변호사 AI가 딱딱 조항으로 파악할 수 있게 법률 언어로 바꿔 쓰는 게 Lean이야. 이번 모델은 그 딱딱한 언어로 번역 안 하고 그냥 한국어(영어)로 쭉 썼다는 거.

"Noam Brown"이 누구야?

전문가 설명: OpenAI 연구자. 포커 AI Libratus, 외교 게임 AI Cicero 등 전략 게임에서 인간을 이긴 AI를 만든 인물. 이번 IMO 팀의 상위 리더.
한나 버전: 게임 분야에서 이미 AI로 여러 번 인간을 이긴 PD 같은 사람이야. 이번에도 수학 올림픽에서 또 해냈고, 그 흥분을 트위터에 여러 번 올렸어.

"Gary Marcus"가 누구야?

전문가 설명: AI 회의론자를 대표하는 뉴욕대 심리학·신경과학 교수. LLM이 진짜 이해하는 게 아니라 패턴 매칭만 한다는 주장을 오래 해온 인물.
한나 버전: AI가 뜰 때마다 "그게 진짜 이해하는 거 아니에요"라고 반박 영상 올리는 유명 논평가 같은 사람이야. 그 사람이 "IMO는 못 풀 걸"이라고 했는데 이번에 틀렸어.

🔥 노정석 어록 모음

"더하기를 하던 애가 지금 IMO를 푸는 거죠. 더하기를 못해서 헤매던 모델이."

분위기: 최승준이 한 말이지만 노정석이 고개 끄덕이며 받아친 대목. 담담하지만 그 담담함이 더 무서운 톤.

한나 풀이: 2022년 말에 AI는 세 자리 덧셈을 풀이 단계 안 보여주면 틀렸어. 그게 3년도 안 됐는데 수학 천재 고등학생들이 나오는 국제 올림픽을 금메달로 뚫었어. 한나, 네가 팔로워 100명일 때랑 지금이랑 비교가 안 되잖아. 근데 AI의 그 격차는 3년 만에 일어난 거야.

"오늘은 머리가 멈췄어요. 답이 하나도 생각이 안 납니다."

분위기: 마지막 마무리 발언. 보통 노정석이 "그러면 우리는 무얼 해야 하는가"로 결론을 내려주는 사람인데, 이번엔 그냥 멈춰버린 거야. 웃으면서 했지만 진심이 99%인 표정.

한나 풀이: 이 사람들이 매주 AI 뉴스를 트래킹하면서 "우리는 어디로 가야 하나"를 제시하는 게 이 팟캐스트의 정체성이거든. 근데 오늘은 그걸 못 했어. 노정석 본인도 압도됐다는 거야. 한나가 "이게 나한테 무슨 의미냐"를 잘 느끼려면 이 대목을 기억해.

"인재를 담던 틀이었던 이 회사라는 틀이 지금 좀 살짝 망가진 것 같아요. 개인 단위 레벨까지 떨어져서 그 사람의 머리 안에 있는 IP도 지금 valuation이 되고 있는 거거든요."

분위기: Windsurf 사태를 정리하면서 노정석이 천천히, 생각하면서 내뱉은 말. 확신에 차있는데 무겁게.

한나 풀이: 지금까지 회사를 팔거나 사는 게 기본 단위였는데, 이제는 사람 한 명의 머릿속 지식에 1000억을 매긴다는 거야. 한나, 한나의 콘텐츠 감각이나 브랜드 감각도 결국 "머릿속 IP"야. 이 논리로 가면 크리에이터의 개인 브랜드 가치가 훨씬 더 중요해지는 방향이야.

🎬 한나 적용 포인트

"AI한테 생각 시간을 길게 줄수록 답이 달라진다" — 콘텐츠 기획에 써봐 IMO 모델이 100분 생각해서 금메달 딴 것처럼, AI한테 콘텐츠 기획을 맡길 때 "10초 안에 답 줘"가 아니라 "이 브랜드 방향을 깊이 고민해서 3가지 시나리오를 비교해봐"식으로 길고 복잡한 프롬프트를 줘봐. o3나 Claude한테 특히 효과 있어.

인재 = 머릿속 IP라는 관점으로 본인 브랜드 재정의 Windsurf 창업자들이 회사 매출보다 더 비싸게 팔린 이유가 "그 사람들 머릿속에 있는 노하우" 때문이야. 한나의 팔로워·조회수가 아니라 "콘텐츠 감각, 알고리즘 읽는 법, 협업 경험" 이것들이 진짜 자산이야. 포트폴리오나 미디어킷에 수치 말고 "나만의 방법론"을 넣어봐.

"non-verifiable한 것"에서 차별점 찾기 AI가 수학처럼 정답이 있는 문제는 이제 다 잘 풀어. 근데 "이 브랜드 이미지가 맞나", "이 협업 파트너가 우리 톤이랑 맞나", "이 시기에 이 주제가 트렌드를 탈 수 있나" — 이런 감각 판단은 아직 AI가 한나만큼 못 해. 크리에이터로서 경쟁력을 이 영역에 집중하는 게 지금 타이밍이야.

🏷️ 태그

시기: #2025하
주제: #AI수학 #인재전쟁 #추론모델 #AGI신호
인물: #노정석 #최승준 #Noam Brown
자유: #IMO금메달 #하네스를삼켜버린AI #압도감