← 메인으로
EP. 63·25.08.02·⭐⭐⭐·54분 50초

GPT-5를 기다리며

GPT-5 직전, 두 사람이 GPT-1부터 지금까지 AI 흐름을 복기하며 "결국 좋은 질문을 가진 사람이 이긴다"는 결론에 도달하는 에피소드.

▶ 유튜브에서 원본 보기← 앞: EP 62. 차세대 LLM 설계 미리 살펴보기: Kimi K2 Technical Report→ 다음: EP 64. gpt-oss talk with Lablup 신정규 대표

EP 63. GPT-5를 기다리며

🗺️ 이 영상의 위치

⚡ 5분 요약

한 줄

GPT-5 직전, 두 사람이 GPT-1부터 지금까지 AI 흐름을 복기하며 "결국 좋은 질문을 가진 사람이 이긴다"는 결론에 도달하는 에피소드.

핵심 3개

1) GPT-5, 진짜 곧 나온다 — 구글도 긴장해서 먼저 카드 꺼냄 GPT-5 출시 임박 신호가 곳곳에서 터졌어. Gemini 2.5 Deep Think가 갑자기 공개되고, LM Arena에 수상한 익명 모델들이 줄줄이 등장했다가 회수됐거든. 노정석은 "회수됐다는 것 자체가 정식 출시 임박 신호"라고 봤어. 경쟁사가 미리 카드 꺼내는 거, 유튜버가 경쟁 채널 콜라보 영상 나오기 전에 급하게 단독 영상 올리는 것처럼.

2) GPT-1부터 지금까지 — 7년 압축 역사 2017 Transformer 논문 → 2018 GPT-1 → 2019 GPT-2(심상치 않다) → 2020 GPT-3(이게 되는 게임이다) → 2023 GPT-4(완전히 되는 게임이다) → 2024 o1·o3(추론 혁명). 스케일 키우기가 한계에 오자 "강화학습+추론"으로 우회했고, 지금은 그 강화학습의 마지막 숙제인 '검증 불가 영역'까지 깨려는 중이야.

3) 질문이 해자다 — 좋은 모델이 나와도 질문 못하면 남의 것 AI가 아무리 좋아져도, 무엇을 물어야 할지 모르면 그 능력을 꺼낼 수 없어. 노정석 표현대로 "가지고 있는 것조차 열심히 일하는 사람에게 뺏기는" 구조야. 인스타 알고리즘이 아무리 좋아도 뭘 올릴지 모르면 소용없는 것처럼 — 도구보다 질문 능력이 진짜 해자.

가장 인상적인 한 마디

"가지고 있는 것조차 열심히 일하는 사람한테 다 뺏겨버릴 수 있는 그런 세상인 거죠."

한나야, 이게 무슨 말이냐면 — AI가 모두에게 공평하게 주어지는 게 아니라, 더 잘 쓰는 사람한테 기회가 몰린다는 거야. 지금도 릴스 알고리즘은 모두에게 열려 있지만 팔로워는 잘 쓰는 사람한테만 폭발적으로 몰리잖아.

한나가 지금 당장 시도해볼 것

최승준이 공개한 "두 권의 책 무작위 펼치기 프롬프트"를 그대로 써봐. 책 두 권 아무 페이지나 펼치고 ChatGPT(o3)한테 "이 두 내용의 뜻밖의 연결고리를 찾아줘, 피상적이면 더 밀어붙여"라고 해봐. GPT-5 나오면 똑같은 프롬프트로 비교 테스트해 — 성능 체감하는 제일 좋은 방법이야.

📖 시간대별 영상 흐름 (15분 정도 걸려, 시간 있을 때만)

0~10분: GPT-5 출시 임박 — 경쟁사들 벌써 긴장 중

노정석이 "오늘은 2025년 8월 2일 토요일 아침"이라고 운을 떼면서, 트위터 타임라인이 GPT-5 하이프로 불타고 있다고 해. 최승준이 신나게 현황 브리핑을 시작해.

오늘 새벽 Gemini 2.5 Deep Think가 갑자기 공개됐어. IMO(국제수학올림피아드)에서 금메달 수준 성능을 낸 바로 그 모델이야. AIME(수학 경시) 99.2%, 코드 생성 능력은 이전 모델보다 13%나 올라갔대. 최승준이 "GPT-5가 나오니까 구글이 카드를 꺼내는 패턴에 딱 맞아떨어진다"고 웃으면서 말하고, 노정석이 "구글이 이러는 걸 보니 GPT-5 출시 정말 임박했다"고 단정 지어.

LM Arena에는 lobster, summit, zenith라는 이름의 정체불명 모델들이 출몰했다가 싹 회수됐어. 노정석이 "회수됐다는 거 자체가 정식 출시 임박 신호"라고 짚어. 그 중 zenith가 GPT-5 아닐까 커뮤니티에서 추정 중이래.

10~22분: Universal Verifier — AI가 '답 확인 불가 영역'까지 뚫는다

The Information의 기자 스테파니가 새벽에 트윗을 날렸어. "GPT-5는 강화학습과 universal verifier 등 다양한 기법으로 성능 향상 둔화를 우회했다"는 내용이야. 최승준이 이 단어에 꽂혀서 "이게 뭔데요?"라고 파고들기 시작해.

노정석이 조곤조곤 설명해줘. 예전까지는 AI가 수학이나 코딩처럼 "맞다/틀리다"를 명확히 확인할 수 있는 문제만 강화학습으로 훈련할 수 있었어. 근데 "맞다/틀리다"를 확인할 수 없는 영역(글쓰기, 감성, 전략적 판단 등)은 학습을 못 했거든. Universal verifier는 그 확인 자체를 AI 모델이 하게 하는 거야 — 더 크고 똑똑한 모델이 심판 역할을 맡는 거지.

최승준이 약간 불안한 얼굴로 "그러면 non-verifiable 영역을 verifiable하게 만드는 걸 시스템 안에 넣었다는 건데, 어디로 도망가야 하는 건가요?"라고 물어. 노정석이 잠깐 생각하다가, "감성적 선호가 지배하는 영역 — 히트 브랜드, 패션, 정말 터지는 콘텐츠 — 이쪽은 여전히 verifiable하지 않은 영역으로 한참 남아 있을 거야"라고 답해.

그러면서 GPT-5 테크 리포트 얘기로 넘어가. 두 사람 다 "발표는 하겠지만 진짜 breakthrough는 절대 안 알려줄 거야"라고 쓴웃음 지어.

22~35분: GPT-1부터 현재까지 — 7년 AI 역사 빠른 복기

최승준이 "GPT-5 나온다는데 나는 방향을 잃었어"라고 솔직하게 털어놓으면서, 역사를 다시 훑어보겠다고 해. 위키백과 타임라인을 열어두고 조근조근 설명해.

2017년 Transformer 논문, 2018년 GPT-1, 2019년 GPT-2("심상치 않다, 공개해도 되나?"라는 논란이 있었던 시절). GPT-3에서 175B으로 파라미터를 100배 키우자 "이게 되는 게임이다"는 느낌이 처음 왔대. 노정석이 "저희 둘 다 GPT-3에서 AI에 다시 빠져들었다"고 고개 끄덕여.

GPT-4가 2023년 3월에 나오면서 "AI 완전히 되는 게임"이라는 충격을 줬고, 두 사람이 이 팟캐스트 시리즈를 시작한 게 바로 두 달 뒤인 2023년 5월이야. 그러고 보면 이 시리즈 자체가 GPT-4 충격의 산물인 셈이지.

Claude, Gemini, Grok 타임라인도 빠르게 훑어. 구글이 2023년은 절치부심했다가 Gemini 2.5 Pro부터 "뭔가 됐다"는 평가를 받기 시작했고, Grok은 데이터센터 어마어마하게 지으며 따라왔다고. 최승준이 "제일 빨리 따라온 건 Grok"이라고 감탄.

35~45분: 경험의 시대 + 부트스트래핑 — AI가 스스로 지식을 탐색한다

여기서 두 사람이 좀 깊어져. 스케일 키우기가 한계에 오자 "test-time scaling"(추론할 때 더 많은 계산을 쓰는 것)으로 우회했고, 그것도 모자라서 이제 모델이 직접 새로운 경험(데이터)을 탐색하는 시대라는 거야.

노정석이 핵심을 짚어. "지식을 창조하는 게 아니라, 이미 존재하는 것들을 컴퓨터 계산을 투입해서 탐색하는 문제로 전환하는 거야. 모든 지식의 생성을 탐색 문제로 바꿀 수 있다는 게 핵심이야."

Veo 3(구글 영상 생성 AI) 얘기도 나와. Demis Hassabis가 Veo 3를 "궁극의 물리 세계 시뮬레이터"로 본다고. 최승준이 힌튼의 말을 빌려 설명해 — "다음 프레임을 예측하려면 물리 법칙을 이해해야 하고, 추리소설에서 '범인은...' 다음 단어를 예측하려면 추리를 해야 하는 것처럼."

그리고 Kimi K2에서 봤던 "도구를 상상하는 것만으로 유창성이 는다"는 개념과 연결해. 모델이 경험을 쌓는 방식이 인간과 비슷해지고 있다는 거야.

45~54분: 질문이 해자다 — 그리고 인간이 남는 이유

마지막 구간에서 두 사람이 제일 인상적인 얘기를 쏟아내. Gwern Branwen의 글에서 최승준이 인용한 문장 — "당신이 물어볼 줄 아는 것들에 대해서만 작동한다." 즉, 질문을 모르면 AI 능력을 못 꺼낸다는 거야.

노정석이 여기서 뼈 때리는 말을 해. "기술 출현은 사람을 공평하게 만드는 게 아니야. 농경→산업→정보 사회 때도 먼저, 잘 쓴 사람에게 부가 몰렸거든. 지금도 마찬가지야. 가지고 있는 것조차 열심히 일하는 사람한테 뺏겨버릴 수 있어."

최승준이 "질문을 떠올리는 것 자체를 계산으로 환원시켰다"는 점에서 약간 무서워해. AI가 24시간 무작위 연결을 돌리며 "좋은 질문"을 스스로 만들어낼 수도 있다는 거거든.

그러면서도 두 사람은 희망적인 결론에 닿아. 노정석이 "AI가 모든 생산 수단을 가져가도, 사람이 믿는 사람이 해주는 말은 다르다"고 해. 장인이 만든 핸드백이 공산품 옆에서도 몇천만 원에 팔리듯이. 최승준이 바둑계 얘기를 담은 책 '먼저 온 미래'를 읽고 있다며 마무리해 — "GPT-5가 나올 즈음 다 읽을 것 같다"고.


💡 한나 버전 사전

"Universal Verifier"가 뭐야?

  • 전문가 설명: AI 훈련에서 "이 답이 맞는지 틀린지"를 확인해 주는 심판 역할을 AI 모델 자체가 맡는 시스템. 기존에 검증 불가능했던 영역까지 AI 심판이 판정하게 만드는 기술.
  • 한나 버전: 유튜브 영상 품질을 사람 PD가 아니라 AI가 직접 "이게 더 재밌어/별로야"를 판단하고 채점하는 거야. 예전엔 "재밌는 영상"은 AI가 평가 못 했는데, 이제 AI 심판이 그것도 하겠다는 거지.

"Non-verifiable 영역"이 뭐야?

  • 전문가 설명: 수학처럼 "정답이 있는" 문제와 달리, 좋은 글쓰기·히트 브랜드·패션처럼 정답이 없어서 AI가 "맞다/틀리다"로 학습할 수 없는 영역.
  • 한나 버전: "이 릴스가 바이럴될까?"는 정답이 없잖아. 올려봐야 알거든. 그게 non-verifiable 영역이야. 반대로 수학 문제 풀기는 정답 있으니까 verifiable.

"Test-time Scaling"이 뭐야?

  • 전문가 설명: 모델을 더 크게 만드는 게 아니라, 답을 낼 때 더 많은 계산 자원과 시간을 쓰게 해서 성능을 올리는 방법.
  • 한나 버전: 촬영 장비 업그레이드(모델 키우기) 대신 편집에 10배 더 공 들이는(더 오래 생각하게 하기) 것과 같아.

"Capability Overhang"이 뭐야?

  • 전문가 설명: AI 모델이 실제로 쓰이는 것보다 훨씬 더 많은 능력을 내부에 갖고 있는데, 아직 꺼내지 못한 상태.
  • 한나 버전: 카메라가 RAW 촬영 기능 있는데 JPEG만 쓰고 있는 것처럼 — 기능은 다 있는데 활용을 못 하는 상태야.

"LM Arena"가 뭐야?

  • 전문가 설명: AI 모델들을 익명으로 올려서 사람들이 직접 비교 평가하는 플랫폼. 출시 전 AI 회사들이 몰래 테스트로 올려놓는 경우가 많아.
  • 한나 버전: 콘텐츠 크리에이터가 새 채널을 익명으로 만들어서 알고리즘 반응 테스트해보는 것처럼, AI 회사들이 신모델을 익명으로 올려서 반응 보는 곳.

"Post-training"이 뭐야?

  • 전문가 설명: 모델의 기본 학습(pre-training) 이후에, 특정 목적에 맞게 추가로 조율하는 과정. RLHF, instruction tuning 등이 여기에 해당.
  • 한나 버전: 기초 촬영 실력(pre-training) 쌓은 다음, 뷰티 콘텐츠 특화로 추가 연습(post-training)하는 것. 같은 기본기에서 출발해서 뷰티/음식/여행으로 갈리는 거야.

"RLHF"가 뭐야?

  • 전문가 설명: Reinforcement Learning from Human Feedback. 사람이 AI 답변에 좋다/싫다 피드백 주면 AI가 그걸 보상 신호로 삼아 학습하는 방법.
  • 한나 버전: 영상 올릴 때마다 구독자들이 좋아요/싫어요 누르고, 그 반응 보고 다음 영상 방향 잡는 것처럼 — AI도 사람 반응 보고 스스로 교정하는 거야.

"Bootstrapping"이 뭐야? (AI 맥락에서)

  • 전문가 설명: AI가 외부 데이터 없이 자기 자신이 생성한 데이터를 학습해 능력을 끌어올리는 방식. 자기 발목을 잡아 스스로 들어올리는 비유에서 온 단어.
  • 한나 버전: 내 예전 영상 분석해서 "이게 잘됐던 패턴이네" 학습해서 다음 영상에 적용하는 것처럼, AI가 자기 결과물로 자기를 학습시키는 거야.

"Semantic Scaffold (시맨틱 스캐폴드)"가 뭐야?

  • 전문가 설명: AI에게 좋은 답을 이끌어내기 위해 의미론적으로 잘 설계된 프롬프트 구조. 비계(scaffold)처럼 AI 사고를 지탱해주는 틀.
  • 한나 버전: 브리프를 잘 쓰면 디자이너한테 훨씬 좋은 결과물이 나오는 것처럼 — AI한테도 질문 틀 자체를 잘 짜면 훨씬 좋은 답이 나오는 거야.

🔥 노정석 어록 모음

"가지고 있는 것조차 열심히 일하는 사람한테 다 뺏겨버릴 수 있는 그런 세상인 거죠."

분위기: 성경 구절 인용하듯 차분하고 무거운 톤. 경고에 가까운 말.

한나 풀이: AI가 모두를 공평하게 만들어줄 것 같지만, 그게 아니라는 거야. 릴스 알고리즘은 모두한테 열려 있어도 팔로워는 잘 쓰는 사람한테만 몰리잖아. 기술은 언제나 먼저, 잘 활용한 사람한테 부를 집중시켜왔고, AI도 마찬가지라는 뼈 때리는 말이야.


"모든 knowledge의 생성을 search problem으로 전환할 수 있다가 사실 핵심이에요. 컴퓨터를 더 투입하고 적절한 RL과 harness를 잘 만들면 끝까지 갈 거라는 얘기를 하고 있는 것 같아요."

분위기: 담담하지만 무게 있는 톤. "이미 결론이 났다"는 느낌.

한나 풀이: 새로운 아이디어를 "발명"하는 게 아니라, 이미 존재하는 가능성을 컴퓨터로 열심히 "찾아내는" 것으로 AI가 지식을 만들어간다는 거야. 콘텐츠 아이디어를 천재처럼 발명하는 게 아니라, 데이터 기반으로 유사 사례를 빠르게 탐색하는 AI의 작동 방식이 딱 이거야.


"할 필요는 없지만, 하는 게 의미가 있을 지점이 있을 것 같아요."

분위기: 에피소드 마무리에서 조용히, 그런데 제일 진지하게.

한나 풀이: AI가 팟캐스트 스크립트도 다 써줄 수 있게 됐을 때, 그래도 두 사람이 직접 하는 이유. 장인 핸드백처럼 "사람이 직접 만든 것"의 가치가 따로 생길 거라는 거야. 한나한테도 적용돼 — AI가 콘텐츠를 다 만들어줘도, 한나가 직접 찍고 말하는 콘텐츠의 신뢰와 감성은 따로 있거든.


🎬 한나 적용 포인트

1) GPT-5 나오면 Day 1에 Dan Shipper 블로그 찾아봐 최승준이 언급한 Everyday AI의 Dan Shipper는 신모델 나오는 날 바로 깊이 있는 사용법 블로그를 써. GPT-5 나오면 구글에 "Dan Shipper GPT-5" 검색해서 제일 먼저 읽어봐. 신모델을 "쓰던 방식으로" 쓰면 성능 차이를 못 느끼거든. 새 모델은 새 방식으로 써야 해.

2) "Non-verifiable 영역"이 한나의 해자야 — 거기 깊어져 노정석이 "히트 브랜드, 패션, 진짜 터지는 감성 콘텐츠는 AI가 검증 못 하는 영역으로 한참 남는다"고 했어. 한나가 하는 일이 딱 거기야. 수치로 최적화되는 것 말고, 팔로워가 "이 사람이라서 본다"는 감성적 유대를 더 깊게 만드는 방향으로 브랜드를 쌓아. AI가 못 들어오는 마지막 땅이거든.

3) 새 모델 테스트할 나만의 "단골 프롬프트" 미리 만들어둬 최승준이 "나는 o3 테스트하던 프롬프트로 GPT-5를 비교할 거야"라고 했잖아. 한나도 콘텐츠 기획 관련 프롬프트 하나 만들어두면 돼 — 예를 들어 "내 최근 5개 영상 제목 알려줄게, 이다음에 뭘 만들면 좋을지 예상 못 한 각도로 3개 제안해줘." 이 프롬프트를 고정으로 써두면 어떤 새 모델이 나와도 바로 비교 테스트가 돼.

🏷️ 태그