EP 16. GPT-3 의 네번째 생일을 기념하며

🗺️ 이 영상의 위치

시간순: 전체 115편 중 16번째 · 2024-06-03
시기 배경: 2024상 (AI 가속기 / GPT-3 4주년 회고 + GPT-5 학습 시작 소문 무렵)
난이도: ⭐⭐⭐ (어려운 개념 9개)
⬅️ 앞 영상: EP 15. GPT-5 가 보여줄 스케일의 의미 (24.05.28)
➡️ 다음 영상: EP 17. 드디어 LLM 의 저장용량이 밝혀졌다!
- 연결 이유: LLM의 저장용량(파라미터 수) 이야기가 이 영상의 "모델 크기 vs 성능" 논의에서 자연스럽게 이어짐

⚡ 5분 요약

한 줄

GPT-3 4주년을 핑계로 "왜 어떤 사람들은 AI 미래를 남들보다 4년 먼저 봤는가"를 파헤치는 회고 토크.

핵심 3개

1) "알고리즘보다 규모"라는 깨달음이 세상을 바꿨다 2020년 GPT-3가 나오기 전까지는 AI를 더 잘 만들려면 "더 똑똑한 알고리즘"이 필요하다고 다들 믿었어. 그런데 GPT-3는 그냥 모델을 100배 크게 키웠더니 알아서 더 잘하더라는 걸 증명해 버렸어. 카파시는 그 순간 산책을 나가야 할 만큼 충격을 받았다고 했고, 그게 오늘날 엔비디아가 3,000조 기업이 된 이유야.

2) 정보 격차가 곧 타이밍 격차다 Anthropic 창립자 4명이 GPT-3 논문 저자 목록에 있어. 그 논문 쓰면서 "이거 된다"는 걸 먼저 알았으니까 OpenAI에서 나와서 회사 차린 거야. 노정석·최승준도 고백하는데, 두 사람 다 GPT-3 나왔을 때 "그런가 보다" 하고 흘려보냈거든. 정보를 먼저 본 사람이 먼저 움직인다는 이야기.

3) 모델은 작아지고 있는데 오히려 더 똑똑해지고 있다 예전엔 GPT-3처럼 175B(1750억) 파라미터짜리 거대 모델이 필요했는데, 지금은 2B짜리 작은 모델도 데이터 품질만 높이면 GPT-3를 능가해. 모델 크기 경쟁에서 데이터 품질 경쟁으로 판이 바뀌고 있는 거야.

가장 인상적인 한 마디

"오늘 누군가 나에게 10배 더 큰 컴퓨터를 준다면 정확히 어떻게 활용할지 알 것 같고, 그다음에 더 달라고 할 거예요."

한나야, 이게 무슨 말이냐면 — 카파시가 GPT-3 보고 나서 "이제 돈만 있으면 AI가 더 잘 된다는 공식이 생겼다"는 걸 깨달은 거야. 그 전까진 컴퓨터 10배 줘도 어디 쓸지 몰랐거든.

한나가 지금 당장 시도해볼 것

Claude나 ChatGPT한테 어려운 글 하나 던지고 "쉽게 풀어서 설명해 줘"라고 해봐. 노정석이 영상에서 논문을 Claude에 던지면서 실시간으로 쓰는 그 방식이야. 긴 글 이해 시간이 반으로 줄거든.

📖 시간대별 영상 흐름 (15분 정도 걸려, 시간 있을 때만)

0~12분: GPT-3 4주년 — 카파시의 트윗으로 문 열기

노정석이 "오늘 6월 3일인데요" 하면서 편하게 시작해. 안드레이 카파시(Andrej Karpathy, OpenAI 전 핵심 연구원)가 5월 28일에 트윗을 하나 올렸거든. GPT-3 나온 날이 딱 4주년이라고. 최승준이 그 트윗을 Claude에 번역 시키면서 소리 내어 같이 읽어.

카파시가 한 말이 꽤 묵직한데 — "2020년 GPT-3 논문 보는 순간 일 멈추고 산책 나가야 했다. AI에서 중요한 법칙 하나가 뒤집혔다는 감각이 왔다." 그게 뭐냐면, 그전까지는 AI를 더 잘 만들려면 더 영리한 알고리즘이 필요하다고 다들 믿었는데, GPT-3가 "그냥 크게 키우면 돼"를 증명한 거야. 카파시가 말하길 "지금 누가 나한테 10배 큰 컴퓨터 주면 어떻게 쓸지 정확히 알고, 더 달라고 할 거야." 그게 엔비디아가 지금 3,000조 기업인 이유라고.

노정석은 "나는 GPT-3 나왔을 때 뭔지 몰랐어"라고 솔직하게 인정해. 최승준도 "저는 2022년 2월에야 겨우 써봤어요"라고 고백. 두 사람이 "그래, 우리 둘 다 늦었지" 하면서 웃는 분위기.

12~25분: 스케일링 법칙 논문 — "크게 키우면 좋아진다"의 증거

최승준이 GPT-3 논문 저자 목록을 열어보면서 "여기 아는 얼굴 많다"고 해. Ilya Sutskever(OpenAI 공동창립자), Dario Amodei(Anthropic CEO), 그리고 Jared Kaplan(스케일링 법칙 논문의 핵심 저자). 그러면서 2020년 1월에 나온 'Scaling Laws for Neural Language Models' 논문 얘기로 넘어가.

이 논문의 핵심은 세 줄이야: 모델 크기 키우면 더 잘해, 데이터 키우면 더 잘해, 연산 많이 때려 넣으면 더 잘해 — 그것도 수학적으로 예측 가능하게. 최승준이 Claude한테 번역 시키면서 읽어가고, 노정석은 "논문 읽을 때 Claude 끼고 읽으면 수식도 자연어로 바꿔줘서 완전 짱이야"라고 거드는데, 이게 이 에피소드 전체의 시범 사례기도 해.

그러고 나서 2019년에 쓰인 "The Bitter Lesson(쓴 교훈)"도 언급돼. Richard Sutton이라는 강화학습 대가가 쓴 글인데 — "결국 AI는 알고리즘이 아니라 연산 규모가 이긴다"는 메시지야. 스케일링 법칙 논문이 나오기 딱 10개월 전에 이미 이 방향을 예고한 셈.

25~38분: Gwern, Anthropic 창립, 그리고 "먼저 본 사람들"

최승준이 "GPT-3를 일찍 써보고 그 의미를 글로 설명한 사람이 있었다"면서 Gwern Branwen이라는 익명 작가 얘기를 꺼내. 이 사람이 GPT-3 나온 지 한 달 만에 프롬프트 가이드북을 만들었어 — "Chapter 1:" 치면 다음 내용이 자동으로 생성되는 걸 온갖 창작물로 실험한 거야. 오늘날 우리가 아는 프롬프트 엔지니어링의 최초 형태라고 봐도 돼.

그다음 재밌는 대목. Anthropic 공동창립자 7명 중 4명이 GPT-3 논문 저자야. 그리고 Jared Kaplan, Dario Amodei, Sam McCandlish 셋 다 물리학 박사. 최승준이 "물리학 배경이 뭔가 있다"고 흥미로워하면서 Jared Kaplan의 강연 내용을 소개해. 핵심 비유가 눈송이야: "눈송이를 만들려면 조각을 붙이는 게 아니라 물리 법칙을 이해하고, 충분한 원재료(데이터), 공간(파라미터), 적절한 조건(학습 목표)을 세팅한 뒤 기다리는 거다. 그게 유일한 방법이다." AI 모델도 똑같다는 거야.

노정석이 "복잡계 네트워크 얘기네, 상변이랑 같은 거잖아"라고 연결하고, 최승준은 "AI 모델이 학습하다가 어느 순간 확 점프해서 새로운 능력이 생기는 것도 물리학의 상전이랑 비슷하다"고 받아쳐.

38~50분: 베이즈 정리와 정보 격차

최승준이 뜬금없이 "베이즈 정리 아세요?" 하고 꺼내. 노정석이 "시험 문제도 풀었죠" 하면서 웃는데, 요점은 이거야: 데이터(증거)가 많을수록 더 정확한 예측이 가능하다. 근데 핵심 정보를 먼저 가진 사람들이 더 정확하게 베팅할 수 있다는 거.

실리콘밸리에서는 Google·OpenAI·DeepMind 사람들이 서로 오가며(캘리포니아는 경업 금지가 법으로 안 돼) 정보가 inner circle 안에서는 굉장히 빠르게 흐른대. 반면 바깥에 있는 우리한테는 완전 기밀. 노정석이 "그래서 그들은 우리보다 다른 확률 분포로 의사결정하는 거야"라고 정리하면서 "좀 부럽다"고 솔직하게 털어놔.

그러면서 Anthropic 누군가가 올린 글 얘기도 나와 — "3년 뒤엔 나 일 안 하고 있을 것 같다". 노정석이 그 글을 Claude한테 "어떻게 생각하냐"고 물어봤더니 Claude는 "좀 앞서간 것 같다"고 대답했대. 2027년이면 2030년 AGI 예측이랑 얼추 맞는다는 얘기도.

50~59분: 모델은 작아지고, 생태계는 커진다

노정석이 흥미로운 관찰을 꺼내. GPT-3는 175B(1750억 파라미터)짜리 거대 모델이었는데, 지금은 2B짜리 소형 모델이 데이터 품질만 높이면 그 성능을 훌쩍 넘어. 심지어 GPT-4o가 GPT-2 수준의 작은 모델일 거라는 추측도 있대 — 그러면서도 GPT-5급 학습 방법론으로 똑똑하게 훈련됐을 거라고.

카파시가 llm.c(C언어로 LLM 처음부터 짜는 오픈소스 프로젝트)를 하는 이유를 노정석이 이렇게 해석해: "대형 방송국만 있는 게 아니라 유튜버 10만 명이 있는 것처럼, AI 생태계에도 user-generated AI의 세상이 올 거라고 카파시가 베팅하는 것 같다." 최승준이 "그럴 수 있겠다"고 고개 끄덕.

마지막에 최승준이 Anthropic 관련 Holden Karnofsky(Dario Amodei 처형 남편)의 글 "가장 중요한 세기"를 살짝 꺼내면서 — 인구 증가가 멈춘 시대에 AI가 '디지털 인구'가 돼야 한다는 얘기가 나오고 "이건 다음에 따로 다루자"며 마무리.

💡 한나 버전 사전

"Scaling Law(스케일링 법칙)"이 뭐야?

전문가 설명: AI 모델의 크기, 학습 데이터 양, 투입 연산량 세 가지를 늘리면 성능이 수학적으로 예측 가능하게 좋아진다는 법칙.
한나 버전: 유튜브 조회수가 영상 수, 업로드 주기, 제목 퀄리티에 비례해서 오르는 공식이 있다면? 스케일링 법칙이 딱 그거야. 더 많이, 더 크게 하면 더 잘 된다 — 근데 그게 수학적으로 증명된 거야.

"파라미터(Parameter) / B(Billion)"가 뭐야?

전문가 설명: AI 모델이 학습을 통해 조정하는 내부 숫자들의 총 개수. 175B는 1,750억 개.
한나 버전: 콘텐츠 크리에이터의 "경험치"라고 생각해. 영상을 더 많이 찍을수록 편집·기획·썸네일 감이 늘잖아. 파라미터가 많다는 건 그 경험치 칸이 더 많다는 거야.

"Anthropic(앤트로픽)"이 뭐야?

전문가 설명: OpenAI에서 나온 사람들이 2021년에 세운 AI 안전 중심 연구 회사. Claude를 만든 곳.
한나 버전: 대형 MCN에 있다가 "우리는 다른 방향으로 가겠다"며 독립한 크리에이터 팀이야. 근데 그 팀이 업계 최고 실력자들이었던 거지.

"Gwern Branwen"이 누구야?

전문가 설명: 본명 미상의 익명 리서처·작가. GPT-3 초기에 가장 깊이 실험하고 분석글을 남긴 인물.
한나 버전: 아무도 뷰티 크리에이터가 뭔지 모를 때 혼자 유튜브 전략 분석 글 써서 올린 사람 있잖아. 근데 그 사람이 나중에 보면 전부 맞는. 그게 Gwern이야.

"The Bitter Lesson(쓴 교훈)"이 뭐야?

전문가 설명: 2019년 강화학습의 대가 Richard Sutton이 쓴 글. AI 역사를 보면 "영리한 알고리즘"보다 "컴퓨팅 규모 확장"이 항상 이겼다는 주장.
한나 버전: "콘텐츠 퀄리티보다 결국 업로드 양이 이겼더라." 이게 크리에이터판 쓴 교훈이야.

"베이즈 정리(Bayes' Theorem)"가 뭐야?

전문가 설명: 새로운 증거(데이터)가 들어올 때마다 기존 확률 추정을 업데이트하는 수학 공식.
한나 버전: 협찬 제안을 수락할지 판단할 때 — "저번에 비슷한 브랜드 했더니 반응 별로였어"라는 경험(데이터)을 쌓을수록 다음 판단이 더 정확해지잖아. 그 과정을 수식으로 쓴 게 베이즈야.

"유효 이론(Effective Theory)"이 뭐야?

전문가 설명: 물리학 개념. 모든 세부 사항을 다 알 필요 없이, 내가 관심 두는 범위에서만 유효한 설명으로 충분하다는 접근.
한나 버전: 틱톡 알고리즘 작동 원리 전부 몰라도 "릴스 첫 3초가 핵심이야"라는 규칙 하나로 콘텐츠 짜는 것. 그게 유효 이론이야.

"MoE(Mixture of Experts)"가 뭐야?

전문가 설명: AI 모델 구조 중 하나. 전체 모델이 한꺼번에 다 돌지 않고, 질문에 따라 전문 영역 일부만 활성화되는 방식.
한나 버전: 풀서비스 에이전시 말고, 브랜드마다 맞는 전문 팀만 붙여주는 시스템. 요리 콘텐츠 들어오면 푸드 팀만, 뷰티 들어오면 뷰티 팀만 딱 켜지는 거야.

"mechanistic interpretability(기계론적 해석 가능성)"가 뭐야?

전문가 설명: AI 모델 내부를 역공학(분해)해서 "이 뉴런이 왜 이 반응을 했는가"를 추적하는 연구 분야. Christopher Olah가 개척.
한나 버전: 내 영상 중 어떤 씬에서 시청자가 이탈했는지 유튜브 분석으로 파악하듯이, AI 뇌 속에서 어떤 회로가 어떤 생각을 만드는지 들여다보는 거야.

🔥 노정석 어록 모음

"GPT-3가 나오고 나서는 '뭐, 이거는 차원이 다른 성능인데.' 물론 지금 GPT-4랑 Claude의 Opus랑 대화하는 그런 관점에서 보면 사실 GPT-3의 초기 모델은 약간 쓰레기에 가깝죠. 지금 기준으로 보면."

분위기: 웃으면서 솔직하게 털어놓는 톤. "그때는 감동이었는데 지금 보면..." 하는 그 뉘앙스.

한나 풀이: AI 발전 속도가 얼마나 빠른지를 보여주는 한 마디야. 4년 전 "와, 대박" 이었던 게 지금은 "쓰레기"급이 됐다는 거. 콘텐츠로 치면 2020년 최고 편집 유튜버 영상이 지금 기준으로는 아마추어처럼 보이는 것과 똑같아.

"나는 이 정도에서 끊겠다는 그 기준이 좀 서 있지 않으면 정말 토끼 굴이 되거든요."

분위기: 약간 경고하듯, 자기 자신한테도 하는 말처럼 진지하게.

한나 풀이: AI 공부하다 보면 "이거 이해하려면 저것도 알아야 해 → 저것 알려면 이것도 → 이것 알려면 저것도" 무한 굴로 빠져. 노정석이 말하는 건 "어느 레벨까지만 알겠다"는 선을 미리 긋는 게 실력자의 습관이라는 거야. 한나도 틱톡 알고리즘 완전 분해 말고 "내가 쓸 것만" 골라서 아는 게 훨씬 효율적이잖아.

"저희 같은 소위 거대 방송국이 있으면 10만의 유튜버도 있는 거거든요. AI 계에서의 user-generated AI, 이런 것의 생태계도 굉장히 커질 거다 라는 부분에 베팅하고 있는지도 모르겠다는 생각이 들어요."

분위기: 들뜬 듯 흥미로워하면서 혼자 아이디어 펼쳐보는 톤.

한나 풀이: 카파시가 오픈소스 AI 프로젝트를 왜 하는지를 노정석이 이렇게 읽은 거야. OpenAI·Google 같은 대형 방송국만 있는 게 아니라, 개인 크리에이터처럼 자기만의 AI 모델을 만드는 시대가 온다는 예측. 그 인프라를 미리 깔아주는 역할을 카파시가 하고 있다는 거지.

🎬 한나 적용 포인트

1) "내가 아는 정보 레벨을 먼저 점검해" 노정석·최승준 둘 다 GPT-3 나왔을 때 "그런가 보다"하고 넘겼잖아. 지금 네 주변에 "AI로 이런 거 되던데"라는 말을 흘려보내고 있진 않아? 그 말 들으면 바로 그날 10분이라도 직접 써봐. 보는 것과 써보는 건 완전 다른 세계거든.

2) 유효 이론 써서 공부 범위 정해 AI 공부한다고 모든 걸 알 필요 없어. 한나한테 필요한 레이어는 딱 하나야: "이 AI 도구가 내 콘텐츠 제작 어디에 끼워지는가". 알고리즘 원리, 파라미터 수 이런 거 몰라도 돼. 써보고 결과 비교하는 것만 집중해.

3) "먼저 써보고 주변에 공유하는 사람"이 되면 이미 반은 앞선 거야 Gwern이 GPT-3 초기에 한 게 뭔지 알아? 그냥 열심히 써보고 기록해서 올린 거야. 지금 너도 새 AI 도구 나올 때마다 먼저 써보고 콘텐츠로 기록해두면 — 나중에 사람들이 "그때 이미 했었네"라고 보게 되는 그 Gwern 포지션이 될 수 있어.

🏷️ 태그

시기: #2024상
주제: #AI역사 #스케일링법칙 #정보격차 #Anthropic
인물: #카파시 #다리오아모데이 #일리야
자유: #GPT3회고 #눈송이비유 #베이즈정리