EP 17. 드디어 LLM 의 저장용량이 밝혀졌다!

🗺️ 이 영상의 위치

시간순: 전체 115편 중 17번째 · 2024-06-06
시기 배경: 2024상 (AI 실용화 가속기 / 오픈소스 LLM 춘추전국시대, 모델 크기 논쟁 한창)
난이도: ⭐⭐⭐ (어려운 개념 9개)
⬅️ 앞 영상: EP 16. GPT-3 의 네번째 생일을 기념하며
➡️ 다음 영상: EP 18. WWDC 2024, 소문난 잔치 들여다보기 :))
- 연결 이유: 다음 영상(EP18)에서 WWDC 2024를 다루는데, 이 영상에서 AI PC·칩 마케팅 hype 언급이 자연스럽게 이어짐

⚡ 5분 요약

한 줄

LLM은 파라미터 하나당 2비트를 기억한다 — 드디어 AI의 '뇌 용량'이 실험으로 밝혀졌어.

핵심 3개

1) AI의 뇌 용량이 처음으로 측정됐어 "Physics of Language Models" 논문이 실험으로 밝혀낸 것: LLM은 파라미터 하나당 약 2비트를 기억해. Llama 3 8B짜리 모델이면 약 50GB 분량의 정보를 외우는 셈이야. 영어 위키피디아 전체가 30GB니까, 웬만한 인류 지식은 너끈히 담기는 거지.

2) 1,000번 봐야 완벽히 외운다 같은 지식을 1,000번 정도 다양한 표현으로 접해야 파라미터당 2비트가 안정적으로 기억돼. 100번만 보면 절반 이하로 뚝 떨어져. 우리가 유튜브 영상 10개 같은 주제로 보고 나서야 '아, 이제 알겠다' 하는 것과 비슷한 거야.

3) 데이터 품질이 성능을 좌우해 쓰레기 데이터 7개 + 좋은 데이터 1개로 섞어 학습시키면 성능이 최대 20배 떨어져. 반대로 좋은 데이터 앞에 "이거 Wikipedia야"라고 태그만 달아줘도 AI가 스스로 고품질 데이터에 집중해. 콘텐츠 품질 관리가 알고리즘에 미치는 영향이랑 똑같은 원리야.

가장 인상적인 한 마디

"모델은 배우고 싶어 한다"

한나야, 이게 무슨 말이냐면 — AI가 쓰레기 데이터 속에서도 좋은 데이터를 스스로 골라내는 경향이 있어. 억지로 막지 않아도 알아서 좋은 걸 흡수하려 한다는 거야. 일리야 수츠케버가 한 말인데 다리오 아모데이가 자주 인용한대.

한나가 지금 당장 시도해볼 것

긴 PDF나 아티클을 읽을 때, 일단 훑어서 밑줄만 긋고 Claude(또는 ChatGPT)에 통째로 붙여넣은 다음 "내가 모르는 부분 위주로 중학생한테 설명하듯 풀어줘"라고 질문해봐. 노정석이 오늘 논문 읽을 때 쓴 방법 그대로야 — 지금 당장 써먹을 수 있어.

📖 시간대별 영상 흐름 (15분 정도 걸려, 시간 있을 때만)

0~10분: "AI 뇌 용량 측정"이라는 논문을 발견하다

노정석이 살짝 들뜬 목소리로 시작해. "저 논문 잘 안 읽거든요, 설렁설렁 읽어요. 근데 이거 제목이 너무 거창해서 한번 봤어요." 제목이 뭐냐면 "Physics of Language Models" — 직역하면 '언어 모델의 물리학'이야. 파트 3.3이래.

이 논문이 다루는 핵심 질문은 이거야: "LLM은 도대체 얼마나 많이 외울 수 있어?" 우리가 작은 모델 하나 켰을 뿐인데 인류 역사 지식을 다 꿰고 있는 것처럼 보이잖아 — 그 비밀을 실험으로 파헤친 거야.

최승준이 "지금 말씀하신 크기는 파라미터 수가 아니라 byte 크기인 거죠?"라고 확인하고, 노정석이 "맞아요, 그리고 2-byte로 저장하냐 4-byte로 저장하냐에 따라 실제 용량이 두 배 네 배 차이 나요"라고 부연해. 기술 용어지만 두 사람 모두 가볍게 정리하고 넘어가는 게 인상적이야.

10~22분: 실험 설계와 결론 — 파라미터당 2비트

논문의 실험 방식을 설명하는 구간인데, 노정석이 직접 예시로 '최승준'을 써서 설명해. "최승준이라는 인물이 있다, 몇 년생이고, 어디 태어났고, 무슨 전공이고 — 이런 걸 knowledge로 정의했어요." Llama 3로 이 정보를 수백만 가지 문장 표현으로 바꿔서 인공 데이터셋을 만들고, GPT-2 구조의 모델에 학습시킨 거야.

그 결과가 뭐냐 — 파라미터 하나당 약 2비트의 정보를 저장한다. 노정석이 계산기 두드리듯 말해: "8B 모델이면 8×2=16Gbit, 바이트로 바꾸면 약 2GB... 아 잠깐, 50GB 분량이 나와요. 영어 위키피디아가 30GB니까, 위키피디아 다 외우고도 남는 거죠." 최승준이 "정보를 기억하는 관점이고, reasoning은 빼고 보는 거죠?"라고 정확하게 짚어주고, 노정석이 "맞아요, 외우는 것만 봤을 때 그래요"라고 확인해.

그리고 중요한 세부 발견들이 줄줄이 나와: 1,000번 노출되면 2비트 안정적 기억, 100번이면 절반 이하, INT8 양자화는 성능 손실 없음, INT4는 성능 확 떨어짐, MoE 구조 써도 기억 성능 8% 손실 이내.

22~35분: 데이터 오염 실험과 "좋은 데이터 태그" 발견

노정석이 약간 신기하다는 표정으로 섹션 10 이야기를 꺼내. "이게 진짜 웃기거든요." 일부러 데이터셋을 오염시켜봤대 — 좋은 데이터 1개에 쓰레기 데이터 7개 비율로 섞으니 성능이 최대 20배 떨어졌다는 거야.

근데 더 흥미로운 게 그 다음 발견이야. 쓰레기 사이에 끼어 있는 좋은 데이터 앞에 "이거 Wikipedia야"라고 URL이나 태그만 붙여줬더니, AI가 자율적으로 그쪽에 더 집중했다는 거야. 노정석이 "수학적 근거가 전혀 없고 완전히 실증적으로만 알아낸 건데, 신기하더라고요"라고 해.

여기서 최승준이 일리야 수츠케버 말을 인용해 — "모델은 배우고 싶어 한다." 노정석이 "그렇죠, 저도 신기한 게 Transformer는 그냥 다음 토큰 예측하는 추론 머신인데, 이걸 크게 만들면 지능이 생긴다는 게 전 여전히 이해가 안 돼요. 그냥 된다, 덮어, 뭐 이런 식이잖아요" 하고 웃어.

35~44분: MoE, Transformer 구조 해부, 그리고 한국식 주입식 교육

노정석이 MoE (Mixture of Experts) 얘기를 꺼내. GPT-4가 1,800B 파라미터에 32개 expert를 쓴다고 알려져 있는데, 실제 추론할 때는 그중 2개만 돈다는 거야. "저는 처음에 '수학 전문가, 과학 전문가 이런 식으로 나뉘나?' 했는데 아니래요. 토큰마다 완전히 다른 expert를 타는 거예요." 그러면서 "개족보 형태로 추론이 일어난다"고 했다가 스스로 "표현이 좀 심했다"고 웃으며 정정해.

그리고 Transformer 구조에서 지식이 어디 저장되냐는 질문도 나와. 흔히 "attention은 문장 구조, MLP는 지식 저장"이라고 알려졌는데 — 이 논문에서 "MLP 걷어내도 잘한다"는 결과가 나왔대. 그리고 레이어 하나를 지우면 1/L만큼만 손실될 줄 알았는데 훨씬 더 많이 손실된다는 것도 발견됐어.

후반부에서 노정석이 갑자기 교육 얘기로 넘어가는데 이게 꽤 진심 담긴 이야기야. "한국식 주입식 교육이 사실 LLM 학습 방식이랑 같아요. 정제된 지식을 왕창 pre-training시키는 거잖아요. 서구식 '상상력 교육'은 pre-trained 데이터가 없는 상태에서 창의력 강요하는 거고." 최승준이 여기서 grokking 개념을 꺼내 — 많이 암기하다 보면 어느 순간 진짜로 이해가 되는 현상. 직원이 휴가 가면서 실수로 모델 학습을 너무 오래 돌렸더니 오히려 일반화 능력이 높아진 우연한 발견에서 시작된 개념이래.

44~52분: 압축 analogy, hallucination 활용, 그리고 마무리

최승준이 Ted Chiang (SF 작가) 이야기를 꺼내. 작년에 "ChatGPT는 인터넷의 흐릿한 압축"이라는 글로 화제가 됐던 사람인데, 그 글에서 Marcus Hutter라는 AGI 연구자를 인용했대. Hutter Prize 만든 사람으로, 위키피디아를 얼마나 작게 압축할 수 있냐는 대회를 만든 분이야. 딥러닝 = 압축이라는 analogy에 Keras 만든 François Chollet이 반론을 제기한 것도 언급하면서 "이 논쟁 한번 정리해서 소개해보고 싶다"고 최승준이 말해.

그리고 최승준이 재밌는 걸 꺼내 — hallucination을 feature(기능)로 쓰는 관점. "틀린 정보지만 맥락은 맞는 hallucination이 나올 때, 그 근방에 진짜 유용한 개념이 있을 수 있거든요. 그걸 일부러 활용하는 것도 흥미로운 접근이에요." 노정석이 "충분히 그럴 수 있겠네요"라고 동의해.

마지막에 최승준이 오늘 노정석의 논문 읽기 전략을 깔끔하게 요약해줘: 일단 훑어서 맥락 잡기 → PDF째로 Claude에 붙여넣기 → 모르는 부분 집중 질문 → 다시 논문으로 돌아가기. "이게 요즘 잘 작동하시죠?" 노정석이 "Claude 80%, GPT-4 20% 씁니다. 그리고 월 20불에 이런 걸 할 수 있다는 게 그냥 감사할 따름이에요"라고 담백하게 마무리해.

💡 한나 버전 사전

"파라미터(Parameter)"가 뭐야?

전문가 설명: AI 모델이 학습 과정에서 조정하는 숫자들의 집합. 모델의 '지식과 규칙'이 이 숫자들에 인코딩돼.
한나 버전: 크리에이터로 비유하면 '촬영·편집·기획에서 쌓아온 감각과 노하우 전부'. 경험이 쌓일수록 그 숫자가 많아지고 정교해지는 거야.

"양자화(Quantization)"가 뭐야?

전문가 설명: 모델 파라미터를 더 작은 데이터 타입(예: FP16→INT8)으로 변환해 용량과 연산량을 줄이는 기법.
한나 버전: 원본 4K 영상을 유튜브 업로드용 1080p로 압축하는 것. INT8까지는 화질 차이 거의 없는데, INT4로 더 압축하면 화질이 확 떨어지는 느낌이야.

"MoE (Mixture of Experts)"가 뭐야?

전문가 설명: 모델 안에 여러 전문화된 서브네트워크(expert)를 두고, 입력에 따라 일부만 활성화해 추론 효율을 높이는 구조.
한나 버전: 대형 MCN 소속처럼 영상·음악·그래픽 팀이 각각 있는데, 모든 콘텐츠에 전 팀이 달라붙는 게 아니라 그때그때 필요한 팀만 투입하는 시스템. GPT-4는 32개 팀 중 2개만 매번 투입돼.

"Pre-training / Fine-tuning"이 뭐야?

전문가 설명: Pre-training은 방대한 데이터로 기초 언어 능력을 학습, Fine-tuning은 특정 목적에 맞게 추가 학습하는 과정.
한나 버전: Pre-training은 학교에서 전반적인 공부 다 한 것. Fine-tuning은 취업 준비로 특정 분야만 집중 공부하는 것. 기초 없이 파인튜닝만 하면 약해.

"Hallucination"이 뭐야?

전문가 설명: AI가 사실이 아닌 정보를 그럴듯하게 생성하는 현상.
한나 버전: 팩트체크 안 한 콘텐츠. 분위기는 완전히 맞고 말도 유창한데 알고 보면 틀린 정보. 근데 최승준은 이 hallucination을 "그 근처엔 진짜 유용한 뭔가가 있다는 힌트"로 써먹을 수 있다고 했어.

"Grokking"이 뭐야?

전문가 설명: 모델이 훈련 데이터를 단순히 외우는 단계를 넘어 어느 순간 진정한 일반화 능력을 획득하는 현상. 충분히 오래 학습했을 때 갑자기 나타나.
한나 버전: 유튜브 편집을 수백 개 하다 보면 어느 순간 "아, 이 타이밍에 컷이 들어가야 해"가 몸으로 느껴지는 그 순간. 머리로 이해한 게 아니라 체화된 거야.

"Epoch"이 뭐야?

전문가 설명: 전체 학습 데이터를 한 번 다 돌리는 단위. 100 epoch이면 전체 데이터를 100번 반복 학습한 것.
한나 버전: 같은 스크립트를 처음부터 끝까지 한 번 읽는 게 1 epoch. 100번 반복 읽으면 100 epoch. 많이 읽을수록 외워지지.

"Transformer 아키텍처"가 뭐야?

전문가 설명: 현재 LLM의 표준 구조. Attention 메커니즘을 핵심으로 하고 MLP 레이어가 함께 구성돼.
한나 버전: 콘텐츠 제작 파이프라인이라고 생각해. Attention은 "어떤 장면이 이 스토리에서 중요해?"를 파악하는 편집자 역할, MLP는 실제 편집 작업을 하는 도구 역할.

"Scaling / 스케일링"이 뭐야?

전문가 설명: 모델 크기, 데이터 양, 연산량을 늘릴수록 성능이 올라가는 현상과 그 연구.
한나 버전: 구독자가 많아질수록 알고리즘 노출이 늘고 → 더 많은 사람이 보고 → 또 구독자가 느는 선순환. AI도 크게 만들수록 잘하게 되는 비슷한 구조야.

🔥 노정석 어록 모음

"된다, 덮어, 뭐 이런 식이잖아요."

분위기: Transformer가 왜 지능을 갖게 되는지 아직도 이해 안 된다고 털어놓으면서, 반은 자조적으로 반은 웃음 섞어서 한 말.

한나 풀이: AI 업계 최전선에 있는 사람도 "왜 되는지는 모르겠는데 되니까 써요"라는 거야. 완전히 이해하고 써야 한다는 부담 내려놔도 돼. 한나도 알고리즘 왜 되는지 100% 이해 안 해도 잘 쓰고 있잖아.

"이걸 이런 정도의 성능을 그냥 월 20불에 매일 이런 걸 해볼 수 있게 해주는 게 저는 그냥 감사할 따름이에요."

분위기: 논문 하나 Claude랑 다 뜯어먹고 나서 진심으로 감탄하며 한 말. 과장 없이 담백하게.

한나 풀이: 노정석 같은 연쇄창업가가 월 2만원짜리 툴에 감사하다고 하는 거야. 비싼 도구·인맥·배경 없어도 AI를 제대로 쓸 줄 알면 지식 접근성이 완전히 달라진다는 거지. 한나가 콘텐츠 리서치나 기획에 Claude 안 쓰고 있다면 지금 당장 시작해봐.

"이해가 안 되면 열 번 읽어라, 열 번 읽고 그 비슷한 주제의 유튜브를 열 개 찾아서 일단 다 들어봐. 그러면 뭐가 올 거야."

분위기: 아이한테도 이렇게 가르친다고 하면서 진지하게, 근데 약간 웃음 섞어서.

한나 풀이: AI 논문 얘기 하다가 자기 공부법이자 육아법으로 연결한 건데, 이게 사실 grokking이랑 똑같아. 이해 안 해도 일단 왕창 넣어두면 어느 순간 연결이 온다는 거. 한나가 새 분야 공부할 때 써먹을 수 있는 방법이야.

🎬 한나 적용 포인트

콘텐츠 퀄리티 태깅 전략 AI한테 글쓰기나 기획 도움 받을 때, 참고 자료를 그냥 던지지 말고 "이건 고품질 레퍼런스야", "이건 그냥 아이디어 예시야" 이렇게 구분해서 넣어봐. 논문 실험에서 AI가 태그된 고품질 데이터에 자동으로 더 집중했던 것처럼, 프롬프트에서도 비슷하게 작동할 가능성 있어. 실제로 해보면 답변 퀄리티가 달라지는 거 체감할 거야.

같은 주제 1,000번 원리 — 콘텐츠 반복 노출에 적용 AI가 같은 knowledge를 1,000번 다양한 표현으로 봐야 제대로 외우듯, 팔로워한테 핵심 메시지를 전달할 때도 한 번 말하고 끝내지 말고 릴스·피드·스토리·유튜브에서 각각 다른 포맷으로 같은 포인트를 반복해봐. "지겹지 않냐"고 할 수 있는데 — 알고리즘이 다르고, 보는 사람도 다르고, 타이밍도 달라서 사실 1,000번이 필요한 거야.

hallucination을 브레인스토밍 도구로 쓰기 AI가 엉뚱한 답변(hallucination)을 냈을 때 "틀렸네" 하고 끝내지 말고, 그 답변 주변에 진짜 쓸 만한 아이디어가 숨어 있을 수 있어. 예를 들어 콘텐츠 아이디어 낼 때 "가장 황당하게 틀릴 것 같은 방향으로 아이디어 10개 줘봐"라고 프롬프트하면, 그 이상한 아이디어들 사이에서 진짜 새로운 방향이 보이는 경우가 있어.

🏷️ 태그

시기: #2024상
주제: #LLM용량 #논문리뷰 #양자화 #데이터품질
인물: #Yuanzhi Li #Ted Chiang
자유: #파라미터당2비트 #Physics of Language Models #논문읽기전략