EP.10 가난한 자의 ChatGPT(?), TinyStories

🗺️ 이 영상의 위치

시간순: 전체 115편 중 10번째 · 2023-08-03
시기 배경: 2023하 (AI 소형화 실험기 / "GPT-4만 답이다"는 통념이 흔들리기 시작한 2023년 여름)
난이도: ⭐⭐⭐ (어려운 개념 9개)
⬅️ 앞 영상: EP.9 META 가 던진 소심한 승부수, LLAMA-2 는 왜 하필 지금 공개됐을까(?)
➡️ 다음 영상: EP.11 AI 시대 이미 돈벌고 있는 회사 - 올거나이즈 이창수 대표 이야기
- 연결 이유: 작은 AI로도 된다는 희망을 확인한 뒤, 실제로 돈 버는 AI 회사 사례(올거나이즈)로 넘어가며 "그래서 현실에서 어떻게 써먹나"를 보여줌

⚡ 5분 요약

한 줄

GPT-4 같은 거대 AI 없어도 된다 — 데이터 품질이 좋으면 아주 작은 모델로도 특정 분야에서 충분히 쓸 만한 AI를 만들 수 있다는 걸 Microsoft 논문이 증명해버렸어.

핵심 3개

1) "가난한 자"도 AI 만들 수 있다 노정석이 그동안 믿었던 공식은 "AI는 돈 많은 빅테크만의 놀이"였어. GPT-4 수준의 지능은 최소 수천억 개의 파라미터가 있어야만 나온다는 게 업계 정설이었거든. 근데 TinyStories 논문이 이걸 완전히 뒤집었어. 데이터 범위를 딱 좁히고 품질을 높이면, 아주 작은 모델로도 그 분야에서는 GPT 급 성능이 나온다는 게 증명됐거든.

2) 중요한 건 모델 크기가 아니라 "교재의 품질" 유치원생한테는 유치원 수준 교재가 맞듯이, AI도 목적에 맞는 데이터셋이 맞아야 해. GPT-4로 단어 2,000개짜리 동화 100만 편을 만들어서 아주 작은 모델에 학습시켰더니, 1.5B(15억)짜리 모델이 10B(100억)짜리 모델이랑 맞먹는 성능을 냈어. 교재가 맞으면 작은 뇌로도 충분한 거야.

3) GPT-4는 이제 데이터 생성 도구 연구팀이 데이터셋 만드는 데 든 돈이 고작 1,300만 원(약 1만 달러)이야. GPT-4한테 시켜서 100만 개 동화를 자동 생성하고, 품질 평가도 GPT-4한테 맡겼어. 이제 GPT-4는 최종 서비스가 아니라, 작은 AI를 만드는 데 쓰는 도구로 활용되는 시대가 온 거야.

가장 인상적인 한 마디

"지금은 무조건 달려야 될 타이밍이죠. 붉은 여왕의 나라에 살고 있다고 봐야죠."

한나야, 이게 무슨 말이냐면 — 이상한 나라의 앨리스에서 붉은 여왕이 "제자리라도 유지하려면 죽어라 달려야 한다"고 했거든. AI 판에서 멈추면 뒤처지는 게 아니라 아예 없어지는 거야.

한나가 지금 당장 시도해볼 것

내 채널/브랜드의 콘텐츠 분야를 딱 하나로 좁혀서 "이 분야의 FAQ 100개"를 ChatGPT로 생성해봐. 이게 나중에 내 분야에 특화된 AI 챗봇의 씨앗 데이터가 돼. 지금 당장 메모장 열고 "내 채널 주제 = ___. 이 주제로 팔로워들이 가장 많이 묻는 질문 100개 만들어줘"라고 쳐봐.

📖 시간대별 영상 흐름 (15분 정도 걸려, 시간 있을 때만)

0~15분: "AI는 큰 모델만 답이다"는 공식, 의심해볼 때가 됐어

노정석이 오늘 논문을 꺼내면서 좀 흥분된 목소리로 시작해. 평소에 "우리 같은 작은 플레이어는 빅모델 못 만든다, 걍 GPT-4 가져다 쓰는 거 말고는 방법이 없다"고 믿어왔거든. 그런데 TinyStories 논문을 보고 "완전히 생각을 바꿨다"고 단호하게 말해. 마치 오랫동안 믿어온 신앙이 흔들린 사람처럼 진지해.

업계 분위기 설명도 해줘. ChatGPT 수준의 지능이 나오려면 최소 300억 개 파라미터(GPT-4는 2조 개)가 필요하다는 게 당연한 상식처럼 굳어 있었고, 노정석 자신도 이걸 그냥 받아들이고 있었대. 그래서 그동안 "직접 AI 만드는 건 포기하고, 대형 AI를 잘 가져다 쓰는 orchestration(조율)에 집중하자"는 전략을 갖고 있었는데, TinyStories 논문 하나가 그걸 뒤집어버린 거야.

논문을 쓴 사람도 소개해. 이스라엘 출신 수학자 Ronen Eldan인데, 원래 복잡한 기하학 연구를 하던 분이 갑자기 AI 언어 모델 판으로 건너온 케이스야. 최승준이 "수학자들이 AI 판으로 오는 데는 이유가 있을 것 같다"며 흥미롭다는 반응을 보여.

15~35분: TinyStories 논문 뜯어보기 — 작은 게 어떻게 잘할 수 있을까?

노정석이 논문 슬라이드를 화면에 띄우면서 본격 설명 들어가. 핵심은 이거야. 단어 2,000개(유치원 아이 수준)만 쓰는 동화를 GPT-4로 100만 편 만들고, 그 데이터로 아주 작은 모델을 학습시켰더니 훨씬 큰 GPT-2 XL(15억 파라미터)보다 훨씬 자연스럽고 논리적인 이야기를 썼어.

여기서 설명 중간에 최승준이 "잠깐, 저희 지식의 저주에 빠진 것 같은데요" 하면서 멈춰. 임베딩(embedding)이라는 용어를 그냥 쓰고 넘어가려 했는데, 모르는 사람 입장에서 짚고 가자고 제동을 건 거야. 노정석이 "단어를 외운다는 게 결국 그 단어를 머릿속에서 숫자 덩어리로 체화하는 거잖아, 그게 임베딩이야"라고 학창 시절 비유로 풀어줘. 두 사람이 "너무 깊게 가면 또 어려워지니까 퉁치고 가자"고 웃으면서 넘어가는 장면이 자연스러워.

데이터 다양성 얘기도 나와. GPT-4한테 그냥 "어린이 동화 만들어줘"라고만 하면 20%가 놀이터 미끄럼틀 이야기로 몰려버린대. 그래서 명사/동사/형용사 3개를 랜덤하게 뽑아 조합하고, "대화가 있어야 해" "교훈으로 끝나야 해" 같은 조건을 줘서 100만 개가 다 다르게 나오도록 설계한 거야. 프롬프트 설계가 얼마나 중요한지 보여주는 대목이야.

35~50분: "모델 크기가 딱 맞아야 한다" — 너무 작아도, 너무 커도 안 돼

노정석이 논문 결과를 설명하면서 핵심 인사이트를 꺼내. 모델이 너무 작으면 데이터 외우는 데 모든 능력이 다 쓰여서 추론(reasoning) 능력이 생길 여유가 없고, 반대로 모델이 너무 크면 이 좁은 데이터셋에 비해 용량이 과해서 오히려 엉뚱해진다는 거야. "딱 맞는 크기"가 있다는 거지.

이걸 학교 교육 비유로 풀어. 유치원생 수준 → 초등 → 중등 → 고등 → 박사, 이렇게 curriculum(교육과정)이 있듯이, AI도 목적에 맞는 난이도의 데이터셋과 그에 맞는 모델 크기 조합이 있다는 거야. GPT-4가 박사라면, TinyStories는 유치원생 수준. 그리고 노정석이 "돈 버는 실제 서비스는 중학교·고등학교 수준이면 충분해"라고 말해. 이 부분에서 표정이 확 밝아지는 게 느껴져.

SK텔레콤 콜센터 예시도 나와. 아무리 상담 전화가 많이 와도 실제로 다루는 주제는 엄청 좁은 도메인이잖아. 그걸 좋은 데이터로 정제해서 작은 모델에 때려 박으면, 거대 모델 필요 없이 훨씬 저렴하게 고품질 챗봇을 만들 수 있다는 거야. 음식점 메뉴 설명 봇도 예시로 나와.

50~72분: Andrej Karpathy의 llama2.c — 노트북에서도 돌아가는 AI

최승준이 바통을 받아서 자기가 직접 만져봤던 걸 공유해. Andrej Karpathy(전 테슬라 AI 총괄, OpenAI 공동창업자)가 TinyStories 데이터로 학습한 아주 작은 모델을 C 코드 파일 하나에 넣어서 공개했거든. GPU 없이 그냥 맥북 CPU로도 돌아가게 만든 거야.

최승준이 이걸 JavaScript 버전으로 포팅해서 브라우저에서 직접 돌려보는 데모를 보여줘. 화면에서 "Once upon a time..."으로 시작하는 이야기가 실시간으로 생성되는 걸 보면서 노정석이 신기해해. temperature를 0(=가장 확실한 답만)으로 주면 무조건 Lily가 등장한다고 웃어. 유치원생한테 어려운 질문 던지면 "아는 범위 안에서 어떻게든 답하려고 꼬이는" 그 느낌이 난다고.

최승준은 거기서 더 나아가서 Code Interpreter(GPT-4 코딩 도구)로 실험도 해봤어. 작은 모델이 생성한 어설픈 이야기를 GPT-4한테 다듬게 시키는 자동화 파이프라인을 만든 거야. "작은 모델의 엉뚱함을 오히려 창의성으로 활용하고, GPT-4가 정합성을 잡아주는" 조합. 두 사람이 "이거 정말 재밌는 시대다"라며 마무리.

💡 한나 버전 사전

"파라미터(parameter)"가 뭐야?

전문가 설명: AI 모델이 학습을 통해 조정하는 숫자 덩어리들. 파라미터가 많을수록 더 복잡한 패턴을 학습할 수 있어.
한나 버전: AI의 "뇌세포 연결 수"라고 생각해. GPT-4는 2조 개, TinyStories 작은 모델은 2,800만 개. 유튜브로 치면 구독자 200만 vs 2만 8천. 근데 특정 니치 분야에서는 소형 채널이 대형 채널보다 더 전문적으로 먹히는 것처럼, 모델도 마찬가지야.

"스케일링 법칙(Scaling Laws)"이 뭐야?

전문가 설명: 모델이 클수록, 데이터가 많을수록 AI 성능이 좋아진다는 경험칙.
한나 버전: "팔로워 많을수록 영향력 크다"는 공식 같은 거야. 오랫동안 당연한 진리처럼 통했는데, TinyStories가 "니치 계정도 해당 분야에서는 메가 인플루언서 이길 수 있다"는 걸 보여준 거야.

"임베딩(embedding)"이 뭐야?

전문가 설명: 단어를 AI가 이해할 수 있는 숫자 벡터로 변환한 것. 임베딩 사이즈가 클수록 단어의 의미를 더 풍부하게 표현할 수 있어.
한나 버전: 단어를 "분위기로 체화한 것". 우리가 'vibe'라는 단어를 사전 보지 않아도 느낌으로 아는 것처럼, AI도 단어를 숫자 덩어리(=분위기)로 체화해놓는 게 임베딩이야.

"파인튜닝 vs 프리트레이닝(fine-tuning vs pre-training)"이 뭐야?

전문가 설명: 프리트레이닝은 AI를 처음부터 학습시키는 것, 파인튜닝은 이미 있는 AI를 특정 목적에 맞게 추가 학습시키는 것.
한나 버전: 프리트레이닝은 크리에이터를 처음부터 육성하는 것, 파인튜닝은 이미 팔로워 있는 크리에이터한테 "우리 브랜드 색깔로 좀 바꿔줘" 하고 재교육시키는 것. TinyStories는 프리트레이닝인데, 작은 규모로도 된다는 걸 보여준 거야.

"합성 데이터(synthetic data)"가 뭐야?

전문가 설명: 실제 데이터가 아니라 AI가 생성한 인공 데이터. GPT-4가 만든 동화 100만 편이 합성 데이터야.
한나 버전: AI가 만든 콘텐츠로 또 다른 AI를 학습시키는 거야. 마치 선배 크리에이터가 만든 콘텐츠 레퍼런스로 신인 크리에이터를 트레이닝시키는 느낌.

"RAG(Retrieval-Augmented Generation)"이 뭐야?

전문가 설명: AI가 모르는 정보를 외부 데이터베이스에서 검색해서 답변에 활용하는 방법.
한나 버전: AI한테 "모르는 거 있으면 위키 검색해서 답해"라고 시키는 것. 노정석이 TinyStories 이전에는 이걸로만 품질을 높이려 했는데, 이제 모델 자체를 특화시키는 방법이 생긴 거야.

"커리큘럼(curriculum)"이 AI에서 뭐야?

전문가 설명: AI를 학습시키는 데이터의 종류·난이도·구성 방식.
한나 버전: 유튜브 알고리즘이 "이 채널 어떤 장르야?"를 파악하는 신호들 같은 거야. 커리큘럼이 명확할수록 AI가 그 분야 전문가처럼 학습돼.

"Andrej Karpathy"가 누구야?

전문가 설명: OpenAI 공동창업자, 전 테슬라 AI 디렉터. AI 교육 콘텐츠와 오픈소스로 유명.
한나 버전: AI 판의 MrBeast 같은 존재. 어려운 AI 개념을 누구나 돌려볼 수 있는 코드로 만들어서 공개하는 걸로 유명해. AI 커뮤니티에서 그가 뭔가 올리면 전 세계 개발자들이 바로 반응해.

"온-디바이스(on-device) AI"가 뭐야?

전문가 설명: 클라우드 서버 없이 스마트폰이나 노트북 등 기기 자체에서 AI를 실행하는 것.
한나 버전: 인터넷 연결 없이도 폰 안에서 AI가 돌아가는 것. 틱톡 필터가 서버 없이 실시간으로 얼굴에 붙는 것처럼. llama2.c가 이걸 가능하게 하려는 시도야.

🔥 노정석 어록 모음

"저는 한 2주 전까지만 해도 이렇게 생각을 했거든요. 빅 모델을 만들 수 없으면 AI orchestration을 잘해서 서비스 품질을 높이는 것만이 방법이겠다. TinyStories를 보고 생각을 제가 굉장히 완전히 바꿨어요."

분위기: 스스로의 믿음이 뒤집힌 것을 담담하게 고백하는 톤. 자존심 세우는 사람이 틀렸다고 인정하는 느낌이라 오히려 더 진짜처럼 들려.

한나 풀이: 업계 1선에서 뛰는 사람도 2주 만에 전략을 뒤집을 만큼 AI 판이 빠르게 바뀌고 있다는 거야. 한나도 "AI는 나 같은 일반인이 직접 뭔가 만드는 건 아니지"라고 생각했다면, 이제 그 생각을 업데이트할 때가 된 거야.

"데이터셋이 사실 프로그램인 거죠. 언어 자체가 그런 프로그래밍 요소를 가지고 있다라고 가정하는 거잖아요."

분위기: 갑자기 철학적으로 빠지면서 스스로도 흥분된 것 같은 톤. "이게 맞는 말인지 모르겠는데 엄청 중요한 것 같은데" 하는 느낌.

한나 풀이: 좋은 콘텐츠 스크립트 자체가 이미 AI의 두뇌를 만드는 재료라는 거야. 한나가 쌓아온 콘텐츠, 댓글, Q&A들 — 그게 다 "AI 학습 재료"가 될 수 있어. 콘텐츠가 곧 프로그램이야.

"가난한 자들에게도 희망이 있구나라는 부분을 명확하게 보여주는 그런 예제 같아서... 자세를 고쳐 잡고 각 잡고 굉장히 깊게 한번 파봤어요."

분위기: 처음엔 무심코 지나쳤다가 뭔가 건드려지는 게 있어서 다시 돌아온 사람의 흥분. "이거 진짜네?" 하고 빠져드는 그 순간.

한나 풀이: 대기업만 AI 비즈니스 할 수 있다는 건 이제 옛말이야. 한나처럼 특정 분야에 깊이 있는 사람이, 그 분야 데이터를 잘 정제하면 직접 특화 AI를 만들 수 있는 시대가 온 거야.

🎬 한나 적용 포인트

내 콘텐츠 분야에 맞는 "특화 챗봇" 기획해보기 음식점 메뉴 봇, 콜센터 봇 예시가 나왔잖아. 한나도 생각해봐. 내 팔로워가 DM으로 가장 많이 묻는 질문들이 있을 거야. "이 제품 어디서 사요?" "이 루틴 어떻게 해요?" 같은 것들. 그걸 정리해서 FAQ 데이터셋으로 만들어두면, 나중에 내 채널 전용 AI 챗봇의 기초 재료가 돼. 지금 당장 GPT-4한테 "우리 채널 댓글에서 많이 나오는 질문 유형 뽑아줘" 하고 시켜봐.

GPT-4를 "조수"가 아니라 "데이터 공장"으로 쓰기 노정석이 핵심을 딱 짚었어. GPT-4가 직접 콘텐츠 만드는 도구가 아니라, "내가 나중에 쓸 AI를 훈련시킬 고품질 재료를 대량으로 만드는 공장"이 되는 거야. 예를 들어, 내 뷰티/패션/음식 분야의 용어집, 시나리오, 상황별 대화 100개를 GPT-4로 뽑아두는 거야. 이게 나중에 내 브랜드 전용 AI의 씨앗 데이터가 돼.

틈새 분야를 좁게 팔수록 AI도, 콘텐츠도 강해진다 TinyStories의 핵심 교훈이 "도메인을 좁혀라"거든. 콘텐츠 전략도 똑같아. "패션 크리에이터"보다 "30대 직장인 오피스룩 크리에이터"가 알고리즘에 더 잘 먹히잖아. AI도 마찬가지야. 넓게 다 아는 AI보다, 내 좁은 분야를 완벽하게 아는 작은 AI가 실제로 더 유용할 수 있어. 내 분야를 얼마나 좁힐 수 있는지 지금 한번 써봐.

🏷️ 태그

시기: #2023하
주제: #소형언어모델 #데이터셋품질 #AI민주화 #합성데이터
인물: #Ronen Eldan #Andrej Karpathy
자유: #TinyStories #가난한자의ChatGPT #작은모델의반란