EP 83. 이야기로 읽는 트랜스포머: 윤회하는 토큰의 순례

🗺️ 이 영상의 위치

시간순: 전체 115편 중 103번째 · 2026-01-26
시기 배경: 2026상 (AI 도구 캄브리아기 대폭발 / 에이전트·harness 쏟아지는 2026년 초)
난이도: ⭐⭐⭐⭐ (어려운 개념 10개)
⬅️ 앞 영상: EP 82. 원리를 생각하는 프롬프팅
➡️ 다음 영상: EP 84. Physical AI를 알아보자 (sudoremove 박종현 대표)
- 연결 이유: 트랜스포머 원리 탐구 직후, 실물 AI(Physical AI) 로 주제가 확장됨

⚡ 5분 요약

한 줄

AI가 토큰 하나를 만드는 그 찰나의 여정을 이야기로 풀어보니, 프롬프트가 왜 중요한지가 한 방에 보인다.

핵심 3개

1) 토큰은 32층 탑을 순례하는 여행자야 최승준이 트랜스포머 작동 방식을 이야기로 만들어왔어. 토큰 하나가 태어나서 레이어 32층을 다 통과하고 다음 토큰으로 윤회하는 과정인데, 이 여행을 알면 "AI가 왜 이런 말을 뱉나"가 직관적으로 보이기 시작해.

2) 프롬프트는 궁전의 첫 건축물이야 토큰이 여행하는 동안 KV cache라는 기억의 궁전이 쌓여. 프롬프트가 그 궁전의 뼈대를 짓는 거라서, 처음에 어떤 재료로 짓냐가 전체 품질을 결정해. 좋은 프롬프트 = 좋은 초기 건축물.

3) 10x 생산성이 뉴노멀이 되면 결국 다시 1x야 모두가 AI로 10배 빨라지면 그게 그냥 새로운 기준이 돼버려. 노정석 말대로 소프트웨어가 commodity화되는 중이고, 그럼 남는 건 기획력·감성·예술성이야. AI slop이 쏟아질수록 진짜 예술품이 희소해지거든.

가장 인상적인 한 마디

"파라미터는 움직이지 않는 지형이고, KV cache는 거기에서 자라나는 기억의 궁전이고, 토큰은 그 둘 사이를 오가는 순례자다."

한나야, 이게 무슨 말이냐면 — AI의 고정된 지식(파라미터)은 지형이고, 대화하면서 쌓이는 맥락(KV cache)이 그 위에 세워지는 궁전이야. 그리고 네가 던지는 말 한 마디 한 마디(토큰)가 그 사이를 여행하는 순례자인 거지. 프롬프트가 곧 첫 번째 건축물인 셈.

한나가 지금 당장 시도해볼 것

오늘 쓰는 프롬프트 하나를 "이게 어떤 궁전을 짓고 있나?" 라고 스스로 물어보면서 써봐. 배경·맥락·목표를 다 담아서 첫 문장을 3배 이상 길게 써보는 거야. 최승준이 한두 문장을 넣으면 네 페이지로 팽창한다고 했거든 — 그 반대로, 내가 먼저 꽉 채워서 넣어보는 실험.

📖 시간대별 영상 흐름 (15분 정도 걸려, 시간 있을 때만)

0~12분: "10x가 뉴노멀이 되면 우리는 0.1x로 사는 거 아닌가?"

노정석이 "지금이 아니면 할 수 없는 걸 하자"고 운을 떼면서 시작해. 최승준은 약간 걱정스러운 얼굴로 이야기를 꺼내는데, 요지는 이거야. AI 덕분에 누구나 10배 빨리 코드 짜고 제품 만들 수 있게 됐는데, 모두가 다 10배 빨라지면 그게 그냥 새 기준이 돼버리잖아. 그럼 또 100배를 해야 하고, 결국 거기도 못 따라가면 0.1배로 사는 거 아니냐는 거지.

최승준이 게임 비유를 꺼내. "나이 먹으면 1년에 GOTY 게임 하나도 하기 어렵잖아요. 소프트웨어도 캄브리아기 대폭발이 되면 다 관심받긴 어려울 거예요." 노정석은 여기서 경제학 원론 들고 와서 쿨하게 정리해 — "공급이 폭발하면 가격이 떨어지는 건 당연한 거야, 소프트웨어가 이제 그 시기에 들어간 것뿐이지." 둘 다 불안하면서도 이걸 자연스러운 흐름으로 받아들이는 분위기.

12~25분: "인간의 뇌도 그냥 autoregressive 머신이야"

노정석이 speech jammer 얘기를 꺼내는데 여기서 분위기가 확 바뀌어. 자기 목소리를 몇백 밀리초 어긋나게 들려주면 말이 막혀버린다는 실험인데, "이게 뭘 증명하냐면 인간 뇌도 그냥 autoregressive 머신이다"라고 단호하게 말해. 최승준이 "오늘 할 얘기랑 딱 맞아떨어지네요" 하면서 슬라이드를 꺼내.

최승준이 준비한 이야기 『윤회하는 토큰의 순례』가 여기서 시작돼. 게임 Journey(2011)에서 영감받은 이미지들이랑 같이. 녹화 1분 전에 Claude한테 슬라이드 만들게 시켰다고 하는데, 노정석이 "된다는 걸 이미 알고 있었죠" 하고 웃어. 믿음으로 시킨 거라는 거지.

25~40분: 토큰 하나의 여행 — 32층 탑을 오르는 순례자

이 구간이 오늘 핵심이야. 최승준이 슬라이드를 넘기면서 토큰 하나의 시점으로 트랜스포머 내부를 설명해.

토큰이 처음에 숫자로 바뀌고(embedding), 그 숫자가 32개의 층을 하나씩 통과해. 각 층마다 "나는 지금 어디에 있고 무엇과 연결되어야 하나"를 여러 관점에서 동시에 살펴보고(multi-head attention), 그 결과를 자기 자신에 덧대면서 점점 맥락이 풍부해져. 그리고 층을 지날 때마다 KV cache라는 흔적을 남기는데, 이게 쌓여서 "기억의 궁전"이 돼.

MoE(전문가 혼합) 구간에서는 384개의 문 중에 8개만 열어서 들어가는 게이트 시스템 이야기도 나오고, 노정석이 DeepSeek 논문들이랑 연결하면서 "이런 것들이 계속 최적화되고 있는 거야"라고 짚어줘. 둘 다 신이 나서 얘기하는데 최승준이 "이 주인공이 같은 실루엣이지만 사실 경험치가 쌓여서 전혀 다른 상태예요"라고 하면 노정석이 바로 "맞아요, 뭔가 덕지덕지 붙어 있는 형태로 바뀌어가는 거죠"라고 받아.

40~53분: 트랜스포머 공부는 어디까지 해야 해? — MVK 이야기

노정석이 직구를 날려. "적어도 이 세계를 해석하려면 트랜스포머 공부를 어디까지 해야 되냐, 가혹하게 말해줘요." 최승준이 솔직하게 답해: "학부 1,2학년 선형대수는 알아야 하고, 토이 구현이라도 한 번은 해봐야 해요."

그러고 나서 노정석이 MVK(Minimum Viable Knowledge) 이야기를 재벌 회장 비유로 쫙 풀어. 회장님이 신약 사업 할 때 McKinsey 잔뜩 불러서 report 쌓은 뒤 공통 키워드만 뽑는 것처럼, 이제 우리도 Oh-My-Opencode 같은 AI 에이전트 밤새 돌리고 아침에 결과물 보면서 "에너지 레벨 높은 게 뭔지" 골라낼 수 있다는 거야. 그 MVK가 생겨야 다음 질문이 의미 있어진다는 결론.

마지막으로 최승준이 "천 번째 생성도 첫 번째처럼 감탄해보자"는 말로 마무리해. 한 토큰이 생성되는 게 사실은 경이로운 일이라는 거, 그걸 음미할 줄 알면 프롬프팅도 달라진다는 거지.

💡 한나 버전 사전

"트랜스포머(Transformer)"가 뭐야?

전문가 설명: AI가 언어를 처리하는 핵심 구조. 텍스트를 숫자로 바꾸고 여러 층의 연산을 거쳐 다음 단어를 예측하는 신경망 아키텍처.
한나 버전: 유튜브 알고리즘이 영상 수천 개를 보고 "이 사람한테 뭘 추천할까"를 계산하는 것처럼, 트랜스포머는 앞에 나온 모든 단어를 보고 "다음에 뭐가 올까"를 계산하는 거야. ChatGPT, Claude 전부 이 구조 기반이야.

"토큰(Token)"이 뭐야?

전문가 설명: AI가 텍스트를 처리하는 최소 단위. 단어 하나 또는 단어의 일부분.
한나 버전: 인스타 캡션을 글자 단위가 아니라 단어 덩어리로 쪼갠 것처럼 생각해봐. AI는 그 덩어리 하나하나를 순서대로 만들어내. 캡션 한 줄이 수십 개의 토큰으로 만들어지는 거야.

"KV cache"가 뭐야?

전문가 설명: Key-Value cache. AI가 이전에 처리한 토큰들의 정보를 저장해두는 임시 메모리. 매번 처음부터 다시 계산하지 않아도 되게 해줌.
한나 버전: 콘텐츠 기획 노트 같은 거야. 협업할 때 이전 대화 내용을 메모장에 써두면 매번 처음부터 설명 안 해도 되잖아. KV cache가 AI한테 그 역할을 해. 대화가 길어질수록 이 메모가 쌓여서 맥락을 유지하는 거지.

"Autoregressive(자기회귀)"가 뭐야?

전문가 설명: 이전 출력을 다음 입력으로 쓰는 방식. AI가 단어를 하나씩 순서대로 만들어내는 것.
한나 버전: 릴스 연속 촬영할 때 앞 컷을 보고 다음 컷 구도 잡는 거랑 비슷해. AI도 자기가 방금 뱉은 단어를 보고 다음 단어를 결정하거든. 그래서 첫 단어가 중요해 — 한번 방향이 잡히면 그 흐름으로 가게 돼 있어.

"Attention / Multi-head Attention"이 뭐야?

전문가 설명: 입력 텍스트에서 어떤 부분에 집중할지를 계산하는 메커니즘. Multi-head는 여러 관점에서 동시에 살펴보는 것.
한나 버전: 브랜드 협업 제안서 검토할 때 "이 브랜드가 내 팔로워랑 맞나", "단가는 어때", "비주얼 핏은?" 여러 기준으로 동시에 보잖아. Multi-head attention이 딱 그거야. 여러 관점으로 동시에 보고 종합하는 거지.

"MoE (Mixture of Experts)"가 뭐야?

전문가 설명: 여러 전문가 네트워크 중 입력에 맞는 일부만 선택해서 쓰는 구조. 파라미터는 많지만 실제 계산은 일부만 함.
한나 버전: 에이전시에 디자이너 100명이 있어도 이 프로젝트엔 8명만 투입하는 거랑 같아. AI도 수백 개의 전문 파트 중 이 질문에 맞는 8개만 켜서 답하는 거야. 효율적이고 규모도 크게 키울 수 있어.

"Residual Connection(잔차 연결)"이 뭐야?

전문가 설명: 각 층의 출력에 입력을 더해주는 구조. 깊은 레이어에서도 초기 정보가 사라지지 않게 함.
한나 버전: 리믹스 콘텐츠 만들 때 원본 소스를 계속 레이어로 깔아두는 것처럼. 아무리 편집이 많이 돼도 원본 느낌이 남아 있는 거야. AI도 레이어가 깊어져도 처음 입력의 느낌이 계속 살아있게 이렇게 구조가 돼 있어.

"MVK (Minimum Viable Knowledge)"가 뭐야?

전문가 설명: 새로운 도메인에서 의미 있는 질문을 하고 판단을 내릴 수 있는 최소한의 핵심 지식.
한나 버전: 뷰티 브랜드 협업 처음 할 때 성분 박사가 될 필요는 없잖아. "이 성분이 트렌디한 거고 이 수치가 고농도라는 것" 정도만 알아도 계약 협상이 달라지잖아. 그 딱 필요한 만큼의 지식이 MVK야.

"AI Slop"이 뭐야?

전문가 설명: AI로 품질 검토 없이 대량 생성된 저품질 콘텐츠 또는 소프트웨어.
한나 버전: 틱톡에 AI 목소리로 긁어온 정보 영상 수천 개 있잖아. 누가 만든지도 모르고 사실 확인도 없는 그것들. 소프트웨어 세계에서도 이런 게 지금 폭발하는 중이야.

"Soft Lookup"이 뭐야?

전문가 설명: 딱 하나의 답을 찾는 게 아니라 여러 후보에 점수를 매겨 가중 평균을 내는 정보 검색 방식.
한나 버전: 브랜드 선택할 때 딱 하나만 고르는 게 아니라 "A 브랜드 40%, B 브랜드 35%, C 브랜드 25%"로 비율로 섞어서 결정 내리는 느낌. AI가 정보 찾는 방식이 다 이런 식으로 "비율로 섞기"야.

🔥 노정석 어록 모음

"10x가 새로운 1x가 되고 그다음에 뭐 100x가 새로운 1x가 되고 하는 그 타이밍이 무지무지하게 빨리 오고 있는 것 같다는 느낌 들어요."

분위기: 약간 숨 막히는 듯 말하면서도, 이걸 자연스러운 흐름으로 받아들이는 담담한 톤.

한나 풀이: 유튜브 초창기에 영상 하나 올리면 그냥 유명해지던 시절이 있었잖아. 근데 지금은 하루에 50만 개 업로드되니까 그게 그냥 기준이 된 거야. AI 도구도 똑같은 길을 초고속으로 달리고 있어. 지금 10배 빠른 게 곧 그냥 기본값이 된다는 말이야.

"쓰레기들이 잔뜩 있는데 그 쓰레기들도 일단 양이 많으면 어떻게 추릴까 고민만 조금만 하면 언제나 quality가 꺼내진다. Quality는 언제나 quantity의 그냥 어떤 부속 변수였구나."

분위기: Google 시절 경험을 떠올리면서 확신에 차서 말하는 톤. "나 이거 직접 겪어봤어"의 느낌.

한나 풀이: 콘텐츠 아이디어 브레인스토밍할 때 일단 100개를 적어봐야 그중에 진짜 10개가 보이잖아. AI한테도 마찬가지야 — 일단 많이 돌려보고, 공통적으로 튀어나오는 걸 추리는 게 진짜 전략이야. 처음부터 완벽한 걸 뽑으려고 하면 아무것도 안 나와.

"그러면 저는 이제 그것만 보면서 다시 가장 에너지 레벨이 높은 게 이거구나 이런 식으로 그룹핑이 됐구나라는 걸 알면서 이 MVK가 생기거든요."

분위기: Oh-My-Opencode 밤새 돌리고 아침에 결과 보는 자기 루틴을 얘기하면서, 이게 진짜 된다는 걸 알기에 즐거운 톤.

한나 풀이: AI한테 일 시키고 자고 일어나서 결과물 훑으면서 "뭐가 제일 많이 나왔지?" 보는 게 그냥 최신 리서치 방법이야. 모르는 분야도 AI가 리포트 쌓아주면, 그걸 보면서 "이게 핵심이구나"가 보이기 시작해. 그게 MVK가 만들어지는 순간이야.

🎬 한나 적용 포인트

콘텐츠 기획에 MoE 방식 써보기 새 콘텐츠 시리즈 기획할 때, AI한테 "디자이너 관점", "마케터 관점", "팬 관점", "경쟁자 관점" 각각 따로 분석 시켜봐. 8개 전문가한테 동시에 물어보는 MoE처럼. 그 결과물을 다시 종합해서 진짜 기획서 뽑으면 훨씬 입체적이야.

"AI slop vs 예술품" 기준으로 내 콘텐츠 점검하기 지금 내 콘텐츠 중에 AI 양산형(AI slop)이랑 비슷한 게 있는지 솔직하게 봐봐. 노정석·최승준 둘 다 결론이 같아 — 쏟아지는 콘텐츠 홍수 속에서 살아남는 건 "예술품 같은 것"이라고. 한나가 갖고 있는 고유 경험, 감성, 취향이 들어간 것만 살아남거든. 그 차별점이 뭔지 찾아서 더 밀어붙여봐.

🏷️ 태그

시기: #2026상
주제: #트랜스포머원리 #프롬프팅 #AI도구생산성 #학습방법론
인물: #최승준
자유: #토큰순례 #MVK #윤회하는토큰