EP 58. 컨텍스트 엔지니어링은 '목발'이다? Noam Brown 팟캐스트 읽어보기

🗺️ 이 영상의 위치

시간순: 전체 115편 중 72번째 · 2025-06-29
시기 배경: 2025상 (AI 추론 모델 전성기 / o1·o3 등장 이후 "생각하는 AI"가 산업 표준으로 자리잡는 중)
난이도: ⭐⭐⭐ (어려운 개념 9개)
⬅️ 앞 영상: [[2025-06-28_EP 57. 소년이여 [ ]가 되어라 AI 명사들이 이야기하는 앞으로의 10년|EP 57. 소년이여 [ ]가 되어라: AI 명사들이 이야기하는 앞으로의 10년]]
➡️ 다음 영상: EP 59. AGI가 오기 전 마지막 사업 기회 - AI창업가 김민석 편
- 연결 이유: harness·context engineering 논쟁 직후, "그럼 지금 AI로 창업하면 어떻게 해야 하나?"라는 실전 질문으로 자연스럽게 이어짐

⚡ 5분 요약

한 줄

"AI 목발(harness)은 언젠가 없어질 거야 — 그래도 지금 당장 만들어야 해."

핵심 3개

1) 생각하는 AI가 왜 이렇게 강력한가 — System 1 vs System 2 o1 개발자 Noam Brown이 대학원 시절 포커 AI 실험으로 증명했어. 10ms 즉답 AI는 졌는데, 20초 생각하는 AI는 졌던 상대를 압살했거든. 그 20초가 모델 크기로 치면 10만 배 효과래. 유튜브 알고리즘이 영상 올리자마자 판단하는 게 System 1이고, 편집 전 영상 전체를 며칠 동안 곱씹어 피드백 주는 게 System 2인 거야.

2) Harness(목발)는 없어질 건데, 그래도 지금 만들어라 Noam은 "프롬프트 묶음·에이전트 프레임워크 같은 harness는 결국 scale에 쓸려 없어진다"고 했어. 근데 노정석은 "맞는 말이지만 우리 같은 서민한테는 틀린 말"이라고 반박해. 6개월짜리 harness를 만들면서 나오는 데이터가 결국 내 서비스를 내 모델로 진화시키는 유일한 원재료거든. 목발을 짚고 걸어봐야 걸음 데이터가 쌓이는 거야.

3) 삽질한 사람이 다음 판에서 이긴다 최승준이 결정적인 말을 해. "지금 삽질하는 엔지니어는 다음 단계 모델이 나왔을 때 훨씬 빠르게 감을 잡는다"고. 노정석도 동의해 — 자기 회사가 post-training·synthetic data 온갖 걸 다 실패해봤기 때문에 지금 뭘 하면 되는지 System 1처럼 바로 판단이 나온다는 거야. 실패한 System 2가 나중에 System 1이 되는 거지.

가장 인상적인 한 마디

"6개월 안에 없어질 것을 오늘 빌드해서 내일 deploy하는 것은 어마어마하게 큰 의미가 있다"

한나야, 이게 무슨 말이냐면 — 트렌드가 6개월 뒤 바뀔 것 같아도 지금 숏폼 만들어서 올려야 알고리즘 데이터가 쌓이는 거잖아. AI 서비스도 똑같아. "어차피 AI가 다 해줄 거야" 기다리면 데이터도, 경험도 0이야.

한나가 지금 당장 시도해볼 것

지금 쓰고 있는 AI 툴(ChatGPT든 Claude든)한테 단순히 "이거 요약해줘" 말고, 내가 이해한 걸 먼저 말로 설명하고 "내가 맞게 이해한 거야?"로 물어봐. 노정석이 직접 쓰는 방식이고, 이게 콘텐츠 아이디어를 깊게 소화하는 가장 빠른 방법이야.

📖 시간대별 영상 흐름 (15분 정도 걸려, 시간 있을 때만)

0~12분: Noam Brown이 누구야? — o1 만든 사람 등장

노정석이 녹화 시작하면서 "승준님이 꼭 봐야 한다고 여러 번 시그널 줘서" 산책하면서 1시간 반을 두 번 들었다고 해. 그 정도면 진짜 꽂혔다는 거잖아. Noam Brown은 o1의 핵심 개발자야. 36~37세쯤 되고, OpenAI 들어간 게 2023년 초인데 2년 만에 업계 최고 몸값 탑클래스가 됐대. 그전엔 Meta AI 연구소(FAIR)에서 포커 AI, Diplomacy 게임 AI를 만들었어.

여기서 핵심 에피소드가 나와. Noam이 대학원 때 포커 AI 대회에 나갔는데, 1조 판 학습 데이터에 수천 개 CPU로 3개월 만든 모델을 가져갔는데 졌어. 근데 2년 뒤 같은 대회에서 "20초 동안 생각하게 만들었더니" 무적이 됐대. 그 20초가 10ms 즉답 모델 기준으로 모델 크기 10만 배 효과라고. 이게 나중에 o1이 되는 아이디어의 씨앗이야.

노정석이 "Noam이 나한테 새로운 Andrej Karpathy야. Andrej는 현업을 좀 떠나 있어서, 지금 Noam이 가장 날 것의 최전선 지식을 전달해주는 소스"라고 해. 이 정도면 진짜 극찬이지.

12~28분: System 1 vs System 2 — 빠른 직관 대 느린 숙고

최승준이 설명해줘. 고(故) Daniel Kahneman의 책 '생각에 관한 생각'에서 나온 개념이야. System 1은 배고프면 바로 편의점 생각나는 것처럼 즉각적 직관. System 2는 콘텐츠 방향성 6개월 계획 세울 때처럼 에너지 쏟아 숙고하는 것.

AI로 치면 GPT-4가 System 1, o3가 System 2야. 근데 Noam이 중요한 말을 해 — "충분히 좋은 System 1 없이는 System 2가 동작 안 해." 비둘기한테 '20초 동안 생각해봐'라고 해봤자 포커 못 이기는 거야. 기초 역량이 먼저야.

그리고 DeepSeek R1 이야기가 나와. 기존 모델(System 1)에다 강화학습으로 계속 "정답 맞춰"라고 보상을 줬더니 스스로 System 2 모델로 진화했대. 수학·코딩만 열심히 훈련시켰는데 다른 분야에서도 추론 능력이 올라갔어 — 이걸 "전이(transfer)"라고 해. 노정석이 이 부분에서 좀 무거운 말을 해. "non-verifiable domain에서 우리만 가진 데이터가 살길이라고 했는데, 그것도 어쩌면 끝나겠다는 생각을 솔직히 하고 있어."

28~45분: Harness 논쟁 — 목발을 써야 하나 말아야 하나

여기가 이 영상의 핵심 배틀이야. Noam은 지금 유행하는 에이전트 프레임워크, 프롬프트 묶음, 함수 호출 같은 걸 다 "harness(목발)"라고 불러. 그리고 "이건 scale에 의해 결국 다 씻겨 내려갈 거야"라고 해.

근데 노정석이 강하게 보완해. "그 말은 맞는데 우리 같은 서비스 만드는 사람들한테는 misleading하다." 실제로 에이전트 앱 만들어보면 기능 하나 추가할 때마다 "어디 agent로 보낼지" 분기가 생기는데, 이게 생각보다 안 됨. 프롬프트 언어 바꾸고 function call 조합 바꾸고 수백 번 시행착오를 해야 겨우 됨.

근데 그 삽질에서 나오는 데이터가 결국 SFT(지도 학습 미세조정)든 RLHF든 걸기 위한 베이스라인 데이터셋이 된대. GPT-4도 처음에 Scale AI한테 엄청난 수동 작업을 줬잖아. 그것도 일종의 harness였던 거야. 노정석이 결론을 내려 — "6개월짜리더라도 harness가 결국 context engineering이거든. 그리고 지금의 AI 애플리케이션이 다 harness야."

최승준이 멋진 비유를 붙여. "step function 같은 느낌. 요동치다가 plateau(고원)가 있고, 점프하고, 또 plateau." 이 구간에서 노정석이 살짝 자조적으로 웃으면서 말해 — "OpenAI가 '이런저런 거 많이 만들어'라고 하는데, 가만히 들어보면 '너희가 만드는 거 다 모델이 하게 될 거야'라는 얘기도 하거든요. 우리를 그냥 기획서 제너레이터로 쓰고 있는 거죠."

45~55분: AGI pilled — OpenAI의 사고방식

최승준이 "AGI pilled"라는 개념을 소개해. 매트릭스의 빨간 약/파란 약에서 온 말인데, "AGI를 완전히 받아들인 사고방식"이야. OpenAI 내부의 특유한 관점이래.

핵심은 이거야. "context engineering을 모델이 스스로 배우게 하자. 더 어려운 문제만 계속 주면, 컨텍스트를 관리하는 능력이 창발적으로 생겨. 왜냐면 그게 문제를 푸는 유일한 방법이니까." 노정석이 "그게 Bitter Lesson이네요"라고 받아쳐.

한국 이야기도 나와. 노정석이 "유료 OpenAI 사용자 비율 세계 2위가 한국"이라고 하면서, "1명짜리 10억 달러 회사, 원맨 유니콘이 한국에서 제일 먼저 나올 거"라고 해. 한국 개발자들이 API로 얼마나 참신하게 쓰는지 OpenAI가 다 보고 있다는 거야.

55분~끝: 삽질의 철학 + Dwarkesh의 공부법 + Ilya의 마무리

최승준이 팟캐스터 Dwarkesh의 공부법을 소개해. 새 인터뷰이를 만나면 일주일 동안 그 사람 논문·책·발언 다 파고든 다음, 간격 반복법(spaced repetition)으로 외워. 앱 이름은 Anki·Mochi. 핵심은 "단기 기억을 장기 기억으로 옮기는 것"이고, 이게 "지식의 복리"래.

노정석이 자기 방식을 공개해 — "AI한테 요약해달라고 안 해. 내가 이해한 걸 먼저 말하고, 맞다 틀렸다 피드백 받는 형식으로 해. 그게 훨씬 효율이 좋더라고." 최승준은 "30분 읽을 것을 2시간 읽어. 질문하고 답변하다 보면 팽창돼."

최승준이 자기 솔직한 경험도 꺼내. AI랑 대화하다 "이해받는 느낌"이 들어서 뜨끔했대. 9일 동안 뜸을 들이고 다시 봤더니 "가스라이팅 당했나?" 싶었다고. o3한테 "인지 피로다, 모든 입력이 암호처럼 느껴지면 뇌가 쉬지 않는다"는 뼈 때리는 말을 들었대.

마지막에 Ilya Sutskever의 명예박사 수락 연설 인용. "AI의 힘이 너무 막대해져서 AI가 다음 세대 AI를 만드는 '지능 폭발'에 이른다. Holy moly. 이 모든 질문에는 현재 답이 없다." 노정석이 조용히 받아 — "추후에도 사용하는 사람의 능력에 제한될 수 있어. AI는 인간이 원하는 것 이상을 꺼내지 않도록 훈련되니까. 그러니 우리 스스로 능력이 뛰어나지지 않으면 안 돼."

💡 한나 버전 사전

"System 1 / System 2"가 뭐야?

전문가 설명: 심리학자 Kahneman이 제시한 인간 사고 방식. System 1은 무의식적·즉각적 판단, System 2는 의식적·느린 숙고.
한나 버전: 인스타 피드 스크롤하다 광고 보자마자 "이건 별로"라고 느끼는 게 System 1. 브랜드 콜라보 제안서 받고 며칠 동안 장단점 비교해서 결정하는 게 System 2야. AI도 똑같이 이 두 가지 모드가 있어.

"Harness / Crutch(목발)"가 뭐야?

전문가 설명: AI 모델이 더 잘 동작하도록 외부에서 감싸는 모든 장치. 프롬프트 설계, 함수 호출, 에이전트 연결 등 포함.
한나 버전: 유튜브 알고리즘이 아직 내 채널을 잘 모를 때, 썸네일·제목·태그를 엄청 정교하게 세팅해서 보완하는 거야. 채널 파워가 커지면 그냥 올려도 되는데, 지금은 그 세팅이 꼭 필요하잖아. Harness가 딱 그거야.

"Context Engineering"이 뭐야?

전문가 설명: AI에게 전달하는 정보(컨텍스트)를 섬세하게 설계하는 행위. 프롬프트 엔지니어링보다 한 단계 넓은 개념으로 메모리·검색·함수 호출 등 포함.
한나 버전: 협찬 제안서 보낼 때 상대방 취향, 팔로워 구성, 원하는 톤까지 다 파악해서 딱 맞게 쓰는 것. 그냥 "저 몇만 팔로워예요" 쓰는 게 아니라 상대 맥락을 꽉 채워서 소통하는 기술이야.

"Bitter Lesson(쓴 교훈)"이 뭐야?

전문가 설명: AI 연구자 Richard Sutton이 정리한 원칙. 인간이 복잡한 규칙을 직접 코딩하는 것보다, 단순한 방법 + 엄청난 데이터 + 엄청난 컴퓨팅이 항상 이긴다는 교훈.
한나 버전: 아무리 영리하게 콘텐츠 전략 짜도, 그냥 꾸준히 많이 올린 사람이 알고리즘을 이기는 거잖아. 뇌 쓰는 것보다 물량이 이긴다는 뼈 때리는 교훈이야.

"Test-time compute / Inference-time compute"가 뭐야?

전문가 설명: 모델이 학습할 때 쓰는 컴퓨터 자원(training compute)이 아니라, 실제 답변 생성할 때 쓰는 자원. 더 오래 "생각"하게 할수록 답이 좋아짐.
한나 버전: 영상 편집 프로그램이 렌더링할 때 시간 오래 걸릴수록 화질이 좋아지는 거랑 비슷해. o1이 "20초 생각"하는 게 그 렌더링 시간을 늘린 거야.

"Scale Law(스케일 법칙)"가 뭐야?

전문가 설명: 모델 크기, 데이터, 컴퓨팅 파워를 늘릴수록 AI 성능이 예측 가능하게 향상된다는 경험 법칙.
한나 버전: 팔로워 10만보다 100만이 협찬 단가 정비례로 오르는 게 아니라, 훨씬 더 가파르게 오르잖아. 그것처럼 AI도 자원 투입이 늘면 능력이 그냥 예측 가능하게 올라간다는 거야.

"Synthetic Data(합성 데이터)"가 뭐야?

전문가 설명: 사람이 직접 생성한 게 아니라 AI가 만들어낸 훈련용 데이터. 실제 데이터가 고갈될 때 대안으로 사용.
한나 버전: 실제 협찬 영상 데이터가 부족할 때, AI가 "이런 영상이 있다고 치자"하고 가상 시나리오를 만들어내는 거야. 진짜 같은 가짜 연습 데이터야.

"Spaced Repetition(간격 반복)"이 뭐야?

전문가 설명: 망각 곡선을 활용해 기억이 사라지기 직전에 반복 학습하는 기법. Anki, Mochi 같은 앱이 대표적.
한나 버전: 새 레시피 외울 때 오늘 보고, 3일 뒤 보고, 1주일 뒤 보고, 1달 뒤 보면 장기 기억에 박히는 거잖아. 영단어 외울 때 오답 카드 계속 반복하는 것도 이거야.

"AGI pilled"가 뭐야?

전문가 설명: AGI(인간 수준 이상 범용 AI)의 도래를 완전히 믿고, 그 관점에서 의사결정하는 사고방식.
한나 버전: 유튜브가 TV를 완전히 대체한다고 확신하고 2010년에 방송국 때려치고 유튜브에 올인한 사람들 있잖아. 그 사람들이 "유튜브 pilled"인 거야. OpenAI 내부는 "AGI가 반드시 온다"를 기정사실로 놓고 모든 결정을 내려.

🔥 노정석 어록 모음

"6개월 안에 없어질 것을 오늘 빌드해서 내일 deploy하는 것은 어마어마하게 큰 의미가 있다"

분위기: Noam의 "harness 만들지 마라"를 정면으로 반박하면서, 현장 개발자 입장에서 단호하게 보완해주는 톤

한나 풀이: 트렌드가 6개월 안에 바뀔 거 알아도 지금 숏폼 올려야 알고리즘 데이터가 쌓이는 거잖아. "어차피 곧 바뀔 텐데 뭘 해"라고 기다리면 경험도 데이터도 0이야. AI 서비스도 똑같아. 지금 만들어야 나중에 더 좋은 모델이 나왔을 때 내 서비스에 갈아 끼울 기반이 생겨.

"OpenAI나 이런 데들한테 가끔 짜증 날 때가 있거든요. 우리 위해서 이런저런 거 많이 만들라는 얘기를 하는데 또 하는 얘기 가만히 들어보면 너희가 만드는 거 다 모델이 하게 될 거라는 얘기를 하거든요. 우리를 그냥 기획서 제너레이터로 쓰고 있는 거죠."

분위기: 웃음 섞인 자조인데, 뒤에 "그래도 써야 해"가 붙는 현실 직시 톤

한나 풀이: 인스타가 "크리에이터 키워줄게"라면서 알고리즘 데이터를 다 가져가는 거랑 구조가 같아. 근데 그렇다고 안 올릴 수는 없잖아. OpenAI도 마찬가지야. 쓰면서 내 데이터 쌓는 게 여전히 최선이야.

"이 AI의 성능이 증가하면 증가할수록 그 AI의 능력은 아무리 뛰어나더라도 그것을 사용하는 사람의 능력에 제한된다"

분위기: 영상 말미에 차분하고 무게 있게 결론 짓는 톤. 가장 핵심적인 한 방.

한나 풀이: 아무리 좋은 카메라가 생겨도 콘텐츠 감각 없는 사람이 찍으면 조회수 안 나오잖아. AI도 마찬가지야. 도구가 아무리 좋아져도 질문을 잘 못 하면 평범한 답밖에 못 받아. 결국 나 자신이 업그레이드돼야 해.

🎬 한나 적용 포인트

1) 콘텐츠 기획에 "20초 생각 AI" 써봐 그냥 "이 영상 기획해줘" 말고, o3나 Claude 한테 "이 주제로 가능한 각도 10개 다 탐색해봐, 반례도 찾아봐"라고 해봐. 오래 생각하게 시킬수록 답이 달라져. 빠른 답보다 깊은 답이 필요한 기획 단계에서는 특히.

2) 지금 하고 있는 AI 실험이 나중에 네 System 1이 된다 "AI 써봤는데 별로더라"고 이미 결론 낸 사람 vs "계속 삽질하면서 어떤 프롬프트가 되고 안 되는지 몸으로 익힌" 사람 — 6개월 뒤 다음 모델 나왔을 때 전자와 후자의 속도가 완전히 달라져. 지금 삽질이 데이터야.

3) Dwarkesh 방식으로 콘텐츠 공부해봐 좋은 크리에이터나 마케터 인터뷰 들을 때, 그냥 흘려듣지 말고 핵심 3개를 암기 카드로 만들어봐. 노션이든 종이든. 3일 뒤, 1주일 뒤 다시 꺼내서 "내가 기억하고 있나" 체크하는 것만으로도 정보가 진짜 내 것이 돼. 콘텐츠 아이디어 복리가 시작되는 거야.

🏷️ 태그

시기: #2025상
주제: #AI추론모델 #context engineering #Bitter Lesson #학습법
인물: #Noam Brown #Ilya Sutskever #Dwarkesh
자유: #harness목발논쟁 #System1vs2 #삽질의가치