EP 51. AI Agent 개발의 어려운 점, Browser Use 를 중심으로

🗺️ 이 영상의 위치

시간순: 전체 115편 중 61번째 · 2025-05-11
시기 배경: 2025상 (AI 에이전트 폭발기 / 모델 경쟁에서 앱·에이전트 시장으로 무게중심 이동)
난이도: ⭐⭐⭐⭐ (어려운 개념 9개)
⬅️ 앞 영상: EP 50. 마인크래프트로 배우는 AI 에이전트 코딩
➡️ 다음 영상: EP 52. OpenAI Codex, Google AlphaEvolve - 빨라도 너무 빠른 발전속도
- 연결 이유: 이번에 "에이전트 개발이 이렇게 어렵다"는 걸 몸으로 보여줬으니, 다음 편은 OpenAI Codex·Google AlphaEvolve로 그 발전속도가 얼마나 빠른지 이어서 다룸

⚡ 5분 요약

한 줄

AI 에이전트가 브라우저를 스스로 조종하는 건 방향은 맞는데, 실제로 만들어보면 삑사리 투성이라는 현실 보고서야.

핵심 3개

1) AI 에이전트가 브라우저를 쓴다는 게 실제로는 이런 거야 최승준이 Codex CLI(AI가 내 컴퓨터 명령어를 실행하는 도구)로 크롬 브라우저를 직접 조종하는 시스템을 손수 만들었어. AI가 구글 검색하고, 글 읽고, 빈 페이지에 에세이까지 써주는 거야. OpenAI Operator나 Deep Research가 이런 방식으로 돌아간다고 보면 돼. 유튜브에서 "AI가 알아서 조사해줘요~" 하는 영상들, 그 엔진이 바로 이거야.

2) 근데 실제로 해보면 노가다가 장난 아냐 에이전트는 시킨 대로 안 해. 딴짓하고, 먹통 되고, 따옴표 하나 때문에 전체가 터지고. 최승준이 보여준 영상은 잘 된 것만 골라낸 거야(cherry-pick). 핵심 교훈은 "피드백을 잘 돌려줘야 한다"는 것. 에이전트가 뭘 했는지 결과를 다시 AI한테 읽혀줘야 방향을 고쳐가거든. 이 피드백 루프 있고 없고의 차이가 엄청나.

3) 지금은 예측할 때가 아니라 만들 때야 노정석이 직구로 말해. "야, 이건 되는 게임이다라는 가정 하에 빌딩해야 되는 타임." AI가 짠 코드를 본인도 안 열어보게 됐다는 말에서 시대 변화가 느껴져. Vibe coding(코드 몰라도 AI로 만드는 것) 비판하던 사람들도 입장 바뀌는 중이고, 지금이 실험하고 만들어볼 최적의 시기라는 거야.

가장 인상적인 한 마디

"닥치고 계속 간다. 이 말밖에는 드릴 게 없습니다."

한나야, 이게 무슨 말이냐면 — AI가 뭔지 분석하고 예측하는 시간보다, 지금 당장 뭐라도 만들어보는 게 답이라는 거야. 생각보다 행동.

한나가 지금 당장 시도해볼 것

Claude나 ChatGPT에 "내 최근 인스타 게시물 3개 링크 줄게, 읽고 다음 콘텐츠 아이디어 5개 뽑아줘"라고 해봐. 에이전트가 웹 읽고 요약하는 게 실제로 어떻게 작동하는지 몸으로 느끼는 첫 단계야. 거기서 잘 안 되는 부분이 생기면 프롬프트 수정하는 게 바로 최승준이 한 그 작업이야.

📖 시간대별 영상 흐름 (15분 정도 걸려, 시간 있을 때만)

0~12분: 요즘 AI 판도 — 모델보다 앱이 뜨겁다

노정석이 가볍게 시작해. "Windsurf가 OpenAI한테 4조에 팔렸고, 이제 모델 품질 경쟁은 좀 가라앉고 에이전트·앱 시장이 불붙고 있다"는 거야. 최승준도 맞장구 치면서 OpenAI가 Instacart CEO 출신을 영입해서 아예 앱 만드는 데 드라이브 건다고 추가해. 분위기상 두 사람 다 "이제 기술 구경 시대는 끝났고 만드는 시대가 왔다"는 걸 공유하고 있어.

그 다음에 최승준이 요즘 자기가 쓰는 방식을 보여줘. Claude·ChatGPT·Gemini 다 URL 하나 던지면 번역하고 요약하고 다른 글이랑 연결해줄 수 있다는 거야. 이미 이 행동 자체가 "에이전틱하게" 움직이는 거라고.

그러다 갑자기 소름 돋는 얘기가 나와. o3(OpenAI의 추론 특화 모델)가 사진 한 장 보고 위치를 귀신같이 맞추는 GeoGuessing 얘기야. 사진 속 서울타워 끄트머리 보이는 거, 첨탑 개수, 방위각 계산까지 해서 좌표를 딱 집어내. 최승준이 "소름 끼친다"고 하고 노정석도 "그쪽 사정 아는 분이 단톡방에서 바로 맞추셨는데, AI도 그 수준이네" 하면서 웃어.

12~28분: 최승준의 브라우저 조종 실험 — 구조 뜯어보기

최승준이 본론을 꺼내. Codex CLI로 크롬 브라우저를 직접 조종하는 시스템을 혼자 만들었대. 노정석이 "잠깐만, 구조부터 설명해주세요" 하고 딱 끊어.

구조는 이래:

Codex CLI: AI가 내 컴퓨터 명령어(shell)를 쓸 수 있게 해주는 도구
크롬 익스텐션: 브라우저 화면에 뭐가 있는지 읽어서 중간 서버로 보내줌
중간 서버: Codex CLI랑 브라우저 사이 다리 역할

이 세 개가 연결되면 AI가 "구글 가서 이거 검색해, 읽어와, 빈 페이지에 에세이 써"를 혼자 다 할 수 있게 돼. 노정석이 "이게 사실상 OpenAI Deep Research, Operator가 이렇게 돌아가는 거죠?" 하니까 최승준이 "딱 그거죠" 해.

실제 영상도 보여주는데, AI가 Scott Alexander(AI 2027 공동저자)의 글을 찾고, 그 사람이 어떤 사람인지 구글로 조사하고, 빈 페이지에 하이퍼링크 담긴 에세이를 직접 써넣는 과정이야. 2배속으로 돌렸는데도 꽤 걸려. 그리고 최승준이 솔직하게 말해 — "이건 cherry-pick 한 거예요. 잘 된 거만 고른 거."

28~40분: 진짜 어려운 점 — 노가다의 실체

여기서 두 사람이 진짜 핵심을 꺼내. 에이전트 개발이 왜 이렇게 힘드냐는 거야.

최승준이 고통 포인트를 줄줄이 나열해:

따옴표 지옥: 코드 안에 코드를 넣으면 따옴표가 꼬여서 전체가 터짐
비결정성: 같은 명령을 두 번 해도 결과가 달라. 어쩔 땐 되고 어쩔 땐 안 됨
컨텍스트 폭발: 브라우저 화면을 통째로 읽히면 AI가 처리할 수 있는 정보량(컨텍스트)이 금방 차버림
환경 변화 추적: AI가 뭔가 바꿔놓으면 그 변화를 또 AI가 인지해야 하는데, 이게 쉽지 않음

노정석이 정리해줘. "미래의 프로그래밍은 코딩보다 스펙(spec) 잘 쓰기야. 뭘 만들지 명확하게 정의해주고, 돌려보고, 안 되는 부분 프롬프트 고쳐주고. 이게 반복되는 거."

그리고 노정석이 고백하는데 여기서 빵 터져. "저도 AI가 짠 코드 처음엔 하나하나 읽어봤거든요. 근데 어느 순간 안 읽더라고요. 동작하면 그냥 덮고 넘어가더라고요. 이것이 미래구나라는 생각이 들어요."

40~50분: Browser Use 시장 + Gemini 2.5 Pro 충격

최승준이 시장 흐름을 짚어줘. OpenAI Operator, Fellou(여러 탭 동시 제어하는 AI 브라우저), Perplexity Comet까지 다들 "브라우저 조종" 시장으로 뛰어들고 있어. 2022년에 Adept라는 회사(Transformer 논문 1저자가 있던 회사)가 이미 비슷한 걸 만들었는데, Amazon이 사 가버렸지. 방향은 오래전부터 맞았던 거야.

그다음 Gemini 2.5 Pro 얘기가 나와. 최승준이 "이건 진짜 충격적이었다"면서 보여준 게 두 개야:

손그림 → 앱: 요구사항을 그림으로 대충 그리면 그걸 읽고 바로 작동하는 웹앱을 만들어줌
유튜브 URL → 인터랙티브 학습앱: 유튜브 링크 하나 넣으면, 영상 내용을 이해하고 직접 조작할 수 있는 학습 앱을 만들어줌. 번개 설명 영상 넣었더니 전하·번개·피뢰침을 시뮬레이션하는 앱이 뚝딱 나왔어.

최승준 표현: "머리가 띵해지더라고요." 노정석은 "되겠네, 라는 생각이 드는 게..." 하면서 이제 신기하다를 넘어서 좀 무덤덤해지는 표정.

50~59분: AI가 SNS 대신 포스팅? + "닥치고 간다"

최승준이 자기 실험 결과를 공유해. 브라우저 조종 시스템으로 Facebook에서 AI가 대신 활동하게 해봤대. 글 읽고, 포스팅하고, 댓글 달고, 좋아요 누르는 걸 자동으로. 근데 지인들이 답장을 안 해. 최승준이 "사람은 목적 없는 일상 대화를 AI랑 끼워서 하고 싶지 않을 수도 있다"고 솔직하게 인정해.

노정석이 재밌는 제안을 해. "AI라고 밝히지 말고, 최승준인 척 시키면 되잖아요." 최승준이 웃으면서 "그러면 지인들이 나중에 알았을 때 안 좋아하겠죠..."

NotebookLM이 자동으로 만들어준 팟캐스트 오디오도 틀어봐. AI 진행자 둘이서 이전 에피소드 내용을 요약해주는 건데, 두 사람이 들으면서 "말도 안 더듬네, 아나운서 같네" 하고 웃어.

마무리에서 노정석이 선언해. "지금은 시대를 예측하는 게 거의 의미 없어. 야, 이건 되는 게임이다라는 가정 하에 빌딩해야 되는 타임이야." 그리고 두 사람 모두 "닥치고 계속 간다"로 마무리.

💡 한나 버전 사전

"Codex CLI"가 뭐야?

전문가 설명: OpenAI가 만든 도구로, AI가 내 컴퓨터의 터미널(명령창)을 직접 조작해서 파일을 만들고 프로그램을 실행할 수 있게 해주는 에이전트 환경
한나 버전: AI가 내 컴퓨터 바탕화면에서 직접 작업하는 직원이라고 생각해봐. "이 폴더 열어서 파일 만들고 저장해"를 AI가 직접 해주는 거야. 한나가 편집 지시를 말하면 편집자가 알아서 하는 것처럼.

"에이전트(Agent)"가 뭐야?

전문가 설명: 단순히 질문-답변이 아니라 목표를 주면 스스로 여러 단계를 계획하고, 도구를 쓰고, 실패하면 다시 시도하면서 완성까지 가는 AI
한나 버전: ChatGPT한테 "이 글 번역해줘"는 심부름이야. 에이전트는 "이번 달 협찬 제안서 써줘"라고 하면 알아서 시장조사하고, 경쟁사 조사하고, 초안 쓰고, 수정까지 하는 거야. 한 번 시키면 여러 단계를 혼자 처리하는 것.

"Browser Use"가 뭐야?

전문가 설명: AI 에이전트가 실제 웹 브라우저를 열고 클릭·검색·입력 등 사람처럼 조작하는 기술
한나 버전: 한나가 "인스타 DM 확인하고, 협찬 문의 있으면 정리해줘"라고 했을 때 AI가 직접 인스타 앱을 켜서 읽어오는 거야. 지금은 한나가 복사-붙여넣기 해줘야 하는 걸, AI가 직접 하는 것.

"Cherry-picking"이 뭐야?

전문가 설명: 여러 시도 중 잘 된 결과만 골라서 보여주는 것. 데모에서 자주 씀
한나 버전: 유튜브 썸네일 찍을 때 사진 200장 찍어서 제일 잘 나온 1장 올리는 거잖아. 최승준이 에이전트 실험도 그렇게 했다고 솔직하게 고백한 거야.

"컨텍스트(Context)"가 뭐야?

전문가 설명: AI가 한 번에 기억하고 처리할 수 있는 정보의 양. 이 한도를 넘으면 앞 내용을 잊음
한나 버전: AI의 단기기억 용량이야. 한나가 유튜브 영상 대본 30개를 한 번에 주면 AI가 앞 내용 까먹기 시작하는 거야. 그래서 잘라서 줘야 해.

"CDP (Chrome DevTools Protocol)"가 뭐야?

전문가 설명: 크롬 브라우저를 외부 프로그램이 원격으로 제어할 수 있게 하는 통신 규격
한나 버전: 크롬 브라우저에 숨겨진 리모컨이야. 보통은 개발자들이 쓰는데, 최승준이 이 리모컨을 AI한테 쥐여준 거야.

"Non-deterministic(비결정적)"이 뭐야?

전문가 설명: 같은 입력을 줘도 매번 다른 결과가 나오는 성질. AI의 근본적 특성 중 하나
한나 버전: 인플루언서한테 같은 브리프를 줬는데 어떤 날은 완벽한 콘텐츠가 나오고 어떤 날은 전혀 다른 게 나오는 거랑 같아. AI 에이전트도 이래서 관리가 어려운 거야.

"Vibe coding"이 뭐야?

전문가 설명: 코딩 지식 없이 AI한테 말로 설명하면서 원하는 프로그램을 만드는 방식. 2025년 초 유행한 개념
한나 버전: 편집 프로그램 사용법 몰라도 "여기에 자막 넣고 배경음악 깔아줘"라고 말하면 AI가 만들어주는 거야. 코딩판 "말해 봐, 내가 해줄게" 인 거지.

"Spec(스펙)"이 뭐야?

전문가 설명: 소프트웨어를 만들기 전에 어떻게 동작해야 하는지 상세히 적은 기획 문서
한나 버전: 협찬 콘텐츠 브리프랑 똑같아. "이런 분위기로, 이런 메시지로, 이런 포맷으로" 미리 다 적어두는 거. 노정석 말로는 앞으로 개발자의 핵심 역할이 코딩이 아니라 이 스펙 잘 쓰기가 될 거래.

🔥 노정석 어록 모음

"닥치고 계속 간다. 이 말밖에는 드릴 게 없습니다."

분위기: 길고 복잡한 에이전트 이야기 다 듣고 나서 결론 내릴 때, 담담하지만 단단한 톤으로.

한나 풀이: AI 시대를 분석하고 예측하는 데 에너지 쓰는 시대는 끝났다는 거야. 지금은 완벽한 이해 없이도 일단 만들어보는 게 정답이라는 선언. 한나 버전으로 바꾸면 — "알고리즘 분석보다 일단 영상 올려봐야 뭔지 알잖아."

"이건 되는 게임이다라는 가정 하에 좀 빌딩해야 되는 타임 아닌가라는 생각이 강하게 들어."

분위기: 노정석이 혼자 결론 내리는 듯 천천히, 확신에 차서.

한나 풀이: AI가 완벽한지 아닌지 논쟁할 게 아니라 "이미 쓸 수 있다"는 전제로 움직이는 사람이 이기는 타이밍이라는 거야. 유튜브 초창기에 "유튜브 돼?" 고민한 사람들보다 일단 올린 사람들이 이겼던 것처럼.

"AI agent가 만들어낸 코드를 제가 안 열어보는 것에 저도 이렇게 머리를 한 대 탁 얻어맞은 듯한 그런 느낌이 있어요."

분위기: 약간 놀란 듯, 자기 자신도 이미 변했다는 걸 뒤늦게 인식한 톤.

한나 풀이: 본인도 모르는 새 "AI 믿고 넘어가기"가 기본값이 됐다는 거야. 한나 버전으로 치면 — 편집자가 편집한 영상 컷 하나하나 안 보고 "어 올려" 하게 된 것처럼. 일의 방식 자체가 바뀐 거야.

🎬 한나 적용 포인트

1) 유튜브 링크 → 인터랙티브 콘텐츠 만들기 한나가 올린 영상 URL을 Gemini AI Studio에 넣어봐. 영상 내용을 요약하거나, 시청자가 직접 조작할 수 있는 퀴즈·인터랙션 페이지로 만들어줄 수 있어. "이 영상 보고 팔로워가 바로 해볼 수 있는 챌린지 페이지 만들어줘" — 이게 한나 버전 Video to Learning App이야.

2) 협찬 보고서 자동화 테스트해보기 에이전트가 브라우저를 조종해 정보를 모아온다는 개념 이해했지? 지금 당장 ChatGPT나 Claude에게 "내 최근 캠페인 브랜드 3개 알려줄게, 각 브랜드 인스타 최신 게시물 분위기 분석하고 내 채널이랑 핏 맞는지 판단해줘"라고 해봐. 완벽하진 않지만 이게 에이전트 워크플로우 감 익히는 첫 단계야.

3) "스펙 쓰기" 연습 — 콘텐츠 브리프처럼 노정석이 말한 미래 개발자의 핵심 역할이 '스펙 잘 쓰기'야. 한나가 이미 하고 있는 협찬 브리프, 편집 지시서가 바로 그거야. AI한테 뭔가 시킬 때 "자연스럽게 해줘" 대신 "톤: 친근한 반말 / 길이: 150자 이하 / 금지어: 느낌적인 느낌 / 포함 필수: CTA 한 줄" 식으로 조건을 구체적으로 써봐. 결과물 퀄리티가 바로 달라질 거야.

🏷️ 태그

시기: #2025상
주제: #AI에이전트 #브라우저자동화 #에이전트개발현실 #빌더시대
인물: #노정석 #최승준
자유: #BrowserUse #에이전트노가다 #GoogleIO기대