EP.13 세상을 볼수 있게 된 AI (GPT-4V 멀티모달 출시리뷰)

🗺️ 이 영상의 위치

시간순: 전체 115편 중 13번째 · 2023-10-07
시기 배경: 2023하 (GPT-4V 출시 직후 / 멀티모달 AI가 처음으로 "볼 수 있게" 된 역사적 순간)
난이도: ⭐⭐⭐ (어려운 개념 9개)
⬅️ 앞 영상: EP.12 어쩌면 11월 ... chatGPT 보다 더 좋을 Google Gemini
➡️ 다음 영상: EP 14. GPT-4o, Google I/O, Microsoft Build 살펴보기 (2024.05.25)
- 연결 이유: 약 8개월 공백 후 GPT-4o·Google I/O·MS Build가 한꺼번에 터지면서 멀티모달이 주류가 됐는지 확인하는 후속편

⚡ 5분 요약

한 줄

AI가 드디어 눈을 떴어 — 사진·영상·손글씨·차트·앱 화면까지 보고 이해하는 GPT-4V가 나왔고, 이게 얼마나 대단한 건지 160페이지짜리 실험 보고서로 증명됐어.

핵심 3개

1) AI가 이미지를 "읽는" 게 아니라 "이해"한다 사진 속 개가 프리스비를 물러 뛰는 장면을 보고 "물리적으로 무슨 상황인지"까지 설명해. 차트의 이상한 튀는 값은 못 잡지만, 사람이 원근법 때문에 차보다 크게 찍힌 사진을 보고 "실제로는 차가 더 크다"고 맞춰. 그냥 픽셀 읽기가 아니라 세상을 아는 거야.

2) 프롬프트 엔지니어링이 이미지에서도 그대로 먹힌다 사과 개수 세기를 "넌 세는 전문가야, 꼼꼼히 검토해"라고 했더니 맞췄어. 텍스트 AI 쓸 때 쓰던 말투 그대로 이미지에도 통하는 거야. 유튜브 썸네일 분석, 댓글 감정 파악, 뭐든 프롬프트 잘 짜면 결과가 확 달라진다는 뜻이기도 해.

3) 지금 AI는 "보여주면 다 해주는" 만능 도구로 진화 중 OCR·의료 영상·보험 사정·앱 UI 조작·수학 문제까지, 예전엔 각각 수백억짜리 전문 회사들이 따로 하던 일들을 GPT-4V 하나가 커버하기 시작했어. 노정석은 "얘가 굉장히 많은 회사들을 또 obsolete시키고 있어"라고 했는데, 이 말이 핵심이야.

가장 인상적인 한 마디

"commentator가 아니라 practitioner로 살아야겠다는 생각은 명확하게 들고 있어요."

한나야, 이게 무슨 말이냐면 — 구경꾼으로 AI 얘기만 할 게 아니라, 직접 써서 뭔가 만드는 사람이 돼야 한다는 거야. 노정석 본인한테도 뼈때리는 말이었어.

한나가 지금 당장 시도해볼 것

ChatGPT Plus에서 이미지를 업로드하고 "이 썸네일/피드 이미지의 분위기, 타겟, 개선점을 분석해줘"라고 던져봐. 지금 당장 5분 안에 할 수 있고, GPT-4V가 크리에이터 눈으로 콘텐츠를 읽어주는 경험을 바로 느낄 수 있어.

📖 시간대별 영상 흐름 (15분 정도 걸려, 시간 있을 때만)

0~15분: "AI가 눈을 떴다" — GPT-4V 첫인상과 유저들의 폭발적 실험들

노정석이 "2주 사이에 천지가 개벽할 만한 일들이 잔뜩 일어났습니다"라고 시작해. 피곤한 듯 담담하게 말하는데, 근데 눈빛이 살아있어. 최승준은 "일상다반사죠"라고 받아치는데, 이게 농담이 아니라 진짜 이 사람들한텐 진짜 일상이 돼버린 거야.

두 사람 다 GPT-4V를 아직 직접 써보지 못한 상태야. 근데 기다리면 너무 늦으니까, 유저들이 올린 실험 영상들과 Microsoft가 낸 160페이지짜리 논문 《The Dawn of LMMs》를 가지고 방송을 시작한 거야. LMMs는 "Large Multimodal Model"의 약자인데, 텍스트만 하던 LLM이 이제 이미지·영상·오디오도 다루게 됐다는 뜻이야. 최승준이 "LMM이 성큼 와버렸다"고 타임라인에 올렸더니 사람들이 LLM으로 잘못 읽었다는 에피소드도 웃겨.

유저들의 실험 영상에서 나온 것들이 충격적이야 — 화이트보드에 앱 화면 대충 그린 걸 사진 찍어 올렸더니 실제 작동하는 코드를 뽑아줬고, 영화 《Inception》의 플롯 맵(복잡한 스토리 구조도)도 읽어냈고, 미국 길거리의 복잡한 주차 금지 표지판도 해석해냈어.

15~35분: 160페이지 실험 보고서 함께 넘기기 — "이게 다 된다고?"

최승준이 화면에 논문을 띄워놓고 같이 스크롤 내리면서 보는 파트야. 중간중간 "스크롤 봤더니 아직 4분의 1도 못 왔네요"라며 당황하는 최승준이 웃겨. 노정석도 "뒤에서는 그냥 막 넘기게 되더라고요"라고 솔직하게 말해.

실험들 중에서 특히 인상적인 것들:

여러 영수증 이미지를 동시에 넣고 "콜라 총 금액이 얼마야?" 계산 → 맞췄어
사과 개수 세기 → 처음엔 계속 틀렸는데 "넌 세는 전문가야"라고 하니까 맞춤 → 프롬프트의 힘
사랑니 X레이 보고 뽑아야 하는지 판단 → 거의 맞춤. 근데 안전이 중요한 의료 현장에 바로 쓸 수준은 아직 아니래
뒤섞인 이미지 시퀀스를 시간 순서대로 정렬 → 최승준이 "이게 벌써 된다고?"라며 진심으로 놀람
사람 수 세기 → 열 명을 열두 명이라고 틀렸어. 아직 셈은 좀 불안정

노정석이 중간에 "각각의 영역에 조 단위 회사들이 이미 존재하고 있는데 얘가 와서 이러면 어쩌라고"라며 한숨 섞인 탄식을 내뱉어. 진짜 모르겠다는 표정으로.

35~50분: AI가 화면을 "조작"하고 로봇이 집 안을 걸어다닌다

여기서 분위기가 약간 무거워져. 단순히 이미지 읽는 수준을 넘어서, GPT-4V가 앱 화면·브라우저 화면을 보고 "이걸 누르면 돼"라고 안내하는 것까지 됐거든.

최승준이 "Adept"라는 스타트업 얘기를 꺼내 — AI가 컴퓨터 화면을 보고 알아서 조작해주는 걸 만들려던 회사야. 근데 GPT-4V가 그걸 이미 해내버리니까 "다른 거 해야 될 것 같아요"라고 쓸쓸하게 말해. 노정석도 "얘가 굉장히 많은 회사들을 또 obsolete시키고 있어"라고 맞받아.

스티브 워즈니악(애플 공동창업자)의 유명한 "진짜 AI 테스트"도 나와 — "낯선 집에 들어가서 커피 머신을 찾아 원하는 커피를 만들 수 있으면 AGI야." 그걸 GPT-4V가 이미지 한 장 보고 "어디로 가면 뭐가 있다"고 기술하는 수준에 도달한 거야. 최승준이 "Google DeepMind의 RT 시리즈랑 합쳐지면 실제 로봇이 그걸 하겠네"라고 말해.

50~69분: Gemini·OpenAI 전쟁, 그리고 노정석의 솔직한 고백

화제가 시장 얘기로 넘어가. Google Gemini가 계속 출시를 미루고 있는데 — 노정석은 "론칭 기준이 엄격한 회사라 허가를 못 받은 것 같다, OpenAI 입장에선 재 뿌리기에 성공한 거다"라고 분석해.

Anthropic이 Amazon한테서 4조 원 받은 것, OpenAI 기업가치가 90조 원 얘기가 나오면서 두 사람 다 잠깐 멈칫해. 최승준이 "그것도 한참 이야기할 거리가 있겠습니다만"이라고 넘겨.

그리고 노정석이 이 영상 전체를 통틀어 가장 솔직한 말을 해. "commentator가 아니라 practitioner로 살아야겠다"는 말. 회사에서 본인이 말만 하고 직접 안 하고 있는 게 느껴진다고, 이미 속도 차이가 느껴진다고 털어놔. 말하면서 본인도 좀 당황한 듯한 표정이야.

마무리는 최승준의 한마디 — "여름부터 멀티모달 시절이 온다고 했는데, 예시가 없으니까 상상이 안 됐어요. 근데 이제는 뭐가 보이기 시작하는 것 같습니다. 정말 여명이죠, 새벽이죠."

💡 한나 버전 사전

"LMM"이 뭐야?

전문가 설명: Large Multimodal Model. 텍스트뿐 아니라 이미지·영상·오디오 등 여러 형태의 정보를 동시에 처리하는 대형 AI 모델.
한나 버전: LLM이 "글만 읽는 AI"였다면, LMM은 "글도 읽고 사진도 보고 영상도 보는 AI"야. 유튜브로만 활동하다가 인스타·틱톡·팟캐스트까지 동시에 하게 된 크리에이터 같은 거지.

"멀티모달(Multimodal)"이 뭐야?

전문가 설명: 텍스트·이미지·음성·영상 등 여러 종류(mode)의 데이터를 함께 처리하는 방식.
한나 버전: 콘텐츠 포맷이 여러 개인 거야. 글만 쓰던 블로거가 사진·영상·음성까지 올리기 시작한 것처럼, AI도 이제 "멀티 포맷"으로 진화한 거.

"few-shot / zero-shot"이 뭐야?

전문가 설명: AI한테 문제를 줄 때 예시를 몇 개 같이 주느냐의 차이. zero-shot은 예시 없이 바로 질문, one-shot은 예시 1개, few-shot은 2~3개.
한나 버전: 브랜드한테 협업 제안서 쓸 때 "이런 느낌으로 써줘"라고 예시 레퍼런스를 보내주는 거랑 같아. 레퍼런스 없이 하면(zero-shot) 방향이 엉뚱하게 나오고, 2~3개 보여주면(few-shot) 훨씬 정확해지는 거야.

"프롬프트 엔지니어링"이 뭐야?

전문가 설명: AI한테 원하는 결과를 끌어내기 위해 질문(프롬프트)을 전략적으로 설계하는 기술.
한나 버전: 브랜드 미팅 전에 어떻게 말을 꺼낼지 전략 짜는 거야. "저 이런 채널인데요..."보다 "당신 브랜드의 타겟과 제 팔로워가 이렇게 겹쳐요"라고 하면 훨씬 잘 통하잖아. AI한테 말 거는 방식도 똑같이 전략이 필요해.

"OCR"이 뭐야?

전문가 설명: Optical Character Recognition. 이미지 속 글자를 컴퓨터가 읽을 수 있는 텍스트로 변환하는 기술.
한나 버전: 종이로 받은 계약서를 사진 찍으면 문자로 바꿔주는 기능. GPT-4V는 그 수준을 훨씬 넘어서 읽고 분석하고 요약까지 해버려.

"RAG"이 뭐야?

전문가 설명: Retrieval-Augmented Generation. AI가 답변할 때 외부 데이터베이스에서 관련 정보를 검색해서 더 정확하게 답하는 방식.
한나 버전: 유튜버가 영상 만들 때 리서치를 직접 해서 내용을 보강하는 거야. AI가 "내가 학습한 것만"이 아니라 "지금 찾아보고" 답하는 것.

"에이전트(Agent)"가 뭐야?

전문가 설명: AI가 사람 개입 없이 스스로 계획 세우고 실행하고 결과를 확인하는 구조. 여러 AI가 역할 나눠서 서로 소통하며 문제 해결.
한나 버전: 한나가 "유튜브 기획해줘"라고 하면 혼자 리서치 AI, 썸네일 AI, 대본 AI가 알아서 팀플 해서 결과물 가져오는 거야. 한나는 최종 확인만 하면 돼.

"hallucination"이 뭐야?

전문가 설명: AI가 사실이 아닌 내용을 마치 사실인 것처럼 자신 있게 말하는 현상.
한나 버전: 협찬 제품 리뷰할 때 써보지도 않고 "이거 진짜 좋아요"라고 말하는 거랑 비슷해. AI가 모르면 모른다고 안 하고 그럴듯하게 지어내는 버릇이야.

"Adept"이 뭐야?

전문가 설명: AI가 컴퓨터 화면을 보고 스스로 앱과 브라우저를 조작해주는 기술을 개발하던 AI 스타트업.
한나 버전: "AI 매니저"를 만들려던 회사야. 한나가 "쇼핑몰에서 이 제품 찾아서 가격 비교해줘"라고 하면 AI가 직접 화면 클릭해서 해주는 거. 근데 GPT-4V가 그걸 이미 해버리니까 이 회사가 곤란해진 상황.

🔥 노정석 어록 모음

"commentator가 아니라 practitioner로 살아야겠다는 생각은 명확하게 들고 있어요."

분위기: 영상 후반부, 약간 진지하고 쓸쓸한 톤. 본인 얘기를 하면서 본인이 먼저 반성하는 느낌.

한나 풀이: AI 뉴스 구경하고 얘기만 하는 사람 vs. 직접 써서 뭔가 만드는 사람 — 이 둘 사이의 격차가 지금 무서운 속도로 벌어지고 있다는 거야. 한나한테도 그대로 적용돼. 인스타에서 "AI 요즘 대단하다더라" 포스팅하는 게 아니라, 지금 당장 AI로 콘텐츠 하나 만들어보는 게 맞는 거야.

"발전의 곡선이 linear하지가 않고 굉장히 exponential하거든요. 조금은 황당한 생각들을 하는 게 맞을 것 같고, 황당한 것들의 기술 발전 속도를 예측하면서 오늘 나의 asset은 무엇이 되어야 하는가라는 질문을 계속 돌려봐야 돼요."

분위기: 차분하지만 긴박감이 배어 있는 톤. "나도 모르겠는데 그래도 이 질문은 해야 한다"는 느낌.

한나 풀이: 지난달 AI 수준 보고 다음 달을 예측하면 틀려. 지수적으로 치고 올라가니까. 그러니까 "지금 내 강점이 뭔데, 이 속도에서 내가 무엇으로 살아남을 건데"를 계속 물어야 한다는 거야. 한나에게 이 질문은 — "팔로워 수 말고, AI가 대체 못 하는 나만의 강점이 뭐야?"

"얘가 굉장히 많은 회사들을 또 obsolete시키고 있어요."

분위기: 탄식 반, 감탄 반. "무서운데 신기하다"는 그 찰나의 감정.

한나 풀이: obsolete는 "구식이 돼버렸다"는 뜻이야. AI 덕분에 기존에 수십억 투자받은 전문 스타트업들이 한 방에 날아가고 있다는 거야. 반대로 생각하면 — 한나가 예전엔 영상 편집자 고용하고 디자이너 고용해야 했던 일들을, 이제 혼자 AI로 처리할 수 있다는 뜻이기도 해.

🎬 한나 적용 포인트

1) 내 피드·썸네일을 AI 컨설턴트한테 맡겨봐 인스타 피드 스크린샷이나 유튜브 썸네일 3~5장을 GPT-4V에 올리고 "내 타겟 오디언스가 20대 여성 뷰티 관심층인데, 이 피드가 그 사람들한테 어떻게 보일지 분석해줘. 개선점도"라고 해봐. 외부 컨설턴트한테 돈 주고 받는 피드백이랑 비슷한 수준이 나와.

2) 경쟁자 콘텐츠 분석에 써봐 비슷한 카테고리 인플루언서 썸네일이나 포스팅 이미지 캡처해서 올리고 "이 콘텐츠가 왜 잘됐을 것 같아? 어떤 심리를 건드렸어?"라고 물어봐. 유행 분석·레퍼런스 수집을 혼자 몇 시간 하던 걸 10분으로 줄일 수 있어.

3) 브랜드 협업 제안서에 이미지 분석 붙여봐 브랜드 제품 사진을 올리고 "이 제품의 분위기·타겟·강점을 분석하고, 내 채널 스타일(이렇게 설명해줘)과 어떻게 연결할 수 있는지 협업 방향 3가지 제안해줘"라고 해봐. 제안서 퀄리티가 완전히 달라져.

🏷️ 태그

시기: #2023하
주제: #멀티모달 #GPT-4V #LMM #AI에이전트
인물: #Karpathy #Ethan Mollick
자유: #눈뜬AI #실험리뷰 #여명