EP.12 어쩌면 11월 ... chatGPT 보다 더 좋을 Google Gemini

🗺️ 이 영상의 위치

시간순: 전체 115편 중 12번째 · 2023-09-21
시기 배경: 2023하 (AI 군비경쟁 가속기 / Google Gemini 출시 직전 긴장감 최고조)
난이도: ⭐⭐⭐ (어려운 개념 9개)
⬅️ 앞 영상: EP.11 AI 시대 이미 돈벌고 있는 회사 - 올거나이즈 이창수 대표 이야기
➡️ 다음 영상: EP.13 세상을 볼수 있게 된 AI (GPT-4V 멀티모달 출시리뷰)
- 연결 이유: Gemini 예고편 격인 이 영상 직후 GPT-4V 멀티모달이 실제 출시되며 예측이 현실이 됨

⚡ 5분 요약

한 줄

Google Gemini가 곧 나온다 — OpenAI가 갑자기 바빠진 이유가 바로 그거야.

핵심 3개

1) "OpenAI가 갑자기 왜 이렇게 많이 쏟아내냐" Bard 업데이트, DALL-E 3, GPT-4 멀티모달 예고가 며칠 사이에 연달아 나왔어. 이건 우연이 아니야. Google Gemini 출시가 임박했다는 신호거든. 경쟁사 신제품 발표일에 맞춰 '우리도 이미 됨'을 어필하는 IT판 맞불 전략이야.

2) Gemini는 그냥 챗봇 업그레이드가 아니야 텍스트만 읽던 AI에서, 이미지·영상·음성까지 동시에 처리하는 AI로 넘어가는 게 핵심이야. 게다가 Gemini는 DeepMind의 로봇 연구(AlphaGo DNA)까지 녹아든 모델이라, GPT-4랑 단순 비교가 안 될 수 있어.

3) Bard는 인터페이스가 이미 무서운 수준 지금 Bard에 Gmail·Google Docs 권한을 열어주면 내 모든 업무 파일을 AI가 읽고 대답해줘. 엔진(PaLM 2)이 아직 약한 게 문제지, 거기에 Gemini가 들어오면 얘기가 완전히 달라지는 거야.

가장 인상적인 한 마디

"도대체 뭘 했길래. OpenAI의 뉴스를 보면 볼수록 Gemini에 대한 기대를 하게 되는 거죠."

한나야, 이게 무슨 말이냐면 — 경쟁사가 긴장해서 뭔가를 막 쏟아낼수록, 오히려 그 경쟁사가 뭘 무서워하는지가 드러난다는 얘기야. OpenAI가 바빠질수록 Gemini가 더 기대된다는 역설이지.

한나가 지금 당장 시도해볼 것

Bard(지금 이름 Gemini) 들어가서 Google 계정 연동 허용해봐. Gmail이랑 Drive 파일을 AI가 읽게 해주면 "내 지난달 협찬 메일 정리해줘" 같은 게 바로 돼. 딱 5분만 써봐도 "아 이거 쓰겠다" 느낌 바로 와.

📖 시간대별 영상 흐름 (15분 정도 걸려, 시간 있을 때만)

0~10분: "이 분위기, 3월이랑 똑같다"

최승준이 화면 켜자마자 말해. "요새 패턴이 느껴져요." 큰 발표가 있을 때마다 그 주변 회사들이 동시에 뭔가를 쏟아내는 패턴 말이야. 3월에 GPT-4 발표 직전에 Google이 헐레벌떡 파리에서 행사를 열었던 것처럼 — 근데 그때 구글이 좀 실수하고 민망했던 거 둘이 서로 기억하면서 살짝 웃어.

노정석이 "불과 6개월 전인데 몇 년 전처럼 느껴진다"고 하는데, 최승준도 바로 "맞아요"라고 동의해. AI 시간이 그만큼 압축되어 있다는 거야.

그러면서 오늘의 핵심을 꺼내. Bard 업데이트, DALL-E 3, GPT-4 멀티모달 예고가 며칠 사이에 터진 건 — Google Gemini 출시가 임박했다는 신호다. 노정석이 "스컹크웍스(skunkworks)"라는 단어를 꺼내. 경쟁사 발표장에 슬쩍 가서 냄새 뿌리기, 그러니까 "우리도 되거든요" 어필 전략이라는 거야.

10~20분: DALL-E 3 영상 같이 보면서 분석

DALL-E 3 홍보 영상(약 1분)을 같이 보는 구간이야. 캐릭터를 하나 정하면, 대화하면서 계속 그 캐릭터로 이미지를 이어 만들어주는 영상이거든.

노정석이 보고 나서 "단순히 이미지 생성이 아니라 '우리 멀티모달 됩니다'를 seamless하게 보여주고 있다"고 해. 그리고 이게 공돌이스럽지 않고 생활 밀착형 예제라 잘 만들었다고 칭찬해.

최승준은 이미지 퀄리티 자체는 Midjourney보다 아직 아쉽다고 냉정하게 말해. 근데 ChatGPT 안에서 "티키타카"하면서 이미지를 계속 이어 만드는 경험 자체가 강력하다고. 그리고 현재 ChatGPT Plus($20/월) 구독자에게 추가 과금 없이 준다는 게 포인트야. 노정석은 "GPU를 더 확보해서 여유가 생긴 거거나, 아니면 그냥 돈 붓고 있는 거겠죠"라고 웃으면서 말해.

20~32분: Gemini 출시 예측 — 10월? 11월?

화면에 자료들이 연달아 뜨면서 최승준이 증거들을 하나씩 짚어. NVIDIA 연구자 Jean Fan, UPenn 교수 Ethan Mollick 등 여러 전문가들이 비슷한 말을 하고 있어. "DALL-E 3은 단순 이미지 경쟁이 아니라 Gemini와의 멀티모달 대격돌 전주곡이다."

최승준이 11월 6일 OpenAI DevDay(개발자 행사) 일정을 근거로 처음엔 11월을 예상했는데, 최근 돌아가는 분위기를 보니 10월로 앞당겨질 수 있다고 해. TIME 100 AI 특집에서 DeepMind 공동창업자 Shane Legg가 "올가을"이라고 공언한 것도 근거로 들어.

노정석은 Bard를 솔직하게 평가해. "멀티모달 기능은 시험해 보는데, 조금만 모르는 영역 들어가면 hallucination(AI가 없는 정보를 그럴듯하게 지어내는 것)이 장난이 아니에요." 최승준도 "Gemini로 엔진 바꿔치기가 일어나면 무슨 일이 벌어질지"를 기대한다고 해.

32~42분: Bard + Google 생태계 — 인터페이스는 이미 무섭다

최승준이 Bard에 Gmail 권한을 열어줄지 말지 고민했다는 얘기를 해. 결국 "쓸 때만 연결"하는 방식으로 타협했다고.

노정석이 한마디 치고 들어와. "사실 제 모든 파일, 이메일, 유튜브 콘텐츠가 전부 구글 SSD에 저장 중인데." 라며 현실적으로 Google이 이미 우리 데이터를 갖고 있다는 걸 인정해. Gmail이 처음 나왔을 때(2000년대 초) "개인정보를 회사에 맡길 수 있냐"는 논란이 있었지만, 지금은 아무도 이슈 안 삼잖아 — AI도 똑같이 자연스럽게 녹아들 거라는 거야.

Google Slides의 'Help me visualize' 기능도 같이 살펴보는데, 최승준이 직접 테스트해보고서 "지금은 작은 모델이 돌아가는 거라서 퀄리티가 아쉽다"고 해. 근데 Gemini 엔진으로 바꾸면 얘기가 달라진다는 게 포인트야.

42~52분: DeepMind 로봇 DNA — Gato부터 RT-2까지

여기서 영상의 숨겨진 하이라이트가 나와. 최승준이 자료를 한참 뒤지면서 설명하는데, Gemini의 진짜 무서움은 단순한 챗봇이 아니라 DeepMind가 오랫동안 쌓아온 로봇·강화학습 연구가 섞여 있다는 거야.

Gato(고양이) → RoboCat → RT-1 → PaLM-E → RT-2로 이어지는 DeepMind+Google Brain의 연구 맥락을 짚어. 이 연구들의 공통점은 AI에게 "몸"을 줘서 실제 세계에서 행동하게 하는 것, 그리고 스스로 학습 데이터를 만들어 성장하는 self-improving이야.

노정석이 "I, Robot에서 보여주는 미래가 스멀스멀 상상된다"고 하면서 둘이 살짝 소름 돋아해. 최승준은 "Gemini 발표 때 'One more thing'으로 로봇 연구를 같이 보여줄 수도 있지 않을까"라는 상상을 조심스럽게 꺼내. 영상은 노정석 "역대급으로 짧은 녹화"라며 마무리.

💡 한나 버전 사전

"멀티모달(Multimodal)"이 뭐야?

전문가 설명: 텍스트, 이미지, 음성, 영상 등 여러 종류의 입력을 동시에 처리할 수 있는 AI 능력.
한나 버전: 유튜브만 하던 크리에이터가 갑자기 유튜브+인스타+팟캐스트+틱톡 다 동시에 운영하는 느낌. 한 가지만 잘하던 AI가 여러 포맷을 동시에 다루게 된 거야.

"Gemini"가 뭐야?

전문가 설명: Google DeepMind가 개발 중인 차세대 거대언어모델. 멀티모달 특화로, GPT-4에 대항하는 구글의 핵심 카드.
한나 버전: 구글이 ChatGPT한테 밀리고 있는 상황에서 몇 달 동안 비밀 작업실에서 만든 신작 콘텐츠야. 공개 전부터 관계자들 사이에서 "이거 엄청남"이라는 소문이 돌고 있는 상태.

"Hallucination(할루시네이션)"이 뭐야?

전문가 설명: AI가 틀린 정보를 마치 사실인 것처럼 자신있게 말하는 현상.
한나 버전: 사실확인 안 하고 제목에 낚시성 정보 써넣는 것과 같아. AI가 모르는 걸 모른다고 못하고 그럴듯하게 지어내는 거야. Bard가 이게 아직도 심하다는 게 최승준이 지적한 문제야.

"PaLM 2"가 뭐야?

전문가 설명: 현재 Bard를 구동하는 Google의 언어모델. GPT-4보다 성능이 낮다는 평가를 받고 있음.
한나 버전: 지금 Bard에 들어가 있는 엔진인데, 구형 카메라 바디라고 보면 돼. 인터페이스(바디 셸)는 멋진데 안에 들어간 렌즈/센서가 아직 아쉬운 상태. Gemini로 렌즈 바꾸면 달라진다는 거야.

"Skunkworks(스컹크웍스)"가 뭐야?

전문가 설명: 경쟁사 발표에 맞춰 자사 소식을 전략적으로 흘려 존재감을 방해하는 전술. 원래는 비밀 R&D 조직 이름이었는데 이런 의미로도 쓰임.
한나 버전: 라이벌 유튜버가 대형 영상 올리는 날 나도 비슷한 주제로 영상 올려서 알고리즘 자리 뺏는 거. 아니면 경쟁 브랜드 팝업 여는 날 옆에서 체험 이벤트 여는 느낌.

"RAG"가 뭐야?

전문가 설명: Retrieval-Augmented Generation. AI가 외부 문서/데이터베이스를 실시간으로 검색해서 답변에 활용하는 방식. 학습된 지식 외에 최신 정보도 쓸 수 있게 됨.
한나 버전: AI한테 "답 모르면 내 드라이브에서 찾아봐"라고 권한 주는 거야. 기억력 좋은 비서가 내 클라우드 파일을 실시간으로 뒤져서 대답해주는 것.

"Gato / RT-2 / PaLM-E"가 뭐야?

전문가 설명: DeepMind와 Google Brain이 개발한 로봇 AI 연구 시리즈. 텍스트·이미지 뿐 아니라 실제 물리적 행동(로봇 팔 제어 등)까지 AI가 학습하게 함.
한나 버전: AI한테 "팔다리"를 달아주는 연구야. 지금까지 AI는 말만 잘했는데, 이제 직접 뭔가를 집어 올리고 행동하는 걸 배우는 거. 이게 나중엔 집에 있는 로봇이 내 지시를 알아듣는 세상으로 이어지는 거야.

"Red Teaming(레드티밍)"이 뭐야?

전문가 설명: AI를 출시 전에 일부러 악용하거나 오류를 유발하는 방식으로 테스트해서 문제를 미리 잡는 과정.
한나 버전: 유튜브 영상 올리기 전에 악플러 입장에서 미리 댓글 달아보고 취약점 체크하는 거야. 아니면 인플루언서 마케팅 진행 전에 "이거 역풍 맞을 수 있냐?" 사전 점검하는 거.

"Self-improving(자기 개선)"이 뭐야?

전문가 설명: AI가 스스로 학습 데이터를 생성하거나 피드백을 만들어 자기 자신을 계속 발전시키는 능력.
한나 버전: 내가 영상 올리면 알고리즘이 반응 보고 다음 추천을 바꾸는 것처럼, AI도 자기가 한 결과물을 보고 스스로 "이거 더 잘해야겠다"며 성장하는 거야. 진짜 무서운 부분이지.

🔥 노정석 어록 모음

"불과 6개월 전인데 마치 몇 년 전처럼 느껴지는 그런 현상입니다."

분위기: 웃기도 하고 좀 무섭기도 한 톤. 본인도 이 속도에 약간 적응이 안 된다는 표정으로.

한나 풀이: AI 분야는 6개월이 다른 업계의 몇 년이야. 작년 트렌드 얘기하는 게 거의 선사시대 얘기처럼 느껴지는 속도라는 거. 한나도 콘텐츠 트렌드 사이클이 점점 빨라진다고 느끼잖아 — AI는 그보다 10배 빨리 돌아가고 있어.

"도대체 뭘 했길래. OpenAI의 뉴스를 보면 볼수록 Gemini에 대한 기대를 하게 되는 거죠."

분위기: 최승준이 혼잣말하듯 슬며시 뱉는 말. 기대 반, 긴장 반.

한나 풀이: 경쟁자가 갑자기 바빠지면 오히려 내가 더 기대된다는 역설이야. 라이벌 인플루언서가 갑자기 맞불 영상을 막 쏟아낸다면, 오히려 "내가 뭔가 잘하고 있나?" 확인받는 느낌잖아. OpenAI가 긴장해서 뭔가를 계속 쏟아낸다는 게, Google Gemini가 그만큼 위협적이라는 증거라는 거야.

"너무 자연스럽게 또 하나의 생활로 녹아들 거예요. Gmail, 클라우드 이메일이 나왔을 때도 회사에 나의 모든 개인정보를 맡길 수 있냐는 논란이 2000년 초반에 있었습니다만 지금은 저희 데이터, 클라우드에 업로드하는 거 어느 누구도 이슈 삼지는 않잖아요."

분위기: 약간 체념 섞인 관찰. 무섭지만 막을 수 없다는 걸 알고 있는 사람의 말투.

한나 풀이: AI가 내 Gmail 읽는 걸 지금은 낯설고 무섭게 느낄 수 있어. 근데 예전에 Google이 내 메일 저장하는 것도 처음엔 다 난리였거든. 지금은 아무도 안 신경 쓰잖아. AI에 내 데이터 여는 것도 5년 안에 아무도 안 이상하게 생각할 거야.

🎬 한나 적용 포인트

콘텐츠 발행 타이밍 전략 — "맞불 전략" 배우기 이 영상에서 OpenAI가 Google Gemini 발표에 맞춰 뭔가를 계속 쏟아낸 것처럼, 한나도 라이벌 크리에이터나 브랜드의 빅 이벤트 전후에 맞불 콘텐츠를 올리는 전략을 써볼 수 있어. 예를 들어 비슷한 카테고리의 다른 인플루언서가 대형 콜라보 발표하는 날, 나도 "나만의 버전"을 같은 날 올리는 거. 알고리즘이 비슷한 키워드를 묶어 추천하거든.

"인터페이스가 이미 무섭다" → 플랫폼 생태계 안에 빨리 들어가기 Bard/Gemini가 엔진은 약해도 Google 생태계 전체(Gmail, Docs, Slides)와 연결되는 인터페이스를 이미 가졌다는 게 핵심이야. 한나도 어떤 새 플랫폼이 나왔을 때 "기능이 완벽하냐"보다 "이게 어떤 생태계랑 연결되냐"를 먼저 봐봐. 생태계 연결이 강한 쪽이 장기적으로 이겨.

AI 업계 뉴스에서 "누가 갑자기 바빠지냐" 보기 최승준이 이 영상에서 한 게 사실 정보 해석 방법이야. 뉴스 내용 자체보다 "왜 지금 이 뉴스가 나왔냐"를 보는 거거든. 한나도 협찬/콜라보 제안이 갑자기 쏟아지는 시기가 있으면, "상대방이 왜 지금 나한테 적극적이지?"를 먼저 생각해봐. 맥락 읽기가 콘텐츠 협상에서도 진짜 무기야.

🏷️ 태그

시기: #2023하
주제: #Gemini예고 #멀티모달 #AI경쟁 #DALL-E3
인물: #노정석 #최승준
자유: #예측적중 #군비경쟁 #로봇AI