EP.4 음성 Gen-AI 대표 서비스 typecast.ai 이야기 - 네오사피엔스 김태수 대표
🗺️ 이 영상의 위치
- 시간순: 전체 115편 중 4번째 · 2023-06-14
- 시기 배경: 2023상 (AI 툴 폭발기 / ChatGPT 출시 6개월차, Gen AI 크리에이터 도구 급부상)
- 난이도: ⭐⭐ (어려운 개념 9개)
- ⬅️ 앞 영상: EP.3 Microsoft Build 2023 컨퍼런스 리뷰 (역사와 기술 중심으로)
- ➡️ 다음 영상: EP.5 GPT-4 대항마 Google Gemini 이야기
- 연결 이유: 음성 Gen AI 다음으로 텍스트 Gen AI의 최대 경쟁자인 Google Gemini 이야기로 넘어감
⚡ 5분 요약
한 줄
AI 목소리 서비스 Typecast 창업자가 직접 와서 "크리에이터 AI 도구의 현재와 미래"를 낱낱이 털어놓은 영상이야.
핵심 3개
1) Typecast가 뭔지 알면 한나 콘텐츠 제작이 달라져 대본 치면 AI 성우가 읽어주고, 가상 연기자가 영상까지 만들어주는 서비스야. '1분요리 뚝딱이형' 구독자 230만 채널이 처음부터 이걸로 만들었고, 현재 150만 명·68개국에서 쓰는 글로벌 크리에이터 툴이야. 한나처럼 영상 콘텐츠 만드는 사람한테 직접 쓸 수 있는 도구가 나온 거지.
2) 빅테크가 다 삼킬 것 같아도 "좁히면" 살아남아 Google·OpenAI가 다 만들어도 크리에이터 특화 쇼츠 대본 리라이팅, 특정 업종 카피라이팅처럼 좁히면 스타트업도 이길 수 있다는 게 김태수 대표 핵심 주장이야. 인스타 알고리즘에서 대형 미디어가 못 파고드는 마이크로 니치 계정이 오히려 팔로워 더 잘 모으는 것처럼.
3) 성우 목소리를 쓰면 성우한테 수익을 나눠줘 AI가 성우 일을 빼앗는 것 같지만, Typecast는 성우가 목소리를 등록하면 쓸 때마다 음원 수익처럼 돈이 들어오는 구조를 처음부터 설계했어. "MP3가 나왔을 때 소리바다처럼 무법지대가 됐다가 결국 규칙 생기고 더 큰 산업이 됐다"는 게 김태수의 생각이야.
가장 인상적인 한 마디
"startup이 집중하고 있는 그쪽 영역에서 고객들에게 정말로 이걸 필요로 하는 기능이라든지 부가가치를 줄 수 있는 걸로 조금 더 focus를 하면, foundation model을 자체 학습한 것을 활용도 높게 쓸 수 있는 기회가 생길 수 있지 않을까"
한나야, 이게 무슨 말이냐면 — ChatGPT 같은 대형 AI가 다 해줄 것 같아도, 한나 채널 같은 특정 크리에이터 스타일에 딱 맞게 좁혀들어가면 작은 팀도 이길 수 있다는 거야.
한나가 지금 당장 시도해볼 것
지금 바로 typecast.ai 접속해서 무료로 대본 하나 넣어봐. 한나가 평소 쓰는 영상 스크립트 한 단락을 복붙하고 감정 슬라이더 조절해봐. "아, 이렇게 만드는 유튜버들이 있었구나"가 눈으로 보일 거야.
📖 시간대별 영상 흐름 (15분 정도 걸려, 시간 있을 때만)
0~12분: 창업 전날 밤 — 김태수는 원래 다른 걸 만들려 했다
노정석이 특유의 눈빛으로 "대표님, 2017년에 처음 만났을 때 창업 아이템이 음성이 아니었잖아요"라고 꺼내면서 시작해. 김태수 대표가 웃으면서 털어놓는 이야기가 꽤 흥미롭거든.
원래 김태수가 만들려던 건 "AI 블랙박스를 해석해주는 툴"이었어. 챗봇이나 AI가 왜 틀리는지 알 수 없으니까 그걸 고쳐주는 개발자용 도구. 근데 노정석이 딱 한마디 했대. "좋은 주제이긴 한데, 돈은 못 벌겠다." 그래서 "그걸 쓸 사람이 진짜 있냐"를 직접 발로 뛰면서 물어보러 다녔는데, 막상 "꼭 써야겠다"는 사람이 거의 없더래.
그때부터 방향을 바꿔서 음성 생성 쪽으로 갔고, 2018년에 트럼프가 한국어로 말하는 데모를 공개했더니 "이거 영상에 넣고 싶다", "돌아가신 분 목소리 되살리고 싶다"는 연락이 쏟아진 거지. 그게 "아, 여기에 시장이 있다"는 신호였던 거야.
12~28분: Typecast 서비스 풀 데모 — 이게 얼마나 완성됐는지 눈으로 봐
김태수가 직접 화면 공유하면서 서비스를 보여줘. 텍스트 입력 → 감정 슬라이더(슬프게/속삭이듯/내레이션) → 가상 연기자 캐스팅 → 영상 다운로드, 이 흐름을 실시간으로 시연해.
여기서 빵 터지는 게 '1분요리 뚝딱이형' 예시야. 노정석이 직접 그 영상 오디오를 읽어주는데, "그래서 사 먹으면 몇만 원씩 하는 장어덮밥을 3인분 기준 15,000원 선에서 정리해줄게. 시작." 이 특유의 톤이 Typecast로 만든 거라는 거야. 구독자 230만인 채널이 처음부터 AI 목소리만으로.
또 SBS 스브스뉴스와 협업으로 ChatGPT랑 연동된 AI 가상 캐릭터가 유튜브 라이브 방송을 일주일에 한 번씩 돌리는 테스트도 보여줘. 채팅창 질문을 받아서 AI가 실시간 대답하는 구조. 최승준이 "몇 가지는 정말 감쪽같네요"라고 감탄했어.
28~45분: 음성 AI의 기술 속 이야기 — 왜 텍스트·이미지보다 덜 주목받았나
노정석이 기술 질문을 던지는 파트인데, 어렵게 느껴질 수 있는데 핵심만 뽑으면 이거야.
텍스트는 웹에서 긁어오면 데이터가 넘치는데, 음성은 배경 소음 섞이고 품질 차이도 크고 깨끗하게 모으기가 너무 어려웠던 거야. 그래서 GPT처럼 대용량 데이터로 확 발전하는 게 이미지·텍스트보다 늦었던 거지. 근데 김태수가 조용히 한마디 해. "음성에서도 그 breakthrough가 지금 물밑에서 오고 있다는 느낌은 있습니다." 노정석이 눈빛이 달라지면서 "그래요?" 하고 앞으로 기우는 장면이 인상적이야.
또 빅테크가 갑자기 음성 기술을 내놓으면 Typecast가 망하는 거 아니냐는 질문도 나오는데, 김태수가 긴장하지 않은 척하면서도 "맞아요, 긴장하면서 우리가 먼저 하자는 자세로 가고 있어요"라고 솔직하게 털어놔.
45~58분: 스타트업 생존법 — 빅테크가 다 삼킬 것 같을 때
이 영상에서 제일 영양가 있는 파트야. 노정석이 진지하게 물어. "Google·OpenAI·MS가 가지 않는 vertical을 어디서 찾아야 할까요?"
김태수가 두 가지를 꼽아. 하나는 개인 데이터 관리 영역(내 사진첩·문서함에서 AI가 질문에 답해주는 것), 다른 하나는 표정·제스처 생성처럼 아직 아무도 제대로 못 하는 멀티모달 영역. 그러고 나서 핵심 전략론을 얘기해. "시장을 잘게 쪼개라. 특정 업종의 카피라이팅만 잘하게 만들면 그 시장은 점유 가능하다. 대신 좁히다 보면 시장이 너무 작아지는 함정이 있으니 그 균형을 찾는 게 핵심이다."
노정석이 여기서 "tech를 잘 아는 사람이 domain을 배우는 게 빨라요, 반대가 빨라요?" 질문을 던지는데, 김태수가 조심스럽게 "tech 아는 사람이 빠를 것 같다"고 해. 이유가 재밌어. domain 전문가일수록 기존 방식에 갇혀서 혁신을 방해할 수 있다는 거야. 전통 방송국 PD가 유튜브 쇼츠를 처음엔 이해 못 하는 것처럼.
58~70분: AI 저작권·성우 문제 — 누가 책임져야 해?
최승준이 조심스럽게 꺼내. "Gen AI 저작권이나 일자리 문제, Typecast 만들면서 고민 많으셨겠다"고. 김태수가 이걸 "AI도 사람처럼 배운 거다"는 비유로 풀어내. 사람도 소설 수천 권 읽고 글 쓰는데, AI도 마찬가지고 결과물이 표절이면 그때 문제 삼으면 된다는 거지.
성우 얘기가 나오는 부분이 특히 감동적이야. 처음 서비스할 때부터 "성우가 목소리 등록하면 쓸 때마다 음원 수익처럼 나눠주자"는 구조를 설계했대. "소리바다 시대처럼 무법지대가 됐다가 결국 규칙이 생기고 더 큰 산업이 됐듯이, 우리는 처음부터 합법적으로 가자"는 거야. 최승준이 "정말 일찌감치 캐치하셨네요"라고 감탄했어.
70~78분: AI의 창의성 — 철학 끝판왕 토크
마지막 파트가 제일 심오해. 김태수가 "AI는 interpolation machine이다"라는 말을 꺼내. 데이터 사이의 빈칸을 엄청나게 정교하게 채워주는 기계라는 거야. 없는 걸 창조하는 게 아니라 무한한 데이터 사이에서 없었던 조합을 꺼내주는 것.
노정석이 여기서 한마디 보태. "사실 인간도 안 본 것을 만들어낼 수는 없어요. 본 것들의 조합이 마치 창조처럼 보이는 거죠." 최승준이 "그럼 hallucination을 의도적으로 일으키는 게 창의성이랑 관련 있지 않냐"고 치고 들어오면서 셋이서 한참 철학 토론을 해. 세 사람이 다 웃으면서 "이거 끝이 없다"며 마무리해.
💡 한나 버전 사전
"Gen AI(생성형 AI)"가 뭐야?
- 전문가 설명: 텍스트·이미지·음성 등을 새롭게 만들어내는 AI. 기존 AI가 분류·예측 위주였다면, Gen AI는 창작이 가능함.
- 한나 버전: AI가 단순히 "이 사진은 강아지야"를 판단하는 게 아니라 "강아지 사진을 새로 그려줘"를 해주는 거야. 한나가 쓰는 ChatGPT로 대본 쓰는 것, DALL-E로 썸네일 만드는 것, Typecast로 목소리 입히는 것, 전부 Gen AI야.
"TTS(Text-to-Speech)"가 뭐야?
- 전문가 설명: 텍스트를 음성으로 변환하는 기술.
- 한나 버전: 대본 텍스트를 치면 AI 목소리로 읽어주는 것. 한나가 얼굴 안 나오는 콘텐츠 만들 때 내레이션 넣는 그거야.
"Vertical(버티컬)"이 뭐야?
- 전문가 설명: 특정 산업·분야에 특화된 서비스나 시장 전략. 범용 서비스가 아닌 특정 분야 전체를 처음부터 끝까지 커버하는 것.
- 한나 버전: 유튜브 전체가 아니라 "뷰티 유튜버만을 위한 영상 편집 앱"처럼 좁혀들어가는 것. 넓게 하다가 지는 게 아니라 한 분야를 너무 잘해서 이기는 전략이야.
"Foundation Model(파운데이션 모델)"이 뭐야?
- 전문가 설명: 엄청난 데이터로 사전 학습된 대형 AI 모델. GPT-4, Gemini 같은 것. 여기서 출발해서 다른 용도로 응용할 수 있음.
- 한나 버전: 대형 MCN이나 플랫폼이 만들어 놓은 기본 인프라 같은 거야. 개인 크리에이터가 처음부터 서버·알고리즘 다 만들 필요 없이 그 위에서 콘텐츠만 만드는 것처럼, 스타트업도 이 모델 위에서 서비스를 얹어.
"Voice Cloning(보이스 클로닝)"이 뭐야?
- 전문가 설명: 특정 사람의 목소리를 AI로 복제해서 새로운 텍스트를 그 목소리로 읽게 만드는 기술.
- 한나 버전: 한나 목소리 샘플 몇 분 녹음해놓으면, 나중에 한나가 안 읽어도 AI가 한나 목소리로 뭐든 읽어주는 거야. 유명 크리에이터 목소리로 광고 나레이션 넣는 것도 이걸로 가능해.
"Product-Market Fit(프로덕트 마켓 핏)"이 뭐야?
- 전문가 설명: 내가 만든 제품이 시장의 진짜 수요와 딱 맞아떨어지는 상태.
- 한나 버전: 한나가 새 콘텐츠 포맷 테스트했는데 조회수 폭발하고 저장·공유가 미친 듯이 되는 순간 있잖아. "아, 이게 사람들이 원하는 거구나" 느끼는 그 순간이 바로 PMF야. Typecast는 "내 목소리 영상에 넣고 싶어"라는 연락이 쏟아졌을 때 그걸 찾은 거야.
"Interpolation Machine(인터폴레이션 머신)"이 뭐야?
- 전문가 설명: 알려진 데이터들 사이의 빈 값을 예측·채워주는 수학적 도구. 김태수가 현재 딥러닝 AI의 본질을 이렇게 표현함.
- 한나 버전: 한나가 500개 콘텐츠를 봤을 때 "이런 조합이면 터지겠다"는 감이 생기는 거 있잖아. AI도 무수히 많은 데이터를 보고 "이 사이의 빈칸엔 이게 오겠다"를 초정밀로 계산하는 거야. 없는 걸 창조하는 게 아니라, 본 것들 사이의 새 조합을 꺼내는 거지.
"Hallucination(할루시네이션)"이 뭐야?
- 전문가 설명: AI가 사실이 아닌 내용을 그럴듯하게 만들어내는 현상. 오류이기도 하지만 때로는 창의성의 원천으로 보기도 함.
- 한나 버전: ChatGPT한테 물어봤더니 없는 사실을 자신 있게 말하는 그거야. 근데 영상에서 최승준이 흥미로운 관점을 제시해 — "이걸 의도적으로 높이면 AI가 더 창의적인 아이디어를 낼 수 있다"고. 예상 밖의 아이디어가 필요할 때 AI한테 "더 엉뚱하게 생각해봐"라고 하는 게 이 원리야.
"Passive Income(패시브 인컴)"이 뭐야?
- 전문가 설명: 일하지 않아도 자동으로 들어오는 수익. 저작권료, 배당금 등.
- 한나 버전: 한나가 올해 올린 영상이 내년에도 조회수 나오면서 광고 수익 계속 들어오는 것처럼, Typecast에 목소리 등록한 성우는 자면서도 누군가가 그 목소리 쓸 때마다 돈이 들어오는 구조야.
🔥 노정석 어록 모음
"좋은 주제이긴 한데 돈은 못 벌겠다고 피드백했던 생각이 납니다. '뭔가 좀 현실적이고 고객이 있는 쪽으로 움직이자'라고 저도 뭣도 모르는 상황에서 이야기를 했던 기억은 나요."
분위기: 자기가 했던 말을 회고하는 건데, "뭣도 모르는 상황에서"라고 스스로 쿨하게 인정하면서 웃는 톤.
한나 풀이: 노정석이 2017년에 김태수한테 "아이디어는 좋은데 그게 돈이 되냐"고 직격했던 거야. 근데 재밌는 건 이게 결과적으로 옳은 피드백이었다는 거지. 한나도 "멋진 콘텐츠"보다 "사람들이 진짜 원하는 콘텐츠"를 먼저 물어봐야 한다는 것, 이 영상에서 제일 현실적인 교훈이야.
"Google과 OpenAI와 MS가 가지 않는 vertical을 찾아야 한다."
분위기: 가볍게 말하는데 이게 지금 스타트업 업계 전체의 숙제이기도 해서, 말하면서 노정석 자신도 진지해지는 톤.
한나 풀이: 대형 플랫폼이 모든 걸 할 수 있어도 "이 동네 감성 맛집 리뷰"처럼 초특화된 계정은 못 이기잖아. AI도 마찬가지야. 빅테크가 범용으로 다 하는 동안, 한나처럼 특정 크리에이터 생태계를 깊이 아는 사람이 그 안에 특화 서비스를 만들면 이길 수 있다는 거야.
"저는 이 무한과 무한 사이를 interpolation하기 때문에 extrapolation처럼 보인다고 그냥 생각하는데."
분위기: 철학 얘기라 조심스럽게 시작하다가 자기 생각을 확신 있게 정리하는 톤. 최승준이 옆에서 눈을 동그랗게 뜨고 들음.
한나 풀이: AI가 새걸 창조하는 것처럼 보이지만 사실은 본 것들 사이의 조합이라는 거야. 그리고 노정석은 그 범위가 "무한"이라 인간이 창조처럼 느끼는 거라고 봐. 한나가 수천 개 콘텐츠를 보다 보면 "이런 아이디어!"가 튀어나오는 것처럼, AI도 그 데이터의 크기가 다를 뿐 원리는 비슷하다는 거지.
🎬 한나 적용 포인트
AI 더빙으로 "얼굴 없는 채널" 실험해봐 한나가 메인 채널과 별개로 얼굴 안 나오는 세컨드 채널을 Typecast로 돌려보는 건 진짜 해볼 만해. 230만 '뚝딱이형'처럼 AI 목소리가 오히려 고유한 캐릭터가 돼서 팬덤 생기는 케이스가 이미 있거든. 콘텐츠 기획력은 한나 거, 제작 부담은 AI가 나눠 갖는 구조야.
"좁히면 이긴다"를 한나 브랜드 협업에도 써봐 김태수의 버티컬 전략은 콘텐츠에도 그대로 써먹을 수 있어. "인플루언서 마케팅 전체"가 아니라 "20대 여성 뷰티 크리에이터를 위한 브랜드 협업 가이드"처럼 좁혀서 한나만의 영역을 만들면, 대형 마케팅 회사도 못 파고드는 신뢰와 커뮤니티가 생겨.
성우·크리에이터 수익 구조를 참고해서 한나 자산화 생각해봐 Typecast가 성우 목소리를 "패시브 인컴 자산"으로 만든 것처럼, 한나도 자신의 콘텐츠·목소리·스타일을 자산화하는 걸 지금부터 생각해봐. AI 기술이 발전할수록 "원본 크리에이터"의 스타일에 라이선스 비용을 내는 시대가 올 수 있거든. 지금 한나의 아카이브 정리, 목소리 등록 같은 것들이 나중에 진짜 수익이 될 수 있어.
🏷️ 태그
- 시기: #2023상
- 주제: #음성AI #크리에이터툴 #GenAI스타트업 #버티컬전략
- 인물: #김태수
- 자유: #Typecast #성우수익배분 #AI창의성논쟁