Convolution, CNN, ResNet

🗺️ 이 영상의 위치

시간순: 전체 115편 중 75번째 · 2025-07-13
시기 배경: 2025하 (AI 기술 심화기 / CNN·ResNet 원리 파헤치기 (2025년 하반기))
난이도: ⭐⭐⭐⭐⭐ (어려운 개념 10개)
⬅️ 앞 영상: Logistic Regression - Complete Guide
➡️ 다음 영상: EP 60. 이제 질문이 병목이다: Right Questions are All You Need
- 연결 이유: CNN·ResNet의 "왜"를 알았으니, 다음 영상은 AI 시대에 "어떤 질문을 해야 하는가"로 관점을 전환함

⚡ 5분 요약

한 줄

CNN이 이미지를 "필터로 긁는" 이유를 신호처리의 가장 밑바닥부터 설명하는 영상 — 그게 바로 Convolution이고, ResNet은 그걸 더 깊게 쌓을 수 있게 만든 구조야.

핵심 3개

1) Convolution은 "알 수 없는 시스템에 1만 꽂아보기"야 어떤 시스템이 어떻게 작동하는지 수식을 몰라도, 딱 하나의 입력(1, 0, 0, 0…)을 넣었을 때 나오는 출력을 알면 그 시스템의 특성을 완전히 설명할 수 있어. CNN의 필터가 이미지를 훑고 다니는 것도 이 원리야.

2) CNN 필터는 "주파수 도메인에서 특정 주파수만 뽑는 필터"야 이미지를 blur하게 만드는 건 저주파 필터, 윤곽선만 강조하는 건 고주파 필터. CNN은 이 필터를 학습으로 자동 설계하는 거야. 사람이 손으로 필터를 못 만들어도 데이터만 주면 알아서 만들어줌.

3) ResNet은 "깊어도 망하지 않게" 우회로를 만든 거야 레이어가 깊어지면 뒤에서 앞으로 오차 신호가 전달될 때 소실돼서 학습이 안 돼. ResNet은 입력값을 그냥 건너뛰어서 더해주는 skip connection으로 이 문제를 해결했어. 덕분에 34층짜리가 18층짜리보다 잘 돌아가게 됐지.

가장 인상적인 한 마디

"왜 제곱은 안 하냐고 했더니 답은 되게 간단해요. 어려워서요."

한나야, 이게 무슨 말이냐면 — 수십 년 된 신호처리 이론도 사실 "다 풀기 어려워서 일단 단순하게 가정하자"고 만들어진 거야. AI도 마찬가지로 완벽한 이유가 있어서가 아니라 "일단 이게 됐으니까" 쓰는 게 많다는 거지.

한나가 지금 당장 시도해볼 것

인스타 피드 이미지 편집 앱에 "블러" 필터 하나 적용해봐. 그게 주파수 도메인에서 저주파만 통과시키는 CNN 필터와 정확히 같은 원리야. "AI가 이미지를 보는 방식 = 내가 필터 쓰는 방식"이라고 느껴지면 이 영상의 절반은 이해한 거야.

📖 시간대별 영상 흐름 (15분 정도 걸려, 시간 있을 때만)

0~15분: "일단 시스템이 뭔지부터 — LTI랑 Convolution 첫 등장"

노정석이 시작하자마자 솔직하게 터놓아. "전자과에서 한 학기 수업인데, 이걸 1시간 반에 한다는 건 말이 안 됩니다." 그러면서 웃음. 그러나 바로 칠판 앞에서 진지 모드로 전환.

시스템이라는 건 x[n]이라는 입력 시퀀스가 들어가면 y[n]이라는 출력이 나오는 블랙박스야. 여기서 LTI(Linear Time-Invariant, 선형 시불변 시스템)를 가정하는데, 선형이라는 건 "입력에 상수 곱해서 더한 것"만 다룬다는 뜻이고, 시불변이라는 건 "입력을 늦게 넣으면 출력도 똑같이 늦게 나온다"는 뜻이야.

노정석이 왜 제곱 같은 비선형은 안 다루냐고 학생 때 물어봤다고 해. 답: "어려워서." 이 한 마디가 웃기면서 핵심이야. 수학이 아직 못 풀어서 현실 타협으로 선형만 다루는 거라고. 그리고 이 선형 시스템의 출력 수식을 쭉 전개하다 보면 자동으로 Convolution 공식이 툭 튀어나와.

15~35분: "Convolution 수식 등장 — 진짜 핵심은 여기야"

노정석이 긴장감을 올리면서 말해. "이게 제일 중요합니다. 이게 Convolution이에요. Convolutional Neural Network가 이거라니까요." 분위기가 갑자기 진지해지는 구간.

핵심은 이거야. 어떤 시스템이 블랙박스일 때, 그 시스템에 "1, 0, 0, 0…"만 넣어봐. 그때 나오는 출력을 impulse response(h[n])라고 불러. 이 h[n]만 알면 어떤 입력 x[n]을 넣어도 출력이 뭔지 계산할 수 있어. 그 계산법이 Convolution이야. x[n]과 h[n]을 곱하고 더하는 것 — 딱 dot product(벡터 내적)이야.

CNN에서 필터가 이미지 위를 훑고 다니면서 "곱하기 더하기"를 반복하는 게 바로 이 Convolution이야. 노정석이 "왜 CNN 논문에서 수식을 n-k로 안 썼는지 이상했다"고 털어놓는데, 결론은 "뒤집으나 안 뒤집으나 weight는 같으니까 그냥 쓴 거더라고요"라며 납득하는 표정.

35~60분: "Fourier Transform 등장 — 주파수 세상으로 넘어가자"

이 구간이 제일 빠르고 빡세. 노정석 본인도 "한 학기를 10분에 얘기한다는 게 말이 안 된다"면서 달린다.

어떤 신호든 여러 개의 파형(정현파)의 합으로 표현할 수 있어. 그걸 주파수별로 분해하는 도구가 Fourier Transform이야. 예시로 spectrogram(성문, 목소리 지문 분석 그래프)을 보여줘. 뉴스에서 범죄자 목소리 분석할 때 나오는 그 그래프. 시간 축에서는 안 보이는 정보가 주파수 도메인으로 가면 보여.

왜 허수(j)가 들어가냐는 질문에 노정석이 명쾌하게 답해. "그냥 계산하기 편해서예요. 코사인하고 사인을 한 번에 표현하려니까." 수학이 고상한 이유가 아니라 실용적 이유로 허수를 쓴다는 거야.

FFT(Fast Fourier Transform, 빠른 푸리에 변환)도 등장하는데, 원래 N² 시간이 걸리던 걸 짝수·홀수로 쪼개서 N log N으로 줄인 알고리즘이야. 1965년 Cooley-Tukey가 만든 거. 노정석이 "merge sort 하듯이 하는 거예요"라고 한 마디로 정리.

60~75분: "Convolution = 주파수 도메인에서의 곱하기 — 이게 왜 중요한가"

이 구간이 전반부의 결론이자 CNN 이해의 진짜 열쇠야.

시간 축에서 Convolution하는 것 = 주파수 도메인에서 그냥 곱하는 것. 이게 증명이 되는 순간. 노정석이 ChatGPT한테 증명 시켰다면서 결과를 그대로 보여줌. 웃기면서도 핵심.

이게 왜 중요하냐? CNN의 필터를 학습한다는 게 결국 주파수 도메인에서 "어떤 주파수를 얼마나 강조할지" 자동으로 설계하는 거야. 블러 필터는 저주파만 통과, 윤곽선 필터는 고주파 강조. CNN이 학습으로 이 필터를 스스로 만들어낸다는 거지. 사람이 손으로 설계하는 게 아니야.

75~95분: "드디어 CNN — LeNet-5 실제 구조 뜯어보기"

"드디어 이제 Convolutional Neural Network를 설명할 수 있습니다"라고 노정석이 말하는 구간. 약간의 안도감과 흥분이 섞인 톤.

LeNet-5(1998년 르쿤 교수 논문, 손글씨 숫자 인식)를 예시로 써. 32x32 이미지에 5x5 필터를 훑고, max pooling으로 절반씩 줄이고, 피처 맵을 여러 장 만들어 나가는 구조. 중간에 청중 한 명이 "커널이 3차원인 거랑 같은 거죠?"라고 물어보자 노정석이 "맞아요, 그렇게 봐야죠"라고 확인해줘.

max pooling에 대해 노정석이 "수학에서 무슨 max를 하나 저는 이상하긴 했어요"라고 솔직히 털어놓으면서, 생물학적 해석(인간 시각세포가 있다·없다만 인식하는 세포와 detail 보는 세포로 나뉜다)도 소개해. 코드는 PyTorch로 LeNet 전체가 짧은 코드 두 개로 끝남.

95~95분 24초: "ResNet — 깊게 쌓아도 망하지 않는 구조"

ResNet(Residual Network, 잔차 네트워크)의 핵심은 skip connection이야. 레이어를 깊게 쌓으면 오차 신호가 앞으로 전달될 때 계속 곱하기를 거쳐서 0에 가까워져 학습이 안 돼. 이걸 기울기 소실(vanishing gradient)이라고 해.

ResNet은 입력값을 그냥 건너뛰어서 더해줌으로써 "오차 신호의 우회로"를 만들어. 그 결과 34층이 18층보다 잘 되는 역전이 일어나. ResNet-50의 bottleneck 구조(1x1 → 3x3 → 1x1 필터를 블록으로 묶는 것)도 설명하고, 코드도 결국 짧은 두 개 파일로 끝난다고 강조하면서 마무리.

💡 한나 버전 사전

"LTI (Linear Time-Invariant)"가 뭐야?

전문가 설명: 선형 시불변 시스템. 입력을 늦게 넣으면 출력도 똑같이 늦게 나오고, 입력들을 섞어 넣은 출력은 각각 출력을 섞은 것과 같은 시스템.
한나 버전: 인스타 알고리즘이 "내가 올린 시간이 달라도 노출 방식이 항상 일정하다"고 가정하는 것처럼, 조건이 일정하게 유지되는 시스템을 뜻해.

"Convolution"이 뭐야?

전문가 설명: 두 신호를 하나는 뒤집어서 겹치며 곱하고 더하는 연산. 시스템의 특성(h[n])과 입력(x[n])의 관계를 계산할 때 씀.
한나 버전: 틱톡 영상을 편집 앱으로 긁는 것처럼, 필터가 이미지 위를 쫙 훑고 다니면서 "여기 이런 특징 있네 없네"를 체크하는 연산이야.

"Impulse Response (임펄스 응답)"가 뭐야?

전문가 설명: 어떤 시스템에 "1, 0, 0, 0…"이라는 입력을 넣었을 때 나오는 출력. 이것만 알면 그 시스템의 특성을 완전히 표현할 수 있어.
한나 버전: 브랜드에게 딱 한 번 콜라보 제안 DM을 넣어봤을 때 그 반응 패턴. 한 번의 반응으로 그 브랜드가 어떤 파트너인지 다 파악되는 것과 같아.

"Fourier Transform (푸리에 변환)"이 뭐야?

전문가 설명: 어떤 신호든 여러 주파수의 파형으로 분해하는 수학 도구. 시간 축 신호를 주파수 도메인으로 옮김.
한나 버전: 내 콘텐츠를 "10대 구독자 반응 강도 + 20대 구독자 반응 강도 + 30대 반응 강도"처럼 연령대별로 분해해서 보여주는 분석 도구라고 생각해봐.

"FFT (Fast Fourier Transform)"가 뭐야?

전문가 설명: 푸리에 변환을 짝수·홀수로 나눠 재귀적으로 처리해 계산량을 N²에서 N log N으로 줄인 알고리즘 (Cooley-Tukey, 1965).
한나 버전: 100개 협찬 제안을 하나씩 검토하는 대신 "우선 카테고리별로 묶고 각 묶음에서 빠르게 결정하는" 효율적인 협업 프로세스랑 같아.

"CNN (Convolutional Neural Network, 합성곱 신경망)"이 뭐야?

전문가 설명: 이미지나 신호에 필터를 슬라이딩하며 특징을 추출하는 딥러닝 구조. LeNet-5, ResNet, VGG 같은 모델들이 모두 CNN 기반.
한나 버전: 내 사진에 여러 필터를 겹겹이 씌워서 "윤곽선 있어? 색깔 패턴 있어? 텍스처 있어?" 하나씩 체크하는 앱이라고 생각해봐. 그걸 자동으로 학습해서 만드는 게 CNN이야.

"Max Pooling (맥스 풀링)"이 뭐야?

전문가 설명: CNN에서 일정 영역 안의 값 중 최댓값 하나만 남기고 나머지는 버려 이미지 크기를 줄이는 연산.
한나 버전: 댓글 100개 중에서 가장 좋아요 많은 댓글 하나만 대표로 뽑아 요약하는 것처럼, 영역 대표값만 남기는 거야.

"Skip Connection (스킵 커넥션)"이 뭐야?

전문가 설명: 레이어 여러 개를 건너뛰어 입력값을 그대로 더해주는 연결. ResNet의 핵심 아이디어로 기울기 소실 문제를 해결함.
한나 버전: 유튜브 롱폼 편집할 때 15분짜리 본 영상에 "핵심 요약 쇼츠"를 병렬로 붙여놓는 것처럼, 정보가 사라지지 않도록 우회로를 만드는 거야.

"Vanishing Gradient (기울기 소실)"이 뭐야?

전문가 설명: 딥러닝에서 역전파 시 오차 신호가 레이어를 거칠수록 계속 곱해져 0에 가까워지는 현상. 앞쪽 레이어가 학습이 안 됨.
한나 버전: 브랜드 피드백이 에이전시 → 팀장 → 담당자 → 크리에이터로 전달되면서 점점 희미해져서 결국 아무것도 안 바뀌는 상황과 똑같아.

"ResNet (잔차 네트워크)"이 뭐야?

전문가 설명: Skip Connection으로 기울기 소실을 해결해 매우 깊은 CNN도 학습 가능하게 만든 구조. ImageNet 대회에서 Top-5 오류율 5.72%로 당시 최고 성능.
한나 버전: 100층짜리 고층빌딩에 계단만 있으면 꼭대기까지 올라가기 힘들잖아. ResNet은 그 사이사이 엘리베이터를 달아놓은 거야. 덕분에 레이어가 엄청 깊어도 학습이 잘 돼.

🔥 노정석 어록 모음

"왜 제곱은 안 하냐고 했더니 답은 되게 간단해요. 어려워서요."

분위기: 석사 시절 자기 자신을 소환하는 것처럼, 웃으면서도 조금 허탈한 톤

한나 풀이: 수학이든 AI든 있어 보이는 이론 뒤에는 "이게 제일 쉬웠으니까"가 숨어 있을 때가 많아. 뭔가 거대해 보이는 이유가 결국 "더 복잡하면 못 풀어서"인 경우, 콘텐츠 기획할 때도 "왜 다들 이 포맷을 쓰지?"의 답이 "일단 이게 됐으니까"인 경우가 많잖아.

"이게 convolution이라니까요. 저는 일단 중간고사 F네요."

분위기: 청중이 멍한 표정인 걸 직감하고, 반쯤 자조하면서 "나도 처음엔 황당했어"를 공감시키는 톤

한나 풀이: 강의 90분 버티다가 "이게 그 CNN이에요!"라고 알려주는 순간. 어렵다는 게 당연하다는 걸 본인도 인정하는 거야. 모르는 게 부끄러운 게 아니라 당연한 거라는 위로이기도 해.

"이걸 ChatGPT한테 증명하라고 하니까 쫙 나오더라고요. 이걸 그대로 보여드리는 거거든요."

분위기: 약간 쑥스럽지만 실용주의자 태도로 아무렇지 않게 말하는 톤

한나 풀이: 수십 줄짜리 수학 증명을 굳이 손으로 안 쓰고 AI한테 시켜버린다는 거. 전문가도 AI를 이렇게 써. 한나 너도 콘텐츠 아이디어 발산할 때 AI한테 "이 방향으로 10개만 더 뽑아줘"라고 시키는 것처럼, AI는 증명기계도 되는 거야.

🎬 한나 적용 포인트

AI 이미지 필터 = 주파수 필터라는 걸 콘텐츠로 써먹기 "블러 필터가 사실 저주파 필터야" "AI가 내 얼굴 사진에서 윤곽선 찾는 게 고주파 필터야" 같은 거 숏폼으로 만들어봐. 어렵게 느껴지는 AI를 "내가 매일 쓰는 편집 앱 원리"로 연결하면 반응 폭발할 가능성 높아. 기술 콘텐츠가 생활밀착형으로 바뀌는 순간이야.

ResNet의 "skip connection" → 내 콘텐츠 시리즈 전략에 적용 긴 영상 시리즈를 올릴 때 중간중간 "앞 내용 요약 쇼츠"를 병렬로 올리는 전략이 skip connection이야. 새로 들어온 팔로워가 처음부터 안 봐도 핵심을 놓치지 않게 해주는 구조. 시리즈 콘텐츠 기획할 때 항상 "우회로가 있냐?"를 물어봐.

"어려워서 단순화했다"는 스토리 포맷 활용 AI나 기술 분야에서 "왜 이렇게 됐냐"를 파고들면 결국 "그게 제일 쉬웠으니까"가 나와. "AI도 사실 다 타협의 산물이야" 같은 각도로 콘텐츠를 짜면, 기술이 어렵다고 느끼는 팔로워들에게 "나도 이해 가능하다"는 심리적 허들을 낮출 수 있어. 브레인 디코더 느낌 말고 친근한 AI 크리에이터 포지셔닝이 될 수 있어.

🏷️ 태그

시기: #2025하
주제: #AI기초 #CNN #ResNet #신호처리
인물: #르쿤
자유: #딥러닝원리 #전자공학기초 #필터학습