Logistic Regression - Complete Guide

🗺️ 이 영상의 위치

시간순: 전체 115편 중 74번째 · 2025-07-12
시기 배경: 2025하 (AI 기술 교육 붐 / 크리에이터·비전공자 대상 AI 강의 수요 폭증기)
난이도: ⭐⭐⭐⭐⭐ (어려운 개념 9개)
⬅️ 앞 영상: EP 59. AGI가 오기 전 마지막 사업 기회 - AI창업가 김민석 편
➡️ 다음 영상: Convolution, CNN, ResNet
- 연결 이유: 로지스틱 회귀(단순 뉴런 하나)를 여러 층 쌓으면 CNN·ResNet이 되기 때문에 자연스러운 빌드업

⚡ 5분 요약

한 줄

AI가 "스팸이냐 아니냐"를 판단하는 가장 기본 공식, 그 공식이 왜 그 생김새인지를 뿌리부터 뜯어보는 수학 강의야.

핵심 3개

1) 시그모이드, 그냥 외우지 마 — 출처가 있어 1 / (1 + e^(-s)) 이 공식, 뜬금없이 외웠지? 사실 이건 남녀 키 분포처럼 종 모양 그래프(가우시안 분포) 두 개를 겹쳤을 때 자연스럽게 튀어나오는 공식이야. e(오일러 상수)도 그 종 모양 그래프 안에 원래 있던 거라 나온 거고.

2) 학습된 숫자(λ)가 뭘 말해주냐 로지스틱 회귀를 돌리면 피처마다 숫자(λ)가 나오는데, 이게 "이 피처가 1 올라가면 확률 비가 몇 배 바뀐다"를 뜻해. 내 직감이랑 반대로 나오면 피처들끼리 너무 비슷한 정보를 담고 있다는 신호야.

3) 그 숫자(λ)는 어떻게 구하냐 — IRLS 단순히 미분 방향으로 조금씩 가는(gradient descent) 게 아니라, "지금 곡선 모양을 보고 최적 이동 거리를 계산해서 점프"하는 방식(Newton-Raphson)을 씀. 이걸 linear regression 형태로 반복해서 푸는 게 IRLS야.

가장 인상적인 한 마디

"neural network, 이거 사기구나. 통계 모델을 그냥 가져다가 멋지게 'neural network'라고 이름을 붙였구나"

한나야, 이게 무슨 말이냐면 — 노정석이 대학원 때 처음 딥러닝 책 읽었을 때 충격받은 순간이야. 신경망이 뇌 구조 흉내낸 첨단 기술인 줄 알았는데, 알고 보니 옛날 통계 모델(로지스틱 회귀)을 여러 개 이어붙이고 이름만 멋지게 바꾼 거였던 거지. 물론 지금은 그 '이름값'을 충분히 한다고 덧붙였지만.

한나가 지금 당장 시도해볼 것

ChatGPT한테 "내 유튜브 콘텐츠에서 조회수 높은 영상의 공통점 5가지를 피처로 정리해줘"라고 물어봐. 그 피처들을 스프레드시트에 1/0으로 표시하면 이게 로지스틱 회귀의 학습 데이터 구조 그대로야. AI가 어떤 피처 조합이 흥행을 만드는지 확률로 알려주는 구조를 눈으로 먼저 감잡는 거야.

📖 시간대별 영상 흐름 (15분 정도 걸려, 시간 있을 때만)

0~12분: "신경망은 사기다" — 로지스틱 회귀 첫인상

강의 시작하자마자 노정석이 슬쩍 시작 전 체크처럼 "녹화 중일 거예요, 가보겠습니다" 하고 바로 들어가. 여기서 흥미로운 회고를 꺼내는데, 예전에 통계학자들이 쓴 책을 읽다가 딱 이런 문장을 마주쳤대. "뇌 얘기는 하나도 없이 그냥 로지스틱 회귀 설명하고, 이걸 여러 개 쌓은 게 neural network래." 그 순간 노정석이 "아, 이거 사기구나" 싶었다는 거야. 지금은 전혀 사기가 아니지만, 그때는 그랬다고.

그러면서 오늘 강의의 세 가지 목표를 딱 잡아: ① 왜 시그모이드 공식이 그 생김새인가, ② 학습된 숫자들(λ)이 무슨 의미인가, ③ 그 숫자를 어떻게 실제로 구하는가. 스팸 메일 예시도 여기서 나와. 유해 단어 빈도, 글자 색 개수, 이미지 개수, 보낸이 아이디 길이 같은 피처들을 정의하고, 이걸 공식에 넣으면 스팸 확률이 탁 튀어나오는 구조를 보여줘.

12~35분: "왜 e가 거기 있어?" — 가우시안에서 시그모이드가 나오는 증명

여기서 본격 수학이 시작돼. 남자 키 분포와 여자 키 분포, 둘 다 종 모양(가우시안)이잖아. 165cm 지점에서 두 분포의 높이를 비율로 계산하면 "165cm일 때 남자일 확률"이 나오는 거야. 노정석이 직접 그린 그림을 보여주면서 "이런 그림이 책에 잘 안 나오더라고요. 이상하게"라고 살짝 아쉬운 표정으로 말해.

두 분포의 표준편차를 같다고 가정하면 수식이 딱 정리되면서 1 / (1 + e^(-b - λx)) 꼴이 나와. 노정석이 여기서 좀 들뜬 목소리로 "재밌지 않아요? 신기하죠?" 하거든. 오일러 상수 e가 뜬금없이 공식에 있는 게 이상했는데, 알고 보니 가우시안 분포 안에 원래 있던 e가 흘러들어온 거야. 이건 진짜 "아 그렇구나" 하는 순간이야.

35~52분: "이 숫자가 얼마나 중요한지 알아?" — λ 해석법

이제 학습된 λ 값이 뭘 의미하는지를 풀어. 핵심은 이거야: 피처가 1 올라갈 때, 두 클래스의 확률 비가 e^λ배 바뀐다. 노정석이 직접 예시 데이터를 만들어서 20년 전에 C로 짠 로지스틱 회귀 코드로 돌려봐. λ1이 0.94 → e^0.94 ≈ 2.5배. 피처1이 1 올라가면 1일 확률 비가 2.5배 뛰어오른다는 뜻.

흥미로운 포인트는 여기야. 내가 "이 피처가 중요할 것 같다"고 직감해서 넣었는데 λ가 마이너스로 나오면 어떡하냐? 노정석이 차분하게 설명해 — 피처끼리 정보가 너무 겹치면(correlation이 높으면) 한 피처가 이미 정보를 다 흡수해버리고, 나머지 피처는 오히려 마이너스 역할을 맡게 된대. 내 직감이 틀린 게 아니라, 피처 설계가 중복된 거라는 거지.

52~70분: "gradient descent보다 좋은 게 있어" — Newton-Raphson 방법

가장 어려운 구간이야. 근데 노정석이 쉽게 비유해줘. gradient descent는 "지금 기울기가 이쪽이니까 조금만 가자"는 거고, Newton-Raphson(뉴턴-랩슨)은 "지금 곡선 모양이 이렇게 생겼으니 최솟점이 저기일 거야" 하고 한 번에 더 크게 이동하는 방식이야. 더 빠른 거야.

그럼 딥러닝은 왜 더 빠른 Newton-Raphson 안 쓰냐고? 노정석이 약간 허탈하게 웃으면서 말해: "피처가 n개면 메모리가 n² 필요해요. 너무 복잡해서 안 써요. 프로그램도 너무 복잡하고." 하지만 로지스틱 회귀는 이걸 씀. 그래서 지금 여기서 설명하는 거야.

70~87분 26초: "반복해서 선형 회귀처럼 풀어" — IRLS 알고리즘과 마무리

IRLS(Iterative Reweighted Least Squares)가 드디어 등장해. 결론부터 말하면, 로지스틱 회귀의 가중치 λ를 구하는 방법이 사실 선형 회귀(linear regression) 푸는 공식이랑 똑같은 꼴이야. 대신 타겟(목표값)을 매 반복마다 조금씩 바꿔가면서 돌리는 거야.

노정석이 실제로 Python 코드를 돌려서 보여줘. 처음엔 거의 직선에 가깝던 곡선이 반복될수록 S자 시그모이드 모양으로 딱딱 맞춰지는 걸 눈으로 확인할 수 있어. 목표 λ가 -1, 2였는데 학습 후 -0.89, 2.21이 나왔다고. 완전히 딱 맞진 않지만 상당히 근접한 거야. 마지막에 수강생들이 역행렬 관련 질문을 몇 개 던지고, 노정석이 "R이 대각행렬이라 역수만 구하면 돼요, 진짜네요" 하면서 본인도 그 자리에서 재확인하는 장면이 꽤 귀여워.

💡 한나 버전 사전

"로지스틱 회귀(Logistic Regression)"가 뭐야?

전문가 설명: 입력값을 받아 0~1 사이 확률을 출력하는 이진 분류 모델. 딥러닝의 기본 단위인 뉴런 하나와 같은 구조.
한나 버전: 영상 썸네일을 보고 "클릭할 것 같냐 아니냐"를 확률로 뱉어주는 공식이야. 100% 클릭이면 1, 절대 안 클릭이면 0, 애매하면 0.6 이런 식으로 숫자를 뱉어주는 거지.

"시그모이드 함수(Sigmoid Function)"가 뭐야?

전문가 설명: 1 / (1 + e^(-s))로 표현되는 S자 곡선 함수. 어떤 값이든 0~1 사이로 눌러줌.
한나 버전: 조회수가 0~~무한대로 나와도, 이걸 "흥행 확률 0~~100%" 사이로 환산해주는 변환기야. 아무리 큰 숫자도 1을 넘지 않게, 아무리 작아도 0 밑으로 안 내려가게 꽉 잡아주는 거지.

"가우시안 분포(Gaussian Distribution)"가 뭐야?

전문가 설명: 평균을 중심으로 좌우 대칭인 종 모양 확률 분포. 자연계에서 매우 흔하게 나타남.
한나 버전: 유튜브 영상 댓글 반응처럼, 대부분 중간쯤 반응이고 극단적으로 좋아하거나 싫어하는 사람은 드문 분포야. 키 분포, 시험 점수 분포, 거의 다 이 종 모양으로 나와.

"피처(Feature)"가 뭐야?

전문가 설명: 모델에 입력되는 데이터의 속성값. AI가 판단하는 데 쓰는 변수들.
한나 버전: 콘텐츠의 스펙 항목들이야. 영상 길이, 썸네일 인물 유무, 제목 글자 수, 업로드 요일 같은 것들. AI한테 "이 영상 흥할까?"를 물어볼 때 입력하는 체크리스트지.

"Maximum Likelihood Estimation(MLE)"이 뭐야?

전문가 설명: 관측된 데이터가 발생할 확률을 가장 크게 만드는 파라미터를 찾는 방법.
한나 버전: "내 팔로워들이 실제로 반응한 게 이 패턴이라면, 이 패턴을 가장 잘 설명하는 공식의 숫자는 뭘까?"를 역산하는 거야. 결과를 보고 공식을 거슬러 올라가는 거지.

"Gradient Descent(경사 하강법)"가 뭐야?

전문가 설명: 손실 함수의 기울기 반대 방향으로 파라미터를 조금씩 업데이트하는 최적화 방법.
한나 버전: 산에서 눈 감고 발밑만 더듬으면서 경사 따라 조금씩 내려오는 거야. 느리지만 어디서든 시작할 수 있어. 지금 대부분의 딥러닝이 이 방법 써.

"Newton-Raphson(뉴턴-랩슨)"이 뭐야?

전문가 설명: 1차 미분과 2차 미분(헤시안)을 동시에 활용해 최적점을 더 빠르게 찾는 수치 방법론.
한나 버전: 산에서 눈 뜨고 "저기 계곡이 보이네, 한 번에 거기로 점프하면 되겠다" 하는 거야. Gradient descent보다 훨씬 빨리 최솟값에 도착해. 근데 계산량이 너무 많아서 딥러닝엔 잘 안 씀.

"IRLS(Iterative Reweighted Least Squares)"가 뭐야?

전문가 설명: 로지스틱 회귀의 파라미터를 추정할 때 가중치를 반복적으로 갱신하면서 선형 회귀 방식으로 푸는 알고리즘.
한나 버전: 콘텐츠 성과 분석을 할 때 매번 반응률 데이터를 업데이트하면서 "가장 잘 설명하는 공식"을 계속 고쳐나가는 거야. 딱 한 번에 답 내는 게 아니라, 몇 번 반복하면서 점점 맞는 답으로 수렴하는 거지.

"헤시안 행렬(Hessian Matrix)"가 뭐야?

전문가 설명: 다변수 함수를 두 번 편미분해서 만드는 정방 행렬. 함수의 곡률 정보를 담고 있음.
한나 버전: "내 콘텐츠 성과 곡선이 얼마나 가파르게 구부러져 있나"를 수치로 나타낸 표야. 이걸 알면 최솟점까지 한 번에 얼마나 이동할지 계산할 수 있어. 근데 피처가 100개면 표가 100×100짜리가 필요해서 메모리를 엄청 먹어.

🔥 노정석 어록 모음

"neural network, 이거 사기구나. 통계 모델을 그냥 가져다가 멋지게 'neural network'라고 이름을 붙였구나"

분위기: 대학원생 시절 회고를 꺼내면서 약간 쓴웃음 짓는 톤. 지금은 절대 아니라고 바로 단서를 달긴 하지만 그 충격이 생생하게 전해지는 순간.

한나 풀이: 유튜브 알고리즘 마케팅이랑 비슷해. "AI 추천 알고리즘"이라고 하면 뭔가 대단해 보이지만 알고 보면 그냥 옛날 협업 필터링 수식이잖아. 이름값이 기술을 이기는 순간이 역사에 꽤 있어. 지금 AI도 마찬가지로 뼈대는 수십 년 된 수학인데 컴퓨팅 파워와 데이터가 만나면서 진짜가 된 거지.

"도대체 이 꼴에 왜 exponential, 2.718이 나오나 하는 게 첫 번째로 이상했고, 1 / (1 + e^-s)인데 왜 마이너스일까, 그것도 이상하지 않아요?"

분위기: 학생 때 품었던 진짜 의문을 꺼내는 톤. 모른다고 치지 않고 그 불편함을 끝까지 추적한 사람의 말투야.

한나 풀이: 콘텐츠 만들다 보면 "왜 이 포맷이 되는 거지?" 하는 걸 그냥 넘길 때가 있잖아. 노정석은 그걸 안 넘기고 뿌리까지 팠어. 그 뿌리가 가우시안 분포였고, e는 거기서 자연스럽게 흘러들어온 거야. 공식을 외우는 것과 이해하는 것의 차이가 딱 여기서 나와.

"gradient descent는 지금 기울기가 이쪽이니까 그쪽으로 조금만 가자는 거고, 뉴턴-랩슨은 지금 함수 모양이 아래로 이렇게 휘어졌으니 이 점이 최소일 거라고 예측해서 2차 함수까지 계산해서 근접하는 거죠."

분위기: ChatGPT가 가르쳐준 비유라고 직접 밝히면서 살짝 겸손하게, 근데 이 설명이 명쾌해서 스스로도 만족하는 느낌.

한나 풀이: A/B 테스트를 아무 기준 없이 조금씩 바꾸는 게 gradient descent, 어떤 조합이 최적인지 데이터 분석으로 예측하고 한 번에 크게 개선하는 게 Newton-Raphson이야. 빠르지만 계산 비용이 큰 것도 똑같은 맥락이지.

🎬 한나 적용 포인트

콘텐츠 피처 영향도 체크하기 로지스틱 회귀의 λ 해석법 기억나지? 피처 하나가 올라갈 때 확률 비가 e^λ배 바뀐다는 거. Google Looker Studio나 유튜브 스튜디오에서 내 영상 데이터 뽑아서 ChatGPT한테 "이 피처들 중 어떤 게 조회수 1만 이상에 가장 영향을 주는지 로지스틱 회귀로 분석해줘"라고 던져봐. 직감이랑 실제 수치가 다르게 나오면, 내가 중요하다고 생각했던 요소 두 개가 사실 같은 정보를 담고 있을 가능성이 높아.

스팸 필터 논리를 브랜드 협업 필터에 적용하기 영상에서 스팸 메일을 판별하는 피처 5개를 만든 것처럼, 내한테 오는 협업 제안에도 피처를 만들 수 있어. 예: 팔로워 대비 제안 단가, DM 길이, 이전 협업 레퍼런스 유무, 보낸 계정 팔로워 수 등. 이걸 시트에 정리하면 "이 조건이면 수락 확률 70%"처럼 직접 확인할 수 있어. AI 없이도 기준이 생기는 거야.

"피처 상관관계 함정" 조심하기 노정석이 강조한 포인트야 — 피처들이 서로 너무 비슷한 정보를 담으면 하나가 마이너스로 나와서 결과를 왜곡시켜. 콘텐츠 분석할 때 "업로드 시간"이랑 "요일"을 둘 다 넣는 것처럼 겹치는 지표를 중복으로 넣으면 모델이 헷갈려. 분석 툴 쓸 때 변수끼리 너무 상관관계 높은 건 하나만 남기는 게 훨씬 깔끔한 결과 나와.

🏷️ 태그

시기: #2025하
주제: #AI기초 #머신러닝 #수학강의 #딥러닝뿌리
인물: #노정석
자유: #로지스틱회귀완전해설 #시그모이드기원 #IRLS