DATA101
[통계] 로지스틱 회귀분석(Logistic Regression)의 이해 본문
📚 목차
1. 로지스틱 회귀분석 정의
2. 로지스틱 회귀분석의 등장 배경
3. Odds(오즈 또는 승산) 및 Odds Ratio (오즈비 또는 승산비)
3.1. Odds(오즈 또는 승산)
3.2. Odds Ratio (오즈비 또는 승산비)
4. 연결함수(Link Function)
5. 우도(가능도, Likehood)
1. 로지스틱 회귀분석 정의
로지스틱 회귀분석은 설명변수(독립변수, X)와 범주형 목표변수(종속변수, Y) 간의 관계를 모형화하여 목표변수를 분석하거나 분류하는 통계적 방법론입니다. 특히, 로지스틱 회귀분석을 활용한 분류(classification) 문제에서는 목표변수를 직접 예측(prediction)하는 것이 아닌 2개의 클래스(e.g., '성공' or '실패') 중 하나의 클래스로 예측할 때 사용됩니다(i.e., Binary Classification).
2. 로지스틱 회귀분석의 등장 배경
로지스틱 회귀분석의 등장 배경을 알기 위해서는 먼저 로지스틱 함수(Logistic Function)에 대해 알아야 합니다. 로지스틱 회귀분석은
위의 방정식에서 좌측 항 값의 범위는
따라서 좌측 항과 우측 항의 범위를 일치시키기 위해 좌측 항에 자연 로그를 취해 줍니다. 이제 좌측 항인

하지만
이제
위의 수식을 아래와 같이 간단하게 표기할 수 있으며 아래 식을 로지스틱 함수(Logistic Function) 또는 시그모이드 함수(Sigmoid Function)라고 부릅니다.
3. Odds(오즈 또는 승산) 및 Odds Ratio (오즈비 또는 승산비)
3.1. Odds(오즈 또는 승산)
로지스틱 회귀분석에서 임의의 설명변수의 추이에 따른 목표변수의 추이를 표현할 때 주로 사용되는 것이 오즈(Odds)와 오즈비(Odds ratio)입니다. 오즈란 임의의 이벤트가 어떤 요인에 의해 발생하지 않을 확률 대비 발생할 확률을 말합니다. 아래와 같이 임의 이벤트가 발생할 확률을
3.2. Odds Ratio(오즈비 또는 승산비)
Odds Ratio는 특정 요인의 여부에 따른 이벤트 발생 확률을 비교할 때 사용되는 척도로서 말 그대로 오즈 간의 비율을 의미합니다.
>
아래와 같이 어떤 요인의 노출 여부에 따른 질병 감염률을 오즈비를 통해 계산할 수 있습니다.
오즈비 활용 예시
먼저, 오즈비 값의 범위에 따라 설명변수가 영향을 미치는 방향성에 차이가 있습니다.
-
-
예시1
특정 이벤트가 발생하는 확률을
예시2
탈모에 걸린 집단과 그렇지 않은 집단에서 약물남용(i.e., 위험요소) 여부에 따라 약물남용이 탈모와 연관된 위험요소인지 파악해 보겠습니다.
약물남용 (위험 요소) | 탈모 발생 | |
Yes (환자군) | No (대조군) | |
Yes | 79 (TP) | 19 (FP) |
No | 152 (FN) | 178 (TN) |
위에 탈모와 약물 남용 유무에 따른 참가자 수가 명시되어 있는 표를 기반으로 오즈 비율을 계산하면 다음과 같습니다.
따라서 약물 남용 그룹에서 탈모가 발생할 오즈는 약물 남용하지 않은 그룹에서 탈모가 발생할 오즈의
4. 연결함수(Link Function)
연결함수란 범주형 목표변수 수준의 확률을 연속형 척도로 변환하는 함수로 변환하고 목표변수와 설명변수의 관계를 선형 회귀분석을 활용해 모델링하는 함수를 의미합니다. 대표적인 연결함수로는 Odds에 로그와 같은 연결 함수를 취한 로짓(logit)이 있습니다.
연결함수 유형
모델 | 연결함수명 | 연결함수 |
이항, 순서형, 범주형 | 로짓(logit) | |
이항, 순서형 | 프로빗(probit) | |
포아송 분포 | 자연로그 | |
포아송 분포 | 제곱근 |
- 범주형 로지스틱 회귀모델: 목표변수의 범주가 3개 이상인 경우 로지스틱 회귀모델로 이항 로지스틱 모델의 확장
- 순서형 로지스틱 회귀모델: 목표변수가 순서를 가질 때 사용하는 로지스틱 회귀모델로, 정규분포의 누적분포 함수(PDF)인 프로빗 연결함수 사용
5. 우도(가능도, Likehood)
우도(Likehood)는 표본
예시
*아래 예시는 블로그 포스팅을 참고하여 작성되었으며 그림 자료 역시 해당 포스팅에서 가져왔음을 미리 밝힙니다.
특정 이벤트가 발생할 확률이
특정 이벤트가 발생할 확률
위의 방법처럼 모수
likelihood | |
0.48 | 0.0222 |
0.50 | 0.0389 |
0.52 | 0.0587 |
0.54 | 0.0739 |
0.56 | 0.0801 |
0.58 | 0.0738 |
0.60 | 0.0576 |
0.62 | 0.0378 |
이를 그래프로 시각화하면 아래와 같습니다.

이항분포의 확률함수와 그래프를 통해 확인할 수 있듯이 미분이 가능하기 때문에,
오늘은 로지스틱 회귀분석에 대한 개념적인 부분에 대해 알아봤습니다.
포스팅 내용에 오류가 있을 경우 댓글 남겨주시면 감사드리겠습니다.
그럼 오늘도 건강하고 즐거운 하루 보내시길 바랍니다.
고맙습니다 :-)
'AI & 빅데이터 > 통계 분석' 카테고리의 다른 글
Boxplot 그래프 해석방법(이상치 탐색방법) (0) | 2022.04.16 |
---|---|
LDA 토픽 모델링 개념 설명 (2) | 2022.03.11 |
[통계] 회귀분석(Linear Regression) 절차 및 방법 (0) | 2021.07.28 |
[통계] 회귀분석(Linear Regression) 정의, 특징, 종류 (0) | 2021.07.28 |