Hey Tech
[통계] 회귀분석(Linear Regression) 정의, 특징, 종류 본문
📚 목차
1. 회귀분석 개념
2. 회귀분석의 기본 가정
3. 회귀분석의 특징
3.1. 장점
3.2. 단점
4. 회귀분석의 종류
4.1. 선형회귀분석
4.1.1. 특징
4.1.2. 종류
4.2. 로지스틱 회귀분석
4.2.1. 로지스틱 회귀분석 정의
4.2.2. 로지스틱 회귀분석 특징
1. 회귀분석 개념
회귀분석(Linear Regression)은 설명변수\((X)\)와 목표변수\((Y)\) 간의 관계를 모형화하여 목표변수를 설명(explanation)하거나 예측(prediction) 할 때 , 또는 주요 설명변수를 탐색할 때 사용하는 통계적 방법론입니다.
- 예시
- 광고 지출액이 높을수록 매출액이 높을까?
- 주류 판매량이 증가하면 간암 환자 수가 증가할까?
2. 회귀분석의 기본 가정
아래 사항 중 하나라도 위배되는 경우 회귀모형이 적합하다고 할 수 없습니다.
따라서 회귀분석을 수행하기 위해서는 반드시 아래 기본 가정이 성립하는지 확인해야 합니다.
- 잔차\((\varepsilon_i)\)의 정규성
- 잔차의 평균 \(E(\varepsilon_i)=0\)
- 잔차의 등분산성 \(V(\varepsilon_i)=\sigma^2\): 모든 설명변수 값에 대해 동일한 분산을 가짐
- 설명변수 간 독립성
- 목표변수와 설명변수 간 선형관계가 존재(선형회귀분석)
- 잔차 vs 오차?
- 잔차: 표본집단의 실젯값(=관측값)에서 예측값을 뺀 값
- 오차: 모집단에서의 실젯값(=관측값)에서 예측값을 뺀 값
3. 회귀분석의 특징
3.1. 장점
1) 실제성과 친밀성
- 예측 문제 해결에 있어서 가장 많이 사용되고 있는 방법론으로써 분석 및 해석방법 다수 존재
2) 해석 및 설명력
- 결과에 대한 근거, 이유, 활용방안 등의 유용한 정보 얻는 데 용이
3) 적절한 변수 선택
- 목표변수와 관련 있는 설명변수(i.e., 영향인자) 선택 방법 존재
3.2. 단점
- 기본 가정이 어긋나면 회귀분석 사용 불가
- 비선형성 확인을 위한 적절한 방법론이 없어 반복적인 검토 필요
- 결측치는 반드시 분석에서 제외되기 때문에 분석결과의 신뢰성 문제될 수 있음
4. 회귀분석의 종류
4.1. 선형회귀분석
4.1.1. 특징
구분 | 내용 |
목표변수 | 연속형 |
분석 목적 | 예측 |
분석 방법 | 선형방정식에 의한 함수식 표현 |
모델 탐색방법 | 최소 자승법, 가중 최소 자승법 |
모델 검정 | F 검정, t 검정 등 |
4.1.2. 종류
1) 단순 선형회귀분석(Simple Linear Regression)
- 설명변수가 1개이며 목표변수와 선형관계
- 방정식: \(y = \beta_0 + \beta_1x + \varepsilon\)
2) 다중 선형회귀분석(Multiple Linear Regression)
- 설명변수가 다수이며 목표변수와 선형관계
- 방정식: \(y = \beta_0 + \beta_1x_0 + \beta_2x_1 + ... + \varepsilon\)
3) 비선형회귀분석(Non-linear Regression)
- 설명변수와 목표변수가 비선형관계
- 예시: 2차 함수, 지수 함수 등
- 방정식: \(y = \beta_0 + \beta_1x_1 + \beta_2x_2^2 + ... + \beta_nx_n^n+ \varepsilon\)
선형 회귀분석의 절차와 방법에 대한 자세한 내용은 이곳을 참고해 주세요.
https://heytech.tistory.com/115
4.2. 로지스틱 회귀분석(Logistic Regression)
4.2.1. 로지스틱 회귀분석 정의
로지스틱 회귀분석은 설명변수(독립변수, X)와 범주형 목표변수(종속변수, Y) 간의 관계를 모형화하여 목표변수를 분석하거나 분류하는 통계적 방법론입니다.
4.2.2. 로지스틱 회귀분석 특징
구분 | 내용 |
목표변수 | 이진(binary), 순서(ordinal), 명목(nominal) |
분석 목적 | 분류(Classification)/사후 확률(Posterior Probability) 예측(i.e., 조건부 확률) |
분석 방법 | 연결함수(Logit, Probit 등)를 이용한 관계 표현 |
모델 탐색방법 | 최대 우도법 |
모델 검정 | 카이제곱 검정 등 |
로지스틱 회귀분석에 대한 자세한 내용은 이곳을 참고해 주세요.
https://heytech.tistory.com/123
Last Update | 2021. 08. 08.
포스팅 내용에 오류가 있을 경우 아래에 댓글 남겨주시면 감사드리겠습니다.
그럼 오늘도 건강한 하루 보내시길 바랍니다.
고맙습니다 :)
'AI & 빅데이터 > 통계 분석' 카테고리의 다른 글
Boxplot 그래프 해석방법(이상치 탐색방법) (0) | 2022.04.16 |
---|---|
LDA 토픽 모델링 개념 설명 (2) | 2022.03.11 |
[통계] 로지스틱 회귀분석(Logistic Regression)의 이해 (0) | 2021.07.29 |
[통계] 회귀분석(Linear Regression) 절차 및 방법 (0) | 2021.07.28 |