목록AI & 빅데이터/통계 분석 (5)
Hey Tech
📌 들어가며 본 포스팅에서는 Boxplot를 해석하는 방법에 대해 알아봅니다. 아래 그림 1과 같이 세로축은 특정 값의 범위를 나타내고, 이 범위 내에서 데이터는 주로 파란색 박스 안에 분포합니다. 파란색 박스 가운데 노란색 직선으로 표시한 부분이 데이터의 중앙값(Median)이 됩니다. 박스 최상단은 제3 사분위수(Q3, 75th percentile), 최하단은 제1 사분위수(Q1, 25th percentile)입니다. 사분위수(Quantile)란 전체 데이터를 오름차순 정렬한 다음 25%씩 동일한 비율로 데이터를 나눈 것입니다. 즉, 제1 사분위수(Q1)는 가장 작은 데이터부터 전체 중 25% 비율만큼의 데이터를(25%) 의미하고, 제3 사분위수(Q3)는 중앙값(50%)에서부터 25% 비율만큼의 데이..
👨💻 들어가며본 포스팅에서는 LDA 토픽 모델링의 개념, 가정, 알고리즘 프로세스에 대해 알아봅니다. 특히, 수학적인 수식 없이 LDA 토픽 모델링의 메커니즘을 쉬운 예시와 함께 빠르게 이해하는 데 초점을 둡니다. LDA 토픽 모델링 관련 실습은 아래 포스팅을 참고해 주시길 바랍니다.https://heytech.tistory.com/401 [NLP] LDA 토픽 모델링을 활용한 앱 리뷰 분석 프로젝트📚 목차 1. 개요 2. 데이터셋 3. LDA 토픽 모델링 개념 4. LDA 토픽 모델링 시각화 5. 전체 코드 6. 코드 설명 7. 결과 해석방법 8. 인사이트 도출 1. 개요 본 프로젝트는 건강관리 앱 리뷰 텍스트마이닝heytech.tistory.com📝 목차 1. LDA 토픽 모델링의 개념 2...
📚 목차 1. 로지스틱 회귀분석 정의 2. 로지스틱 회귀분석의 등장 배경 3. Odds(오즈 또는 승산) 및 Odds Ratio (오즈비 또는 승산비) 3.1. Odds(오즈 또는 승산) 3.2. Odds Ratio (오즈비 또는 승산비) 4. 연결함수(Link Function) 5. 우도(가능도, Likehood) 1. 로지스틱 회귀분석 정의 로지스틱 회귀분석은 설명변수(독립변수, X)와 범주형 목표변수(종속변수, Y) 간의 관계를 모형화하여 목표변수를 분석하거나 분류하는 통계적 방법론입니다. 특히, 로지스틱 회귀분석을 활용한 분류(classification) 문제에서는 목표변수를 직접 예측(prediction)하는 것이 아닌 2개의 클래스(e.g., '성공' or '실패') 중 하나의 클래스로 예측할..
📚 목차 1. 회귀분석 절차 소개 2. 데이터 경향성 확인 2.1. 산점도 행렬 2.2. 상관분석 3. 모델 적합성 확인 3.1. 분산 분석(F-검정) 3.2. 수정 결정계수 확인 3.2.1. 수정결정계수란? 3.2.2. 수정 결정계수 기반 모델 적합성 판단 3.3. 잔차(오차) 분석 3.3.1. 잔차의 기본 가정 3.3.2. 가중최소제곱(Weighted Least Squares) 4. 회귀계수 계산 및 유의성 확인 4.1. 회귀계수 계산 4.1.1. 최소자승법이란? 4.1.2. 최소자승법 기반 회귀계수 계산 4.2. 회귀계수 유의성 검정(t-검정) 4.3. 설명변수 간 다중공선성 확인 4.3.1. 다중공선성이란? 4.3.2. 다중공선성 발생 원인 4.3.3. 다중공선성 확인 방법 4.3.4. 다중공선성..
📚 목차 1. 회귀분석 개념 2. 회귀분석의 기본 가정 3. 회귀분석의 특징 3.1. 장점 3.2. 단점 4. 회귀분석의 종류 4.1. 선형회귀분석 4.1.1. 특징 4.1.2. 종류 4.2. 로지스틱 회귀분석 4.2.1. 로지스틱 회귀분석 정의 4.2.2. 로지스틱 회귀분석 특징 1. 회귀분석 개념 회귀분석(Linear Regression)은 설명변수\((X)\)와 목표변수\((Y)\) 간의 관계를 모형화하여 목표변수를 설명(explanation)하거나 예측(prediction) 할 때 , 또는 주요 설명변수를 탐색할 때 사용하는 통계적 방법론입니다. 예시 광고 지출액이 높을수록 매출액이 높을까? 주류 판매량이 증가하면 간암 환자 수가 증가할까? 2. 회귀분석의 기본 가정 아래 사항 중 하나라도 위배되..