Hey Tech
Boxplot 그래프 해석방법(이상치 탐색방법) 본문
📌 들어가며
본 포스팅에서는 Boxplot를 해석하는 방법에 대해 알아봅니다.
아래 그림 1과 같이 세로축은 특정 값의 범위를 나타내고, 이 범위 내에서 데이터는 주로 파란색 박스 안에 분포합니다. 파란색 박스 가운데 노란색 직선으로 표시한 부분이 데이터의 중앙값(Median)이 됩니다.
박스 최상단은 제3 사분위수(Q3, 75th percentile), 최하단은 제1 사분위수(Q1, 25th percentile)입니다. 사분위수(Quantile)란 전체 데이터를 오름차순 정렬한 다음 25%씩 동일한 비율로 데이터를 나눈 것입니다. 즉, 제1 사분위수(Q1)는 가장 작은 데이터부터 전체 중 25% 비율만큼의 데이터를(25%) 의미하고, 제3 사분위수(Q3)는 중앙값(50%)에서부터 25% 비율만큼의 데이터를(75%) 의미합니다. 이 Q3과 Q1 사이 범위인 (Q3-Q1)을 사분범위(Interquartile range, IQR)이라고 합니다.
Boxplot의 수염에 해당하는 박스 바깥의 위, 아래에 가로로 긴 직선을 각각 Maximum, Minimum이라고 부릅니다. Maximum은 IQR 값에 1.5를 곱한 값에 Q3을 더한 값이고, Minimum은 Q1에서 IQR 값에 1.5를 곱한 값을 뺀 값입니다. 이상치는 이 Minimum과 Maximum 보다 각각 크거나 작은 값으로 극단치라고 부릅니다. 즉, 그림 1에서는 빨간색 다이아몬드가 모두 이상치에 해당하는 것입니다.
오늘은 Boxplot 그래프를 해석하는 방법과 이를 기반으로 이상치를 탐지하는 방법에 대해 알아봤습니다.
포스팅 내용에 오류가 있거나 보완해야 할 사항이 있다면 댓글 남겨주세요!
그럼 오늘도 즐겁고 건강한 하루 보내시길 바랍니다 :)
고맙습니다😊
'AI & 빅데이터 > 통계 분석' 카테고리의 다른 글
LDA 토픽 모델링 개념 설명 (2) | 2022.03.11 |
---|---|
[통계] 로지스틱 회귀분석(Logistic Regression)의 이해 (0) | 2021.07.29 |
[통계] 회귀분석(Linear Regression) 절차 및 방법 (0) | 2021.07.28 |
[통계] 회귀분석(Linear Regression) 정의, 특징, 종류 (0) | 2021.07.28 |