목록AI & 빅데이터/데이터 분석(Python) (18)
Hey Tech
👨💻 1. 개요본 포스팅에서는 파이썬 matplotlib.pyplot 패키지를 활용한 시각화 자료 저장 시 자료 내 불필요한 여백을 제거하는 방법에 대해 다룹니다.🤖 2. 문제점아래 (그림 1)과 같이, matplotlib 옵션 설정 없이 시각화 자료를 저장하게 되면 그래프 주변 사방으로 불필요한 여백이 많은 것을 확인할 수 있습니다. 이는 보고서나 대시보드 등에 활용 시 다른 차트들과의 심미성 있는 조화를 방해하는 요소가 되기도 합니다. [예시 코드 - savefig 메소드 옵션 미설정]# 패키지 설치 필요 : pip install matplotlibimport matplotlib.pyplot as plt# 그래프 생성plt.plot([1, 2, 3, 4])plt.ylabel('some nu..
👨💻 들어가며 본 포스팅에서는 아래의 그림처럼, 파이썬 twinx를 활용하여 x축을 공유하는 2개 이상의 그래프를 한 번에 시각화하는 방법을 소개합니다. Step 1. 패키지 import 데이터 시각화를 위한 matplotlib 패키지를 설치하고 import 합니다. import matplotlib.pyplot as plt 🎯 패키지 설치방법 더보기 pip install matplotlib Step 2. 데이터셋 준비 저는 연도별 데이터 건수를 저장한 series 타입의 데이터를 활용할 계획입니다. 1) 첫 번째 데이터셋 2) 두 번째 데이터셋 Step 3. x축, y축 데이터 분리 x축과 y축에 각각 시각화할 데이터를 각각 나눕니다. x1 = dataset_pos_y.index y1 = dataset..
👨💻 들어가며 본 포스팅에서는 아래의 그림처럼, 파이썬 subplot을 활용하여 2개 이상의 그래프를 하나의 figure에 출력하는 방법을 소개합니다. Step 1. 패키지 import 데이터 시각화를 위한 matplotlib 패키지를 설치하고 import 합니다. import matplotlib.pyplot as plt 🎯 패키지 설치방법 더보기 pip install matplotlib Step 2. 데이터셋 준비 저는 월별 데이터 건수를 저장한 series 타입의 데이터를 활용할 계획입니다. 1) 첫 번째 데이터셋 2) 두 번째 데이터셋 Step 3. x축, y축 데이터 분리 x축과 y축에 각각 시각화할 데이터를 각각 나눕니다. x1 = dataset_pos_m.index y1 = dataset_p..
💡 들어가며 본 포스팅에서는 데이터를 주 단위로 카운팅하고 이를 시각화하는 방법을 소개합니다. 1. 패키지 import import pandas as pd import numpy as np import matplotlib.pyplot as plt 2. 데이터셋 불러오기 포스팅에서 사용되는 데이터셋은 공유가 불가하오니 학습 목적으로만 봐주시길 바랍니다. DATASET = pd.read_csv('./dataset_app_review.csv') DATASET.head() 3. 데이터 타입 확인 DATASET.dtypes 아래와 같이, 날짜 정보(date)는 현재 정수형(int)입니다. 편리하게 날짜형 데이터를 처리하기 위하여 이를 datetime 타입으로 바꿔줄 필요가 있습니다. 4. 데이터 타입 변경 "연-..
💡 들어가며 본 포스팅에서는 데이터를 월 단위로 카운팅하고 이를 시각화하는 방법을 소개합니다. 1. 패키지 import import pandas as pd import numpy as np import matplotlib.pyplot as plt 2. 데이터셋 불러오기 포스팅에서 사용되는 데이터셋은 공유가 불가하오니 학습 목적으로만 봐주시길 바랍니다. DATASET = pd.read_csv('./dataset_app_review.csv') DATASET.head() 3. 데이터 타입 확인 DATASET.dtypes 아래와 같이, 날짜 정보(date)는 현재 정수형(int)입니다. 편리하게 날짜형 데이터를 처리하기 위하여 이를 datetime 타입으로 바꿔줄 필요가 있습니다. 4. 데이터 타입 변경 "연-..
📚 목차 1. 사전 준비 2. 월 데이터 추출 3. 요일 데이터 추출 4. 특정 기간 데이터 추출 📌 1. 사전 준비 아래의 그림 1과 같이, 데이터셋에 날짜 데이터는 datetime 타입을 가지도록 사전에 준비해 주셔야 합니다. 만일, 날짜 데이터가 '20220101'과 같이 문자열이나 정수형이라면 아래의 포스팅을 참고하셔서 데이터 타입을 datetime으로 변경하시길 바랍니다. https://heytech.tistory.com/443?category=453614#recentComments [Python] 숫자형/문자열 데이터를 날짜형으로 바꾸기(pd.to_datetime) 📌 목표 숫자형 데이터를 날짜 형태로(i.e., datetime) 변환하기 예시: 20220816 (int) 👉 2022-08-1..
📌 목표 숫자형 데이터를 날짜 형태로(i.e., datetime) 변환하기 예시: 20220816 (int) 👉 2022-08-16 (datetime object) 🗂 목차 1. 데이터셋 예시 2. 데이터 타입 변경 3. 코드 뜯어보기 📝 데이터셋 예시 파이썬의 pandas 패키지를 활용하겠습니다. import pandas as pd 아래의 그림 1과 같이, 고객 ID, 리뷰 등록일, 텍스트 데이터가 담긴 데이터셋이 있습니다. 칼럼별 데이터 타입을 확인해 봅니다. 위의 그림 2와 같이, date 칼럼이 정수형인 것을 확인하실 수 있습니다. 💡 데이터 타입 변경 이제 date 칼럼을 datetime 형태로 변환해 보겠습니다. 🛠 코드 DATASET['datetime'] = DATASET['date'].ap..
💡 들어가며 Numpy 패키지의 where 함수를 사용하면 데이터프레임에서 특정 조건에 맞는 인덱스를 찾거나, 해당 인덱스의 값을 쉽게 바꿀 수 있습니다. 기본적으로 numpy 패키지 설치 및 import는 필수입니다. !pip install numpy import numpy as np 1. 조건에 맞는 인덱스 반환 아래와 같이 조건문을 입력하면, 조건에 해당되는 인덱스를 반환합니다. np.where(조건문) 아래와 같은 데이터셋이 있을 때, THK 칼럼 내 값이 30보다 큰 값의 인덱스를 조회해 보면 아래와 같습니다. np.where(30 < DATASET_RAW['THK']) 2. 조건에 따라 데이터 인코딩 아래와 같이, 조건문과 함께 조건문이 참 혹은 거짓일 경우 각각 데이터를 변환할 값을 입력해 ..