- Today
- Total
๋ชฉ๋กpandas (6)
DATA101

๐ ๋ค์ด๊ฐ๋ฉฐ๋ณธ ํฌ์คํ ์์๋ ํ์ด์ฌ pandas ์ฌ์ฉ ์ ๋ฐ์ดํฐํ๋ ์ ์ ์ฒด ํ๊ณผ ์ด ์กฐํ ๋ฐฉ๋ฒ์ ์๊ฐํฉ๋๋ค.๐ก์ํฉํ๋ค์ค ํตํด ์์ ํ์ผ ์กฐํ ์ ๊ธฐ๋ณธ๊ฐ์ผ๋ก๋ ์ผ๋ถ ํ๊ณผ ์ด์ด ์จ๊น์ฒ๋ฆฌ ๋๋ ํ์์ด ๋ฐ์ํฉ๋๋ค(๊ทธ๋ฆผ 1).# ๋ฏธ์ค์น ์ pip install pandasimport pandas as pddf = pd.read_excel(filepath+filename, sheet_name = 'Sheet2')df.head()โ ํด๊ฒฐ๋ฐฉ๋ฒํด๊ฒฐ๋ฐฉ๋ฒ์ ๊ฐ๋จํฉ๋๋ค. ์๋์ ๊ฐ์ด ํ๋ค์ค ์ต์ ์ ๋ณ๊ฒฝํด ์ฃผ๋ฉด ๋ฉ๋๋ค.1) ๋ชจ๋ ์ด ์ถ๋ ฅ์๋์ ๋ช ๋ น์ด๋ง ์คํํด ์ฃผ๋ฉด ๋ชจ๋ ์ด์ ์กฐํํ ์ ์์ต๋๋ค(๊ทธ๋ฆผ 2).pd.set_option('display.max_columns', None)2) ๋ชจ๋ ํ ์ถ๋ ฅ์ ์ฌํ๊ฒ ๋ชจ๋ ํ ์ถ๋ ฅํ๋ ๋ช ..

๐ก ๋ค์ด๊ฐ๋ฉฐ๋ฐ์ดํฐํ๋ ์ ๋ด ๋ฌธ์์ด ํ ๊ธ์๊น์ง ์๋ฒฝํ๊ฒ ์ผ์นํ๋ ์์๋ฅผ ์ฐพ๋์ง ํน์ ์ผ๋ถ ๊ธ์๋ผ๋ ์ผ์นํ๋ ์์๋ฅผ ์ฐพ์์ง์ ๋ฐ๋ผ ์ฌ์ฉํด์ผ ํ ํจ์๊ฐ ๋๋ฉ๋๋ค(์๋ ํ ์ฐธ๊ณ ).No.ํจ์ํ์ฉ๋ฐฉ์1replace()์๋ฒฝํ๊ฒ ์ผ์นํ๋ ๋จ์ด๋ฅผ ์ฐพ์ ๋ฐ๊พธ๋ ๊ฒฝ์ฐ2str.replace()์ผ๋ถ ๋จ์ด๋ผ๋ ์ผ์นํ๋ ๋จ์ด๋ฅผ ์ฐพ์ ๋ฐ๊พธ๋ ๊ฒฝ์ฐํจ์๋ณ๋ก ๊ฐ๊ฐ ์์ธํ ์์๋ด ๋๋ค.๐ ๋ชฉ์ฐจ1. replace ํจ์ 1) ๊ธฐ๋ณธ ์ฌ์ฉ๋ฐฉ๋ฒ 2) ์ฌ๋ฌ ๋ฌธ์์ด ๋์ ๋ณ๊ฒฝ 3) ํน์ ์นผ๋ผ ๋ฐ์ดํฐ ๋ณ๊ฒฝ 4) ์๋ณธ ๋ฐ์ดํฐ ๋ณ๊ฒฝ์ต์ (inplace)2. str.replace ํจ์1) ๊ธฐ๋ณธ ์ฌ์ฉ๋ฐฉ๋ฒ๋ด์ฅ ํจ์ replace๋ ๋ฐ์ดํฐํ๋ ์ ๋ด ํน์ ๋ฌธ์์ด๊ณผ ์๋ฒฝํ๊ฒ ์ผ์นํ๋ ๋ฐ์ดํฐ๋ฅผ ๋ชจ๋ ์ฐพ์ ๋ณ๊ฒฝํฉ๋๋ค.df.replace('ํ์ฌ ..

๋ณธ ํฌ์คํ ์์๋ Python pandas ํจํค์ง๋ฅผ ํ์ฉํ์ฌ ๊ฒฐ์ธก์น๋ฅผ ํ์ธํ๊ณ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ์ ๋ํด ๋ค๋ฃน๋๋ค. ๐จ๐ป ๋ค์ด๊ฐ๋ฉฐ ๊ธฐ๋ณธ์ ์ผ๋ก pandas ์ค์น ๋ฐ import๋ ๋์ด ์๊ณ ์ํ๋ ๋ฐ์ดํฐ์ ๋ ๋ถ๋ฌ์๋ค๊ณ ๊ฐ์ ํฉ๋๋ค. pandas ํจํค์ง ์ค์น !pip install pandas !pip install openpyxl # excel ํ์ผ ๋ถ๋ฌ์ค๊ธฐ ์ํจ # pipenv ๊ฐ์ํ๊ฒฝ์ฉ # !pipenv install pandas # !pipenv install openpyxl pandas ํจํค์ง import import pandas as pd ๋ฐ์ดํฐ์ Load dataset_raw = pd.read_excel("./data/dataset_raw.xlsx") 1. ๊ฒฐ์ธก์น ํ์ธ ๊ฒฐ์ธก์น ๊ฐ์๋ฅผ ํ์ธํ๋ ๋ฐฉ๋ฒ์ ํฌ..

โ๏ธ ์๋ฌ ์ํฉ ์๋์ ๊ฐ์ด ๋ฐ์ดํฐํ๋ ์์์ 2๊ฐ์ง ์กฐ๊ฑด์ ๋ง์กฑํ๋ ๋ฐ์ดํฐ๋ฅผ ํํฐ๋งํ๋๋ ์ฝ๋๋ ์ ๋์๊ฐ๋๋ฐ ์๋ฌ ๋ฉ์์ง๊ฐ ์ถ๋ ฅ๋์์ต๋๋ค. 2018

๋ณ๊ฒฝ ์ ํ์ด์ฌ pandas ํจํค์ง๋ก ์์ ํ์ผ์ ๋ถ๋ฌ์ค๋ฉด ์๋์ ๊ฐ์ด ํ์ผ์๋ ์๋ ์นผ๋ผ์ด ์๋์ผ๋ก ์ถ๊ฐ๋๋ ๊ฒ์ ๋ณผ ์ ์์ต๋๋ค. ์ผ๋จ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์จ ํ์ ํด๋น ์นผ๋ผ์ ์ญ์ ํ๋ ๋ฐฉ๋ฒ๋ ์์ง๋ง, ๋ฒ๊ฑฐ๋ก์ด ์์ ์ 2๋ฒ์ ํ ํ์๋ ์๊ฒ ์ฃ . ๊ทธ๋์ ์ด๋ฒ ํฌ์คํ ์์๋ ๋ฐ์ดํฐ๋ฅผ ๋ถ๋ฌ์ฌ ๋๋ถํฐ ํด๋น ์นผ๋ผ์ด ์๋์ผ๋ก ์์ฑ๋๋ ๊ฒ์ ๋ฐฉ์งํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ด ๋๋ค. ๋ณ๊ฒฝ ํ "Unnamed: 0" ์นผ๋ผ ์์ด ํ์ผ์ ๋ถ๋ฌ์ค๋ ๋ฐฉ๋ฒ์ ๊ฐ๋จํฉ๋๋ค. read ๋ฉ์๋ ์คํ ์ index_col ์ต์ ๊ฐ์ 0์ผ๋ก ์ค์ ํ๋ ๊ฒ์ ๋๋ค. dataset = pd.read_csv("๋ฐ์ดํฐ์ ๊ฒฝ๋ก", index_col = 0) dataset.head() ์์ ๊ฐ์ด ์ต์ ์ ์ค์ ํ๋ฉด ์ด์ ํด๋น ์นผ๋ผ("Unnamed: 0") ์์ด ๋ฐ์ดํฐ๊ฐ..

์ค๋์ ํ์ด์ฌ pandas ๋ผ์ด๋ธ๋ฌ๋ฆฌ๋ฅผ ํตํด ์์ ์์ ํน์ ์ด(column)์ด๋ ํ(row)์ ๋ถ๋ฌ์ค๋ ๋ฐฉ๋ฒ์ ๊ณต์ ํด ๋๋ฆฝ๋๋ค. ๋ฐ๋ก ์์ํ์ฃ ! 1. pandas ๋ผ์ด๋ธ๋ฌ๋ฆฌ import import pandas as pd pandas ์ค์น๊ฐ ์๋ ๊ฒฝ์ฐ: ์๋ ์ฝ๋๋ฅผ ์ปค๋งจ๋๋ผ์ธ/ํฐ๋ฏธ๋/์ฃผํผํฐ๋ ธํธ๋ถ ํ๊ฒฝ ์ค์์ ์ค์น๋ถํฐ ์งํํด ์ฃผ์ธ์. pip install pandas 2. ๋ฐ์ดํฐ์ ๋ถ๋ฌ์ค๊ธฐ # ํ์ผ์ด xlsx ํ์์ธ ๊ฒฝ์ฐ, dataset = pd.read_excel([ํ์ผ๊ฒฝ๋ก], sheet_name = [๋ถ๋ฌ์ฌ ์ํธ ์ด๋ฆ]) # ํ์ผ์ด csv ํ์์ธ ๊ฒฝ์ฐ, dataset = pd.read_csv([ํ์ผ๊ฒฝ๋ก], sheet_name = [๋ถ๋ฌ์ฌ ์ํธ ์ด๋ฆ]) ํ์ผ ๊ฒฝ๋ก๋ฅผ ๋๊ดํธ([]) ์์ ๋ฐ์ดํ('')์์ ..