์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- ํ๋ธ๋ฃจ
- ๋ฐ์ดํฐ ๋ถ์
- ๋ฆฌ์กํธ
- abap
- ์ฝํ
- ๊นํ๋ธ
- ํ ์คํธ๋ง์ด๋
- react
- ๋ฅ๋ฌ๋
- ํ์ด์ฌ
- DFS
- AI
- ์๋ง์กด์น์๋น์ค
- ๋น ๋ฐ์ดํฐ
- ๋ฐฑ์ค
- ์ฝ๋ฉํ ์คํธ
- ์๊ณ ๋ฆฌ์ฆ
- ํ๋ธ๋ก
- ํ ์คํธ๋ถ์
- sap
- ์๋ฐ์คํฌ๋ฆฝํธ
- AWS
- ๋ฐ์ดํฐ๋ถ์
- tableau
- erp
- nlp
- ์์ฐ์ด์ฒ๋ฆฌ
- github
- ์ธ๊ณต์ง๋ฅ
- Git
- Today
- Total
๋ชฉ๋ก๋น ๋ฐ์ดํฐ (8)
DATA101
๐ ์๋ ํ์ธ์, ๋น ๋ฐ์ดํฐ ๋ถ์ ํ๋ซํผ์ ๋ง๋ค๊ณ ์๋ DATA101 ํ์ ๋๋ค.๐ ์ง์ Text ๋ฐ์ดํฐ๋ฅผ ๋ถ์ํ๋ ๊ณผ์ ๋ณ๋ก ์ด๋ค ๋ถํธํ ์ ์ด ์๋์ง ๊ฒฝํ๋ด์ ๋ค๋ ค์ฃผ์ธ์ :)๐จ๐ป ์ฃผ๊ด์์ ํฌํจํ ๋ชจ๋ ์ค๋ฌธ ํญ๋ชฉ์ ์ฑ์คํ๊ฒ ๋ต๋ณํด ์ฃผ์ ๋ชจ๋ ๋ถ๋ค๊ป ๋ค์ด๋ฒ ํ์ด ์ฟ ํฐ 10,000์์ ๋ฐ์กํด ๋๋ฆฝ๋๋ค๐ธ ๐ ์์์๊ฐ : 10๋ถ ๋ด์ธ๐ ์ฐธ์ฌ๊ธฐ๊ฐ : ~'24๋ 10์ 29์ผ 23์ 59๋ถ๊น์งโ ์ฟ ํฐ์ง๊ธ : ์ฐธ์ฌ ํ 72์๊ฐ ๋ด ์ฃผ1) ์ฃผ๊ด์ ๋ต๋ณ ๋ฏธ์์ฑ or ์ง๋ฌธ๊ณผ ๋ฌด๊ดํ ๋ต๋ณ ์ ์ฟ ํฐ ๋ฏธ๋ฐ์ก์ฃผ2) ๋ชฉํ ์ค๋ฌธ์๋ต ์ ๋ฌ์ฑ ์ ์ฐธ๊ฐ์ ๋ชจ์ง์ด ์กฐ๊ธฐ์ ์ข ๋ฃ๋๋ฉฐ ์ค๋ณต ์ฐธ์ฌ ๋ถ๊ฐ ๐ ์ค๋ฌธ ์ฐธ์ฌ ๋งํฌ : https://walla.my/v/mLImX8T0KzQL4Hwv5sjn?source=J7t8n Text ๋น ๋ฐ์ดํฐ..
๐จ๐ป 1. ๊ฐ์๋ณธ ํฌ์คํ ์์๋ ํ์ด์ฌ matplotlib.pyplot ํจํค์ง๋ฅผ ํ์ฉํ ์๊ฐํ ์๋ฃ ์ ์ฅ ์ ์๋ฃ ๋ด ๋ถํ์ํ ์ฌ๋ฐฑ์ ์ ๊ฑฐํ๋ ๋ฐฉ๋ฒ์ ๋ํด ๋ค๋ฃน๋๋ค.๐ค 2. ๋ฌธ์ ์ ์๋ (๊ทธ๋ฆผ 1)๊ณผ ๊ฐ์ด, matplotlib ์ต์ ์ค์ ์์ด ์๊ฐํ ์๋ฃ๋ฅผ ์ ์ฅํ๊ฒ ๋๋ฉด ๊ทธ๋ํ ์ฃผ๋ณ ์ฌ๋ฐฉ์ผ๋ก ๋ถํ์ํ ์ฌ๋ฐฑ์ด ๋ง์ ๊ฒ์ ํ์ธํ ์ ์์ต๋๋ค. ์ด๋ ๋ณด๊ณ ์๋ ๋์๋ณด๋ ๋ฑ์ ํ์ฉ ์ ๋ค๋ฅธ ์ฐจํธ๋ค๊ณผ์ ์ฌ๋ฏธ์ฑ ์๋ ์กฐํ๋ฅผ ๋ฐฉํดํ๋ ์์๊ฐ ๋๊ธฐ๋ ํฉ๋๋ค. [์์ ์ฝ๋ - savefig ๋ฉ์๋ ์ต์ ๋ฏธ์ค์ ]# ํจํค์ง ์ค์น ํ์ : pip install matplotlibimport matplotlib.pyplot as plt# ๊ทธ๋ํ ์์ฑplt.plot([1, 2, 3, 4])plt.ylabel('some nu..
๐ก ๋ค์ด๊ฐ๋ฉฐ ๋ณธ ํฌ์คํ ์์๋ ๋ฐ์ดํฐ๋ฅผ ์ ๋จ์๋ก ์นด์ดํ ํ๊ณ ์ด๋ฅผ ์๊ฐํํ๋ ๋ฐฉ๋ฒ์ ์๊ฐํฉ๋๋ค. 1. ํจํค์ง import import pandas as pd import numpy as np import matplotlib.pyplot as plt 2. ๋ฐ์ดํฐ์ ๋ถ๋ฌ์ค๊ธฐ ํฌ์คํ ์์ ์ฌ์ฉ๋๋ ๋ฐ์ดํฐ์ ์ ๊ณต์ ๊ฐ ๋ถ๊ฐํ์ค๋ ํ์ต ๋ชฉ์ ์ผ๋ก๋ง ๋ด์ฃผ์๊ธธ ๋ฐ๋๋๋ค. DATASET = pd.read_csv('./dataset_app_review.csv') DATASET.head() 3. ๋ฐ์ดํฐ ํ์ ํ์ธ DATASET.dtypes ์๋์ ๊ฐ์ด, ๋ ์ง ์ ๋ณด(date)๋ ํ์ฌ ์ ์ํ(int)์ ๋๋ค. ํธ๋ฆฌํ๊ฒ ๋ ์งํ ๋ฐ์ดํฐ๋ฅผ ์ฒ๋ฆฌํ๊ธฐ ์ํ์ฌ ์ด๋ฅผ datetime ํ์ ์ผ๋ก ๋ฐ๊ฟ์ค ํ์๊ฐ ์์ต๋๋ค. 4. ๋ฐ์ดํฐ ํ์ ๋ณ๊ฒฝ "์ฐ-..
๐ก ๋ค์ด๊ฐ๋ฉฐ Numpy ํจํค์ง์ where ํจ์๋ฅผ ์ฌ์ฉํ๋ฉด ๋ฐ์ดํฐํ๋ ์์์ ํน์ ์กฐ๊ฑด์ ๋ง๋ ์ธ๋ฑ์ค๋ฅผ ์ฐพ๊ฑฐ๋, ํด๋น ์ธ๋ฑ์ค์ ๊ฐ์ ์ฝ๊ฒ ๋ฐ๊ฟ ์ ์์ต๋๋ค. ๊ธฐ๋ณธ์ ์ผ๋ก numpy ํจํค์ง ์ค์น ๋ฐ import๋ ํ์์ ๋๋ค. !pip install numpy import numpy as np 1. ์กฐ๊ฑด์ ๋ง๋ ์ธ๋ฑ์ค ๋ฐํ ์๋์ ๊ฐ์ด ์กฐ๊ฑด๋ฌธ์ ์ ๋ ฅํ๋ฉด, ์กฐ๊ฑด์ ํด๋น๋๋ ์ธ๋ฑ์ค๋ฅผ ๋ฐํํฉ๋๋ค. np.where(์กฐ๊ฑด๋ฌธ) ์๋์ ๊ฐ์ ๋ฐ์ดํฐ์ ์ด ์์ ๋, THK ์นผ๋ผ ๋ด ๊ฐ์ด 30๋ณด๋ค ํฐ ๊ฐ์ ์ธ๋ฑ์ค๋ฅผ ์กฐํํด ๋ณด๋ฉด ์๋์ ๊ฐ์ต๋๋ค. np.where(30 < DATASET_RAW['THK']) 2. ์กฐ๊ฑด์ ๋ฐ๋ผ ๋ฐ์ดํฐ ์ธ์ฝ๋ฉ ์๋์ ๊ฐ์ด, ์กฐ๊ฑด๋ฌธ๊ณผ ํจ๊ป ์กฐ๊ฑด๋ฌธ์ด ์ฐธ ํน์ ๊ฑฐ์ง์ผ ๊ฒฝ์ฐ ๊ฐ๊ฐ ๋ฐ์ดํฐ๋ฅผ ๋ณํํ ๊ฐ์ ์ ๋ ฅํด ..
๐ Text ๋น ๋ฐ์ดํฐ๋ถ์ ํ๋ซํผ ๋ฒ ํํ ์คํธ ์ฐธ๊ฐ์ ๋ชจ์ง ์ค!(๋ค์ด๋ฒํ์ด 4๋ง ์ ์ ์ ์ง๊ธ) ๐ ์๋ ํ์ธ์, ์ฝ๋ฉ์ด ํ์ ์๋ AI/๋น ๋ฐ์ดํฐ ๋ถ์ All in One ํ๋ซํผ ๊ฐ๋ฐํ์ ๋๋ค.๐ ์ ํฌ ์๋น์ค๋ฅผ ์ฌ์ฉํด ๋ณด์๊ณ ๊ฒฝํ๋ด์ ๋ค๋ ค์ฃผ์ธ์ :)๐ธ ์ฐธ์ฌํด ์ฃผ์ "๋ชจ๋ " ๋ถ๋ค๊ป ๋ค์ด๋ฒํ์ด 4๋ง ์ ์ฟ ํฐ์ ์ง๊ธํด ๋๋ฆฝ๋๋ค.๐จ๐ป ์ฐธ์ฌ ํฌ๋ง ์ ์นดํกํ๋ฌ์ค์น๊ตฌ 1:1 ์ฑํ or ์ธ์คํ๊ทธ๋จ DM ๋ถํ๋๋ฆฝ๋๋ค :)๐ ์ฐธ์ฌ๊ธฐ๊ฐ : 11/25(์)~11/29(๊ธ) 11:00~21:00 ์ค ํ1 (1์๊ฐ 1ํ์)๐ ์ฐธ์ฌ์ฅ์ : ๊ฐ๋จ์ญ ์ธ๊ทผ ์คํฐ๋์นดํ ๋ฏธํ Room๐ ์์์๊ฐ : ์ด 40๋ถ ๋ด์ธ(์๋น์ค ์ฒดํ ๋ฐ ์ธํฐ๋ทฐ ํฌํจ)โ ์ฐธ๊ฐ์กฐ๊ฑด : Text ๋น ๋ฐ์ดํฐ ๋ถ์ ์ ๋ฌด ๊ฒฝํ์๐ ์ฐธ๊ฐ ๊ฐ๋ฅ์ผ์ ์กฐํํ๊ธฐ : ht..
๐ ๋ค์ด๊ฐ๋ฉฐ ๋ณธ ํฌ์คํ ์์๋ Boxplot๋ฅผ ํด์ํ๋ ๋ฐฉ๋ฒ์ ๋ํด ์์๋ด ๋๋ค. ์๋ ๊ทธ๋ฆผ 1๊ณผ ๊ฐ์ด ์ธ๋ก์ถ์ ํน์ ๊ฐ์ ๋ฒ์๋ฅผ ๋ํ๋ด๊ณ , ์ด ๋ฒ์ ๋ด์์ ๋ฐ์ดํฐ๋ ์ฃผ๋ก ํ๋์ ๋ฐ์ค ์์ ๋ถํฌํฉ๋๋ค. ํ๋์ ๋ฐ์ค ๊ฐ์ด๋ฐ ๋ ธ๋์ ์ง์ ์ผ๋ก ํ์ํ ๋ถ๋ถ์ด ๋ฐ์ดํฐ์ ์ค์๊ฐ(Median)์ด ๋ฉ๋๋ค. ๋ฐ์ค ์ต์๋จ์ ์ 3 ์ฌ๋ถ์์(Q3, 75th percentile), ์ตํ๋จ์ ์ 1 ์ฌ๋ถ์์(Q1, 25th percentile)์ ๋๋ค. ์ฌ๋ถ์์(Quantile)๋ ์ ์ฒด ๋ฐ์ดํฐ๋ฅผ ์ค๋ฆ์ฐจ์ ์ ๋ ฌํ ๋ค์ 25%์ฉ ๋์ผํ ๋น์จ๋ก ๋ฐ์ดํฐ๋ฅผ ๋๋ ๊ฒ์ ๋๋ค. ์ฆ, ์ 1 ์ฌ๋ถ์์(Q1)๋ ๊ฐ์ฅ ์์ ๋ฐ์ดํฐ๋ถํฐ ์ ์ฒด ์ค 25% ๋น์จ๋งํผ์ ๋ฐ์ดํฐ๋ฅผ(25%) ์๋ฏธํ๊ณ , ์ 3 ์ฌ๋ถ์์(Q3)๋ ์ค์๊ฐ(50%)์์๋ถํฐ 25% ๋น์จ๋งํผ์ ๋ฐ์ด..
๐ ๋ชฉ์ฐจ Update Log 1. ์ฃผ์ ๊ธฐ๋ฅ 2. ํฌ๋กฌ ์ค์น 3. ์ ์ฒด ์ฝ๋ 4. ํจํค์ง ์ค์น 5. ์ฝ๋ ์ค๋ช ๐ Update Log ๐ Version 1.0.1 @ 2022-10-11 (1) ์ฝํ ์ธ ์กฐํ์ ๋ฐ ์ ๋ก๋์ผ ์ถ์ถ ๋ก์ง ์ถ๊ฐ Heo Jin ๋ ์์ฒญ์ฌํญ์ผ๋ก ์ถ๊ฐ ๋ฐ ํ ์คํธ ์๋ฃํ์์ต๋๋ค. 1. ์ฃผ์ ๊ธฐ๋ฅ ๋ณธ ํฌ์คํ ์์๋ ์ ํ๋ธ ๊ฒ์ ๊ฒฐ๊ณผ ์ฝํ ์ธ ์ ์ ๋ณด๋ฅผ ์์งํ๋ Scraper๋ฅผ ๊ฐ๋ฐํฉ๋๋ค. โป Scrap์ด๋?('๋๋ณด๊ธฐ' ํด๋ฆญ) ๋๋ณด๊ธฐ Scrap[์คํฌ๋ฉ]์ ์น ํ์ด์ง์์ ํน์ ๋ฐ์ดํฐ๋ฅผ ๊ฐ์ ธ์ค๋ ํ๋์ ๋งํฉ๋๋ค. ์ด์ฒ๋ผ Data Scraping์ ํ๋ ํ๋ก๊ทธ๋จ์ Data Scraper ๋๋ Web Scraper๋ผ๊ณ ๋ถ๋ฆ ๋๋ค. (1) ์์ง ๋ฐ์ดํฐ ์ข ๋ฅ - ์ฝํ ์ธ ์ ๋ชฉ - ์ฝํ ์ธ ๋งํฌ - ์กฐํ์ - ์ ..
๋ค์ด๊ฐ๋ฉฐ PySpark, ๋ฐ์ดํฐ ๋ถ์/์์ง๋์ด๋ง ํน์ ์ธ๊ณต์ง๋ฅ ๋ถ์ผ์ ๊ด์ฌ ์์ผ์ ๋ถ๋ค์ ํ ๋ฒ์ฏค ๋ค์ด๋ณด์ จ์ ๊ธฐ์ ์คํ์ด์ฃ . ์ด๋ฒ ํฌ์คํ ์์๋ PySaprk์ ๊ฐ๋ ๊ณผ ์ฃผ์ ๊ธฐ๋ฅ์ ์ดํดํ ์ ์๋๋ก ์ ๋ฆฌํ๊ณ ์ ํฉ๋๋ค. 1. PySpark ๊ฐ๋ PySpark๋ Python ํ๊ฒฝ์์ Apache Spark๋ฅผ ์ฌ์ฉํ ์ ์๋ ์ธํฐํ์ด์ค์ ๋๋ค. ์ฆ, PySpark๋ Spark์ฉ API์ด๊ธฐ ๋๋ฌธ์ PySpark ๊ฐ๋ ์ ์ดํดํ๋ ค๋ฉด Spark์ ๋ํด ์ดํดํด์ผ ํฉ๋๋ค. Apache Spark ๊ฐ๋ Apache Spark๋ ๋์ฉ๋์ ๋ฐ์ดํฐ๋ฅผ ๊ณ ์์ผ๋ก, ํจ์จ์ ์ผ๋ก ์ฒ๋ฆฌํ๋ ๋น ๋ฐ์ดํฐ ๋ถ์ฐ์ฒ๋ฆฌ ํ๋ซํผ(Distributed Computing Platform)์ ๋๋ค. Apache Spark๋ ๋ฐ์ดํฐ๋ฅผ ํ๋๋์คํฌ๊ฐ ์๋ ๋ฉ๋ชจ๋ฆฌ์ ์บ..