[Python] 유튜브 콘텐츠 크롤러 코드 Version 1.0.1
·
AI & 빅데이터/데이터엔지니어링
📝 목차 Update Log 1. 주요 기능 2. 크롬 설치 3. 전체 코드 4. 패키지 설치 5. 코드 설명 🛠 Update Log 👏 Version 1.0.1 @ 2022-10-11 (1) 콘텐츠 조회수 및 업로드일 추출 로직 추가 Heo Jin 님 요청사항으로 추가 및 테스트 완료하였습니다. 1. 주요 기능 본 포스팅에서는 유튜브 검색 결과 콘텐츠의 정보를 수집하는 Scraper를 개발합니다. ※ Scrap이란?('더보기' 클릭) 더보기 Scrap[스크랩]은 웹 페이지에서 특정 데이터를 가져오는 행동을 말합니다. 이처럼 Data Scraping을 하는 프로그램을 Data Scraper 또는 Web Scraper라고 부릅니다. (1) 수집 데이터 종류 - 콘텐츠 제목 - 콘텐츠 링크 - 조회수 - 업..
PySpark 개념 및 주요 기능(+Apache Spark)
·
AI & 빅데이터/데이터엔지니어링
들어가며 PySpark, 데이터 분석/엔지니어링 혹은 인공지능 분야에 관심 있으신 분들은 한 번쯤 들어보셨을 기술 스택이죠. 이번 포스팅에서는 PySaprk의 개념과 주요 기능을 이해할 수 있도록 정리하고자 합니다. 1. PySpark 개념 PySpark는 Python 환경에서 Apache Spark를 사용할 수 있는 인터페이스입니다. 즉, PySpark는 Spark용 API이기 때문에 PySpark 개념을 이해하려면 Spark에 대해 이해해야 합니다. Apache Spark 개념 Apache Spark는 대용량의 데이터를 고속으로, 효율적으로 처리하는 빅데이터 분산처리 플랫폼(Distributed Computing Platform)입니다. Apache Spark는 데이터를 하드디스크가 아닌 메모리에 캐..
[Python] 구글 플레이 스토어 크롤러 코드 Version 2.0.3
·
AI & 빅데이터/데이터엔지니어링
안녕하세요! 오늘은 파이썬(주피터 노트북)을 기반으로 직접 코딩한 구글 플레이 스토어 웹 크롤러 코드를 공유합니다. 📝 목차 1. 업데이트 Log 2. 주요 기능 3. 전체 코드 4. 필수 초기 세팅 5. 코드 및 설명 1. 업데이트 Log * 미국(US) 구글 플레이 스토어 크롤러는 Github를 참고해 주시길 바랍니다. 📌 Last Updated @2022-08-24('더보기'로 확인가능✅) 더보기 미국 구글 플레이 스토어 크롤러 추가: Github 내 dev_us 브랜치 참고 Last Updated @2022-08-21 더보기 @K1ddong 님께서 selenium 버전에 따라 구문이 다르다는 사실을 공유해 주셨으며, 이러한 문제를 방지하고 패키지 dependency를 고려하기 위해 pipenv 가..
관계형 데이터베이스 관리 시스템(RDBMS)에 대해 알아보자!
·
AI & 빅데이터/데이터엔지니어링
관계형 데이터베이스 관리 시스템이란? RDBMDS(Relational Database Management System), 관계형 데이터베이스 관리 시스템은 말 그대로 관계형 데이터베이스를 유지보수하는 데 사용되는 프로그램입니다. 즉, RDBMS는 SQL 쿼리문을 활용해 데이터베이스 내 데이터를 생성, 업데이트, 삭제하는 프로그램이죠. 대중적으로 알려진 RDBMS 프로그램으로는 MySQL, Oracle, PostgreSQL, SQLite, Microsoft SQL Server 등이 있습니다. 데이터베이스 테이블이란? 데이터베이스 테이블(Database Table)은 행(row)과 열(column)로 구성된 데이터 묶음입니다. 데이터베이스는 여러 테이블을 포함합니다. 하나의 열은 데이터에 대한 구체적인 정보..
파이썬 기반 구글 플레이 스토어 웹 크롤러 개발하기 Version1
·
AI & 빅데이터/데이터엔지니어링
필독! 안녕하세요, 구글 플레이 스토어 웹 페이지 구조가 변경됨에 따라 현재 포스팅에 업로드한 크롤러는 작동하지 않습니다. 개편된 웹 페이지 구조를 고려하여 크롤러를 업데이트하였습니다. 아래 포스팅을 참고해 주세요! 감사합니다. https://heytech.tistory.com/293 [Python] 구글 플레이 스토어 웹 크롤러 코드 Version2 안녕하세요! 오늘은 파이썬(주피터 노트북)을 기반으로 직접 코딩한 구글 플레이 스토어 웹 크롤러 코드를 공유합니다. 📝 목차 1. 업데이트 Log 2. 주요 기능 3. 전체 코드 4. 필수 초기 세팅 5. heytech.tistory.com 안녕하세요! 오늘은 파이썬(주피터 노트북)을 기반으로 직접 코딩한 구글 플레이 스토어 웹 크롤러 코드를 공유합니다. ..
Tony Park (토니)
'AI & 빅데이터/데이터엔지니어링' 카테고리의 글 목록