목록2022/02/13 (1)
Hey Tech
PySpark 개념 및 주요 기능(+Apache Spark)
들어가며 PySpark, 데이터 분석/엔지니어링 혹은 인공지능 분야에 관심 있으신 분들은 한 번쯤 들어보셨을 기술 스택이죠. 이번 포스팅에서는 PySaprk의 개념과 주요 기능을 이해할 수 있도록 정리하고자 합니다. 1. PySpark 개념 PySpark는 Python 환경에서 Apache Spark를 사용할 수 있는 인터페이스입니다. 즉, PySpark는 Spark용 API이기 때문에 PySpark 개념을 이해하려면 Spark에 대해 이해해야 합니다. Apache Spark 개념 Apache Spark는 대용량의 데이터를 고속으로, 효율적으로 처리하는 빅데이터 분산처리 플랫폼(Distributed Computing Platform)입니다. Apache Spark는 데이터를 하드디스크가 아닌 메모리에 캐..
AI & 빅데이터/데이터 엔지니어링
2022. 2. 13. 14:58