[SPARK] Spark 세부 동작(Transformation, Action) 이전 글에서는 spark의 기본적인 개념과 아키텍쳐, 대략적인 동작 과정을 살펴 보았습니다. 이번 글에서는 Spark의 세부 동작 과정의 중요 개념인 Transformation, Action과 Executor memory 구조에 대해서 살펴 볼 예정입니다. Spark 동작 과정 RDD(Resilient Distributed Datasets) Spark의 Transformation, Action 과정을 설명하기 전에 Spark의 기본적인 데이터구조인, RDD(Resilient Distributed Datasets)에 대해 간단한 설명이 필요합니다. RDD는 spark에서의 데이터구조이고, 쉽게 말해 데이터들의 집합이라고 생각하면 편할 것 같습니다. RDD라는 데이터 집합은 partition이라는 논리적 분.. 2024. 1. 6. [SPARK] Spark 개념 정리 및 Architecture 해당 글에서는 spark를 관리/운영해보면서 자세히 알지 못했던 부분, 그리고 경험적으로 알게된 내용들을 정리하고 공유하는데 목적이 있습니다. 따라서, spark의 기본적인 개념들을 보다 쉬운 언어로 설명하고, 동작 원리를 직관적으로 정리할 예정입니다. Spark 개념 및 아키텍쳐 Spark 배경 우선, spark가 왜 탄생하게 되었는지를 한마디로 설명하면, "Hadoop의 mapreduce의 한계를 극복하기 위해"입니다. hadoop의 M/R(MapReduce)는 대량의 데이터를 처리할 수 있게 한다는 것에서 큰 의미가 있지만, 실제 execute engine으로 M/R을 사용해보신 분 들은 아시겠지만 Map과 Reduce 사이의 중간 데이터를 HDFS에 Write 후에 Reduce 과정에서 다시 Re.. 2024. 1. 6. 이전 1 2 다음