RDD RDD는 Resilient Distributed Dataset의 줄임말로 스파크의 기본 데이터 구조이다. 분산 변경 불가능한 객체 모음이며, 스파크의 모든 작업은 새로운 RDD를 만들거나 존재하는 RDD를 변형하거나 결과 계산을 위해 RDD에서 연산하는 것을 표현하고 있다. Create RDD RDD를 생성하는 법은 3가지가 있다. 직접 생성 parallelize() 함수를 이용한 RDD 생성 parallelize(c, numClices=None) 기능 : RDD로 구성해줌. C : Interables, numSlices : 분할할 갯수 createDataFrame() 함수를 이용한 RDD 생성 기존데이터를 이용한 생성 read and load를 이용한 RDD 생성 Example paralleli..