loading
본문 바로가기

반응형
Skill-UP/Spark 4
반응형

[Spark] Spark DataFrame 개념 정리! 안녕하세요. 저번 시간, Spark RDD에 이어, 스파크의 두번째 데이터 구조인 DataFrame 으로 돌아온, 개발자 김모씨입니다. 혹시 스파크의 가장 기본적인 데이터 구조인 RDD를 설명하는 포스팅을 아직 보지 않으신 분들은(!) 얼렁 다녀오시죠! artist-developer.tistory.com/17 [Spark] Spark RDD(Resillient Distributed Data)란? 안녕하세요. RDD란? 이라는 글로 돌아온, 개발자 김모씨입니다. 오늘은 스파크의 데이터 구조인 RDD에 대해 알아볼 건데요. 스파크는 기본적으로 RDD들의 흐름에 의해 동작한다고 보시면 됩니다. �� artist-developer.tistory.com 저번 포스팅에서 스파크의 데이터 구조는 크게 - RDD (R.. 2020. 9. 18.
[Spark] Spark RDD(Resillient Distributed Data)란? 안녕하세요. RDD란? 이라는 글로 돌아온, 개발자 김모씨입니다. 오늘은 스파크의 데이터 구조인 RDD에 대해 알아볼 건데요. 스파크는 기본적으로 RDD들의 흐름에 의해 동작한다고 보시면 됩니다. 스파크가 무엇인지, 스파크의 구조는 어떤지 저번 글을 읽지 않으셔서 아직 모르시는 분들(!)은 얼렁 가서 훑고 오시죠! [Spark] Apache Spark(아파치 스파크)란? 빅데이터 빅데이터 빅데이터.... 뉴스에서고, 채용공고에서고 연일 화두에 오르는 키워드이다. 특히 이 글을 보는 당신이 컴공이라면, 마치 족쇄마냥 우리의 진로를 고민하게 만드는 단어일 것�� artist-developer.tistory.com 스파크의 데이터 구조는 크게 - RDD (Resillient Distributed Data) -.. 2020. 9. 15.
[Spark] 스파크 구조 및 실행 과정 스파크는 크게 보면 스파크 어플리케이션과 클러스터 매니저로 구성되어 있다. 스파크 어플리케이션은 실제 일을 수행하는 역할을 담당하며, 클러스터 매니저는 스파크 어플리케이션 사이에 자원을 중계해주는 역할을 담당한다. 스파크 어플리케이션(Spark Application) 먼저 스파크 어플리케이션부터 살펴보자. 스파크 어플리케이션은 Driver 프로세스와 익스큐터 프로세스로 구성된다. Spark Driver는 한 개의 노드에서 실행되며, 스파크 전체의 main() 함수를 실행한다. 어플리케이션 내 정보의 유지 관리, 익스큐터의 실행 및 실행 분석, 배포 등의 역할을 수행한다. 사용자가 구성한 사용자 프로그램(Job)을 task 단위로 변환하여, Executor로 전달한다. Executer는 다수의 worker.. 2020. 9. 8.
[Spark] Apache Spark(아파치 스파크)란? 빅데이터 빅데이터 빅데이터.... 뉴스에서고, 채용공고에서고 연일 화두에 오르는 키워드이다. 특히 이 글을 보는 당신이 컴공이라면, 마치 족쇄마냥 우리의 진로를 고민하게 만드는 단어일 것이다. 본 시리즈는 그대의 고민을 해결코자! 빅데이터하면 가장 먼저 떠오르는, 아파치 스파크에 대한 Guide를 제공할 것이다! 빅데이터 분산처리 플랫폼 아파치 스파크를 한 마디로 정의하자면, "빅데이터 처리를 위한 오픈소스 분산 처리 플랫폼", 또는 "빅데이터 분산 처리 엔진" 정도로 표현할 수 있다. 여기서 빅데이터란, "기존 데이터베이스 관리도구의 능력을 넘어서는 대량 의 정형 또는 심지어 데이터베이스 형태가 아닌 비정형의 데이터 집합조차 포함한 데이터로부터 가치를 추출하고 결과를 분석하는 기술"(위키피디아 발췌) .. 2020. 9. 7.