데이터는 명명된 열로 분산된 데이터 컬렉션으로 구성됩니다. 우리는 스파크 데이터 프레임에 호출합니다. 기본적으로 관계형 데이터베이스의 테이블이나 R의 데이터 프레임과 동일합니다. 또한 다양한 소스에서 DataFrame을 생성할 수 있습니다. 예를 들어 구조화 된 데이터 파일, Hive의 테이블, 외부 데이터베이스. 또한 기존 로컬 R 데이터 프레임은 구성에 사용됩니다. SparkR은 예제 / src / 메인 / r 디렉토리에 여러 샘플 프로그램과 함께 제공됩니다. 그 중 하나를 실행하려면 ./bin/spark-제출 사용합니다. 예: 후드 아래에서 SparkR은 MLlib를 사용하여 모델을 학습합니다. 예를 들어 MLlib 사용자 가이드의 해당 섹션을 참조하십시오. 사용자는 요약을 호출하여 피팅된 모델의 요약을 인쇄하고, 새 데이터에 대한 예측을 예측하고, write.ml/read.ml 저장/로드형 모델을 저장할 수 있습니다. SparkR은 `~`, `.`, `:`, `+` 및 `-`를 포함하여 모델 피팅에 사용할 수 있는 R 수식 연산자의 하위 집합을 지원합니다.

R 프로그램을 R 셸의 MapR 클러스터에 연결하는 다양한 사용 사례가 있는 몇 가지 예는 다음과 같습니다. SPARK_HOME을 설정하고, R 패키지를 로드하고, 필요한 인수를 전달하는 sparkR 세션을 만들고, 프로그램을 실행합니다. 데이터 프레임을 만드는 가장 간단한 방법은 로컬 R 데이터 프레임을 SparkDataFrame으로 변환하는 것입니다. 구체적으로, 사용할 수 있습니다. 데이터 프레임 또는 생성DataFrame 및 SparkDataFrame을 만들기 위해 로컬 R 데이터 프레임에 전달합니다. 예를 들어, 다음은 R. SparkDataFrames의 충실한 데이터 집합을 사용하여 SparkDataFrame 기반의 생성으로 구조화된 데이터 처리를 수행하는 여러 기능을 지원합니다. 여기에는 몇 가지 기본 예제가 포함되어 있으며 API 문서에서 전체 목록을 찾을 수 있습니다. 내 게시물을 읽어 주셔서 감사합니다, 당신은 질문이있는 경우 아래의 코멘트 섹션에 코멘트를 남겨주세요.

다음 예제에서는 SparkR에서 MLlib 모델을 저장/로드하는 방법을 보여 주며 있습니다. 기본적으로 구조화 된 데이터 처리를 위해 SparkDataFrames는 여러 기능을 지원합니다. 몇 가지 기본적인 예는 다음과 같습니다: spark.kstest: 콜모고로프-스미르노프 테스트 기본적으로, SparkR은 MLlib를 사용하여 모델을 훈련합니다. 또한 사용 가능한 R 수식 연산자의 하위 집합을 지원합니다. 예를 들어 모델 피팅(예: `~`, `.`,`:`,`+` 및 `-`를 포함). 데이터 소스 API를 사용하여 SparkDataFrame을 여러 파일 형식으로 저장할 수도 있습니다. 예를 들어 write.df를 사용하여 이전 예제의 Parquet 파일에 SparkDataFrame을 저장할 수 있습니다. 이 페이지의 모든 예제는 R 또는 스파크 배포에 포함된 샘플 데이터를 사용하며 ./bin/sparkR 셸을 사용하여 실행할 수 있습니다.

SparkDataFrame 인터페이스를 통해 SparkR은 다양한 데이터 소스에서 작동할 수 있습니다. 기본적으로 SparkDataFrames를 만들려면 데이터 원본의 일반적인 방법이 read.df입니다. 일반적으로 이 메서드는 파일을 로드하는 경로를 가져옵니다. 또한 데이터 원본 의 유형과 현재 활성 SparkSession이 자동으로 사용됩니다. 또한, 그것은 기본적으로 JSON, CSV 및 마루 파일을 읽고 지원합니다. 또한 두 가지 조건을 지정하여 이러한 패키지를 추가할 수 있습니다. 예를 들어, 스파크 제출 또는 해당 명령이 있는 패키지인 경우. 그렇지 않으면 스파크 패키지 매개 변수를 사용 하 고 SparkSession을 초기화 하는 경우.

대화형 R 셸 또는 RStudio에서. sparkR.session (sparkPackages = “com.databricks:spark-avro_2.11:3.0.0”) 기본적으로 예제 JSON 입력 파일을 사용하여 데이터 원본을 사용하는 방법을 보았습니다. 여기에 사용되는 파일은 일반적인 JSON 파일이 아니지만. 기본적으로 파일의 각 줄에는 별도의 유효한 JSON 개체가 포함되어야 합니다. 예를 들어 Maven으로 스파크를 빌드하고 -Psparkr 프로파일을 포함하여 R 패키지를 빌드합니다. 예를 들어 기본적으로 실행할 수 있는 기본 Hadoop 버전을 사용 하려면 SparkR 함수 수를 제공 합니다. 또한 데이터 처리 및 집계 중에 열에 직접 적용할 수 있습니다. 하지만, 여기 예는 기본 산술 함수의 사용을 보여줍니다.