Bu bölümde Apache Spark küüphanesinde bulunan RDD yapısını inceleyeceğiz
RDD( resilient distributed dataset) genel olarak Spark cluster üzerinde veriler üzerinde hesaplamalar yapmamızı sağlayan bir bileşendir.Aynı zamanda verileri diğer sistemleri aktarabiliriz
Örnek verirsek alttaki kod yapısı; okuduğumuz dosyanın kaç satır olduğunu cluster üzerinde hesaplar
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 |
package com; import org.apache.spark.api.java.JavaRDD; import org.apache.spark.api.java.JavaSparkContext; public class RDD1 { public static void main(String[] args) { JavaSparkContext jsc = new JavaSparkContext("local", "Count files"); JavaRDD<String> rdd = jsc.textFile("C:\\Users\\Serkan\\Desktop\\test.txt"); System.out.println("Count : " + rdd.count()); System.out.println("First : " + rdd.first()); } } |
Okumaya devam et “Apache Spark – RDD Yapısı”