Apache Spark – RDD Action Metodları

Bu bölümde RDD action metodları hakkında genel bilgiler vereceğiz

Örnekler için http://grouplens.org/datasets/movielens/  adresinden veri indirebiliriz

Action metotları genel olarak Spark verileri üzerinde hesaplama yada dış sistemlere veri aktarma işlemleri yapmamızI sağlar

spark-actions
spark-actions

Metodlar

count

RDD,Dataset içerisindeki kayıt sayısını verir

collect

Worker makineleri üzerinde bulunan veriler driver programında ArrayList veri yapısında toplanır.

spark-collect
spark-collect

first

RDD,Dataset içerisindeki ilk kaydı verir

take

RDD ve Dataset içerisinden parametre olarak verilen sayı kadar kayıt verir(ilk n kayıt)

takeSample

RDD ve Dataset içerisinden parametre olarak verilen sayı kadar örnek kayıt verir

saveAsTextFile

Local bilgisayar sistemine yada HDFS’e veri kaydetmemizi sağlar

reduce

Farkı makinelerde bulunan verileri, belirli bir kurala göre bir araya getirmemizi sağlar.Örnek verirsek WordCount uygulamasında farklı mapper larda hesaplanan key-value değerleri reduce metodu ile toplanır

takeOrdered

RDD ve Dataset içerisindeki verileri belirli bir sıralamaya göre getirir. Verdiğimiz parametre ise kaç tane kayıt getirileceğini belirtir.

Alttaki örnekte kelimeler içerisindeki harf sayısına göre sıralama yapılmıştır

countByKey

PairRDD içerisinde bulunan key-value çiftlerinden key değerlerini gruplayarak value değerlerinin toplamını bulur.

foreach(func)

Bir metodun(fonksiyonun) tüm RDD ve Dataset elemanları için çalıştırılmasını sağlar

Bu bölümde Apache Spark RDD Action Metodlarını inceledik. Diğer Big Data yazıları için sitemizi takip edebilirsiniz


Bizi takip edebileceğiniz sosyal medya platformları

–> Facebook –> Linkedin  -> Twitter

Sorularınız için Big Data grubumuz (-> Facebook group)

Online eğitimler için sitemizi takip edebilirsiniz

 

Please follow and like us:

Yazar: serkan sakınmaz

serkansakinmaz@gmail.com

Bir cevap yazın