Apache Spark – RDD Yapısı

Bu bölümde Apache Spark küüphanesinde bulunan RDD yapısını inceleyeceğiz

RDD( resilient distributed dataset) genel olarak Spark cluster üzerinde veriler üzerinde hesaplamalar yapmamızı sağlayan bir bileşendir.Aynı zamanda verileri diğer sistemleri aktarabiliriz

Örnek verirsek alttaki kod yapısı; okuduğumuz dosyanın kaç satır olduğunu cluster üzerinde hesaplar

Buradaki kod yapısında RDD yapısındaki count ve first metodunu kullanıyoruz.

RDD nasıl oluşturulur?

Local bilgisayardan dosya ile

hdfs üzerinden

sıkıştırılmış dosyalar

parallelize() methodu ile

Bu metod genel olarak Spark öğrenmeye başlarken kullanışlı olabilir.Verileri parametre olarak verebiliriz ve bu veriler cluster üzerinde dağıtılır

RDD Operasyonları

RDD operasyonları genel olarak 2 bölüme ayrılır.

transformasyon(transformations)

Bu işlemde mevcut RDD üzerinden yeni bir RDD oluşturulur.Örnek verirsek map ve filter metodlarından yeni RDD oluşturabiliriz  

Alttaki örnekte filter metodu yeni bir RDD oluşturuyor

 

aksiyon(actions)

Bu işlemde RDD üzerinden hesaplama,dış sistemlere verileri kaydetme işlemleri yapılır. Örnek olarak count,first metodları örnek verilebilir

Alttaki örnekte take metodu ile ilk 2 kayıt List yapısında gösteriliyor . Benzer şekilde collect metodu ise tüm verileri cluster üzerinden toplamaya yarar

 

Lazy Evaluation kavramı

Apache Spark mimarisinde transformasyon işlemlerinde herhangi bir aksiyon alınmaz.Spark count,first,take gibi bir action metodu gördüğü zaman işlemleri başlatır.

indir

Fonksiyonlar

Spark ile map,filter gibi metodları kullanırken metoda parametre olarak bir fonksiyon vermemiz gerekir(passing functions)

Alttki gibi iki formatta kullanabiliriz

Bu bölümde Apache Spark ile RDD yapısını inceledik. Diğer büyük veri(Big Data) yazıları için sitemizi takip edebilirsiniz


Bizi takip edebileceğiniz sosyal medya platformları

–> Facebook –> Linkedin  -> Twitter

Sorularınız için Big Data grubumuz (-> Facebook group)

Online eğitimler için sitemizi takip edebilirsiniz

 

Please follow and like us:

Yazar: serkan sakınmaz

serkansakinmaz@gmail.com

Bir Cevap Yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir