Apache Spark – Dataset Encoder Kullanımı

Bu bölümde Dataset Encoder Kullanımı genel bilgiler vereceğiz

Java nesnelerinin network üzerinden iletilmesini sağlamak için serileştirme(Serialization) işlemi yapmamız gerekir.Bunun için Spark’da Encoder sınıfını kullanabiliriz

Öncelikle alttaki veri kümesini bilgisayarımıza indirelim

spark_data

Bu veri kümesinde alttaki gibi json tipinde bir veri yapısı bulunmaktadır

spark-veri-json
spark-veri-json

Bu veri yapısını alttaki gibi bir nesne modelinde saklayabiliriz

Bu nesne modelinden Dataset oluşturmak için bir Encoder yapısına ihtiyacımız vardır. Formatlı verilerde bu oldukça basittir(json gibi)

Alttaki örnekte Person nesnelerinden Dataset oluşturulmuştur

Örnek sql sorgusu

 

Integer,Long,Double .. gibi genel veri tipleri için Encoder sınıfında metodlar bulunmaktadır

spark-encoder-double
spark-encoder-double

Okuduğumuz json dosyalarını Encoder nesnesi ile parse edilmiş bir şekilde alabiliriz

Örnek kod

 

Tüm listeyi şu şekilde dolaşabiliriz

 

Bu bölümde Spark Encoder ile nesneleri serileştirme işlemleri yaptık.Diğer büyük veri yazıları için sitemizi takip edebilirsiniz


Bizi takip edebileceğiniz sosyal medya platformları

–> Facebook –> Linkedin  -> Twitter)

 

Please follow and like us:

Yazar: serkan sakınmaz

serkansakinmaz@gmail.com

Bir Cevap Yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir