Apache Spark – RDD Yapısı

Bu bölümde Apache Spark küüphanesinde bulunan RDD yapısını inceleyeceğiz

RDD( resilient distributed dataset) genel olarak Spark cluster üzerinde veriler üzerinde hesaplamalar yapmamızı sağlayan bir bileşendir.Aynı zamanda verileri diğer sistemleri aktarabiliriz

Örnek verirsek alttaki kod yapısı; okuduğumuz dosyanın kaç satır olduğunu cluster üzerinde hesaplar

Okumaya devam et “Apache Spark – RDD Yapısı”

Please follow and like us:

Apache Spark Mimarisi

Bu bölümde Apache Spark mimarisi hakkında bilgiler vereceğiz

Apache Spark Nedir bölümünde Spark ile ilgili özet bilgiler vermiştik. Şimdi biraz daha detaya girelim

spark-cluster
spark-cluster

Apache Spark birden fazla makine üzerinde büyük verileri analiz eder.Bu sayede tek bir makine üzerinde işlem yapmak yerine birden fazla makine kullanarak daha hızlı sonuç alabiliriz.Eğer yaptığımız işlemlerden yeterli performans alamıyorsak makine sayısını rahatlıkla artırabiliriz(ölçeklenebilirlik)

Okumaya devam et “Apache Spark Mimarisi”

Please follow and like us:

Apache Pig – UDF(User Defined Functions)

Bu bölümde Apache Pig ile UDF örneği inceleyeceğiz

Apache Pig ile büyük veriler üzerinde analiz işlemleri yaparken Pig fonksiyonlarının ihtiyaçlarımızı görmediği durumlarda java kodları geliştirebiliriz.Bu kodları pig içerisinden çağırabiliriz

Örnek log

Maven projesi oluşturup alttaki kodları ekleyelim

Okumaya devam et “Apache Pig – UDF(User Defined Functions)”

Please follow and like us:

Apache Pig – Join

Bu bölümde Apache Pig ile join işlemlerini inceleyeceğiz

JOIN

JOIN ile iki yada daha fazla log verisini belirli alanlara göre birleştirebiliriz

Name Age Dept_Id
John 27 1
David 30 2
Peter 29 3
Dept_Id Dept_Name
1 Sales
2 Marketing
3 Engineering

Okumaya devam et “Apache Pig – Join”

Please follow and like us:

Apache Pig – Fonksiyonlar

Bu bölümde Apache Pig kütüphanesinde bulunan AVG, CONCAT, COUNT, MIN, MAX, SUM gibi fonksiyonlar hakkında bilgiler vereceğiz

Öncelikle HDFS’e örnek verilerimizi yükleyelim

Örnek veri

Okumaya devam et “Apache Pig – Fonksiyonlar”

Please follow and like us:

Apache Pig – İlişkisel Operatörler

Bu bölümde Apache Pig ile DISTINCT, FILTER, GROUP ve FOREACH fonksiyonları hakkında bilgiler verip , örnekler yapacağız

DISTINCT fonksiyonu

Aynı bilgilere sahip kayıtları silmeye yarar

Veri

Okumaya devam et “Apache Pig – İlişkisel Operatörler”

Please follow and like us: