Apache Spark

Bu bölümde popüler Big Data kütüphanelerinden Apache Spark  uygulamalı olarak anlatılacaktır

seminer

Spark Core ve Spark SQL

Apache Spark Nedir ? 

Apache Spark Mimarisi

Apache Spark ile Eclipse ortamında proje oluşturma

Apache Spark RDD Yapıları

Apache Spark RDD Transformation Yapıları

Apache Spark RDD Action Metodları

Apache Spark SQL

Apache Spark Encoder Kullanımları

Apache Spark Mysql Bağlantısı

Apache Spark ile JSON,CSV,Avro,Parquet Entegrasyonu

Apache Spark ile Hive Entegrasyonu

Okumaya devam et “Apache Spark”

Please follow and like us:

Apache Spark – RDD Dönüşüm(Transformations) Metodları

Bu bölümde RDD Dönüşüm(Transformations) fonksiyonları hakkında genel bilgiler vereceğiz

RDD Mimarisi bölümünde RDD hakkında genel bilgiler vermiştik. Çok detaylı olmasa da bazı fonksiyonları denemiştik.Şimdi ise bu fonksiyonları detaylıca inceleyelim

Örnekler için http://grouplens.org/datasets/movielens/  adresinden veri indirebiliriz

Dönüşüm(transformations) Metodları

Bu metodların en önemli özellikleri, mevcut RDD üzerinden yeni bir RDD dönüşümü yapmasıdır

map

Yeni bir RDD oluşturmak için kullanılır.Örnek verirsek film(movie) verileri  alttaki formatta indirilir

Okumaya devam et “Apache Spark – RDD Dönüşüm(Transformations) Metodları”

Please follow and like us:

Apache Spark – RDD Yapısı

Bu bölümde Apache Spark küüphanesinde bulunan RDD yapısını inceleyeceğiz

RDD( resilient distributed dataset) genel olarak Spark cluster üzerinde veriler üzerinde hesaplamalar yapmamızı sağlayan bir bileşendir.Aynı zamanda verileri diğer sistemleri aktarabiliriz

Örnek verirsek alttaki kod yapısı; okuduğumuz dosyanın kaç satır olduğunu cluster üzerinde hesaplar

Okumaya devam et “Apache Spark – RDD Yapısı”

Please follow and like us:

Spark üzerinde Machine Learning Kütüphaneleri Kullanılarak Fraud Kontrolü Nasıl Yapılır ?

Merhabalar ,

Bu yazımda Fraud,Anomaly detection hakkında genel bilgiler vereceğim , sonrasında ise Apache Spark ile Machine Learning kullanan bir proje paylaşacağım .

Öncelikle Fraud a giriş yapalım

card-fraud

Birçok endüstri (bankacılık , sigortacılık , network security ..) alanında  anormal davranışlara rastlanılabilir . Bunlar kredi kartlarındaki sahtecilik  , sigorta poliçelerinde sahtecilik , network üzerinde anormal paket alışverişleri veya potansiyel ataklar olabilir . Bu tip durumlar fraud , anomaly detection isimlendirmeleriyle kullanılabilir ve her sektörde kendine özgü çok farklı sorunlara yol açabilir (maddi zararlar , itibar kayıpları .. )

card_fraud_worldwide

Şimdi çok konuyu dağıtmadan network verileri üzerinden basit bir şekilde Fraud analizi yapalım

Kullandığımız genel bileşenler şunlar

  • Apache Spark : Birden fazla makinede paralel veri işlememizi sağlayan açık kaynak kodlu kütüphane
  • Apache Kafka : Akan veriyi dış sistemlerden alarak belirli sürelerde tutmamızı ve diğer sistemlere (HDFS , Spark .. ) iletebilmemizi sağlayan açık kaynak kodlu kütüphanedir
  • K-means  Algoritması : Verileri daha küçük kümelere ayırmamızı sağlayan algoritmadır . Günümüzde kredi kartı fraud detection ve network security üzerinde anormal davranışlarda bu algoritmayı kullanabilirz

Alttaki resimde görüldüğü gibi veriler K-means algoritması ile önce kümelenir ve küme merkezlerinden uzakta olan veriler anormal data olarak nitelendirilebilir. Aslında kümeleme dediğimiz kavram benzer verileri bir araya getirmektir .

anomaly_detection

 

Genel mimari 

 

  • Örnek veri : KDD Cup 1999 Data
  • Network verileri Apache Kafka ile toplanır . Fakat geliştirdiğim uygulamada  verileri local makina üzerinden kopyaladım
  • Verilerin bazı alanları üzerinde ortalama(mean) ve standart sapma(deviation) hesaplanarak normalizasyon yötemi uygulanır
  • Apache Spark  ile Machine Learning Kütüphanesi (MLib) kullanılarak K-means kümeleme modeli oluşturulur . Bu model akan veri ve batch veri toplanarak oluşturulur . Akan veri ile bu modeli sürekli yenileyerek modelimizi güncel tutmayı sağlamış oluruz (Machine learning)
  • Oluşturulan modele bir veriyi sorduğumuzda bize anormal data olup olmadıgı bilgisini verebilir ama kesinlik yoktur

Projeyi adım adım uygulamak için alttaki linki takip ediniz

Using Spark for Anomaly (Fraud) Detection (K-means clustering)


Bizi takip edebileceğiniz sosyal medya platformları

–> Facebook –> Linkedin  -> Twitter

Eğitimler için sitemizi takip edebilirsiniz

Please follow and like us: