Apache Kafka Nedir ?

Apache Kafka Nedir? 

Büyük verileri etkin bir şekilde kullanabilmek için iki önemli faktör karşımıza çıkar. Bunlar sırasıyla

  • Büyük verileri toplamak
  • Büyük verileri analiz etmek

Büyük veri bloklarını hatasız ve hızlı bir biçimde toplayıp, diğer sistemlere transfer edebilmek için bir mesajlaşma sistemine(queue) ihtiyacımız vardır . Bu noktada Apache Kafka , akan verileri bir  queue (mesaj kuyruğu) içerisine atarak; Hadoop, Spark, Elasticsearch gibi diğer sistemlere transfer etmemizi sağlar

kafka nedir

Okumaya devam et “Apache Kafka Nedir ?”

Please follow and like us:

Big Data Eğitim

Bu eğitim yaklaşık 3 ay sürecek olup , temel programlama bilgisine sahip katılımcıların uygulamalı olarak Hadoop, NoSQL, Spark, Kafka, MongoDB, ElasticSearch gibi Big Data teknolojilerini öğrenmesi için tasarlanmıştır.Büyük veriler üzerinde çalışma deneyimine sahip eğitmenler tarafından bu eğitimi alacaksınız

big data eğitim

Okumaya devam et “Big Data Eğitim”

Please follow and like us:

Büyük Verilerinizi Hadoop’a Nasıl Aktarabilirsiniz ?

Büyük Verileri Hadoop ‘ a Nasıl Aktarabiliriz  ? 

Dış sistemlerden topladığınız verileri Hadoop üzerinde analiz edebilmek için öncelikle verileri Hadoop a taşımamız gerekir . Bu noktada aşağıdaki yöntemleri tercih edebiliriz

  • Local bilgisayardan Hadoop a veri kopyalama ,
  • Hadoop  Sandbox ile ,
  • Spark üzerinden ,
  • Veritabanı üzerinden ,
  • Storm üzerinden ,
  • Kafka üzerinden

Şimdi bunları biraz daha detaylı inceleyelim

Okumaya devam et “Büyük Verilerinizi Hadoop’a Nasıl Aktarabilirsiniz ?”

Please follow and like us:

Hadoop Sandbox Kurulumu

Hadoop Sandbox Kurulumu

Local bilgisayarlarımızda büyük verileri analiz edebilmek için çeşitli kütüphaneler kurmamız gerekir . Büyük veri analizine yeni başlayanlar için  Hadoop , Pig , Hive , Oozie , Spark , Kafka  kurulumu yapmak zahmetlidir .  İşte bu noktada Hortonworks Hadoop Sandbox kurulumu yapıp kolayca Hadoop , Spark , Pig , Hive .. gibi kütüphaneleri kullanabiliriz

Hortonworks ,  Hadoop gibi teknolojileri kullanabileceğimiz bir platform sunmaktadır

v10

Okumaya devam et “Hadoop Sandbox Kurulumu”

Please follow and like us:

Hadoop Nedir ?

Hadoop Nedir ? 

Hadoop , büyük veri kümeleri ile birden fazla makinada paralel olarak işlem yapmamızı sağlayan Java ile yazılmış açık kaynak kodlu kütüphanedir .

hadoop-cluster

 

Hadoop büyük verileri birden fazla makinada saklar ve yönetir .

Hadoop Büyük Verileri Nasıl Saklar ? HDFS Nedir ? 

Okumaya devam et “Hadoop Nedir ?”

Please follow and like us:

Spark üzerinde Machine Learning Kütüphaneleri Kullanılarak Fraud Kontrolü Nasıl Yapılır ?

Merhabalar ,

Bu yazımda Fraud,Anomaly detection hakkında genel bilgiler vereceğim , sonrasında ise Apache Spark ile Machine Learning kullanan bir proje paylaşacağım .

Öncelikle Fraud a giriş yapalım

card-fraud

Birçok endüstri (bankacılık , sigortacılık , network security ..) alanında  anormal davranışlara rastlanılabilir . Bunlar kredi kartlarındaki sahtecilik  , sigorta poliçelerinde sahtecilik , network üzerinde anormal paket alışverişleri veya potansiyel ataklar olabilir . Bu tip durumlar fraud , anomaly detection isimlendirmeleriyle kullanılabilir ve her sektörde kendine özgü çok farklı sorunlara yol açabilir (maddi zararlar , itibar kayıpları .. )

card_fraud_worldwide

Şimdi çok konuyu dağıtmadan network verileri üzerinden basit bir şekilde Fraud analizi yapalım

Kullandığımız genel bileşenler şunlar

  • Apache Spark : Birden fazla makinede paralel veri işlememizi sağlayan açık kaynak kodlu kütüphane
  • Apache Kafka : Akan veriyi dış sistemlerden alarak belirli sürelerde tutmamızı ve diğer sistemlere (HDFS , Spark .. ) iletebilmemizi sağlayan açık kaynak kodlu kütüphanedir
  • K-means  Algoritması : Verileri daha küçük kümelere ayırmamızı sağlayan algoritmadır . Günümüzde kredi kartı fraud detection ve network security üzerinde anormal davranışlarda bu algoritmayı kullanabilirz

Alttaki resimde görüldüğü gibi veriler K-means algoritması ile önce kümelenir ve küme merkezlerinden uzakta olan veriler anormal data olarak nitelendirilebilir. Aslında kümeleme dediğimiz kavram benzer verileri bir araya getirmektir .

anomaly_detection

 

Genel mimari 

 

  • Örnek veri : KDD Cup 1999 Data
  • Network verileri Apache Kafka ile toplanır . Fakat geliştirdiğim uygulamada  verileri local makina üzerinden kopyaladım
  • Verilerin bazı alanları üzerinde ortalama(mean) ve standart sapma(deviation) hesaplanarak normalizasyon yötemi uygulanır
  • Apache Spark  ile Machine Learning Kütüphanesi (MLib) kullanılarak K-means kümeleme modeli oluşturulur . Bu model akan veri ve batch veri toplanarak oluşturulur . Akan veri ile bu modeli sürekli yenileyerek modelimizi güncel tutmayı sağlamış oluruz (Machine learning)
  • Oluşturulan modele bir veriyi sorduğumuzda bize anormal data olup olmadıgı bilgisini verebilir ama kesinlik yoktur

Projeyi adım adım uygulamak için alttaki linki takip ediniz

Using Spark for Anomaly (Fraud) Detection (K-means clustering)


Bizi takip edebileceğiniz sosyal medya platformları

–> Facebook –> Linkedin  -> Twitter

Eğitimler için sitemizi takip edebilirsiniz

Please follow and like us: