1. Veri Madenciliği Nedir

Veri madenciliği, büyük veri kümelerinden daha önce bilinmeyen, anlamlı örüntüler ve ilişkiler keşfetme sürecidir. İstatistik, makine öğrenmesi ve veritabanı sistemlerinin kesişim noktasındadır.

💎
Altın Tanım: "Veri madenciliği, veri dağlarından altın çıkarmaktır. Veri = dağ, bilgi = altın, algoritma = kazma." — Jiawei Han, "Data Mining: Concepts and Techniques"

Veri madenciliğinin temel görevleri:

Görev Tanım Algoritma Örnekleri Endüstriyel Kullanım
Birliktelik Birlikte gerçekleşen olayları bul Apriori, FP-Growth Market sepet analizi
Kümeleme Benzer ögeleri grupla K-Means, DBSCAN, Hierarchical Müşteri segmentasyonu
Sınıflandırma Yeni veriyi kategorilere ata Karar Ağacı, Random Forest, SVM, KNN Kalite kontrol (OK/NOK)
Regresyon Sürekli değer tahmini Doğrusal, Çoklu, Polinom Talep tahmini, maliyet tahmini
Anomali Tespiti Normal dışı verileri bul Isolation Forest, LOF Dolandırıcılık tespiti, arıza tespiti

2. CRISP-DM: Endüstri Standardı Metodoloji

Veri madenciliği projeleri 6 aşamalı CRISP-DM (Cross-Industry Standard Process for Data Mining) metodolojisine göre yürütülür:

Aşama Açıklama Çıktı
1. İş Anlama İş problemini ve hedefleri tanımla Proje planı, KPI'lar
2. Veri Anlama Verileri topla, keşfet, kalite kontrol yap Veri raporu, ilk istatistikler
3. Veri Hazırlama Temizle, dönüştür, birleştir, özellik mühendisliği Analiz-hazır veri seti
4. Modelleme Algoritma seç, eğit, parametre ayarla Eğitilmiş model(ler)
5. Değerlendirme Model performansını ölç, iş hedefleriyle karşılaştır Doğruluk, F1-skoru, ROC-AUC
6. Dağıtım Modeli üretime al, izle, güncelle Dashboard, API, karar destek sistemi

3. Birliktelik Kuralları (Association Rules)

1990'larda dev bir perakende zinciri devasa kasiyer veritabanlarını analiz ettiğinde, Cuma akşamları "bebek bezi" alan müşterilerin büyük çoğunluğunun sepetine "bira" da eklediğini keşfetti. Bu ikonik hikaye, birliktelik kurallarının gücünü gösterir.

3.1 Temel Metrikler

Metrik Formül Örnek Anlamı
Destek (Support) σ(X∪Y) / N S(Ekmek,Süt) = 400/1000 = 0.40 İkisini birlikte alanların oranı
Güven (Confidence) σ(X∪Y) / σ(X) C(Ekmek→Süt) = 400/600 = 0.67 Ekmek alanların kaçı süt de aldı
Lift C(X→Y) / S(Y) Lift = 0.67/0.50 = 1.34 >1 ise pozitif ilişki, =1 ise bağımsız
Conviction [1-S(Y)] / [1-C(X→Y)] Conv = 0.50/0.33 = 1.52 Kuralın yönlü gücü

4. Apriori Algoritması: Adım Adım Hesaplama

Apriori, Agrawal ve Srikant tarafından 1994'te geliştirilen birliktelik kuralı madenciliği algoritmasıdır. Temel prensibi: Sık olmayan bir öge kümesinin hiçbir üst kümesi sık olamaz (Apriori prensibi — gereksiz arama alanını budar).

4.1 Örnek Veri Seti

İşlem ID Sepetteki Ürünler
T1 {Ekmek, Süt, Yumurta}
T2 {Ekmek, Peynir}
T3 {Süt, Peynir, Yumurta}
T4 {Ekmek, Süt, Peynir, Yumurta}
T5 {Ekmek, Süt}

Minimum Destek Eşiği: %40 (yani en az 2 işlemde geçmeli)

4.2 İterasyon 1: Tekli Öğe Kümeleri (C1 → L1)

Öğe Sayı Destek Sık mı
{Ekmek} 4 4/5 = 0.80 ✅ Evet
{Süt} 4 4/5 = 0.80 ✅ Evet
{Yumurta} 3 3/5 = 0.60 ✅ Evet
{Peynir} 3 3/5 = 0.60 ✅ Evet

4.3 İterasyon 2: İkili Öğe Kümeleri (C2 → L2)

Öğe Çifti Sayı Destek Sık mı
{Ekmek, Süt} 3 3/5 = 0.60 ✅ Evet
{Ekmek, Yumurta} 2 2/5 = 0.40 ✅ Evet
{Ekmek, Peynir} 2 2/5 = 0.40 ✅ Evet
{Süt, Yumurta} 3 3/5 = 0.60 ✅ Evet
{Süt, Peynir} 2 2/5 = 0.40 ✅ Evet
{Yumurta, Peynir} 2 2/5 = 0.40 ✅ Evet

4.4 İterasyon 3: Üçlü Kümeleri (C3 → L3)

Öğe Üçlüsü Sayı Destek Sık mı
{Ekmek, Süt, Yumurta} 2 0.40 ✅ Evet
{Ekmek, Süt, Peynir} 1 0.20 ❌ Hayır (budandı)
{Ekmek, Yumurta, Peynir} 1 0.20 ❌ Hayır
{Süt, Yumurta, Peynir} 2 0.40 ✅ Evet

4.5 Kural Üretimi

Sık küme {Ekmek, Süt, Yumurta}'dan üretilen kurallar:

1. Ekmek, Süt → Yumurta: C = 2/3 = %66.7, Lift = 0.667/0.60 = 1.11
2. Ekmek, Yumurta → Süt: C = 2/2 = %100, Lift = 1.00/0.80 = 1.25
3. Süt, Yumurta → Ekmek: C = 2/3 = %66.7, Lift = 0.667/0.80 = 0.83

En güçlü kural: "Ekmek VE Yumurta alan müşteri, %100 olasılıkla Süt de alır" (Lift=1.25)

5. K-Means Kümeleme Algoritması

K-Means, veriyi K adet kümeye ayıran gözetimsiz öğrenme algoritmasıdır. Küme sayısı (K) kullanıcı tarafından belirlenir.

5.1 Algoritma Adımları

🔄
1. K adet rastgele merkez noktası seç
2. Her veri noktasını en yakın merkeze ata
3. Her kümenin merkezini güncelle (ortalama al)
4. Merkezler değişmeyene kadar 2-3'ü tekrarla

5.2 Hesaplama Örneği (K=2)

6 müşterinin aylık harcama (₺K) ve ziyaret sayısı:

Müşteri Harcama (x) Ziyaret (y)
A 2 10
B 3 12
C 1 8
D 8 4
E 9 3
F 7 5
İterasyon 1: Başlangıç merkezleri: C1=(2,10), C2=(8,4)

d(A,C1) = √[(2-2)²+(10-10)²] = 0 → Küme 1
d(B,C1) = √[(3-2)²+(12-10)²] = 2.24 | d(B,C2) = √[(3-8)²+(12-4)²] = 9.43 → Küme 1
d(C,C1) = 2.24 | d(C,C2) = 8.06 → Küme 1
d(D,C1) = 8.49 | d(D,C2) = 0 → Küme 2
d(E,C1) = 9.90 | d(E,C2) = 1.41 → Küme 2
d(F,C1) = 7.07 | d(F,C2) = 1.41 → Küme 2

Yeni merkezler:
C1 = ((2+3+1)/3, (10+12+8)/3) = (2.0, 10.0)
C2 = ((8+9+7)/3, (4+3+5)/3) = (8.0, 4.0)

Merkezler değişmedi → Algoritma yakınsadı!
Küme 1 (Sık ziyaret, düşük harcama): A, B, C
Küme 2 (Az ziyaret, yüksek harcama): D, E, F

6. Sınıflandırma Yöntemleri

Algoritma Nasıl Çalışır Avantaj Endüstriyel Kullanım
Karar Ağacı (CART, C4.5) If-then kuralları ağacı oluşturur Yorumlanabilir, şeffaf Kalite kontrol: hangi parametreler hatalı ürüne yol açar
Random Forest Yüzlerce karar ağacı oluşturup oy çoğunluğu alır Yüksek doğruluk, overfitting'e dayanıklı Kestirimci bakım, talep tahmini
KNN (K-En Yakın Komşu) Yeni veri noktasının K en yakın komşusuna bakar Basit, hızlı Anomali tespiti, ürün önerisi
SVM (Destek Vektör Makineleri) Sınıfları ayıran en geniş marj hiper-düzlemini bulur Yüksek boyutlarda etkili Görüntü sınıflandırma, metin analizi
Naive Bayes Bayes teoremi ile olasılıksal sınıflandırma Çok hızlı, az veriyle çalışır Spam tespiti, duygu analizi
Yapay Sinir Ağları Beynin yapısını taklit eden katmanlı düğüm ağı Karmaşık örüntüleri öğrenir Derin öğrenme, görüntü tanıma

7. Regresyon ve Tahmin

Basit Doğrusal Regresyon: y = β₀ + β₁x + ε
Çoklu Regresyon: y = β₀ + β₁x₁ + β₂x₂ + ... + βₖxₖ + ε

R² (Belirlilik Katsayısı): Modelin verinin ne kadarını açıkladığı (%)
R² = 1 - (SSresidual / SStotal)

R² = 0.85 → Model verinin %85'ini açıklıyor ✅
R² = 0.30 → Model zayıf, başka değişkenler gerekli ⚠️

8. Big Data: 5V Modeli

V Türkçe Tanım Örnek
Volume Hacim Veri miktarı — TB, PB düzeyinde Fabrikadaki 200 sensör × 1000 kayıt/sn
Velocity Hız Verinin üretilme ve işlenme hızı Gerçek zamanlı akış verileri (streaming)
Variety Çeşitlilik Yapısal, yarı-yapısal, yapısız veri Sensör + görüntü + log + metin
Veracity Doğruluk Veri kalitesi ve güvenilirliği Eksik değerler, gürültü, outlier'lar
Value Değer Veriden elde edilen iş değeri Arıza tahmini → ₺Milyon tasarruf

9. Endüstri 4.0 ve IoT Veri Madenciliği

Bir CNC tezgahındaki 50 farklı sensör saniyede 1000 satır veri üretir: Motor sıcaklığı, yağ basıncı, kesim ucu titreşimi, ortam nemi. Fabrikada 200 tezgah varsa günde ~17 Milyar satır veri oluşur.

Uygulama Kullanılan Teknik Çıktı
Kestirimci Bakım Random Forest, LSTM "Motor 14 dk sonra arızalanacak — hattı durdur"
Kalite Tahmini SVM, Logistic Regression "Bu parça %92 olasılıkla kusurlu"
Süreç Optimizasyonu Regresyon, DOE "Sıcaklık 180°C ve basınç 12 bar → optimal yüzey kalitesi"
Enerji Optimizasyonu Zaman serisi, clustering "Gece 02:00-05:00 arası üretim yaparak enerji %18 ucuz"
Tedarik Zinciri Apriori, sekans madenciliği "A parçası sipariş edildiğinde B parçası 3 gün sonra bitiyor"

10. Vaka Çalışması 1: Perakende Sepet Analizi

🛒 Süpermarket Zinciri — 1 Milyon İşlem Analizi

Veri: 6 aylık POS verileri, 1.2 milyon işlem, 15.000 ürün

Yöntem: Apriori (min_support=0.01, min_confidence=0.30)

En güçlü kurallar:

Kural Support Confidence Lift
Makarna, Domates Salçası → Kıyma 3.2% 62% 3.8
Bebek Bezi → Islak Mendil 4.1% 78% 5.2
Kahve → Süt, Şeker 2.8% 45% 2.1
Çamaşır Deterjanı → Yumuşatıcı 5.5% 58% 4.7

Aksiyon: Yüksek Lift'li ürün çiftleri yan yana rafa yerleştirildi ve çapraz promosyon kampanyaları oluşturuldu.

Sonuç: Sepet başına ortalama ürün sayısı 8.3 → 9.7'ye (%17 artış), aylık ciro artışı ₺2.4 Milyon.

11. Vaka Çalışması 2: Kestirimci Bakım

⚙️ Otomotiv Fabrikası — CNC Tezgah Arıza Tahmini

Veri: 50 CNC tezgahından 12 aylık sensör verileri (titreşim, sıcaklık, akım, basınç)

Hedef: Arızayı en az 2 saat önceden tahmin etmek

Model Doğruluk Precision Recall F1-Score
Lojistik Regresyon %82 %71 %65 0.68
Random Forest %91 %86 %83 0.84
XGBoost %94 %90 %88 0.89
LSTM (Deep Learning) %93 %88 %91 0.89

Sonuç: XGBoost modeli üretime alındı. Yıllık plansız duruş süresi %62 azaldı, yıllık tasarruf ₺4.8 Milyon.

12. Sonuç ve Uygulama Rehberi

🏁
Endüstriyel Veri Madenciliği Başlangıç Kiti:

1. CRISP-DM metodolojisini takip edin
2. İş problemini net tanımlayın (sadece "veri analizi yapalım" yetmez)
3. Veri kalitesine %70 zaman ayırın (garbage in = garbage out)
4. Basit modelle başlayın (regresyon → karar ağacı → ensemble → derin öğrenme)
5. Sonuçları iş birimine anlaşılır şekilde sunun (teknik jargon ❌, dashboard ✅)
6. Modeli üretime alıp sürekli izleyin (model drift kontrolü)