📋 İçindekiler
- Veri Madenciliği Nedir
- CRISP-DM: Veri Madenciliği Metodolojisi
- Birliktelik Kuralları (Association Rules)
- Apriori Algoritması: Adım Adım
- K-Means Kümeleme Algoritması
- Sınıflandırma Yöntemleri
- Regresyon ve Tahmin
- Big Data: 5V Modeli
- Endüstri 4.0 ve IoT Verileri
- Vaka 1: Perakende Sepet Analizi
- Vaka 2: Kestirimci Bakım
- Sonuç ve Uygulama Rehberi
1. Veri Madenciliği Nedir
Veri madenciliği, büyük veri kümelerinden daha önce bilinmeyen, anlamlı örüntüler ve ilişkiler keşfetme sürecidir. İstatistik, makine öğrenmesi ve veritabanı sistemlerinin kesişim noktasındadır.
Veri madenciliğinin temel görevleri:
| Görev | Tanım | Algoritma Örnekleri | Endüstriyel Kullanım |
|---|---|---|---|
| Birliktelik | Birlikte gerçekleşen olayları bul | Apriori, FP-Growth | Market sepet analizi |
| Kümeleme | Benzer ögeleri grupla | K-Means, DBSCAN, Hierarchical | Müşteri segmentasyonu |
| Sınıflandırma | Yeni veriyi kategorilere ata | Karar Ağacı, Random Forest, SVM, KNN | Kalite kontrol (OK/NOK) |
| Regresyon | Sürekli değer tahmini | Doğrusal, Çoklu, Polinom | Talep tahmini, maliyet tahmini |
| Anomali Tespiti | Normal dışı verileri bul | Isolation Forest, LOF | Dolandırıcılık tespiti, arıza tespiti |
2. CRISP-DM: Endüstri Standardı Metodoloji
Veri madenciliği projeleri 6 aşamalı CRISP-DM (Cross-Industry Standard Process for Data Mining) metodolojisine göre yürütülür:
| Aşama | Açıklama | Çıktı |
|---|---|---|
| 1. İş Anlama | İş problemini ve hedefleri tanımla | Proje planı, KPI'lar |
| 2. Veri Anlama | Verileri topla, keşfet, kalite kontrol yap | Veri raporu, ilk istatistikler |
| 3. Veri Hazırlama | Temizle, dönüştür, birleştir, özellik mühendisliği | Analiz-hazır veri seti |
| 4. Modelleme | Algoritma seç, eğit, parametre ayarla | Eğitilmiş model(ler) |
| 5. Değerlendirme | Model performansını ölç, iş hedefleriyle karşılaştır | Doğruluk, F1-skoru, ROC-AUC |
| 6. Dağıtım | Modeli üretime al, izle, güncelle | Dashboard, API, karar destek sistemi |
3. Birliktelik Kuralları (Association Rules)
1990'larda dev bir perakende zinciri devasa kasiyer veritabanlarını analiz ettiğinde, Cuma akşamları "bebek bezi" alan müşterilerin büyük çoğunluğunun sepetine "bira" da eklediğini keşfetti. Bu ikonik hikaye, birliktelik kurallarının gücünü gösterir.
3.1 Temel Metrikler
| Metrik | Formül | Örnek | Anlamı |
|---|---|---|---|
| Destek (Support) | σ(X∪Y) / N | S(Ekmek,Süt) = 400/1000 = 0.40 | İkisini birlikte alanların oranı |
| Güven (Confidence) | σ(X∪Y) / σ(X) | C(Ekmek→Süt) = 400/600 = 0.67 | Ekmek alanların kaçı süt de aldı |
| Lift | C(X→Y) / S(Y) | Lift = 0.67/0.50 = 1.34 | >1 ise pozitif ilişki, =1 ise bağımsız |
| Conviction | [1-S(Y)] / [1-C(X→Y)] | Conv = 0.50/0.33 = 1.52 | Kuralın yönlü gücü |
4. Apriori Algoritması: Adım Adım Hesaplama
Apriori, Agrawal ve Srikant tarafından 1994'te geliştirilen birliktelik kuralı madenciliği algoritmasıdır. Temel prensibi: Sık olmayan bir öge kümesinin hiçbir üst kümesi sık olamaz (Apriori prensibi — gereksiz arama alanını budar).
4.1 Örnek Veri Seti
| İşlem ID | Sepetteki Ürünler |
|---|---|
| T1 | {Ekmek, Süt, Yumurta} |
| T2 | {Ekmek, Peynir} |
| T3 | {Süt, Peynir, Yumurta} |
| T4 | {Ekmek, Süt, Peynir, Yumurta} |
| T5 | {Ekmek, Süt} |
Minimum Destek Eşiği: %40 (yani en az 2 işlemde geçmeli)
4.2 İterasyon 1: Tekli Öğe Kümeleri (C1 → L1)
| Öğe | Sayı | Destek | Sık mı |
|---|---|---|---|
| {Ekmek} | 4 | 4/5 = 0.80 | ✅ Evet |
| {Süt} | 4 | 4/5 = 0.80 | ✅ Evet |
| {Yumurta} | 3 | 3/5 = 0.60 | ✅ Evet |
| {Peynir} | 3 | 3/5 = 0.60 | ✅ Evet |
4.3 İterasyon 2: İkili Öğe Kümeleri (C2 → L2)
| Öğe Çifti | Sayı | Destek | Sık mı |
|---|---|---|---|
| {Ekmek, Süt} | 3 | 3/5 = 0.60 | ✅ Evet |
| {Ekmek, Yumurta} | 2 | 2/5 = 0.40 | ✅ Evet |
| {Ekmek, Peynir} | 2 | 2/5 = 0.40 | ✅ Evet |
| {Süt, Yumurta} | 3 | 3/5 = 0.60 | ✅ Evet |
| {Süt, Peynir} | 2 | 2/5 = 0.40 | ✅ Evet |
| {Yumurta, Peynir} | 2 | 2/5 = 0.40 | ✅ Evet |
4.4 İterasyon 3: Üçlü Kümeleri (C3 → L3)
| Öğe Üçlüsü | Sayı | Destek | Sık mı |
|---|---|---|---|
| {Ekmek, Süt, Yumurta} | 2 | 0.40 | ✅ Evet |
| {Ekmek, Süt, Peynir} | 1 | 0.20 | ❌ Hayır (budandı) |
| {Ekmek, Yumurta, Peynir} | 1 | 0.20 | ❌ Hayır |
| {Süt, Yumurta, Peynir} | 2 | 0.40 | ✅ Evet |
4.5 Kural Üretimi
1. Ekmek, Süt → Yumurta: C = 2/3 = %66.7, Lift = 0.667/0.60 = 1.11
2. Ekmek, Yumurta → Süt: C = 2/2 = %100, Lift = 1.00/0.80 = 1.25 ⭐
3. Süt, Yumurta → Ekmek: C = 2/3 = %66.7, Lift = 0.667/0.80 = 0.83
En güçlü kural: "Ekmek VE Yumurta alan müşteri, %100 olasılıkla Süt de alır" (Lift=1.25)
5. K-Means Kümeleme Algoritması
K-Means, veriyi K adet kümeye ayıran gözetimsiz öğrenme algoritmasıdır. Küme sayısı (K) kullanıcı tarafından belirlenir.
5.1 Algoritma Adımları
2. Her veri noktasını en yakın merkeze ata
3. Her kümenin merkezini güncelle (ortalama al)
4. Merkezler değişmeyene kadar 2-3'ü tekrarla
5.2 Hesaplama Örneği (K=2)
6 müşterinin aylık harcama (₺K) ve ziyaret sayısı:
| Müşteri | Harcama (x) | Ziyaret (y) |
|---|---|---|
| A | 2 | 10 |
| B | 3 | 12 |
| C | 1 | 8 |
| D | 8 | 4 |
| E | 9 | 3 |
| F | 7 | 5 |
d(A,C1) = √[(2-2)²+(10-10)²] = 0 → Küme 1
d(B,C1) = √[(3-2)²+(12-10)²] = 2.24 | d(B,C2) = √[(3-8)²+(12-4)²] = 9.43 → Küme 1
d(C,C1) = 2.24 | d(C,C2) = 8.06 → Küme 1
d(D,C1) = 8.49 | d(D,C2) = 0 → Küme 2
d(E,C1) = 9.90 | d(E,C2) = 1.41 → Küme 2
d(F,C1) = 7.07 | d(F,C2) = 1.41 → Küme 2
Yeni merkezler:
C1 = ((2+3+1)/3, (10+12+8)/3) = (2.0, 10.0)
C2 = ((8+9+7)/3, (4+3+5)/3) = (8.0, 4.0)
Merkezler değişmedi → Algoritma yakınsadı!
Küme 1 (Sık ziyaret, düşük harcama): A, B, C
Küme 2 (Az ziyaret, yüksek harcama): D, E, F
6. Sınıflandırma Yöntemleri
| Algoritma | Nasıl Çalışır | Avantaj | Endüstriyel Kullanım |
|---|---|---|---|
| Karar Ağacı (CART, C4.5) | If-then kuralları ağacı oluşturur | Yorumlanabilir, şeffaf | Kalite kontrol: hangi parametreler hatalı ürüne yol açar |
| Random Forest | Yüzlerce karar ağacı oluşturup oy çoğunluğu alır | Yüksek doğruluk, overfitting'e dayanıklı | Kestirimci bakım, talep tahmini |
| KNN (K-En Yakın Komşu) | Yeni veri noktasının K en yakın komşusuna bakar | Basit, hızlı | Anomali tespiti, ürün önerisi |
| SVM (Destek Vektör Makineleri) | Sınıfları ayıran en geniş marj hiper-düzlemini bulur | Yüksek boyutlarda etkili | Görüntü sınıflandırma, metin analizi |
| Naive Bayes | Bayes teoremi ile olasılıksal sınıflandırma | Çok hızlı, az veriyle çalışır | Spam tespiti, duygu analizi |
| Yapay Sinir Ağları | Beynin yapısını taklit eden katmanlı düğüm ağı | Karmaşık örüntüleri öğrenir | Derin öğrenme, görüntü tanıma |
7. Regresyon ve Tahmin
Çoklu Regresyon: y = β₀ + β₁x₁ + β₂x₂ + ... + βₖxₖ + ε
R² (Belirlilik Katsayısı): Modelin verinin ne kadarını açıkladığı (%)
R² = 1 - (SSresidual / SStotal)
R² = 0.85 → Model verinin %85'ini açıklıyor ✅
R² = 0.30 → Model zayıf, başka değişkenler gerekli ⚠️
8. Big Data: 5V Modeli
| V | Türkçe | Tanım | Örnek |
|---|---|---|---|
| Volume | Hacim | Veri miktarı — TB, PB düzeyinde | Fabrikadaki 200 sensör × 1000 kayıt/sn |
| Velocity | Hız | Verinin üretilme ve işlenme hızı | Gerçek zamanlı akış verileri (streaming) |
| Variety | Çeşitlilik | Yapısal, yarı-yapısal, yapısız veri | Sensör + görüntü + log + metin |
| Veracity | Doğruluk | Veri kalitesi ve güvenilirliği | Eksik değerler, gürültü, outlier'lar |
| Value | Değer | Veriden elde edilen iş değeri | Arıza tahmini → ₺Milyon tasarruf |
9. Endüstri 4.0 ve IoT Veri Madenciliği
Bir CNC tezgahındaki 50 farklı sensör saniyede 1000 satır veri üretir: Motor sıcaklığı, yağ basıncı, kesim ucu titreşimi, ortam nemi. Fabrikada 200 tezgah varsa günde ~17 Milyar satır veri oluşur.
| Uygulama | Kullanılan Teknik | Çıktı |
|---|---|---|
| Kestirimci Bakım | Random Forest, LSTM | "Motor 14 dk sonra arızalanacak — hattı durdur" |
| Kalite Tahmini | SVM, Logistic Regression | "Bu parça %92 olasılıkla kusurlu" |
| Süreç Optimizasyonu | Regresyon, DOE | "Sıcaklık 180°C ve basınç 12 bar → optimal yüzey kalitesi" |
| Enerji Optimizasyonu | Zaman serisi, clustering | "Gece 02:00-05:00 arası üretim yaparak enerji %18 ucuz" |
| Tedarik Zinciri | Apriori, sekans madenciliği | "A parçası sipariş edildiğinde B parçası 3 gün sonra bitiyor" |
10. Vaka Çalışması 1: Perakende Sepet Analizi
Veri: 6 aylık POS verileri, 1.2 milyon işlem, 15.000 ürün
Yöntem: Apriori (min_support=0.01, min_confidence=0.30)
En güçlü kurallar:
| Kural | Support | Confidence | Lift |
|---|---|---|---|
| Makarna, Domates Salçası → Kıyma | 3.2% | 62% | 3.8 |
| Bebek Bezi → Islak Mendil | 4.1% | 78% | 5.2 |
| Kahve → Süt, Şeker | 2.8% | 45% | 2.1 |
| Çamaşır Deterjanı → Yumuşatıcı | 5.5% | 58% | 4.7 |
Aksiyon: Yüksek Lift'li ürün çiftleri yan yana rafa yerleştirildi ve çapraz promosyon kampanyaları oluşturuldu.
Sonuç: Sepet başına ortalama ürün sayısı 8.3 → 9.7'ye (%17 artış), aylık ciro artışı ₺2.4 Milyon.
11. Vaka Çalışması 2: Kestirimci Bakım
Veri: 50 CNC tezgahından 12 aylık sensör verileri (titreşim, sıcaklık, akım, basınç)
Hedef: Arızayı en az 2 saat önceden tahmin etmek
| Model | Doğruluk | Precision | Recall | F1-Score |
|---|---|---|---|---|
| Lojistik Regresyon | %82 | %71 | %65 | 0.68 |
| Random Forest | %91 | %86 | %83 | 0.84 |
| XGBoost | %94 | %90 | %88 | 0.89 |
| LSTM (Deep Learning) | %93 | %88 | %91 | 0.89 |
Sonuç: XGBoost modeli üretime alındı. Yıllık plansız duruş süresi %62 azaldı, yıllık tasarruf ₺4.8 Milyon.
12. Sonuç ve Uygulama Rehberi
✅ 1. CRISP-DM metodolojisini takip edin
✅ 2. İş problemini net tanımlayın (sadece "veri analizi yapalım" yetmez)
✅ 3. Veri kalitesine %70 zaman ayırın (garbage in = garbage out)
✅ 4. Basit modelle başlayın (regresyon → karar ağacı → ensemble → derin öğrenme)
✅ 5. Sonuçları iş birimine anlaşılır şekilde sunun (teknik jargon ❌, dashboard ✅)
✅ 6. Modeli üretime alıp sürekli izleyin (model drift kontrolü)