Kasadaki Sır: Veri Madenciliği, Apriori Algoritması ve Big Data

📋 İçindekiler

Veri Madenciliği Nedir
CRISP-DM: Veri Madenciliği Metodolojisi
Birliktelik Kuralları (Association Rules)
Apriori Algoritması: Adım Adım
K-Means Kümeleme Algoritması
Sınıflandırma Yöntemleri
Regresyon ve Tahmin
Big Data: 5V Modeli
Endüstri 4.0 ve IoT Verileri
Vaka 1: Perakende Sepet Analizi
Vaka 2: Kestirimci Bakım
Sonuç ve Uygulama Rehberi

1. Veri Madenciliği Nedir

Veri madenciliği, büyük veri kümelerinden daha önce bilinmeyen, anlamlı örüntüler ve ilişkiler keşfetme sürecidir. İstatistik, makine öğrenmesi ve veritabanı sistemlerinin kesişim noktasındadır.

💎

Altın Tanım: "Veri madenciliği, veri dağlarından altın çıkarmaktır. Veri = dağ, bilgi = altın, algoritma = kazma." — Jiawei Han, "Data Mining: Concepts and Techniques"

Veri madenciliğinin temel görevleri:

Görev	Tanım	Algoritma Örnekleri	Endüstriyel Kullanım
Birliktelik	Birlikte gerçekleşen olayları bul	Apriori, FP-Growth	Market sepet analizi
Kümeleme	Benzer ögeleri grupla	K-Means, DBSCAN, Hierarchical	Müşteri segmentasyonu
Sınıflandırma	Yeni veriyi kategorilere ata	Karar Ağacı, Random Forest, SVM, KNN	Kalite kontrol (OK/NOK)
Regresyon	Sürekli değer tahmini	Doğrusal, Çoklu, Polinom	Talep tahmini, maliyet tahmini
Anomali Tespiti	Normal dışı verileri bul	Isolation Forest, LOF	Dolandırıcılık tespiti, arıza tespiti

2. CRISP-DM: Endüstri Standardı Metodoloji

Veri madenciliği projeleri 6 aşamalı CRISP-DM (Cross-Industry Standard Process for Data Mining) metodolojisine göre yürütülür:

Aşama	Açıklama	Çıktı
1. İş Anlama	İş problemini ve hedefleri tanımla	Proje planı, KPI'lar
2. Veri Anlama	Verileri topla, keşfet, kalite kontrol yap	Veri raporu, ilk istatistikler
3. Veri Hazırlama	Temizle, dönüştür, birleştir, özellik mühendisliği	Analiz-hazır veri seti
4. Modelleme	Algoritma seç, eğit, parametre ayarla	Eğitilmiş model(ler)
5. Değerlendirme	Model performansını ölç, iş hedefleriyle karşılaştır	Doğruluk, F1-skoru, ROC-AUC
6. Dağıtım	Modeli üretime al, izle, güncelle	Dashboard, API, karar destek sistemi

3. Birliktelik Kuralları (Association Rules)

1990'larda dev bir perakende zinciri devasa kasiyer veritabanlarını analiz ettiğinde, Cuma akşamları "bebek bezi" alan müşterilerin büyük çoğunluğunun sepetine "bira" da eklediğini keşfetti. Bu ikonik hikaye, birliktelik kurallarının gücünü gösterir.

3.1 Temel Metrikler

Metrik	Formül	Örnek	Anlamı
Destek (Support)	σ(X∪Y) / N	S(Ekmek,Süt) = 400/1000 = 0.40	İkisini birlikte alanların oranı
Güven (Confidence)	σ(X∪Y) / σ(X)	C(Ekmek→Süt) = 400/600 = 0.67	Ekmek alanların kaçı süt de aldı
Lift	C(X→Y) / S(Y)	Lift = 0.67/0.50 = 1.34	>1 ise pozitif ilişki, =1 ise bağımsız
Conviction	[1-S(Y)] / [1-C(X→Y)]	Conv = 0.50/0.33 = 1.52	Kuralın yönlü gücü

4. Apriori Algoritması: Adım Adım Hesaplama

Apriori, Agrawal ve Srikant tarafından 1994'te geliştirilen birliktelik kuralı madenciliği algoritmasıdır. Temel prensibi: Sık olmayan bir öge kümesinin hiçbir üst kümesi sık olamaz (Apriori prensibi — gereksiz arama alanını budar).

4.1 Örnek Veri Seti

İşlem ID	Sepetteki Ürünler
T1	{Ekmek, Süt, Yumurta}
T2	{Ekmek, Peynir}
T3	{Süt, Peynir, Yumurta}
T4	{Ekmek, Süt, Peynir, Yumurta}
T5	{Ekmek, Süt}

Minimum Destek Eşiği: %40 (yani en az 2 işlemde geçmeli)

4.2 İterasyon 1: Tekli Öğe Kümeleri (C1 → L1)

Öğe	Sayı	Destek	Sık mı
{Ekmek}	4	4/5 = 0.80	✅ Evet
{Süt}	4	4/5 = 0.80	✅ Evet
{Yumurta}	3	3/5 = 0.60	✅ Evet
{Peynir}	3	3/5 = 0.60	✅ Evet

4.3 İterasyon 2: İkili Öğe Kümeleri (C2 → L2)

Öğe Çifti	Sayı	Destek	Sık mı
{Ekmek, Süt}	3	3/5 = 0.60	✅ Evet
{Ekmek, Yumurta}	2	2/5 = 0.40	✅ Evet
{Ekmek, Peynir}	2	2/5 = 0.40	✅ Evet
{Süt, Yumurta}	3	3/5 = 0.60	✅ Evet
{Süt, Peynir}	2	2/5 = 0.40	✅ Evet
{Yumurta, Peynir}	2	2/5 = 0.40	✅ Evet

4.4 İterasyon 3: Üçlü Kümeleri (C3 → L3)

Öğe Üçlüsü	Sayı	Destek	Sık mı
{Ekmek, Süt, Yumurta}	2	0.40	✅ Evet
{Ekmek, Süt, Peynir}	1	0.20	❌ Hayır (budandı)
{Ekmek, Yumurta, Peynir}	1	0.20	❌ Hayır
{Süt, Yumurta, Peynir}	2	0.40	✅ Evet

4.5 Kural Üretimi

Sık küme {Ekmek, Süt, Yumurta}'dan üretilen kurallar:

1. Ekmek, Süt → Yumurta: C = 2/3 = %66.7, Lift = 0.667/0.60 = 1.11
2. Ekmek, Yumurta → Süt: C = 2/2 = %100, Lift = 1.00/0.80 = 1.25 ⭐
3. Süt, Yumurta → Ekmek: C = 2/3 = %66.7, Lift = 0.667/0.80 = 0.83

En güçlü kural: "Ekmek VE Yumurta alan müşteri, %100 olasılıkla Süt de alır" (Lift=1.25)

5. K-Means Kümeleme Algoritması

K-Means, veriyi K adet kümeye ayıran gözetimsiz öğrenme algoritmasıdır. Küme sayısı (K) kullanıcı tarafından belirlenir.

5.1 Algoritma Adımları

🔄

1. K adet rastgele merkez noktası seç
2. Her veri noktasını en yakın merkeze ata
3. Her kümenin merkezini güncelle (ortalama al)
4. Merkezler değişmeyene kadar 2-3'ü tekrarla

5.2 Hesaplama Örneği (K=2)

6 müşterinin aylık harcama (₺K) ve ziyaret sayısı:

Müşteri	Harcama (x)	Ziyaret (y)
A	2	10
B	3	12
C	1	8
D	8	4
E	9	3
F	7	5

İterasyon 1: Başlangıç merkezleri: C1=(2,10), C2=(8,4)

d(A,C1) = √[(2-2)²+(10-10)²] = 0 → Küme 1
d(B,C1) = √[(3-2)²+(12-10)²] = 2.24 | d(B,C2) = √[(3-8)²+(12-4)²] = 9.43 → Küme 1
d(C,C1) = 2.24 | d(C,C2) = 8.06 → Küme 1
d(D,C1) = 8.49 | d(D,C2) = 0 → Küme 2
d(E,C1) = 9.90 | d(E,C2) = 1.41 → Küme 2
d(F,C1) = 7.07 | d(F,C2) = 1.41 → Küme 2

Yeni merkezler:
C1 = ((2+3+1)/3, (10+12+8)/3) = (2.0, 10.0)
C2 = ((8+9+7)/3, (4+3+5)/3) = (8.0, 4.0)

Merkezler değişmedi → Algoritma yakınsadı!
Küme 1 (Sık ziyaret, düşük harcama): A, B, C
Küme 2 (Az ziyaret, yüksek harcama): D, E, F

6. Sınıflandırma Yöntemleri

Algoritma	Nasıl Çalışır	Avantaj	Endüstriyel Kullanım
Karar Ağacı (CART, C4.5)	If-then kuralları ağacı oluşturur	Yorumlanabilir, şeffaf	Kalite kontrol: hangi parametreler hatalı ürüne yol açar
Random Forest	Yüzlerce karar ağacı oluşturup oy çoğunluğu alır	Yüksek doğruluk, overfitting'e dayanıklı	Kestirimci bakım, talep tahmini
KNN (K-En Yakın Komşu)	Yeni veri noktasının K en yakın komşusuna bakar	Basit, hızlı	Anomali tespiti, ürün önerisi
SVM (Destek Vektör Makineleri)	Sınıfları ayıran en geniş marj hiper-düzlemini bulur	Yüksek boyutlarda etkili	Görüntü sınıflandırma, metin analizi
Naive Bayes	Bayes teoremi ile olasılıksal sınıflandırma	Çok hızlı, az veriyle çalışır	Spam tespiti, duygu analizi
Yapay Sinir Ağları	Beynin yapısını taklit eden katmanlı düğüm ağı	Karmaşık örüntüleri öğrenir	Derin öğrenme, görüntü tanıma

7. Regresyon ve Tahmin

Basit Doğrusal Regresyon: y = β₀ + β₁x + ε
Çoklu Regresyon: y = β₀ + β₁x₁ + β₂x₂ + ... + βₖxₖ + ε

R² (Belirlilik Katsayısı): Modelin verinin ne kadarını açıkladığı (%)
R² = 1 - (SS_residual / SS_total)

R² = 0.85 → Model verinin %85'ini açıklıyor ✅
R² = 0.30 → Model zayıf, başka değişkenler gerekli ⚠️

8. Big Data: 5V Modeli

V	Türkçe	Tanım	Örnek
Volume	Hacim	Veri miktarı — TB, PB düzeyinde	Fabrikadaki 200 sensör × 1000 kayıt/sn
Velocity	Hız	Verinin üretilme ve işlenme hızı	Gerçek zamanlı akış verileri (streaming)
Variety	Çeşitlilik	Yapısal, yarı-yapısal, yapısız veri	Sensör + görüntü + log + metin
Veracity	Doğruluk	Veri kalitesi ve güvenilirliği	Eksik değerler, gürültü, outlier'lar
Value	Değer	Veriden elde edilen iş değeri	Arıza tahmini → ₺Milyon tasarruf

9. Endüstri 4.0 ve IoT Veri Madenciliği

Bir CNC tezgahındaki 50 farklı sensör saniyede 1000 satır veri üretir: Motor sıcaklığı, yağ basıncı, kesim ucu titreşimi, ortam nemi. Fabrikada 200 tezgah varsa günde ~17 Milyar satır veri oluşur.

Uygulama	Kullanılan Teknik	Çıktı
Kestirimci Bakım	Random Forest, LSTM	"Motor 14 dk sonra arızalanacak — hattı durdur"
Kalite Tahmini	SVM, Logistic Regression	"Bu parça %92 olasılıkla kusurlu"
Süreç Optimizasyonu	Regresyon, DOE	"Sıcaklık 180°C ve basınç 12 bar → optimal yüzey kalitesi"
Enerji Optimizasyonu	Zaman serisi, clustering	"Gece 02:00-05:00 arası üretim yaparak enerji %18 ucuz"
Tedarik Zinciri	Apriori, sekans madenciliği	"A parçası sipariş edildiğinde B parçası 3 gün sonra bitiyor"

10. Vaka Çalışması 1: Perakende Sepet Analizi

🛒 Süpermarket Zinciri — 1 Milyon İşlem Analizi

Veri: 6 aylık POS verileri, 1.2 milyon işlem, 15.000 ürün

Yöntem: Apriori (min_support=0.01, min_confidence=0.30)

En güçlü kurallar:

Kural	Support	Confidence	Lift
Makarna, Domates Salçası → Kıyma	3.2%	62%	3.8
Bebek Bezi → Islak Mendil	4.1%	78%	5.2
Kahve → Süt, Şeker	2.8%	45%	2.1
Çamaşır Deterjanı → Yumuşatıcı	5.5%	58%	4.7

Aksiyon: Yüksek Lift'li ürün çiftleri yan yana rafa yerleştirildi ve çapraz promosyon kampanyaları oluşturuldu.

Sonuç: Sepet başına ortalama ürün sayısı 8.3 → 9.7'ye (%17 artış), aylık ciro artışı ₺2.4 Milyon.

11. Vaka Çalışması 2: Kestirimci Bakım

⚙️ Otomotiv Fabrikası — CNC Tezgah Arıza Tahmini

Veri: 50 CNC tezgahından 12 aylık sensör verileri (titreşim, sıcaklık, akım, basınç)

Hedef: Arızayı en az 2 saat önceden tahmin etmek

Model	Doğruluk	Precision	Recall	F1-Score
Lojistik Regresyon	%82	%71	%65	0.68
Random Forest	%91	%86	%83	0.84
XGBoost	%94	%90	%88	0.89
LSTM (Deep Learning)	%93	%88	%91	0.89

Sonuç: XGBoost modeli üretime alındı. Yıllık plansız duruş süresi %62 azaldı, yıllık tasarruf ₺4.8 Milyon.

12. Sonuç ve Uygulama Rehberi

🏁

Endüstriyel Veri Madenciliği Başlangıç Kiti:

✅ 1. CRISP-DM metodolojisini takip edin
✅ 2. İş problemini net tanımlayın (sadece "veri analizi yapalım" yetmez)
✅ 3. Veri kalitesine %70 zaman ayırın (garbage in = garbage out)
✅ 4. Basit modelle başlayın (regresyon → karar ağacı → ensemble → derin öğrenme)
✅ 5. Sonuçları iş birimine anlaşılır şekilde sunun (teknik jargon ❌, dashboard ✅)
✅ 6. Modeli üretime alıp sürekli izleyin (model drift kontrolü)