Veri madenciliği, büyük ölçekli veriler arasından bilgiye ulaşma, bilgiyi madenleme işidir.Bir diğer deyişle veri madenciliği tanımı büyük bir veri yığını içerisinden gelecekte kullanılabilecek veya tahminde bulunabilecek bağıntıların bilgisayar programları aracılığıyla aranması ve işlenmesidir.

datamining

Ek olarak veri madenciliği tanımı bilginin keşfinde yer alan bir süreç olarak düşünülebilir.Süreçteki bazı adımlar:

  1. Veri temizleme (gürültülü ve tutarsız verileri çıkarmak)
  2. Veri bütünleştirme (birçok veri kaynağını birleştirebilmek)
  3. Veri seçme (yapılacak olan analizle ilgili olan verileri belirlemek )
  4. Veri dönüşümü (verinin veri madenciliği tekniğinden kullanılabilecek hale dönüşümünü gerçekleştirmek)
  5. Veri madenciliği (veri örüntülerini yakalayabilmek için akıllı metotları uygulamak)
  6. Örüntü değerlendirme (bazı ölçümlere göre elde edilmiş bilgiyi temsil eden ilginç örüntüleri tanımlamak)
  7. Bilgi sunumu (madenciliği yapılmış olan elde edilmiş bilginin kullanıcıya sunumunu gerçekleştirmek).

Veri Madenciliğinde Kullanılan Yöntemler

Veri madenciliği sürecinin çeşitli aşamalarında kullanılan teknikler, istatistiksel yöntemler, bellek tabanlı yöntemler, genetik algoritmalar, yapay sinir ağları ve karar ağaçları olarak sıralanabilir.

Veri Madenciliği Süreci

Sorunun Tanımlanması

Bir veri madenciliği süreci her şeyden önce  üzerine odaklanmış ve açık bir dille ifade edilmiş olmalı, elde edilecek sonuçların başarı düzeylerinin nasıl ölçüleceği tanımlanmalıdır. Sorun ile tam örtüşmeyen bir veri madenciliği çalışması, sorunu çözmeye yetmeyeceği gibi sonuçta başka problemlerin de ortaya çıkmasına neden olabilecektir.

Verilerin Hazırlanması

Verilerin hazırlanması aşaması kendi içerisinde toplama ve uyumlaştırma, birleştirme ve temizleme ve seçme adımlarından meydana gelmektedir.

Seçim

Tasarlanması ve kurulması gereken modele göre bir veri seçim işlemi ve verilerin analiz edilip ayıklanma işleminin bu adımda yapılması gerekmektedir.

Modelin Kurulması ve Değerlendirilmesi

Tanımlanan problem için en uygun modelin bulunabilmesi, olabildiğince çok sayıda modelin kurularak denenmesi ile mümkündür.Modelin kurulması için gerekli iskeleti oluşturmak yani veri sayısı, verilerin sınıflandırılması gözden geçirilmesi önemlidir çünkü tek bir çatı altında yer alan verilerin seçilmesi ve ayıklanmasında bize kolaylık sağlayacaktır.Bir örnekle açıklayabiliriz;

                                                           Fiili
Tahmini           A Sınıfı               B Sınıfı               C Sınıfı
A Sınıfı                    45                        2                            3
B Sınıfı                    10                        38                          2
C Sınıfı                     4                         6                          40

Yukarıdaki tabloda fiilen B sınıfına ait olması gereken 46 elemanın, kurulan model tarafından 2’sinin A, 38’inin B, 6’sının ise C olarak sınıflandırıldığı matrisde kolayca görülebilmektedir.

Kaynakça:

Wikipedia Veri Madenciliği

Veri Madenciliği Word Dosyası