TBD İSTANBUL

VERİ MADENCİLİĞİ PANELİ

5 MART 2005

 

 

 

 

 

 

 

 

 

 

 

 

VERİ MADENCİLİĞİ TEKNİKLERİ

 

OSMAN KÖROĞLU

BİLGİ ÇAĞI DERGİSİ EDİTÖRÜ

MARMARA ÜNİVERSİTESİ

BİLİŞİM DOKTORA GRUBU 2004-2005


1. GİRİŞ

 

Bu çalışmada veriyi işleyip anlamlandırmakta kullanılan veri madenciliği tekniklerini özetleyip, sıkça kullanılan teknikler hakkında bilgi vereceğiz.

 

Veri madenciliği yapılırken karşılaşılan başlıca zorlukları şöyle sıralayabiliriz:

 

—Çok geniş veri tabanları içinde yüzlerce alan ve tablo, milyonlarca kayıt,

—Çok boyutlu ve belli bir kalıba sokulamayan veriler,

—Verinin ve bilginin sürekli değişmesi,

—Kayıp ve gürültülü (noisy) veriler,

—Veri alanları arasındaki karmaşık ilişkiler,

—Tekrar eden kalıpların, desenlerin anlaşılması,

—Kullanıcı etkileşimi,

—Diğer sistemlerle bütünleşme.

 

Veritabanlarından anlamlı veri elde etme sürecinde yer alan adımlar şöyle sıralanabilir:

 

A) Veri Seçimi (Data Selection): Bu adım birkaç veri kümesini birleştirerek, sorguya uygun örneklem kümesini elde etmeyi gerektirir.

B) Veri Temizleme ve Önişleme (Data Cleaning & Preprocessing): Seçilen örneklemde yer alan hatalı kayıtların çıkarıldığı ve eksik değerlerin değiştirildiği aşamadır. Bu aşama elde edilecek bilginin kalitesini arttırır.

C) Veri İndirgeme (Data Reduction): Seçilen örneklemden ilgisiz olanların atıldığı ve tekrarlı kayıtların ayıklandığı adımdır. Bu aşama seçilen veri madenciliği sorgusunun ya da yönteminin çalışma zamanını iyileştirir.

D) Veri Madenciliği (Data Mining): Verilen bir veri madenciliği sorgusunun ya da yönteminin (sınıflama, kümeleme, eşleştirme, vb.) işletilmesidir.

E) Değerlendirme (Evaluation): Keşfedilen bilginin geçerlilik, yenilik, yararlılık ve basitlik kıstaslarına göre değerlendirilmesi aşamasıdır.

 

Uzmanlar veri madenciliği uygulamalarının giderlerinin yüzde 60-80 oranında verinin hazırlanması ve temizlenmesi aşamasında ortaya çıktığı görüşüne katılıyorlar. Tüm bu zorlukları aşabilmek için ileride sayacağımız bazı teknikler kullanılır.

 

2.VERİ MADENCİLİĞİ TEKNİKLERİ

 

Hemen tüm veri madenciliği yazılımları, sayacağımız tekniklerin bir ya da birden çoğunu kullanırlar. Aynı şekilde hemen tüm uygulamalarda, herhangi bir veritabanındaki veriler bir başka özel veritabanına madenciliğe hazır halde aktarılabiliyor ya da sadece raporlama yapılabiliyor.

 

Yüksek satın alım gücüne sahip müşterilerin satın alma alışkanlıkları hakkında bilgi edinmek için, bazı yolsuzlukları açığa çıkarmak için ya da belirli veriler arasında olabilecek ilişkileri ortaya çıkarmak için farklı yöntemler kullanılabilir. Scuba dalgıç takımları alan insanların Avustralya’ya seyahat etme eğilimlerine sahip olduklarını öğrenmek ya da hazır bebek maması alanların yüzde 90’ının bebek bezi de aldığı bilgisi bazıları için faydalı kararlar ve iş sonuçları ortaya çıkarabilir.

 

Byte dergisinde 1995’te yayınlanan bir makaleye baktığımızda ilk kullanılan teknikler arasında zeki ajanlar, çok boyutlu analiz araçları ve veritabanı sorgularının sayıldığını görüyoruz. Zeki ajanlar, genellikle “şu olursa, şunu yap” şeklinde kodlanmış ufak yazılımlardır. Çok boyutlu analiz amacıyla kullanılan bir yöntem de OLAP (online analytical processing). Bu yöntemle tekrar eden biçimde satış, gelir, pazar payı ya da ürün bilgileri çok boyutlu biçimde kombinasyonlar halinde incelenir. OLAP sayesinde zaman serileri çerçevesinde incelemeler de yapılabilir. Örneğin çalışanların ürün hattı boyunca toplam gelire olan kişi başı katkıları gibi bilgiler buradan elde edilebilir.

 

Genel olarak veritabanlarından klasik sorgular yoluyla elde edilmesi çok zorlayıcı, bazen de imkânsız olan bilgileri alabilmek için veri madenciliği yöntemleri kullanılır.

 

Bu alanda kullanılan başlıca teknikleri şöyle sıralayabiliriz: İlişki keşfi (Associasion Discovery), Bayesian istatistikleri (Bayesian Statistics), Bayesian ağları (Bayesian Networks), Sınıflandırma, sınıflandırma ağaçları (Classification, Classification trees), Sınıflandırma ve regresyon ağaçları (Classification and Regression trees), Kavramsal kümeleme (Conceptual Clustering), Karar ağaçları (Decision Trees), Bulanık/Nispi mantık (Fuzzy Logic), Genetik algoritmalar (Genetic Algorithms), Tanımlama ağaçları (Identification trees), Tümevarım ağaçları (Induction trees), En yakın komşu (K Nearest Neighbor and Nearest Neighbor), Yapay Sinir ağları (Neural Networks), Sayısal Kestirim/Tahmin (Numerical Prediction), Tahmini modelleme (Predictive Modeling), Regresyon (Regression), Kural tümevarımı (Rule Induction), Kural takımları (Rule Sets), Semantik sorgu optimizasyonu (Semantic Query Optimization), Ardışık kalıp keşfi (Sequential Pattern Discovery), Benzer zaman sıralarının keşfi (Similiar Time Sequence Discovery), İstatistik (Statistics), Görselleştirme (Visualization).

 

Veri madenciliği yazılımları, kullanılan tekniklere göre konu yönelimli analitik sistemler, istatistik paketleri, evrimsel programlama, hafıza temelli anlamlandırma (memory based reasoning) ve karar destek ağaçları gibi farklı başlıklarda da gruplanabilir.

 

Konu yönelimli analitik sistemler finans alanında teknik analiz amacıyla eğilim belirleme ve en uygun yatırım araçlarının tespiti için kullanılır. İstatistik paketleri veri madenciliği için regresyon, korelasyon ve faktör analizleri gibi teknikleri kullanırlar; ancak belirlenecek ilişkileri ortaya çıkarmak için kullanıcı tarafından gelecek hipoteze ihtiyaç duyarlar.

 

Evrimsel programlama, veri madenciliği alanındaki en yeni tekniklerdendir. Bu teknikle çalışan sistem, otomatik olarak hedef değişkenin diğer değişkenlere bağımlılığı konusunda hipotezler üretir ve bunları dâhili programlar halinde ortaya koyar. Sistem, gözlenen bağımlılığı yeterince iyi tanımlayan bir hipoteze rastladığında, bu program üstünde çeşitli ufak değişikliklere (evrimlere) gider. Süreç sonunda elde ettiği farklı programlar arasından en iyisini seçer. Bunlar da tahminin en kesin olduğu programlardır. Elde edilen program/hipotez, matematik formül ya da kestirim tabloları gibi kullanıcı tarafından anlaşılabilecek halde sunulur. Finans ve ilaç üretimi alanında etkin olarak kullanılmaktadır.

 

Hafıza temelli usa vurum/muhakeme (memory based reasoning) tekniğini kullanan sistem, gelecekteki bir durumu tahmin edebilmek ya da doğru karar verebilmek için, geçmişte gerçekleşen ve şimdiki zamandaki duruma en benzer durumu alır, geçmişteki duruma uygulanan çözümü doğru kabul ederek şu anki duruma uygular. En yakın komşu metodu olarak da bilinir. Ancak bu sistemler belirli bir kural ya da model üreterek önceki tecrübeleri özetlemezler.

 

Karar destek ağaçları tekniği, sınıflandırma konusundaki görevlerde kullanılır. Sınıflandırma amacıyla “if... then...”  kalıplarıyla üretilen kurallar, kökten başlayarak, dallara ayrılan bir yapı ortaya koyar. Sisteme “A değişkeninin değeri X mi?” diye sorularak kökten dallara doğru süreç takip edilir. En sonunda yaprak adı verilen son noktaya ve istenilen cevaba gelinir. Ancak üretilen ağaç çok fazla dallara ayrılıyorsa, istatistiksel olarak sürekli kullanılabilir ve anlamlı bir veri üretme ihtimali azalır.

 

3.SIK KULLANILAN VERİ MADENCİLİĞİ TEKNİKLERİ

 

Yukarıda sayılan tekniklerin hepsi her zaman kullanılmaz. Genelde kullanılacak tekniğin seçimi, değerlendirilmesi gereken verinin hangi türde olduğu ve elde edilmeye çalışılan bilginin türü ile ilgilidir. Günümüzde en çok kullanılan yöntemler sınıflandırma, kümeleme, sinir ağları, eşleştirme, sıra-tabanlı (sequence based) analizler, kestirim ve görselleştirmedir.

 

3.1. Sınıflandırma

 

Sınıflandırma, daha önceden sınıflandırılmış örnek takımları kullanarak, geniş çaplı olarak eldeki kayıtları sınıflayabilecek bir model geliştirmek yoluyla gerçekleştirilir.

 

Bu yöntem sıklıkla karar ağaçları ya da yapay sinir ağları temelli sınıflandırma algoritmalarında kullanılır. İlk olarak daha önce incelenmiş ve sınıflandırılmış örnek takımlarıyla yola çıkılır. Sınıflandırma algoritması, bu örnekleri, veriler arasında uygun ayırıma (discrimination) gidebilmek için gereken parametre takımlarına karar vermekte kullanır. Daha sonra algoritma sayesinde, elde edilen parametreler sınıflayıcı (classifier) adındaki bir modeli oluşturmak üzere kodlanır (encode).

 

Bir defa etkin bir sınıflayıcı oluşturulunca, veriler kestirim modunda daha önceden oluşturulan bu sınıflara göre ayırılabilir. Örneğin, riskli kredileri ayırdedebilen bir sınıflayıcı sayesinde, bireylere verilecek krediler konusunda karara varılabilir. Yaygın kullanım alanları, kredi onaylama işlemi dışında, kredi kartı sahteciliği tesbiti ve sigorta risk analizidir.

 

3.2. Kümeleme

 

Kümeleme yaklaşımı, bölümleme (segmentation) sorunlarını çözmekte kullanılır. Bu yaklaşımla, birçok özellikleriyle varolan veri kayıtları, nispi olarak küçük gruplara ya da kümelere atanır. Bu süreç, otomatik olarak veri takımlarının ayırdedici karakteristiklerini tanımlayan ve bu özellikleriyle ortaya çıkan çok boyutlu uzay içinde ince bölmelerle birbirinden ayıran kümeleme algoritmaları ile gerçekleştirilir. İstenilen gruplamaları ya da bölümlemede kullanılacak özellikleri tanımlamaya ihtiyaç yoktur.

 

Kümeleme çoğunlukla veri madenciliği analizlerinde ilk adımlar arasındadır. İleri seviyedeki ilişkileri keşfetmeyi başlatabilecek ilişkili veri gruplarını tanımlar. Bu teknik, demografi tabanlı müşteri bölümleme benzeri nüfus bölümleme modellerinin gelişimini destekler. İstenilen sonuçlar çerçevesinde ilave standart analitik ve diğer veri madenciliği teknikleri kullanılarak, ortaya çıkan kümelerin karakteristiklerini belirlemede kullanılabilir.

 

3.3. Yapay Sinir Ağları

 

Bir sinir ağı, her biri küçük birer yerel hafızaya sahip olan birçok basit işlemci birimlerden oluşan bir ağdır. Birimler tek yönlü iletişim kanallarıyla bağlıdır. Bu kanallardan sembolik değil, sayısal veriler aktarılır. Birimler kendi yerel verileri ve kendilerine bağlantı yoluyla gelen girdiler üstünde işlem yaparlar. Bir yapay sinir ağı algoritması için, işlenmesi gereken örnekler birer birer verilir. Bu örneklerin her biri için gerçek çıktı, istenilen çıktı ile karşılaştırılır, ölçümlere tabi tutulur. İstenilen çıktı daha önceden uygun olarak belirlenen sayısal değerlere göre bulunur.

 

Resim tanıma (image recognition) alanındaki problemlerin aşılmasında yapay sinir ağları tekniği etkin biçimde kullanılmaktadır.

 

3.4. Eşleştirme

 

Eşleştirme yaklaşımı tipik olarak market-sepet analizleri ile örneklenen bir problem sınıfını hedefler. Genellikle müşteri işlemlerini tutan geniş bir veri tabanı üstünden yola çıkılır. Her işlem, müşterinin alışveriş merkezini ziyaret ettiğinde satın aldığı nesnelerden oluşur. Hedef, işlem içerisinde bulunan bir takım nesnelerin, diğer bir takım nesnelerin varlığına yönelik olan tüm ilişkilerini keşfetmektir. Sıkça bahsedilen bir örnek, bir marketler zincirinin veri madenciliği ile çocuk bezi alımı ve bira alımı arasındaki ilişkiyi fark etmesi ve diğer teknikleri de kullanarak, işten eve dönerken markete uğrayan babaların alışveriş tercihlerini ortaya çıkarmasıdır. Yaygın kullanım alanları katalog tasarımı, mağaza ürün yerleşim planı, müşteri bölümleme ve telekomünikasyondur.

 

3.5. Sıra Tabanlı Analizler

 

Bu analizlerin hedefi, bir işlem veri tabanında belli bir süre zarfında gerçekleşen işlemler arasındaki ilişki kalıplarını, desenlerini bulmaktır. “Bir takım nesnelerin varlığı, diğer bir takım nesnelerin varlığından kaynaklanıyor mu?” sorusu araştırılır. Geleneksel market-sepet analizleri sadece belli bir anda gerçekleşen satın almalar ile ilgilenir. Ancak bir zaman serisi içerisinde, gerçekleşen satışları başka bir değişkenle, örneğin bir müşteri numarasıyla ilişkilendirerek başka bir varyasyon elde edilir. Bu durumda bir işlemde sadece farklı nesnelerin bir arada satın alınması değil, aynı zamanda bu nesnelerin satın alınma sıraları, aralarında geçen zaman gibi değişkenler de önem kazanır.

 

Bu ilişkileri etkileyen kurallar çerçevesinde satın alımlar önceden tahmin edilerek buna göre müşteriye yönelik kampanyalar düzenlenebilir. Hangi nesnelerin satın alınmasının, diğer nesnelerin satın alınmasına yol açtığı ortaya çıkartılabilir. Bu teknik perakende satış, telekomünikasyon ve tıp alanlarında yararlıdır.

3.6. Kestirim

 

Sınıflandırma probleminin bir varyasyonu da, verinin çeşitli boyutlarıyla puanlanmasıyla ilgilidir. Böylece, sayısal bir sınıflayıcı (classifier) kullanarak kredi isteyen bir müşterinin risk durumunun ortaya çıkarılmasındansa, kestirim (estimation) yaklaşımıyla müşteri kredi verilebilirlik konusunda puanlanır. Kestirim, varolan veriler arasındaki ilişkileri, varolan verileri kullanarak tahmin etmeyi içerir. Point ve interval olmak üzere ikiye ayrılır.

 

[Farkları: Forecast zaman değişkeni itibariyle bir diğer değişkene bakılarak yapılan tahmindir. Prediction birbirini etkileyen değişkenler arasındaki ilişkilere göre zaman boyutu olmadan yapılan tahmin.]

 

3.7. Görselleştirme

 

Bu yöntem analiz uzmanlarına veritabanlarındaki verinin görsel özetini sunar. Bu yöntem aynı zamanda diğer veri madenciliği teknikleri ile elde edilen bilgilerin anlaşılmasında da kullanılabilir.

 

Bazı yöntemler satırlar ve sütunlar boyunca yazılmış rakamları içeren tabloları kontrol etmeyi gerektirir. Bunun yerine aynı veriler grafikler kullanılarak ortaya konulduğunda çok daha belirgin hale getirilmiş olur. Veri madenciliği, kullanıcının etkileşimli olarak istediği bilgileri hızla ve kolayca görselleştirmesini ve kullanılacak görselleştirme yöntemini seçmesini gerektirir. Görselleştirme istatistiksel testler kullanıldığında elde edilen bilgiler arasında kaybolabilecek küçük veri takımları içindeki bilgilerin ve olayların fark edilmesinde de önemlidir.

 

4. UÇ SEVİYE (EXTREME) TEKNİKLER

 

Internet tabanlı uygulamalardan kaynaklanan terabyte boyutlu log dosyalarını inceleme ihtiyacı, uç seviyede veri madenciliği tekniklerinin geliştirilmesini gerekli kıldı. Bu teknikler sayesinde elde edilen bilgiler, bilgi mühendislerine hızla iş kararları alma fırsatı verdi. Bu tekniklerin geliştirilmesine kadar varolan teknikler, büyük boyutlu log dosyalarının işlenmesinde kullanılamayacak özellikteydi. Varolan teknikler kullanıldığında hatalı sonuçlar elde ediliyordu. “Extreme Value Theory Methodology-EVT” adı verilen yöntem ile yük testleri, güvenilirlik, pazarlama bilgisi, finans bilgisi alanlarında faydalı sonuçlar elde edilebiliyor.

 

Matematiksel ve istatistiksel formüllerle etkin biçimde ortaya konulan bu teorinin detayları bu çalışmanın kapsamı dışındadır. Yine de bu teori çerçevesinde oluşturulan metodoloji ile elde edilen bazı faydaları şöyle sıralayabiliriz:

 

Pazarlama: Elde edilen uç seviyede değerler (extreme value) sayesinde pazarlama stratejileri zaman değişkeni çerçevesinde belirlenebilir. Dönemsel satış, kampanya, bölgesel satış ya da belli ürün bölümleri ele alınabilir.

 

Yönetim: Uç seviyede satışların gerçekleştiği bir dönemde, diğer iş alanlarında gerçekleşen verimlilik değişimleri işletme için önemli olabilir. Bu durumda iş stratejisi, müşteri beklentileri ve organizasyonun yeteneği arasındaki ilişkileri düzenleyecek önemli kararlar alınabilir.

 

Planlama: Geleceğe yönelik planlama sırasında, herhangi bir zaman noktasında kurumun içinde bulunacağı durumun tahmin edilmesinde önemli bilgiler elde edilebilir. Fiyatlandırma gibi tüm unsurlar hakkında kesinlik derecesi yüksek sonuçlar alınabilir.

 

Her saat ortalama 5 GB boyutunda log dosyası üreten bir elektronik işletme web sitesi için bu boyuttaki verileri işleyebilecek araçlara gerek vardır. Bu noktada geleneksel araçlar analiz sürecinde yetersiz kalır.

 

5.ÖRNEK UYGULAMALAR

 

Günümüzde bu alanda çalışan firmalar, CRM gibi stratejileri de, ERP ve SCM gibi süreç takibi gerektiren sistemleri de, veri madenciliğini de Kurumsal Zekâ (Business Intelligence) başlığı altında topluyorlar. Burada yöneticilerin beklentisi karmaşık konularda raporlamayı mümkün kılan sistemler. Klasik sistemlerden alınan temel raporlar, yöneticilere yetmemeye başladı. Çünkü rekabet yöneticileri farklılık için değişik stratejiler geliştirmeye itiyor. Verinin madencilik yapılarak işlenmesi burada önem kazanıyor.

 

SAS Institute tarafından veri madenciliği süreçlerini özetlemek üzere SEMMA kısaltması kullanılıyor [Sample (örnekleme), Explore (keşfetme), Modify (değiştirme), Model (modelleme) ve Assess (değerlendirme)].

 

Sample (örnekleme): Geniş veri takımının belirgin bilgileri içerecek ama kolay uğraşılabilecek bir parçasını almak hedeflenir.

 

Explore (keşfetme): Kuramsal olarak düşünerek umulmayan eğilimler ve anomaliler için aramalar yapmak, böylelikle veriyi anlamak ve fikirler üretmek hedeflenir. Burada, ilk adımda örneklenen veri, görsel ve sayısal olarak verinin doğasında olan eğilimleri ortaya çıkaracak şekilde ortaya konulur. Burada görselleştirme dışında istatistik teknikleri ve kümeleme de kullanılabilir.

 

Modify (değiştirme): Model üretim sürecine odaklanmak için, elimizdeki değişkenleri değiştirmek, yenilerini seçmek ya da yaratmak hedeflenir. Keşfetme aşamasında elde edilen bilgilere göre veri yeniden gruplanabilir ya da başka değişkenler eklenebilir. Aynı şekilde değişkenler azaltılarak istenilenler belirgin hale de getirilebilir. Bu aşamada veri madenciliği için ele alınan veriyi değiştirmek de gerekebilir. Veri madenciliği sürekli tekrarlanan dinamik bir süreç olduğu için kullanılan metot ve modeller yeni veri ile birlikte değişebilir.

 

Model (modelleme): İstenen bir sonucu (outcome) güvenilir bir şekilde tahmin edebilen (predict) bir değişken kombinasyonu otomatik olarak aranır. Veri hazır olduğunda, içindeki kalıpları/desenleri açıklayan modeller üretilebilir halde demektir. Bu aşamada yapay sinir ağları, karar ağacı ve diğer istatistiksel yöntemler kullanılarak modelleme yapılabilir.

 

Assess (değerlendirme): Veri madenciliği sürecinin sonunda elde edilen bulguların kullanışlılık ve güvenilirlik açısından değerlendirilmesi yapılır. Ortaya çıkan model, ilk örnekleme ile alınan ve sağlama yapmak üzere kenara ayrılan bir veri grubuna uygulanır. Bir model hem kendini oluşturmada kullanılan ilk grup örnekleme verisinde, hem de sağlama verisinde aynı sonuçları veriyorsa başarılı kabul edilir ve kullanılabilir. Aynı şekilde daha önceden bilinen veriler üstünden de deneme yapılabilir. Örneğin hangi müşterilerin daha fazla markaya bağlılığı olduğu biliniyorsa, modelin aynı müşterileri markaya bağlı olarak işaret etmesi, doğruluğunu gösterecektir.

 

IBM, HP gibi firmalar ürettikleri veritabanı yazılımlarına veri madenciliği işlevleri de ekliyorlar. Software AG ve Business Objects gibi büyük firmalar da bu alanda faaliyet gösteriyor.

 

Bazı ürünler ve özellikleri şöyle sıralanabilir:

 

•Intelligent Miner: Eşleştirme, sınıflama, tahmin modelleme, gruplama, sıralı desen analizi, regresyon analizi gibi fonksiyonları içeren IBM ürünü bir sistemdir. Ayrıca yapay sinir ağları algoritmaları, istatistik metotları, veri hazırlama ve görsel gösterim araçları gibi ek özellikler içerir. •Enterprise Miner: Regresyon, sınıflama ve istatistik analiz gibi fonksiyonları içeren SAS ürünü bir sistemdir. İstatistik analiz araçlarının çeşitliliği en önemli özelliğidir.

•Mineset: Eşleştirme, sınıflama gibi fonksiyonları ve istatistik ve görsel araçlar gibi özellikler sahip Silicon Graphics ürünü bir sistemdir. Veriyi pek çok formda gösterebilen grafiksel arayüzü en önemli özelliğidir.

•Clementine: Kural tümevarım, yapay sinir ağları, sınıflama ve görsel araçlar gibi özellikleri destekleyen, Integral Solutions ürünü bir sistemdir. Nesne tabanlı genişletilmiş modüler arayüzü en önemli özelliğidir.

•DBMiner: OLAP analizi, eşleştirme, sınıflama ve gruplama algortimalarını içeren DBMiner Technology ürünü bir sistemdir.

 

Kurumlar müşterilerine ilişkin bilgilerini artırdıkça, onlarla birebir ilişkiye girebilir ve müşteri ilişkileri yönetimi ya da CRM konusundaki stratejik çalışmalarını da daha etkin gerçekleştirebilir hale gelirler. Veri madenciliği konusunda başarılı örnek çalışmalar için SAS ve Oracle firmalarının siteleri ziyaret edilebilir.

 

6.KAYNAKLAR

-Zhihua Xiao, “Statistics and Data Mining”, 2000, Singapur

-Heikki Mannila, “Methods and problems in data mining”, 1997, Yunanistan

-Karen Watterson, “A Data Miner’s Tools”, Byte, Ekim 1995

- Robert Groth, “Five Points About Using Data Mining To Your Competitive Advantage”, Kasım 1997

-V.C. Chavez-Moulin, S.A. Jarvis, R. Perera, A.S.A. Roehrl, S.W. Schmiedl ve M.P. Sondergaard, “Extreme Datamining”, Haziran 2001

-“Datamining Overview”, Mark Brown, John Brocklebank, SAS Institute, Mart 2000

-“Data Mining Systems”, http://www.megaputer.com, Mart 2005

-http://www.sas.com, Mart 2005

-http://www.oracle.com, Mart 2005

-Hayri Sever, Buket Oğuz, “Veritabanlarında Bilgi Keşfine Formal Bir Yaklaşım”, Ankara, 2003

1