Veri Madenciliği (Data Mining) Nedir? Nasıl Yapılır?
Günümüzde her sektörde her işlemin internet tabanlı yapılmasına bağlı olarak her an yüklü miktarda veri oluşur.
Bir videoyu izlerken bir başka videoyu es geçmek, internet bankacılığında belirli bir hesabı belirli bir pazar yerinde kullanmak ya da bir lokasyondaki kullanıcıların aynı tarzda fotoğraflar paylaşması veriye örnek olarak verilebilir. Küçük ya da büyük ölçekli şirketler kullanıcılarının oluşturduğu verileri inceler ve çıkarılan sonuçlara dayalı pazarlama faaliyetleri güder. Veri madenciliği de bu noktada devreye girer.
Bilgisayar biliminin bir alt dalı olan veri madenciliği (Data mining) en basit anlatımıyla büyük veri kümeleri arasından işe yarayanları, kullanılabilecekleri ayıklama sürecine verilen isimdir. Veri madenciliği ibaresinin İngilizce karşılığı data mining şeklindedir. Altın bulmak isteyen bir madencinin sıradan taşları es geçerken altınlara değer vermesi ve altını diğer taşlardan ayıklamak için emek göstermesi veri madenciliği sürecine örnek olarak verilebilir. Altın bulmak isteyen madencinin kullandığı kürek, kazma ve iş makinaları, veri madenciliğinde kullanılan algoritma, modül ve yazılımlara karşılık gelir. Veri madencileri de büyük veri kümelerini kazar, verileri ayrıştırır, parçalar, birleştirir, analiz eder ve değerli veriye ulaşır.
Veri Madenciliği Nasıl Yapılır?
Bir diğer adı data mining olan veri madenciliğinin işleme süreci farklılık gösterebilir. Günümüzde kullanılan birçok veri madenciliği yöntemi bulunur. Veri madencileri işleyecekleri verinin büyüklüğü ve niteliğine göre bu yöntemler arasından bir seçim yaparak süreci başlatır. Genel olarak veri madenciliği süreçleri belirli aşamalarla ilerler. Her sektörden kullanıcı veri madenciliği nasıl yapılır sorusuna cevap arar. Veri madenciliği en basit prensipleriyle şu şekilde yapılır:
- İlk olarak verilerin temizlenmesi gerekir. Verilerin bulunduğu kaynağa veri havuzu ismi verilebilir. Veri havuzunda yer alan verilerin ayıklanması, işe yarayacak olanların ortaya çıkarılması gerekir.
- Veri havuzunda sadece işe yarayacak veriler kaldıktan sonra süreç sonunda yapılacak analizin daha tutarlı ve kesin olabilmesi için farklı kaynaklardan veriler havuza eklenir. Söz konusu farklı veri kaynağı oluşumun kendi kaynakları olabileceği gibi aynı sahada faaliyet gösteren başka bir oluşuma ait de olabilir.
- Veri havuzuna farklı kaynaklardan veriler de eklendikten sonra tekrar ayıklama işlemi gerçekleştirilir. Veri madenciliği sürecinde tutarlı bir ayıklama yapmak gereksiz kaynak kullanımını ve vakit israfını engeller.
- Ayıklama işleminden sonra verilerin dönüştürülmesi gerekir. Bu dönüştürme işlemi verinin işlenebilmesi açısından önemlidir. Seçilen veriler kullanılacak veri madenciliği yönteminin gerektirdiği formata dönüştürülür.
- Asıl veri ‘madenciliği’ süreci bu aşamada başlar. Veriler programlar, algoritmalar sayesinde işlenir ve örüntüler elde edilir. Örneğin belirli bir yaş grubunun belirli bir sosyal medya platformunda vakit geçirmesi verisi örüntüye örnek olarak verilebilir.
- Elde edilen örüntüler işlenerek bilgi parçalarına dönüştürülür. Bu aşamada veri madenciliğinin amacı gerçekleşmiş olur. Oluşum elindeki verileri inceleyerek örüntüler elde etmiş, değerlendirmeler ve analizler yapmıştır. Bu bulgular oluşumun bir sonraki adımını kararlaştırmasını kolaylaştırır.
Veri madenciliği sadece bu adım ve prensiplerle sınırlı değildir. Veri madenciliği uygulama alanları oldukça geniştir ve saha faaliyetlerine göre madenciliğin adımlarının tamamı değişiklik gösterebilir.
Veri Madenciliği Aşamaları
Veri madenciliğinde aşamalar ulaşılmak istenen sonuca göre değişiklik gösterebilir. Veri madenciliğinin başlıca aşamaları şu şekildedir:
- Veri yığını elde edilir ve güvenliği sağlanır. Siber güvenlik veri madenciliği alanında oldukça önemlidir. Veri kümelerinin güvensiz bir şekilde muhafaza edilmesi veri madenciliğinin amacına ulaşmasını engellediği gibi olumsuz sonuçlar da doğurabilir.
- Gerektiği durumlarda farklı kaynaklardan veriler eklenir ve veri havuzu zenginleştirilir. Veriler ayıklanır ve işe yarar nitelikte olanlar belirlenir. Yapılacak olan analize dair bilgiler bu aşamada seçilir. Örneğin müşteri kitlesinin hangi yaş aralığında olduğunu bilmek isteyen bir oluşumun veri madenciliği sırasında müşterilerin hangi lokasyondan sistemlere giriş yaptığı bilgisine ihtiyacı yoktur. Oluşumun yaşa dair bilgileri alması ve lokasyon, cinsiyet gibi bilgileri ayıklaması veri seçme aşamasına örnek olarak verilebilir.
- Veri dönüşümü yapılır. Bu aşamada veriler veri madenciliği sürecinde kullanılan tekniklerin gerektirdiği formata dönüştürülür.
- Veriler işlenmeye başlanır. Veri madenciliği adını bu aşamadan alır. Bu aşamada veriler seçilidir ve elde işe yarar veriler bulunur. Algoritmalar verileri değerlendirerek çeşitli örüntüler oluşturur. Veri madenciliğinde kullanılan araçlar bu aşamada devreye girer. Kodlama dilleri, yazılımlar, modüller ve paketler veri madenciliği programları arasında yer alır.
- Son aşama ise örüntülerin değerlendirilmesidir. Oluşan örüntüler tablolara, çizelgelere, yazılara ve raporlara dönüştürülerek istenilen parametreler elde edilir. Veri madenciliği süreci böylece tamamlanmış olur.
Veri Madenciliğinde Kullanılan Yöntemler
Data mining sürecinde kullanılan yöntemler şu şekildedir:
Sınıflandırma: Verilerin ayıklanması ve işe yarayacakların seçilmesi.
Kümeleme: Veri havuzunda birbirine benzer verilerin aynı kümeye yerleştirilmesi, veri havuzunun bölümlere ayrılması.
Regresyon: Veri kümeleri arasındaki mantıksal, istatistiksel ve tahmini ilişkilerin belirlenmesi.
Birliktelik kuralları: İki veri oluşumu arasındaki ilişkilerin incelenmesi ve örüntülerin oluşturulması.
Aykırılık analizi: Oluşturulan örüntü ya da tespit edilen ilişkilere aykırı durumları belirten verilerin seçilmesi.
Zaman analizi: Veri örüntülerinin kronolojik olarak sıralanması, belirli bir zaman diliminde yoğunlaşan, azalan ya da benzeşen verilerin değerlendirilmesi.
Tahmin: Belirli bir zaman aralığında popüler olan, ilgiye maruz kalan, arka sıralara düşebilecek olguların, olayların uzun süreli verilerin işlenmesine dayalı tahmini.
Veri Madenciliği Hangi Alanlarda Kullanılır?
Veri madenciliği günümüzde neredeyse her alanda, her ölçekten oluşum tarafından kullanılır. Kullanım alan ve amaçlarının başlıca şu şekildedir:
- Sigortacılık
- Bankacılık
- Pazarlama
- e-Ticaret
- CRM (Müşteri İlişkileri Yönetimi)
- Güvenlik
- Bülten ve Abonelikler
- Bilgisayar sistemleri
- Çapraz satış
- Büyüme ve küçülme tahminleri, analizleri
- Hedef kitlesinin genişletilmesi
- Kampanyalar ve müşterilerin geri tepkisi
Veri Madenciliğinde Kullanılan Programlar
Günümüzde en çok kullanılan veri madenciliği programları, hâlen en çok tercih edilen SPSS ve SAS programlarıdır. SPSS veri madenciliği çözümünde CLEMENTINE adı verilen yapay zekâ ve istatistik bileşenli algoritmaları bir arada sunan bir alt sistem üzerinden çalışır. Bununla birlikte diğer bir önemli program olan SAS ise kullanımı daha kompleks ancak daha güvenilir olan ENTERPRISE MINER adlı alt bir yazılımdan faydalanır. Bu sistem sıklıkla bankacılık, eğitim, sigorta, perakende ve kamu sektörlerinde tercih edilir.
Veri Madenciliğinde Güvenlik
Veri madenciliği sürecinde güvenlik oldukça önemlidir. Veri madenciliğinin ilk aşaması veri havuzunun güvenli hale getirilmesine dayalıdır. Veri havuzunun, madencilik sürecinin, algoritmaların güvenli olması alınacak sonuca doğrudan etki eder. Oluşumlar uygun düzeyde bir sonuç alabilmek için siber güvenlik kanadına eğilmelidir. Data mining sürecinde siber güvenlik büyük önem taşır.
Veri Madenciliği ve Siber Güvenlik
Günümüzde siber güvenlik faaliyetlerine veri madenciliği sıklıkla kullanılır. Verilerin işlenmesini mümkün kılan veri madenciliği teknikleri siber güvenliğin artırılması amacıyla sıklıkla kullanılır. Data mining faaliyetleri sayesinde elde edilen bilgiler siber dolandırıcılık, zorbalık ve iletişim kanalları üzerinden gerçekleşen siber saldırılara karşı güvenlik seviyelerinin artırılmasını sağlar.
Veri Madenciliği Örnekleri
Data mining sürecinin daha iyi anlaşılabilmesi için veri madenciliği örnek projeleri baz alınabilir. Örnekler sürecin sahada nasıl işlediğini açıkça belirtir ve faaliyetin anlaşılıp değerlendirilebilmesini sağlar. Veri madenciliği örnekleri şu şekildedir:
- Bir sigorta şirketi müşterilerinin risk sınıflarını, yaşlarını ve cinsiyetlerini öğrenmek için veri madenciliği yöntemlerini kullanabilir. Veri madenciliği süreci başlatılır ve sigorta şirketinin veri havuzundaki veriler ayıklanır, sınıflara ayrılır ve kümelenir. Gerektiği durumlarda başka bir sigorta şirketinden veriler alınabilir. Veri sağlanması ve ayıklanması tamamlandıktan sonra veriler kullanılacak olan yazılım, algoritma ya da modülün gerektirdiği formata dönüştürülür. Dönüştürme aşamasını işleme adımı takip eder. Kullanılan araç verileri işler, değerlendirir ve örüntüler oluşturulur. Örüntülere bir yaş grubunun sigorta prim ödemelerini geciktirmesi ya da geciktirmemesi örnek olarak verilebilir. Son olarak örüntüler değerlendirilir ve istenilen analiz yapılır. Sigorta şirketi müşterilerinin yaşını, cinsiyetini ve risk sınıfını geniş çapta elde eder ve buna göre pazarlama faaliyetleri yürütür.
- Bir e-Ticaret şirketi hangi ürünlerin çok satılacağını, hangi ürünlerin satılmayacağını tahmin edebilmek için veri madenciliğini kullanabilir. Veri madenciliğindeki tahmin yöntemleri şirketin oluşabilecek trendleri önceden ön görebilmesini sağlar. Şirketin veri havuzu başka kaynaklardan alınan verilerle zenginleştirilebilir. Sonrasında alıcılara ait bu veriler yaş, cinsiyet ve konum gibi parametrelerle kategorize edilir. Veriler dönüştürüldükten sonra örüntüler oluşur ve bilgi parçacıkları haline getirilir. Veri madenciliği yöntemlerinden birisi olan zaman serisi analizi sayesinde e-Ticaret şirketi yılın hangi zamanlarında hangi gruptaki müşterilerin hangi ürün grubuna ilgi gösterdiğini görebilir.
Sıkça Sorulan Sorular
Veri madenciliğinin en temel amacı bilgi elde etmektir. Veri ham ve işlenmemiş kayıt anlamına gelir. Şirketlerin verileri işleyebilmesi, göz önüne alabilmesi ve kritik edebilmesi için verileri bilgiye dönüştürmesi gerekir. Verileri bilgiye dönüştürmek veri madenciliğinin en temel amaçlarındandır. Veri madenciliğinde işe yarar veriler ayıklanır, kümelenir, örüntüler oluşturulur ve son olarak bilgi parçacıklarına dönüştürülür. Bilgi parçacıkları analistler tarafından analiz edilir ve raporlanır. Bu sayede oluşum faaliyetlerine ve etkilerine dair kesin bilgiye sahip olabilir.
Veri madenciliği sürecini büyük oranda algoritmalar ve yazılımlar gerçekleştirir. Sürece dayalı algoritmaları ve yazılımları seçen, aşamaları belirleyen ve alınmak istenen bilgiye göre süreci yöneten kişiye ise ‘veri madencisi’ adı verilir. Veri madencisi olabilmek için algoritmalara dair detaylı bilgilere hâkim olmak, raporlama ve analiz süreçlerini bilmek gerekir.