Dijital Pazarlama, Yeni Başlayanlar İçin

Data Mining – Veri Madenciliği Nedir?

data-mining

Dijital verinin toplanması ve saklanmasındaki gelişmeler, saklanan verilerin üstel bir şekilde büyümesine sebep olmuştur. Diğer yandan hayatın hızla elektronikleşiyor olması, internetin günlük yaşamın ayrılmaz bir parçası haline gelmesi ve teknolojinin alınabilir bir meta olarak toplum nezdinde yaygınlaşması toplanan veri artışını hızlandırmıştır.

Toplanan verilerin çeşidi her gün artmaktadır. Kısaca bir kaç örnek vermek gerekirse; kredi kartı verileri, banka kayıtları, süper market satış verileri, web sitesi kayıtları, e-posta içerikleri, güvenlik amaçlı kullanılan retina ve parmak izi verileri, meteorolojik ve jeofizik veriler ve tıbbi kayıtlar dijital veri toplamanın ve saklamanın ne kadar yaygın olduğunu göstermektedir.

Farklı bilim insanlarının veri madenciliği hakkındaki tanımlamalarına bakıldığında veri madenciliğinin ne olduğu konusunda evrensel bir fikir birliği olmadığını söyleyebiliriz..Veri madenciliği (data mining) konusunda en çok kesişilen tanımı bir kaç kaynaktan toparlamak gerekirse; büyük miktarda verinin anlamlı örüntüler bulmak amacıyla otomatik veya yarı otomatik yöntemler ile işlenmesi olduğunu söyleyebiliriz., Veri madenciliğinin en çok beslendiği bilimsel disiplinlerin istatistik ve makina öğrenmesi olduğunu söyleyebiliriz. Ayrıca yapay zeka alanında yapılan çalışmaların da veri madenciliğine katkıları olmaktadır. Çoğu zaman veri madenciliği, makina öğrenmesi ve yapay zeka birbiri yerine kullanılmakla birlikte, aslında farklı amaçları olan fakat ortak araçları kullanabilen bilimsel disiplinlerdir.

Öneri: Aşağıdaki yazılarımız da ilginizi çekebilir 😉

Veri madenciliği disiplinler arası bir çalışmadır. İstatistik, veri tabanı teknolojileri, makina öğrenmesi, yapay zeka ve görselleştirme gibi bir çok farklı disiplin bünyesinde gelişen yöntemleri kullanır. Bahsi geçen disiplinler arasında sınırlar çizmek zor olduğu gibi, veri madenciliği ile bu disiplinler arasında da sınır çizmek zordur.

Bir veri madencisi bahsi geçen bütün bu disiplinlerden yararlanır. Hangi disiplinden hangi tekniğin veya teknik kombinasyonunun kullanılacağı gerçekleştirilmeye çalışılan amaç ile bağlantılıdır.

Veri Madenciliği ve Makina Öğrenmesi

İlk bilgisayarlar üretildiğinden beri, bilgisayarların insanlar gibi öğrenip öğrenemeyeceği tartışma ve merak konusu olmuştur. Bilgisayarların öğrenmesi konusunu inceleyen akademik disiplin makina öğrenmesidir.

Eğer bir şey, davranışlarını ileride kendisine avantaj sağlayacak bir şekilde değiştirebiliyorsa, o şeyin öğrendiğini söyleyebiliriz.

Makina öğrenmesinin genel bir tanımını yaparsak;  eğer bir bilgisayar programı, belirli bir işteki performansını, tecrübe edindikçe artırıyorsa, makina öğrenmesinden bahsedebiliriz. Makina öğrenmesini ilgilendiren bir kaç öğrenme süreci aşağıdaki gibidir:

  • Konuşulan kelimeleri anlamayı öğrenmek
  • Araba kullanmayı öğrenmek
  • Uzay cisimlerini sınıflandırmayı öğrenmek
  • Satranç oynamayı öğrenmek

Makina öğrenmesi, veri madenciliği gibi bir çok disiplin ile ilişkili bir disiplindir. Yapay zeka, olasılık ve istatistik, bilgi teorisi, psikoloji, felsefe ve sinir bilim disiplinlerinde geliştirilen tekniklerden yararlanır. Veri madenciliğinde kullanılan algoritmaların bir kısmı makina öğrenmesi alanındaki çalışmalar sonucu üretilmiştir.

Veri madenciliğinin istatistik ile makina öğrenmesinin arasında durduğunu söylemiştik. Bu önermeye bir başka önemli kanıt ise karar ağaçları ve yakın komşuluk algoritmalarıdır. Bu iki algoritma da veri madencileri tarafından sınıflama ve kümeleme amacıyla kullanılır. Bu iki algoritmanın başka bir özelliği ise tarihsel olarak eş zamanlı bir şekilde hem makina öğrenmesi ile ilgilenen bilim insanları hem de istatistik ile uğraşan bilim insanları tarafından üstelik birbirinden habersiz bir şekilde bulunmuş olmasıdır.

Girdilerin ve çıktıların, modelleme çalışmasını yapan kişi tarafından belirlendiği yönteme gözetimli öğrenme denir. Bu çalışmada, kullanılan veri madenciliği algoritması, verili girdiden, olması gereken çıktıya en yakın sonucu elde edecek fonksiyonu bulmayı amaçlar. Bir sonraki bölümde bahsi geçecek olan öngörü modellemesi teknikleri gözetimli öğrenme teknikleridir.

Gözetimsiz öğrenmede ise, girdiler ve çıktılar belli değildir. İlgili algoritma bütün verileri girdi olarak alır ve bir örüntü saptamaya çalışır. Yine bir sonraki bölümde bahsi geçecek olan birliktelik analizi ve kümeleme gözetimsiz öğrenme teknikleridir.

Verinin Toplanması

Açık (explicit) bir şekilde veri toplanması genelde öğelerin ziyaretçi tarafından puanlanması, üyelik sırasında veya anketler aracılığıyla ziyaretçiden demografik veri alınması ve ziyaretçi tarafından belirtilen tercihler aracılığıyla olur. Tercih verisi, sistemin doğru öğeleri önerebilmesi için ziyaretçinin ilgilendiği alanları girmesini içerir. Tercih verileri belirli bir öğe kategorisi için olabileceği gibi (örneğin; e-ticaret sitesinde elektronik kategorisi veya sinema sitesinde korku filmleri gibi) veya belirli bir özellik (örneğin; tekstil ürünleri satan bir e-ticaret sitesinde, pamuklu tercihi gibi) bazında olabilir. Değerlendirme (puanlama) verisi ayrık sayısal veri formunda olabileceği gibi, ziyaretçinin yaptığı metin tabanlı yorumlar bazında da olabilir. Sayısal verilerin kullanılması daha kolay olmasına rağmen, daha az güvenirlidir çünkü 3 yıldızın bir ziyaretçi için ifade ettiği, bir başka ziyaretçi için 2 yıldıza denk geliyor olabilir.

Kapalı (implicit) bir şekilde veri toplanması, ziyaretçinin site üzerindeki hareketlerinin izlenmesi ile gerçekleşir. Amaç yine ziyaretçinin öğelere olan ilgisinin saptanmasıdır. Web sitesinin içeriğine göre ilgi kavramı farklılık gösterir. Genel olarak bütün sitelerde ziyaretçinin bir üründe uzun süre geçirmesi, ziyaretçinin o ürüne ilgi duyduğu anlamına gelir. Öğeyi temsil eden web sayfasında geçirilen zaman dışında, bir e-ticaret sitesinde bir öğenin sepete atılması veya sepetten çıkarılması, sayfanın favorilere eklenmesi, ziyaret sıklığı, bir bağlatının izlenmesi veya pas geçilmesi birer ilgi göstergesi olarak alınabilir.

Açık şekilde veri toplamanın bir maliyeti de, bir takım sorulara cevap vermek dışında bir amaçla web sitesine gelmiş olan ziyaretçiyi özelleştirme sürecine aktif katılıma zorlamasıdır. 80’li yıllarda IBM Kullanıcı Arayüzü Enstitüsü tarafından yapılan araştırmaya göre, kullanıcılar bir yazılımı kullanmadan önce, onu daha rahat kullanabilecekleri şekilde ayarlamak ile uğraşmak istemiyorlar. Bu anlamda, ziyaretçiden veri girişi beklemeden çalışabilen, kapalı bir şekilde veri toplayan sistemler önemli bir avantaja sahipler.Kapalı veri toplama ile ilgili olarak en önemli sorun, bütün ziyaretçi işlemlerinin doğası gereği pozitif olması yani ziyaretçinin öğeye ilgisine işaret ediyor olması. Özelleştirme sisteminin, negatif davranışları da analiz sürecine katması için bir takım yöntemler geliştirmesi beklenir. Örneğin ziyaretçinin geri butonuna tıklaması veya listeden bir öğeyi seçmesi diğer öğelerin ziyaretçi açısından ilgiye değer olmadığı anlamına gelebilir. Hotle ve Yan kapalı veri toplayan sistemlerde, analize negatif davranışların da dahil edilmesinin sistemin doğruluk açısından performansını artırdığını göstermiştir.

Veri Madenciliği ve Yapay Zeka

Yapay zeka, zeki varlıkları anlamaya çalışan bir disiplindir. Aynı amaç ile iştigal eden felsefe ve psikolojiden farkı; sadece anlamaya çalışmak ile yetinmeyip, aynı zamanda zeki varlıklar üretmeye çalışmasıdır.

Yapay zeka da veri madenciliği ve makina öğrenmesi gibi çerçevesi net bir tanımdan yoksundur. Yapay zeka için yapılmış olan mevcut tanımlar iki ana grupta toplanabilir; muhakeme yeteneği ve rasyonel davranma yeteneği. Yine bu iki tanım da kendi içlerinde insan gibi veya rasyonel olmak şeklinde ikiye ayrılır.

Yapay zeka muhakeme yeteneğine sahip veya zekice davranabilen ve düşünce veya davranış açısından insana benzeyen veya rasyonal olabilen makinalar geliştirmek üzerine bir disiplindir.

Yapay zeka felsefe, matematik(özellikle istatistik), dil bilim, psikoloji ve bilgisayar mühendisliğinin ürünlerinden sıkça yararlanır.

Yapay zeka, bir disiplin olarak makine öğrenmesini içerir. Yapay zeka makine öğrenmesi dışında görüntü algılama, robotik gibi bilgisayar bilimleri dışında kalan alanlardaki çalışmaları da kapsar.

Veri madenciliğinde, sınıflandırma amacıyla kullanılan sinir ağları tekniği yapay zeka alanında yapılan çalışmaların ürünüdür.

Veri Madenciliğinin Ticari İşletmelerde Kullanımı

Veri madenciliği farkı sektörlerdeki ticari işletmelerde aşağıda belirtilen şekillerde kullanım olanağına sahip olmuştur:

Perakendecilik: Market içinde ürünlerin yerleştirilmesi ve çapraz satış yapılması

Bankacılık: Müşteri ilişkileri yönetimi, kampanya yönetimi, kredi puanının hesaplanması, kredi kartı sahtekarlığının saptanması.

Sigortacılık: Soruşturma gerektiren tazmin taleplerinin saptanması.

Telefonla pazarlama: Pazarlama amacıyla aranacak kişinin ilgi gösterebileceği ürünün saptanması.

İnsan Kaynakları Yönetimi: Firmadan ayrılma ihtimali olan personelin tespiti.

 

İlginizi Çekebilir:
double-opt-in
[YENİ BAŞLAYANLAR İÇİN] Double Opt-In Nasıl Uygulanır?
web-sitesi-kisisellestirme-4
Web Sayfalarının Kişiselleştirilmesinde 4 Aşama

Lütfen yorumunuzu paylaşın

Yorumunuz

Adınız
Web siteniz

Önceki yazıyı okuyun:
8-eposta-pazarlama-istatistigi
Mutlaka Öğrenmeniz Gereken 8 E-posta Pazarlama İstatistiği

E-posta pazarlama çalışmalarınızı daha verimli hale getirmeniz ve e-posta pazarlama stratejinizi belirlerken geleceğe nasıl bakmanızla ilgili önemli istatistikleri sizin için...

Kapat