blog posts

Veri madenciliğine tam giriş

Veri madenciliğinin neyle ilgili olduğuna dair bir inceleme

Son 20 yılda insanın veri üretme ve toplama konusundaki teknik yetenekleri önemli ilerleme kaydetti. Barkod cihazlarının iş dünyasında yaygınlaşması, bilgisayar ve veri madenciliğinin hayatın çeşitli alanlarında yaygınlaşması, verinin önemine dikkat edilmesi ve toplama yöntemlerinde ilerleme gibi çeşitli faktörler bu gelişmelerde önemli rol oynamıştır.

Bilgisayarların farklı iş dünyasına ya da insanların normal yaşamına girmesi ve ayrıca web dünyasının günlük yaşamda yaygınlaşması, büyük miktarda verinin üretilmesine neden olmuştur.

Bu tür verilerin büyük miktarda varlığı, insanların bu verileri akıllıca düzenleyip bilgi ve bilgiye dönüştürebilmesi için araçlara ve teknolojiye ihtiyaç duymasını sağlamıştır. “Veri Madenciliği” bu zorluğu çözmek için mevcut araçlardan biridir. Veri madenciliği bilgiyi temsil eden kalıpları bulmak için kullanılan otomatik bir süreçtir.

“Veri Madenciliği” konusunda bilgi sahibi olmak

“Veri Madenciliği” bilgisi büyük veritabanlarında, veri ambarlarında ve diğer büyük veri kaynaklarında örtülü olarak depolanır. SQL gibi dillerdeki basit sorgulamalar veya çeşitli raporlama araçları ile veriler ve aralarındaki mantıksal ilişkiler hakkında sonuç çıkaracak bilgiler elde edilebilir.

Ancak bu verinin hacmi çok büyükse, veri kullanıcıları ne kadar deneyimli ve bilgili olursa olsun, mevcut büyük miktardaki veri arasında yararlı kalıpları tespit edemeyecek veya bunu yapabilecek yeteneğe sahip olsalar bile mümkün olmayacaktır. Operasyonel maliyeti çok yüksek olacak.

Öte yandan insanlar genellikle ellerinde bir hipotez vardır ve elde ettikleri raporlara dayanarak istedikleri hipotezi kanıtlar veya reddederler. Ancak günümüz dünyasının bilginin keşfine yol açacak yöntemlere ihtiyacı var.

Bu, veriler arasındaki kalıpların ve mantıksal ilişkilerin, en az insan müdahalesiyle tamamen otomatik olarak belirlenebileceği anlamına gelir. Veri madenciliği, organizasyonlarda veya işletmelerde önemli kararların alınması sürecinde kullanılmak üzere, en az kullanıcı müdahalesi ile verilerden örüntüler toplayan ve bunları analistlere sunan en önemli yöntemlerden biridir.

 

Veri madenciliğinin önemi

Veri madenciliği biliminin önemi, büyük miktarda veriyle (MB veya TB cinsinden) karşılaştığımızda daha da önem kazanıyor ve bu bilimle ilgili tüm kaynaklarda bu konu vurgulanıyor.

Veri miktarı arttıkça ve aralarındaki ilişki ne kadar karmaşık olursa, bilgiye ve veriler arasındaki gizli ilişkilere ulaşmak da o kadar zorlaşır.

Bu arada ham verilerden bilgi üretme yöntemlerinden biri olarak “Veri Madenciliği” biliminin rolü daha da belirginleşiyor. Veri madenciliği, veritabanı teknolojisi, makine öğrenimi, yapay zeka, sinir ağları, istatistikler, modeller, bilgi tabanlı sistemler, bilgi erişimi, bilgi edinimi, verilerin görsel temsili ve yüksek hızlı hesaplamayı içeren eş zamanlı ve entegre bir bilgidir. .

 

Veri madenciliğinin tanımı

Veri madenciliği süreci, geleneksel veri analizi ve bilgi yöntemleriyle ve geleneksel karar verme sistemleriyle eşitlenmemelidir.

“Veri Madenciliği” teriminin çevirisi olan veri madenciliği terimi, büyük miktarda veri arasından gizli bilgilerin veya belirli kalıpların ve ilişkilerin çıkarılması anlamına gelir. Veri madenciliği tanımında, çıkarılan verinin anlamı, normal yöntemlerle dokunulamayan veya bilgi elde etmek için kullanılabilecek verilerdir.

Daha önce de belirtildiği gibi “Veri Madenciliği” tanımında veri tabanlarının büyüklüğüne ve işlenecek veri miktarının büyük olmasına özel bir vurgu yapılmaktadır.

Bunun nedeni, bilgi teorisi ve istatistik açısından bakıldığında, veri analizinin veya bir veri tabanındaki az miktardaki verinin araştırılması ve araştırılmasının kabul edilebilir sonuçlara yol açmamasıdır. “Veri Madenciliği” araçlarıyla değişkenlerin miktarı tahmin edilebilir ve açıklanabilir.

Bu tür araçlar, bilgi ve enformasyona dayalı karar alma süreçlerinde yaygın olarak kullanılmakta ve günümüz dünyasında iş süreçleri büyük ölçüde bunlara dayanmaktadır. Veri madenciliği süreci, geleneksel veri analizi ve bilgi yöntemleriyle ve geleneksel karar verme sistemleriyle eşitlenmemelidir.

“Veri Madenciliği” bilimi, geleneksel olarak yanıtlanamayan soruların yanıtlanmasının temelini oluşturmaktadır. Bilimsel ve akademik kaynaklarda veri madenciliğine ilişkin farklı tanımlar bulunmaktadır.

 

” Veri Madenciliği ” Biliminin Tanımları

Bu tanımlardan bazıları, insanların büyük miktarda veri ile doğrudan iletişim kurmasını sağlayan bir araç olarak tanıtmışken, daha kesin bazı tanımlarda ise veri madenciliği, verileri keşfetmenin bir yolu olarak anılmaktadır. Aşağıda bu bilim için sağlanan bilimsel tanımlardan bazı örnekler verilmiştir:

  •  “Veri Madenciliği”, önemli ticari faaliyetlerin karar verme sürecinde kullanılmak üzere büyük veri tabanlarından geçerli, önceden bilinmeyen, anlaşılır ve güvenilir verilerin çıkarılması sürecidir.
  • “Veri Madenciliği” terimi, yararlı modeller elde etmek için büyük verileri analiz eden yarı otomatik süreci ifade eder.
  • “Veri Madenciliği” terimi, veriler arasında bir dizi model bulmak için veritabanında arama yapmak anlamına gelir.
  • “Veri Madenciliği”, veritabanlarında, veri ambarlarında veya diğer veri depolama kaynaklarında depolanan büyük miktardaki veriler arasından bilgi bulma süreci anlamına gelir.
  •  “Veri Madenciliği”, büyük veritabanlarından büyük, belgelenmiş ve yeni bilgilerin çıkarılması anlamına gelir.
  • “Veri Madenciliği”, veriler arasındaki güvenilir ilişkileri bulmak için bir dizi görünür veriyi analiz etmek anlamına gelir.

 

Yukarıdaki tanımlardan da anlaşılacağı üzere hemen hemen hepsi, bunların arasında bilgi çıkarma, veri analizi, örüntü veya bilgi bulma gibi kavramları ifade etmektedir. “Veri madenciliği” ve “veritabanı bilgisi keşfi” terimleri genellikle birbirinin yerine kullanılır.

 

Veritabanlarında bilgi keşfi

“Veritabanında bilgi keşfi”, veritabanında anlaşılır kalıp ve modellere yol açan doğru, basit ve kullanışlı tanımlama süreci anlamına gelir.

Bu bağlamda veri madenciliği aynı zamanda, etkili hesaplama sınırlamaları altında veriler arasında örüntülerin veya modellerin keşfedilmesine yol açan bir dizi özel veri madenciliği algoritmasını içeren bilgi keşfi sürecinin bir aşamasıdır.

Veriler genellikle bol miktarda bulunur ancak değeri yoktur. Verinin kendisi tek başına kullanılamaz, aslında kullanılabilecek olan verinin içindeki gizli bilgidir. Bu nedenle bu bilime “ikincil veri analizi” de denilmektedir.

Veri madenciliğinin tarihi

Veri madenciliğinde amaç, önemli ve hayati kararlarda kullanılabilecek şekilde veritabanlarındaki kalıpları aramak ve keşfetmektir.

Veri madenciliği son yıllarda bilimsel makalelerin ve akademik tezlerin önemli konularından biri olmuştur. Bu, “Veri Madenciliği” teriminin 90’lı yılların başına kadar kullanılmamış olmasına rağmen geçerlidir.

 

60’lı yıllarda ve öncesinde veri toplama ve yönetim sistemlerinin oluşmasına zemin hazırlanmış ve bu alanda araştırmalar yapılmış, bu da veri tabanı yönetim sistemlerinin tanıtılmasına ve oluşturulmasına yol açmıştır.

Hiyerarşik, ağ veritabanları, özellikle ilişkisel veritabanları için veri modelleri oluşturmak ve geliştirmek, indeksleme, veri organizasyonu ve son olarak rapor ve bilgi formları oluşturmaya yönelik SQL sorgu dilini tanıtıyor ve 80’li yılların başında kullanıcının hedefi haline geldi.

Gelişmiş veritabanı geliştirme

Aynı zamanda gelişmiş veritabanlarının geliştirilmesi ve nesne odaklı, uygulama odaklı ve aktif veritabanlarının oluşması, bu işleme sistemlerinin kapsamlı bir şekilde genişlemesine neden olmuştur.

Bu nedenle SyBase, DB2, Oracle vb. DBMS’ler oluşturulmuş ve büyük miktarda bilgi bu sistemler tarafından işlenmiştir. Belki de veri madenciliği konusundaki en önemli hususun veri tabanından (KDD) bilgi keşfi konusu olduğu, dolayısıyla birçok durumda KDD ve DM’nin eşanlamlı olarak kullanılabileceği iddia edilebilir.

Makalenin başında da belirtildiği gibi veri madenciliğinin amacı, önemli ve hayati kararlarda kullanılabilecek veritabanlarındaki kalıpları aramak ve keşfetmektir.

Yani DM’nin KDD’nin bir parçası olduğu söylenebilir ve bu da sonuçta DSS sistemlerinin oluşturulmasına yol açar. Aşağıdaki şekil veri tabanından bilgi keşfetme sürecini göstermektedir.

 

Veritabanından bilgi keşfetme süreci

Veri madenciliği kavramı ilk kez KDD alanında IJCAI merkezinde önerilmiştir. Daha sonra 1991-1994 yıllarında KDD çalıştaylarında bu bilimde yeni konular sunuldu ve birçok bilim ve temel onunla ilişkilendirildi.
Veri madenciliği biliminin ortaya çıkmasına ne sebep oldu?

Genel olarak veri madenciliği, veritabanı endüstrisinin evriminden kaynaklanan bilgi teknolojisinin doğal evriminin sonucu olarak düşünülebilir.

Veri madenciliği biliminin ortaya çıkmasının temel nedeni, büyük miktarda verinin mevcut olması ve bu verilerden bilgi ve faydalı bilgi çıkarmaya duyulan güçlü ihtiyaçtı. Bu bilgi ve bilgiler, işletme yönetimi ve üretim kontrolünde, bilimsel araştırmalarda, pazar analizinde ve mühendislik tasarımlarında yaygın olarak kullanılmaktadır.

Genel olarak veri madenciliği, veritabanı endüstrisinin evriminden kaynaklanan bilgi teknolojisinin doğal evriminin sonucu olarak düşünülebilir.

Bu süreç veri toplama, veri tabanı oluşturma, veri yönetimi, veri analizi ve anlaşılması süreçlerini içerir. Veritabanı teknolojisinin gelişmesi ve çeşitli alanlarda yaygın olarak kullanılması, büyük miktarda veri toplanmasına yol açmıştır.

 

Bu veri hacmi, bunları analiz etmek için güçlü araçlar gerektirir; çünkü günümüz dünyasında veri açısından zenginiz ancak bilgiden yoksunuz.

 

“Veri Madenciliği” araçları

“Veri Madenciliği” araçları verileri analiz eder ve aşağıdaki alanlarda kullanılabilecek kalıpları keşfeder: iş stratejilerinin belirlenmesi, bilgi tabanı, tıbbi araştırma vb. Aslında veri ile bilgi arasındaki boşluk, değersiz veriyi değerli bilgiye dönüştürmek için veri madenciliği araçlarına duyulan ihtiyacı doğurmuştur.

Aslında veri madenciliği, büyük miktarda veriden bilginin çıkarılması veya madenciliği türüdür. Elbette bu isimlendirme sorunsuz değildir çünkü örneğin büyük miktarda kum ve kayadan altın çıkarma işlemine kum madenciliği veya kaya madenciliği değil, altın madenciliği diyoruz.

 

Verilerden bilgi çıkarma

Dolayısıyla bu terime, her ne kadar uzun ve bazı kusurları olsa da, belki de “veriden bilgi çıkarmak” gibi başka başlıklar vermek daha doğru bir anlam sağlayacaktır. “Bilgi madenciliği” gibi diğer ifadeler, verilerden bilgi çıkarmanın vurgusunu ve önemini ifade edemez.

 

Madencilik gibi kelimeler, büyük miktarlarda değerli hammaddelerden oluşan küçük bir koleksiyonun bulunması sürecini çok çabuk akla getiriyor. Zaten bu terimin isimlendirilmesindeki eksikliklere rağmen “veri madenciliği” çevirisi oldukça popüler hale geldi.

Bu ismin dışında başka isimler de vardır:

  1. Veritabanından bilgi çıkarma
  2. Veri analizi
  3. Bilgi çıkarma
  4. Desen analizi
  5. Bazen veri arkeolojisi ve veri madenciliği de kullanılmaktadır.

 

Veri madenciliği sistemi bileşenleri

Veri madenciliği, veritabanlarında veya veri ambarlarında depolanan büyük miktarlardaki verilerden bilgi bulmayı içeren bir süreçtir.

Buraya kadar anlatılanlara göre veri madenciliği, veritabanlarında veya veri ambarlarında saklanan büyük miktardaki veriden bilgi bulmayı içeren bir süreçtir. Bu görüşe göre böyle bir sistemin şu bileşenlere sahip olması gerekir:

 

Veritabanı veya veri ambarı veya diğer bilgi depoları

Bir dizi veri tabanı, elektronik tablo veya diğer bilgi havuzlarından oluşur.

Veritabanı sunucusu veya veri ambarı

Bu departman, talep türüne göre ilgili verilerin kurtarılmasından sorumludur.

bilgi tabanı

Bağlam bilgi tabanının bu kısmı, bulunan kalıpların aranmasına veya değerlendirilmesine yardımcı olmak için oluşturulmuştur.

Veri madenciliği motoru

Bu bölüm, veri madenciliği sisteminin en önemli bileşenlerinden biridir ve açıklama, iletişim, sınıflandırma, kümeleme analizi, evrim ve sapma analizi gibi bir dizi özelliği içerir.

Model değerlendirme modülü

Bu bileşen, çekicilik kriterleri aracılığıyla veri madenciliği modülü ile etkileşime girer. Bu, ana odak noktasının çekici modeller arasında arama yapmak olduğu ve bulunan modelleri değerlendirmek için bir düzeyde çekicilik eşiği kullandığı anlamına gelir.

Grafiksel kullanıcı arayüzü

Bu modül veri madenciliği sistemi ile kullanıcı arasına yerleştirilerek aralarında bağlantı oluşturulur. Kullanıcı arayüzü, kullanıcının sorgular yoluyla sistemle iletişim kurmasına, veritabanını veya bilgi deposunu değerlendirmesine ve bulunan kalıpları görsel formlarda temsil etmesine olanak tanır.

 

Veri madenciliği süreçleri gerçekleştirilerek üst düzey bilgi veya bilgiler veri tabanından çıkarılır ve farklı bakış açılarından incelenebilir. Bu bilgi karar destek sistemlerinde, süreç kontrolünde ve bilgi yönetiminde kullanılabilir.

 

Veri madenciliğinin endüstrideki kullanım alanları nelerdir?

Veri madenciliği konusunda kullanılabilecek örnekler arasında, müşteriler tarafından satın alınan farklı ürünler arasındaki ilişkinin tespit edilmeye çalışıldığı zincir mağaza formatları yer almaktadır. Zincir mağazaların merakla beklediği bilgilerden biri de hangi ürünlerin birlikte satıldığıdır.

Kuzey Amerika’da satış verileri üzerinde yapılan kapsamlı bir veri madenciliği çalışması kapsamında, bebek bezi almak için farklı merkezlere giden erkeklerin genellikle arpa suyu da satın aldıkları veya televizyon satın alan müşterilerin genellikle kristal vazo da hazırladıkları belirlendi.

Avrupa’daki büyük bir giyim imalat şirketinde veri madenciliği sonuçları, genellikle ipek kravat satın alan kişilerin aynı zamanda siyah kravat iğnesi de satın aldığını gösteriyor.

Satışlarla ilgili başka bir örnek

Veri Madenciliği sürecinin sonuçları, Kuzey Amerika’daki büyük bir film dublaj ve yayıncılık şirketinde, müşteriler ve filmlerin aktörleri ile en sevdikleri film türüne sahip farklı müşteri grupları arasındaki ilişkiyi belirledi.

Bu nedenle bu şirket, aktörlere veya film türlerine göre her film türünün müşterilerini akıllıca tanımlayabildi.

 

Veri madenciliğinin rol oynadığı bir diğer alan ise tıp merkezlerinde ve ilaç şirketlerinde, farklı yaş gruplarındaki ve çeşitli hastalıklardaki hastalar üzerindeki ilaç yan etkilerinin bilinmeyen kalıplarını ve modellerini keşfetmeye yöneliktir.

Veri madenciliği aynı zamanda finans ve bankacılık gibi çeşitli alanlarda da kullanılmakta olup yaş, gelir, ikamet durumu, meslek, eğitim vb. bileşenlere göre yüksek riskli ve kar amacı güden müşterileri tespit edebilmektedir.

Veri madenciliği ile istatistiksel analiz arasındaki fark

Veri madenciliği süreci istatistiksel analizden farklı bir süreçtir ve bu farklılıklardan bazıları aşağıda belirtilmiştir:

istatistiksel analiz

  1. İstatistikçiler her zaman bir hipotezle başlarlar.
  2. Sayısal verilerle ilgilenirler.
  3. İstatistikçiler hipotezleriyle ilgili ilişkiler kurmalıdır.
  4. Analiz sırasında yanlış yerleştirilmiş ve hatalı verileri tespit edebilirler.
  5. Yaptıkları çalışmaların sonuçlarını yorumlayabilir ve yöneticilere raporlayabilirler.

Veri analizi

  1. İstatistiksel analizden farklı olarak veri madenciliğinin bir hipotez önermesine gerek yoktur.
  2. Veri madenciliği algoritmaları otomatik olarak ilişkiler oluşturur.
  3. Veri madenciliği süreci doğru ve doğru verilere ihtiyaç duyar.
  4. Veri madenciliği sürecinden elde edilen sonuçlar nispeten karmaşıktır ve uzmanlar tarafından yorumlanması gerekmektedir.

Burada bu iki konu arasındaki farkları netleştirmek adına sigorta şirketi dolandırıcılığının tanınmasına ilişkin bir örnekten bahsedeceğiz:

İstatistiksel analiz yöntemi

Bir sistem yorumlayıcısı sigorta dolandırıcılığına neden olan bir modeli fark edebilir. Bu hipoteze göre yorumcu konuyu incelemek için çeşitli sorular sorar. Elde edilen sonuçlar kabul edilebilir değilse yorumcu hipotezi değiştirir veya yeni bir hipotez önerir.

Bu yöntem zaman alıcı olmasının yanı sıra büyük ölçüde hedef sistemin analiz ve yorum gücüne bağlıdır. Ayrıca bu yöntem, yorumcunun şüphelenmediği ve hipotezine dahil etmediği başka dolandırıcılık modellerini asla bulamaz.

 

Veri madenciliği yönteminde yorumlayıcı, veri madenciliği ile ilgili sistemler oluşturur ve verileri toplayıp entegre ettikten sonra veri madenciliği operasyonuna başlar. Veri madenciliği süreci, sıra dışı olan ve dolandırıcılığa neden olabilecek tüm anormal kalıpları bulur.

Veri madenciliğinden elde edilen sonuçlar, bir yorumlayıcının sonraki adımlarda araştırması gereken tüm farklı modları gösterir. Son olarak elde edilen modeller dolandırıcılık yapabilecek müşterileri tahmin edebilmektedir.