blog posts

Veri bilimi nedir? Veri bilimi hakkında her şey

Dünyanın büyük veri çağına girmesiyle birlikte veri depolama ihtiyacı da arttı. Yıllardır kuruluşların asıl sorunu ve endişesi veri depolamaya yönelik çözümler yaratmaktı. Ancak artık Hadoop ve diğer çerçeveler depolama sorununu iyi bir şekilde çözdüğüne göre, odak noktası veri işlemedir ve veri bilimi, büyük veri işlemenin anahtarıdır. Bu nedenle veri biliminin ne olduğunu ve kuruluşların uygun stratejileri benimsemesine nasıl yardımcı olabileceğini bilmek çok önemlidir .Bu yazıda veri biliminin ne olduğunu , büyük ve karmaşık veri kümelerinden anlamlı içgörüler elde etmede nasıl bir rol oynadığını açıklayacağız .

Veri bilimi nedir?

Veri bilimi, ham verilerdeki gizli kalıpları keşfetmek için çeşitli araçların, algoritmaların ve makine öğrenimi ilkelerinin uygulanmasıdır. Peki bu çalışmanın istatistikçilerin ve veri analistlerinin yıllardır yaptıklarından farkı nedir? Bu sorunun cevabı “açıklama” ile “tahmin” arasındaki farkta yatmaktadır.

Bir veri analisti genellikle verinin geçmişini inceleyerek ve inceleyerek şu andaki durumun ne olduğunu açıklar. Bir veri bilimci (Veri Bilimcisi), içgörüleri keşfetmek için keşifsel analiz (Keşif Analizi) gerçekleştirmenin yanı sıra, gelecekte belirli bir olayın meydana gelmesini tahmin etmek için farklı makine öğrenimi algoritmaları kullanıyorsa.

Veri bilimi, tahminde bulunmak ve kararlar almak için tahmine dayalı analitiği, kuralcı analitiği ve makine öğrenimi modellerini kullanır. Peki bu terimlerin her biri tam olarak ne anlama geliyor? Aşağıda bu yöntemlerin her biri hakkında açıklamalar vereceğiz:

Tahmine dayalı analitik, gelecekte belirli bir olayın meydana gelme olasılığını tahmin etmenize yardımcı olur. Örneğin müşterilerine kredili para sağlayan bir şirketiniz varsa, gelecekte geri ödemelerinin zamanında yapıldığından emin olmanız sizin için önemlidir. Bu amaçla müşterilerin ödeme geçmişine ilişkin tahmine dayalı analizler yapabilecek, zamanında geri ödeme yapıp yapmayacağını tahmin edebilecek bir model oluşturabilirsiniz.

Kuralcı Analitik, veriye dayalı öneriler sağlamaya odaklanan nispeten yeni bir alandır. Başka bir deyişle, kuralcı analitikler olasılıkları tahmin etmenin yanı sıra bir dizi ilgili eylem ve sonucu da önerir. Örneğin araçlar ve algoritmalar tarafından toplanan veriler, sürücüsüz arabaları eğitmek ve onları daha akıllı hale getirmek için kullanılabilir.

Denetimli makine öğrenimi gelecekteki olayları tahmin etmek için kullanılabilir. Örneğin makine öğrenimi, gelecekteki finansal eğilimleri tahmin etmek için bir şirketin işlem verilerini kullanabilir veya sahte satın alma kayıtlarına dayalı dolandırıcılığı tespit edecek bir model eğitebilir.

Verileri kategorilere ayıracak önceden tanımlanmış etiketler olmadığında, büyük veri kümelerindeki gizli kalıpları keşfetmek ve anlamlı tahminler yapmak için denetimsiz makine öğrenimi kullanılabilir. Örüntü keşfi için kullanılan en yaygın algoritma kümelemedir. Örnek olarak diyelim ki bir telefon şirketinde çalışıyorsunuz ve bölgeye direk yerleştirerek bir ağ kurmanız gerekiyor. Tüm kullanıcıların en uygun sinyali almasını sağlamak amacıyla direklerin yerini belirlemek için kümeleme tekniğini kullanabilirsiniz.

Artık bu yazımızın ana sorusu olan ” Veri bilimi nedir ?” sorusunu cevapladığımıza göre , veri biliminin bu kadar önemli olmasının ve yaygın olarak uygulanmasının sebebinin ne olduğuna bakalım .

 

 

Veri biliminin öneminin nedeni nedir?

Geçmişte veriler çoğunlukla yapılandırılmış ve seyrekti. Dolayısıyla iş zekası araçlarını kullanarak bunları analiz etmek mümkün oldu. Ancak günümüzde verilerin çoğu yapılandırılmamış veya yarı yapılandırılmıştır. Bu veriler finansal raporlar, metin dosyaları, multimedya formları, sensörler vb. çeşitli kaynaklardan elde edilir. Basit iş zekası araçları bu çeşitliliği ve büyük miktarda veriyi işleyemez. Bu nedenle verileri işlemek ve analiz etmek için daha karmaşık ve gelişmiş analitik araçlara ve algoritmalara ihtiyacımız var.

Veri biliminin öneminin tek nedeni elbette bu değil. Aşağıda farklı alanlardaki veri bilimi uygulamalarının bazı örneklerinden bahsettik:

  • Şüphesiz işletmelerin elinde müşterilerinin internet arama geçmişi, satın alma geçmişi, yaşı, geliri gibi veriler bulunmaktadır. Bu veriler kullanılarak modeller, müşteri ihtiyaçlarını anlayacak ve müşterilere daha doğru ürünler önerecek şekilde eğitilebilir.
  • Kendi kendine giden arabalar, çevrelerinin bir haritasını oluşturmak için sensörlerden, radarlardan, kameralardan ve lazerlerden anında veri topluyor. Daha sonra bu verilere dayanarak ve gelişmiş makine öğrenimi algoritmalarını kullanarak hızı ne zaman artıracakları, ne zaman azaltacakları, ne zaman sollayacakları vb. konularda kararlar veriyorlar.
  • Model oluşturmak için gemilerden, uçaklardan, radarlardan ve uydulardan veriler toplanıp analiz edilebilir. Bu modeller sadece hava durumunu tahmin etmekle kalmıyor, aynı zamanda herhangi bir doğal afetin oluşumunu da tahmin etmeye yardımcı oluyor. Bu nedenle veri biliminin yardımıyla insanların hayatlarını kurtarmak için uygun önlemler alınabilir.

Aşağıdaki görselde görüldüğü gibi makine öğrenmesi birçok alanda kullanılmaktadır.

Veri bilimcisi kimdir ve ne yapar?

Veri bilimcileri, çeşitli alanlardaki güçlü uzmanlıklarıyla karmaşık veri sorunlarını çözen kişilerdir. Verileri doğru bir şekilde analiz etmek için matematik, istatistik, bilgisayar bilimi vb. ile ilgili çeşitli alanlarda uzman olmaları gerekir (bu alanların hepsinde uzman olmayabilirler). Bir kuruluşun büyümesi ve gelişmesi için kritik öneme sahip çözümler bulmak ve sonuçlara ulaşmak için en son teknolojileri kullanırlar. Veri bilimcileri, verileri ham verilerden çok daha kullanışlı bir biçimde sunar.

İş zekası ile veri bilimi arasındaki fark nedir?

İş alanında veri bilimi sıklıkla iş zekası (BI) ile karıştırılır. Bu ikisi arasındaki fark nedir? İş zekası ve veri bilimi, verileri bilinçli kararlar almak için yararlı bilgilere dönüştüren veri merkezli süreçlerdir. Ancak iki yaklaşım arasında ince farklar vardır. Genel olarak iş zekası geçmiş olayların analizine odaklanırken, veri bilimi gelecekteki eğilimleri tahmin etmeyi amaçlamaktadır. İş zekası ile veri bilimi arasındaki en önemli farklar şunlardır:

İş zekası veri bilimi
Hedef Geçmiş eğilimleri belirlemeye odaklanır ve şu tür soruları yanıtlar: Geçtiğimiz dönemde ne oldu? Veya hangi trendler gelişiyor? Veri kümelerinden bilgi çıkarmaya ve bunlara dayalı tahminler sağlamaya odaklanır. Veri bilimi şu tür sorulara yanıt verir: Bundan sonra ne olacak? Veya en olası sonuç nedir?
İstenen yetenekler Temel istatistik ve iş alanı bilgisinin yanı sıra veri dönüştürme ve görselleştirme becerileri gerektirir Kodlama, veri madenciliği gibi daha teknik becerilerin yanı sıra istatistik ve istenilen alana ilişkin daha ileri düzeyde bilgi gerektirir.
Veri toplama ve yönetimi İyi organize edilmiş verileri işlemek için geliştirildi. Büyük hacimli dinamik ve daha az yapılandırılmış verileri işlemek için geliştirilmiştir.
Karmaşıklık Günlük iş yönetiminde daha pratiktir ve daha az maliyet ve kaynak gerektirir. Tahmin kapasitesi, dinamik verileri işleme yeteneği ve ileri düzey becerilere duyulan ihtiyaç açısından daha karmaşıktır.

Veri biliminin yaşam döngüsü

Veri bilimi projelerinde sıklıkla yapılan yaygın bir hata, gereksinimleri anlamadan ve hatta iş sorununu doğru bir şekilde çerçevelemeden verileri toplamak ve analiz etmek için acele etmektir. Bu nedenle projenin sorunsuz işleyişini sağlamak için veri analizi sürecinde tüm adımların takip edilmesi çok önemlidir. Aşağıda Veri Bilimi Yaşam Döngüsünün ana aşamalarına kısa bir genel bakış sunacağız.

Adım 1 – Araştırma: Projeye başlamadan önce gereksinimleri, ihtiyaçları, öncelikleri ve ihtiyaç duyulan bütçeyi kontrol etmek çok önemlidir. Doğru soruları sorabilmeniz gerekir. Bu aşamada projeyi destekleyecek insan, teknoloji, zaman ve veri açısından gerekli kaynaklara sahip olup olmadığınızı kontrol etmelisiniz. Ayrıca iş problemini çerçevelemeli ve ilk hipotezleri formüle etmelisiniz.

Adım 2 – Veri Hazırlama : Bu adımda, proje boyunca verileri analiz edebileceğiniz bir Analitik Sandbox’a ihtiyacınız vardır. Ayrıca modellemeden önce verileri kontrol etmeniz ve ön işlemeniz gerekir. Verileri temizlemek, dönüştürmek ve görselleştirmek için farklı yöntemler ve araçlar kullanabilirsiniz. Bu, aykırı değerleri belirlemenize ve değişkenler arasında ilişkiler kurmanıza yardımcı olacaktır.

Adım 3 – Model Planlama: Verileri temizleyip hazırladıktan sonra, istatistiksel formüller ve çeşitli görselleştirme araçlarını kullanarak üzerinde keşfedici analiz yapmanın zamanı geldi. Bu adımda değişkenler arasındaki ilişkileri çizmek için hangi yöntem ve teknikleri kullanacağınızı belirlersiniz. Bu ilişkiler bir sonraki adımda algoritmaların uygulanmasının temelini oluşturacaktır. Model programlama için kullanılan araçlar arasında R, SQL Analiz hizmetleri, SAS/ACCESS sayılabilir.

Adım 4 – Modelleme: Bu adımda modeli eğitmek ve test etmek için bir veri seti geliştirmeniz gerekir. Bu noktada araçlarınızın modelleri çalıştırmak için yeterli olup olmadığını veya hızlı ve paralel işleme için daha güçlü bir ortama ihtiyacınız olup olmadığını kontrol etmelisiniz. Ayrıca model oluşturmaya yönelik sınıflandırma, birliktelik kuralları ve kümeleme gibi çeşitli teknikleri de keşfedeceksiniz. Modeli oluşturmak için SAS Enterprise Miner, WEKA, SPCS Modeler, Matlab, Alpine Miner, Statistica gibi araçlar kullanılabilir.

Adım 5 – Uygulama: Bu adımda nihai raporları, talimatları, kodu ve teknik belgeleri sağlarsınız. Ayrıca gerçek zamanlı olarak bir test projesi yürütürsünüz. Bunu yaparak, küçük ölçekli projenin tam olarak devreye alınmasından önce performansı ve diğer sınırlamaları hakkında net bir anlayışa sahip olacaksınız.

Adım 6 – Sonuçların sunulması: Şimdi, ilk adımda planladığınız hedefe ulaşıp ulaşamadığınızı değerlendirip görmeniz gerekiyor. Son adımda, tüm önemli bulguları belirler, paydaşlarla iletişim kurar ve ilk adımda geliştirilen kriterlere göre projenin başarısını veya başarısızlığını belirlersiniz.

Vaka Analizi

Artık veri biliminin ne olduğunu ve veri analizi süreçlerinin neler içerdiğini anladığımıza göre , varsayımsal bir veri kümesi kullanalım ve diyabet geliştirme olasılığını tahmin etmek için tüm veri bilimi yaşam döngüsünü adım adım inceleyelim:

ilk adım:

Öncelikle hastaların tıbbi geçmişine dayalı olarak veri topluyoruz:

 

 

Gördüğünüz gibi bu veri setinde aşağıda belirtilen çeşitli göstergelerimiz var:

 Göstergeler:

  1. npreg – gebelik sayısı
  2. glikoz – plazma glikoz konsantrasyonu
  3. kan basıncı – kan basıncı
  4. cilt – triseps kasının yağ kalınlığı
  5. bmi – vücut kitle indeksi
  6. ped – ailede diyabet öyküsü
  7. yaş
  8. gelir

İkinci adım:

Şimdi verileri temizleyip hazırlamamız gerekiyor. Bu verilerde eksik veriler, boş sütunlar, beklenmeyen ve yanlış değerler, düzeltilmesi gereken hatalı format gibi birçok tutarsızlık bulunmaktadır. Hazırlamayı ve temizlemeyi kolaylaştırmak için verileri bir tabloya girdik.

 

 

Bu verilerin birçok çelişkisi var:

  1. Npreg sütununda verilerden biri sayısal formatta olması gerekirken word formatında yazılır.
  2. Bp sütunundaki değerlerden biri 6600’dür ki bu en azından insanlar için imkansızdır ve bp’nin böyle bir değere ulaşması mümkün değildir.
  3. Gördüğünüz gibi gelir sütunu boştur ve diyabeti öngörmede bir anlamı yoktur. Bu nedenle buradaki varlığı gereksizdir ve tablodan kaldırılmalıdır.

Bu nedenle, aykırı değerleri kaldırarak, boş değerleri doldurarak ve veri türünü değiştirerek verileri temizleyip ön işleme tabi tutacağız. Son olarak aşağıdaki tabloya göre analiz için kullanılabilecek verilere sahip olacağız.

 

 

Üçüncü adım:

Artık verileri analitik sanal alana yüklüyoruz ve ona çeşitli istatistiksel işlevler uyguluyoruz. Örneğin R’de bize eksik değerlerin ve benzersiz değerlerin sayısını veren, tanımlama gibi işlevler vardır. Bize ortalama, medyan, aralık, minimum ve maksimum gibi istatistiksel bilgiler veren özet işlevini de kullanabiliriz. Daha sonra veri dağılımını anlamak için görselleştirme tekniklerini kullanırız.

 

Veri bilimi nedir

 

Dördüncü adım:

Npreg, bmi vb. gibi ana parametrelere zaten sahip olduğumuzdan, modeli oluşturmak için denetimli öğrenme tekniğini kullanacağız. Ayrıca karar ağacını kullanıyoruz; Çünkü hem doğrusal ilişkisi olan hem de doğrusal olmayan ilişkisi olan tüm göstergeleri dikkate alır. Bu veri setinde npreg ile yaş arasında doğrusal bir ilişki bulunurken, npreg ile ped arasındaki ilişki doğrusal değildir. Karar ağacı modelleri çok güçlüdür; Çünkü farklı ağaçlar oluşturmak için farklı gösterge kombinasyonlarını kullanabilir ve sonunda maksimum verimliliğe sahip modeli kullanabiliriz. Karar ağacımıza bir göz atalım:

 

Veri bilimi nedir

 

Burada en önemli parametre glikoz seviyesidir, yani kök düğümdür. Şimdi mevcut düğüm ve değeri bir sonraki önemli parametreyi belirler. Bu, “pos” veya “neg” sonucunu alana kadar devam eder. pos kişinin diyabete yatkın olduğu, negatif ise kişinin diyabet geliştirme ihtimalinin olmadığı anlamına gelir.

Beşinci adım:

Bu noktada, sonuçlarımızın geçerli olup olmadığını kontrol etmek için küçük bir pilot proje yürüteceğiz. Ayrıca modeli performans kısıtlamaları açısından da kontrol edeceğiz. Sonuçlar doğru değilse modeli yeniden programlayıp oluşturmamız gerekir.

Altıncı adım:

Projeyi başarıyla çalıştırdıktan sonra tam dağıtım için çıktıyı paylaşacağız.

Nasıl veri bilimcisi olunur?

Veri bilimi, çevremizdeki verilerle dolu dünyaya bakış açımızı değiştirdi. Bu nedenle geleceğin veri bilimcilere ait olduğunu söylemek yanlış olmaz. Aşağıdaki görselde görüldüğü gibi bir veri bilimcinin temel olarak bilgisayar bilimi, matematik ve çalıştığı alan olmak üzere üç ana alanda becerilere ihtiyacı vardır.

 

Veri bilimi nedir

 

Çeşitli sert ve yumuşak beceriler kazanmanız gerekir. Verileri analiz etmek ve görselleştirmek için istatistik ve matematik bilgisine sahip olmanız gerekir. Makine öğreniminin veri biliminin kalbini oluşturduğunu söylemeye gerek yok. Bir veri bilimci olarak çeşitli algoritmaları uygulayabilmek için kod yazabilmeniz gerekir. Ayrıca, iş sorunlarını net bir şekilde anlayabilmek, gelecek yıllarda iş büyümesini tahmin edebilmek ve verilere dayalı stratejiler geliştirebilmek için, üzerinde çalıştığınız alan hakkında kapsamlı bir anlayışa sahip olmanız gerekir. Tüm bunlara ek olarak iyi iletişim becerileri, kuruluşlarla ve paydaşlarla etkili iletişim için önemlidir.