Dolabın kapısını açtığınızı ve her şeyin berbat olduğunu gördüğünüzü hayal edin. İhtiyacınız olan cihazı bulmak çok zor ve zaman alıcı olabilir. Her şey gruplandırılsaydı çok daha kolay olurdu.
Bu makalenin içindekiler tablosu
- Denetimli öğrenme nedir?
- Makine öğreniminde sınıflandırma nedir?
- Sınıflandırma problemlerini öğrenenler
- Makine öğreniminde 4 tür sınıflandırma problemi
- Sınıflandırma algoritması türleri
- Makine öğreniminde eğitim modeli yöntem türleri
- Sınıflandırma yöntemleri
- Sınıflandırma modeli değerlendirmesi
- Makine öğreniminde sınıflandırma algoritmalarının uygulama örnekleri
- Sınıflandırıcıların değerlendirilmesi
- Algoritma seçimi
- Sıkça Sorulan Sorular
-
Çözüm
Denetimli öğrenme nedir?
Sınıflandırma konusuna geçmeden önce ” gözetimli öğrenmeye ” bakmamız gerekir. Diyelim ki matematikte yeni bir kavram öğreniyorsunuz ve problemi çözdükten sonra çözümlere bakmanıza ve problemin doğru şekilde çözülüp çözülmediğini görmenize izin veriliyor, her defasında bir problemi çözmeye çalıştıktan sonra cevaba ve çözüm Bakarsınız, zayıf yönlerinizi bulursunuz ve düzeltirsiniz, sonuç olarak zamanla daha fazla beceri kazanırsınız. Ancak belirli bir tür problemi çözebilme yeteneğinize güvendiğinizde artık cevaplara ve çözümlere başvurmayacaksınız ve önünüze konulan soruları kendiniz çözeceksiniz.
Bu, makine öğrenimi modelleriyle denetimli öğrenmede kullanılan yöntemin aynısıdır. Denetimli öğrenmede model, örnekleri gözlemleyerek öğrenir. Modele giren girdi değişkenlerinin yanı sıra, bunlara karşılık gelen doğru etiketleri de modele gösteriyoruz. Model eğitimi sırasında, veriler ile her bir veri örneğine karşılık gelen etiketler arasındaki kalıpları bulmak için, ilgili verilere karşılık gelen etiketlerin her birine bakar.
Makine öğreniminin uygulamaları
Makine öğrenimi hayatın neredeyse tüm uygulamalarına girmiştir. Bu özellikle gelişmiş ülkelerde belirgindir. Aşağıda makine öğrenimi uygulamalarının bazı örneklerini listeledik. Bu yazının konusuyla örtüşen şeyleri dile getirmeye çalıştık.
- Spam Tespiti: Denetimli öğrenme, hangi e-postaların spam olup hangilerinin olmadığına bakarak spam e-postaları sınıflandırır ve tespit eder.
- Konuşma Tanıma: Bilgisayara sesinizi tanımayı öğretirseniz konuşma tanıma teknolojisini kullanabilirsiniz .
- Nesne Tanıma: Eğer bilgisayara bir nesnenin neye benzediğini ve onu diğer nesnelerden nasıl ayırt edeceğini öğretirseniz, nesne tanıma teknolojisini kullanabilirsiniz .
Yukarıda denetimli öğrenmenin sayısız uygulamasından bazılarına değinmiştik ancak denetimli öğrenmenin aşağıda belirttiğimiz iki ana alt kategorisi vardır ve aşağıda makine öğrenmesinde sınıflandırmayı inceleyeceğiz.
- “Sınıflandırma”
- ” Gerileme “
Makine öğreniminde sınıflandırma nedir?
Nesneleri ve fikirleri mevcut toplumun bir alt kümesi olarak tanımlanan mevcut kategorilere göre tanıma, anlama ve kategorize etme sürecine sınıflandırma adı verilir. Makine öğrenmesinde sınıflandırma programları önceden sınıflandırılmış eğitim veri setleri yardımıyla eğitilir ve çok çeşitli algoritmalar kullanılarak gelecekte sorun olarak karşılaşacakları “Veri Setlerini” kategorilere ayırabilirler. .
Makine öğreniminde sınıflandırma için kullanılan algoritmalar , önceden tanımlanmış kategorilerden birine veri üyeliği olasılığını tahmin etmek için girdi eğitim verilerini kullanır . En yaygın olarak kullanılan sınıflandırma uygulamalarından biri, günümüzde en büyük e-posta servis sağlayıcılarının hala kullandığı , normal e-postalardan “spam” e-postaları filtrelemek için kullanılan yazılımdır .
Kısaca sınıflandırma bir örüntü tanıma biçimidir. Aslında sınıflandırma algoritmaları, sayı dizileri, kelimeler, duygular ve eğitim verilerine benzer herhangi bir şey gibi sonraki veri kümelerine uygulanabilecek kalıpları tanımlamak için eğitim verileri üzerinde eğitilir.
Bu yazımızda, sınıflandırma algoritmalarını detaylı bir şekilde inceleyerek, metin analiz yazılımı gibi bir programın, yapılandırılmamış metinleri karşıt görüşlere (olumlu, olumsuz, tarafsız veya diğer) göre kategorize etmek için kullanılan duygu analizi gibi işlemleri nasıl gerçekleştirebildiğini anlamaya çalışacağız. Yorumlar kullanılır.
Sınıflandırma algoritması nedir?
Sınıflandırma algoritması, eğitim verilerine dayalı olarak yeni gözlemleri sınıflandırmak için kullanılan denetimli bir öğrenme tekniğidir. Sınıflandırmada yapay zeka modeli, yeni gözlemlerin farklı sınıflara veya gruplara nasıl sınıflandırılacağını öğrenmek için belirli bir veri veya gözlem kümesini kullanır. Bu farklı sınıflar 0 veya 1, mavi veya kırmızı, evet veya hayır, spam veya normal e-posta vb. içerebilir. Bu sınıfları tanımlamak için “Hedefler”, “Etiketler” veya “Kategoriler” kullanılabilir. Denetimli bir öğrenme tekniği olarak sınıflandırma algoritması, hem giriş hem de çıkış bilgilerini içeren etiketli giriş verilerini kullanır. Sınıflandırma işleminde (y), bağımsız çıkış fonksiyonu (x), giriş değişkenine aktarılır.
Daha basit bir ifadeyle, makine öğreniminde sınıflandırma, sınıflandırma algoritmalarının tahmin için yeni veri kümelerindeki benzer modelleri keşfetmek üzere eğitim verileri üzerinde çalıştığı bir tür model tanıma sürecidir.
Sınıflandırma problemlerini öğrenenler
Sınıflandırma problemlerinde aşağıda sıralanan iki tür akıllı öğrenen modeli bulunmaktadır.
- Tembel öğrenciler
- Hevesli öğrenciler
Tembel öğrenciler
Bu tür öğrenciler, test veri setinin gelmesini beklemeden önce ilk olarak eğitim veri setini saklarlar. Lazy Learners algoritması kullanıldığında sınıflandırma, eğitim veri setinden en uygun veriler kullanılarak yapılır. Öğrenmeye daha az, tahmin etmeye daha fazla zaman ayırın. Örnek olarak Vaka Tabanlı Muhakeme ve KNN algoritmasından bahsedebiliriz.
Hevesli öğrenciler
“Test Veri Seti”ni almadan önce “Hevesli Öğrenciler”, “Eğitim Veri Seti”ni kullanarak sınıflandırma modelini oluşturur. Verileri öğrenmeye ve incelemeye daha fazla, tahmin yapmaya daha az zaman harcıyorlar. Bu tür öğrenenlere yapay sinir ağları (Yapay Sinir Ağı – ANN), Naive Bayes ve karar ağaçları örnek olarak verilebilir .
Aşağıda makine öğreniminde 4 tip sınıflandırma problemini inceleyeceğiz.
Makine öğreniminde 4 tür sınıflandırma problemi
Makine öğrenmesinde 4 farklı sınıflandırma problemini incelemeden önce “Sınıflandırma Tahmine Dayalı Modelleme”den bahsetmemiz gerekiyor.
Sınıflandırma tahmine dayalı modelleme
Makine öğrenmesindeki sınıflandırma problemlerinden biri, girdi verilerinin belirli bir örneği için sınıf etiketlerinden birinin tahmin edilmesi durumudur. Sınıflandırma sorunları aşağıda özetlenenleri içerir.
- Bir örnek sağlayın ve örneğin spam olup olmadığını belirtin.
- El yazısı karakterinin tanınan resmi karakterlerden biri olarak tanımlanması.
- Mevcut kullanıcının, aboneliği kaybeden potansiyel müşteri olarak etiketlenip etiketlenmeyeceğini belirtin.
Modelleme açısından sınıflandırma için sayısız girdi ve çıktı örneği içeren bir eğitim veri setine sahip olmak gerekir. Model, eğitim veri kümesini kullanarak giriş veri örneklerini belirtilen sınıfların etiketlerine bağlamanın en uygun yolunu belirler. Bu nedenle, eğitim veri seti her sınıf etiketinin çok sayıda örneğini içermeli ve sorunun tamamını yeterince temsil etmelidir.
Modelleme algoritması için sınıf etiketleri hazırlanırken “Spam” veya “Spam Değil” gibi string değerlerinin öncelikle sayısal değerlere dönüştürülmesi gerekmektedir. Etiketler için en sık kullanılan şifreleme yönteminde her sınıf etiketine ayrı bir tamsayı atanır. Örneğin spam’ı 0, spam olmayanı ise 1 olarak ayarlıyorlar.
Modelleme problemlerinde sınıflandırma için sınıflandırma ve tahmine dayalı modellemeyi içeren çeşitli algoritma türleri vardır. Belirli bir algoritmanın problemler için nasıl performans göstermesi gerektiğini belirleyecek güçlü bir teori olmadığından, belirli bir sınıflandırma problemi için hangi algoritmanın ve algoritma için hangi konfigürasyonun en fazla performansı sağladığını belirlemek amacıyla genellikle bir uzmanın kontrollü deneyler yapması önerilir. farklı.
“Sınıflandırma Tahmini Modelleme Algoritmaları” çıktılarına göre değerlendirilir. Tahmin edilen sınıf etiketlerine dayalı olarak modelin performansını değerlendirmek için kullanılan ortak istatistiksel kriterlerden biri, sınıflandırma doğruluğu düzeyidir. Mükemmel olmasa da sınıflandırma doğruluğu birçok sınıflandırma görevi için iyi bir başlangıç noktasıdır.
Belki de bir problem, her veri örneğine belirli bir sınıf etiketi koymak yerine, her örnek için bir sınıfa üyelik olasılığının tahmin edilmesini gerektirir. Bu, kullanıcının veya uygulamanın daha sonra yorumlayabileceği tahmine daha fazla belirsizlik katar. ROC eğrisi tahmin edilen olasılıkları değerlendirmek için popüler bir teşhis aracıdır.
Makine öğrenmesinde aşağıda listelediğimiz 4 farklı sınıflandırma görevi bulunmaktadır.
- ” İkili Sınıflandırma “
- “Çok Sınıflı Sınıflandırma”
- “Çoklu Etiket Sınıflandırması”
- “Dengesiz Sınıflandırma”
Aşağıda bu sınıflandırma modellerinin her birine daha ayrıntılı olarak bakacağız.
İkili sınıflandırma
Verilerin yalnızca iki sınıf etiketi arasında sınıflandırıldığı sınıflandırma problemlerine “İkili Sınıflandırma” problemleri denir. Bu konulara örnek olarak aşağıdaki seçeneklerden bahsedilebilir.
- Değişimi tahmin etmek (satın almak veya satın almamak)
- Müşteri kaybının tahmin edilmesi (müşteri kaybı veya kaybı olmayan)
- Spam e-postaları algılama (spam veya spam olmayan)
İkili sınıflandırma problemleri genellikle biri normal durumu, diğeri anormal durumu temsil eden 2 sınıf gerektirir. Örneğin, bir e-postanın normal durumu “spam değil”, anormal durumu ise “spam”dır. Bir sonraki örnekte, normal durum “kanser tespit edilmedi” ve anormal durum “kanser tespit edildi” olduğunda tıbbi bir test kullanıyoruz. 0 etiketi sınıfın normal durumuna, 1 etiketi ise sınıfın anormal durumuna atanır.
Çoğu zaman, ikili sınıflandırma problemini temsil etmek için her öğe için Bernoulli olasılık dağılımını tahmin eden bir model kullanılır. Bernoulli dağılımı olarak bilinen ayrık olasılık dağılımı, bir olayın ikili sonuç (0 veya 1) ürettiği durumlarla ilgilenir. Makine öğreniminde sınıflandırmayla ilgili bu makale, modelin, 1 etiketli sınıfta veya 0 etiketli sınıfta örnek üyelik olasılığını tahmin ettiğini belirtir.
Aşağıda popüler ikili sınıflandırma algoritmalarının bazı örneklerini listeledik.
- ” Lojistik Regresyon ” (Lojistik Regresyon)
- ” Vektör Makinesini Destekle “
- “Basit Bayes”
- ” Karar ağaçları “
Basit vektör makinesi ve lojistik regresyon gibi makine öğrenimindeki bazı sınıflandırma algoritmaları, özellikle ikili sınıflandırma için tasarlanmıştır ve varsayılan olarak ikiden fazla sınıfı desteklemez.
Çok sınıflı sınıflandırma
Çok sınıflı etiketler, çok sınıflı sınıflandırma görevlerinde kullanılır. Konuyu daha iyi anlamanıza yardımcı olmak için aşağıda bazı örnekler vereceğiz.
- Yüz tanıma
- Bitki türlerinin sınıflandırılması
- Işık kullanarak karakter tanıma (OCR)
İkili sınıflandırmanın aksine, çok sınıflı sınıflandırma normal ve anormal çıktının ne olduğunu bilmez. Bunun yerine örnekler birkaç iyi bilinen sınıfa gruplandırılır. Hatta bazı durumlarda sınıf etiketlerinin sayısı nispeten fazla olabilir. Örneğin bir yüz tanıma sisteminde yapay zeka modelinin, bir fotoğrafın binlerce veya onbinlerce yüz arasından hangisine ait olduğunu tahmin etmesi gerekiyor.
Metin çeviri modelleri veya kelime tahminini içeren diğer problemler, çok sınıflı sınıflandırmaların özel durumları olarak sınıflandırılabilir. Tahmin edilecek kelimeler arasındaki her kelime, çok sınıflı bir sınıflandırma işlemini gerektirir; burada tahmin edilecek olası sınıfların sayısı, onbinlerceden yüzbinlerce kelimeye kadar değişebilen sözlüğün boyutuna göre belirlenir.
Çok değişkenli olasılık dağılımı
Çok sınıflı sınıflandırma genellikle her örnek için bir “Çoklu Olasılık Dağılımı ” öngören bir model kullanılarak modellenir . Kategorili bir olasılık dağılımı aynı zamanda “kategorik dağılım” olarak da bilinir çünkü K olası sonucu olan olayları modellemek için kullanılabilir. “Kategorik sonucu” olan herhangi bir olay – çıktı şu kaynaktan olabilir: 2, 3, 4, …, K farklı bir duruma sahiptir – “Ayrık Olasılık Dağılımı” tipi olan çok sınıflı bir dağılım kapsamındadır. Makine öğreniminde sınıflandırma açısından bu makale, modelin verilen örneğin belirli bir sınıfın etiketine ait olma olasılığını en yüksek şekilde tahmin ettiği gerçeğinden bahsediyor.
Bernoulli dağılımı, olası sonuçların sayısının 2’ye (K = 2) eşit olduğu “Multinoulli Olasılık Dağılımı”nın (Multinoulli Olasılık Dağılımı) özel bir durumu olarak düşünülebilir. Makine öğreniminde “Multinoulli Dağılımı”, bir numunenin beklenen sınıfını K sayıda sınıfa modellemek için kullanılabilir. Örneğin, her çiçeğin özelliklerine dayanarak bir K türü kümesindeki bir çiçeğin hangi türe ait olduğunu tahmin etmek isteyebiliriz. Bu durumda K türleri “Multinoulli Dağılımı”nı takip etmektedir.
Çok sınıflı sınıflandırma için birçok ikili sınıflandırma tekniği kullanılabilir.
Çok sınıflı sınıflandırma algoritmalarına bazı örnekler
Aşağıda yapay zeka profesyonelleri tarafından en yaygın olarak kullanılan popüler çok sınıflı sınıflandırma algoritmalarının bazı örneklerini listeledik.
- Aşamalı Arttırma
- “Seçim Ağacı”
- “En Yakın K Komşular”
- “Kaba Orman”
- “Basit Bayes”
İkili sınıflandırma için geliştirilen algoritmalar çok sınıflı problemlerin çözümünde de kullanılabilir. Bunun için “One-Vs-Rest” veya “Her Sınıf Çifti İçin Bir Model” adı verilen bir yöntem kullanılır. Bu yöntem, her sınıf için diğer sınıflara karşı birkaç eşleştirilmiş ikili sınıflandırma modelini içerir. Aşağıda her iki yöntem için de kısa bir açıklama verdiğimiz “One-Vs-One” (One-Vs-One) adında bir yöntem daha bulunmaktadır.
- Bire Karşı: Her sınıf çifti için ayrı ayrı ikili sınıflandırma modeli kullanılır.
- Bire Karşı Tüm: Her sınıf ve diğer tüm sınıflar için ikili bir sınıflandırma modeli kullanılır.
Aşağıda belirtilen ikili sınıflandırma algoritmaları bu çok sınıflı sınıflandırma tekniklerini kullanabilir.
- “Vektör Makinesini Destekle”
- “Lojistik regresyon”
Çoklu etiket sınıflandırması
Çok etiketli sınıflandırma problemleri, her örnek için iki veya daha fazla sınıf etiketi sağlar ve böylece tahmin sırasında her örneğe birden fazla etiket eklenmesine olanak tanır. Fotoğraf sınıflandırma örneğini düşünün. Buradaki nesne tanıma modeli, görüntüde bilinen birçok şeyin varlığını tahmin edebiliyor. İnsanlar, elmalar, bisikletler vb. gibi şeyler. Her benzersiz görüntü, aynı sahnede birkaç farklı nesne içerebilir.
Bu tür sınıflandırma, her olay için olası sınıfların yalnızca bir etiketini bekleyen çok sınıflı sınıflandırma ve ikili sınıflandırmadan önemli ölçüde farklıdır. Çok etiketli sınıflandırma problemleri genellikle birçok çıktıyı tahmin eden bir model kullanılarak modellenir. her çıktının olasılığının “Bernoulli Olasılık Dağılımı” ile tahmin edildiği. Aslında bu yaklaşım, her bir örnek için ayrı ayrı ikili sınıflandırma yöntemiyle çeşitli tahmin işlemlerini gerçekleştirir.
Çok sınıflı veya ikili sınıflandırma problemlerinde kullanılan çok düzeyli sınıflandırma yöntemlerini doğrudan uygulayamayız. Çok seviyeli algoritmalar olarak adlandırılan versiyonlar, aslında makine öğrenimindeki normal sınıflandırma algoritmalarının uzmanlaşmış versiyonlarıdır. Bu algoritmalar aşağıdakileri içerir.
- Çoklu Etiket Gradyan Artırma
- “Çok etiketli Rastgele Ormanlar”
- “Çok Etiketli Karar Ağaçları”
Dengesiz sınıflandırma
Dengesiz sınıflandırma terimi, makine öğreniminde örneklerin sınıflardaki dağılımının eşit olmadığı bir sınıflandırma türünü ifade eder. Eğitim veri setindeki örneklerin çoğu normal sınıfa, bir kısmı da anormal sınıfa aittir veya tam tersi. Bu eşitsizlik, dengesiz sınıflandırma problemlerinin aslında ikili sınıflandırma problemlerine dönüşmesine neden olur. Örnekler aşağıdakileri içerir.
- Klinik tanı yöntemleri
- Aykırı değer tespiti
- Dolandırıcılık olup olmadığını kontrol edin
Bu problemlerin çözümü benzersiz yöntemler gerektirse de ikili sınıflandırma yöntemiyle modellenmiştir. Azınlık sınıfından “aşırı örnekleme” (aşırı örnekleme) veya çoğunluk sınıfından “düşük örnekleme” (düşük örnekleme) yoluyla, eğitim veri setindeki örneklerin kompozisyonunu değiştirmek için özel stratejiler kullanılır. Bunun örnekleri arasında aşağıdakiler yer almaktadır.
- SMOTE Aşırı Örnekleme
- “Rastgele Düşük Örnekleme”
Maliyete duyarlı makine öğrenimi algoritmaları gibi özel modelleme teknikleri kullanılabilir. Bu davranış, modelin eğitim veri kümesine “uydurulması” sırasında azınlık sınıfına daha fazla öncelik verir. Bu özel tekniklerin bazı modellerinden aşağıda bahsettik.
- “Maliyete Duyarlı Destek Vektör Makinesi”
- “Maliyet Duyarlı Karar Ağacı”
- “Maliyete Duyarlı Lojistik Regresyon”
Sınıflandırma doğruluğunun raporlanması yanıltıcı olabileceğinden, bunların yerine performans göstergelerinin bulunması gerekli olabilir. Aşağıda bu göstergelerin bazılarından bahsettik.
- “F-Ölçütü” (F-Ölçüsü)
- Kesinlik
- “Doğru” (Geri Çağırma)
Bir sonraki yazımızda makine öğrenmesinde sınıflandırma algoritması türlerini inceleyeceğiz.
Sınıflandırma algoritması türleri
Çalıştığınız veri setine bağlı olarak farklı sınıflandırma yöntemleri uygulayabilirsiniz. Bunun nedeni istatistik biliminde sınıflandırma konusuna ilişkin çok kapsamlı çalışmaların yapılmış olmasıdır. Aşağıda en iyi 6 makine öğrenimi algoritmasına kısaca göz atacağız.
lojistik regresyon
Lojistik Regresyon, hedef değişken için en yüksek olasılığı tahmin eden denetimli öğrenme sınıflandırma tekniğidir. İki sınıf arasında yalnızca bir seçim olacaktır. Veriler yalnızca başarıyı temsil eden 1 veya “evet” veya başarısızlığı temsil eden 0 veya “hayır” şeklinde kodlanabilir. Bağımlı değişken lojistik regresyon kullanılarak çok etkili bir şekilde tahmin edilebilir. Tahmin sonucu doğru veya yanlış, evet veya hayır, 0 veya 1 gibi kategorik olduğunda lojistik regresyonu kullanabilirsiniz. Bu yöntem aynı zamanda bir e-postanın spam olup olmadığını belirlemek için de kullanılabilir.
basit iş
Naive Byes, bir veri örneğinin benzersiz bir kategoriye girip girmediğini belirler. Bu algoritma, metin analizinde kelimeleri veya cümleleri kategorize etmek için kullanılır. önceden tanımlanmış bir kategoriye girip girmediklerini kontrol etmek için.
Metin | Etiket |
“Harika bir oyun” | Spor Dalları |
“Seçim bitti” | spor dışı |
“Ne muhteşem bir rekor” | Spor Dalları |
“Temiz ve unutulmaz bir maç” | Spor Dalları |
“Yazım yarışmasının son galibi sürpriz oldu” | spor dışı |
en yakın komşu
K -En Yakın Komşular (KNN), bir veri örneğinin gruplara ait olma olasılığını hesaplar. Bu hesaplama hangi grup veri örneğinin kendisine en yakın olduğu prensibine göre yapılır. Sınıflandırma için KNN’yi kullandığınızda verilerin en yakın komşuya göre nasıl gruplandırılması gerektiğine siz karar verirsiniz.
karar ağacı
“Karar Ağacı” denetimli öğrenmeye bir örnektir. Hem regresyon hem de sınıflandırma problemlerini çözebilmesine rağmen, sınıflandırma problemlerinde en iyisidir. Bir akış şeması gibi , örnek verileri ağacın gövdesinden başlayarak kategoriler en yakından ilişkili olana kadar dallar ve yapraklar boyunca ilerleyerek iki benzer gruba ayırır.
Önerilen içerik:
Rastgele orman algoritması
” Rastgele Orman Algoritması ” (Rastgele Orman Algoritması), karar ağacı algoritmasının, eğitim verileri kullanılarak bir dizi karar ağacı oluşturulacak ve daha sonra bunların verileri rastgele olarak oluşturulan ağaçlardan birine eklenecek şekilde genişletilmiş bir dalıdır. orman. Uydurma” Verilerin boyutuna göre en yakın veri ağacına katılmak için verilerin ortalamasını alırlar. Bu modeller, karar ağacı algoritmalarında verilerin zorunlu ve anlamsız bir şekilde bir kategoride gruplandırılmasıyla ilgili sorunları iyileştirmek için mükemmeldir.
Önerilen içerik:
Destek vektör makinesi
“Destek Vektör Makinesi”, makine öğrenimi ve denetimli regresyondaki sınıflandırma problemlerini çözmek için iyi bilinen bir yöntemdir. Bu yöntem, verileri polariteye göre sınıflandırmak ve eğitmek için algoritmalar kullanarak X/Y tahmininin ötesine geçer.
Makine öğreniminde eğitim modeli yöntem türleri
Modellerin eğitim süreci, aslında problemin türüne ve elbette modeli eğitmek için mevcut olan veri türüne bağlı olan 4 ana yolla yapılır. Aşağıda bu 4 ana modeli anlattık.
Denetimli öğrenme yaklaşımı
Denetimli öğrenme yaklaşımı, algoritmaları doğrudan insan gözetimi altında eğitir. İlk olarak algoritma için hem girdi hem de çıktı verileri sağlanır. Algoritma daha sonra giriş verilerini çıkış etiketleriyle eşleştiren kurallar geliştirir. Mümkün olan en kısa sürede en yüksek performans seviyesine ulaşmak için eğitim prosedürü tekrarlanır.
- gerileme
- sınıflandırma
Bu makalenin genel konusu denetimli öğrenme kapsamına giren “Makine Öğreniminde Sınıflandırma” (Makine Öğreniminde Sınıflandırma) hakkındadır.
Denetimsiz öğrenme
” Denetimsiz Öğrenme “, verilerin bütünsel yapısını incelemek ve onlardan akıllı ve anlamlı bilgiler çıkarmak için kullanılır. Bu teknik, etiketlenmemiş verilerdeki kalıplara ve ipuçlarına bakarak daha iyi sonuçlar üretecek bilgileri arar. Aşağıda mevcut iki denetimsiz öğrenme türünü adlandıracağız.
- ” Kümelenme “
- Boyutsal küçülme
Yarı denetimli öğrenme
“Yarı Denetimli Öğrenme” denetimli ve denetimsiz öğrenme arasındaki spektrumdadır. Bu yaklaşım, kullanılacak benzersiz bir algoritma seti oluşturmak için her iki dünyanın en iyi yönlerini birleştirir.
Takviyeli öğrenme
“Pekiştirmeli Öğrenme ” nin amacı “Otonom” ve “Kendini Geliştiren” algoritmalar oluşturmaktır. Algoritmanın amacı sürekli bir deneme yanılma döngüsü yoluyla kendini geliştirmektir. Bu kalıcı döngü, giriş verileri ile etiketli veriler arasındaki etkileşim ve kombinasyonlara dayalı olarak oluşur.
Sınıflandırma yöntemleri
Aşağıda makine öğrenmesindeki sınıflandırma yöntemlerinden bazılarını açıkladık.
basit iş
Simple Bayes, bir veri setindeki tahmin edicilerin birbirinden bağımsız olduğunu varsayan bir sınıflandırma algoritmasıdır. Bu, özelliklerin birbiriyle hiçbir ilgisinin olmadığını varsaydığı anlamına gelir. Örneğin, bir muz verilirse sınıflandırma algoritması meyvenin sarı, uzun, uzun ve koni şeklinde olduğunu bulacaktır. Bu özelliklerin tümü bağımsız olarak çalışarak meyvenin muz olma olasılığını artırır, ancak birbirine bağımlı değildir.
Bayesade, Bayes’in aşağıdaki şekilde ifade edilen ispatına dayanmaktadır.
Burada:
- P(A | B) ifadesi, B olayının gerçekleşmesi koşulunda A olayının gerçekleşme olasılığını ifade eder.
- P(A) terimi A olayının gerçekleşme olasılığını ifade eder.
- P(B) terimi B olayının gerçekleşme olasılığını ifade eder.
- P(B | A) ifadesi, A olayının meydana gelmesi koşulu altında B olayının meydana gelme olasılığını ifade eder.
- karar ağacı
Karar ağacı, karar verme sürecinin temsilini görselleştirmek için kullanılan bir algoritmadır. Evet-hayır soruları sorarak ve cevabı bir sonraki karara yönlendirecek şekilde izole ederek bir karar ağacı oluşturulabilir. Düğümlerden sorular gelir ve kararların sonuçları düğümlerin yapraklarına yerleştirilir. Aşağıda çizilen ağaç tenis oynama olasılığına karar vermek için kullanılmaktadır.
Yukarıdaki şekilde hava koşulları, nem ve rüzgara bağlı olarak tenis oynama kararı sistematik olarak verilmektedir. Karar ağaçlarında tüm yanlış ifadeler ağacın sol dalına, tüm doğru ifadeler ise sağ dalına yerleştirilir. Bunu bilerek, düğümlerdeki nitelikleri ve yapraklarda ortaya çıkan sınıfları içeren bir ağaç oluşturmak mümkündür.
En Yakın Komşu veya KNN
Veri noktaları arasındaki mesafeye göre verileri sınıflara bölmek için kullanılan bir tahmin ve sınıflandırma algoritmasıdır. En yakın komşu algoritması, birbirine yakın olan veri noktalarının benzer olması gerektiğini, dolayısıyla sınıflandırılacak veri noktasının en yakın kümeyle aynı kategoride olacağını varsayar.
Sınıflandırma modeli değerlendirmesi
Modelin tasarımını tamamladıktan sonra modelin regresyon mu yoksa sınıflandırma mı olduğunu belirlemek için modelin performansını değerlendirmemiz gerekir. Makine öğrenmesinde sınıflandırma modeli türlerini değerlendirmek için aşağıdaki seçenekleri kullanacağız.
Karışıklık matrisi
” Karışıklık Matrisi” aşağıda bahsettiğimiz faydalı özelliklere ve özelliklere sahiptir.
- Modelin performansını açıklar ve bilgiyi çıktı olarak matris veya tablo olarak döndürür.
- Diğer bir adı ise hata matrisidir.
- Matris, kompakt formdaki tahmin sonuçlarının yanı sıra toplam doğru ve yanlış tahmin sayısıyla oluşturulur.
Matrisin genel formu çizdiğimiz tabloda görülmektedir.
gerçekten olumlu | gerçekten olumsuz | |
Olumlu tahmin edildi | “Gerçek Pozitif” (TP) | “Yanlış Pozitif” (FP ) |
Tahmin edilen negatif | “Yanlış Negatif” (FN ) | “Gerçek Negatif” (TN) |
Burada: “Doğruluk” = toplam toplam / (doğru negatif tahminlerin sayısı veya TN + doğru pozitif tahminlerin sayısı veya TP)
Günlük Kaybı veya çapraz entropi kaybı
Aşağıda “Çapraz Entropi Kaybı” yönteminin bazı temel özelliklerini listeledik.
- Bu yöntem, sınıflandırma algoritmasının performansını değerlendirmek için kullanılır ve çıktı, sıfır ile bir arasında olası bir değer olacaktır.
- İkili sınıflandırma modelinin başarılı olması için Log Loss değerinin sıfıra yakın olması gerekir.
- Beklenen değer gerçek değerden farklı ise Log Loss değeri artırılır.
- Log Loss değeri ne kadar düşük olursa modelin doğruluğu da o kadar yüksek olur.
İkili sınıflandırma için çapraz entropi kaybı miktarı aşağıdaki şekilde hesaplanır.
(senkayıt(�)+(1-sen)kayıt(1-�))
Bu formülde p, tahmin edilen çıktıyı, y ise gerçek çıktıyı temsil eder.
Sistem performans karakteristik eğrisinin altında kalan alan
Aşağıda “sistem performansı karakteristik eğrisi altındaki alanın” (AUC-ROC Eğrisi) ana özelliklerini listeliyoruz.
- AUC, “Eğri Altındaki Alan” anlamına gelir ve ROC, Alıcı Çalışma Özellikleri Eğrisi anlamına gelir.
- Sınıflandırma modelinin farklı eşiklerdeki etkinliğini gösteren bir grafiktir.
- AUC-ROC eğrisi, çok sınıflı sınıflandırma modelinin sağladığı performans kalitesini göstermek için kullanılır.
- ROC eğrisini çizmek için Gerçek Pozitif Oranı (TPR) ve Yanlış Pozitif Oranı (FPR) kullanılır. Gerçek pozitif oran (TPR) Y ekseninde görüntülenir ve yanlış pozitif oran (FPR) X ekseninde görüntülenir.
Makine öğreniminde sınıflandırma algoritmalarının uygulama örnekleri
Sınıflandırma algoritmaları ile çalışan birçok uygulama bulunmaktadır. Aşağıda bunlardan birkaçına değineceğiz.
- Konuşma tanıma
- E-postalar arasındaki spam’ı tespit edin
- İlaçların sınıflandırılması
- Kanser tümör hücrelerinin tanımlanması
- Biyometrik veya biyolojik kimlik doğrulama
- Vesaire
Sınıflandırıcıların değerlendirilmesi
Bir sınıflandırıcının doğruluğunu ve etkinliğini doğrulamak için yapılan değerlendirme, üretim aşamasının tamamlanmasından sonraki en önemli adımdır. Bir sınıflandırıcıyı çeşitli şekillerde değerlendirebiliriz. Aşağıda bu yöntemlerden bazılarını inceleyeceğiz. Başlangıç olarak “Çapraz Doğrulama”dan bahsedeceğiz.
Çapraz doğrulama
Çoğu makine öğrenimi modelindeki en büyük sorun “aşırı uyum” oluşmasıdır. Çapraz doğrulamada K-Fold yöntemi ile aşırı uyumun varlığını kontrol etmek mümkündür. Bu yöntemle veri seti rastgele, ayrı ve benzersiz elemanlarla aynı büyüklükte K sayıda alt kümeye bölünür. Biri modeli test etmek için ayrılır ve diğer alt kümeler modeli eğitmek için kullanılır. Bu işlem her katlama için yani K defa yapılır.
Uzatma Yöntemi
“Bekletme Yöntemi”, “Sınıflandırıcıları” değerlendirmek için en yaygın kullanılan yöntemdir. Bu yönteme göre veri seti, toplam verinin sırasıyla %80 ve %20’sini içeren iki eğitim ve test alt kümesine bölünür. Gözlemlenmeyen eğitim seti, modelin eğitim veri seti tarafından eğitilmesinden sonra verilerin tahmin yeteneğini değerlendirmek için kullanılır.
Performans karakteristik eğrisi
“ROC Eğrisi” (ROC Eğrisi), makine öğrenmesinde sınıflandırma modellerinin karşılaştırmasını görsel olarak görüntülemek için kullanılır. Bu grafik, görüntüdeki “Yanlış Pozitif Oranı” ile “Gerçek Pozitif Oranı” arasındaki ilişkiyi açıklamaktadır. Modelin doğruluğu, performans karakteristik eğrisinin altındaki alanla belirlenir.
Sapma ve varyans
Sapma olarak da adlandırılan sapma, gerçek değerler ile tahmin edilen değerler arasındaki farktır. Önyargı, verilerimizde bulunan kalıplarla doğrudan eşleşen yeni veriler hakkında tahminlerde bulunmak amacıyla modelin verilerimiz hakkında yaptığı basit varsayımlardır. Sapma değeri yüksek olduğunda modelimizin yaptığı varsayımlar çok temel oluyor, model verilerimizin önemli özelliklerini anlayamıyor, buna “yetersiz uyum” deniyor.
” Varyans “ı modelin veri dalgalanmalarına duyarlılığı olarak tanımlayabiliriz . Belki model gürültüyle eğitilmiştir. Bu, modelin önemsiz ve güncelliğini yitirmiş özellikleri önemli saymasına neden olur. Varyans miktarı yüksek olduğunda modelimiz kendisine verilen verinin tüm özelliklerini anlayacak ve kendini veriye adapte edecek ve o veri üzerinde tahmin işlemlerini çok iyi gerçekleştirecek ama belki de yeni veri birebir aynı olacaktır. özelliklere sahip değildir ve model bu veriler üzerinde tahmin işlemlerini çok iyi gerçekleştirememektedir. Buna “Aşırı Uyum” denir.
doğruluk ve geçerlilik
Denetimli öğrenmeye dayalı modellerin doğruluğunu hesaplamak için aşağıda açıkladığımız “Precision” (Precision) ve “Doğruluk” (Recall) olmak üzere iki önemli kriter vardır.
- “Hassaslık”: Modelin değerleri doğru şekilde sınıflandırma yeteneğini hesaplamak için kullanılır. Her sınıf etiketi için doğru şekilde sınıflandırılan veri örneklerinin sayısının sınıflandırılmış veri örneklerinin toplam sayısına bölünmesiyle elde edilir.
- “Doğruluk” (Geri Çağırma): Modelin pozitif değerleri tahmin etme yeteneğinin hesaplanmasında kullanılır. Ancak “model pozitif tam sayı değerlerini ne sıklıkla tahmin ediyor?”. Bu kriter, doğru tespit edilen pozitif değerlerin toplam gerçek pozitif değer sayısına oranı alınarak hesaplanır.
Derin öğrenme modellerini sade bir dille değerlendirme
Algoritma seçimi
Yukarıda açıklanan stratejiyi tamamlamak amacıyla, her model için en uygun algoritmayı seçmek amacıyla aşağıda listelenen prosedürleri kullanabiliriz.
- Sorun bilgilerini okuyun.
- Bağımsız ve bağımlı niteliklere dayalı bağımsız ve bağımlı veri kümeleri oluşturun.
- Veri kümesi için test ve eğitim veri alt kümelerini oluşturun.
- Modeli eğitmek için SVM, Karar Ağacı, KNN vb. dahil olmak üzere birçok algoritma kullanın.
- Sınıflandırıcıyı düşünün.
- En doğru sınıflandırıcıyı seçin.
Doğruluk, makine öğreniminde sınıflandırma modelini daha verimli hale getirmek için en iyi ölçüdür. Ancak modeliniz için en uygun algoritmayı seçmek muhtemelen gerekenden daha fazla zaman alacaktır.
Sıkça Sorulan Sorular
Bu yazımızın sonunda sık sorulan bazı soruların yanıtlarını inceleyeceğiz.
Makine öğreniminde sınıflandırma algoritması nedir?
Sınıflandırma, belirli girdi verileri örnekleri için sınıf etiketinin tahmin edilmesini içerir. Örneğin bir kodun spam olup olmadığını belirleyebilir. Bilinen karakterlerden birini içerdiği sürece el yazısını kategorize edebilir.
Makine öğreniminde en iyi sınıflandırma algoritması nedir?
Lojistik regresyon, destek vektör makinesi ve karar ağacı gibi diğer sınıflandırma algoritmalarıyla karşılaştırıldığında basit Bayes sınıflandırma algoritması daha iyi sonuçlar vermektedir.
Makine öğrenimindeki en basit sınıflandırma algoritması nedir?
KNN yöntemi en basit ve en anlaşılır sınıflandırma tekniklerinden biridir.
Makine öğreniminde sınıflandırma ve algoritma arasındaki fark nedir?
Bilgisayarların verileri kategorize etmek için kullandığı tekniğe veya talimatlar dizisine sınıflandırma denir. Sonuç olarak makine öğrenmesinde sınıflandırma modelinin verimliliğinden bahseden sınıflandırıcılardır. Sınıflandırma, sonuçta verilerinizi sınıflandıracak bir modeli eğitmek için kullanılır.
Sınıflandırma nedir ve türleri nelerdir?
nesneleri farklı gruplara veya türlere ayıran bir sistemdeki gruplandırma veya bölme türüdür. Makine öğreniminde tüm sınıflandırma türleri için dört tür sınıflandırıcıyla çalışabilirsiniz.
- İkili sınıflandırma
- Çok sınıflı sınıflandırma
- Çoklu etiket sınıflandırması
- Dengesiz sınıflandırma
Sınıflandırma ve kümeleme arasındaki fark nedir?
Kümelemenin amacı, tür olarak benzer öğeleri en iyi kriteri hesaplayarak gruplamaktır. Ancak sınıflandırmada gruplar zaten mevcuttur ve her veri örneğinin etiketini tahmin etme hedefi, mevcut gruplardan birine karşılık gelir ve “Kümeleme” ile “Sınıflandırma” arasındaki fark da budur.
Çözüm
Özetlemek gerekirse, sınıflandırmanın denetimli öğrenmenin standart yöntemi olarak değerlendirilebileceğini belirtiyoruz. Sınıflandırma, belirli bir örneğin önceden belirlenmiş bir kategoriye uyup uymadığını belirlemeye çalıştığınızda size yardımcı olacak değerli bir stratejidir.