Python ile makine öğreniminde veri bölümlemeyi öğretme
uPython bölme genellikle makine öğreniminde verileri üç eğitim setine (Eğitim Seti), test setine (Test Seti) ve doğrulama setine (Doğrulama Seti) ayırmak için kullanılır . Bu yazıda Python ile makine öğreniminde veri bölümleme eğitimi ele alınmıştır.
Eğitim verilerine ve test verilerine (Train-Test Split) veri ayırma (veri bölme), bir makine öğrenimi algoritmasının performans kalitesini ölçmeye yönelik bir yöntemdir . Veri ayırma, sınıflandırma veya regresyon problemleri için kullanılabilir ve genel olarak bu yaklaşım, her türlü denetimli öğrenme algoritmasında kullanılır. Veri ayırma işlemi, bir veri kümesini iki veya üç alt kümeye bölmeyi içerir. Bu bölümde yapay zeka ve makine öğrenimindeki bazı önemli kavramlardan bahsedilmiştir. Bu nedenle aşağıda bu kavramlarla ilgili bazı maddeler tanıtılmıştır.
Önerilen makaleler:
- Python ile verileri kategorilere ayırma — Pratik bir kılavuz
- Basit doğrusal regresyon – basit dilde kavram ve hesaplamalar (+ ücretsiz eğitim videosunu indirin)
- Python ile Denetimli Öğrenme — Kapsamlı bir kılavuz
Makine öğreniminde veriler neden önemlidir?
şu öğrenimi biliminde veriler çok önemlidir ve bir tür iş yakıtı olarak kabul edilir. Makine öğreniminde verilerin önemi iki nedenden dolayıdır:
- Modelin öğrenmesi için verilere ihtiyacı vardır, böylece “Modelin işi, verilerdeki bilgiyi çıkarmak ve kullanmaktır” denilebilir.
- Modeli test etmek için verilere ihtiyacımız var, çünkü model verilerdeki bilgileri iyi çıkaramamış olabilir.
Python ile makine öğreniminde veri bölümleme eğitimi
Makine öğrenimi sürecinin ilk kısmı için eğitim verileri (Train) kullanılır ve doğrulama verileri (Validation) izleme (İzleme) ve bazen modelin öğrenimini kesintiye uğratmak için kullanılabilir. Test verileri de bu sürecin ikinci kısmı için kullanılır. Bu 3 veri kategorisi arasında Doğrulama verilerini kullanamazsınız; Ancak bunların varlığı, bazı hiperparametrelerin daha iyi ayarlanmasına yardımcı olur.
Python ile makine öğreniminde veri bölümleme için gerekli kitaplıkları çağırma
Şimdi Python ortamına girin ve önce gerekli kütüphaneleri çağırın:
Python ile makine öğreniminde bir veri segmentasyonu projesini uygulamak için veri yükleme
Artık veriyi bölmek için veriye ihtiyaç var; Bu proje için IRIS veri seti kullanılmıştır. Sklearn kitaplığı, IRIS verilerini aşağıdaki gibi yüklemek için de kullanılır:
İris verilerini iki kümeye ayırma Python’da Eğitim ve Test
Yalnızca Eğit ve Test verilerine ihtiyaç duyulursa, aşağıdaki gibi yapılabilir:
Verileri iki kümeye ayırma Python’da yeniden üretilebilir bir şekilde Eğitin ve Test Edin
Bu kodun her çalıştırıldığında verileri farklı şekillerde böldüğüne ve programın aynı şekilde tekrar üretilemeyeceğine ve gerekirse Ransom State’in aşağıdaki gibi ayarlanabileceğine dikkat edilmelidir:
Python ile makine öğreniminde veri bölümleme için veri boyutlarının incelenmesi
Artık verilerin boyutlarını kontrol edebilirsiniz:
X.şekli = (150, 4) -- Y.şekli = (150,) trX.shape = (105, 4) -- trY.shape = (105,) teX.shape = (45, 4) -- teY.shape = (45,)
Dolayısıyla hem verilerin oranı hem de verilerin birinci boyutunun boyutu gözlenmiştir. Ancak veriler üzerinde doğrulama yapma niyeti varsa, biraz farklı yapılmalıdır.
Python ile makine öğreniminde doğrulama için veri ayırma nasıl yapılır?
İlk olarak Train verilerini (eğitim verileri) ayırabilir ve ardından bir sonraki adımda doğrulama verilerini test verilerinden ayırabilirsiniz:
Veri madenciliği ve makine öğrenimi eğitim videolarının tanıtımı
Faradars web sitesinde, her biri belirli bir konuya sahip çeşitli eğitim koleksiyonları bulunmaktadır ve her koleksiyonda derlenen tüm dersler ortak bir bilimsel ve eğitimsel geçmişe sahiptir. Veri madenciliği ve makine öğrenimi ile ilgilenenlerin kurslarını kontrol etmesi ve kullanması tavsiye edilen web sitesinde bir “veri madenciliği ve makine öğrenimi eğitim seti” de bulunmaktadır. Bu makalenin yazıldığı sırada, söz konusu koleksiyonda veri madenciliği ve makine öğrenimi alanında 265 saatten fazla video eğitim içeriğinin sunulduğu 30 farklı eğitim kursu bulunmaktadır.
Test ve doğrulama verilerini eşit olarak bölmek için veri oranı
Artık X2 ve Y2 , test verileri ve doğrulama verileri arasında 1:1 oranında bölünebilir ; Nihai oranlar aşağıdaki gibi olacaktır:
İkinci fonksiyonda, train_size değerinin, bu koddaki doğrulanmış sete eşit olan fonksiyonun ilk çıkış setinin boyutunu gösterdiğine dikkat edilmelidir. Şimdi verilerin boyutlarını tekrar kontrol edebiliriz:
X.şekli = (150, 4) -- Y.şekli = (150,) trX.shape = (105, 4) -- trY.shape = (105,) vaX.shape = (22, 4) -- vaY.shape = (22,) teX.shape = (23, 4) -- teY.shape = (23,)
Python’da veri bölümleme işlevi tasarlama
Artık aynı işlemi gerçekleştiren ve kodlama görevlerini kolaylaştıran bir fonksiyon tasarlamak mümkün. Bunu yapmak için, ilk olarak girişte Tren ve Doğrulama setlerinin verileri ve boyutu alınır:
7. Python’da veri bölme işlevinin çıktı biçimini belirleme
Artık fonksiyonun çıktısı tanımlanabilir; Ancak çıktıda 6 dizi alındığından ve kullanım sırasında hatalara neden olabileceğinden Python’da sözlük veri türü kullanılır:
8. Python ile makine öğreniminde veri bölümleme işlevinin son hali
Şimdi ortaya çıkan sözlük çıktıda döndürülür ve işlev aşağıdaki son biçimi alır:
Python’da veri bölme işlevinin ayarlanabilirliğini geliştirmek için özellikler eklendi
İşlev şu ana kadar tamamlandı, ancak davranışını daha özelleştirilebilir hale getirmek için bazı özellikler eklenmelidir. Birincisi, girişte bir Rastgele Durum ayarlamak ve bunu verileri bölmek için kullanmaktır. İkinci şey, Train ve Validation boyutunu kontrol etmektir. Bu iki öğeyi düzelttikten sonra, fonksiyonumuz aşağıdaki formu alır:
İstisna oluştu: AssertionError Tren Boyutu + Doğrulama Boyutu 1'den Küçük Olmalıdır
Bu sayede Python ile makine öğrenimindeki veri bölme işlevi tamamlanmış olur ve projelerinizde kullanabilirsiniz. Şimdi bu yazının son bölümünde Python ile makine öğreniminde veri bölme eğitimi ile ilgili eğitim kursları tanıtılmıştır.
Öğrenen makine Python ile öğrenmeye yönelik eğitim videolarının tanıtımı
Python ile makine öğreniminde veri bölümleme hakkındaki makalenin bu son bölümünde, Python ile makine öğrenimi alanında bir dizi ilgili ve uygulamalı müfredat dışı kurs tanıtıldı.
Python ile makine öğrenimi videosu
Ders dışı makine öğrenimi kursunun süresi 10 saattir ve eğitmen Saeed Mazloumi Rad. Bu kurs, yapay zeka alanına ilgi duyan ve aktif olanlar ile makine öğrenmesi alanında beceri kazanmak ve çalışmaya başlamak isteyenler için uygundur. Bu eğitim kursunda sunulan konular ve ana hatlar arasında, makine öğrenimine giriş, NumPy’ye aşinalık, Pandalara aşinalık, veri çizme, istatistiksel konulara aşinalık ve diğer konuları sayabiliriz.
Python’da uygulama içeren makine öğrenimi eğitim videosu – birinci bölüm
Bu kursun süresi yaklaşık 17 saat olup, eğitmeni Dr. Farshid Shirafken’dir. Bu kurs, temel kavramlar, veriler, regresyon ve dört sınıflandırma yöntemi gibi konuları içeren makine öğrenimi eğitiminin ilk bölümünü içerir: lojistik regresyon, destek vektör makinesi, sinir ağı ve karar ağacı. Makine öğrenimi eğitiminin ikinci kısmı, aşağıda tanıtılan başka bir eğitim kursundadır.
Python’da uygulama içeren makine öğrenimi eğitim videosu – Bölüm II
Python’da uygulamalı makine öğrenimi eğitim kursunun ikinci bölümünün süresi on saat 33 dakikadır ve eğitmen Dr. Farshid Shirafken’dir. Bayes sınıflandırması, k en yakın komşu, toplu öğrenme gibi diğer sınıflandırma yöntemleri de dahil olmak üzere makine öğreniminin temel ve önemli konularının devamı ve makine öğreniminin diğer konuları bu derste tam olarak işlenir.
Çözüm
Bu yazıda Python ile makine öğreniminde verilerin nasıl bölüneceği öğretildi. Python’da, makine öğrenimi projelerinizde kullanabileceğiniz yerleşik bir veri bölme işlevi vardır. Oluşturulan fonksiyonu ihtiyaçlarınıza göre değiştirebilir ve ihtiyaçlarınıza uygun hale getirebilirsiniz. Daha fazla kodlama pratiği için aynı işlev Python’da Numpy kitaplığı ve List veri türü kullanılarak uygulanabilir .