Python’da veri biliminde önyükleme pratik rehber
Modellerin ve istatistiksel tahmincilerin hatasını tahmin etmek için önemli ve parametrik olmayan tekniklerden biri, yeniden örneklemenin kullanılması ve tahmin edicinin farklı örneklemler altında hesaplanmasıdır. Bu durumda tahmin edicilerin değerlerinin farklı örneklemlerden varyansı veya standart sapması tahmin edicinin hatası olarak kabul edilir. Aslında, tahmin edicinin hatasını bulmanın böyle bir yöntemine “Önyükleme” denir. Önyükleme, veri biliminde bir bilgisayar yöntemi ve tekniği olduğu için, bu yazıda Python programlama dilinin yardımıyla gerçekleştirdik.
Tabii ki, bootstrap teriminin ayakkabıya dikilen ve botların veya ağır ayakkabıların giyildiği kayış veya kayış ile ilgili olduğunu unutmayın, “Bradley Efron” adlı istatistikçiler bu yenilikçi yönteme bootstrap adını verdiler. dağılımını bilmeden zor olan tahmin edicinin hatasını hesaplamak, onun yöntemiyle basit ama sabit bir görevi tekrarlama şeklinde uygulanabilir ve neyse ki iyi bir yaklaşıklığa sahiptir.
Yeniden örnekleme yöntemi ve buna dayalı analiz teknikleri hakkında daha fazla bilgi edinmek için Jackknife ve Bootstrap yeniden örnekleme yöntemlerini sade bir dille okuyun . Sade bir dille Örnekleme ve Yeniden Örnekleme’yi de okumaya değer .
Python’da Veri Biliminde Bootstrap
Veri biliminde önyükleme, çok fazla hipoteze dayanmadan istatistiksel çıkarım için güçlü, bilgisayar tabanlı bir yöntemdir. Bir veri örneğinden bir örnekleme dağılımı oluşturmak sadece sihirdir. Önyüklemede istatistiksel çıkarım için, tahmin edicilerin istatistiksel dağılımını bilmeye gerek yoktur. Bu sayede “Bootstrap”, “Makine Öğrenimi” alanında bile “Güven Aralığı” , “Regresyon Modeli” oluşturmak için yaygın olarak kullanılmaktadır . Bu metinde, veri biliminde önyükleme ile ilgili iki konuyu tartışacağız:
- güven aralığı oluşturma
- İstatistiksel bir hipotez testi gerçekleştirin
Tabii ki, bu durumların her biri, açık istatistiksel yöntemler ve bootstrap yardımıyla yapılır ve sonuçları karşılaştırırız. Bu arada, Python dilinin veri bilimindeki yöntemleri gerçekleştirmedeki geniş yelpazesi nedeniyle, hesaplamaları ve ilgili işlemleri gerçekleştirmek için bu dilde kodlar da tanıtıyoruz.
Veri biliminde önyükleme ile güven aralığı oluşturma
Gerçek dünyada, popülasyon veya istatistiksel popülasyon ve değişkenlerinin özellikleri ve özellikleri hakkında açık bilgilere sahip değiliz. Örneğin, tartıştığımız istatistiksel topluluk, gezegenin tüm nüfusu veya borsadaki geçmiş işlemler ve hatta bir şirketin mevcut ve gelecekteki cirosu olabilir. Ana sorun, istatistiksel popülasyonun büyük boyutundan dolayı, popülasyonun istatistiksel özelliklerine uygun bir tahminde bulunmak için örnekler almak zorunda olmamızdır.
Aslında, bu popülasyonla ilgili parametreyi anlamak ve bilmek için örneklem dağılımına güveniyoruz. Hipotez testi ve güven aralıklarının nasıl oluşturulacağı için farklı adlar vardır:
- Örnek T-Testi
- İki örnek t-testi
- Z testi
- Ki-kare Testi
Bunlardan herhangi birine parametrik olmayan bir alternatif, önyükleme yöntemini kullanmak olabilir. Bu makalede, ilgilenilen bir parametre için bir güven aralığı oluşturmak üzere örnekleme dağılımının nasıl kullanıldığını görmek için bir örnek üzerinden geçeceğiz.
Amaç : Alınan örneklerden kahve içen kişilerin boy ortalamaları hakkında fikir sahibi olmak istiyoruz.
İlk yöntem: önyükleme yöntemini kullanma
(kahve_full.csv) adlı bir dosyada saklanan tüm kahve içenlerin bir veri setine sahip olduğumuz varsayılmaktadır. Bu dosyayı sıkıştırılmış biçimde buradan indirin . Bu dosyayı açtıktan sonra aşağıdaki kod ile çağırabilirsiniz.
Aşağıdaki komut yardımıyla coffee_full veritabanından 200’lük bir örnek olarak bir veri altkümesi oluşturuyoruz. Bu veri kümesine coffee_red adını verdik. Bundan sonra, hesaplamaları yapmak için bu örneği kullanacağız. Hatta bu sayede gerçek bir toplum örneği oluşturmuş oluyoruz.
Yukarıdaki kodda üretilen güven aralığı, popülasyonun yüksekliği için %95 güvenle ortalamanın sınırları olarak kabul edilebilir. Persentil komutu yüzdelikleri belirtir, bu nedenle 2,5 ve 97,5 yüzdelik dilimlerini belirledik.
Bu güven aralığını görüntülemek için bir frekans tablosu (Histogram) kullanıyoruz. Aşağıda gördüğünüz kod, Bootstrap tarafından oluşturulan ortalamaların sıklığını göstermek içindir. Merkezden simetrik olarak tüm grafiğin %95’ine eşit alana sahip alan veya bölge güven aralığı olacaktır.
Güven aralığının yorumlanması
Bir güven aralığı, belirli bir güven düzeyiyle popülasyon ortalaması için bir zarf oluşturabileceğimiz rasgele sınırların belirlenmesidir. Bu şekilde, örneğin, aralığın doğru olduğundan %95 emin olduğumuzu söylüyoruz.(66.0,67.59)Nüfus ortalamasını (yani kahve içen insanların ortalama boyunu) içerir.
Aşağıdaki kodda, istatistiksel popülasyonun (tartışmamızın konusu olan tüm kişilerin) ortalamasının nasıl hesaplanacağı belirtilmiştir.
İkinci yöntem: İstatistiksel varsayım testi (t-Test) yardımıyla güven aralığı oluşturma
Nüfus parametresi için istatistiksel güven aralığını hesaplamanın başka yöntemleri de vardır. Bu, özellikle ortalama testi gerçekleştiren işlevler kullanılırken geçerlidir.
Ortalama karşılaştırma testi yapmak için Python ile yazılan kod aşağıda görülebilir. Cm.tconfint_diff ifadesinde örneklemde yer alan iki grubun (kahve_kırmızısı) ve diğerlerinin ortalama boy farkı için bir güven aralığı oluşturulur.
Doğrudan yöntemde güven aralığı boyutunun (üst ve alt sınırlar arasındaki fark) bootstrap yöntemine göre daha küçük olması gerektiği görülmektedir.
Veri biliminde istatistiksel hipotez testi ve önyükleme
Bir veri analisti olarak, istatistiksel hipotez ve hipotez testi kavramlarına aşina olmalısınız. Bu terimlere aşina değilseniz, istatistiksel analizlerin ve testlerin – kavramlar ve terimler – içeriğini okumak daha iyidir.
İstatistiksel hipotez testi, toplumun istenen parametresine ilişkin iki hipotezi kullandığımız ve örnekleme sonuçlarına göre birini reddettiğimiz veya onayladığımız bir tekniktir.
İstatistiksel hipotez testine göre, insanların ortalama boyları hakkında bir hipotez oluşturmak ve aldığımız örneğe göre hipotezleri doğrulamak veya reddetmek istiyoruz. Kahve içen insanların ortalama boyunun 70 inçten uzun olup olmadığını bilmek istediğimizi unutmayın.
Bildiğiniz gibi, istatistiksel hipotez testi sıfır hipotezi ve zıt hipotez olarak adlandırılan iki hipotezden oluşur. Problemimiz için, bu hipotezleri aşağıdaki gibi değerlendirdik. Genellikle zaten var olan bir görüş veya hükmün “Sıfır Hipotez” veya “Yok Hipotez” içinde yazıldığını ve araştırmacı için istenen kararın (genellikle önceki hükmün tersi yönde olan) “Karşıt Hipotez” olarak adlandırıldığını unutmayın. “Alternatif Hipotez” olarak yazılır.
Şimdi, bu hipotezlerin her birinin geçerliliğine karar vermek için iki yöntem kullanıyoruz. İlk başta, veri bilimindeki önyükleme tekniğine dayanarak, hipotezleri test ediyoruz. Daha sonra simülasyon teknikleri ile sıfır hipotezinin doğruluğunu ölçeriz.
İlk yöntem: sıfır hipotezinin fizibilitesinin önyükleme yardımıyla kontrol edilmesi
Bu bölümde verileri 1000 kez simüle edip örneklem ortalamasını hesaplayarak popülasyon ortalaması için bir örneklem dağılımı ve güven aralığı oluşturuyoruz. Üretilen güven aralığı sıfır hipotezi ile tutarlıysa, o hipotezin doğrulanacağını biliyoruz. Ayrıca, güven aralığı karşıt hipotezle eşleşirse sıfır hipotezini reddederiz ve karşıt hipotezi doğrularız.
Görüldüğü gibi üretilen %95 güven aralığı 66.0 ve 67.59 limitleri ile elde edilmektedir. Karşı varsayımda bahsedilen 70 değeri bu aralığa dahil değildir ve aralık 70’ten küçüktür. Dolayısıyla sıfır hipotezini reddetmek için bir sebep olmadığı ve zıt hipotezin reddedildiği söylenebilir.
İkinci yöntem: sıfır hipotezini simüle etmek
İstatistiksel hipotez testinde boş hipotezin doğru olduğunu varsayalım. Bu şekilde, bu varsayıma göre normal dağılımı simüle edersek ve birçok değer üretirsek, örneklem ortalamasının bunlara yakın olmasını ve sıfır hipotezinin doğrulanmasını bekleriz.
Aşağıdaki komutta, ortalama 70 ve ortalamaların standart sapması ile normal bir dağılımı simüle ettik. 70 değerinin sıfır hipotezinin veya zıt hipotezin sınırlarına karşılık geldiğini unutmayın.
Her örnekleme, sıfır hipotezine dayalı olarak oluşturulmuş bir ortalama üretir. Bu simülasyonun yardımıyla, örnek ortalamanın karşılık gelen normal dağılımda nerede olduğu sorusuna cevap vermek mümkündür.
Bu kodun çıktısı aşağıdaki şemada gösterilmiştir.
Bahsedilen istatistiksel hipotezlere göre sıfır hipotezinin doğrulanması ve zıt hipotezin reddedilmesi gerekmektedir.
p değeri için büyük değerler , boş hipotezin doğrulandığını gösterir ve sıfır hipotezini reddetmek için bir neden olamaz. Böylece, ortalama nüfusun (kahve içenlerin boyu) 70 inçten az veya ona eşit olduğu görülmektedir. p-değeri ile ilgili aşağıdaki noktalara dikkat ediniz.
- Görsel olarak, p-değeri, kırmızı çizginin sağ tarafında bulunan yukarıdaki resme karşılık gelen eğrinin altındaki alandır. Tüm değerler kırmızı çizginin sağında olduğundan, tüm değerler sıfır hipotezini doğrulamaya katkıda bulunur ve sıfır hipotezini reddedecek bir kanıt yoktur.
- Burada p-değerini, numune ortalama değerinin (değer 67.5) normal dağılımından (ortalama 70 ve varyans numune varyansına eşit) numunelerin çıkardığı veya simüle ettiği durum sayısının ortalaması (veya olasılık değeri) olarak kabul ediyoruz. daha fazla.
Olasılık değerinin (p-değeri) nasıl hesaplanacağı hakkında daha fazla bilgi edinmek için, istatistiksel hipotez testindeki olasılık değerinin (p-Değeri) yazısını basit bir dille okumak daha iyidir.
Özet ve sonuç
Bu yazıda, veri biliminde açık önyükleme örnekleme yöntemini göz önünde bulundurarak, güven aralığını ve istatistiksel testi hesapladık ve bir veri örneğine dayanarak Python’da önyükleme tekniğini uyguladık. Görüldüğü gibi veri biliminde bootstrap tekniğinden elde edilen tahmincilerden elde edilen sonuçlar istatistiksel yöntemlerden elde edilen değerlerden pek farklı olmamakta ve yaklaşık olarak istenilen istatistiğin dağılımını bilemediğimiz durumlarda tatminkar sonuçlar elde edilmektedir. önyükleme