Hipotez Testi Nedir?

Hayatında en az bir defa istatistik dersi alanlar, amatör olarak istatistik ile ilgilenenler ve istatistik ile ilgili en az bir kitap okuyanların muhtemel karşılaşacağı bir cümle ile başlamak istiyorum.

“İstatistiğin temel amacı bir hipotezi test etmektir!”

Bir seçim anketi düşünerek olaya başlayalım. Tüik verilerine göre 2020 yılı ülkemizin nüfusu 83.614.362 kişi olmuştur. YSK verilerine göre ise son yapılan 2019 Mahalli İdareler Genel Seçimlerinde toplamda 57.058.636 kişi oy kullanmıştır. Peki seçim anketleri seçimin sonucu hakkında nasıl tahmin yürütebiliyor? Bu kadar oy kullanan kişilerin evlerine tek tek gidip soruyor mu? Sizce böyle bir şey mümkün olabilir mi? Bunu yapmaları için müthiş bir insan gücüne ve tabi ki çok güçlü bir mali yapıya sahip olmak gerekiyor. Hadi buna sahip oldun diyelim, peki senin nüfusunun 5 katı olan ABD’de nasıl olacak bu iş? İşte bu noktada istatistik denilen bir bilim dalı herkesin imdadına yetişiyor.

Eğer bir konu hakkında istatistiksel bir analiz yapmak gerekiyor ise araştırma konusuna dahil olan tüm obje veya kişilerin oluşturduğu yapıya “Evren” ismi verilir. Bu isim karşınıza “Popülasyon” veya “Kitle” olarak da çıkabilir. Seçim konusuna geri dönersek, seçmenlerin tercihleri hakkında analiz yapacağımız için tüm seçmenlere popülasyon ismi verilir. Bizler, bir önceki paragrafta bahsettiğim konudaki gibi popülasyon üzerinde analiz yapmak için tüm popülasyondan maalesef yararlanamayız. Bu noktada devreye giren istatistik, bizlere şöyle bir cümle fısıldar; “Popülasyon içerisinden öyle kişileri seçki, verecekleri kararlar tüm popülasyonun kararlarını temsil etsin.”  İşte doğru seçilen bu kişilere “Örneklem” ismi verilir. Örneklem bilimi kendi başına bambaşka bir daldır. Eğer örneklem seçiminde hata yapılırsa, istatistiksel analiz sonucu da hatalı olacaktır. Hatalı örneklem sayısı, seçilen örneklemin tesadüfi olarak seçilmemesi gibi hatalar doğru tahmine çok uzak sonuçlar verecektir. Bunu şöyle bir örneğe benzetebilirsiniz; “Kazanda pişirdiğiniz yemeği bir popülasyon olarak düşünürsek, yemeğin tuzlu olup olmadığını anlamak için kazandaki tüm yemeği yemenize gerek yoktur. Bir kaşık (örneklem) alırsanız, yemeğin tuzlu olup olmadığını anlayabilirsiniz. Tabi ki tuzun doğru şekilde (tesadüfi) yemeğe yayılmış olması varsayımı ile”

Hipotez bilim dünyasında çok ama çok önemli bir yere sahiptir. Bir teorinin ortaya çıkış noktasında kullanılan, olayların ve olguların arasındaki ilişkiyi test etmeye yarayan önemli bir araçtır. Bu ilişkilerin neden ve sonuçlarına ilişkin iddialar ortaya koyulur ve bunlar sınanmaya hazır hipotezler olarak kabul edilir. Örneğin, bir ilacın kanser hastalığına iyi geldiği iddiası ortaya atıldığında şöyle bir hipotez kurulabilir;

“Kanser hastalarının kanlarındaki kansere karşı savaşan X değerleri ilaç kullanımından sonra çok güçlü şekilde yükselmiştir!”

Tüm kanserli hastalara ulaşamayacağımızı öğrendiğimize göre örneklem bilimine göre seçilen doğru örneklemlerin kanlarındaki X değerleri verileri toplanır. Daha sonra bu örneklemlere etkili olduğu iddia edilen ilaçlar verilir ve tekrar X değerleri ölçülür. İşte bu ilaçtan önce ve ilaçtan sonra elde edilen X değerlerinin istatistiksel olarak bir farklılık yaratıp yaratmadığı, kurulan hipotezleri red veya kabul ederek sonuca ulaşılır. Hadi şimdi konuyu daha teorik hale getirelim.

Aşağıdaki tabloda hem örneklem hem de popülasyon için bazı parametreler bulunmaktadır. Bir hipotez testinde, popülasyon için ortaya atılan iddia test edilir. Ama bu test örneklem üzerinden yapılır. Çünkü örneklem parametreleri, popülasyon parametrelerinin birer tahmin edicileridir.

Asla unutulmamalıdır ki bir hipotez popülasyon parametreleri kullanılarak oluşturulur. Yani kısaca hipotez testi, örneklem istatistiklerini kullanarak, ortaya atılan hipotezin popülasyon için geçerli olup olmadığını araştırma işlemine denir.

H0 : Sıfır Hipotezi (Null Hypothesis)

H1 : Karşıt Hipotez (Alternative Hypothesis)

Buradaki H0 hipotezi her zaman yokluk hipotezi olarak kullanılır. Ortaya atılan iddia ise her zaman H1 hipotezinde gösterilir. Örneğin, yukarıda verdiğimiz örnekten gidersek iddia ilacın kanser hastalarına iyi geldiğini söylemesiydi. O zaman basit şekilde düşünürsek, ilaçtan önce ve ilaçtan sonra ölçülen değerlerin ortalamalarının farklı olduğu sonucu bizim için bir iddiadır.

H0 : µö = µs

H1 : µö µs

Burada dikkat edilirse popülasyon ortalamaları kullanıldı! Ortalamaların yanındaki “ö” ve “s” indisleri ise ilaçtan önceki ve ilaçtan sonraki ortalamalar için kullanıldı. Ortaya atılan iddia H1 hipotezinde gösterildi. İlacın hiçbir etkiye sahip olmaması, yani ilaçtan önce ve sonraki ortalamaların birbiri ile aynı olması da H0 hipotezinde gösterildi. Hipotezler kurulduktan sonra örneklem verileri ile gerekli istatistiksel analizler yapılır ve ortaya çıkan olasılık sonucuna göre H0 hipotezini reddederiz veya kabul ederiz.

Hipotezler her zaman birbiri ile ilgili farklı olgu üzerinde ortaya konmaz. Örneğin üretilen bir ürünün ortalamasının hatalı çıkma sayısının 10’dan az olduğu iddiası verilebilir. Böyle bir hipotezi kurmaya çalışırsak;

H0 : µ0 ≥ 10

H1 : µ0 < 10

şeklinde bir hipotez kurabiliriz. Bu noktada devreye giren fark ise hipotezimizin tek kuyruk (one tail) veya çift kuyruk (two tail) olma olayıdır. Tek kuyruk veya çift kuyruk, hipotezin kabul alanı için önemli bir yere sahiptir. Bunları bir tabloda toparlarsak;

şeklindedir. Buna karşılık gelen red alanlarını da görmek istersek;

şeklindedir.

Kaynak: https://towardsdatascience.com

Burada görmüş olduğunuz α değeri kurulan hipotez testinin gücünü gösteren bir yapıdır. İstatistikte “Anlamlılık Düzeyi” (Significance Level) olarak geçmektedir. Buna karşılık gelen 1 – α ise bizlere güven düzeyini gösteren yapıdır. Örneğin α = 0,05 anlam düzeyinde bir hipotezi test ediyorsak, bunun anlamı 1-0,05 den %95 güven düzeyi demektir. Örneğin 0,01 anlamlılık düzeyinde bir hipotez test ediyorsak, bunun güveni %99 olacaktır. Ama genel anlamda bu oranın %95 güven olması istenir. Eğer buraya kadar anlattıklarım size tanıdık geliyorsa yazımı okumaya devam edebilirsiniz. Ama hiçbir şey anlamadıysanız, maalesef istatistik temeliniz hiç yoktur. Önceliğiniz istatistik öğrenmek olsun. Bu konuda anlaştıysak bizler devam edelim.

Peki H0 hipotezini neye göre reddedip, kabul edeceğiz? Bu noktada hipotezimizi oluşturup, kuyruklarını tespit ettiğimizde “Kritik Bölge” yi belirlememiz gerekiyor. Kritik bölge bizim red bölgemizdir. Yukarıdaki 3 adet alan grafiklerini incelerseniz, kritik bölge sınırlarının (kritik değer) α ile belirlendiğini göreceksiniz. Kuyruk durumuna göre kritik alan değişmektedir. Daha sonra incelenen hipotezin istatistiksel dağılımlarına (Z, T, F, Х2) göre elde edilen test istatistiği sonuçları ile kritik değer karşılaştırılarak, H0 hipotezimizi red veya kabul edeceğiz. Konuyu bölmemek adına test istatistiklerini bir sonraki yazımda sizlere anlatacağım.

Peki hipotez testinin sonuçları gerçek sonuçlardan farklıysa ne olacak? Buna “Hipotez Testi Hatası” denir. İki tip hata vardır. Bunlar “I. Tip Hata” ve “II. Tip Hata” dır.

Yani örneklem ile popülasyon üzerinde yaptığımız araştırmada kurduğumuz hipotez sonucunda yapılan hataları minimize etmek, istatistiksel hipotez testleri için önemli bir noktadır.

Konumuzu kısaca toparlamak gerekirse, bir hipotezi kurmak için;

  1. Hipotezleri oluştur
  2. Anlamlılık düzeyini belirle ve kritik değeri tespit et
  3. Örneklem dağılımını tespit et
  4. Dağılıma göre test istatistiği hesapla
  5. Test istatistiği ile kritik değeri karşılaştır ve H0 hipotezi hakkında karar ver

Bir sonraki derste görüşmek dileği ile…  

One thought on “Hipotez Testi Nedir?

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir