Korelasyon Nedir?

“Correlation is not causation!”

İstatistik ile ilgilenen herkes bu cümleyi eminin yüzlerce kez duymuş ve görmüştür. Dilimizdeki karşılığı ise, “Korelasyon nedensellik değildir!”

Şimdi size bir link vereceğim. Linkimiz bu; http://bolderstats.com/AB/scatPoint.html

Bu linke tıkladığınızda karşınıza aşağıdaki gibi boş bir koordinat sistemi gelecektir.

Buradaki boş alana fare yardımı ile tıkladığınızda noktalar belirecek ve her noktaya bastığınızda yukarıda “r” dediğimiz korelasyon katsayısı belirecektir.

Peki nedir bu korelasyon? İstatistiksel tanımını söylersek, iki değişken arasındaki ilişkinin yönünü ve gücünü gösteren bir istatistiksel analizdir. Bakın altını çizerek tekrar söylüyorum, ilişkinin birbiri ile olan neden-sonuç ilişkisi değil, arasındaki ilişkinin yönü ve gücü! Peki nedir bu ilişkinin yönü? Bir çocuk büyürse, giydiği kıyafetlerin bedenide büyür. İkisi de birlikte aynı yönde hareket ediyor değil mi? Veya aracınıza ne kadar fazla yakıt koyarsanız, o kadar uzun yol yaparsınız. Yine aynı yönde hareket eden yakıt miktarı ve alınan yol değişkenleri. Ya da tam tersi düşünelim. Ne kadar çok çalışırsanız, o kadar az vaktiniz kalır. Veya dışarı sıcaklığı düştükçe eve gelen ısınma faturası miktarı artar. Yani tam tersi yönünde iki değişken. İşte burada anlatmak istediğim nokta, aynı yönde hareket eden değişkenlerin ilişkisine pozitif korelasyon, zıt yönde hareket eden değişkenlerin ilişkisine ise negatif korelasyon denir. Peki bu kadar basit bir mantığı var da neden bu işin altında matematiksel bir işlem var. Biraz da başka örnekler verelim o zaman;

https://tylervigen.com/spurious-correlations

Bu siteye girdiğinizde karşınıza farklı iki değişkenin grafiklerini göreceksiniz.

Buradaki grafikte, Nicholas Cage’in çektiği film sayısı ve havuzda boğulan insan sayısı karşılaştırılıyor. Grafiğin birlikte hareketine bir bakın? Yine siteden başka bir örnek;

Kişi başı tüketilen peynir miktarı ve yataklarında çarşaflarına dolanarak ölen insan sayısı grafiği. Müthiş bir ilişkili grafik değil mi?

Sizce bu ikililer arasında gerçekten bir ilişki var mı? O zaman sizlere 24 Haziran 2006 tarihli Hürriyet gazetesi yazarı Ayşe Özek Karasu’dan güzel bir yazı örneği;

“Bebekleri gerçekten leylekler mi getirir? Şimdiki çocuklar leylek teorisini gerçek sanmak bir yana, esprisinden bile haberdar değil.

Ama olsun. Üç Alman araştırmacı, çocuk kandırmaca hikayesi üzerinden bilimsel çalışma yapmışlar. İçlerinden biri de ebe. Leylekler ile doğumlar arasında ilişki olup olmadığını araştırmışlar. Ve göç mevsiminde Aşağı Saksonya’ya gelen leylek sayısındaki azalmayla birlikte evde yapılan doğum oranlarının da düştüğünü bulmuşlar. Peki bundan ciddi bir neden-sonuç ilişkisi çıkarmışlar mı?

Kurumun adı ciddi; Federal Alman Risk Değerlendirme Enstitüsü. Çalışmanın başlığı da öyle; “Leylek Teorisinin Yeni Kanıtı.” Yayınlandığı organın adı da Paediatric and Perinatal Epidemiology. Doğum istatistikleri alanında uzman.

Berlin’deki Risk Değerlendirme Enstitüsü’nden Thomas Höfer, biri ebe olmak üzere iki uzmanla birlikte son 50 yılın doğum istatistiklerini tarayıp, bunları göç mevsiminde Almanya’ya gelen leyleklerin sayısıyla karşılaştırmış.

Peki bu araştırma neden yapılmış? Ve neden Risk Değerlendirme Enstitüsü tarafından yapılmış?

Birçok Avrupa ülkesinde olduğu gibi Almanya’da da doğum oranı azalıyor ya, eh leylekler de gün gelip Almanya’ya uğramazsa, bu durum doğum oranları açısından risk teşkil eder mi etmez mi diye herhalde. Aklıma gelen ilk makul neden bu oldu.

İstatistik karşılaştırması sonucu şu bulgu elde edilmiş: 1970-1985 yılları arasında Aşağı Saksonya eyaletinde hem hastane dışında dünyaya gelen çocukların sayısında, hem de leylek sayısında düşüş olmuş. 1985 sonrasında ise leyleklerin de yeni doğanların da sayısı sabit kalmış.

Gelelim başkent Berlin’e. Normalde leyleklerin uğramadığı şehirde 1990-2000 yılları arasında tuhaf bir şekilde evde yapılan doğumların arttığı tespit edilmiş. Aşağı Saksonya’daki sonuçlara bakarak, bir şehre hiç leylek gelmediği halde, nasıl olur da doğum oranı artar diye merak etmişler.

Bunun üzerine kent civarında keşif gezisine çıkmışlar. Bir de bakmışlar ki, şehir dışında kayda değer miktarda leylek popülasyonu mevcut. Hem de sayıları, evde yapılan doğumlarla eşit. Ve şu sonuca varmışlar: Berlin’in bebeklerini, Brandenburg’daki (Berlin eyaleti, Brandenburg eyaletinin tam ortasında) leylekler getiriyor.

Bu araştırma ciddi. Araştırmayı yapan kurumda, yayınlayan organ da öyle. Ancak buradaki maksat, elde edilen verilerden bir neden-sonuç ilişkisi çıkarmak değil. İstatistik biliminin cilvelerine dikkat çekmek. Yani paralel gelişmelerin ille de birbiriyle ilintili olmadığını, aranan sonuç bulunsa bile bundan bir nedensellik çıkarılamayacağını göstermek. Çünkü iki olgu arasındaki doğru orantı tamamen rastlantı eseri olabilir; bundan bir teori çıkarmak da yanlıştır.”

Şimdiye kadar verdiğim örnekler ve bu son gazete makalesindeki olaylardan anlayacağınız üzere, her birlikte hareket eden değişkenler arasında bir korelasyon varmış gibi gözükse de, aralarında tesadüfen oluşan ilişkileri asla göz ardı etmemek gerekiyor.

Şimdi gelelim bu işin matematiğine!

Korelasyon katsayısı -1 ile +1 arasında değer alan bir katsayıdır. Eğer katsayı eksi ise değişkenler arasında ters bir ilişki olduğunu, katsayı artı ise de değişkenler arasında pozitif bir bir ilişki olduğu şeklinde yorumlarız. Korelasyon katsayısı “r” ile gösterilir.

Yukarıda da vermiş olduğum http://bolderstats.com/AB/scatPoint.html link ile oluşturacağınız noktaların korelasyonlarını ve yönünü göreceksinizdir.

Korelasyon katsayısının ve gücünün genel olarak matematiksel karşılığı;

0,00İlişki Yok
0,01-0,29Düşük Düzeyde İlişki
0,30-0,70Orta Düzeyde İlişki
0,71-0,99Yüksek Düzeyde İlişki
1,00Mükemmel İlişki

Peki bu katsayılar nasıl bulunuyor? Aslında Excel kullanıyorsanız “Korelasyon” formülü ile basit şekilde bulabilirsiniz. Gerçi istatistiksel analiz ile ilgili tüm programlar çok basit şekilde korelasyon katsayısını karşınıza çıkartabiliyor. Ama biz işin biraz daha matematiksel teorisine girelim. 😊

r=\frac{\mathrm{\Sigma}x_iy_i}{\sqrt{\mathrm{\Sigma}x_i^2\mathrm{\Sigma}y_i^2}}

Şimdi sizlere korelasyonun iki değişken arasındaki açıklanan varyansın açıklanamayan varyansa oranı desem şimdilik çok şey ifade etmeyecektir. O yüzden bu cümle sadece burada not olarak kalsın. O zaman biz bir örnek yaparak konuyu burada bitirelim.

Yıllara göre personel sayısı ve satış geliri rakamları tablodaki gibidir.

YılSatış Personel Sayısı (x)Satış Geliri (y) (Yüz bin TL)
1999151,35
2000181,63
2001242,33
2002222,41
2003252,63
2004292,93
2005303,41
2006323,26
2007353,63
2008384,15

Verileri elimizde ise öncelikle formülümüzdeki gerekli hesaplamaları yapalım. Her bir x değerini y değeri ile çarpıp topladığımızda sonuç 800,62 olacaktır. Her bir değişkenin karesi alınıp toplandığında ise x2 toplamı 7668 y2 toplamı ise 83,8733 olarak çıkacaktır. Bu iki sonucu da çarparsak, 634.140,5 değerine ulaşırız. Bu değerin karekökü ise 801,96 dır. Son olarak 800,62 / 801,96 yaparsak, korelasyon katsayımız olan r değeri 0,9983 olacaktır. Yani satış personeli ve satış gelirleri arasında pozitif mükemmele yakın bir korelasyon vardır yorumu yapabilir. Tabi ki bu bulduğumuz sonuç, matematiksel olarak anlamlı olsa da istatistiksel olarak anlamlı olabilmesi için hipotez testinden geçmesi gerekecektir. Şu anda korelasyonun anlamlılık testi konusuna girmeyeceğim. Umarım çok fazla teknik konulara girmeden anlaşılır olmuştur.

Bir sonraki derste görüşmek dileği ile…

Bir cevap yazın

E-posta hesabınız yayımlanmayacak. Gerekli alanlar * ile işaretlenmişlerdir