İki bağımsız grubun ortalamalarını R ile karşılaştırmanın eksiksiz rehberi: varsayım kontrolleri, çalıştırılabilir kod, Welch düzeltmesi, Cohen d etki büyüklüğü ve APA 7 uyumlu raporlama örnekleri.
Bağımsız örneklem t-testi, birbirinden bağımsız iki grubun sürekli bir değişkene ilişkin ortalamalarının anlamlı düzeyde farklılaşıp farklılaşmadığını sınayan parametrik bir testtir. Tipik kullanım örnekleri arasında deney ve kontrol gruplarının başarı puanlarının, kadın ve erkek katılımcıların ölçek puanlarının veya iki farklı tedavi grubunun klinik sonuçlarının karşılaştırılması yer alır.
Testin uygulanabilmesi için üç temel koşul aranır: (1) bağımsız değişken tam olarak iki kategoriden oluşmalı ve gruplar farklı katılımcılardan oluşmalıdır (aynı kişiler iki koşulda da ölçülmüşse eşleştirilmiş örneklem t-testi kullanılır); (2) bağımlı değişken en az aralık düzeyinde, sürekli bir ölçümle elde edilmiş olmalıdır; (3) gözlemler birbirinden bağımsız olmalıdır. Bu koşullara ek olarak normallik ve varyans homojenliği varsayımları aşağıda ayrıntılı biçimde ele alınmaktadır.
Rehber boyunca kullanacağımız örnek veri setini aşağıdaki kodla oluşturabilirsiniz. Deney grubunun ortalaması 78, kontrol grubununki 72 olacak şekilde her grupta 25 gözlem üretilmektedir; set.seed(42) komutu sonuçların her çalıştırmada aynı olmasını sağlar.
# Ornek veri: 25'er kisilik Deney ve Kontrol gruplari
set.seed(42)
veri <- data.frame(
grup = rep(c("Deney", "Kontrol"), each = 25),
skor = c(rnorm(25, 78, 8), rnorm(25, 72, 8))
)
head(veri)
table(veri$grup)Sık yapılan bir hata, normalliği tüm örneklem üzerinde tek seferde sınamaktır. Doğru yaklaşım, bağımlı değişkenin dağılımını her grupta ayrı ayrı incelemektir; çünkü t-testinin varsayımı, puanların grup içindeki dağılımına ilişkindir. rstatix paketi bu işlemi tek satırda yapar:
# Normallik: Shapiro-Wilk testi HER GRUPTA ayri ayri library(rstatix) library(dplyr) veri %>% group_by(grup) %>% shapiro_test(skor)
Klasik (Student) t-testi, iki grubun evren varyanslarının eşit olduğunu varsayar. Bu varsayım car paketindeki Levene testi ile sınanır:
# Varyans homojenligi: Levene testi library(car) leveneTest(skor ~ grup, data = veri)
Karar kuralı her iki test için aynıdır: p > .05 ise varsayım sağlanmış kabul edilir. Shapiro-Wilk testinde p ≤ .05 çıkması normalliğin ihlal edildiğine işaret eder ve Mann-Whitney U testi (wilcox.test) gündeme gelir. Levene testinde p ≤ .05 çıkması varyans homojenliğinin ihlal edildiğini gösterir; bu durumda Welch düzeltmeli t-testi kullanılır.
Varsayımların sağlandığı senaryoda klasik Student t-testi şu şekilde çalıştırılır:
# Klasik (Student) t-testi: var.equal = TRUE acikca yazilir t.test(skor ~ grup, data = veri, var.equal = TRUE)
Çıktı birkaç satırdan oluşur ve her satır rapor için gerekli bir bilgiyi taşır:
| Çıktı satırı | Anlamı |
|---|---|
| t = ..., df = ..., p-value = ... | Test istatistiği, serbestlik derecesi (n₁ + n₂ − 2) ve p değeri. p < .05 ise gruplar arasındaki fark anlamlıdır. |
| 95 percent confidence interval | Ortalamalar arası farkın %95 güven aralığı; aralık sıfırı içermiyorsa fark anlamlıdır. |
| sample estimates | Grupların örneklem ortalamaları (mean in group Deney / Kontrol); farkın yönünü buradan okursunuz. |
Raporda kullanılacak betimsel istatistikler (ortalama ve standart sapma) ayrıca hesaplanmalıdır:
# Grup bazinda ortalama ve standart sapma veri %>% group_by(grup) %>% summarise(n = n(), ort = mean(skor), ss = sd(skor))
Etki büyüklüğü raporlamak zorunludur; p değeri tek başına yeterli değildir. p değeri yalnızca farkın şansla açıklanıp açıklanamayacağını söyler; farkın pratikte ne kadar büyük olduğunu Cohen d gösterir. effectsize paketiyle hesap şu şekildedir:
# Etki buyuklugu: Cohen d library(effectsize) cohens_d(skor ~ grup, data = veri)
Cohen'in (1988) klasik eşiklerine göre d ≈ 0.20 küçük, d ≈ 0.50 orta ve d ≈ 0.80 büyük etkiye karşılık gelir. Bu eşikler mekanik biçimde değil, araştırma alanınızdaki tipik etki büyüklükleri de göz önünde bulundurularak yorumlanmalıdır.
APA 7 formatında rapor cümlesi; grup betimsel istatistiklerini, t istatistiğini serbestlik derecesiyle birlikte, kesin p değerini, etki büyüklüğünü ve güven aralığını içermelidir. Örnek bir raporlama cümlesi:
Not: Cümledeki sayısal değerler örnek amaçlıdır; kendi raporunuzda R çıktınızdaki değerleri kullanınız. APA kurallarına göre istatistik sembolleri (t, p, d, M, SD) italik yazılır, p değerleri başındaki sıfır olmadan (p = .004) raporlanır ve p < .001 dışında kesin p değeri verilir.
Levene testi anlamlı çıktıysa (varyanslar eşit değilse) yapılacak tek şey var.equal argümanını kaldırmaktır; R'ın varsayılanı olan Welch testi zaten bu duruma göre tasarlanmıştır. Delacre, Lakens ve Leys (2017) Welch testinin varsayılan seçenek olarak kullanılmasını önermektedir:
# Welch t-testi (R'in varsayilani; varyans esitligi varsaymaz) t.test(skor ~ grup, data = veri)
Normallik ciddi biçimde ihlal edilmişse (özellikle küçük örneklemlerde) parametrik olmayan Mann-Whitney U testi kullanılır. Etki büyüklüğü olarak rank-biserial temelli r değeri rstatix ile hesaplanabilir:
# Mann-Whitney U (Wilcoxon rank-sum) testi wilcox.test(skor ~ grup, data = veri) # Etki buyuklugu (r) rstatix::wilcox_effsize(veri, skor ~ grup)
Kesin bir alt sınır yoktur; test teknik olarak grup başına 2 gözlemle bile çalışır. Ancak küçük örneklemlerde güç düşer ve normallik değerlendirmesi güvenilmezleşir. Orta düzey bir etki (d = 0.50) için %80 güçle grup başına yaklaşık 64 katılımcı gerekir; örneklemi önceden güç analiziyle planlayın.
Hayır. Grup başına örneklem yeterince büyükse (yaklaşık 30 ve üzeri) merkezi limit teoremi sayesinde t-testi normallikten sapmalara karşı oldukça sağlamdır; Welch t-testi çoğu durumda güvenilir sonuç verir. Dağılım ciddi biçimde çarpıksa, uç değerler varsa veya örneklem küçükse Mann-Whitney U uygun alternatiftir.
Varsayılan ve güvenli seçenek çift yönlü testtir. Tek yönlü test yalnızca yön hakkında, veri toplanmadan önce kaydedilmiş güçlü bir kuramsal gerekçe varsa savunulabilir. Sonuca bakarak sonradan tek yönlüye geçmek p değerini yapay olarak yarıya indirir ve etik açıdan kabul edilemez.
Sonucu olduğu gibi, dürüstçe raporlayın: kesin p değeri, etki büyüklüğü ve güven aralığı birlikte sunulmalıdır. 'Anlamlılığa eğilim' gibi ifadeler yerine etkinin büyüklüğünü ve güven aralığının genişliğini tartışmak, gerekiyorsa çalışmanın istatistiksel gücünün sınırlılığına değinmek bilimsel açıdan daha doğru bir yaklaşımdır.
Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Lawrence Erlbaum.
Delacre, M., Lakens, D., & Leys, C. (2017). Why psychologists should by default use Welch's t-test instead of Student's t-test. International Review of Social Psychology, 30(1), 92–101.
Field, A. (2018). Discovering statistics using IBM SPSS Statistics (5th ed.). Sage.
Tez veya makaleniz için doğru testin seçimi, varsayım kontrolleri ve APA uyumlu raporlama konusunda destek alın.
Ücretsiz Ön Görüşme