t-testi için minimum örneklem büyüklüğü kaçtır?

Kesin bir alt sınır yoktur; test teknik olarak grup başına 2 gözlemle bile çalışır. Ancak küçük örneklemlerde istatistiksel güç düşer ve normallik değerlendirmesi güvenilmez hale gelir. Orta düzey bir etki (d = 0.50) için %80 güçle grup başına yaklaşık 64 katılımcı gerekir; örneklemi çalışmaya başlamadan önce güç analiziyle planlamak en doğru yaklaşımdır.

R ile Bağımsız Örneklem t-Testi: Varsayımlar, Kod ve APA Raporlama

Q: Normallik bozulursa hemen Mann-Whitney U testine mi geçmeliyim?

Hayır, hemen değil. Grup başına örneklem yeterince büyükse (yaklaşık 30 ve üzeri) merkezi limit teoremi sayesinde t-testi normallikten sapmalara karşı oldukça sağlamdır; Welch t-testi çoğu durumda güvenilir sonuç verir. Dağılım ciddi biçimde çarpıksa, aşırı değerler varsa veya örneklem küçükse Mann-Whitney U testi uygun bir alternatiftir.

Q: Tek yönlü mü çift yönlü mü test kullanmalıyım?

Varsayılan ve güvenli seçenek çift yönlü testtir. Tek yönlü test yalnızca yön hakkında veri toplanmadan önce kaydedilmiş güçlü bir kuramsal gerekçe varsa savunulabilir; sonuca bakarak sonradan tek yönlüye geçmek p değerini yapay olarak küçültür ve bilimsel açıdan kabul edilemez.

Q: p = .06 çıktı, ne yapmalıyım?

Sonucu olduğu gibi, dürüstçe raporlayın: kesin p değeri, etki büyüklüğü ve güven aralığı birlikte sunulmalıdır. p = .06, .05 eşiğinin hemen üzerindedir; 'anlamlılığa eğilim' gibi ifadeler yerine etkinin büyüklüğünü ve güven aralığının genişliğini tartışmak, gerekiyorsa çalışmanın gücünün sınırlılığına değinmek daha doğru bir yaklaşımdır.

Bağımsız örneklem t-testi nedir, ne zaman kullanılır?

Bağımsız örneklem t-testi, birbirinden bağımsız iki grubun sürekli bir değişkene ilişkin ortalamalarının anlamlı düzeyde farklılaşıp farklılaşmadığını sınayan parametrik bir testtir. Tipik kullanım örnekleri arasında deney ve kontrol gruplarının başarı puanlarının, kadın ve erkek katılımcıların ölçek puanlarının veya iki farklı tedavi grubunun klinik sonuçlarının karşılaştırılması yer alır.

Testin uygulanabilmesi için üç temel koşul aranır: (1) bağımsız değişken tam olarak iki kategoriden oluşmalı ve gruplar farklı katılımcılardan oluşmalıdır (aynı kişiler iki koşulda da ölçülmüşse eşleştirilmiş örneklem t-testi kullanılır); (2) bağımlı değişken en az aralık düzeyinde, sürekli bir ölçümle elde edilmiş olmalıdır; (3) gözlemler birbirinden bağımsız olmalıdır. Bu koşullara ek olarak normallik ve varyans homojenliği varsayımları aşağıda ayrıntılı biçimde ele alınmaktadır.

Örnek veri oluşturma

Rehber boyunca kullanacağımız örnek veri setini aşağıdaki kodla oluşturabilirsiniz. Deney grubunun ortalaması 78, kontrol grubununki 72 olacak şekilde her grupta 25 gözlem üretilmektedir; set.seed(42) komutu sonuçların her çalıştırmada aynı olmasını sağlar.

# Ornek veri: 25'er kisilik Deney ve Kontrol gruplari
set.seed(42)
veri <- data.frame(
  grup = rep(c("Deney", "Kontrol"), each = 25),
  skor = c(rnorm(25, 78, 8), rnorm(25, 72, 8))
)
head(veri)
table(veri$grup)

Varsayım kontrolleri: normallik ve varyans homojenliği

Normallik: her grupta ayrı ayrı test edilir

Sık yapılan bir hata, normalliği tüm örneklem üzerinde tek seferde sınamaktır. Doğru yaklaşım, bağımlı değişkenin dağılımını her grupta ayrı ayrı incelemektir; çünkü t-testinin varsayımı, puanların grup içindeki dağılımına ilişkindir. rstatix paketi bu işlemi tek satırda yapar:

# Normallik: Shapiro-Wilk testi HER GRUPTA ayri ayri
library(rstatix)
library(dplyr)
veri %>% group_by(grup) %>% shapiro_test(skor)

Varyans homojenliği: Levene testi

Klasik (Student) t-testi, iki grubun evren varyanslarının eşit olduğunu varsayar. Bu varsayım car paketindeki Levene testi ile sınanır:

# Varyans homojenligi: Levene testi
library(car)
leveneTest(skor ~ grup, data = veri)

Karar kuralı her iki test için aynıdır: p > .05 ise varsayım sağlanmış kabul edilir. Shapiro-Wilk testinde p ≤ .05 çıkması normalliğin ihlal edildiğine işaret eder ve Mann-Whitney U testi (wilcox.test) gündeme gelir. Levene testinde p ≤ .05 çıkması varyans homojenliğinin ihlal edildiğini gösterir; bu durumda Welch düzeltmeli t-testi kullanılır.

Önemli: R'da t.test() fonksiyonunun varsayılanı zaten Welch testidir (var.equal = FALSE). Yani hiçbir ek argüman yazmazsanız R, varyans eşitliği varsaymayan Welch t-testini uygular. Klasik Student t-testi istiyorsanız var.equal = TRUE argümanını açıkça yazmanız gerekir. Bu, SPSS ve jamovi kullanıcılarının R'a geçerken en sık şaşırdığı noktalardan biridir.

Testi çalıştırma ve çıktıyı okuma

Varsayımların sağlandığı senaryoda klasik Student t-testi şu şekilde çalıştırılır:

# Klasik (Student) t-testi: var.equal = TRUE acikca yazilir
t.test(skor ~ grup, data = veri, var.equal = TRUE)

Çıktı birkaç satırdan oluşur ve her satır rapor için gerekli bir bilgiyi taşır:

Çıktı satırı	Anlamı
t = ..., df = ..., p-value = ...	Test istatistiği, serbestlik derecesi (n₁ + n₂ − 2) ve p değeri. p < .05 ise gruplar arasındaki fark anlamlıdır.
95 percent confidence interval	Ortalamalar arası farkın %95 güven aralığı; aralık sıfırı içermiyorsa fark anlamlıdır.
sample estimates	Grupların örneklem ortalamaları (mean in group Deney / Kontrol); farkın yönünü buradan okursunuz.

Raporda kullanılacak betimsel istatistikler (ortalama ve standart sapma) ayrıca hesaplanmalıdır:

# Grup bazinda ortalama ve standart sapma
veri %>% group_by(grup) %>%
  summarise(n = n(), ort = mean(skor), ss = sd(skor))

Etki büyüklüğü: Cohen d

Etki büyüklüğü raporlamak zorunludur; p değeri tek başına yeterli değildir. p değeri yalnızca farkın şansla açıklanıp açıklanamayacağını söyler; farkın pratikte ne kadar büyük olduğunu Cohen d gösterir. effectsize paketiyle hesap şu şekildedir:

# Etki buyuklugu: Cohen d
library(effectsize)
cohens_d(skor ~ grup, data = veri)

Cohen'in (1988) klasik eşiklerine göre d ≈ 0.20 küçük, d ≈ 0.50 orta ve d ≈ 0.80 büyük etkiye karşılık gelir. Bu eşikler mekanik biçimde değil, araştırma alanınızdaki tipik etki büyüklükleri de göz önünde bulundurularak yorumlanmalıdır.

APA formatında raporlama

APA 7 formatında rapor cümlesi; grup betimsel istatistiklerini, t istatistiğini serbestlik derecesiyle birlikte, kesin p değerini, etki büyüklüğünü ve güven aralığını içermelidir. Örnek bir raporlama cümlesi:

Bağımsız örneklemler t-testi sonucunda, Deney grubunun (M = 78.4, SD = 7.9) Kontrol grubuna (M = 71.6, SD = 8.1) kıyasla anlamlı düzeyde daha yüksek puan aldığı belirlenmiştir, t(48) = 2.98, p = .004, d = 0.84, %95 GA [2.24, 11.41].

An independent samples t-test showed that the experimental group (M = 78.4, SD = 7.9) scored significantly higher than the control group (M = 71.6, SD = 8.1), t(48) = 2.98, p = .004, d = 0.84, 95% CI [2.24, 11.41].

Not: Cümledeki sayısal değerler örnek amaçlıdır; kendi raporunuzda R çıktınızdaki değerleri kullanınız. APA kurallarına göre istatistik sembolleri (t, p, d, M, SD) italik yazılır, p değerleri başındaki sıfır olmadan (p = .004) raporlanır ve p < .001 dışında kesin p değeri verilir.

Varsayımlar sağlanmazsa: Welch ve Mann-Whitney U

Levene testi anlamlı çıktıysa (varyanslar eşit değilse) yapılacak tek şey var.equal argümanını kaldırmaktır; R'ın varsayılanı olan Welch testi zaten bu duruma göre tasarlanmıştır. Delacre, Lakens ve Leys (2017) Welch testinin varsayılan seçenek olarak kullanılmasını önermektedir:

# Welch t-testi (R'in varsayilani; varyans esitligi varsaymaz)
t.test(skor ~ grup, data = veri)

Normallik ciddi biçimde ihlal edilmişse (özellikle küçük örneklemlerde) parametrik olmayan Mann-Whitney U testi kullanılır. Etki büyüklüğü olarak rank-biserial temelli r değeri rstatix ile hesaplanabilir:

# Mann-Whitney U (Wilcoxon rank-sum) testi
wilcox.test(skor ~ grup, data = veri)

# Etki buyuklugu (r)
rstatix::wilcox_effsize(veri, skor ~ grup)

Sık sorulan sorular

t-testi için minimum örneklem kaç olmalı?

Kesin bir alt sınır yoktur; test teknik olarak grup başına 2 gözlemle bile çalışır. Ancak küçük örneklemlerde güç düşer ve normallik değerlendirmesi güvenilmezleşir. Orta düzey bir etki (d = 0.50) için %80 güçle grup başına yaklaşık 64 katılımcı gerekir; örneklemi önceden güç analiziyle planlayın.

Normallik bozulursa hemen Mann-Whitney'e mi geçmeliyim?

Hayır. Grup başına örneklem yeterince büyükse (yaklaşık 30 ve üzeri) merkezi limit teoremi sayesinde t-testi normallikten sapmalara karşı oldukça sağlamdır; Welch t-testi çoğu durumda güvenilir sonuç verir. Dağılım ciddi biçimde çarpıksa, uç değerler varsa veya örneklem küçükse Mann-Whitney U uygun alternatiftir.

Tek yönlü mü çift yönlü mü test kullanmalıyım?

Varsayılan ve güvenli seçenek çift yönlü testtir. Tek yönlü test yalnızca yön hakkında, veri toplanmadan önce kaydedilmiş güçlü bir kuramsal gerekçe varsa savunulabilir. Sonuca bakarak sonradan tek yönlüye geçmek p değerini yapay olarak yarıya indirir ve etik açıdan kabul edilemez.

p = .06 çıktı, ne yapmalıyım?

Sonucu olduğu gibi, dürüstçe raporlayın: kesin p değeri, etki büyüklüğü ve güven aralığı birlikte sunulmalıdır. 'Anlamlılığa eğilim' gibi ifadeler yerine etkinin büyüklüğünü ve güven aralığının genişliğini tartışmak, gerekiyorsa çalışmanın istatistiksel gücünün sınırlılığına değinmek bilimsel açıdan daha doğru bir yaklaşımdır.

Kaynaklar

Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.). Lawrence Erlbaum.
Delacre, M., Lakens, D., & Leys, C. (2017). Why psychologists should by default use Welch's t-test instead of Student's t-test. International Review of Social Psychology, 30(1), 92–101.
Field, A. (2018). Discovering statistics using IBM SPSS Statistics (5th ed.). Sage.

R ile Bağımsız Örneklem t-Testi