×

Cara Hitung Manual Uji Normalitas dengan Uji Kolmogorov-Smirnov

Cara Hitung Manual Uji Normalitas dengan Uji Kolmogorov-Smirnov

35,511 Views

Uji Kolmogorov-Smirnov dapat digunakan untuk menguji suatu asumsi apakah suatu data sampel berasal dari populasi yang berdistribusi normal atau tidak. Asumsi normalitas memiliki peranan penting dalam uji-uji parametrik, seperti uji beda rata-rata dari dua populasi dengan uji 𝑡 dan analisis varians. Hal ini karena uji-uji parametrik akan bekerja dengan baik ketika asumsi normalitas dipenuhi terlebih dahulu.

Apabila data sampel berasal dari populasi yang berdistribusi normal, maka distribusi sampling dari rata-rata 𝑋̅ juga mengikuti distribusi normal itu merupakan dasar perhitungan Uji Kolmogorov-Smirnov. Lebih lanjut mengenai Teori Normal Distribution

Apa itu distribusi normal?

Distribusi normal adalah fungsi yang mendefinisikan bagaimana satu set pengukuran didistribusikan di sekitar pusat pengukuran ini (yaitu, mean). Banyak fenomena alam dalam kehidupan nyata dapat didekati dengan distribusi frekuensi berbentuk lonceng yang dikenal sebagai distribusi normal atau distribusi Gaussian.

Distribusi normal adalah distribusi berbentuk gunung, unimodal dan simetris di mana sebagian besar pengukuran berkumpul di sekitar rata-rata. Selain itu, semakin jauh suatu ukuran menyimpang dari rata-rata, semakin rendah kemungkinan terjadinya. Dalam pengertian ini, untuk variabel tertentu, adalah umum untuk menemukan nilai yang dekat dengan mean, tetapi semakin kecil kemungkinannya untuk menemukan nilai saat kita menjauh dari mean. Last but not least, karena distribusi normal simetris di sekitar rata-ratanya, nilai ekstrim di kedua ekor distribusi tidak mungkin secara ekuivalen. Misalnya, karena tinggi badan orang dewasa mengikuti distribusi normal, kebanyakan orang dewasa mendekati tinggi rata-rata dan orang dewasa yang sangat pendek jarang terjadi seperti orang dewasa yang sangat tinggi.

Karena merupakan persyaratan dalam beberapa uji statistik, kita akan bahas cara menguji asumsi normalitas. Data yang memiliki distribusi kira-kira normal memiliki variasi yang pasti, seperti yang dinyatakan oleh aturan empiris berikut:

  • \mu \pm \sigma mencakup sekitar 68% dari pengamatan
  • \mu \pm  2 \cdot \sigmamencakup sekitar 95% dari pengamatan
  • \mu \pm 3 \cdot \sigmamencakup sekitar 99.7% dari pengamatan

Apa itu Distribusi Sampling Rata-Rata Sampel \bar{X} (Sampling Distribution of \bar{X})?

Kita bahas dulu Sampling distribution adalah distribusi probabilitas dari suatu statistik.  Sampling distribution tergantung dari ukuran populasi, ukuran sampel, metode memilih sampel. Distribusi sampling dari \bar{X} dengan dengan ukuran sampel n adalah suatu distribusi yang bila percobaan dilakukan secara berulang (selalu dengan jumlah sampel n) akan menghasilkan banyak nilai sampel dengan rata-rata \bar{X}. Distribusi sampling ini menggambarkan variabilitas (perubahan) rata-rata sampel terhadap rata-rata populasi \mu.

See also  Mengubah Data Berdasarkan Range Kategori

Rata-rata distribusi sampling: Bila suatu sampel acak dari suatu n pengamatan diambil dari suatu populasi normal dengan rata-rata \mu dan varians \sigma^2. Maka, setiap pengamatan X_i, i =1,2,3, …, n dari sampel acak tersebut akan mempunyai distribusi normal yang sama seperti popolasi yang bersangkutan. Sehingga dapat disimpulkan bahwa:

\bar{X}=\frac{X_1+X_2+...+X_n}{n} memiliki distribusi normal,

dengan rerata

    \[ \mu_{\bar{X}}=\frac{\mu+\mu+...+\mu}{n} \]

dan varians

    \[ \sigma^2_{\bar{X}}=\frac{\sigma^2+\sigma^2+...+\sigma^2}{n^2} \]

Bila sampel yang diambil dari suatu populasi yang tidak diketahui distribuisnya, distribusi sampling dari \bar{X} akan tetap mendekati nomal dengan rata-rata \mu dan varians \sigma^2 asalkan sampel yang diambil dalam jumlah yang besar. Hasil ini merupakan konsekeuesi dari suatu teorema batas tengah (central limit theorem)

Central Limit Theorem. Bila \bar{X} adalah rata-rata suatu sampel acak yang diambil dari suatu populasi dengan ukuran n, rata-rata \mu  dan varians \sigma^2, maka bentuk batas distribusi berikut: 

    \[Z = \frac{\bar{X}-\mu}{\sigma / \sqrt{n}}\]

bila n \rightarrow\infty distribusinya adalah distribusi normal standar n(z;0,1). Cukup sekian saja ya, penjelasannya panjang ntar nantinya kalau dibahas detail.

Uji Normalitas dengan Uji Kolmogorov-Smirnov

Kita jabarkan, jika sebuah populasi mempunyai informasi sebagai berikut

  • X_1, X_2, X_3, … , X_k merupakan nilai-nilai pada sampel acak (random sample).
  • Misalkan f(X_i) menyatakan probabilitas dari nilai X_i,
  • sedangkan F(X_i)  = f(X \le X_i) menyatakan probabilitas kumulatif dari nilai X_i, di mana i = 1,2,3, … , k
  • Z_i merupakan nilai normal (sampel) terstandarisasi dari hasil transformasi nilai X_i, dan
  • F(Z_i) = f( \le Z_i) menyatakan probabilitas kumulatif dari nilai normal Z_i terstandarisasi.
  • Nilai normal Z_i terstandarisasi merupakan hasil transformasi dari nilai X_i yang dihitung dengan rumus sebagai berikut.

        \[Z_i = \frac{X_i-\bar{X}}{s},i=1,2,3,...,k\]

  • Perhatikan bahwa \bar{X} merupakan rata-rata sampel sebagai estimasi dari rata-rata populasi \mu, sedangkan 𝑠 merupakan standar deviasi sampel sebagai estimasi dari standar deviasi populasi \sigma. Misalkan 𝐷_𝑖 menyatakan nilai mutlak dari selisih antara F(Z_i) dan F(X_i), yakni

        \[D_i = |F(Z_i) − F(X_i) |, i = 1,2,3, … , k\]

 

jika D_{max} \leq nilai kritis, maka H_o diterima dan H_1 ditolak

jika D_{max} > nilai kritis, maka H_o ditolak dan H_1 diterima

Tabel Nilai Kritis Uji Kolmogorov-Smirnov

See also  Fuzzy Logic - Logika Fuzzy di RStudio
Generated by wpDataTables

tabel diatas distribusi Kolmogorov-Smirnov.

Pengambilan keputusan terhadap hipotesis

Pengambilan keputusan terhadap hipotesis juga dapat dilakukan dengan membandingkan nilai probabilitas (p-value) dari uji Kolmogorov-Smirnov terhadap tingkat signifikansi 𝛼 (significance level). Berikut aturan pengambilan keputusan berdasarkan pendekatan nilai probabilitas.

jika nilai probabilitas \geq tingkat signifikansi, maka H_0 diterima dan H_1 ditolak

jika nilai probabilitas < tingkat signifikansi, maka H_0 ditolak dan H_1 diterima

Contoh Kasus Uji Normalitas Populasi dengan Uji Kolmogorov-Smirnov

Berikut data nilai dari kelas mata kuliah riset operasi

Nomor 	Nama 	Nilai 
1	A 	40
2	B 	50
3	C 	50
4	D 	60
5	F 	60
6	G 	60
7	H 	70
8	I 	70
9	J 	70
10	K 	70
11	L 	80
12	M 	80
13	N 	80
14	O 	90
15	P 	90
16	Q 	100

Berikut akan digunakan pendekatan uji Kolmogorov-Smirnov untuk menguji hipotesis apakah data tersebut ditarik dari populasi yang berdistribusi normal atau tidak (misalkan tingkat signifikansi yang digunakan 𝛼 = 5%). Perhitungan akan dilakukan secara manual.

Penjelasannya sebagai berikut

Perhitungan Rerata dan Standar Deviasi

dari tabel diatas, kita akan hitung nilai

  • rerata \bar{X} = 70
  • standar deviasi s=16.330

Menghitung probabilitas dari X_i atau f(X_i)

Setelah diperoleh \bar{X}=70 dan s=16.330, selanjutnya akan dihitung probabilitas dari X_i atau f(X_i).

  • Probabilitas untuk nilai X=40 atau f(40) adalah \frac{1}{16}=0,0625 dan
  • seterusnya (lihat tabel diatas)

Menghitung probabilitas kumulatif dari X_i atau F(X_i)=f(X\leq X_i)

  • Nilai dari F(40) = 0,0625
  • nilai dari F(50) = f(x \leq 50) = f(40) + f(50) = 0,0625 +0,125 = 0,1875 dan
  • seterusnya.

Mentransformasi nilai X_i menjadi nilai normal Z_i terstandarisasi

Selanjutnya mentransformasi nilai X_i ke dalam nilai normal Z_i terstandarisasi yang dihitung dengan rumus

    \[ Z_i=\frac{X_i-\bar{X}}{s} \]

  • untuk X=40 maka

        \[Z(X=40)=\frac{40-70}{16.330}=-1.837\]

  • untuk X=50 maka

        \[Z(X=50)=\frac{50-70}{16.330}=-1.2247\]

Menghitung probabilitas kumulatif dari Z_i atau F(Z_i) = f(Z\leq Z_i).

Setelah diperoleh nilai-nilai normal terstandarisasi, maka akan dihitung probabilitas kumulatif dari nilai-nilai normal terstandarisasi tersebut.

  • Probabilitas kumulatif dari Z = −1,837 atau f(Z \leq −1,837) berdasarkan tabel distribusi normal kumulatif adalah 0,033,
  • probabilitas kumulatif dari Z = 0,61 atau f(Z \leq 0,61) berdasarkan tabel distribusi normal kumulatif adalah 0,729, dan seterusnya.

nanti pakai excel saja untuk hitung tabel Z, download saja excel di akhir postingan ini (harus register ya!)

Menghitung nilai mutlak dari selisih antara F(Z_i) dan F(X_i)

Selanjutnya menghitung nilai mutlak dari selisih antara F(Z_i) dan F(X_i).

    \[ D_i = |F(X_i) − F(X_i)| \]

  • Nilai D untuk X = 40 adalah |0,033 − 0,0625| = 0,0295
  • nilai D untuk X = 50 adalah |0,110 − 0,1875| = 0,077,
  • dan seterusnya.

Menghitung nilai statistik dari uji Kolmogorov-Smirnov D_{max}

Nilai statistik dari uji Kolmogorov-Smirnov merupakan nilai D yang paling besar atau maksimum. Berdasarkan diatas nilai D terbesar adalah 0.125, sehingga nilai statistik dari uji Kolmogorov-Smirnov adalah 0.125 atau D_{max} = 0.125

Menghitung nilai kritis Kolmogorov-Smirnov.

Nilai kritis Kolmogorov-Smirnov pada tingkat signifikansi 5% dan jumlah elemen sampel 16 berdasarkan tabel distribusi Kolmogorov-Smirnov adalah 0,327

Pengambilan keputusan terhadap hipotesis.

Perhatikan bahwa karena nilai statistik dari uji Kolmogorov-Smirnov (0,125) lebih kecil dibandingkan nilai kritis Kolmogorov-Smirnov (0,327), maka hipotesis nol diterima dan hipotesis alternatif ditolak, sehingga asumsi mengenai data nilai ujian mata kuliah RO diatas ditarik dari populasi yang berdistribusi normal dapat diterima pada tingkat signifikansi 5%

Cara Hitung Kolomogorov-Smirnov di Excel

Cara Hitung Manual Uji Normalitas dengan Uji Kolmogorov-Smirnov akan sangat mudah di excel, silahkan kalian bisa download Download Contoh Uji Kolmogorov-Smirnov

See also  Plot Grafik Interaktif

Uji Normalitas Kolmogorov-Smirnov dengan SPSS

Kalian download terlebih dahulu datasetnya Contoh Uji Normalitas Populasi dengan Uji KolmogorovSmirnov,csv

  • Dari menu bar, kita pilih Analyze -> Nonparametric Test -> Legacy Dialogs -> 1- Sample K-S
  • Nanti pilih Test Distribution Normal

  • hasil uji normalitas kolmogorov-smirnov. berdasarkan tabel output SPSS dibawah ini,
    • nilai p -value / signifikansi Asymp. Sig (2-tailed) sebesar 0.964 lebih besar dari 5%, maka sesuai dasar pengambilan keputusan dalam uji normalitas kolmogorov-smirnov diatas, dapat disimpulkan bahwa data berdistribusi normal
    • nilai D / absolute  Difference sebesar 0.125

Uji Normalitas Kolmogorov-Smirnov dengan R/RStudio – package nortest

Yuk kita coba uji normalitas kolmogorov-smirnov dengan R/RStudio, langkah mudahnya yaitu data diatas perlu kita simpan terlebih dahulu kedalam format excel saja agar lebih mudah

Nomor 	Nama 	Nilai 
1	A 	40
2	B 	50
3	C 	50
4	D 	60
5	F 	60
6	G 	60
7	H 	70
8	I 	70
9	J 	70
10	K 	70
11	L 	80
12	M 	80
13	N 	80
14	O 	90
15	P 	90
16	Q 	100

Nanti kita butuh package nortest, berikut kode yang digunakan untuk uji normalitas kolmogorov-smirnov dengan R/RStudio

library(readxl)
library(nortest)

dat =readxl::read_xlsx("Data Nilai Mahasiswa Mata Kuliah RO.xlsx")
nortest::lillie.test(dat$Nilai)

hasilnya

   Lilliefors (Kolmogorov-Smirnov) normality test

data:  dat$Nilai
D = 0.125, p-value = 0.7235

terlihat bahwa nilai statistik dari

  • uji Kolmogorov-Smirnov (D) 0,125, lebih kecil dibandingkan nilai kritis Kolmogorov-Smirnov 0,327, maka hipotesis nol diterima dan hipotesis alternatif ditolak, sehingga asumsi mengenai data nilai ujian ditarik dari populasi yang berdistribusi normal dapat diterima pada tingkat signifikansi 5%.
  • nilai p -value adalah 0.7235. Karena nilai probabilitas, yakni 0.7235, lebih besar dibandingkan tingkat signifikansi, yakni 0,05, maka hipotesis nol diterima, dan hipotesis alternatif ditolak. Hal ini berarti asumsi mengenai data nilai ujian ditarik dari populasi yang berdistribusi normal dapat diterima pada tingkat signifikansi 5%

Selain menggunakan package nortest diatas, kita bisa kok menggunakan function built in untuk hitung kolomogorov smirnov untuk one single test yaitu wajib disebutkan mean dan sd nya kalau tidak akan diberikan nilai default yaitu mean = 1 dan sd = 0.

ks.test(dat$Nilai,"pnorm",mean=mean(dat$Nilai), sd=sd(dat$Nilai))

hasilnya yaitu

   Asymptotic one-sample Kolmogorov-Smirnov test

data:  dat$Nilai
D = 0.125, p-value = 0.9639
alternative hypothesis: two-sided


untuk hasil diatas sama seperti di SPSS yaitu D dan p-value nya

Mengapa nilai p-value di SPSS dan R itu beda?

Bila kalian perhatikan ada perbedaan nilai output di SPSS dan R yaitu

  • p-value pada SPSS  yaitu
    • R nortest menghasilkan 0.7235 dan
    • SPSS menghasilkan 0.964
  • sedangkan nilai D nya sama yaitu 0.125

p-value berbeda karena cara perhitungan nya berbeda antara SPSS dan R akan tetapi walaupun beda semuanya diatas 5%! Saya sedang cari tahu algoritma yang digunakan antara masing-masing untuk menghasilkan p-value. Silahkan kalian komen dibawah ini

Uji Normalitas yang lain

 

ref: Belajar Statistika dengan R Prana Ugiana Gio, Dasapta Erwin Irawan, 2016

Mengapa Output di SPSS dan R kadang berbeda

Mengapa Output di SPSS dan R kadang berbeda – Mengapa Hasil Nilai di R dan SPSS terkadang beda?

Belajar Statistik

Materi statistik yang saling berkaitan satu sama lain, bisa kalian pelajari materi yang lain Belajar Statistik

You May Have Missed