Sebelum membahas mengenai sebuah pencilan / oulier / extreme, maka kita kenal dulu dengan kuartil yaitu Q1, Q2, dan Q3 yang saya ambil dari materibelajari daripada menulis ulang. Kuartil sendiri yaitu membagi data sama besar secara berurutan. Cara menentukan kuartil adalah yaitu urutkan data dari yang paling kecil sampai data yang paling besar seperti ilustrasi berikut
Belajar Statistik
Contents
Materi statistik yang saling berkaitan satu sama lain, bisa kalian pelajari materi yang lain Belajar Statistik
Perhatikan dataset (jumlah data genap) berikut
Selanjutnya dilakukan pengurutan terlebih dahulu
Sehingga didapatkan Q2 (median) = 68, sedangkan untuk Q1 yaitu
Didapatkan Q1= 59, bagaimana kalau jumlah datanya ganjil misalkan saja 21 record, kalian baca link diatas. Nah untuk mendapatkan informasi diatas di R cukup menggunakan perintah summary()
b<-c(78,86,57,68,56,86,78,92,68,75, 63,58,66,78,43,48,60,68,79,85) summary(b)
hasil
Min. 1st Qu. Median Mean 3rd Qu. Max. 43.00 59.50 68.00 69.60 78.25 92.00
Atau dengan perintah quantile()
quantile(b)
hasil
0% 25% 50% 75% 100% 43.00 59.50 68.00 78.25 92.00
Tapi koq agak beda ya hasilnya yaitu untuk Q1 (hitungan manual) = 59 sedangkan Q1 (output R) = 59.5, kalian cari sendiri saja mengapa berbeda harusnya sih yang betul output R, bisa kalian cek sendiri dengan perintah quartile() menggunakan excel.
Deteksi Data Outlier dengan Box Plot
Visualisasi dataset dapat dipermudah menggunakan plotting jenis boxplot yang bisa kalian gunakan dengan perintah berikut ini (jadi inget main saham saja yaitu ada 4 jenis harga Open, Close, High dan Low)
boxplot(b, main="Suhu", boxwex=0.1)
Melalui box plot diatas sangat mudah melihat visualisasi datanya mulai nilai dari minimal, Q1, Q2, Q3 sampai dengan maximalnya. Sebelum melanjutkan pembahasan lagi ada beberapa term yang harus kalian ketahui yaitu
- Q1 biasa disebut dengan lower quartile (QL)
- Q3 biasa disebut dengan upper quartile (UP)
- IQR interal quartile range yaitu IQR = UQ – lQ = Q3-Q1
Secara umum boxplot yaitu
Whiskers yaitu garis yang menjulur dari box (baik ke arah atas ataupun ke arah bawah), jika
- Menjulur bawah : nilai yang lebih rendah dari kumpulan data yang berada dalam IQR
- Menjulur atas : nilai yang lebih tinggi dari kumpulan data yang berada dalam IQR
Panjang whisker ≤ 1.5 x IQR. Masing-masing garis whisker dimulai dari ujung kotak IQR sampai berakhir pada nilai data yang bukan dikategorikan sebagai outlier yaitu
- Nilai outlier adalah nilai data yang letaknya lebih dari 1.5 x panjang kotak (IQR), diukur dari UQ (atas kotak) atau LQ (bawah kotak) dengan aturan sebagai berikut
- Q3 + (1.5 x IQR) < outlier atas ≤ Q3 + (3 x IQR)
- Q1 – (1.5 x IQR) > outlier bawah ≥ Q1 – (3 x IQR)
- Nilai ekstrim adalah nilai-nilai yang letaknya lebih dari 3 x panjang kotak (IQR), diukur dari UQ (atas kotak) atau LQ (bawah kotak) dengan aturan sebagai berikut
- Ekstrim bagian atas apabila nilainya berada di atas Q3 + (3 x IQR) dan
- Ekstrim bagian bawah apabila nilainya lebih rendah dari Q1 – (3 x IQR)
Deteksi Data Outlier
Mari kita coba menggunakan dataset diatas dengan menambahkan 2 data yang ekstrim yaitu 126 dan 20 sehingga menjadi berikut
b<-c(78,86,57,68,56,86,78,92,68,75, 63,58,66,78,43,48,60,68,79,85,126,20) summary(b) boxplot(b, main="Suhu", boxwex=0.1)
hasil
Min. 1st Qu. Median Mean 3rd Qu. Max. 20.00 58.50 68.00 69.91 78.75 126.00
Deteksi Data Outlier bisa melihat ada 2 pencilan/outlier data yaitu 20 dan 126 berupa titik paling atas dan bawah.
Menggunakan R-Comannder
Jika kalian sudah pernah membaca R-Commander (bagi kalian yang nggak suka/tidak bisa koding) bisa kalian coba dengan membuat dataset terlebih dahulu
Misalkan kita beri nama data3
Maka untuk melakukan ploting boxplot, cukup akses menu Graphs -> Box Plot, kalian bisa atur seperti berikut
Maka akan tampil boxplot
Manfaat Deteksi Data Outlier
Salah satu manfaat deteksi data outlier yaitu mengurangi bias yang terjadi pada saat membuat model seperti analisis regresi dan clustering karena data tersebut bersifat anomali sebagai ganti penghilangan data tersebut bisa diisi dengan mean() sebuah data sehingga data tersebut tidak NA/NULL Untuk artikel yang berkenaan dengan outlier bisa kalian pelajari seperti deteksi anomali data