Belajar R – Deteksi Data Outlier

By | January 14, 2022
Print Friendly, PDF & Email
2,940 Views

Sebelum membahas mengenai sebuah pencilan / oulier / extreme, maka kita kenal dulu dengan kuartil yaitu Q1, Q2, dan Q3 yang saya ambil dari materibelajari  daripada menulis ulang. Kuartil sendiri yaitu membagi data sama besar secara berurutan. Cara menentukan kuartil adalah yaitu urutkan data dari yang paling kecil sampai data yang paling besar seperti ilustrasi berikut

Belajar Statistik

Materi statistik yang saling berkaitan satu sama lain, bisa kalian pelajari materi yang lain Belajar Statistik

 

Perhatikan dataset (jumlah data genap) berikut

Selanjutnya dilakukan pengurutan terlebih dahulu

Sehingga didapatkan Q2 (median) = 68, sedangkan untuk Q1 yaitu

Didapatkan Q1= 59, bagaimana kalau jumlah datanya ganjil misalkan saja 21 record, kalian baca link diatas. Nah untuk mendapatkan informasi diatas di R cukup menggunakan perintah summary()

b<-c(78,86,57,68,56,86,78,92,68,75,
     63,58,66,78,43,48,60,68,79,85)
summary(b)

hasil

 Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
43.00   59.50   68.00   69.60   78.25   92.00 

Atau dengan perintah quantile()

quantile(b)

hasil

   0%   25%   50%   75%  100% 
43.00 59.50 68.00 78.25 92.00

Tapi koq agak beda ya hasilnya yaitu untuk Q1 (hitungan manual) = 59 sedangkan Q1 (output R) = 59.5, kalian cari sendiri saja mengapa berbeda harusnya sih yang betul output R, bisa kalian cek sendiri dengan perintah quartile() menggunakan excel.

Deteksi Data Outlier dengan Box Plot

Visualisasi dataset dapat dipermudah menggunakan plotting jenis boxplot yang bisa kalian gunakan dengan perintah berikut ini (jadi inget main saham saja yaitu ada 4 jenis harga Open, Close, High dan Low)

boxplot(b, main="Suhu", boxwex=0.1)

Melalui box plot diatas sangat mudah melihat visualisasi datanya mulai nilai dari minimal, Q1, Q2, Q3 sampai dengan maximalnya. Sebelum melanjutkan pembahasan lagi ada beberapa term yang harus kalian ketahui yaitu

  1. Q1 biasa disebut dengan lower quartile (QL)
  2. Q3 biasa disebut dengan upper quartile (UP)
  3. IQR interal quartile range yaitu IQR = UQ – lQ = Q3-Q1

Secara umum boxplot yaitu

Whiskers yaitu garis yang menjulur dari box (baik ke arah atas ataupun ke arah bawah), jika

  1. Menjulur bawah : nilai yang lebih rendah dari kumpulan data yang berada dalam IQR
  2. Menjulur atas : nilai yang lebih tinggi dari kumpulan data yang berada dalam IQR

Panjang whisker ≤ 1.5 x IQR. Masing-masing garis whisker dimulai dari ujung kotak IQR sampai berakhir pada nilai data yang bukan dikategorikan sebagai outlier yaitu

  1. Nilai outlier adalah nilai data yang letaknya lebih dari 1.5 x panjang kotak (IQR), diukur dari UQ (atas kotak) atau LQ (bawah kotak) dengan aturan sebagai berikut
    1. Q3 + (1.5 x IQR) < outlier atas ≤ Q3 + (3 x IQR)
    2. Q1 – (1.5 x IQR) > outlier bawah ≥ Q1 – (3 x IQR)
  2. Nilai ekstrim adalah nilai-nilai yang letaknya lebih dari 3 x panjang kotak (IQR), diukur dari UQ (atas kotak) atau LQ (bawah kotak) dengan aturan sebagai berikut
    1. Ekstrim bagian atas apabila nilainya berada di atas Q3 + (3 x IQR) dan
    2. Ekstrim bagian bawah apabila nilainya lebih rendah dari Q1 – (3 x IQR)

Deteksi Data Outlier

Mari kita coba menggunakan dataset diatas dengan menambahkan 2 data yang ekstrim yaitu 126 dan 20 sehingga menjadi berikut

b<-c(78,86,57,68,56,86,78,92,68,75,
     63,58,66,78,43,48,60,68,79,85,126,20)
summary(b)
boxplot(b, main="Suhu", boxwex=0.1)

hasil

 Min. 1st Qu.  Median    Mean 3rd Qu.    Max. 
20.00   58.50   68.00   69.91   78.75  126.00 

Deteksi Data Outlier bisa melihat ada 2 pencilan/outlier data yaitu 20 dan 126 berupa titik paling atas dan bawah.

Menggunakan R-Comannder

Jika kalian sudah pernah membaca R-Commander (bagi kalian yang nggak suka/tidak bisa koding) bisa kalian coba dengan membuat dataset terlebih dahulu

Misalkan kita beri nama data3

Maka untuk melakukan ploting boxplot, cukup akses menu Graphs -> Box Plot, kalian bisa atur seperti berikut

Maka akan tampil boxplot

Manfaat Deteksi Data Outlier

Salah satu manfaat deteksi data outlier yaitu mengurangi bias yang terjadi pada saat membuat model seperti analisis regresi dan clustering karena data tersebut bersifat anomali sebagai ganti penghilangan data tersebut bisa diisi dengan mean() sebuah data sehingga data tersebut tidak NA/NULL Untuk artikel yang berkenaan dengan outlier bisa kalian pelajari seperti deteksi anomali data

 

Leave a Reply

Your email address will not be published.




Enter Captcha Here :