Sinopsis
Contents
Masking Data Frame seringkali dilupakan pada sesi pembahasan mengenai data frame yang merupakan fitur sangat berguna sekali lho. Oiya kalian harus belajar dulu mengenai https://www.softscients.web.id/2020/03/dataset-default-di-r.html dan Grafik di R untuk mempermudah kalian mempelajari sesi berikut
Masking Data Frame merupakan keunggulan tersendiri bila kalian menggunakan data variabel yang melibatkan header kolom. Misalkan ada record dataset yang harus kalian lihat/pelajari dulu hanya pada syarat header.kolom = kelas tertentu saja, bila menggunakan excel seperti berikut
Seleksi berdasarkan header, misalkan hanya akan menampilkan class == 3
Tampilan akhir yaitu
Sangat mudah sekali dalam excel bahkan untuk ribuan record masih bisa dikerjakan dengan mudah menggunakan excel, lha kalau datanya 1 juta record atas sebuah transaksi dalam 1 bulan itu kalau menggunakan excel terkadang kalau RAM nya kecil akan bikin hang, belum lagi urusan ploting data dan analisis statistikanya.
Hal diatas akan permudah bila menggunakan Bahasa R, apalagi sudah mengenal function yang dibuat tersendiri untuk mengolah data sesuai dengan keinginan kalian. Maka keuntungan pengolahan statistika menggunakan Bahasa R daripada SPSS (drag and drop) yaitu
- fleksibilitas dalam mengolah data
- kemampuan untuk membuat script tersendiri
- membuat function
- package library yang banyak dikembangkan oleh para pengguna bahasa R diseluruh dunia
Semakin semangat donk kalian belajar Bahasa R melalui blog ini kalau pun ada yang belum paham atau ingin dibantu risetnya bisa hubungi disini
Loading dataset
Dataset yang digunakan yaitu iris, kalian load dataset di R terlebih dahulu kedalam workspace dengan mengetikan perintah berikut
data(iris) head(iris,10)
hasil
Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa 7 4.6 3.4 1.4 0.3 setosa 8 5.0 3.4 1.5 0.2 setosa 9 4.4 2.9 1.4 0.2 setosa 10 4.9 3.1 1.5 0.1 setosa
Dataset iris dikategorikan/kelas pada kolom Species yaitu terdiri dari 3 kategorikal, bisa kalian cek
table(iris$Species)
Hasil
setosa versicolor virginica 50 50 50
Artinya adalah jumlah Species Setosa sebanyak 50, versicolor sebanyak 50, dan virginica sebanyak 50.
Masking Data Frame
Masking data frame digunakan ketikan kalian ingin menyeleksi baris berdasarkan nilai kolom yang telah ditentukan. Perhatikan 2 tabel dibawah ini. Tabel sebelah kiri hanya menampilkan barang tv saja.
Kembali ke dataset iris, misalkan kita hanya ingin menampilkan informasi setosa saja, bisa kalian gunakan perintah berikut menggunakan operator koma dan tanda dollar bersamaan.
iris[iris$Species=='setosa',]
hasil
> iris[iris$Species=='setosa',] Sepal.Length Sepal.Width Petal.Length Petal.Width Species 1 5.1 3.5 1.4 0.2 setosa 2 4.9 3.0 1.4 0.2 setosa 3 4.7 3.2 1.3 0.2 setosa 4 4.6 3.1 1.5 0.2 setosa 5 5.0 3.6 1.4 0.2 setosa 6 5.4 3.9 1.7 0.4 setosa 7 4.6 3.4 1.4 0.3 setosa 8 5.0 3.4 1.5 0.2 setosa 9 4.4 2.9 1.4 0.2 setosa 10 4.9 3.1 1.5 0.1 setosa 11 5.4 3.7 1.5 0.2 setosa 12 4.8 3.4 1.6 0.2 setosa 13 4.8 3.0 1.4 0.1 setosa 14 4.3 3.0 1.1 0.1 setosa 15 5.8 4.0 1.2 0.2 setosa 16 5.7 4.4 1.5 0.4 setosa 17 5.4 3.9 1.3 0.4 setosa 18 5.1 3.5 1.4 0.3 setosa 19 5.7 3.8 1.7 0.3 setosa 20 5.1 3.8 1.5 0.3 setosa 21 5.4 3.4 1.7 0.2 setosa 22 5.1 3.7 1.5 0.4 setosa 23 4.6 3.6 1.0 0.2 setosa 24 5.1 3.3 1.7 0.5 setosa 25 4.8 3.4 1.9 0.2 setosa 26 5.0 3.0 1.6 0.2 setosa 27 5.0 3.4 1.6 0.4 setosa 28 5.2 3.5 1.5 0.2 setosa 29 5.2 3.4 1.4 0.2 setosa 30 4.7 3.2 1.6 0.2 setosa 31 4.8 3.1 1.6 0.2 setosa 32 5.4 3.4 1.5 0.4 setosa 33 5.2 4.1 1.5 0.1 setosa 34 5.5 4.2 1.4 0.2 setosa 35 4.9 3.1 1.5 0.2 setosa 36 5.0 3.2 1.2 0.2 setosa 37 5.5 3.5 1.3 0.2 setosa 38 4.9 3.6 1.4 0.1 setosa 39 4.4 3.0 1.3 0.2 setosa 40 5.1 3.4 1.5 0.2 setosa 41 5.0 3.5 1.3 0.3 setosa 42 4.5 2.3 1.3 0.3 setosa 43 4.4 3.2 1.3 0.2 setosa 44 5.0 3.5 1.6 0.6 setosa 45 5.1 3.8 1.9 0.4 setosa 46 4.8 3.0 1.4 0.3 setosa 47 5.1 3.8 1.6 0.2 setosa 48 4.6 3.2 1.4 0.2 setosa 49 5.3 3.7 1.5 0.2 setosa 50 5.0 3.3 1.4 0.2 setosa >
Masking Data Frame untuk Kolom terpilih
Atapun kalian hanya ingin menampilkan/seleksi hanya pada kolom tertentu saja, kalian gunakan perintah ini
iris$Petal.Length[iris$Species=='setosa']
hasil
[1] 1.4 1.4 1.3 1.5 1.4 1.7 1.4 1.5 1.4 1.5 1.5 1.6 1.4 1.1 1.2 1.5 1.3 1.4 1.7 1.5 1.7 [22] 1.5 1.0 1.7 1.9 1.6 1.6 1.5 1.4 1.6 1.6 1.5 1.5 1.4 1.5 1.2 1.3 1.4 1.3 1.5 1.3 1.3 [43] 1.3 1.6 1.9 1.4 1.6 1.4 1.5 1.4 >
Cukup mudah bukan? Masking Data Frame di Bahasa R
Cara mudah Masking Data Frame dengan Package dplyr
Sebenarnya ada cara lain yang lebih mudah dalam operasi Data Frame seperti
- Select
- Filter
- Join
- Intersect
menggunakan library dplyr dan tidyverse tapi akan dibahas tersendiri, oiya kalian jangan lupa untuk belajar cara install package di R