
Summary Data menggunakan Pivot – Sekumpulan data berbentuk tabular yaitu baris dan kolom yang banyak tentu membuat pusing saja karena kita akan kesulitan dalam memahami data itu. Sekumpulan data perlu didapatkan insight sehingga dapat ditarik kesimpulan. Biasanya cara termudah yaitu menggunakan summary berbasis pivot di Excel. Kalian masih sering menggunakan Pivot tabel di Excel? atau malah tidak tahu?
Saya akan berikan contoh dataset dari sebuah paper dengan judul segmentasi pelanggan e-money dengan menggunakan algoritma dbscan (density based spatial clustering application with noise) di provinsi dki jakarta oleh Windy Rohalidyawati (sudah edit agar sesuai dengan postingan) transaksi e-money
Tabel tersebut adalah hasil kuisioner segmentasi pasar berdasarkan perilaku dan psikologis konsumen (sudah edit), yaitu:
- preferensi : Alasan menggunakan E-money dari Bank yang digunakan yaitu ada 12 alasan wajib dipilih satu
- Mudah dalam pembuatan E-money
- Biaya pembuatan yang murah
- Banyak cara untuk melakukan Top-up
- Mudah dalam melakukan Top-up
- Tidak ada biaya admin
- Banyaknya keuntungan promosi yang menarik
- Dapat digunakan untuk banyak kegiatan
- Design kartu yang menarik
- Dapat digunakan di luar kota Jakarta
- Bank tersebut melakukan banyak promosi
- Adanya pelayanan keluhan dan saran
- Lainnya, sebutkan……….
- kegiatan : Kegiatan yang digunakan dengan E-money
- Pembayaran Transjakarta
- Pembayaran Commuterline
- Pembayaran tol
- Pembayaran parkir
- Pembayaran BBM (Bahan Bakar Minyak)
- Belanja di Minimarket
- Lainnya, sebutkan….
- saldo : Nominal saldo yang ada dalam kartu E-money
- topup : Banyaknya melakukan Top-up dalam satu bulan
- transaksi : Banyaknya transaksi yang dilakukan dalam satu hari
transaksi e-money
Contents
Teknik Summary yang bisa kita lakukan dengan pivot excel (dalam video dibahas mengenai pivot dengan excel)
Nah yang saya akan bahas disini menggunakan RStudio saja agar lebih mudah untuk daily driver data science serta Summary Data menggunakan Pivot
Preferensi
Kolom preferensi kita dapat mengolah frekuensi setiap angka yang muncul serta melakukan ploting. Penting bagi kalian untuk install dulu package dplyr dan ggplot2
library(dplyr) library(ggplot2) df = read.csv('transaksi e-money.csv') head(df,5)
Yuk kita hitung kemunculan setiap preferensi yang ada
pvt_preferensi = df %>% group_by(preferensi) %>% summarise(total=n()) pvt_preferensi
hasil
preferensi total <int> <int> 1 1 48 2 2 24 3 3 27 4 4 23 5 5 14 6 6 9 7 7 8 8 8 9 9 9 6 10 10 4 11 11 2 12 12 6
Ternyata yang paling banyak adalah no 1 yaitu pelanggan lebih memilih bank tersebut karena Mudah dalam pembuatan E-money. Agar lebih mudah kita urutkan saja biar jelas
pvt_preferensi = arrange(pvt_preferensi, desc(total)) pvt_preferensi
hasilnya
preferensi total <int> <int> 1 1 48 2 3 27 3 2 24 4 4 23 5 5 14 6 6 9 7 8 9 8 7 8 9 9 6 10 12 6 11 10 4 12 11 2
preferensi kedua yaitu Banyak cara untuk melakukan Top-up, kita buat plot
p<-ggplot(data=pvt_preferensi, aes(x=as.factor(preferensi), y=as.factor(total))) + geom_bar(stat="identity") p
tapi kode diatas perlu diperbaiki agar Avoid ggplot sorting menjadi
pvt_preferensi$preferensi = factor(pvt_preferensi$preferensi, levels = pvt_preferensi$preferensi) p<-ggplot(data=pvt_preferensi, aes(x=factor(preferensi), y= total)) + geom_bar(stat="identity") + labs(title = "Pilih Konsumen terhadap penggunaan E-Money", subtitle = "Preferensi konsumen", caption = "Data source: https://softscients.com", x = "Kode Preferensi", y = "Total", tag = "Hasil Preferensi ") p
Sangat mudah ya, daripada menggunakan excel kalian cukup gunakan beberapa kode baris sudah dapat summary data.
Saldo – Menangani data dengan Range/Nilai rentang
Untuk kolom seperti kegiatan, topup, transaksi sama saja dengan cara diatas. Sengaja saya pilih Saldo karena ini mengandung rentang! yuk kita analisis dulu
summary(df$saldo)
hasilnya diberikan informasi sebagai berikut
Min. 1st Qu. Median Mean 3rd Qu. Max. 2000 50000 100000 113956 150000 850000
Apa tuh artinya? yaitu Nominal saldo yang ada dalam kartu E-money
- minimal ada yang Rp. 2000 saja
- bahkan yang paling banyak Rp. 850.000 wow hampir 1 juta euy banyak juga
Okelah kita buat aturan berikut saja, biar gampang
Pembagian transaksi saldo e-money
Yuk kita olah menjadi if else seperti di Excel, biar gampang kita analisis
pvt_saldo = df %>% select(saldo) pvt_saldo = pvt_saldo %>% mutate(keterangan=ifelse(saldo<=50000,"belum gajian", ifelse(saldo>50000 & saldo<=250000,"banyak duwit", ifelse(saldo>250000,"dapat bonus","ZONK")))) pvt_saldo
hasil
saldo keterangan 1 157000 banyak duwit 2 20000 belum gajian 3 200000 banyak duwit 4 40000 belum gajian 5 20000 belum gajian 6 230000 banyak duwit 7 30000 belum gajian
kita buat summary pivot dulu biar tahu
pvt_saldo2 = pvt_saldo %>% group_by(keterangan) %>% summarise(total=n()) pvt_saldo2 pvt_saldo2 = arrange(pvt_saldo2, desc(total)) pvt_saldo2
ternyata banyak duit orang yang suka pegang e-money ya
keterangan total <chr> <int> 1 banyak duwit 93 2 belum gajian 74 3 dapat bonus 13
tapi banyak juga yang belum gajian! Bagaimana menurut kalian Summary Data menggunakan Pivot menggunakan RStudio/R? kalian akan terkejut kalau olah data ratusan ribu baris record di excel! Belum pernah coba kan??? tapi tenang saja menggunakan RStudio/R akan jauh lebih mudah koq, apalagi kalau sudah dibuat RShiny seperti
- https://mulkan.shinyapps.io/fuzzy_logic/?_ga=2.150501823.869434279.1634698700-391222358.1634482411
- https://mulkan.shinyapps.io/Text_Cleaning/?_ga=2.150501823.869434279.1634698700-391222358.1634482411
Apalagi kalau melibatkan date/tanggal? hemmm kalian baca saja https://softscients.com/2020/07/11/mencari-data-last-transaction-pada-records
Penggunaan Excel dan RStudio/R untuk daily driver data science
Sekedar berbagi pengalaman sebelum mengenal RStudio/R, maka excel merupakan tools yang sering digunakan untuk Summary Data menggunakan Pivot. Tadinya sih lancar-lancar saja namun ketika mendapatkan data yang perlu dibersihkan maka cukup merepotkan kerjaan dilakukan berkali-kali. Bayangkan saja kalau datanya banyak Summary Data menggunakan Pivot maka perlu waktu juga untuk klik sana-sini, lagian juga excel tidak bisa di develop jadi aplikasi (kalau pun bisa agak ribet), oleh sebab itu bagi kalian yang sedang mengolah data dengan excel, coba saja memakai RStudio/R atau yang suka coding pakai Python juga bagus. Oiya bagi kalian yang ingin belajar Excel bisa pelajari disini.