Summary Data menggunakan Pivot

By | July 28, 2024
2,195 Views

Summary Data menggunakan Pivot – Sekumpulan data berbentuk tabular yaitu baris dan kolom yang banyak tentu membuat pusing saja karena kita akan kesulitan dalam memahami data itu. Sekumpulan data perlu didapatkan insight sehingga dapat ditarik kesimpulan. Biasanya cara termudah yaitu menggunakan summary berbasis pivot di Excel. Kalian masih sering menggunakan Pivot tabel di Excel? atau malah tidak tahu?

Saya akan berikan contoh dataset dari sebuah paper dengan judul segmentasi pelanggan e-money dengan menggunakan algoritma dbscan (density based spatial clustering application with noise) di provinsi dki jakarta oleh Windy Rohalidyawati  (sudah edit agar sesuai dengan postingan) transaksi e-money

Tabel tersebut adalah hasil kuisioner segmentasi pasar berdasarkan perilaku dan psikologis konsumen (sudah edit), yaitu:

  1. preferensi : Alasan menggunakan E-money dari Bank yang digunakan yaitu ada 12 alasan wajib dipilih satu
    1. Mudah dalam pembuatan E-money
    2. Biaya pembuatan yang murah
    3. Banyak cara untuk melakukan Top-up
    4. Mudah dalam melakukan Top-up
    5. Tidak ada biaya admin
    6. Banyaknya keuntungan promosi yang menarik
    7. Dapat digunakan untuk banyak kegiatan
    8. Design kartu yang menarik
    9. Dapat digunakan di luar kota Jakarta
    10. Bank tersebut melakukan banyak promosi
    11. Adanya pelayanan keluhan dan saran
    12. Lainnya, sebutkan……….
  2. kegiatan : Kegiatan yang digunakan dengan E-money
    1. Pembayaran Transjakarta
    2. Pembayaran Commuterline
    3. Pembayaran tol
    4. Pembayaran parkir
    5. Pembayaran BBM (Bahan Bakar Minyak)
    6. Belanja di Minimarket
    7. Lainnya, sebutkan….
  3. saldo : Nominal saldo yang ada dalam kartu E-money
  4. topup : Banyaknya melakukan Top-up dalam satu bulan
  5. transaksi : Banyaknya transaksi yang dilakukan dalam satu hari

transaksi e-money

See also  Cara menghitung term frequency dan inverse document frequency
Generated by wpDataTables

Teknik Summary yang bisa kita lakukan dengan pivot excel (dalam video dibahas mengenai pivot dengan excel)

Nah yang saya akan bahas disini menggunakan RStudio saja agar lebih mudah untuk daily driver data science serta Summary Data menggunakan Pivot

Preferensi

Kolom preferensi kita dapat mengolah frekuensi setiap angka yang muncul serta melakukan ploting. Penting bagi kalian untuk install dulu package dplyr  dan ggplot2

library(dplyr)
library(ggplot2)
df = read.csv('transaksi e-money.csv')
head(df,5)

Yuk kita hitung kemunculan setiap preferensi yang ada

pvt_preferensi = df %>% group_by(preferensi) %>% summarise(total=n())
pvt_preferensi

hasil

   preferensi total
        <int> <int>
 1          1    48
 2          2    24
 3          3    27
 4          4    23
 5          5    14
 6          6     9
 7          7     8
 8          8     9
 9          9     6
10         10     4
11         11     2
12         12     6

Ternyata yang paling banyak adalah no 1 yaitu pelanggan lebih memilih bank tersebut karena Mudah dalam pembuatan E-money. Agar lebih mudah kita urutkan saja biar jelas

pvt_preferensi = arrange(pvt_preferensi, desc(total))
pvt_preferensi

hasilnya

   preferensi total
        <int> <int>
 1          1    48
 2          3    27
 3          2    24
 4          4    23
 5          5    14
 6          6     9
 7          8     9
 8          7     8
 9          9     6
10         12     6
11         10     4
12         11     2

preferensi kedua yaitu Banyak cara untuk melakukan Top-up, kita buat plot

p<-ggplot(data=pvt_preferensi, aes(x=as.factor(preferensi), y=as.factor(total))) +
    geom_bar(stat="identity")
p

tapi kode diatas perlu diperbaiki agar Avoid ggplot sorting  menjadi

pvt_preferensi$preferensi = factor(pvt_preferensi$preferensi, levels = pvt_preferensi$preferensi)

p<-ggplot(data=pvt_preferensi, aes(x=factor(preferensi), y= total)) +
    geom_bar(stat="identity") +
    labs(title = "Pilih Konsumen terhadap penggunaan E-Money",
         subtitle = "Preferensi konsumen",
         caption = "Data source: https://softscients.com",
         x = "Kode Preferensi", y = "Total",
         tag = "Hasil Preferensi ")
p

Sangat mudah ya, daripada menggunakan excel kalian cukup gunakan beberapa kode baris sudah dapat summary data.

Saldo – Menangani data dengan Range/Nilai rentang

Untuk kolom seperti kegiatan, topup, transaksi sama saja dengan cara diatas. Sengaja saya pilih Saldo karena ini mengandung rentang! yuk kita analisis dulu

summary(df$saldo)

hasilnya diberikan informasi sebagai berikut

Min. 1st Qu. Median Mean 3rd Qu. Max. 
2000 50000 100000 113956 150000 850000

Apa tuh artinya? yaitu Nominal saldo yang ada dalam kartu E-money

  1. minimal ada yang Rp. 2000 saja
  2. bahkan yang paling banyak Rp. 850.000 wow hampir 1 juta euy banyak juga
See also  Text Preprocessing dan text minning

Okelah kita buat aturan berikut saja, biar gampang

Pembagian transaksi saldo e-money

Generated by wpDataTables

Yuk kita olah menjadi if else seperti di Excel, biar gampang kita analisis

pvt_saldo = df %>% select(saldo)
pvt_saldo = pvt_saldo %>% mutate(keterangan=ifelse(saldo<=50000,"belum gajian",
                                            ifelse(saldo>50000 & saldo<=250000,"banyak duwit",
                                                   ifelse(saldo>250000,"dapat bonus","ZONK"))))

pvt_saldo

hasil

     saldo   keterangan
1   157000 banyak duwit
2    20000 belum gajian
3   200000 banyak duwit
4    40000 belum gajian
5    20000 belum gajian
6   230000 banyak duwit
7    30000 belum gajian

kita buat summary pivot dulu biar tahu

pvt_saldo2 = pvt_saldo %>% group_by(keterangan) %>% summarise(total=n())
pvt_saldo2

pvt_saldo2 = arrange(pvt_saldo2, desc(total))
pvt_saldo2

ternyata banyak duit orang yang suka pegang e-money ya

  keterangan   total
  <chr>        <int>
1 banyak duwit    93
2 belum gajian    74
3 dapat bonus     13

tapi banyak juga yang belum gajian! Bagaimana menurut kalian Summary Data menggunakan Pivot menggunakan RStudio/R? kalian akan terkejut kalau olah data ratusan ribu baris record di excel! Belum pernah coba kan??? tapi tenang saja menggunakan RStudio/R akan jauh lebih mudah koq, apalagi kalau sudah dibuat RShiny seperti

  1. https://mulkan.shinyapps.io/fuzzy_logic/?_ga=2.150501823.869434279.1634698700-391222358.1634482411
  2. https://mulkan.shinyapps.io/Text_Cleaning/?_ga=2.150501823.869434279.1634698700-391222358.1634482411

Apalagi kalau melibatkan date/tanggal? hemmm kalian baca saja https://softscients.com/2020/07/11/mencari-data-last-transaction-pada-records

Penggunaan Excel dan RStudio/R untuk daily driver data science

Sekedar berbagi pengalaman sebelum mengenal RStudio/R, maka excel merupakan tools yang sering digunakan untuk Summary Data menggunakan Pivot. Tadinya sih lancar-lancar saja namun ketika mendapatkan data yang perlu dibersihkan maka cukup merepotkan kerjaan dilakukan berkali-kali. Bayangkan saja kalau datanya banyak Summary Data menggunakan Pivot maka perlu waktu juga untuk klik sana-sini, lagian juga excel tidak bisa di develop jadi aplikasi (kalau pun bisa agak ribet), oleh sebab itu bagi kalian yang sedang mengolah data dengan excel, coba saja memakai RStudio/R atau yang suka coding pakai Python juga bagus. Oiya bagi kalian yang ingin belajar Excel bisa pelajari disini.

See also  Merge file CSV dengan Cepat