library dan package R Terbaik yang Direkomendasikan pada Data Science

By | April 4, 2022
5,974 Views

Bahasa pemrograman R memainkan peran utama dalam mengelola proyek data science. Setiap profesional data science perlu tetap diperbarui dengan library dan package R jika mereka akan bekerja dengan proyek yang terkait dengan komputasi statistik.

Yah, baik R dan Python banyak digunakan dalam data science, meskipun Python tampaknya mendapatkan lebih banyak popularitas saat ini, tapi tidak perlu kuatir Bahasa pemrograman R juga merupakan alat populer yang digunakan dalam industri data science.

Sementara kita semua mengenal Python dan perpustakaannya, kita akan membahas lebih lanjut perpustakaan R yang paling berguna untuk data science.

R adalah bahasa pemrograman sumber terbuka dan perangkat lunak yang ideal untuk komputasi statistik. Antarmuka yang berbasis script dirancang dan cocok untuk pemodelan data dan algoritma. Bahasa pemrograman terdiri dari lebih dari seratus perpustakaan sehingga paling cocok untuk memecahkan beberapa masalah yang kompleks.

Tanpa basa-basi lagi, kita akan mulai membahas pustaka R yang digunakan secara khusus dalam machine learning/pembelajaran mesin, visualisasi data, dan manipulasi data. Mempelajari perpustakaan/library/package R adalah keuntungan tambahan bagi seorang profesional data science.

Machine learning

Library Caret

library/package caret yang disebut sebagai Classification And Regression Training adalah serangkaian fungsi yang membantu merampingkan setiap proses yang membuat model prediktif. Library/package ini menyusun alat yang dapat digunakan untuk –

  • Pra-pemrosesan data
  • Tuning / Penyetelan model dengan bantuan resampling
  • Estimasi kepentingan variabel
  • Pemisahan data
See also  Belajar R - Metode Peramalan Deret Waktu - Forecasting Time Series

Library mlr

Paket  machine learning.pembelajaran mesin terkenal yang menyajikan data ke beberapa regresi dan teknik klasifikasi. Selain itu, mlr dapat digunakan untuk

  • Penyetelan/tuning hyperparameter menggunakan teknik optimasi modern yang ideal untuk masalah tunggal dan multi-tujuan.
  • Umum dan pengelompokan, contoh pembelajaran khusus yang sensitif terhadap biaya, dan analisis kelangsungan hidup.
  • Resampling umum yang meliputi bootstrap, subsampling, dan validasi silang.

Library Random Forest

Setelah membagi pelatihan data dan set pengujian, pengklasifikasi random forest  yang ditawarkan oleh paket randomForest dapat digunakan untuk mengembangkan random forest dengan n jumlah tree yang dapat disesuaikan

Library vcd

Pustaka vcd sangat ideal untuk visualisasi yang selanjutnya digunakan untuk data berbasis kategorikal daripada kalian repot coding sana-sini di ggplot2

Library glmnet

metode regresi elastic-net dan laso digunakan melalui validasi silang. Untuk pengoperasian algoritma lainnya, kalian dapat mencoba mlbench, MASS, tree, dan ipred.

Data visualization

Visualisasi merupakan peranan penting yang harus dikuasai oleh pada data science untuk menemukan pola sehingga mendapatkan insight serta menerapkan algoritma yang tepat.

Library ggvis

Library/package ggvis sangat ideal untuk grafik berbasis web yang dibangun bersama dengan tata bahasa grafik. ggvis membantu menggabungkan pemrograman reaksi dalam manipulasi data. Melalui berbasis web, aplikasi bisa lebih interaktif

Library ggplot2

Salah satu library/package yang umum digunakan untuk membuat visualisasi yang indah termasuk ggplot2. Ini memungkinkan kalian menggunakan tata bahasa grafik untuk membangun plot berlapis/overlay yang dapat disesuaikan.

Library widget html

htmlwidgets menawarkan cara yang efisien dan lebih cepat yang dapat membangun interaktif — berbasis javascript menggunakan R melalui widget html. Beberapa library/package yang membantu mengimplementasikan widget html yang meliputi DT (tabel), network3D (grafik jaringan), leaflet (peta), dan diagrammeR (diagram).

See also  Uji Validitas dan Reliabilitas serta Cara Meningkatkan Hasil Validitasnya

Library rgl

library/packagegrafik 3D yang membantu menghasilkan plot 3D interaktif real-time yang memungkinkan untuk memperbesar grafik, memilih wilayah, dan memutar secara interaktif. rgl mencakup grafik tingkat tinggi.

Data manipulation

Library data table

data.table adalah versi perbaikan dari data.frames yang membantu mengurutkan data dalam R. Melakukan operasi manipulasi data menjadi mudah dengan bantuan data.table — group, update, join, dan subset. Dengan semua operasi terkait ini disimpan bersama, manipulasi data menggunakan R menjadi lebih cepat.

Library readr

readr dikenal sebagai read data text memungkinkan cara yang lebih cepat untuk membaca data persegi panjang seperti tsv (nilai yang dipisahkan tab), fwf (file dengan lebar tetap), delim (nilai yang dibatasi), dan csv (nilai yang dipisahkan koma). Ini sangat ideal untuk menyelesaikan berbagai format data yang ditemukan dari sumber yang berbeda. Ini juga merupakan bagian dari inti rapi, oleh karena itu bahkan menginstal rapi akan bekerja dengan baik.

Library Tidyr

Tidyr membantu dalam membuat data di R lebih clean/bersih. R yang bersih dan rapi sangat penting karena dapatmembantu dalam mengubah format atau tata letak kumpulan data yang ingin Anda gunakan untuk mengonversi data agar rapi.

Library Lubridate

Lubridate adalah alat yang membuat bekerja dengan periode, waktu, dan tanggal lebih mudah. Salah satu cara termudah untuk install lubridate yaitu dengan install  rapiverse yang merupakan depenciesnya.

Library stringr

Butuh manipulasi string yang mudah, kalian butuh library stringr dengan banyak function yang mirip dengan excel untuk urusan string

ref: medium.com

https://palakdatascientist.medium.com/best-recommended-r-libraries-and-packages-for-data-science-in-2021-d272d7b47e62