Bahasa pemrograman R memainkan peran utama dalam mengelola proyek data science. Setiap profesional data science perlu tetap diperbarui dengan library dan package R jika mereka akan bekerja dengan proyek yang terkait dengan komputasi statistik.
Yah, baik R dan Python banyak digunakan dalam data science, meskipun Python tampaknya mendapatkan lebih banyak popularitas saat ini, tapi tidak perlu kuatir Bahasa pemrograman R juga merupakan alat populer yang digunakan dalam industri data science.
Sementara kita semua mengenal Python dan perpustakaannya, kita akan membahas lebih lanjut perpustakaan R yang paling berguna untuk data science.
R adalah bahasa pemrograman sumber terbuka dan perangkat lunak yang ideal untuk komputasi statistik. Antarmuka yang berbasis script dirancang dan cocok untuk pemodelan data dan algoritma. Bahasa pemrograman terdiri dari lebih dari seratus perpustakaan sehingga paling cocok untuk memecahkan beberapa masalah yang kompleks.
Tanpa basa-basi lagi, kita akan mulai membahas pustaka R yang digunakan secara khusus dalam machine learning/pembelajaran mesin, visualisasi data, dan manipulasi data. Mempelajari perpustakaan/library/package R adalah keuntungan tambahan bagi seorang profesional data science.
Machine learning
Library Caret
library/package caret yang disebut sebagai Classification And Regression Training adalah serangkaian fungsi yang membantu merampingkan setiap proses yang membuat model prediktif. Library/package ini menyusun alat yang dapat digunakan untuk –
- Pra-pemrosesan data
- Tuning / Penyetelan model dengan bantuan resampling
- Estimasi kepentingan variabel
- Pemisahan data
Library mlr
Paket machine learning.pembelajaran mesin terkenal yang menyajikan data ke beberapa regresi dan teknik klasifikasi. Selain itu, mlr dapat digunakan untuk
- Penyetelan/tuning hyperparameter menggunakan teknik optimasi modern yang ideal untuk masalah tunggal dan multi-tujuan.
- Umum dan pengelompokan, contoh pembelajaran khusus yang sensitif terhadap biaya, dan analisis kelangsungan hidup.
- Resampling umum yang meliputi bootstrap, subsampling, dan validasi silang.
Library Random Forest
Setelah membagi pelatihan data dan set pengujian, pengklasifikasi random forest yang ditawarkan oleh paket randomForest dapat digunakan untuk mengembangkan random forest dengan n jumlah tree yang dapat disesuaikan
Library vcd
Pustaka vcd sangat ideal untuk visualisasi yang selanjutnya digunakan untuk data berbasis kategorikal daripada kalian repot coding sana-sini di ggplot2
Library glmnet
metode regresi elastic-net dan laso digunakan melalui validasi silang. Untuk pengoperasian algoritma lainnya, kalian dapat mencoba mlbench, MASS, tree, dan ipred.
Data visualization
Visualisasi merupakan peranan penting yang harus dikuasai oleh pada data science untuk menemukan pola sehingga mendapatkan insight serta menerapkan algoritma yang tepat.
Library ggvis
Library/package ggvis sangat ideal untuk grafik berbasis web yang dibangun bersama dengan tata bahasa grafik. ggvis membantu menggabungkan pemrograman reaksi dalam manipulasi data. Melalui berbasis web, aplikasi bisa lebih interaktif
Library ggplot2
Salah satu library/package yang umum digunakan untuk membuat visualisasi yang indah termasuk ggplot2. Ini memungkinkan kalian menggunakan tata bahasa grafik untuk membangun plot berlapis/overlay yang dapat disesuaikan.
Library widget html
htmlwidgets menawarkan cara yang efisien dan lebih cepat yang dapat membangun interaktif — berbasis javascript menggunakan R melalui widget html. Beberapa library/package yang membantu mengimplementasikan widget html yang meliputi DT (tabel), network3D (grafik jaringan), leaflet (peta), dan diagrammeR (diagram).
Library rgl
library/packagegrafik 3D yang membantu menghasilkan plot 3D interaktif real-time yang memungkinkan untuk memperbesar grafik, memilih wilayah, dan memutar secara interaktif. rgl mencakup grafik tingkat tinggi.
Data manipulation
Library data table
data.table adalah versi perbaikan dari data.frames yang membantu mengurutkan data dalam R. Melakukan operasi manipulasi data menjadi mudah dengan bantuan data.table — group, update, join, dan subset. Dengan semua operasi terkait ini disimpan bersama, manipulasi data menggunakan R menjadi lebih cepat.
Library readr
readr dikenal sebagai read data text memungkinkan cara yang lebih cepat untuk membaca data persegi panjang seperti tsv (nilai yang dipisahkan tab), fwf (file dengan lebar tetap), delim (nilai yang dibatasi), dan csv (nilai yang dipisahkan koma). Ini sangat ideal untuk menyelesaikan berbagai format data yang ditemukan dari sumber yang berbeda. Ini juga merupakan bagian dari inti rapi, oleh karena itu bahkan menginstal rapi akan bekerja dengan baik.
Library Tidyr
Tidyr membantu dalam membuat data di R lebih clean/bersih. R yang bersih dan rapi sangat penting karena dapatmembantu dalam mengubah format atau tata letak kumpulan data yang ingin Anda gunakan untuk mengonversi data agar rapi.
Library Lubridate
Lubridate adalah alat yang membuat bekerja dengan periode, waktu, dan tanggal lebih mudah. Salah satu cara termudah untuk install lubridate yaitu dengan install rapiverse yang merupakan depenciesnya.
Library stringr
Butuh manipulasi string yang mudah, kalian butuh library stringr dengan banyak function yang mirip dengan excel untuk urusan string
ref: medium.com
https://palakdatascientist.medium.com/best-recommended-r-libraries-and-packages-for-data-science-in-2021-d272d7b47e62