Text Cleaning dengan Spelling Bahasa Indonesia

3,297 ViewsText Cleaning dengan Spelling Bahasa Indonesia – Text cleaning menggunakan library TM yang telah dibahas sebelumnya mengingatkan bahwa urutan cleaning menjadi sangat penting. Hal ini menjadi maklum kerja bahasa itu berkembang sesuai penutur, terdapat banyak istilah-istilah baru sehingga perbaikan kamus mutlak perlu dilakukan. Namun urusan stopword dan stemming tidaklah cukup! karena untuk urusan typo/salah … Read more

Text cleaning menggunakan library TM

3,779 ViewsText cleaning menggunakan library TM – Artikel ini kelanjutan dari https://softscients.com/2021/02/21/text-preprocessing/ yang memisahkan function pre procesing tersendiri telah dibahas juga cara membuat Term Document Matrix – https://softscients.com/2021/02/16/membuat-document-term-matrix/ serta cara menghitung Term Frequency – Inverse Document Frequency – https://softscients.com/2021/06/05/cara-menghitung-term-frequency-dan-inverse-document-frequency/ Kesemuanya menggunakan library RtextTools yang merupakan turunan dari library TM, nah artikel yang ini akan lebih … Read more

Cara menghitung term frequency dan inverse document frequency

12,743 ViewsCara menghitung term frequency dan inverse document frequency atau sering disingkat menjadi TF – IDF merupakan nilai yang penting dalam text minning. Nah dalam postingan kali ini, saya akan bahas cara mendapatkan nilai tersebut serta cara menghitung manualnya, tentunya saya anggap kalian sudah baca mengenai document term matrix membuat document term matrix Belajar Statistik … Read more

Masalah RStudio pada Plots dan Graphics Device

4,991 Views

Menggunakan R dengan RStudio untuk melakukan analisis data menjadi bagian yang kesatuan apalagi ditambah dengan ggplot sebagai plot grafiknya. Namun terkadang terjadi sedikit masalah, hal ini biasa terjadi mengingat ketika memanggil plot grafik di R kurang lengkap sehingga grafik R akan keluar terdistorsi atau bagian-bagian tertentu akan hilang (legenda, garis, dll.). Ini umumnya karena ukuran atau dimensi plot tidak dapat mengalokasikan ruang dengan benar untuk komponen grafis. Masalahnya error tersebut muncul sebagai berikut

Read more

Apa itu format TFRecordDataset

2,937 Views

apa itu format TFRecordDataset – merupakan format binary khusus untuk tensorflow, didalam TF Record Dataset akan terdiri dari description (biasanya untuk sharing antar bahasa menggunakan format protobuffer)

Sesuai penjelasan dari https://www.tensorflow.org/api_docs/python/tf/data/TFRecordDataset (kalian gunakan Tensorflow 2.0 keatas ya!)

TF Record Dataset menggunakan parsing dan decoding yang dimiliknya sendiri! Itu artinya kalian wajib melakukan deklarasi untuk melakukan encoding/decoding. Dalam kasus tertentu yang mellibatkan banyak binary file seperti format gambar, serta array dalam bentuk numpy perlu mekanisme tertentu agar bisa dimasukan kedalam TF Record Dataset.

Read more

Protocol Buffers

2,089 ViewsProtocol Buffers – Apakah kalian sering menggunakan beragam bahasa dalam membuat aplikasi? Kalau iya, berarti perlunya sebuah standar format serialisasi data sebagai wadah dalam melakukan sharing. Kalau dalam protokol HTTP, kita terbiasa menggunakan format JSON, XML. Bila kalian menggunakan python yaitu pickle. Namun format pickle hanya bisa dibaca untuk python! Bagaimana bila data tersebut … Read more

Segmentation with Mobile Device

1,676 Views

Segmentation with Mobile Device – Baru-baru ini, tim kami bekerja untuk membuat aplikasi di ponsel pintar dengan sistem android. Aplikasi ini berguna untuk melakukan capture image dan melakukan classification secara onsite sehingga dibutuhkan portable device. Tentu pilihan jatuh terhadap SDK yang sudah teruji, tim kami menggunakan firebase ML sebagai core nya.  Didalam contoh SDK sudah didokumentasi cara menggunakan API tersebut. Pada dasarnya Firebase ML menggunakan tensorflow lite sebagai core engine ML nya. Firebase ML mempunyai banyak API, kalian bisa melihat contoh sebagai  berikut

Read more