Text Cleaning dengan Spelling Bahasa Indonesia

3,312 Views

Text Cleaning dengan Spelling Bahasa Indonesia – Text cleaning menggunakan library TM yang telah dibahas sebelumnya mengingatkan bahwa urutan cleaning menjadi sangat penting. Hal ini menjadi maklum kerja bahasa itu berkembang sesuai penutur, terdapat banyak istilah-istilah baru sehingga perbaikan kamus mutlak perlu dilakukan.

Namun urusan stopword dan stemming tidaklah cukup! karena untuk urusan typo/salah ketik tentu stopword dan stemming bukanlah solusi yang tepat! Misalkan kata “tidaaak” tentu akan lolos begitu saja karena didalam stopword berisi kata “tidak”. Oleh hal tersebut butuh yang namanya penghilangan karakter berlebih seperti kata berikut “sayaaa harus bekerjaaaaa kerassss”. Kita akan menggunakan teknik Levenshtein distance.

Contoh aplikasi yang menerapkan spelling bahasa indonesia yaitu https://softscients.com/2021/07/10/release-aplikasi-cleaning-text/

atau langsung saja ke aplikasinya https://mulkan.shinyapps.io/Text_Cleaning

Levenshtein distance

Contents

1 Levenshtein distance
2 Operasi-Operasi pada Levenshtein Distance
3 Penerapan Spelling Bahasa Indonesia
4 Download Kamus KBBI Indonesia
5 Spelling di Office Word

Levenshtein distance adalah sebuah matriks string yang digunakan untuk mengukur perbedaan atau jarak (distance) antara dua string. Nilai distance antara dua string ini ditentukan oleh jumlah minimum dari operasi-operasi perubahan yang diperlukan untuk melakukan transformasi dari suatu string menjadi string lainnya. Operasi-operasi tersebut adalah penyisipan (insertion), penghapusan (deletion), atau penukaran (subtitution). Levenshtein distance merupakan salah satu algoritma yang dapat digunakan dalam mendeteksi kemiripan antara dua string yang berpotensi melakukan tindak plagiarisme

Operasi-Operasi pada Levenshtein Distance

Pada algoritma Levenshtein distance, terdapat tiga macam operasi yang dapat dilakukan yaitu

Operasi Penyisipan Karakter (Insertion): Operasi penyisipan karakter berarti menyisipkan karakter ke dalam suatu string. Contohnya string ‘disrit’ menjadi string ‘diskrit’, dilakukan penyisipan karakter ‘k’ di akhir string. Penyisipan karakter tidak hanya dilakukan di tengah string, namun bisa disisipkan diawal maupun disisipkan diakhir string.
Operasi Penghapusan Karakter (Deletion): Operasi penghapusan karakter dilakukan untuk menghilangkan karakter dari suatu string. Contohnya string ‘matematikan’ karakter terakhir dihilangkan sehingga menjadi string ‘matematika’. Pada operasi ini dilakukan penghapusan karakter ‘n’
Operasi Penukaran Karakter (Subtitution): Operasi penukaran karakter merupakan operasi menukar sebuah karakter dengan karakter lain. Contohnya penulis menuliskan string ‘gimpunan’ menjadi ‘himpunan’. Dalam kasus ini karakter ‘g’ yang terdapat pada awal string, diganti dengan huruf ‘h’

Penerapan Spelling Bahasa Indonesia

Mari kita terapkan, terlebih dahulu kita download xlsx kamus bahasa indonesianya dulu disini. Selanjutnya kita buat function nya.

library(dplyr)
library(openxlsx)

kam = read.xlsx('indonesia.xlsx')

cekKBBI<-function(salah_eja,kam){
  index = adist(salah_eja,kam$KBBI) # edit distance 0
  return (kam$KBBI[which.min(index)])

}

Sekarang kita panggil Text Cleaning dengan Spelling Bahasa Indonesia

salah_eja = 'yuukk'
hasil = cekKBBI(salah_eja,kam)
print(paste(salah_eja,hasil,sep=' dibetulkan menjadi '))

hasilnya

[1] "yuukk dibetulkan menjadi  yuk"

Contoh yang lain

"jalaaan dibetulkan menjadi  jalanan"

"ennaaak dibetulkan menjadi  enak"

Text Cleaning dengan Spelling dengan metode Levenshtein distance akan menghasilkan akurasi tinggi ketika menggunakan kamus KBBI dengan baik.

Download Kamus KBBI Indonesia

Untuk kamus KBBI Indonesia diambil di indonesia atau langsung saja ke http://indodic.com/SpellCheckInstall.html

Spelling di Office Word

Hemm sebenarnya algoritma diatas digunakan untuk text minning untuk dataset yang sangat besar, tapi kalau di aplikasi word office bisa kalian baca disini https://softscients.com/2020/05/18/persiapan-menulis-tugas-akhir/

Ref:

https://blog.paperspace.com/measuring-text-similarity-using-levenshtein-distance/

https://www.statology.org/levenshtein-distance-in-r/

https://www.r-bloggers.com/2019/04/natural-language-processing-in-r-edit-distance/

https://www.kdnuggets.com/2020/10/optimizing-levenshtein-distance-measuring-text-similarity.html

Levenshtein distance

Operasi-Operasi pada Levenshtein Distance

Penerapan Spelling Bahasa Indonesia

Download Kamus KBBI Indonesia

Spelling di Office Word

Leave a Comment Cancel reply