5,649 Views
Document Term Matrix merupakan algoritma – Metode perhitungan yang sering kita temui dalam text minning. Document Term Matrix merupakan sebuah representasi numerik dari dokumen dalam corpus. Corpus hanyalah kumpulan dokumen. Dengan kumpulan kata yang “lebih besar” ini,
Melalui Document Term Matrix, kita dapat melakukan analisis yang lebih menarik. Mudah untuk menentukan jumlah kata individual untuk setiap dokumen atau untuk semua dokumen. Misalkan untuk menghitung agregat dan statistik dasar seperti jumlah istilah rata-rata, mean, median, mode, varians, dan deviasi standar dari panjang dokumen, serta dapat mengetahui istilah mana yang lebih sering dalam kumpulan dokumen dan dapat menggunakan informasi tersebut untuk menentukan istilah mana yang lebih mungkin “mewakili” dokumen tersebut.
Penggunaan Document Term Matri adalah cara yang cukup sederhana untuk merepresentasikan dokumen sebagai struktur numerik. Merepresentasikan teks sebagai struktur numerik adalah titik awal umum untuk penambangan teks dan analitik seperti pencarian dan peringkat, membuat taksonomi, kategorisasi, kesamaan dokumen, dan pembelajaran mesin berbasis teks. Misalkan
Read more