Cara Simple Membuat WordCloud Artikel

By | April 11, 2023
517 Views

Wordcloud adalah representasi visual dari kata-kata yang paling sering muncul dalam sebuah teks atau dokumen. Dalam sebuah wordcloud, kata-kata yang lebih sering muncul akan ditampilkan dalam ukuran yang lebih besar dan lebih menonjol daripada kata-kata yang lebih jarang muncul. Biasanya, wordcloud digunakan untuk memberikan gambaran cepat tentang topik atau isu tertentu dalam sebuah teks atau untuk menyoroti tema atau pola penting yang muncul dalam data atau teks yang diolah. Wordcloud dapat dibuat menggunakan berbagai alat dan program online dan offline, termasuk Python dan R, serta aplikasi khusus wordcloud online.

Untuk membuat wordcloud sebenarnya sangat mudah, tahapanya secara umum yaitu membersihkan text dari tanda baca/angka/simbol. Kemudian membuat token yaitu memisahkan kata perkata, selanjunya membuat stemming yang berguna untuk membuang imbuhan sehingga didapatkan kata dasarnya serta langkah terakhir membuang kata tidak perlu /stopword. Library NLTK lebih mudah digunakan daripada Spacy untuk NLP, kalian bisa baca Algoritma Sederhana untuk meringkas isi Artikel

Library yang kita gunakan yaitu NLTK, sastrawi, beautifulsoup, dan wordcloud. Sebagai contoh artikel yang akan kita buat wordcloud yaitu dari website kompas.com, nanti kita akan memanfaatkan beautisoup sebagai scraping nya. Langung saja, kita import semua library yang kita butuhkan

from Sastrawi.Stemmer.StemmerFactory import StemmerFactory
from Sastrawi.StopWordRemover.StopWordRemoverFactory import StopWordRemoverFactory

import re
import nltk

from fake_useragent import UserAgent
from bs4 import BeautifulSoup
import requests
import string
from wordcloud import WordCloud, STOPWORDS, ImageColorGenerator
from matplotlib import pyplot as plt

Selanjutnya kita akan membuat function untuk scraping isi website kompas.com

#buat scraping isi website kompas.com
def get_content(url):
    ua = UserAgent()
    req = requests.get(url,ua.random)
    soup = BeautifulSoup(req.content, 'html.parser')
    content = soup.find_all("div", {"class": "read__content"})[0].text #karena isinya hanya 1 saja
    
    
    #untuk membuang kalimat yang tidak perlu
    isi_artikel = " "
    for i, paragraf in enumerate(content.split("\n")):
        deteksi = re.findall('baca juga|dapatkan update berita pilihan',paragraf.lower())
        if len(deteksi)==0:
            isi_artikel+="\n"+paragraf
    return isi_artikel

Agar lebih mudah, kita juga buat function untuk membuang kata yang tidak perlu dalam kalimat/stopword

#untuk remove stopword
def remove(kalimat,stopword):
    result = ""
    for kata in nltk.word_tokenize(kalimat.lower()):
        if kata not in stopword:
            result+=kata+" "
    return result

Saatnya kita lakukan scraping untuk URL berikut ini

url = "https://tekno.kompas.com/read/2023/04/11/19150037/melihat-isi-pabrik-samsung-di-gumi-korsel-tempat-galaxy-s23-ultra-dirakit-dan?page=all"

teks = get_content(url)

Kemudian kita bersihkan dari number/simbol/tanda baca

teks2 = re.sub(r"\d+", "", teks)
teks3 = teks2.translate(str.maketrans("","",string.punctuation))

Langkah selanjutnya kita akan memanfaatkan library sastrawi untuk stemming dan wordlist stopword yang sudah ada.

factory = StemmerFactory()
stemmer = factory.create_stemmer()
stop_factory = StopWordRemoverFactory()
#tambahkan stopworld yang belum ada 
stopword = stop_factory.get_stop_words()+["adalah","kompascom"]

Selanjutnya isi artikel tersebut dipecah-pecah menjadi kalimat dan lakukan proses stemming dan remove stopword

kalimat = nltk.sent_tokenize(teks3)
isi_artikel =""
for i in range(0,len(kalimat)):
    kalimat[i]=remove(stemmer.stem(kalimat[i].lower()),stopword)
    isi_artikel+=kalimat[i]+" "

Kita bisa melihat hasil artikel sebelum dan sesudah dilakukan proses tersebut diatas

KOMPAS.com – Selain ke kantor pusat Samsung Digital City, KompasTekno juga berkunjung ke pabrik Samsung yang dinamai “Smart City” di Gumi, Korea Selatan. Ini merupakan kesempatan langka karena kami bisa masuk dan melihat langsung line production (lini produksi) Samsung. Di sana, kami bisa melihat karyawan Samsung dan banyak mesin dan robot sedang memproduksi komponen dan merakit HP Samsung. Sebelum melihat lini produksi, kami mampir terlebih dahulu ke Smart Gallery di Gedung A Smart City. Di sana, kami bisa melihat display 2.300 model HP yang pernah dibikin Samsung. Ribuah HP itu dipajang di etalase kaca yang terletak di kanan dan kiri sebuah lorong. Selain itu, kami juga bisa melihat rekaman iklan-iklan HP Samsung yang pernah dirilis, termasuk iklan HP lawas Samsung Magic Hole yang dibintangi oleh aktor Lee Min Ho. KOMPAS.com/ Lulu C. Mahendra Sebagian dari 2.300 model HP Samsung dipajang di etalase kaca.Di Smart Gallery, kami juga bisa melihat display isi jeroan dua ponsel flagship Samsung Galaxy S23 Ultra dan Galaxy Z Flip 4 ketika dibongkar. Mulai dari chipset, komponen kamera, Printed Circuit Board (PCB), komponen segel anti-air, dan lainnya. Sayangnya, bagian isi jeroan HP Samsung tersebut tidak bisa didokumentasikan karena bersifat rahasia. Banyak robot dan mesin otomatis Setelah berkeliling di Smart Gallery, kami pindah ke Gedung C – Smart City. Di sinilah line production Samsung berada. Kami diajak berkeliling dengan dipandu oleh pegawai Samsung. Di awal, kami diajak keliling ke tempat pembuatan Printed Circuit Borad (PCB) yang dikerjakan sepenuhnya secara otomatis oleh robot. Selanjutnya, kami diajak berkeliling ke tempat perakitan HP Samsung. Di depan pintu masuk, kami bisa melihat jumlah unit HP Samsung yang sudah dirakit sejak 1988 hingga sekarang. Sebagai bocoran, jumlahnya sudah mencapai miliaran unit dan terus bertambah setiap detiknya. Saat menginjakkan kami ke dalam ruangan, kami bisa melihat ruangan yang sangat luas lengkap dengan mesin otomatis dan robot yang sibuk merakit ponsel. Ada pula beberapa karyawan Samsung yang berjaga dan mengawasi operasi mesin dan robot. Waktu kami datang, line production Samsung di Gumi ini sedang merakit Samsung Galaxy S23 series, utamanya Galaxy S23 Ultra. Di sana, kami melihat berbagai komponen Galaxy S23 Ultra seperti layar, kamera, hingga casing belakang (back cover) disatukan. dok. Samsung Robot menyatukan sampul belakang (back cover) Galaxy S23 Ultra di pabrik Samsung, Gumi, Korea Selatan.Setelah dirakit, Galaxy S23 Ultra memasuki tahap pengujian. Pengujian mencakup semua fungsi HP. Mulai dari layar, kamera, performa PCB, ketahanan terhadap air, NFC, fingerprint, port pengisi daya, audio, sinyal 3G/4G/5G, stress test dengan temperatur tinggi, konsumsi daya, face unlock, dan masih banyak lainnya. Pengujian ini dilakukan selama 24 jam non-stop. Makanya mayoritas dilakukan oleh robot secara otomatis. Namun terkadang, ada unit HP yang tetap harus dites kembali oleh penguji manusia. Tujuannya untuk memastikan hp tidak cacat dan layak jual. Selain itu, software HP juga diuji. Kalo ditemukan error, defender harus melakukan update firmware. Di pabrik Smart City di Gumi, Korea Selatan, Samsung juga menguji 90 persen dari 10.000 aplikasi pihak ketiga yang ada di HP samsung. Tujuannya, agar samsung bisa meningkatkan pengalaman pengguna serta langsung melaporkan ke pemilik aplikasi bila ditemukan error. dok. Samsung Mesin otomatis tengah menguji layar Samsung agar terbebas dari gelembung udara.Setelah pengujian selesai, ponsel kemudian dimasukkan ke dalam kotak penjualan. Proses ini juga dilakukan oleh robot. Selanjutnya, robot juga akan memasukkan 25-50 unit HP ke dalam kotak yang lebih besar untuk siap dikirimkan ke konsumen Samsung di seluruh dunia. Menurut informasi dari staf di sana, line production Samsung di Gumi ini paling tidak dirombak 2 kali dalam setahun. Pada awal tahun, line production digunakan untuk merakit HP Galaxy S series model baru seperti Galaxy S23 yang meluncur Februari lalu. Kemudian di pertengahan tahun, line production akan digunakan untuk merakit ponsel lipat model baru dari seri Galaxy Z Flip/Fold. Robot bertangan untuk uji Galaxy Watch dok. Samsung Robot bertangan lainnya yang bertugas menguji fitur dan fungsi perangkat Samsung Galaxy Watch di Gumi, Korea Selatan.Tak hanya HP, di gedung ini pula Galaxy Watch diuji. Pengujian dilakukan oleh robot yang memiliki tangan layaknya manusia. Perangkat Galaxy Watch terpasang di tangan robot tersebut. Robot akan menggerakkan tangannya untuk menirukan gerakan manusia ketika menggunakan jam tangan pintar. Gerakannya seperti mengangkat tangan seolah melihat jam, tangan yang berayun ketika manusia sedang jalan, dan gerakan lainnya. Dengan gerakan tersebut, Galaxy Watch diuji apakah bisa mendeteksi gerakan sehingga bisa menampilkan informasi jumlah langkah, durasi aktivitas, dan lainnya. Di Samsung Smart City ini pula Samsung melakukan pengujian untuk Galaxy Buds dan laptop Galaxy Book. Beberapa model ponsel generasi sebelumnya juga diuji untuk menemukan potensi masalah yang mungkin muncul.

Setelah dilakukan proses

kantor pusat samsung digital city kunjung pabrik samsung nama smart city gum korea selatan rupa sempat langka masuk lihat langsung line production lini produksi samsung sana lihat karyawan samsung banyak mesin robot sedang produksi komponen rakit hp samsung lihat lini produksi mampir lebih smart gallery gedung a smart city sana lihat display model hp pernah bikin samsung ribuah hp pajang etalase kaca letak kanan kiri buah lorong lihat rekam iklaniklan hp samsung pernah rilis masuk iklan hp lawas samsung magic hole bintang aktor lee min ho lulu c mahendra model hp samsung pajang etalase kacadi smart gallery lihat display isi jeroan ponsel flagship samsung galaxy s ultra galaxy z flip bongkar mulai chipset komponen kamera printed circuit board pcb komponen segel antiair sayang isi jeroan hp samsung sebut dokumentasi sifat rahasia banyak robot mesin otomatis keliling smart gallery pindah gedung c smart city sini line production samsung ajak keliling pandu pegawai samsung awal ajak keliling tempat buat printed circuit borad pcb kerja sepenuh cara otomatis robot lanjut ajak keliling tempat rakit hp samsung depan pintu masuk lihat jumlah unit hp samsung rakit sejak hingga sekarang bagai bocor jumlah capai miliar unit terus tambah tiap detik injak ruang lihat ruang sangat luas lengkap mesin otomatis robot sibuk rakit ponsel beberapa karyawan samsung jaga awas operasi mesin robot waktu datang line production samsung gum sedang rakit samsung galaxy s series utama galaxy s ultra sana lihat bagai komponen galaxy s ultra layar kamera hingga casing belakang back cover satu dok samsung robot satu sampul belakang back cover galaxy s ultra pabrik samsung gum korea selatansetelah rakit galaxy s ultra pasuk tahap uji uji cakup semua fungsi hp mulai layar kamera performa pcb tahan hadap air nfc fingerprint port isi daya audio sinyal ggg stress test temperatur tinggi konsumsi daya face unlock banyak uji laku lama jam nonstop makanya mayoritas laku robot cara otomatis terkadang unit hp tetap tes uji manusia tuju hp cacat layak jual software hp uji kalo temu error defender laku update firmware pabrik smart city gum korea selatan samsung uji persen aplikasi pihak tiga hp samsung tuju samsung tingkat alam langsung lapor milik aplikasi bila temu error dok samsung mesin otomatis tengah uji layar samsung bebas gelembung udarasetelah uji selesai ponsel kemudian masuk kotak jual proses laku robot lanjut robot masuk unit hp kotak lebih besar siap kirim konsumen samsung seluruh dunia turut informasi staf sana line production samsung gum paling rombak kali tahun awal tahun line production rakit hp galaxy s series model baru galaxy s luncur februari lalu kemudian tengah tahun line production rakit ponsel lipat model baru seri galaxy z flipfold robot tangan uji galaxy watch dok samsung robot tangan tugas uji fitur fungsi perangkat samsung galaxy watch gum korea selatantak hp gedung galaxy watch uji uji laku robot milik tangan layak manusia perangkat galaxy watch pasang tangan robot sebut robot gerak tangan tiru gera manusia jam tangan pintar gera angkat tangan olah lihat jam tangan ayun manusia sedang jalan gera gera sebut galaxy watch uji deteksi gera tampil informasi jumlah langkah durasi aktivitas samsung smart city samsung laku uji galaxy buds laptop galaxy book beberapa model ponsel generasi uji temu potensi masalah mungkin muncul

Yuk sekarang kita akan membuat wordcloud nya

wordcloud = WordCloud().generate(isi_artikel)
plt.figure()
plt.imshow(wordcloud, interpolation='bilinear')
plt.axis("off")
plt.show()

hasilnya