Optical Character Recognition dengan Tesseract

By | January 15, 2021
1,692 Views

Ada banyak aplikasi OCR Optical Character Recognition yang beredar saat ini, seperti Omnipage yang sangat powerfull sekali ref: https://www.kofax.com/Products/omnipage?source=nuance. Tapi postingan kali ini, saya tidak bahas produk diatas, tapi lebih menggunakan aplikasi yang bisa kamu pakai untuk menunjang project-project mu bila perlu yaitu  tesseract yang kini sudah mencapai versi 4.0.0; Jangan bingung tesseract seperti di film transformer!

Penulis sering menggunakan tesseract juga koq seperti link dibawah ini untuk mempermudah pengembangan project berbasis OCR; seperti di lansir dari ref: https://en.wikipedia.org/wiki/Tesseract_(software) Tesseract adalah mesin pengenalan karakter untuk berbagai sistem operasi yang bersifat gratis, dirilis di bawah Lisensi Apache dan pengembangan telah disponsori oleh Google sejak tahun 2006. Tesseract dianggap sebagai salah satu mesin OCR open-source paling akurat yang tersedia saat itu. Nah tesseract menggunakan Leptonica Engine ref:  http://www.leptonica.org/. Leptonica yang fokus terhadap pemrosesan gambar dan aplikasi analisis gambar

Kamu pun sangat diuntungkan bila menggunakan Python karena ada wrapper nya juga ref: https://pypi.org/project/pyleptonica/. Lebih lanjut dokumentasi (menggunakan bahasa C) ref: https://tpgit.github.io/UnOfficialLeptDocs/leptonica/index.html. Beberapa pembahasan sebelumnya di blog https://softscients.com/2020/03/30/buku-pengolahan-citra-digital-dengan-python-dan-opencv-ocr-ktp-indonesia/ Tesseract bisa download di https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.00.00dev.exe; jangan lupa pada saat install, download sekalian database indonesianya.

Jangan lupa buat setup di path nya seperti berikut
Nah sekarang, kamu bisa menggunakan CMD atau subprosess menggunakan bahasa pemrograman yang lainnya untuk bisa digunakan.
Gunakan perintah tesseract seperti berikut
tesseract ok.png hasil
Maka akan terdapat file hasil.txt seperti berikut