Mempercepat query jutaan basis data menggunakan agregasi

Ketika penulis sedang mengolah data record yang hanya terdiri dari ribuan data, maka cara seperti masking di data frame terkadang dilakukan menggunakan looping, namun tidak jika data yang digunakan sudah mencapai ratusan ribu bahkan jutaan record. Bisa butuh waktu bermenit-menit untuk melakukan looping, sehingga hal ini harus dihindari untuk mencegah bottleneck.  Fungsi agregasi seperti sum(), mean(), median(), min(), and max() melibatkan sebuah key yang mempecepat proses hanya sekian detik saja. Tentu dasar data frame harus kalian pelajari dulu disini.  Perhatikan data frame berikut

Read More

Python Bekerja dengan Format Date Time untuk mempermudah transaksi

Bila kalian sedang bekerja dengan basis data yang melibatkan tanggal, maka akan banyak sekali format tanggal yang beredar seperti berikut

  1. 11-Feb-13
  2. 4/30/13
  3. 4/30/2013
  4. 04/30/2013
  5. 04/02/2013

Atau format indonesia yaitu

  1. 31/03/2020
  2. 1/3/2018

Bila kita hanya menggunakan data diatas sebagai format string saja, maka akan sangat sudah melakukan query data, misalkan saja menghitung jumlah hari pada rentang waktu tertentu

  1. Berapa jumlah hari dari 1 januari 2020 sampai dengan 9 juni 2020?
  2. getMonth(), getDay(), getYear() pada suatu format tanggal

Read More

Library Pengolah Jutaan Data – Big Data

Dalam era big data yang mempunyai jutaan record pada sebuah data transaksi membutuhkan perangkat dan software khusus karena data tersebut bila diload dalam memory RAM akan langsung out of memory.  Nah kalau kalian membaca buku yang saya tulis ada 2 library yang khusus untuk menangani sebuah data terstruktur yaitu numpy dan pandas. Pandas sudah sangat terkenal karena kemudahan dan kesederhanaan sintaksnya. Namun bila mengolah data yang terdiri dari jutaan record maka tidak begitu bagus. Ada beberapa pilihan yang bisa kalian gunakan seperti dask dan  vaex. Read More

Mengapa hasil nilai eigen berbeda antara matlab dan numpy?

Sinopsis

Bila kalian bekerja dengan principal component analyst (PCA ) dialih bahasakan menjadi analisis komponen utama (AKU) maka akan ada perhitungan sebuah eigen value dan eigen vector. Tools yang sering digunakan untuk perhitungan PCA biasanya menggunakan matlab ataupun Python-Numpy. Nah pembahasan kali ini mengenai hasil yang didapatkan mengapa berbeda antara matlab dan python-numpy. Read More

Buku Belajar Machine Learning dengan Python – Neural Network Backpropagation

Sinopsis

Penggunaan Machine Learning  dengan algoritma neural network backpropagation yang melibatkan seperti arsitektur diatas berupa bias sangat lah berpengaruh secara signifikan terhadap proses pelatihan yaitu epoch dan hasil error yang didapat. Kalian bisa menggunakan library pybrain dalam melakukan simulasi ini, sekedar kalian tahu, neural network backpropagation sangat cocok untuk diterapkan dalam kasus nonlinear, secara sederhana kasus yang akan kita temui yaitu logika XOR. Buku ini secara teknis tidak membahas cara install dan dasar-dasar pemrograman python, tapi kalau kalian mau belajar dasar-dasarnya, bisa beli Buku Belajar Mudah Python dengan Package Opensource.

 

Kalau kalian belum paham atau ingin mengajukan pertanyaan, kirim saja email kesini, jangan lupa ya untuk Subcribe
 

Read More