Open Images Dataset untuk para developer AI

By | June 11, 2021
Print Friendly, PDF & Email
2,544 Views

Open Images Dataset – Dataset bila dialih bahasakan berupa kumpulan data. Dataset sangat berguna sekali kalau kalian bekerja dengan machine learning-deep machine learning. Untuk mengumpulkan dataset menjadi satu kesatuan agar bisa diakses oleh pada developler, maka Google telah menyediakan Open Image Dataset.

Apa itu Open Image Dataset

Open Image Dataset merupakan kumpulan dataset gambar  dari ~ 9 juta URL dengan label yang mencakup lebih dari 6000 kategori. Ukuran file nya 500 gb lebih, sangat banyak sekali. Dengan jutaan sebanyak itu memungkinkan para developer AI menggunakan Open Image Dataset tersebut mengenali beragam objek oleh Komputer berbasis AI.

Lokasi Hosting Open Image Dataset

Open Image Dataset dengan ukuran yang lumayan besar alias habiskan 1

Open Images Dataset bisa kalian peroleh di https://storage.googleapis.com/openimages/web/download.html

Ketika saya sedang mencoba algoritma dari Faster R-CNN membutuhkan banyak sekali data annotasi gambar. Oiya untuk download sebesar itu, kalian tidak perlu kuatir, caranya mudah koq. Sesuai dengan petunjuk dokumentasi di https://github.com/cvdfoundation/open-images-dataset#download-images-with-bounding-boxes-annotations

Kalian cukup install aws-cli yang bisa di download di https://aws.amazon.com/cli/. Setelah install, kalian cukup panggil saja aws via command prompt

aws

Oiya aplikasi tersebut bersifat CLI ya alias command line interface, caranya mudah sekali digunakan, mirip seperti aplikasi wget, saya sarankan untuk download wget disini saja karena langsung siap pakai.

Cara mengunakan aws untuk Download Open Images Dataset sangat mudah sekali, berikut cara menggunakannya

Download Sekaligus

Open Dataset Image berukuran sangat besar sekali karena terdiri dari 3 jenis data yaitu train, validation, serta test. Untuk download sekaligus yaitu kalian bisa download train set, validation set, test set dengan perintah sebagai berikut

  • aws s3 –no-sign-request sync s3://open-images-dataset/train [target_dir/train] (513GB)
  • aws s3 –no-sign-request sync s3://open-images-dataset/validation [target_dir/validation] (12GB)
  • aws s3 –no-sign-request sync s3://open-images-dataset/test [target_dir/test] (36GB)
See also  VLFeat collection of vision algorithms for GNU Octave

misalkan saya sudah punya direktori khusus di D:/train, maka perintah yang digunakan (jangan lupa buka command prompnya ya)

aws s3 --no-sign-request sync s3://open-images-dataset/train D:/train

Download perbagian

Tentu untuk download ratusan gb butuh waktu berjam-jam, oleh karena itu, kalian bisa melakukan split dengan perintah berikut

  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_0.tar.gz [target_dir] (46G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_1.tar.gz [target_dir] (34G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_2.tar.gz [target_dir] (33G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_3.tar.gz [target_dir] (32G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_4.tar.gz [target_dir] (31G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_5.tar.gz [target_dir] (31G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_6.tar.gz [target_dir] (32G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_7.tar.gz [target_dir] (31G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_8.tar.gz [target_dir] (31G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_9.tar.gz [target_dir] (31G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_a.tar.gz [target_dir] (31G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_b.tar.gz [target_dir] (31G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_c.tar.gz [target_dir] (31G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_d.tar.gz [target_dir] (31G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_e.tar.gz [target_dir] (28G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_f.tar.gz [target_dir] (28G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/validation.tar.gz [target_dir] (12G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/test.tar.gz [target_dir] (36G)

Silahkan kalian lakukan cara kedua saja, biar nggak manyun nungguin download segede itu jadi bisa dicicil, kecuali punya jaringan internet kenceng

Ref

https://towardsdatascience.com/how-to-easily-download-googles-open-images-dataset-for-your-ai-apps-db552a82fc6