149 Views

Open Images Dataset merupakan kumpulan dataset gambar  dari ~ 9 juta URL dengan label yang mencakup lebih dari 6000 kategori. Ukuran file nya 500 gb lebih, sangat banyak sekali. Open Images Dataset bisa kalian peroleh di https://storage.googleapis.com/openimages/web/download.html

Ketika saya sedang mencoba algoritma dari Faster R-CNN membutuhkan banyak sekali data annotasi gambar. Oiya untuk download sebesar itu, kalian tidak perlu kuatir, caranya mudah koq. Sesuai dengan petunjuk dokumentasi di https://github.com/cvdfoundation/open-images-dataset#download-images-with-bounding-boxes-annotations

Kalian cukup install aws-cli yang bisa di download di https://aws.amazon.com/cli/. Setelah install, kalian cukup panggil saja aws via command prompt

aws

Oiya aplikasi tersebut bersifat CLI ya alias command line interface, caranya mudah sekali digunakan, mirip seperti aplikasi wget, saya sarankan untuk download wget disini saja karena langsung siap pakai.

Cara mengunakan aws untuk Download Open Images Dataset sangat mudah sekali, berikut cara menggunakannya

Download Sekaligus

Open Dataset Image berukuran sangat besar sekali karena terdiri dari 3 jenis data yaitu train, validation, serta test. Untuk download sekaligus yaitu kalian bisa download train set, validation set, test set dengan perintah sebagai berikut

  • aws s3 –no-sign-request sync s3://open-images-dataset/train [target_dir/train] (513GB)
  • aws s3 –no-sign-request sync s3://open-images-dataset/validation [target_dir/validation] (12GB)
  • aws s3 –no-sign-request sync s3://open-images-dataset/test [target_dir/test] (36GB)

misalkan saya sudah punya direktori khusus di D:/train, maka perintah yang digunakan (jangan lupa buka command prompnya ya)

aws s3 --no-sign-request sync s3://open-images-dataset/train D:/train

Download perbagian

Tentu untuk download ratusan gb butuh waktu berjam-jam, oleh karena itu, kalian bisa melakukan split dengan perintah berikut

  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_0.tar.gz [target_dir] (46G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_1.tar.gz [target_dir] (34G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_2.tar.gz [target_dir] (33G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_3.tar.gz [target_dir] (32G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_4.tar.gz [target_dir] (31G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_5.tar.gz [target_dir] (31G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_6.tar.gz [target_dir] (32G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_7.tar.gz [target_dir] (31G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_8.tar.gz [target_dir] (31G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_9.tar.gz [target_dir] (31G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_a.tar.gz [target_dir] (31G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_b.tar.gz [target_dir] (31G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_c.tar.gz [target_dir] (31G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_d.tar.gz [target_dir] (31G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_e.tar.gz [target_dir] (28G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_f.tar.gz [target_dir] (28G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/validation.tar.gz [target_dir] (12G)
  • aws s3 –no-sign-request cp s3://open-images-dataset/tar/test.tar.gz [target_dir] (36G)

Silahkan kalian lakukan cara kedua saja, biar nggak manyun nungguin download segede itu jadi bisa dicicil, kecuali punya jaringan internet kenceng

Ref

https://towardsdatascience.com/how-to-easily-download-googles-open-images-dataset-for-your-ai-apps-db552a82fc6

Leave a Reply

Your email address will not be published. Required fields are marked *

4 + 5 =