Open Images Dataset – Dataset bila dialih bahasakan berupa kumpulan data. Dataset sangat berguna sekali kalau kalian bekerja dengan machine learning-deep machine learning. Untuk mengumpulkan dataset menjadi satu kesatuan agar bisa diakses oleh pada developler, maka Google telah menyediakan Open Image Dataset.
Apa itu Open Image Dataset
Contents
Open Image Dataset merupakan kumpulan dataset gambar dari ~ 9 juta URL dengan label yang mencakup lebih dari 6000 kategori. Ukuran file nya 500 gb lebih, sangat banyak sekali. Dengan jutaan sebanyak itu memungkinkan para developer AI menggunakan Open Image Dataset tersebut mengenali beragam objek oleh Komputer berbasis AI.
Lokasi Hosting Open Image Dataset
Open Image Dataset dengan ukuran yang lumayan besar alias habiskan 1
Open Images Dataset bisa kalian peroleh di https://storage.googleapis.com/openimages/web/download.html
Ketika saya sedang mencoba algoritma dari Faster R-CNN membutuhkan banyak sekali data annotasi gambar. Oiya untuk download sebesar itu, kalian tidak perlu kuatir, caranya mudah koq. Sesuai dengan petunjuk dokumentasi di https://github.com/cvdfoundation/open-images-dataset#download-images-with-bounding-boxes-annotations
Kalian cukup install aws-cli yang bisa di download di https://aws.amazon.com/cli/. Setelah install, kalian cukup panggil saja aws via command prompt
aws
Oiya aplikasi tersebut bersifat CLI ya alias command line interface, caranya mudah sekali digunakan, mirip seperti aplikasi wget, saya sarankan untuk download wget disini saja karena langsung siap pakai.
Cara mengunakan aws untuk Download Open Images Dataset sangat mudah sekali, berikut cara menggunakannya
Download Sekaligus
Open Dataset Image berukuran sangat besar sekali karena terdiri dari 3 jenis data yaitu train, validation, serta test. Untuk download sekaligus yaitu kalian bisa download train set, validation set, test set dengan perintah sebagai berikut
- aws s3 –no-sign-request sync s3://open-images-dataset/train [target_dir/train] (513GB)
- aws s3 –no-sign-request sync s3://open-images-dataset/validation [target_dir/validation] (12GB)
- aws s3 –no-sign-request sync s3://open-images-dataset/test [target_dir/test] (36GB)
misalkan saya sudah punya direktori khusus di D:/train, maka perintah yang digunakan (jangan lupa buka command prompnya ya)
aws s3 --no-sign-request sync s3://open-images-dataset/train D:/train
Download perbagian
Tentu untuk download ratusan gb butuh waktu berjam-jam, oleh karena itu, kalian bisa melakukan split dengan perintah berikut
- aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_0.tar.gz [target_dir] (46G)
- aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_1.tar.gz [target_dir] (34G)
- aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_2.tar.gz [target_dir] (33G)
- aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_3.tar.gz [target_dir] (32G)
- aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_4.tar.gz [target_dir] (31G)
- aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_5.tar.gz [target_dir] (31G)
- aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_6.tar.gz [target_dir] (32G)
- aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_7.tar.gz [target_dir] (31G)
- aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_8.tar.gz [target_dir] (31G)
- aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_9.tar.gz [target_dir] (31G)
- aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_a.tar.gz [target_dir] (31G)
- aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_b.tar.gz [target_dir] (31G)
- aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_c.tar.gz [target_dir] (31G)
- aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_d.tar.gz [target_dir] (31G)
- aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_e.tar.gz [target_dir] (28G)
- aws s3 –no-sign-request cp s3://open-images-dataset/tar/train_f.tar.gz [target_dir] (28G)
- aws s3 –no-sign-request cp s3://open-images-dataset/tar/validation.tar.gz [target_dir] (12G)
- aws s3 –no-sign-request cp s3://open-images-dataset/tar/test.tar.gz [target_dir] (36G)
Silahkan kalian lakukan cara kedua saja, biar nggak manyun nungguin download segede itu jadi bisa dicicil, kecuali punya jaringan internet kenceng
Ref