Google AI Merilis ‘Objectron Dataset’ Yang Terdiri Dari 15.000 Video Beranotasi Dan 4 Juta Gambar Beranotasi

By | January 31, 2021
Print Friendly, PDF & Email
859 Views

Tugas computer vision telah mencapai akurasi luar biasa dengan kemajuan baru dalam model pembelajaran mesin yang dilatih dengan foto. Selain kemajuan ini, pemahaman objek 3D menawarkan potensi besar untuk mendukung berbagai aplikasi yang lebih komprehensif, seperti robotika, augmented reality, otonomi, dan pengambilan gambar.

Pada awal tahun 2020, Google merilis MediaPipe Objectron. Model ini dirancang untuk deteksi objek 3D real-time untuk perangkat seluler. Model ini dilatih pada set data 3D dunia nyata yang dianotasi sepenuhnya dan dapat memprediksi kotak pembatas objek 3D .

Namun, masih merupakan tantangan besar untuk memahami objek dalam 3D karena kurangnya real dataset yang besar dibandingkan dengan tugas 2D. Ada kebutuhan yang kuat akan kumpulan data video objek-sentris untuk memberdayakan komunitas penelitian untuk memajukan pemahaman objek 3D. Ini harus menangkap lebih banyak dari struktur 3D objek dan cocok dengan format data yang digunakan untuk tugas-tugas penglihatan, seperti video atau aliran kamera.

 

Dengan mengingat hal di atas, Google merilis kumpulan data Objectron, mengumpulkan klip video pendek dan objek-sentris yang menangkap objek yang sudah dikenal lebih luas dari berbagai sudut. Setiap klip video disertai dengan metadata sesi augmented reality yang mencakup point-cloud dan pose kamera. Data berisi kotak pembatas 3-Dimensi yang diberi keterangan secara manual untuk setiap objek untuk menggambarkan posisi, orientasi, dan dimensi objek. Kumpulan data terdiri dari sekitar 15.000 klip video beranotasi dengan lebih dari 4 juta gambar beranotasi yang dikumpulkan dari sampel geo.

Solusi Deteksi Objek 3D

Bersamaan dengan kumpulan data tersebut, Google juga membagikan solusi deteksi objek 3D untuk kategori objek berikut – sepatu, kursi, mug, dan kamera. Model dirilis dalam kerangka kerja sumber terbuka Google untuk solusi Machine Learning yang dapat disesuaikan untuk media live dan streaming, yaitu MediaPipe. MediaPipe juga mendukung solusi Machine Learning seperti pelacakan tangan, iris, dan pose tubuh secara real-time di perangkat.

See also  Cara Kerja Recommender Systems

Dalam versi baru ini, arsitektur dua tahap digunakan.

  • Tahap pertama menggunakan model TensorFlow Object Detection dan menemukan crop 2 dimensi dari objek tersebut.
  • Tahap kedua menggunakan gambar yang dipotong dari tahap 1 untuk memperkirakan kotak pembatas 3-Dimensi sekaligus menghitung pemotongan 2-Dimensi objek

 

Github: https://github.com/google-research-datasets/Objectron/

Tutorial: https://github.com/google-research-datasets/Objectron/#tutorials

Source: https://ai.googleblog.com/2020/11/announcing-objectron-dataset.html