OpenAI dan Google Menranskrip Video dari YouTube untuk Melatih AI

Uli Febriarni
Senin 08 April 2024, 16:10 WIB
OpenAI & Google gunakan video YouTube untuk melatih AI mereka (Sumber: YouTube)

OpenAI & Google gunakan video YouTube untuk melatih AI mereka (Sumber: YouTube)

OpenAI diberitakan telah melatih model kecerdasan buatan (AI) GPT-4 mereka menggunakan hasil transkripsi video yang diambil dari YouTube.

Hal itu terungkap lewat laporan The New York Times, yang menyebut OpenAI, Meta, dan Google sedang berupaya memaksimalkan jumlah data yang dapat mereka berikan ke AI mereka. Dan langkah yang dilakukan ketiga perusahaan ini, berpotensi menjerumuskan mereka ke dalam pelanggaran hak cipta.

Kabar tersebut muncul beberapa hari setelah CEO YouTube, Neal Mohan, mengatakan bahwa dugaan penggunaan video YouTube oleh OpenAI untuk melatih generator teks-ke-video barunya, Sora, akan melanggar kebijakan platform. Kata dia dalam sebuah wawancara dengan Bloomberg Originals, dikutip dari Engadget, Senin (8/4/2024).

Menurut New York Times, OpenAI menggunakan alat pengenalan ucapan Whisper untuk menyalin lebih dari satu juta jam video dan siniar yang tayang di YouTube, yang kemudian digunakan untuk melatih GPT-4.

Presiden OpenAI, Greg Brockman, dilaporkan termasuk di antara orang-orang di tim ini.

Baca Juga: Abon Lele dari Bantul, Oleh-oleh yang Pas untuk Kamu yang Sedang Diet

Juru Bicara Google, Matt Bryant, menyebut dalam aturan Google, pengambilan atau pengunduhan konten YouTube secara tidak sah adalah aktivitas yang tidak diperbolehkan.

Konon perusahaan tersebut tidak mengetahui adanya penggunaan semacam itu oleh OpenAI.

Namun laporan tersebut mengklaim, ada orang-orang di Google yang mengetahui, tetapi tidak mengambil tindakan terhadap OpenAI. Karena Google juga menggunakan video YouTube untuk melatih model AI mereka sendiri.

Google berkilah, mereka hanya melakukan hal ini kepada video dari pembuat konten yang telah menyetujui hal ini.

Baca Juga: Ribuan Konsumen Honda Mengikuti Mudik Bareng ke Yogyakarta dan Semarang

Baca Juga: Harga Berlangganan Layanan Internet Starlink

Sementara itu, Juru bicara OpenAI, Lindsay Held, mengatakan bahwa perusahaan perintis ChatGPT itu menyusun kumpulan data 'unik' untuk setiap modelnya. Guna membantu pemahaman mereka tentang dunia, dan mempertahankan daya saing penelitian globalnya.

Held menambahkan, OpenAI menggunakan berbagai sumber termasuk data yang tersedia untuk umum dan kemitraan, untuk data non-publik.

"Mereka juga sedang mempertimbangkan untuk menghasilkan data sintetisnya sendiri," ungkap OpenAI kepada The Verge melalui surel.

Artikel Times menyebut, pada 2021 OpenAI kehabisan persediaan data yang berguna dan mendiskusikan transkripsi video YouTube, siniar, dan buku audio setelah menghabiskan sumber daya lainnya. Pada saat itu, mereka telah melatih modelnya pada data yang mencakup kode komputer dari Github, database dan konten tugas sekolah dari Quizlet.

Sementara itu CEO YouTube, Neal Mohan, pada pekan ini mengatakan hal serupa, tentang kemungkinan OpenAI menggunakan YouTube dalam melatih model pembuatan video Sora.

Bryant mengatakan, Google mengambil 'tindakan teknis dan hukum' untuk mencegah penggunaan tidak sah tersebut 'bila mereka memiliki dasar hukum atau teknis yang jelas untuk melakukannya.'

Baca Juga: Lynk & Co Memulai Ekspansinya ke Kawasan Asia Tenggara dengan Merambah Filipina

Meta juga sedang menghadapi batasan ketersediaan data pelatihan yang berkualitas. Tim AI di Meta disebut-sebut sedang mendiskusikan penggunaan karya yang memiliki hak cipta 'yang tidak diizinkan', sambil berupaya mengejar OpenAI.

Setelah menelusuri hampir semua buku, esai, puisi, dan artikel berita berbahasa Inggris yang tersedia di internet, tampaknya Meta mempertimbangkan untuk mengambil langkah-langkah seperti membayar lisensi buku atau bahkan membeli penerbit besar secara langsung.

Baca Juga: Hyundai dan KIA Hadirkan Robot Canggih Pengantar Pesanan, Bisa Bawa Barang 10 Kg

Baca Juga: Pitik Dikabarkan Lakukan Perampingan Karyawan

Google, OpenAI, dan dunia pelatihan AI yang lebih luas sedang bergulat dengan data pelatihan yang cepat menguap untuk model mereka, yang akan semakin baik jika semakin banyak data yang mereka serap.

Tulisan The Wall Street Journal pekan ini, berisi tentang perusahaan-perusahaan ini mungkin akan melampaui jumlah konten baru pada 2028.

Solusi yang paling mungkin untuk itu, yakni melatih data sintetis yang dibuat oleh model mereka sendiri. Solusi lainnya, dengan menggunakan apa pun yang mereka temukan, baik mereka memiliki izin atau tidak, walaupun ini adalah sesuatu yang rumit.

Follow Berita Techverse.Asia di Google News
Berita Terkait Berita Terkini
Lifestyle27 Juli 2024, 16:50 WIB

Advanced Hair Care Collection dari Sensatia Botanicals, Tiga Varian Formula untuk Tiga Masalah Rambut

Sensatia Botanicals Advanced Hair Care Collection terdiri dari tiga varian dengan total 12 produk. Setiap varian ditujukan untuk merawat rambut secara spesifik.
Rangkaian produk Sensatia Botanicals Advanced Hair Care Collection (Sumber: Sensatia Botanicals)
Techno27 Juli 2024, 15:51 WIB

ASUS Umumkan Perilisan Hardware Kelas Server dengan Dukungan AMD EPYC 4004

Hardware ASUS kelas server dengan prosesor AMD EPYC™ 4004 menonjolkan performa dan densitas tingkat tinggi.
AMD EPYC™ 4004 (Sumber: Asus)
Techno27 Juli 2024, 14:35 WIB

DeepL Menambahkan Aksara Mandarin Tradisional di Pilihan Bahasa Terjemahan

Dengan kehadiran bahasa Mandarin tradisional ini, jumlah total bahasa yang dimiliki DeepL menjadi 33 bahasa,
(ilustrasi) DeepL menambahkan translasi ke aksara Mandarin tradisional (Sumber: DeepL)
Automotive27 Juli 2024, 13:36 WIB

Delta Electronics Kenalkan Aneka Solusi Pengisian Daya Mobil Listrik Termutakhir

Rangkaian produk dan layanan TEB dapat mempermudah pemasangan dan peningkatan infrastruktur charging station di rumah, gedung, dan ruang publik.
Delta Pamerkan Inovasi Pengisian Daya Mutakhir di GIIAS 2024 (Sumber: Delta)
Automotive27 Juli 2024, 12:35 WIB

Subaru Bawa Produk Edisi Terbatas di GIIAS 2024 & Umumkan Belum Akan Fokus Elektrifikasi

Subaru membawa SUV Subaru ADVENTURE Edition (Crosstrek dan Forester), Subaru BRZ dengan paket STI Performance Parts, dan Subaru WRX M/T dengan EyeSight terbaru.
Subaru BRZ dengan STI Performance Parts (Sumber: Subaru)
Automotive27 Juli 2024, 11:50 WIB

Mejeng di GIIAS 2024, Lebih dari 100 Unit IONIQ 5 N Diborong Konsumen

Angka pembelian mencapai tiga digit itu, berasal dari penjualan melalui website dan tenaga sales Hyundai.
Mejeng di GIIAS 2024, lebih dari 100 unit Hyundai Ioniq 5 N dipesan (Sumber: Hyundai Indonesia)
Automotive26 Juli 2024, 20:36 WIB

Nissan Sakura dan Ariya Mejeng di GIIAS 2024, Begini Spek Mesinnya

Dua mobil listrik ini termasuk kategori BEV.
Nissan Ariya dan Sakura debut di GIIAS 2024. (Sumber: Nissan)
Automotive26 Juli 2024, 19:19 WIB

GIIAS 2024: Isuzu Meluncurkan MU-X dan D-Max Single Cabin 2024

Dua mobil ini mumpuni untuk melintasi berbagai wilayah off-road.
Isuzu mengumumkan MU-X dan D-Max SC di GIIAS 2024. (Sumber: isuzu)
Techno26 Juli 2024, 18:17 WIB

Google Update Play Store dengan Ulasan Aplikasi Bertenaga Kecerdasan Buatan

Pembaruan fitur ini sudah tersedia untuk semua pengguna Android.
Google Play Store kini ditenagai dengan kecerdasan buatan. (Sumber: Google)
Techno26 Juli 2024, 16:48 WIB

Butuh Kolaborasi dan Tindak Lanjut dari Pemerintah untuk Transformasi Digital Indonesia

Indonesia menjadi salah satu destinasi investasi digital yang menggiurkan.
Ilustrasi transformasi digital. (Sumber: freepik)