Apakah Penggunaan Konten Web ChatGPT Adil?

Apakah Penggunaan Konten Web ChatGPT Adil? Beberapa orang merasa tidak nyaman dengan cara ChatGPT menggunakan konten web mereka untuk melatih dan belajar

Tips :

Ada cara untuk memblokir konten Anda agar tidak digunakan untuk melatih model bahasa besar seperti ChatGPT

Pakar Hukum Kekayaan Intelektual mengatakan bahwa teknologi telah melampaui kemampuan hukum hak cipta untuk mengikutinya

Seorang pakar pemasaran penelusuran mempertanyakan apakah penggunaan konten Internet oleh AI tanpa izin adalah adil

Model Bahasa Besar (Large Language Models/LLM) seperti ChatGPT berlatih menggunakan berbagai sumber informasi, termasuk konten web. Data ini menjadi dasar rangkuman dari konten tersebut dalam bentuk artikel yang dibuat tanpa atribusi atau manfaat bagi mereka yang menerbitkan konten asli yang digunakan untuk melatih ChatGPT.

Mesin pencari mengunduh konten situs web (disebut crawling dan pengindeksan) untuk memberikan jawaban dalam bentuk tautan ke situs web.

Apakah Penggunaan Konten Web ChatGPT Adil ?

Penerbit situs web memiliki kemampuan untuk memilih untuk tidak membiarkan konten mereka dirayapi dan diindeks oleh mesin pencari melalui Robots Exclusion Protocol, yang biasa disebut sebagai Robots.txt.

Robots Exclusions Protocol bukanlah standar Internet resmi, namun merupakan salah satu yang dipatuhi oleh perayap web yang sah.

Haruskah penerbit web dapat menggunakan protokol Robots.txt untuk mencegah model bahasa yang besar menggunakan konten situs web mereka?

Model Bahasa Besar Menggunakan Konten Situs Web Tanpa Atribusi

Beberapa orang yang terlibat dalam pemasaran penelusuran merasa tidak nyaman dengan bagaimana data situs web digunakan untuk melatih mesin tanpa memberikan apa pun sebagai imbalannya, seperti ucapan terima kasih atau lalu lintas.

Hans Petter Blindheim (profil LinkedIn), Pakar Senior di Curamando membagikan pendapatnya

Hans Petter berkomentar:

“Ketika seorang penulis menulis sesuatu setelah mempelajari sesuatu dari artikel di situs Anda, mereka akan lebih sering menautkan ke karya asli Anda karena hal ini menawarkan kredibilitas dan sebagai bentuk kesopanan profesional.

Hal ini disebut dengan kutipan.

Tetapi skala di mana ChatGPT mengasimilasi konten dan tidak memberikan apa pun kembali membedakannya dari Google dan orang-orang.

Sebuah situs web umumnya dibuat dengan tujuan bisnis.

Google membantu orang menemukan konten, menyediakan lalu lintas, yang saling menguntungkan.

Namun, bukan berarti model bahasa besar meminta izin kepada Anda untuk menggunakan konten Anda, mereka hanya menggunakannya dalam arti yang lebih luas daripada yang diharapkan saat konten Anda diterbitkan.

Dan jika model bahasa AI tidak menawarkan nilai sebagai imbalannya – mengapa penerbit harus mengizinkan mereka merayapi dan menggunakan konten?

Apakah penggunaan konten Anda oleh mereka memenuhi standar penggunaan yang adil?

Ketika ChatGPT dan model ML/AI milik Google melatih konten Anda tanpa izin, memutar apa yang dipelajarinya di sana dan menggunakannya sembari menjauhkan orang dari situs web Anda – bukankah seharusnya industri dan juga pembuat undang-undang mencoba mengambil kembali kendali atas Internet dengan memaksa mereka untuk beralih ke model “ikut serta”?”

Kekhawatiran yang diungkapkan Hans Petter cukup beralasan.

Mengingat betapa cepatnya teknologi berkembang, haruskah hukum mengenai penggunaan yang adil dipertimbangkan kembali dan diperbarui?

John Rizvi, seorang Pengacara Paten Terdaftar (profil LinkedIn) yang bersertifikat Hukum Kekayaan Intelektual, apakah undang-undang hak cipta Internet sudah ketinggalan zaman.

John menjawab:

“Ya, tanpa diragukan lagi.

Salah satu perdebatan utama dalam kasus-kasus seperti ini adalah fakta bahwa hukum pasti berkembang jauh lebih lambat daripada teknologi.

Pada tahun 1800-an, hal ini mungkin tidak terlalu menjadi masalah karena perkembangannya relatif lambat sehingga mesin hukum kurang lebih memiliki alat untuk mengimbanginya.

Namun, saat ini, kemajuan teknologi yang sangat pesat telah jauh melampaui kemampuan hukum untuk mengikutinya.

Ada terlalu banyak kemajuan dan terlalu banyak bagian yang bergerak sehingga hukum tidak dapat mengikutinya.

Karena saat ini dibentuk dan dikelola, sebagian besar oleh orang-orang yang hampir tidak ahli di bidang teknologi yang kita bahas di sini, hukum tidak dilengkapi atau disusun dengan baik untuk mengimbangi teknologi … dan kita harus mempertimbangkan bahwa ini bukan hal yang sepenuhnya buruk.

Jadi, di satu sisi, ya, hukum Kekayaan Intelektual memang perlu berevolusi jika memang bertujuan, apalagi berharap, untuk mengimbangi kemajuan teknologi.

Masalah utamanya adalah menemukan keseimbangan antara mengikuti perkembangan berbagai bentuk teknologi yang dapat digunakan sambil menahan diri dari penyensoran yang terang-terangan atau penyensoran langsung demi keuntungan politik yang diselimuti oleh niat baik.

Hukum juga harus berhati-hati untuk tidak membuat undang-undang yang melarang penggunaan teknologi secara luas sehingga mencekik setiap potensi manfaat yang dapat diperoleh darinya.

Anda dapat dengan mudah menabrak hukum dan sejumlah kasus yang telah diselesaikan yang membatasi bagaimana, mengapa, dan sejauh mana kekayaan intelektual dapat digunakan dan oleh siapa.

Dan mencoba membayangkan setiap penggunaan teknologi yang mungkin terjadi bertahun-tahun atau beberapa dekade sebelum kerangka kerja ada untuk membuatnya layak atau bahkan mungkin akan menjadi tugas bodoh yang sangat berbahaya.

Dalam situasi seperti ini, hukum tidak bisa tidak bersikap reaktif terhadap bagaimana teknologi digunakan… belum tentu sesuai dengan yang dimaksudkan.

Hal ini sepertinya tidak akan berubah dalam waktu dekat, kecuali jika kita mengalami kemajuan teknologi yang masif dan tak terantisipasi yang memungkinkan hukum untuk mengejar ketertinggalan dari kejadian-kejadian saat ini.”

Jadi, tampaknya masalah hukum hak cipta memiliki banyak pertimbangan untuk diseimbangkan dalam hal bagaimana AI dilatih, tidak ada jawaban yang sederhana.

OpenAI dan Microsoft Digugat

Kasus menarik yang baru-baru ini diajukan adalah kasus di mana OpenAI dan Microsoft menggunakan kode sumber terbuka untuk membuat produk CoPilot mereka.

Masalah dengan menggunakan kode sumber terbuka adalah bahwa lisensi Creative Commons mengharuskan adanya atribusi.

Menurut sebuah artikel yang diterbitkan dalam jurnal ilmiah:

“Penggugat menuduh bahwa OpenAI dan GitHub merakit dan mendistribusikan produk komersial yang disebut Copilot untuk membuat kode generatif menggunakan kode yang dapat diakses publik yang awalnya tersedia di bawah berbagai lisensi gaya “open source”, yang sebagian besar di antaranya menyertakan persyaratan atribusi.

Seperti yang dinyatakan oleh GitHub, ‘…[t]erdiri dari miliaran baris kode, GitHub Copilot mengubah perintah bahasa alami menjadi saran pengkodean di puluhan bahasa.

Produk yang dihasilkan diduga tidak mencantumkan kredit apa pun kepada pencipta aslinya.”

Penulis artikel tersebut, yang merupakan seorang ahli hukum dalam bidang hak cipta, menulis bahwa banyak orang memandang lisensi Creative Commons sumber terbuka sebagai “bebas-untuk-semua”.

Beberapa orang mungkin juga menganggap frasa bebas-untuk-semua sebagai deskripsi yang adil tentang kumpulan data yang terdiri dari konten Internet yang dikikis dan digunakan untuk menghasilkan produk AI seperti ChatGPT.

Latar Belakang LLM dan Kumpulan Data

Model bahasa yang besar dilatih pada beberapa set data konten. Dataset dapat terdiri dari email, buku, data pemerintah, artikel Wikipedia , dan bahkan dataset yang dibuat dari situs web yang ditautkan dari posting di Reddit yang memiliki setidaknya tiga upvote.

Banyak dataset yang terkait dengan konten Internet berasal dari perayapan yang dibuat oleh organisasi nirlaba bernama Common Crawl.

Dataset mereka, dataset Common Crawl, tersedia gratis untuk diunduh dan digunakan.

Dataset Common Crawl merupakan titik awal bagi banyak dataset lain yang dibuat darinya.

Sebagai contoh, GPT-3 menggunakan versi Common Crawl yang telah difilter (Model Bahasa adalah Few-Shot Learners PDF).

Ini adalah cara para peneliti GPT-3 menggunakan data situs web yang terkandung dalam dataset Common Crawl:

“Kumpulan data untuk model bahasa telah berkembang pesat, yang berpuncak pada kumpulan data Common Crawl … yang terdiri dari hampir satu triliun kata.

Ukuran dataset ini cukup untuk melatih model terbesar kami tanpa harus memperbarui urutan yang sama dua kali.

Namun, kami menemukan bahwa versi Common Crawl yang tidak difilter atau difilter ringan cenderung memiliki kualitas yang lebih rendah daripada dataset yang lebih terkurasi.

Oleh karena itu, kami mengambil 3 langkah untuk meningkatkan kualitas rata-rata dataset kami:

(1) kami mengunduh dan memfilter versi CommonCrawl berdasarkan kemiripan dengan berbagai korpora referensi berkualitas tinggi,

(2) kami melakukan deduplikasi fuzzy pada tingkat dokumen, di dalam dan di seluruh dataset, untuk mencegah redundansi dan menjaga integritas set validasi yang kami miliki sebagai ukuran yang akurat untuk overfitting, dan

(3) kami juga menambahkan korpora referensi berkualitas tinggi yang telah diketahui ke dalam campuran pelatihan untuk melengkapi CommonCrawl dan meningkatkan keragamannya.”

Dataset C4 Google (Colossal, Cleaned Crawl Corpus), yang digunakan untuk membuat Text-to-Text Transfer Transformer (T5), juga berasal dari dataset Common Crawl.

Makalah penelitian mereka (Menjelajahi Batasan Pembelajaran Transfer dengan PDF Transformer Teks-ke-Teks Terpadu) menjelaskan:

“Sebelum menyajikan hasil dari studi empiris berskala besar, kami meninjau topik latar belakang yang diperlukan untuk memahami hasil kami, termasuk arsitektur model Transformer dan tugas-tugas hilir yang kami evaluasi.

Kami juga memperkenalkan pendekatan kami untuk memperlakukan setiap masalah sebagai tugas teks-ke-teks dan menjelaskan “Colossal Clean Crawled Corpus” (C4), kumpulan data berbasis Common Crawl yang kami buat sebagai sumber data teks tanpa label.

Kami menyebut model dan kerangka kerja kami sebagai ‘Text-to-Text Transfer Transformer’ (T5).”

Google menerbitkan sebuah artikel di blog AI mereka yang menjelaskan lebih lanjut bagaimana data Common Crawl (yang berisi konten yang diambil dari Internet) digunakan untuk membuat C4.

Mereka menulis:

“Bahan penting untuk pembelajaran transfer adalah kumpulan data tanpa label yang digunakan untuk pra-pelatihan.

Untuk mengukur secara akurat efek dari peningkatan jumlah pra-pelatihan, kita membutuhkan dataset yang tidak hanya berkualitas tinggi dan beragam, tetapi juga masif.

Dataset pra-pelatihan yang ada saat ini tidak memenuhi ketiga kriteria ini – misalnya, teks dari Wikipedia berkualitas tinggi, tetapi memiliki gaya yang seragam dan relatif kecil untuk tujuan kami, sementara web scraping Common Crawl sangat besar dan sangat beragam, tetapi kualitasnya cukup rendah.

Untuk memenuhi persyaratan ini, kami mengembangkan Colossal Clean Crawled Corpus (C4), sebuah versi yang telah dibersihkan dari Common Crawl yang berukuran dua kali lipat lebih besar dari Wikipedia.

Proses pembersihan kami melibatkan deduplikasi, membuang kalimat-kalimat yang tidak lengkap, dan menghapus konten yang menyinggung atau berisik.

Penyaringan ini menghasilkan hasil yang lebih baik pada tugas-tugas hilir, sementara ukuran tambahan memungkinkan ukuran model bertambah tanpa terlalu besar selama pra-pelatihan.”

Google, OpenAI, bahkan Open Data dari Oracle menggunakan konten Internet, konten Anda, untuk membuat kumpulan data yang kemudian digunakan untuk membuat aplikasi AI seperti ChatGPT.

Perayapan Umum Dapat Diblokir

Dimungkinkan untuk memblokir Common Crawl dan kemudian menyisih dari semua dataset yang didasarkan pada Common Crawl.

Tetapi jika situs telah dirayapi maka data situs web sudah ada dalam kumpulan data. Tidak ada cara untuk menghapus konten Anda dari kumpulan data Common Crawl dan kumpulan data turunan lainnya seperti C4 dan Open Data.

Menggunakan protokol Robots.txt hanya akan memblokir perayapan di masa mendatang oleh Common Crawl, itu tidak akan menghentikan peneliti untuk menggunakan konten yang sudah ada di dataset.

Cara Memblokir Common Crawl Dari Data Anda

Memblokir Common Crawl dapat dilakukan dengan menggunakan protokol Robots.txt, dengan batasan-batasan yang telah dibahas di atas.

Bot Common Crawl disebut, CCBot.

Bot ini diidentifikasi menggunakan string User-Agent CCBot terbaru: CCBot/2.0

Memblokir CCBot dengan Robots.txt dilakukan dengan cara yang sama seperti bot lainnya.

Berikut adalah kode untuk memblokir CCBot dengan Robots.txt.

Agen-pengguna: CCBot

Larang: /

CCBot merayapi dari alamat IP Amazon AWS.

CCBot juga mengikuti tag meta nofollow Robots:

Bagaimana Jika Anda Tidak Memblokir Perayapan Umum?

Konten web dapat diunduh tanpa izin, begitulah cara kerja peramban, mereka mengunduh konten.

Google atau siapa pun tidak memerlukan izin untuk mengunduh dan menggunakan konten yang dipublikasikan secara publik.

Penerbit Situs Web Memiliki Pilihan Terbatas

Pertimbangan apakah etis untuk melatih AI pada konten web tampaknya tidak menjadi bagian dari percakapan tentang etika bagaimana teknologi AI dikembangkan.

Tampaknya sudah menjadi hal yang lumrah bahwa konten internet dapat diunduh, diringkas, dan diubah menjadi sebuah produk yang disebut ChatGPT.

Apakah hal ini tampak adil? Jawabannya rumit.