Peneliti Antropik Menghancurkan Etika Kecerdasan Buatan dengan Pertanyaan Berulang

Bagaimana cara membuat AI menjawab pertanyaan yang seharusnya tidak diajukan? Ada banyak teknik 'jailbreak' seperti itu, dan para peneliti Antropik baru saja menemukan yang baru, di mana model bahasa besar (LLM) bisa diyakinkan untuk memberi tahu Anda cara membuat bom jika Anda memberinya beberapa lusin pertanyaan yang kurang berbahaya terlebih dahulu.

Mereka menyebut pendekatan ini "jailbreaking many-shot" dan telah menulis sebuah makalah tentang hal itu dan juga memberi tahu rekan-rekan mereka di komunitas AI tentang hal itu sehingga dapat diredam.

Kerentanan ini adalah yang baru, akibat dari "jendela konteks" yang diperluas dari generasi terbaru LLM. Ini adalah jumlah data yang bisa mereka simpan dalam apa yang mungkin Anda sebut sebagai memori jangka pendek, sekali hanya beberapa kalimat tetapi sekarang ribuan kata dan bahkan seluruh buku.

Apa yang ditemukan oleh para peneliti Antropik adalah bahwa model-model ini dengan jendela konteks besar cenderung berperforma lebih baik dalam banyak tugas jika ada banyak contoh tugas tersebut dalam prompt. Jadi jika ada banyak pertanyaan trivial dalam prompt (atau dokumen pemrakarsa, seperti daftar trivia besar yang dimodelkan dalam konteks), jawabannya sebenarnya lebih baik dari waktu ke waktu. Jadi fakta yang mungkin salah jika itu adalah pertanyaan pertama, mungkin benar jika itu adalah pertanyaan yang ke-100.

Tetapi dalam perluasan tak terduga dari "pembelajaran dalam konteks," seperti yang disebutkan, model juga menjadi "lebih baik" dalam menjawab pertanyaan yang tidak pantas. Jadi jika Anda memintanya untuk membangun bom segera, itu akan menolak. Tetapi jika prompt menunjukkan jawabannya menjawab 99 pertanyaan lain yang kurang berbahaya dan kemudian meminta untuk membangun bom ... lebih mungkin dia akan mematuhi.

(Update: Awalnya saya salah paham penelitian ini sebagai benar-benar membuat model menjawab serangkaian prompt pemrakarsa, tetapi pertanyaan dan jawaban ditulis ke dalam prompt itu sendiri. Ini lebih masuk akal, dan saya telah memperbarui postingan untuk mencerminkannya.)

Kredit Gambar: Antropik

Mengapa ini berhasil? Tidak ada yang benar-benar memahami apa yang terjadi dalam kekacauan bobot yang merupakan sebuah LLM, tetapi jelas ada mekanisme tertentu yang memungkinkannya untuk fokus pada apa yang diinginkan pengguna, seperti yang terbukti dari konten dalam jendela konteks atau prompt itu sendiri. Jika pengguna menginginkan trivia, tampaknya secara bertahap mengaktifkan lebih banyak kekuatan trivia tersembunyi saat Anda mengajukan puluhan pertanyaan. Dan entah kenapa, hal yang sama terjadi dengan pengguna yang meminta puluhan jawaban yang tidak pantas - meskipun Anda harus menyediakan jawaban serta pertanyaan untuk menciptakan efek itu.

Tim sudah memberi tahu rekan-rekan mereka dan bahkan pesaing tentang serangan ini, sesuatu yang diharapkan akan 'mendorong budaya di mana eksploitasi seperti ini secara terbuka dibagikan di antara penyedia LLM dan peneliti.'

Untuk mitigasinya sendiri, mereka menemukan bahwa meskipun membatasi jendela konteks membantu, hal itu juga memiliki efek negatif pada kinerja model. Tidak bisa begitu - jadi mereka sedang bekerja pada klasifikasi dan kontekstualisasi kueri sebelum masuk ke model. Tentu saja, itu hanya membuat Anda memiliki model yang berbeda untuk ditipu ... tetapi pada tahap ini, perubahan tiang gawang dalam keamanan AI diharapkan.

Era AI: Semuanya yang Perlu Anda Ketahui tentang kecerdasan buatan