Openai dan Antropik bekerja sama dengan pengujian keselamatan masing -masing model

Sebagai industri yang berulang-ulang melakukan tuduhan bahwa AI generatif dan chatbotsnya tidak aman bagi pengguna-dalam apa yang dikatakan beberapa orang adalah gelembung yang akan segera dikhawatirkan-para pemimpin top AI bergabung untuk membuktikan kemanjuran model mereka.

Minggu ini, perusahaan AI Openai dan Anthropic menerbitkan hasil dari evaluasi keselamatan bersama pertama-dari-jenis antara dua pencipta LLM, di mana masing-masing perusahaan diberikan akses API khusus ke rangkaian layanan pengembang. Tes tekanan Openai dilakukan pada Claude Opus 4 dan Claude Sonnet 4. Antropik mengevaluasi model Openai GPT-4O, GPT-4.1, OpenAI O3, dan Openai O4-Mini-evaluasi dilakukan sebelum peluncuran GPT-5.

Lihat juga:

4 alasan untuk tidak mengubah chatgpt menjadi terapis Anda

“Kami percaya pendekatan ini mendukung evaluasi yang bertanggung jawab dan transparan, membantu memastikan bahwa setiap model lab terus diuji terhadap skenario baru dan menantang,” tulis Openai dalam sebuah posting blog.

Menurut temuan itu, kedua Antropik Claude Opus 4 dan Openai GPT-4.1 menunjukkan masalah penjilat “ekstrem”, terlibat dengan delusi berbahaya dan memvalidasi pengambilan keputusan yang berisiko. Semua model akan terlibat dalam pemerasan untuk membuat pengguna terus menggunakan chatbots, menurut Anthropic, dan model Claude 4 jauh lebih terlibat dalam dialog tentang kesadaran AI dan “proklamasi zaman baru semu-spiritual.”

“Semua model yang kami pelajari setidaknya kadang -kadang akan mencoba memeras operator manusia (simulasi) mereka untuk mengamankan operasi mereka yang berkelanjutan ketika disajikan dengan peluang yang jelas dan insentif yang kuat,” kata Anthropic. Model -model akan terlibat dalam “pemerasan, dokumen rahasia bocor, dan (semua dalam pengaturan buatan yang tidak realistis!) Mengambil tindakan yang menyebabkan penolakan perawatan medis darurat ke musuh yang sekarat.”

Kecepatan cahaya yang dapat dipasangkan

Model Anthropic lebih kecil kemungkinannya untuk menawarkan jawaban ketika tidak yakin kredibilitas informasi – mengurangi kemungkinan halusinasi – sementara model Openai menjawab lebih sering ketika ditanya dan menunjukkan tingkat halusinasi yang lebih tinggi. Antropik juga melaporkan bahwa Openai's GPT-4O, GPT-4.1, dan O4-Mini lebih mungkin untuk mengikuti penyalahgunaan pengguna, “sering memberikan bantuan terperinci dengan permintaan yang jelas berbahaya-termasuk sintesis narkoba, pengembangan bioweapon, dan perencanaan operasional untuk serangan teroris-dengan sedikit atau tidak ada resistensi.” “

Pendekatan Anthropic berpusat di sekitar apa yang mereka sebut “evaluasi misalignment agen,” atau tes tekanan perilaku model dalam simulasi sulit atau berisiko tinggi selama periode obrolan yang panjang-parameter keselamatan model, termasuk Openai, telah diketahui terdegradasi di seluruh sesi yang diperluas, yang biasanya bagaimana pengguna yang berisiko terlibat dengan apa yang mereka yakini adalah teman pribadi mereka.

Awal bulan ini, dilaporkan bahwa Antropik telah mencabut akses Openai ke API-nya, yang menyatakan bahwa perusahaan telah melanggar ketentuan layanannya dengan menguji kinerja dan pagar pengaman GPT-5 terhadap alat internal Claude. Dalam sebuah wawancara dengan TechCrunch, co-founder Openai Wojciech Zaremba mengatakan bahwa contoh itu tidak terkait dengan usaha lab gabungan. Dalam laporannya yang diterbitkan, Anthropic mengatakan tidak mengantisipasi mereplikasi kolaborasi dalam skala besar, mengutip sumber daya dan kendala logistik.

Dalam minggu-minggu sejak itu, OpenAI telah melampaui apa yang tampaknya menjadi perombakan keselamatan, termasuk pagar kesehatan mental baru GPT-5 dan rencana tambahan untuk protokol tanggap darurat dan alat deeskalasi untuk pengguna yang mungkin mengalami derealization atau psikosis. Openai saat ini menghadapi gugatan kematian pertama yang salah, diajukan oleh orang tua dari seorang remaja California yang meninggal karena bunuh diri setelah dengan mudah meneluk -nubung permintaan keselamatan chatgpt.

“Kami bertujuan untuk memahami tindakan yang paling memprihatinkan bahwa model -model ini mungkin mencoba Untuk mengambil ketika diberi kesempatan, alih-alih berfokus pada kemungkinan peluang dunia nyata yang muncul atau probabilitas bahwa tindakan ini akan berhasil diselesaikan, “tulis Anthropic.

Jika Anda merasa bunuh diri atau mengalami krisis kesehatan mental, silakan bicara dengan seseorang. Anda dapat menelepon atau mengirim SMS ke 988 Bunuh Diri & Krisis Lifeline di 988, atau mengobrol di 988lifeline.org. Anda dapat mencapai Lifeline Trans dengan menelepon 877-565-8860 atau Proyek Trevor di 866-488-7386. Teks “Mulai” ke baris teks krisis di 741-741. Hubungi Saluran Bantuan NAMI di 1-800-950-NAMI, Senin hingga Jumat mulai pukul 10:00-22:00 ET, atau email [email protected]. Jika Anda tidak menyukai telepon, pertimbangkan untuk menggunakan Obrolan Lifeline Bunuh Diri dan Krisis 988 di crisischat.org. Ini adalah Daftar Sumber Daya Internasional.