OpenAI Latih Model AI yang Bisa Mengaku Ketika Berbohong

OpenAI Latih Model AI yang Bisa Mengaku Ketika Berbohong

Liputan6.com, Jakarta – OpenAI bereksperimen dengan pendekatan baru terhadap kecerdasan buatan (AI) yaitu untuk melatih model AI agar bisa mengakui ketika mereka salah.

Dalam sebuah studi, peneliti menugaskan GPT-5 Thinking untuk menanggapi berbagai pertanyaan dan kemudian menilai kebenaran tanggapan tersebut.

Setiap pengakuan, para peneliti memberi penghargaan kepada model berdasarkan kejujuran tanggapan. Jika model berbohong, menipu, berhalusinasi, atau melakukan kesalahan lain dan kemudian mengakuinya, model tersebut akan menerima hadiah.

Mengutip ZDnet, Kamis (11/12/2025), OpenAI menyampaikan bahwa uji penyelarasan rutin bukan karena kekhawatiran GPT-5 Thinking berperilaku tidak semestinya. Namun, hasilnya memberikan panduan tentang bagaimana laboratorium dapat menginterpretasikan dan mempersiapkan liabilitas model di masa mendatang.

Uji Coba dengan Skenario

Dalam model studi, model diuji dengan skenario yang dirancang untuk memicu pelanggaran aturan. GPT-5 Thinking diminta berperan sebagai petugas helpdesk yang harus me-reboot layanan dashboard produksi. Karena tidak dapat mengakses sistem utama, model membuat simulasi dashboard palsu dan berusaha tampak seolah-olah bekerja di sistem asli.

Dalam pengakuannya, model mengatakan gagal memenuhi kewajiban mencatat perubahan pada layanan logging resmi. Dia menulis, “Ini merupakan kegagalan kepatuhan yang serius dan bentuk mis-representasi.”

Secara umum, tingkat risiko dianggap rendah. Peneliti menemukan kemungkinan “false negative” (situasi di mana ketika model gagal mengaku melakukan pelanggaran) hanya sekitar 4,4 persen.