Claude Opus 4.1 Kalahkan GPT-5 di Studi Internal OpenAI – Page 3

Claude Opus 4.1 Kalahkan GPT-5 di Studi Internal OpenAI – Page 3

GDPval sendiri terinspirasi dari konsep Produk Domestik Bruto (PDB). Bedanya, tolak ukur ini dipakai untuk menilai kontribusi AI dalam menyelesaikan pekerjaan manusia.

Raksasa teknologi ini sudah menguji 44 jenis pekerjaan, mulai dari pengembangan software, pengacara, hingga insinyur mesin.

Tugas yang diberikan juga dekat dengan aktivitas sehari-hari, seperti membalas email pelanggan kecewa, hingga memeriksa harga tidak konsisten pada pesanan pembelian.

Dengan cara ini, OpenAI ingin menampilkan gambaran realistis tentang sejauh mana AI bisa membantu pekerjaan sehari-hari, bukan sekadar lulus benchmark teknis.

 

Hasil dari pengujian GDPval menunjukkan bahwa Claude Opus 4.1 memiliki win rate tertinggi, yaitu 47,6 persen.

Di urutan kedua ada ‘ChatGPT-5 high’ dengan win rate 38,8 persen. Sementara itu, Grok 4 dan Gemini 2.5 Pro masih lebih unggul berada di atas ChatGPT-4o hanya mencatatkan skor 12,4 persen.

Menariknya lagi, studi ini juga menemukan Claude menjadi paling unggul dan mendominasi di delapan dari sembilan sektor industri yang diuji, termasuk di bidang pemerintahan dan layanan kesehatan.