Arena Chatbot: Drama Benchmark AI, Settingan Skor?

Ditulis pada 2025-05-02 17:38:12 oleh jamterbang Team

Gila sih, dunia AI ternyata nggak seindah yang kita kira! Ada drama baru nih, soal benchmark AI yang katanya dicurangi. Penasaran kan gimana ceritanya? Yuk, kita bongkar bareng-bareng!

Arena Chatbot: Drama Benchmark AI, Settingan Skor? - arena 1

Kecurigaan Peneliti

Jadi gini, ada studi baru dari Cohere, Stanford, MIT, dan Ai2 yang nuduh LM Arena, si empunya Chatbot Arena, main mata sama perusahaan AI gede kayak Meta, OpenAI, Google, dan Amazon. Katanya sih, perusahaan-perusahaan ini dikasih kesempatan tes model AI-nya secara privat berkali-kali, terus skor yang jelek disembunyiin. Serius bro, nggak adil banget kan buat perusahaan AI lain yang nggak dapet privilege begitu? Ini sih namanya gamifikasi benchmark! Sara Hooker, peneliti dari Cohere, sampai bilang ini parah banget. Bayangin aja, Meta sempet tes 27 varian model AI-nya sebelum rilis Llama 4, tapi yang diumbar cuma satu yang skornya tinggi. Nggak heran kalau Llama 4 langsung nangkring di papan atas leaderboard Chatbot Arena.

Bantahan LM Arena

Tentu aja LM Arena nggak terima dituduh begitu. Mereka bilang studinya nggak akurat dan analisisnya dipertanyakan. Intinya sih, mereka ngotot kalau benchmark-nya adil dan berbasis komunitas. "Kalau ada perusahaan yang lebih rajin ngetes model AI-nya, ya bukan berarti yang lain dirugikan," gitu kata mereka. Hmm... Bener juga sih, tapi tetep aja kesannya ada yang janggal.

Temuan Mengejutkan

Para peneliti ini nggak main-main, lho. Mereka amati lebih dari 2,8 juta "battle" di Chatbot Arena selama lima bulan. Hasilnya? Nggak nyangka! Ternyata perusahaan AI gede kayak Meta, OpenAI, dan Google dikasih jatah "battle" lebih banyak. Ini ngasih mereka keuntungan gede banget, karena bisa dapet lebih banyak data buat ningkatin performa model AI-nya. Katanya sih, bisa ningkatin skor di Arena Hard sampai 112%! Walaupun LM Arena bilang skor Arena Hard nggak berhubungan langsung sama skor Chatbot Arena, tetep aja mencurigakan, kan?

Usulan Perbaikan & Tanggapan LM Arena

Para peneliti ini ngasih saran nih ke LM Arena biar Chatbot Arena lebih adil, misalnya batasin jumlah tes privat dan wajib publikasi semua skornya. Eh, tapi LM Arena nolak mentah-mentah. Mereka bilang udah publikasi info soal tes pre-rilis sejak Maret 2024 dan nggak masuk akal nunjukin skor model yang belum dirilis publik. Ribet juga ya! LM Arena cuma setuju buat bikin algoritma sampling baru biar semua model AI dapet jatah "battle" yang sama.

Meta Kepergok Curang

Ini bukan pertama kalinya ada drama di Chatbot Arena. Beberapa minggu lalu, Meta juga ketahuan optimasi Llama 4 biar keliatan jago ngobrol, padahal versi aslinya nggak sebagus itu. LM Arena sih udah negur Meta soal ini.

Kesimpulan

Intinya, kasus ini bikin kita mikir ulang soal benchmark AI. Bisakah kita percaya sama benchmark yang dikelola swasta? Apa mereka beneran netral, atau ada pengaruh perusahaan gede di belakangnya? Semoga ke depannya ada solusi yang bikin benchmark AI lebih transparan dan adil. Biar nggak ada lagi drama-drama kayak gini. Kasian kan para pengembang AI yang berjuang mati-matian, tapi skornya kalah sama yang main curang.

Sumber inspirasi: TechCrunch

Arena Chatbot: Drama Benchmark AI, Settingan Skor? - Gambar Asli

powered by jamterbang.com