Meta Membingungkan dengan Benchmark AI Maverick yang Menyesatkan

Ditulis pada 2025-04-07 18:14:18 oleh jamterbang Team

Wah, kalau dengerin soal Maverick, AI anyar dari Meta, katanya bisa jadi yang kedua terbaik di LM Arena, tempat di mana manusia bandingin kemampuan model AI. Tapi, tampaknya versi Maverick yang Meta pake di LM Arena beda banget sama yang diperjualbelikan ke developer. Ada yang ngeh, Meta kan nawarin Maverick versi 'percakapan eksperimental', bukan yang versi standarnya. Makanya, beberapa peneliti AI merasa bingung.

Meta Membingungkan dengan Benchmark AI Maverick yang Menyesatkan - meta 1

Sebagai info, versi yang diuji di LM Arena itu pake Llama 4 Maverick yang dioptimalkan khusus buat obrolan. Padahal, sebelumnya udah jelas kan, LM Arena ini nggak selalu bisa jadi acuan tepat soal performa AI model. Tapi, biasanya perusahaan AI enggak suka mukul rata sama meja, memodifikasi modelnya cuma buat nilai baik di LM Arena. Nah, masalahnya adalah, kalau modelnya dioptimalkan untuk sekadar tes, terus disimpen, lalu versi 'biasa'nya yang dilepas, jadinya susah buat ngeprediksi hasil sebenarnya di situasi nyata. Nggak fair lah!

Seharusnya, ya, benchmark itu cuma jadi gambaran kasar kelebihan dan kekurangan satu model AI di berbagai tugas. Tapi, cek lagi deh, Maverick yang bisa diunduh publik wujudnya beda jauh sama versi di LM Arena. Kalau di LM Arena si Maverick sering banget pake emoji dan jawabannya kepanjangan. Gila, Llama 4 kok jadi alay banget yah. Tapi kalau cek di together.ai, kayaknya lebih oke deh performanya.

Oke deh, curiga sama Meta dan Chatbot Arena, yang jaga LM Arena, kan proses tesnya. Udah ngontak mereka nih, berharap kasih klarifikasi. Tapi, yang pasti jangan asal percaya sama benchmark aja, ya! Nggak selamanya hasil tes itu beneran mencerminkan kemampuan sebenarnya suatu model AI. Hati-hati ya, bro!

Sumber inspirasi: TechCrunch

powered by jamterbang.com