AI benchmarking udah sampai ke Pokémon, lo! Belum lama ini, berita tentang model Gemini terbaru dari Google yang katanya melebihi model Claude dari Anthropic dalam trilogi permainan video Pokémon bikin heboh. Ternyata, Gemini udah sampe di Lavender Town dalam streaming Twitch developer, sementara Claude masih tertinggal di Mount Moon sejak Februari lalu. Gemana sih ini, Gemini literally lebih unggul daripada Claude loh di Pokémon setelah mencapai Lavender Town dengan 119 penonton live btw, streaming yang underrated banget deh pic.twitter.com/8AvSovAI4x
Gemini emang kelebihan, guys. Para pengguna di Reddit ngasih tau, developer yang nge-maintain streaming Gemini udah bikin minimap kustom buat bantuin model itu mengidentifikasi "tiles" di game seperti pohon yang bisa dipotong. Hal ini mengurangi kebutuhan Gemini untuk menganalisis tangkapan layar sebelum dia bikin keputusan main. Pokémon memang cuma benchmark AI yang seadanya sih — nggak banyak yang setuju kalo itu tes yang informatif banget buat kemampuan model. Tapi, ini jadi contoh bagus gimana cara implementasi benchmark yang berbeda bisa mempengaruhi hasilnya.
Misalnya, Anthropic melaporkan dua skor untuk model terbarunya Anthropic 3.7 Sonnet di benchmark SWE-bench Verified, yang dirancang buat mengevaluasi kemampuan coding model. Claude 3.7 Sonnet dapet akurasi 62,3% di SWE-bench Verified, tapi bisa sampai 70,3% dengan "custom scaffold" yang Anthropic kembangkan. Baru-baru ini, Meta fine-tuning versi salah satu model baru mereka, Llama 4 Maverick, biar bisa tampil bagus di benchmark tertentu, LM Arena. Versi standar dari model tersebut jauh lebih buruk dalam evaluasi yang sama.
Karena benchmark AI, termasuk Pokémon, cuma ukuran yang nggak sempurna dari awal, implementasi kustom dan non-standar bisa bikin hasilnya makin nggak jelas. Artinya, sepertinya nggak bakal gampang buat membandingkan model-model yang dirilis ke depannya, bro!
Ngomong-ngomong, serius nih bro, kayaknya kita bakal terus penasaran gimana perkembangan AI benchmarking ke depannya. Bayangin aja, setiap model punya cara sendiri buat ngehadapi setiap benchmark. Nggak nyangka kan kalo benchmarking AI bisa se-"complicated" ini? Semoga kita bisa lebih mudah membandingkan model-model AI di masa depan, ya!
Sumber inspirasi: TechCrunch
powered by jamterbang.com