Kemunculan O3 AI
Jadi, ceritanya OpenAI baru aja ngeluarin model AI bernama o3 yang katanya mampu jawab sekitar seperempat soal di FrontierMath, setumpuk soal matematika yang susah banget. Hasilnya bikin konotasi kaget, karena model lain cuma bisa jawab sekitar 2% soal FrontierMath doang. Mark Chen, orang di belakang OpenAI, sempet bangga-banggain hasil o3 di livestream. Katanya, pake setting komputasi agresif, o3 bisa dapat 25% jawaban!
Kenyataan Tersembunyi
Tapi, bukan berarti segitu aja. Baru-baru Ini, hasil benchmark independen dari Epoch AI ngungkap fakta yang mengejutkan. Ternyata, skor o3 cuma sekitar 10%, jauh banget dari klaim tertinggi OpenAI. Tapi, bukan dari jenis bohong atau tipu-daya ya. Yang OpenAI publikasikan itu cuma nilai terendahnya aja, yang selaras sama yang ditemuin sama Epoch.
Penjelasan dari OpenAI
Menurut X from the ARC Prize Foundation, o3 versi publik itu beda banget sama yang dipake buat uji coba sebelumnya. Versi o3 yang diluncurin sekarang itu lebih dioptimalkan buat kasus nyata dan kecepatan. Makanya, ada perbedaan hasil benchmark yang mungkin terjadi. Asli sih, jadi nggak usah terlalu disetir ya sama hasil benchmark yang ada.
Kesimpulan Leluasa
Nah, intinya O3 OpenAI memang nggak sepenuhnya sesuai sama yang dijanjikan dalam benchmark. Tapi, yang lebih kecil dan lebih murah, yaitu o3-mini-high dan o4-mini, malah lebih baik dalam menyelesaikan soal FrontierMath. Atau mungkin, nanti OpenAI bakal ngeluarin varian o3 yang lebih canggih lagi, yaitu o3-pro. Ingat ya, benchmark AI jangan langsung dipercaya begitu aja, terutama kalo sumbernya dari perusahaan yang mau jualan.
Sumber inspirasi: TechCrunch
powered by jamterbang.com