Google Meluncurkan Model Gemini 2.5 Computer Use dengan Kemampuan Penjelajahan Web Layaknya Manusia

Gemini 2.5 Computer Use. (Foto: Gizmochina)

Sukoharjonews.com – Google telah merilis model AI baru yang disebut Gemini 2.5 Computer Use. Model ini memungkinkan agen AI berinteraksi dengan situs web dan antarmuka pengguna layaknya manusia. Model ini kini tersedia dalam pratinjau publik melalui API Gemini di Google AI Studio dan Vertex AI.

Dikutip dari Gizmochina, Senin (13/10/2025), model ini dibangun di atas kemampuan pemahaman dan penalaran visual Gemini 2.5 Pro. Model ini dapat melakukan berbagai tindakan berbasis browser seperti mengeklik, mengetik, menggulir, mengarahkan kursor, membuka menu tarik-turun, dan menavigasi URL. Google mengklaim model ini mengungguli alat pesaing dalam beberapa uji tolok ukur, termasuk Online-Mind2Web, WebVoyager, dan AndroidWorld, dengan tetap mempertahankan latensi yang lebih rendah.

Tidak seperti model AI tradisional yang mengandalkan API, Gemini 2.5 Computer Use memproses tangkapan layar antarmuka web dan menghasilkan tindakan UI spesifik sebagai responsnya. Agen menerima prompt tugas, tangkapan layar lingkungan digital, dan riwayat tindakan terbaru. Kemudian, agen menganalisis antarmuka dan mengembalikan tindakan UI, seperti mengklik tombol atau mengetik di kolom. Tindakan tersebut dieksekusi di sisi klien, dan tangkapan layar baru dikirim kembali ke model untuk melanjutkan tugas secara berulang.

Google mendemonstrasikan kinerja model dengan contoh yang menunjukkan agen menyortir catatan tempel di papan tulis digital dan mentransfer detail hewan peliharaan dari satu situs web ke sistem CRM. Video demo dipercepat untuk menunjukkan proses secara real-time.

Model ini saat ini mendukung 13 tindakan dan berfungsi paling baik dengan peramban web. Google menyatakan bahwa model ini belum dioptimalkan untuk tugas-tugas tingkat OS desktop, meskipun telah menunjukkan potensi pada uji coba seluler.

Google juga telah menerapkan langkah-langkah keamanan untuk mencegah penyalahgunaan. Setiap tindakan yang diusulkan oleh model ditinjau oleh layanan keamanan sebelum dieksekusi. Pengembang dapat membatasi tindakan tertentu atau mewajibkan konfirmasi pengguna secara eksplisit untuk tugas-tugas berisiko tinggi seperti transaksi keuangan.

Beberapa tim internal Google telah menggunakan model ini dalam tahap produksi. Model ini mendukung pengujian UI dan tugas otomatisasi di berbagai platform seperti Google Search dan Firebase. Pengembang eksternal dalam program akses awal telah menggunakan model ini untuk membangun otomatisasi alur kerja dan alat asisten.

Pengembang dapat mulai menggunakan model ini melalui Google AI Studio atau Vertex AI. Google juga menyediakan lingkungan demo melalui Browserbase untuk pengujian dan eksperimen. (nano)

Google Meluncurkan Model Gemini 2.5 Computer Use dengan Kemampuan Penjelajahan Web Layaknya Manusia

Facebook Comments

Tinggalkan Balasan Batalkan balasan

Facebook Comments

Baca Juga

Rekomendasi untuk kamu

Facebook Comments

Facebook Comments

Facebook Comments

Facebook Comments

Facebook Comments

Facebook Comments

Tinggalkan Balasan Batalkan balasan