Xiaomi Umumkan Xiaomi-Robotics-0, Model Robot Skala Besar Generasi Pertamanya

banner 468x60
Xiaomi-Robotics-0. (Foto: Gizmochina)

Sukoharjonews.com – Xiaomi terkenal dengan ponsel pintar, perangkat rumah pintar, dan pembaruan kendaraan listrik sesekali. Kini mereka juga ingin berperan dalam penelitian robotika.

Dikutip dari Gizmochina,Jumat (20/2/2026), perusahaan telah mengumumkan Xiaomi-Robotics-0, model visi-bahasa-aksi (VLA) sumber terbuka dengan 4,7 miliar parameter. Model ini dirancang untuk menggabungkan pemahaman visual, pemahaman bahasa, dan eksekusi aksi secara real-time, yang menurut Xiaomi merupakan inti dari “kecerdasan fisik.” Dan menurut perusahaan, model ini telah mencetak beberapa rekor terkini baik dalam simulasi maupun uji coba di dunia nyata.

Secara garis besar, model robotika seperti ini menyelesaikan siklus tertutup: persepsi, pengambilan keputusan, dan eksekusi. Sebuah robot perlu melihat dunia, memahami apa yang diminta untuk dilakukan, memutuskan rencana, dan kemudian melaksanakannya dengan lancar. Xiaomi mengatakan Robotics-0 dibangun khusus untuk menyeimbangkan pemahaman yang luas dengan kontrol motorik halus.

1. Model Xiaomi-Robotics-0 dibangun di atas dua komponen utama
Untuk melakukan itu, model ini menggunakan apa yang dikenal sebagai arsitektur Mixture-of-Transformers (MoT). Arsitektur ini membagi tanggung jawab antara dua komponen utama.

Yang pertama adalah Visual Language Model (VLM), yang bertindak sebagai “otak”. VLM dilatih untuk menafsirkan instruksi manusia — termasuk instruksi yang samar seperti “Tolong lipat handuk” — dan memahami hubungan spasial dari input visual beresolusi tinggi. Bagian ini menangani deteksi objek, menjawab pertanyaan visual, dan penalaran logis.

Komponen kedua adalah apa yang disebut Xiaomi sebagai Action Expert. Ini dibangun di sekitar Diffusion Transformer (DiT) multi-layer. Alih-alih menghasilkan satu aksi pada satu waktu, ia menghasilkan sesuatu yang disebut “Action Chunk” — pahami sebagai urutan gerakan — menggunakan teknik pencocokan aliran untuk menjaga gerakan tetap akurat dan halus.

Salah satu masalah umum pada model VLA adalah ketika mereka belajar melakukan tindakan fisik, mereka cenderung kehilangan sebagian kemampuan pemahaman aslinya. Xiaomi mengatakan mereka menghindari hal itu dengan melatih model secara bersamaan pada data multimodal dan data tindakan. Hasilnya, setidaknya secara teori, adalah sistem yang masih dapat bernalar tentang dunia sambil belajar bagaimana bergerak di dalamnya.

2. Bagaimana cara melatihnya?
Proses pelatihan terjadi secara bertahap. Pertama, mekanisme “Proposal Tindakan” memaksa VLM untuk memprediksi kemungkinan distribusi tindakan sambil menginterpretasikan gambar. Ini menyelaraskan representasi internalnya tentang apa yang dilihatnya dengan bagaimana tindakan dilakukan. Setelah itu, VLM dibekukan, dan DiT dilatih secara terpisah untuk menghasilkan urutan tindakan yang akurat dari noise, mengandalkan fitur key-value daripada token bahasa diskrit.

Xiaomi juga mengatasi masalah praktis lain yang disebut latensi inferensi. Ini terjadi ketika penundaan antara prediksi model dan gerakan fisik dapat menciptakan jeda yang canggung atau perilaku yang tidak stabil.

Xiaomi menyatakan telah menerapkan inferensi asinkron, memisahkan komputasi model dari operasi robot, sehingga pergerakan tetap kontinu meskipun model membutuhkan waktu tambahan untuk berpikir.

Untuk meningkatkan stabilitas, Xiaomi menggunakan teknik “Clean Action Prefix”, yang memasukkan kembali aksi yang diprediksi sebelumnya ke dalam model untuk memastikan gerakan yang halus dan tanpa getaran dari waktu ke waktu.

Sementara itu, mask perhatian berbentuk Λ mengarahkan model ke input visual saat ini alih-alih terlalu bergantung pada keadaan masa lalu. Tujuannya adalah untuk membuat robot lebih responsif terhadap perubahan lingkungan yang tiba-tiba.

3. Benchmark Xiaomi-Robotics-0
Dalam pengujian benchmark, Xiaomi-Robotics-0 dilaporkan mencapai hasil terbaik dalam simulasi LIBERO, CALVIN, dan SimplerEnv, mengungguli sekitar 30 model lainnya.

Yang lebih menarik, Xiaomi menerapkannya pada platform robot lengan ganda dalam eksperimen dunia nyata. Dalam tugas-tugas jangka panjang seperti melipat handuk dan membongkar balok bangunan, Xiaomi mengatakan robot tersebut menunjukkan koordinasi mata-tangan yang stabil dan mampu menangani objek kaku maupun fleksibel tanpa kerusakan yang jelas.

Tidak seperti sistem VLA sebelumnya yang sering mengorbankan penalaran multimodal setelah pelatihan aksi dimulai, model Robotics-0 mempertahankan kemampuan visual dan bahasa yang kuat, terutama dalam tugas-tugas yang menggabungkan persepsi dengan interaksi fisik. (nano)


How useful was this post?

Click on a star to rate it!

Average rating 0 / 5. Vote count: 0

No votes so far! Be the first to rate this post.

Facebook Comments

Tinggalkan Balasan

Alamat email Anda tidak akan dipublikasikan. Ruas yang wajib ditandai *