DeepSeek Memulai Tahun 2026 dengan Arsitektur AI Baru yang Bertujuan untuk Pelatihan Model yang Lebih Efisien

DeepSeek. (Foto: Gizmochina)

Sukoharjonews.com – Melatih model AI besar telah menjadi salah satu tantangan terbesar dalam komputasi modern—bukan hanya karena kompleksitasnya, tetapi juga karena biaya, penggunaan daya, dan pemborosan sumber daya. Sebuah makalah penelitian baru dari DeepSeek mengusulkan pendekatan yang dapat membantu mengurangi beberapa tekanan tersebut.

Dikutip dari Gizmochina, Selasa (6/1/2026), metode ini, yang disebut manifold-constrained hyperconnection (mHC), berfokus pada membuat model AI besar lebih mudah dan lebih andal untuk dilatih. Alih-alih mengejar peningkatan kinerja mentah, idenya adalah untuk mengurangi ketidakstabilan selama pelatihan—masalah umum yang memaksa perusahaan untuk memulai kembali pelatihan yang mahal dari awal.

Sederhananya, banyak model AI canggih gagal di tengah pelatihan. Ketika itu terjadi, berminggu-minggu kerja, sejumlah besar listrik, dan ribuan jam GPU hilang. Pendekatan DeepSeek bertujuan untuk mencegah kegagalan tersebut dengan menjaga perilaku model lebih mudah diprediksi, bahkan saat model semakin besar.

Hal ini penting karena pelatihan AI saat ini mengonsumsi daya yang sangat besar. Meskipun mHC tidak membuat GPU sendiri menggunakan daya lebih sedikit, ia dapat mengurangi pemborosan daya dengan membantu model menyelesaikan pelatihan tanpa mengalami crash atau memerlukan restart berulang.

Manfaat lainnya adalah efisiensi dalam skala besar. Ketika pelatihan lebih stabil, perusahaan tidak perlu terlalu bergantung pada metode “brute force”—seperti menambahkan lebih banyak GPU, lebih banyak memori, atau jadwal pelatihan yang lebih lama hanya untuk menyelesaikan suatu masalah. Hal itu dapat menurunkan total energi yang digunakan selama seluruh proses pelatihan.

Penelitian DeepSeek tidak mengklaim dapat menyelesaikan kekurangan perangkat keras atau tantangan energi dalam semalam. Sebaliknya, ini mewakili peningkatan yang lebih tenang namun penting: memanfaatkan sumber daya yang sudah tersedia dengan lebih baik. Seiring waktu, teknik seperti ini dapat membantu pengembang AI melatih model yang canggih dengan lebih sedikit jam komputasi yang terbuang dan konsumsi energi keseluruhan yang lebih rendah.

Seiring pertumbuhan model bahasa, mengurangi inefisiensi mungkin menjadi sama pentingnya dengan mengejar kinerja yang lebih tinggi—dan di situlah arsitektur AI baru DeepSeek dapat membuat perbedaan nyata. (nano)

Nano Sumarno:
Tinggalkan Komentar