DeepSeek membuat inovasi untuk mempercepat pemrosesan teks panjang

Infolamongan.id – Baru-baru ini perusahaan startup AI asal Tiongkok, DeepSeek, mengungkapkan inovasi terbaru-nya. Dalam inovasi terbarunya, mereka membuat model next-generation language menangani teks panjang dengan efisiensi lebih tinggi. Mereka membuat inovasi model yang lebih baik dari segi kecepatan maupun biaya komputasi, dibandingkan pendekatan konvensional.

DeepSeek mengembangkan metode Native Sparse Attention (NSA) yang melatih AI untuk berfokus pada informasi penting, bukan setiap kata dalam teks. Pendekatan ini memungkinkan pemrosesan teks panjang menjadi hingga 11 kali lebih cepat, sebagaimana dijelaskan dalam makalah yang dipublikasikan oleh CEO Liang Wenfeng dan timnya.

Mereka mempublikasikan paper pada hari Selasa di arXiv, yang merupakan platform untuk paper  yang belum ditinjau oleh pakar. Dalam paper tersebut dikatakan, metode NSA mengombinasikan peningkatan algoritma dan perangkat keras guna meningkatkan efisiensi tanpa mengurangi kinerja.

Menurut tim pengembang model R1 pendekatan ini dapat memperkuat kemampuan AI dalam menangani masalah kompleks, membuat program besar, serta memahami percakapan panjang dengan lebih baik.

DeepSeek mengumumkan di X bahwa metode NSA, yang dirancang khusus untuk dapat meningkatkan kecepatan inferensi. Selain itu, metode NSA juga  dapat mengurangi biaya pre-training tanpa mengurangi kinerja. Pengumuman ini muncul hanya sehari setelah xAI, perusahaan AI milik Elon Musk, meluncurkan model Grok 3.

Model AI seperti ChatGPT mengandalkan teknik attention dalam memproses teks. AI menganalisis kata-kata yang memiliki peran penting dan hubungan antar kata dalam suatu konteks. Mirip dengan cara manusia mengingat kata-kata sebelumnya untuk memahami suatu kalimat.

Baca juga: Kemungkinan Masa Depan Apakah AI Bisa Memiliki Perasaan?

Pendekatan full attention dalam model tradisional membandingkan setiap kata dengan seluruh kata lain dalam teks. Metode ini bekerja dengan baik untuk teks pendek, tetapi kinerjanya menurun drastis dan memerlukan sumber daya komputasi yang besar saat menangani teks yang lebih panjang.

Tak hanya itu, dibandingkan dengan metode tradisional, sparse attention bekerja lebih efisien dengan memprioritaskan kata-kata penting saja.

Dalam bulan ini, sejumlah perusahaan milik negara dan korporasi besar, seperti China Telecom, Sinopec, Tencent Search, dan Baidu Search, mengumumkan rencana mereka untuk mengadopsi R1, termasuk platform internet superkomputer nasional.

Leave a Reply

Your email address will not be published. Required fields are marked *