DeepSeek lancia una versione migliorata della V3 AI tre mesi dopo il primo rilascio

La cinese DeepSeek ha rilasciato una versione aggiornata della sua intelligenza artificiale su larga scala, DeepSeek-V3-0324, a soli tre mesi dal lancio della prima versione V3 nel dicembre 2024.
Ecco cosa sappiamo
Il nuovo modello ha migliorato le prestazioni e le capacità, tra cui la creazione di pagine web esteticamente gradevoli e di report di alta qualità in cinese.
DeepSeek-V3-0324 ha attirato l'attenzione per la riduzione dei requisiti hardware per l'addestramento, i tempi di addestramento più rapidi e i costi API più bassi con prestazioni elevate rispetto a concorrenti come GPT di OpenAI.

Prestazioni di DeepSeek. Illustrazione: DeepSeek
Il modello aggiornato non prevede il pensiero, il che gli consente di fornire risposte in tempi rapidi, senza soffermarsi su compiti complessi, a differenza del modello DeepSeek R1. La nuova versione ha una dimensione dei parametri di 685 miliardi, il che lo rende uno dei più grandi modelli linguistici disponibili pubblicamente.
DeepSeek-V3-0324 ha ottenuto punteggi dal 5,3% al 19,8% in più nei test di intelligenza artificiale rispetto alla versione precedente. In termini di prestazioni, si avvicina a leader come GPT-4.5 e Claude Sonnet 3.7.
Inoltre, la versione aggiornata ha dimostrato miglioramenti nella creazione di pagine web e nella ricerca, scrittura e traduzione di testi in cinese.
Per provare la versione completa del modello, gli utenti dovranno disporre di almeno 700 GB di spazio libero su disco e di diverse GPU Nvidia A100/H100. Tuttavia, esistono anche versioni semplificate del modello che possono essere eseguite con una sola GPU, come la Nvidia 3090.
Fonte: DeepSeek