Il modello AI Qwen2.5-VL di Alibaba è in grado di far funzionare Booking.com su Android e di prenotare biglietti da Chongqing a Pechino (video)
Il team Qwen di Alibaba ha annunciato il rilascio di una nuova linea di modelli AI Qwen2.5-VL in grado di eseguire una serie di compiti di analisi di testi e immagini.
Ecco cosa sappiamo
I modelli sono in grado di elaborare file, comprendere video, contare oggetti in immagini e controllare PC, in modo simile al modello che funziona in OpenAI Operator.
Secondo i dati dei test, Qwen2.5-VL supera GPT-4 di OpenAI, Claude 3.5 di Anthropic e Gemini 2.0 Flash di Google nella comprensione dei video, nella matematica, nell'analisi dei documenti e nella risposta alle domande. Il modello è in grado di analizzare grafici e diagrammi, estrarre dati da scansioni di fatture e moduli e "capire" video della durata di diverse ore.
Risultati del test Qwen2.5-VL. Illustrazione: Alibaba
Una caratteristica interessante di Qwen2.5-VL è la capacità di interagire con il software su PC e dispositivi mobili. Un video pubblicato su X mostra un modello Qwen2.5-VL che lancia l'applicazione Booking.com su Android e prenota un biglietto aereo da Chongqing a Pechino. Tuttavia, in un test su un desktop Linux, il modello si è dimostrato meno efficiente, limitandosi a cambiare scheda.
I modelli Qwen2.5-VL hanno anche alcune restrizioni sugli argomenti da discutere, in particolare in Qwen Chat, a causa dei controlli dell'autorità cinese di regolamentazione di Internet che richiede l'adesione ai "valori socialisti fondamentali".
I modelli Qwen2.5-VL sono disponibili per il test nell'app Qwen Chat e sulla piattaforma Hugging Face. Il modello Qwen2.5-VL-72B ha una licenza speciale che richiede l'autorizzazione all'uso commerciale per le aziende con più di 100 milioni di utenti attivi mensili.
Fonte: @_philschmid