Xiaomi ha sviluppato un modello di riconoscimento vocale ultra-veloce e lo ha reso OpenSource

Di: Viktor Tsyrfa | oggi, 10:08

Xiaomi ha sviluppato un modulo di riconoscimento vocale chiamato MiDashengLM-7B. Utilizzando reti neurali anziché algoritmi fissi, l'azienda ha raggiunto le migliori prestazioni di riconoscimento vocale in 22 test sintetici. Ciò rende possibile costruire piattaforme utente che funzionano con quasi nessun ritardo. Il modello può essere utilizzato in smartphone, sistemi di smart home, auto, ecc.

MiDashengLM-7B analizza l'audio in tempo reale, separando i suoni ambientali o la musica. Xioami sta già applicando attivamente questo modello vocale nei suoi prodotti, per esempio, la YU7 analizza costantemente il suono e può rilevare il rumore di graffi o vetri rotti, il che consente di attivare l'allarme anche quando non c'è impatto che potrebbe essere rilevato dal sensore di movimento.

Xiaomi ha pubblicato il codice sorgente per la voce avanzata sotto la licenza Apache 2.0, oltre a documentazione dettagliata sul training e sull'implementazione della tecnologia. Il modello può servire da base per sviluppatori e ricercatori accademici che desiderano creare sistemi vocali aperti senza dipendere da ecosistemi chiusi.

Le aziende cinesi non sono note per lavorare a progetti open source. Rendendo il modello linguistico aperto, Xioami attrae più sviluppatori, il che aiuterà questo prodotto a competere alla pari con analoghi di grandi corporazioni tecnologiche. L'esperienza ha dimostrato che prodotti software grandi e complessi, come un sistema operativo o un browser, si sviluppano più rapidamente e diventano più competitivi se sviluppati da una comunità aperta di programmatori piuttosto che da un'unica azienda.