Il grande impatto che gli assistenti vocali stanno avendo sul mercato consumer, e ci riferiamo ai tre più importanti player oggi presenti sulla scena ovvero Alexa, Google e Siri (seguiti da un numero imprecisato di progetti open source dedicati perlopiù a soluzioni di nicchia), origina un quesito molto preciso ovvero se, e soprattutto a quali condizioni, la stessa diffusione si potrà vedere anche in ambito professionale se non addirittura industriale.
Secondo diversi studi, nel 2019 in Usa si assisteva a una diffusione degli smart speaker che si assestava oltre al 20% della popolazione (con una media di 2,3 dispositivi per famiglia), in Europa i numeri non sono molto distanti da questi mentre nell’area Asia/Pacifico si sta assistendo a un vero e proprio boom delle soluzioni vocali.
Per traslare la positiva esperienza consumer è però necessario identificare quali sono gli elementi base, e le insidie da superare, che possono caratterizzare gli assistenti vocali in ambito professionale e/o industriale indipendentemente dal settore di applicazione. Le principali valutazioni vanno fatte in termini di:
- affidabilità e ripetitività del riconoscimento
- voice fingerprinting
- integrazione con le linee di produzione
Indice degli argomenti
Affidabilità e ripetitività del riconoscimento
La prima caratteristica da prendere in considerazione è l’affidabilità del processo di riconoscimento, ovvero il grado di fiducia che può essere attribuito al sistema. In una qualsiasi fase di un processo industriale, che sia di produzione o meno, seppur possa essere pensabile di dover ripetere un comando perché il sistema non è in grado di riconoscerlo, non è invece ammissibile che a causa di una errata interpretazione si giunga a risultati differenti da quelli previsti o attesi. Oltre alla bontà degli algoritmi utilizzati, farciti di una buona dose di AI in grado di contestualizzare le parole alle frasi e a loro volta al contesto operativo, è necessario ridurre al minimo le fonti di errore (es. rumori ambientali o interferenza di altri operatori) pur preservando, per quanto possibile, la naturalità del linguaggio senza dover necessariamente limitare il vocabolario a un ristretto numero di semplici comandi.
Raggiunta una estrema affidabilità del riconoscimento, viene da sé la ripetibilità dello stesso che consente di ottenere una perfetta causalità comando-azione.
Voice fingerprinting
Se l’affidabilità del riconoscimento è frutto dell’algoritmo utilizzato, solo attraverso una severa fase di tuning si possono raggiungere i livelli di eccellenza richiesti in ambito industriale. L’apprendimento e riconoscimento dei comandi è strettamente legato alla corretta interpretazione delle impronte vocali degli operatori: durante la cosiddetta fase di fingerprinting (ovvero all’estrazione delle impronte vocali – digitali – dell’operatore assegnato a una macchina) il dispositivo di riconoscimento attraversa una procedura di autoapprendimento che lo porterà non solo alla corretta interpretazione dei comandi ma soprattutto all’identificazione dell’operatore che lo ha impartito (elemento ad alta tolleranza nei dispositivi di livello consumer).
Un grosso impulso a tutto il processo di riconoscimento e fingerprinting è stato dato dalla massiccia applicazione degli studi legati al deep learning dove, grazie a una struttura stratificata formata da reti neurali, elementi a basso livello elaborano semplici informazioni che, aggregate, vengono passate gli strati superiori per elaborazioni successive sempre più complicate. Quindi tramite un processo di analisi successive si fa in modo che, scomponendo il segnale vocale in micro frammenti si possano identificare gli elementi caratteristici della voce (chi da il comando) e il suo contenuto informativo (il comando). La complessità computazionale richiesta, una volta irraggiungibile anche per i più potenti computer, non è alla portata diretta dei piccoli smart speaker di oggi: il processo di riconoscimento non sempre viene effettuato localmente dal piccolo dispositivo ma spesso è demandato a un cluster di server (la rete neurale) che, raggiungibile tramite una connessione dati, fornisce a questo gateway vocale le azioni da intraprendere a fronte di un comando ricevuto.
L’evoluzione del settore è comunque dirompente tanto che sono sempre più numerose le soluzioni che, sfruttando le potenzialità di hardware dedicato e sistemi audio sofisticati, vengono proposte a livello industriale. Soluzioni che, per poter sfruttare il riconoscimento vocale in modalità autonoma, ovvero senza l’appoggio di cluster esterni, hanno costi che solo in ambito industriale possono essere sostenuti (visti i benefici che ne derivano).
Integrazione con le linee di produzione e casi d’uso
Una delle maggiori sfide legate alla smart industry è relativa all’integrazione dei dispositivi di riconoscimento, ad uso pressoché universale, con linee di produzione e/o servizio spesso realizzate su progetto. Premesso che in ambiente industriale non è opportuno l’utilizzo di smart speaker consumer (salvo pochi casi di linee di produzione molto semplici o servizi di assistenza postvendita) quanto piuttosto l’adozione di soluzioni progettati allo scopo, l’avvento dei progetti legati all’Industry 4.0 ha dato accesso anche alle piccole aziende a strumenti avanzati che possono essere più facilmente integrati rispetto al passato.
In questo contesto, le soluzioni assistite dalla voce contribuiscono in modo significativo all’aumento di:
efficienza: la comprensione del linguaggio naturale (NLU – natural language understanding) consente di delegare i compiti alle machine in maniera più rapida e precisa. Inoltre, l’utilizzo di una sintassi universale favorisce e agevola l’utilizzo di sistemi differenti ove altrimenti sarebbe necessaria una formazione specifica (si pensi al tempo speso per la navigazione fra i menu);
sicurezza: potendo il sistema vocale agire come una terza mano, gli addetti sono nella situazione di poter operare con entrambe le mani anche in ambienti potenzialmente pericolosi o in cui i sistemi di protezione sono di ostacolo alla manualità. Oltre quindi a una maggior sicurezza operativa, si ottiene anche un aumento importante dell’attenzione verso l’operazione svolta, e la conseguente riduzione del numero di eventi accidentali, non avendo la necessità di concentrarsi sugli elementi di controllo;
accessibilità: è possibile avere anche vantaggi dal punto di vista sociale in quanto, questo nuovo paradigma di interfaccia uomo-macchina (HMI), consente la riduzione delle barriere operative a vantaggio delle persone affette da limitazioni nella mobilità o sensorialità.
Mercato e prospettive degli assistenti vocali
Ad oggi l’area con il maggior numero di aziende con progetti legati all’utilizzo del riconoscimento vocale è quella degli Usa, in particolare nel settore smart production, mentre è quella orientale che vede un maggior tasso di crescita. Per quanto riguarda invece le soluzioni proposte, si tratta perlopiù di prodotti semicustom che, partendo da un prodotto base, vengono quindi finalizzate secondo le necessità della committente e integrati nella linea di produzione.
Ma quali sono le prospettive di un mercato che, nonostante l’attuale carenza di soluzioni alla portata delle Pmi, si preannuncia in crescita esponenziale? Studi, analisi e report cercano di tradurre in numeri quelle che sono le attese dell’industria, e dell’innovazione tecnologica, con risultati non sempre allineati fra loro. Ciò su cui sono però tutti d’accordo è una previsione di crescita che si attesta nell’ordine dei miliardi di dollari entro i prossimi 5 anni, anche se sappiamo tutti bene che sarà solo il mercato a guidare o meno questa crescita anche in funzione delle soluzioni realmente disponibili; non solo progetti ma vere soluzioni.