In una realtà odierna in cui la tecnologia sta velocemente sfociando in ogni micro-cosmo della nostra quotidianità, sembra che anche il campo della diagnosi psicologica – prima “terra estranea” agli automatismi di computer e database – stia per essere rivoluzionato. La svolta riguarda proprio l’ambito della depressione clinica, la quale da oggi potrebbe essere individuata preventivamente all’interno delle conversazioni di tutti i giorni servendosi un modello computerizzato.
Così come per anni i medici hanno intervistato i propri pazienti, ponendo loro domande specifiche – riguardanti, ad esempio malattie mentali passate, stili di vita adottati e umore generale – volte a diagnosticare una qualche forma di depressione in base alle risposte fornite, adesso il testimone potrebbe essere ceduto ad un’intelligenza artificiale. In un documento presentato alla Interspeech Conference, i ricercatori del MIT hanno infatti proposto un modello di rete neurale capace di rilevare tutte quelle parole ed intonazioni del parlato che potrebbero essere indice di depressione.
Già negli ultimi anni l’apprendimento automatico si è rivelato un utile alleato per la diagnostica, ma i modelli precedentemente proposti si sono dimostrati limitati: essi infatti tendevano a prevedere se una persona fosse o meno depressa solo in base a risposte specifiche fornite in riferimento a domande altrettanto mirate. Si tratta quindi di metodi estremamente accurati, ma trattenuti da una non irrilevante dipendenza dal tipo di domanda richiesta, che rappresenta solo un misero tassello nell’infinito puzzle della comunicazione umana.
Il modello del MIT: dati visivi uniti a quelli audio
La particolarità del modello realizzato dal MIT è invece quella di essere in grado di agire su testi non elaborati e, soprattutto, di sfruttare anche i dati audio di interviste cliniche per individuare in modo più meticoloso e variegato i modelli di linguaggio indicativi di depressione. La speranza dei ricercatori è che questo metodo – grazie alla sua estrema adattabilità – possa essere utilizzato per sviluppare strumenti capaci di rilevare sintomi di depressione anche nelle conversazioni naturali e quotidianamente effettuate dalle persone.
In un ipotetico futuro il modello potrebbe infatti potenziare le app mobili che monitorano il testo e la voce di un utente, in modo da rilevare tracce di un disagio mentale e mettere in guardia l’individuo: questo potrebbe dimostrarsi particolarmente utile per coloro che non hanno la possibilità economica o fisica di effettuare una diagnosi iniziale da un medico specialista, o ancora per coloro che inconsapevolmente – o per rifiuto volontario – ignorano la propria situazione di difficoltà.
“Il primo indizio che abbiamo di una persona felice, eccitata, triste o con qualche grave condizione cognitiva, come la depressione, è il suo discorso” ha chiosato Tuka Alhanai, ricercatore nel laboratorio di Computer Science e Artificial Intelligence (CSAIL). “Il nostro obiettivo ora è quello di ridurre al minimo la quantità di vincoli sui dati che si stanno utilizzando e fare sì che questo modello possa essere utilizzato in qualsiasi conversazione normale e monitori, dall’interazione naturale, lo stato dell’individuo”.
L’innovazione del context-free
La vera peculiarità, che pone questa nuova tecnica sopra tutte le precedenti, risiede però nella sua capacità di individuare sintomi indicativi di depressione senza ulteriori informazioni e senza il limite sopracitato di “domanda-risposta”. “Lo chiamiamo ‘context-free‘, perché non stai ponendo alcun vincolo nei tipi di domande poste e, di conseguenza, nel tipo di risposte a queste ultime” ha proseguito Alhanai, sottolineando come prima lo standard di realizzazione dei modelli consistesse nel raccogliere una gamma di domande e fornire per ciascuna di esse esempi di risposte date da persone depresse o meno, creando una sorta di database di possibili “situazioni tipo”.
Un’ulteriore tecnica sfruttata dai ricercatori è poi la cosiddetta modellazione di sequenza, spesso utilizzata per l’elaborazione del parlato: con quest’ultima è stato possibile estrarre dalla comunicazione verbale modelli di testo associati a dati audio specifici che hanno allargato il campo di possibilità (e consequenzialmente di azione) del modello MIT. Gli individui affetti da depressione tendono infatti a parlare più lentamente ed usare pause più lunghe tra una parola e l’altra, e l’innovazione del modello proposto dal MIT sta proprio nell’abbinare alcune parole ricorrenti (come il termine “triste” o “giù di morale”) ad alcuni segnali audio sintomatici più piatti o monotoni.
Il vantaggio finale di questa tecnica di sequenziamento, infine, è quello di guidare il modello stesso nell’analisi della conversazione tra individui, nella sua forma più naturale e spontanea, permettendo all’intelligenza artificiale di notare le differenze tra il modo in cui le persone con e senza depressione parlano nel tempo, per creare un archivio ancora più vario e ricco delle mille sfaccettature della psiche umana.
Francesca Amato