Traduzione e scrittura automatica

Intelligenza artificiale, previsione e “common sense”

di Giuseppe di Pirro

Vai agli articoli della serie “L’Intelligenza artificiale

Image for post

Traduzione automatica… ancora non ci siamo

Dietro i progressi recenti nella traduzione automatica, così come nel riconoscimento vocale, delle immagini o del testo, è noto, c’è l’intelligenza artificiale. Nello specifico sistemi ed algoritmi avanzatissimi che utilizzano modelli di deep learning e reti neurali di ultima generazione. Sino a poco tempo fa l’obiettivo di raggiungere ed eventualmente sopravanzare il livello dei migliori tra gli umani appariva alla portata.

Il mantra ripetuto all’infinito era il seguente: più dati avremo a disposizione, tanto più migliorerà la qualità della traduzione, la precisione nell’identificazione sia delle immagini che dei caratteri, e così via.

Nondimeno, la progressione di successi e migliorie, benché non si sia arrestata sembra aver subito un brusco rallentamento. Lo stato dell’arte, perlomeno nella traduzione automatica, non è stato conseguito. In parte ciò può essere dovuto alla difficoltà di affinare strumenti e servizi che hanno raggiunto livelli di prestazioni che vanno dal buono all’ottimo.

In larga misura, tuttavia, la causa risiede nelle tecnologie e nelle architetture impiegate, le quali hanno palesato limiti intrinseci ormai evidenti ai più.

Limiti e carenze emersi hanno alimentato, ed alimentano tuttora, un’accesa discussione all’interno della comunità scientifica. Il dibattito verte in buona parte sulle modalità più idonee a superare le manchevolezze affiorate. Nondimeno esso investe anche la dimensione specifica, tanto scientifica quanto filosofica, nella quale collocare il fenomeno IA.

Questo perché il destino dell’l’intelligenza artificiale appare sempre più intrecciato a quello della corrispettiva intelligenza umana. Per quest’ultima, ad oggi, sono ancora da indagare, comprendere e definire appieno elementi fondamentali, quali ad es. cervello, mente e pensiero.

Le risultanze che emergeranno e le teorie che verranno formulate in relazione all’intelligenza biologica avranno profonde ripercussioni sulla controparte “sintetica”, sulla sua progettazione, sullo sviluppo ed il progresso dell’intero comparto, nonché sulla direzione ultima da imprimere alla ricerca.

La macchina predittiva

Fermo restando che ad oggi non esiste una definizione univoca e condivisa per l’intelligenza biologica, quella “artificiale” che ricerchiamo ed in qualche modo auspichiamo dalle macchine, allorquando in qualche misura affiora, sovente sembra discostarsi dalle forme che abitualmente conosciamo. Talora essa appare aliena, talvolta oscura ed enigmatica, nondimeno inequivocabilmente difforme rispetto a canoni prettamente umani.

Al punto che ci si interroga se le si debba riconoscere come il portato di una qualche forma di intelligenza, oppure semplicemente il frutto di una mera elaborazione di complessi ed elaborati modelli statistico/matematici.

Un libro recente di tre economisti dell’università di Toronto (Ajay Agrawal, Joshua Gans, Avi Goldfarb, Macchine predittive. Come l’intelligenza artificiale cambierà lavoro e imprese, 2019), ci offre una preziosa chiave di lettura:

«La nuova ondata di intelligenza artificiale non ci consegna in effetti un’intelligenza piuttosto una componente critica dell’intelligenza: la previsione».

In un articolo apparso qualche tempo fa, essi spiegavano:

«I recenti sviluppi nell’intelligenza artificiale interessano la riduzione del costo della previsione. L’intelligenza artificiale rende la previsione migliore, più veloce e più economica. Non solo si può predire più facilmente il futuro … ma si può anche prevedere il presente. La previsione pertiene l’utilizzo delle informazioni che si possiedono per generare informazioni che non si possiedono. Ovunque si abbiano molte informazioni (dati) e si desideri filtrarle, spremerle o ordinarle per approfondimenti che facilitino il processo decisionale, la previsione aiuterà ad ottenere tutto ciò. E adesso le macchine sono in grado di farlo».

Secondo gli autori il costo della previsione, divenuto irrisorio, ha fatto si che diverse problematiche e molteplici attività siano ormai analizzate, progettate, affrontate ed in ultimo riorientate nella direzione della previsione, su basi eminentemente statistico-matematiche. Nel loro libro lo ribadiscono: «Molti problemi di tipo algoritmico … si sono trasformati in problemi di previsione … L’apprendimento automatico utilizza modelli probabilistici per risolvere questo genere di problemi».

Machine Translation e previsione

Ciò è avvenuto anche per la traduzione automatica: «Abitualmente, l’approccio alla traduzione automatica delle lingue consisteva nell’assumere un linguista, un esperto delle regole del linguaggio, affinché ne descrivesse le regole e le traducesse in modo tale da poter essere programmate». Invero, proseguono gli autori:

«I recenti progressi dell’intelligenza artificiale, nondimeno, ci hanno consentito di rielaborare la traduzione alla stregua di un problema di previsione».

L’approccio è quindi affatto diverso rispetto al passato:

«La traduzione dall’inglese al giapponese concerne la previsione delle parole e delle frasi giapponesi che corrispondono a quelle inglesi. Le informazioni mancanti da prevedere sono l’insieme delle parole giapponesi e l’ordine che è loro consono».

Sebbene il salto di qualità dovuto all’utilizzo del machine learning nella traduzione automatica sia stato tanto sbalorditivo quanto repentino, l’IA non ha raggiunto quei livelli di assoluta eccellenza che apparivano scontati ed imminenti. L’assunto secondo il quale, «Più l’IA viene utilizzata, più dati vengono raccolti, più essa apprende e migliora», si è dimostrato vero solo in parte.

iFlytek

Image for post

iFlytek è una società del comparto IA, leader in Cina nelle tecnologie di advanced speech recognition, speech evaluation e natural language processing. L’azienda ha creato una propria piattaforma cloud aperta e, tra le altre cose, un’applicazione per cellulare che consente di riconoscere e tradurre, in tempo reale, tanto il parlato quanto il testo.

Un prodotto che le consente di avere, nella sola Cina, oltre 500.000.000 di utenti. Una soluzione utile peraltro in molteplici campi ed attività, ad esempio nella compilazione delle cartelle cliniche dei pazienti.

Afferma Qi Yinbao, chirurgo presso il First Affiliated Hospital of University of Science and Technology of China. Un impegno che occupava molte ore della giornata, talora con qualche inconveniente:

«Di solito le scrivevo tra un intervento chirurgico e l’altro e molto spesso restavo in ufficio dopo l’orario di lavoro per terminarle. A volte scoprivo di aver dimenticato alcune informazioni importanti e dovevo esaminare tutti i registri degli esami per rinfrescare la memoria».

Grazie anche al prodotto di iFlytek, secondo Qi, le diagnosi dei medici hanno raggiunto «un’accuratezza molto elevata».

La tecnologia dell’azienda cinese viene impiegata in svariati contesti: dai call centers, ai tribunali, persino nelle scuole. Gang Xu, che risiede a Pechino, utilizza invece le funzionalità di iFlytek Input per comunicare con il proprio locatario in Canada:

«Il software trasforma i suoi messaggi vocali in cinese in messaggi di testo in inglese e li invia all’inquilino canadese. Traduce anche in cinese i messaggi di testo in inglese dell’inquilino, creando un ciclo di conversazioni bilingue senza alcuna soluzione di continuità».

Una cosa impensabile sino a poco tempo fa.

Sebbene il software di iFlytek vanti un’accuratezza del 98% nel riconoscimento vocale, non è esente da pecche, in particolare quando si chiama in gioco la traduzione. «Xu ricorda un fraintendimento allorquando aveva tentato di chiedere al proprio inquilino quando sarebbe uscito dal lavoro per recarsi a firmare il rinnovo del contratto di locazione». La traduzione della sua richiesta è stata la seguente: «Oggi a che ora vai a lavorare?». Un errore che Xu ritiene sia forse da imputare alla formulazione della domanda. «A volte, a seconda del contesto, non riesco a esprimere quanto voglio dire», aggiunge Xu.

Il fatto è, come osserva Xiaojun Wan, docente presso l’università di Pechino, che le macchine non capiscono le risposte che forniscono. L’IA cerca una risposta all’interno dell’enorme quantità di dati che ha disposizione, tuttavia non possiede una reale comprensione di ciò che scrive o traduce.

Image for post

GPT-2 e i virtual assistant

Nel febbraio 2019 OpenAI, la società non profit fondata nel 2015, tra gli altri, da Elon Musk e Sam Altman, allo scopo di «garantire che l’intelligenza artificiale generale apporti benefici all’intera umanità», ha annunciato il rilascio parziale di GPT-2 (acronimo che sta per Generative Pre-Training). GPT-2 è un algoritmo creato ed addestrato per eccellere nel “language modelling”, ovvero la capacità (di un certo programma) di predire la parola successiva, data una determinata frase o testo.

Si tratta di un algoritmo «con 1,5 miliardi di parametri, addestrato su un set di dati composto da 8 milioni di pagine Web». Ben «40GB di testo [preso da] Internet», che consentono a GPT-2 di produrre dei «campioni di testo sintetico in risposta ad un modello approntato sulla base di un input arbitrario».

Siamo ormai avvezzi alla funzione di auto completamento di Google, o quelle implementate nei nostri smartphone o editor di testo. Allo stesso modo abbiamo smesso da tempo di meravigliarci delle abilità dialogiche dei vari virtual assistant, da Alexa a Siri, da Google assistant a Cortana. Le capacità di questi intelligent personal assistant (IPA), sebbene all’apparenza sorprendenti, sono invero limitate e circoscritte all’interno di un perimetro ristretto e ben definito.

Le potenzialità racchiuse in un eventuale modello che consentisse di spingersi oltre tali limiti sarebbero enormi, come riconosce Ani Kembhavi, ricercatore presso l’Allen Institute for Artificial Intelligence:

«Chiedere l’ora o ottenere delle indicazioni stradali possono essere entrambi considerati mansioni di domanda e risposta che comportano la previsione di un testo … Quindi, ipoteticamente, se si addestra un modello di domanda e risposta sufficientemente buono, si può potenzialmente fare qualsiasi cosa».

L’algoritmo di OpenaAI si spinge invero molto oltre rispetto ad altri “colleghi”. GpT-2 è in grado di completare una frase, ma anche di generare un intero racconto, articolo o resoconto, completo eventualmente di note e citazioni (fittizie), a partire da un qualsivoglia input.

Allorquando i giornalisti del Guardian hanno fornito a GPT-2 i primi paragrafi di un articolo sulla Brexit, la macchina è stata in grado di sfornare un pezzo con «una prosa giornalistica plausibile, piena di “citazioni” di Jeremy Corbyn, menzioni del confine irlandese e risposte del portavoce del primo ministro».

Sul New Yorker invece GPT-2 ha ricoperto quasi il ruolo di coautore di un articolo, all’interno del quale si invitavano anche i lettori ad indovinare dove si trovasse il confine tra la prosa dell’autore umano e quella dell’algoritmo.

Per chi volesse cimentarsi con GPT-2, qui può metterne alla prova le qualità.

Le preoccupazioni etiche

Image for post
Elon Musk è tra gli ideatori di Open AI, l società no-profit dietro a GPT-2.

Proprio tali caratteristiche hanno indotto inizialmente i ricercatori di OpenaAI a concedere al pubblico solo una versione parziale di GPT-2, priva del dataset e dei settaggi relativi all’addestramento: «A causa delle preoccupazioni inerenti l’utilizzo di modelli linguistici di grandi dimensioni per generare un linguaggio ingannevole, distorto o offensivo su vasta scala, rilasciamo solo una versione alquanto ridotta di GPT-2».

Preoccupazioni tutt’altro che infondate in un mondo, sia reale che virtuale, assediato da fake news, bot e troll vari, che intossicano l’informazione e distorcono l’opinione delle persone.

Afferma Jack Clark, policy director di OpenAI:

«Ciò che vedo è che alla fine qualcuno utilizzerà video, immagini, audio o testo sintetici per interrompere uno stato di informazione … Avveleneranno il discorso su Internet riempiendolo di assurdità coerenti. Faranno in modo che ci siano abbastanza informazioni bizzarre da superare le buone informazioni e danneggiare la capacità delle persone reali di avere vere conversazioni».

A Clark fa eco Jeremy Howard, cofondatore di fast.ai:

«Abbiamo la tecnologia per riempire completamente Twitter, le e-mail ed il Web con una prosa che suoni ragionevole ed adeguata al contesto, che eliminerebbe tutti gli altri interventi e sarebbe impossibile filtrare».

Nondimeno a novembre dello scorso anno OpenAI ha infine deciso di rilasciare la versione completa del proprio prodotto. L’azienda infatti, a seguito di un attento e costante monitoraggio, ha riconosciuto come

«Sinora non abbiamo assistito a prove evidenti di un utilizzo improprio».

Zero-shot learning

GPT-2 ha sorpreso favorevolmente i ricercatori per la sua versatilità:

«Abbiamo addestrato un modello di linguaggio non supervisionato su ampia scala che genera paragrafi di testo coerenti, raggiunge prestazioni all’avanguardia in molti benchmark di language modeling ed esegue in maniera basilare comprensione del testo, traduzione automatica, risposta a domande e sintesi, il tutto senza alcuna formazione specifica».

Pertanto fagocitando un numero impressionante di articoli, blog e siti web, l’algoritmo ha conseguito punteggi ragguardevoli in test linguistici per i quali non aveva ricevuto un apposito addestramento e senza che si rendesse necessario ricorre ad alcun “retooling”. Un esempio di quello che, come ricordano i ricercatori di OpenAI, si suole definire “zero-shot learning”:

«GPT-2 ottiene punteggi allo stato dell’arte in una serie di attività di ambito specifico di language modeling. Il nostro modello non è addestrato su alcun set di dati apposito per nessuna di tali attività e viene valutato solo in un test finale; ciò è noto come configurazione “zero-shot”».

Dunque l’algoritmo si è scoperto in grado di svolgere altri compiti legati alla scrittura ed il linguaggio, «… quali tradurre del testo da una lingua all’altra, riassumere lunghi articoli e rispondere a domande di cultura generale». Come detto senza aver ricevuto alcun addestramento preventivo o apposito. Piuttosto gli scienziati di OpenAI ritengono che l’algoritmo abbia ricavato tali abilità dai dati. Una montagna di dati, dati grezzi, semplicemente prelevati da internet.

Nello specifico acquisiti da Reddit, un sito di social news, dove gli utenti (redditor) pubblicano post di varia natura, a cui altri utenti possono attribuire una valutazione, “su” o “giù” (“upvote” e “downvote”). I 40 GB di dati di GPT-2 accolgono circa 8 milioni di contenuti tra i più votati su Reddit. «In un certo senso tutto il lavoro è stato svolto dalle persone su Reddit attribuendo una valutazione positiva ai post», riconosce Jeff Wu, ricercatore presso OpenAI.

Nello specifico, nel caso della traduzione del testo, ad OpenAI hanno ricondotto l’abilità acquisita da GPT-2 al fatto che all’interno del suo dataset (WebText) siano contenuti alcuni esempi di traduzione. Lo stesso dicasi per la perizia dimostrata nel sintetizzare testi lunghi e fornire risposte a domande di cultura generale.

Più dati = maggiore qualità?

«Ciò che la nuova opera di OpenAI ha dimostrato è che sì, si può senz’altro costruire qualcosa che sembri davvero “comprendere” molto del mondo, semplicemente leggendolo. [GPT-2] non possiede altri input esterni e nessuna comprensione preliminare di cosa sia il linguaggio o come funzioni».

Rimarca Jeremy Howard.

Dunque, se la semplice lettura/acquisizione dei dati ha fatto affiorare delle abilità, si può essere portati a pensare che fornire ulteriori dati al sistema potrebbe permettere a quest’ultimo di affinare la propria perizia e/o consentire l’emergere di ulteriori capacità.

«Siamo curiosi di vedere cosa succede dopo … e forse un po’ spaventati».

Queste le parole di David Luan, VP of engineering presso OpenAI.

Qualora una cosa del genere fosse confermata ci troveremmo di fronte ad un vero e proprio “salto quantico” nella ricerca sull’IA. Una rivoluzione epocale, tanto sul versante della metodologia di addestramento, quanto su quello dei dati. Una vera e propria apoteosi dello “Zero-shot learning”!

Qualità e quantità dei dati da un lato, qualità e tipologia dell’addestramento (supervisionato, con rinforzo, etc.) dall’altro, sono fattori fondamentali e costosi (in termini di risorse, complessità, denaro e tempo) allorquando si parla di deep learning e reti neurali di ultima generazione. Sono gli elementi che fanno la differenza.

Nel caso in cui alla macchina fosse sufficiente “leggere” i dati che le vengono forniti, senza che questi ultimi siano selezionati, strutturati e vagliati, si otterrebbe un successo stupefacente, oltre che un risparmio ingente. Qualora la semplice lettura dei dati lasciasse affiorare nel sistema tutta una serie di competenze, senza dover ricorrere ad alcun “training” specifico o ad una qualche peculiare tipologia di addestramento, la ricerca si troverebbe ad un punto di svolta.

Allora si, avremmo verosimilmente imboccato la strada che conduce alla tanto agognata General Artificial Intenlligence. Allora si, non solo quest’ultima sarebbe alla portata, bensì anche la misteriosa singolarità che alcuni paventano potrebbe apparire quanto mai prossima.

Le evidenze, però, sembrano indicare altro.

Versatilità sì, intelligenza no.

È vero, l’algoritmo di OpenAI ha mostrato abilità inattese in molteplici attività e senza essere stato preventivamente e specificamente formato per quel dato compito. Tuttavia il livello dell’output prodotto non è paragonabile a quanto ottenuto da sistemi appositamente addestrati. È il caso della traduzione automatica, la cui qualità, come riconosce Dario Amodei, Research Director presso OpenAI, «non si avvicina affatto ai sistemi di traduzione specializzati».

Amodei, nonostante ciò, ne sottolinea la straordinarietà:

«Nondimeno ritengo ancora che il fatto che sia in grado di farlo sia pazzesco».

Una posizione affatto condivisibile, che denota come tale fenomeno meriterebbe un maggior approfondimento da parte della ricerca. Tuttavia, ad oggi perlomeno e nel futuro più prossimo, ad avere la preminenza saranno i sistemi specializzati (narrow AI), a scapito di quelli “generalisti”.

Rileva Ani Kembhavi, ricercatore dell’Allen Institute for Artificial Intelligence:

«Gli scenari zero-shoot sono fantastici, però [lo sarebbero] raggiungendo il 56 per cento in questa o quell’attività? Se lo si trasferisse all’interno del mondo reale, non sembrerebbe [più] così bello».

In secondo luogo anche la qualità dell’output per il quale GPT-2 è stato addestrato solleva più di una perplessità. Ad un primo approccio con l’algoritmo si può in effetti rimanere un po’ spaesati. Osserva James Vincent:

«È difficile illustrare esattamente quanto sia buono l’output di GPT-2, tuttavia il modello produce spesso una scrittura stranamente convincente che può sovente dare l’impressione di una intelligenza (anche se questo non vuol dire che ciò che fa GPT-2 coinvolga qualcosa che riconosceremmo come cognizione)».

Tuttavia, superata la sorpresa iniziale i nodi vengono al pettine. In realtà, riconosce Vincent:

«La scrittura che [GPT-2] produce è facilmente identificabile di solito come non umana. Sebbene la grammatica e l’ortografia siano generalmente corrette, [essa] tende a divagare dall’argomento ed il testo che crea manca di coerenza complessiva».

La coerenza in particolar modo è un primo indice della natura “sintetica” del testo. Infatti, prosegue Vincent, l’algoritmo:

«Soffre in particolare la sfida della coerenza a lungo termine; ad esempio, nell’utilizzare i nomi e gli attributi dei personaggi in modo coerente in una storia o nell’attenersi ad un singolo argomento in un articolo».

Comprensione statistica

Gary Marcus, docente presso la New York University, fondatore e CEO di Robust.AI, ha voluto mettere alla prova le capacità di GPT-2. In un post su Twitter ha fornito all’algoritmo il seguente input:

«Cosa succede quando ammassi frasche e ciocchi in un camino e poi vi lanci dei fiammiferi, è il modo nel quale generalmente si accende un …». L’esito è stato deludente: «… un canale IRC pieno di gente …». Un secondo tentativo non ha sortito risultati migliori e, come sottolinea Marcus.

Si tratta di un esempio di quella che potremmo definire “comprensione statistica”.

Il fatto è che, ancora una volta, l’algoritmo non capisce cosa scrive, non ha cognizione del contesto, non ha consapevolezza alcuna del senso profondo delle parole, non coglie le differenze e le sottigliezze del linguaggio e dei suoi molteplici significati.

Ne è ulteriore riprova l’inclinazione mostrata da GPT-2 ad inserire la parola “pubblicità” [ADVERTISEMENT] tra un paragrafo e l’altro di una storia. Un elemento chiaramente desunto dai dati e non compreso dalla macchina …

In realtà l’algoritmo fa ciò per cui è stato creato ed addestrato: prevedere parole, una sequenza di parole, in una frase, un discorso, un articolo, ecc. E lo fa egregiamente. Si comporta altrettanto bene, se vogliamo, allorquando traduce, sintetizza o fornisce risposte a domande generiche, se consideriamo che non è stato formato a tale scopo.

E la versatilità dimostrata da GPT-2, seppure limitata, è parimenti notevole. Ed è forse questo l’elemento innovativo, inatteso e perciò sorprendente, mostrato dal prodotto di OpenAI.

Image for post

I sistemi di NLP

Dunque, le singolari capacità e la peculiare versatilità mostrate da GPT-2 non sono indice di una qualche forma di intelligenza. Così Alan Turing illustrava il suo famoso test:

«Un computer meriterebbe di essere definito intelligente qualora fosse in grado di ingannare un essere umano facendogli credere di essere umano».

Nondimeno i sistemi di NLP (Natural Language Processing) sembrano ormai prossimi a conseguire un tale traguardo. Perlomeno a giudicare dai punteggi conseguiti dagli algoritmi di ultima generazione nei benchmark di riferimento.

Uno dei benchmark oggi più utilizzati è il Winograd Schema Challenge (WSC). Si tratta di un test proposto nel 2011 da Hector Levesque, docente dell’università di Toronto, quale alternativa ed evoluzione del Test di Turing. Esso si propone di valutare il “common sense reasoning” delle macchine, eminentemente mediante la risoluzione di una serie di anafore. Il WSC, come evidenziano gli scienziati dell’Allen Institute of Artificial Intelligence in un nuovo studio:

«È un insieme di 273 problemi creati da esperti di risoluzione di pronomi progettato originariamente affinché fosse irrisolvibile per i modelli statistici che si basano su preferenze selettive o associazioni di parole».

Ciò nonostante, ammoniscono i ricercatori:

«I recenti progressi nei modelli di neural language hanno già raggiunto circa il 90% di accuratezza su varianti del WSC».

La qual cosa costringe gli scienziati a chiedersi:

«Se questi modelli abbiano realmente acquisito solide capacità di buon senso o piuttosto facciano affidamento su distorsioni spurie nei dataset che causano una sopravvalutazione delle reali abilità di buon senso delle macchine».

Image for post

WinoGrande

Image for post

Per rispondere a questo interrogativo, nel loro studio propongono un nuovo test: WinoGrande. Esso ricalca nella realizzazione l’idea alla base del WSC ma presenta, invero, ben 44.000 problemi da risolvere. Allo stesso tempo i ricercatori si sono sforzati di ridurre il più possibile qualsivoglia distorsione, schema o correlazione nei dati, che potesse essere sfruttata dagli algoritmi.

Messi alla prova sul nuovo benchmark i migliori modelli di NLP hanno ottenuto punteggi che vanno dal 59,4% al 79,1% (a seconda della quantità di dati consentita per l’addestramento). Risultati che sono sensibilmente al di sotto dell’accuratezza riscontrata negli umani, che si posiziona intono al 94%. Un distacco compreso tra il 15% ed il 35% che non emerge da altri benchmark, dove detti sistemi conseguono punteggi compresi tra l’85,6% ed il 97,1%.

Tali risultanze, concludono gli autori, oltre a confermare l’efficacia del WinoGrande:

«Suscitano il timore che probabilmente in tutti questi benchmark stiamo sopravvalutando le reali capacità di common sense delle macchine».

Rimarca Yejin Choi, docente presso la University of Washington e coordinatrice della ricerca:

«Non assisteremmo, quindi, all’emergere di una qualche abilità o attitudine complessiva ed universale, bensì ad un’ottimizzazione mirata ad uno specifico dataset o, piuttosto, funzione di esso. «Si tratta di un risultato [ottenuto] su uno specifico set di dati, non il risultato di un’attività generale [general-task]».

Alla ricerca del common sense

Lo studio ha attirato anche alcune critiche. Secondo Ernest Davis, uno dei ricercatori che hanno lavorato all’originale WSC, le coppie di frasi proposte nel WinoGrande sono “assai imperfette”, con una grammatica confusa. «Non corrispondono al modo in cui le persone che parlano inglese utilizzano di fatto i pronomi», ha obiettato Davis.

La riserva avanzata da Davis viene tuttavia respinta da Yejin Choi. La docente sottolinea come modelli realmente robusti dovrebbero comportarsi al pari degli umani, allorquando questi riescono a cogliere il senso della grammatica, talora confusa, di quanti, ad esempio, si cimentano con una seconda lingua.

«Gli esseri umani possono capire facilmente a cosa si riferiscono le nostre domande e selezionare la risposta corretta … Allorché gli umani risultano capaci di farlo, la mia posizione è che anche le macchine dovrebbero essere in grado di farlo».

In conclusione, dunque, le macchine sono ormai capaci di leggere, scrivere e tradurre un testo con una discreta accuratezza. Grazie a sofisticati algoritmi esse sono in grado di identificare schemi e ricorsività in relazione all’utilizzo delle parole e alla struttura del discorso, estrapolandoli su base statistica da un esteso corpo di dati. Nondimeno, al contempo, non ne comprendono significato e contesto.

Purtroppo ad oggi, come rimarca Yann LeCun, docente presso la New York University, VP e Chief AI Scientist a Facebook, nonché vincitore del Premio Turing 2018, «semplicemente non abbiamo macchine con del buon senso [common sense]».

Il “common sense” di cui parla LeCun è quel qualcosa che spesso affonda nel non detto, sconfina nell’ovvio, per noi umani perlomeno. Spiega Yoshua Bengio, docente presso l’università di Montreal, fondatore e direttore scientifico del MILA, anch’egli vincitore del Premio Turing 2018:

«Si riferisce ad una comprensione generale di come funziona il mondo che ci circonda, è una conoscenza che acquisiamo da bambini ed è quel tipo di conoscenza che talvolta risulta intuitiva».

Il linguaggio è un sistema complesso per le macchine

Sinora, sottolinea Bengio, abbiamo compiuto notevoli miglioramenti nella percezione delle macchine, invero quello che ancora manca è la comprensione, la cognizione, la consapevolezza:

«Abbiamo fatto enormi progressi nella capacità dei computer di percepire meglio, comprendere le immagini, i suoni e persino in una certa misura il linguaggio. Ma siamo ancora molto lontani da macchine che possano scoprire autonomamente come funziona il mondo che ci circonda. Siamo ancora molto lontani da macchine in grado di comprendere in un certo qual senso i concetti di alto livello che in genere manipoliamo con il linguaggio».

Tuttavia, sebbene gli studiosi siano ormai concordi sul fatto che per proseguire il cammino l’intelligenza artificiale abbia bisogno, tra le altre cose, di acquisire del buon senso, come instillare “common sense” nelle macchine è tuttora una questione irrisolta e dibattuta. Non vi è una via acclarata, piuttosto molteplici indirizzi, tutti da esplorare, che dividono gli scienziati. Per dirla con Bengio:

«Sappiamo come risolvere problemi più semplici che sono correlati e diversi ricercatori possono avere progetti differenti per arrivarci, tuttavia è ancora un problema aperto ed è ancora allo studio come introdurre nei computer cose quali il buonsenso».

Una nuova sfida che al momento è ancora tutta da scrivere.

Written by

Graduated in European history in Florence, he started working in publishing soon after having come across a Mac computer in 1984

Get the Medium app

A button that says 'Download on the App Store', and if clicked it will lead you to the iOS App store
A button that says 'Get it on, Google Play', and if clicked it will lead you to the Google Play store