L’approdo dell’intelligenza artificiale generativa (IA) nelle abitudini quotidiane di milioni di persone è avvenuto sollevando diversi interrogativi connessi all’affidabilità dei contenuti prodotti da questa tecnologia in termini di veridicità. L’ultimo episodio di questa controversia è emerso in questi giorni, quando si è scoperto che le AI Overview di Google, ovvero i testi generati dall’IA Gemini offerti da qualche settimana dal motore in risposta alle ricerche degli utenti, forniscono in alcuni casi risultati casuali.
È stato mostrato come, alla richiesta del “significato” (“meaning”, nda) di espressioni idiomatiche inesistenti o completamente inventate, l’IA di Mountain View fornisca spiegazioni approfondite e argomentate, come se queste espressioni esistessero realmente. Le Overview di Google avevano però già fatto parlare di sé in questo senso, a causa di risposte inaffidabili e potenzialmente pericolose per la salute.
Complessivamente, valutare l’affidabilità delle risposte dell’IA generativa è complesso, perché questi fattori dipendono in larga parte dal contesto e non è semplice esprimerli in termini assoluti. Secondo il Massive Multitask Language Understanding (MMLU), uno dei benchmark per l’analisi dell’affidabilità dell’IA generativa, ad esempio, ChatGPT-4o (l’ultimo modello di OpenAI) raggiungerebbe un tasso di accuratezza dell’88,7%. Si tratta di dati che, però, provengono da metodi di analisi che gli esperti di IA tendono a ritenere poco affidabili, rappresentativi e troppo generici, ma che le aziende del settore dell’IA, invece, apprezzano molto.
La ricerca finora disponibile su specifici ambiti, invece, ha dato risultati piuttosto indicativi. Le IA generative di Google non sono le sole a mostrare problemi di veridicità. ChatGPT, infatti, ha fatto registrare risultati poco affidabili in risposta a quesiti di diverso argomento. In un caso dello scorso novembre, una persona in Norvegia è stata falsamente accusata dal chatbot di avere precedenti penali per omicidio. Il caso è diventato anche una controversia legale. In ambito sanitario, le risposte di ChatGPT sembrano non essere affidabili. Per quanto riguarda l’informazione, il Tow Center for Digital Journalism della Columbia University ha riscontrato come le maggiori app di IA generativa non se la cavino benissimo con la ricerca e la citazione delle notizie. Lo stesso varrebbe per le informazioni di natura legale. Anche l’IA di Meta, da poco inclusa in alcuni dei suoi prodotti, sembra far fatica con la realtà.
USA: mentre l’intelligenza artificiale entra nelle scuole emerge un paradosso
Tra le righe 22.04.2025, 15:00
Contenuto audio
Le “allucinazioni” dell’IA
Per definire questo tipo di risposte problematiche si è spesso utilizzato il termine “allucinazioni”, come a indicare un delirio della macchina. Il concetto di “allucinazione”, però, è particolarmente controverso ed è stato criticato da diversi esperti per le sue connotazioni mediche - inapplicabili a una macchina - e per via del fatto che la parola presuppone l’esistenza di uno stato di coscienza e conoscenza da cui l’IA può, sbagliando, deviare. Le IA generative, però, non sono né coscienti, né possono conoscere quello che dicono: di conseguenza, non possono nemmeno avere allucinazioni.
Il problema dell’affidabilità di questi strumenti è, infatti, in buona parte, un problema di quanta aspettativa diamo a questi strumenti. Alcune risposte a questi quesiti si trovano direttamente sul sito di OpenAI, dove l’azienda descrive le capacità della sua IA. Qui si legge, ad esempio, come “i risultati potrebbero essere imprecisi, non veritieri o altrimenti fuorvianti in alcuni casi”; “può occasionalmente fornire risposte errate” e altri richiami simili. L’IA generativa, infatti, rappresenta un’evoluzione del machine learning, in quanto arricchisce i modelli con la capacità di generare nuovi contenuti, come testi o immagini, partendo dai dati su cui sono stati addestrati. Questi modelli non possiedono una comprensione reale e non sono capaci di discernere tra realtà e invenzione, né tra ciò che è corretto e ciò che non lo è.
L’IA generativa è molto utile e benefica e fornisce, spesso, risultati e risposte sorprendenti e vicinissime al linguaggio e al ragionamento umano, ma sulla base dello svolgimento di calcoli probabilistici e statistici, non su una reale comprensione delle questioni che le vengono sottoposte. Nonostante i miglioramenti tecnici e gli avanzamenti nei modelli alla base di queste IA, che sono impressionanti, le intelligenze artificiali generative si basano su un semplice principio: “predire” la miglior risposta statistica, e non la verità.
*Philip Di Salvo è senior researcher e docente presso l’Università di San Gallo. I suoi temi di ricerca principali sono i rapporti tra informazione e hacking, la sorveglianza di Internet e l’intelligenza artificiale. Come giornalista scrive per varie testate.

Il Faro: Arte o Algoritmo?
Telegiornale 11.01.2025, 20:00
Intelligenza artificiale Made in China
Modem 29.01.2025, 08:30