L’AI sbaglia. Il problema è che non ce ne accorgiamo

Con la scoperta delle Americhe del 1800, Napoleone…

Sembra assurdo, viste le capacità di questi sistemi di AI, ma questo è esattamente l’inizio di una delle risposte che ho ottenuto da un modello di intelligenza artificiale dopo avergli chiesto un chiarimento sulla scoperta delle Americhe. Si tratta di un esempio volutamente forzato: la conversazione precedente è stata infatti costruita appositamente per arrivare a questo risultato.

Nonostante i progressi — che stanno portando grandi benefici — una situazione come quella descritta non è così improbabile nemmeno in un contesto di utilizzo “normale”, in cui l’utente è alla ricerca di informazioni veritiere e affidabili.
A sostenere questa tesi è, ad esempio, l’AA-Omniscience Index di Artificial Analysis, un’organizzazione indipendente che offre servizi di comparazione e analisi statistica dei modelli di intelligenza artificiale. Lo studio comprende circa 6.000 domande, alle quali diversi sistemi vengono sottoposti; le risposte vengono poi valutate con rigore. Secondo i risultati, solo tre modelli sono stati in grado di rispondere correttamente ad almeno il 50% delle domande. Il test è progettato in modo che anche i sistemi più avanzati ottengano punteggi relativamente bassi, così da evidenziare meglio differenze e limiti. Il punteggio, quindi, non va interpretato come se solo la metà dei modelli fosse in grado di fornire informazioni precise.

L’analisi considera sia i casi in cui i sistemi rispondono in modo errato per mancanza di informazioni nel loro addestramento, sia quelli in cui — essendo modelli statistici — commettono errori che li portano “fuori strada”. Inoltre, per via del processo di addestramento, non è possibile garantire un aggiornamento costante alle informazioni più recenti. Per questo motivo, sempre più provider (cioè le aziende che sviluppano e offrono questi strumenti) stanno integrando funzionalità di ricerca sul web, così da fornire maggiore contesto, soprattutto su eventi recenti.
Uno dei temi più rilevanti quando si parla di intelligenza artificiale è la sua affidabilità. Come si misura quanto un sistema sia davvero “bravo”? Studi come l’AA-Omniscience Index cercano di rispondere a questa domanda sottoponendo i modelli a migliaia di quesiti e valutandone la correttezza. Tuttavia, misurare le prestazioni non è semplice. Non basta distinguere tra risposte giuste e sbagliate: esistono casi in cui una risposta è formalmente corretta ma vaga, oppure dettagliata ma con errori difficili da individuare. Alcuni sistemi, inoltre, sono particolarmente abili nel formulare risposte convincenti anche quando non sono accurate. Un ulteriore limite riguarda il contesto dei test. I benchmark, cioè gli insiemi di domande utilizzati per confrontare i sistemi, sono progettati per garantire confrontabilità, ma non sempre riflettono le situazioni reali. Nella pratica, infatti, le richieste degli utenti possono essere ambigue, incomplete o fortemente dipendenti dal contesto specifico. Per questo motivo, i risultati di questi studi vanno interpretati con cautela: sono utili per comprendere i progressi e confrontare diversi sistemi, ma non garantiscono un’affidabilità costante nell’uso quotidiano.
Un altro limite significativo riguarda i bias, ovvero le distorsioni presenti nei dati con cui i sistemi vengono addestrati. Le AI apprendono analizzando enormi quantità di testi provenienti da internet, libri e altre fonti. Se questi dati contengono errori, squilibri o punti di vista parziali, tali elementi possono essere assimilati e riproposti nelle risposte. Questo dimostra che l’AI non è neutrale. Può, ad esempio, dare maggiore spazio a determinate prospettive culturali oppure riflettere stereotipi diffusi. Anche quando le informazioni sono corrette, possono risultare presentate in modo sbilanciato o incompleto. Il problema è che queste distorsioni non sono sempre evidenti. Una risposta può apparire plausibile e ben formulata, ma contenere una visione parziale della realtà. Per un utente senza competenze specifiche, riconoscere questo tipo di errore è particolarmente difficile.
In questo contesto emerge però un punto chiave: quando questi strumenti vengono utilizzati come integrazione alla propria conoscenza — e non come sostituto — aumenta significativamente la possibilità di individuare eventuali errori. Se una risposta contrasta con ciò che si sa già, o se appare troppo generica, diventa naturale verificarla: cercare una fonte, controllare una data o confrontare più risultati. In questo senso, la competenza dell’utente agisce come filtro e riduce l’impatto pratico delle cosiddette “allucinazioni”. C’è poi un’altra considerazione rilevante.
Quando una persona possiede già competenze solide, l’intelligenza artificiale diventa uno strumento estremamente utile. Prendiamo la programmazione: chi ha esperienza non utilizza l’AI per delegare completamente il lavoro, ma come supporto per lavorare in modo più efficiente. Può approfondire nuove tecnologie, chiarire dubbi e scoprire soluzioni alternative. Il problema nasce quando questi strumenti vengono utilizzati “alla cieca”, senza comprendere ciò che producono. Copiare e incollare codice senza capirne il funzionamento può sembrare una scorciatoia, ma comporta rischi concreti: se qualcosa non funziona, diventa difficile intervenire; peggio ancora, si possono adottare soluzioni errate senza rendersene conto. Chi non ha esperienza spesso fatica a distinguere una buona risposta da una sbagliata. Non è in grado di valutare l’efficienza di una soluzione, i possibili problemi futuri o la presenza di errori nascosti. Inoltre, tende ad accettare la prima risposta che “sembra funzionare”, senza approfondire o porre domande più mirate. Al contrario, chi possiede competenze riesce a sfruttare questi strumenti in modo molto più efficace. Se qualcosa non torna, lo riconosce rapidamente; formula richieste più precise, chiede esempi concreti e confronta alternative. In questo modo, l’AI diventa uno strumento per migliorare il proprio lavoro, non per evitarlo. La differenza è evidente nei risultati. Da una parte, chi utilizza l’AI senza comprenderla accumula soluzioni che funzionano solo in apparenza, ma che nel tempo generano problemi: errori difficili da individuare, sistemi poco affidabili e difficoltà nelle modifiche.
Dall’altra, chi la usa con consapevolezza riesce a lavorare più velocemente senza sacrificare la qualità. E questo non vale solo per la programmazione. In qualsiasi ambito — dal diritto alla medicina, fino al lavoro creativo — l’intelligenza artificiale è utile solo se chi la utilizza è in grado di valutare ciò che produce. In caso contrario, può diventare una fonte di errori difficili da individuare. In sintesi, l’AI non sostituisce le competenze: le amplifica. E proprio per questo, il risultato dipende prima di tutto da chi la utilizza.

Intelligere

L’AI sbaglia. Il problema è che non ce ne accorgiamo

Commenti