LLMs: lettori fortissimi, analfabeti e distanti

L’intelligenza artificiale sembra conoscere ragioni che l’umano lettore non comprende. I LLMs (Large Language Models), straordinari consumatori di testi, potrebbero essere la prossima frontiera del distant reading.

Vorrei suggerire l’idea che i LLMs potrebbero contribuire a inaugurare una nuova stragione per chi, come me, si interroga sul futuro della lettura.

Vi ricordate la retorica del «lettore forte»? Secondo l’Istat si definisce tale chi legge almeno dodici libri all’anno. La quota di italiani che, più o meno stabilmente, appartengono a questa categoria supera di poco il 15%. Analogamente esistono «lettori deboli» (al massino tre libri in un anno) e «medi» (da quattro a undici libri). E poi ci sono i «non lettori», che costituiscono la maggioranza della popolazione del nostro paese. Ogni tanto la tassonomia si estende a due ulteriori categorie: quella dei lettori «fortissimi» (da 21 a 40 libri all’anno) e quella dei «superlettori» (oltre 40 libri all’anno).

Leggere Guerra e pace 212 mila volte

Nessun umano sarà però in grado di leggere la quantità di testi alla portata di certe macchine. Tale circostanza è diventata ancora più evidente con la diffusione dei LLMs (Large Language Models), modelli linguistici costruiti su processi di deep learning e addestrati su corpus testuali molto ampi (miliardi di documenti). Per esempio, GPT-3.5 – il modello su cui si appoggia ChatGPT nella versione di default – è stato allenato su un dataset di dimensioni pari a 570 gigabyte. Il che corrisponde a circa 119 miliardi di parole. In pratica, nella fase di training, GPT-3.5 ha letto oltre 212 mila libri della lunghezza di Guerra e pace. Per eguagliarlo, un essere umano dovrebbe leggere 2585 libri della stessa lunghezza ogni anno, cominciando dal primo giorno della sua vita.

Certo, si potrebbe obiettare che, quando «legge», GPT non compie la stessa attività di un essere umano. Leggere il capolavoro di Tolstoj, per noi, significa riconoscere la bellezza del testo e concederci al piacere che esso procura, ma anche emozionarci, fantasticare, rivivere esperienze passate, riflettere sul senso della vita ed empatizzare con i personaggi della storia. Tutte cose che GPT non è in grado di fare.

Macchine calcolanti

Del resto, sbaglieremmo a definire GPT una macchina pensante. Stiamo parlando, semmai, di una macchina calcolante. Tuttavia, il calcolo non si esaurisce nella sua dimensione analitica. Il calcolo ha sempre, in una certa misura, una funzione euristica. E dunque contribuisce a generare non solo nuove scoperte empiriche, ma anche nuovi modelli teorici.

Lo aveva già intuito, oltre 150 anni fa, Ada Lovelace. La quale, traducendo le Nozioni sulla Macchina Analitica del Signor Carlo Babbage di Luigi Federico Menebrea, così annotava: «the Analytical Engine does not occupy common ground with mere “calculating machines.” It holds a position wholly its own; and the considerations it suggests are most interesting in their nature».

Di quali calcoli stiamo parlando? In generale, un modello linguistico artificiale è una distribuzione di probabilità su sequenze di parole. Data una qualsiasi sequenza di parole di lunghezza m, un modello linguistico assegna una probabilità P all’intera sequenza. Quindi, a differenza di altri sistemi di linguistica computazionale, i LLMs come GPT:

non usano una grammatica predefinita;
non eseguono un processo di parsificazione semantica (semantic parsing).

GPT, un lettore sgrammaticato

Riguardo al primo aspetto, è come se GPT si impegnasse a mettere insieme le tessere di un puzzle a occhi chiusi, cioè basandosi solo sul contorno di ciascun pezzo e senza tenere in alcun conto le immagini e i colori di ognuno di essi. Anziché analizzare stringhe di simboli e confrontarli con un set di regole predefinito, per comprendere il linguaggio naturale i LLMs come GPT utilizzano una tecnica di end-to-end machine learning: il modello apprende tutti i passaggi tra la fase iniziale di input e il risultato finale di output, per cui le diverse parti vengono addestrate in modo simultaneo anziché sequenziale.

In altri termini, l’apprendimento deriva direttamente dalle enormi quantità di testo di addestramento, senza richiedere una conoscenza predefinita e specifica di regole grammaticali o strutture linguistiche. Durante il suo addestramento, insomma, I LLMs imparano a riconoscere e apprendere modelli e relazioni nel testo solo attraverso i dati forniti. Il che consente loro di generare risposte coerenti e significative, pur in assenza di una conoscenza esplicita delle regole grammaticali.

Il dielmma semantico

GPT non possiede una comprensione semantica profonda o una conoscenza del mondo, come invece gli esseri umani. Piuttosto, il modello si basa sulla correlazione statistica tra parole e sequenze di testo presenti nei dati di addestramento. La macchina genera le sue risposte senza comprenderne il significato in modo concettuale. Da questo punto di vista, dunque, sarebbe azzardato affermare che GPT sa leggere. Potremmo definirlo un lettore formalmente analfabeta.

Ciò dovrebbe significare che il modello non esegue un’elaborazione del linguaggio naturale avanzata come è il semantic parsing, e che dunque non è in grado di trasformare una frase in una rappresentazione formale del suo significato. Qui però rischiamo di restare intrappolati nelle secche del dibattito che divide gli innatisti alla Yann LeCun dagli empiristi alla Gary Markus (del quale suggerisco di leggere Innateness, AlphaZero, and Artificial Intelligence).

D’altra parte, non mancano i tentativi di utilizzare GPT e altre reti neurali di tipo transformer proprio per compiere esperimenti di semantic parsing (si vedano i lavori di David McAllester nel suo blog Machine Thoughts e il paper di Gabriela Ferraro e Hanna Suominen Transformer Semantic Parsing). È disponibile anche uno strumento come LLMParser, che risponde allo scopo di classificare ed estrarre dati strutturati usando LLMs. Ma il punto resta sempre lo stesso: che senso diamo all’idea di comprensione semantica di un testo? E, peggio ancora, che cosa caratterizza l’esperienza della lettura letteraria, al di là della comprensione semantica?

Distant reading

Forse si tratta di impostare un lavoro di collaborazione fra due lettori molto diversi: l’essere umano e la macchina. Ci dovremmo domandare allora quale sia lo specifico di un lettore che elabora le informazioni alla maniera dei LLMs. A mio avviso esso consiste nella potenza di calcolo, la quale gli consente di osservare i testi all’interno di un campo più vasto di quello alla portata umana. Per questo motivo trovo decisamente pochi interessanti gli esperimenti che puntano sulla capacità di GPT di leggere e riassumere il contenuto di un singolo testo.

La strana fuga della Monaca di Monza, secondo GPT

Per esempio, se usiamo ChatGPT per chiedere al LLM di OpenAI di fornirci un sunto del capitolo X dei Promessi sposi, otteniamo questa bizzarra e imbarazzante risposta:

Il capitolo X de “I Promessi Sposi” di Alessandro Manzoni, intitolato “La fuga a Monza”, è un capitolo cruciale nella storia del romanzo. Questo capitolo è incentrato sulla fuga dei protagonisti, Renzo e Lucia, dalla minaccia di Don Rodrigo e sulla loro ricerca di sicurezza e protezione a Monza.

Il capitolo si apre con una scena intensa in cui Don Rodrigo, desideroso di vendicarsi di Renzo, organizza un piano per catturarlo. Nel frattempo, Renzo e Lucia, consapevoli del pericolo che li circonda, decidono di fuggire dal loro villaggio di origine, per cercare rifugio altrove. Manzoni crea un senso di urgenza e tensione nella narrazione, descrivendo la situazione pericolosa in cui si trovano i due giovani.

La fuga di Renzo e Lucia si rivela un’ardua avventura, con molte sfide da superare. Manzoni descrive i pericoli e gli ostacoli che i protagonisti incontrano lungo il cammino, come il rischio di essere riconosciuti, le difficoltà nel trovare un rifugio sicuro e le avversità che devono affrontare per assicurarsi il cibo e i mezzi di sostentamento durante la fuga.

Nel corso del capitolo, Renzo e Lucia si trovano di fronte a situazioni drammatiche e incontrano personaggi che saranno importanti per il loro destino. Ad esempio, incontrano l’Innominato, un potente e spietato signore della zona, che inizialmente sembra minacciarli ma successivamente decide di aiutarli. Questo incontro svolge un ruolo significativo nella trama e nelle vicende dei personaggi principali.

Il capitolo X rappresenta un momento di transizione cruciale nella storia, in cui Renzo e Lucia sono costretti a lasciare il loro ambiente familiare e a cercare una nuova vita altrove. Manzoni descrive la loro fuga con grande dettaglio, creando una tensione palpabile e coinvolgendo il lettore nella loro lotta per la sopravvivenza e per essere finalmente liberi dalla minaccia di Don Rodrigo.

In sintesi, il capitolo X de “I Promessi Sposi” rappresenta una tappa importante nella trama del romanzo, in cui i protagonisti affrontano una fuga pericolosa e si confrontano con personaggi chiave che avranno un impatto significativo sul loro futuro. La scrittura accurata e coinvolgente di Manzoni rende questo capitolo emozionante e drammatico, lasciando il lettore desideroso di scoprire cosa accadrà successivamente nella storia.

I LLMs per prendere le distanze

Ora, a parte la scorrettezza filologica consistente nel suggerire che i capitoli del romanzo di Manzoni abbiano dei titoli, quello sopra proposto non corrisponde certo al contenuto del capitolo X, notoriamente incentrato sull’ingresso di Gertrude in monastero e sul suo sciagurato incontro con Egidio.

Il punto è che il modo produttivo di usare i LLMs non è quello appena descritto. L’approccio giusto non può che essere quantitativo. Lo abbiamo già detto: a noi non basterebbe una vita intera per leggere Guerra e pace 2585 volte, mentre un cluster di migliaia di GPU NVIDIA H100 completa tale task in un tempo assai breve. Meglio ancora, i LLMs possono leggere in breve tempo 2585 opere di entità paragonabile a Guerra e pace, per scoprire aspetti che a noi sfuggirebbero. È l’ipotesi del distant reading e della quantificazione dei fenomeni letterari, su cui Franco Moretti lavora dal 2010 e che ha portato alla costituzione dello Stanford Literary Lab.

Il distant learning è una risorsa proprio perché implica un distanziamento. Suggerivano Giorgio Gaber e Sandro Luporini che «bisogna spesso andarsene lontano e ridere di noi come da un aeroplano» (Ipotesi per una Maria, 1981). Bisogna andare lontano per capire. Esattamente all’opposto del dettato di Robert Capa, per il quale «se una fotografia non è venuta bene, significa che non eri abbastanza vicino». Certo, da questo punto di vista siamo solo ai primi esperimenti. Segnalo, per esempio, un interessante tentativo di analisi del contenuto realizzata da Ted Underwood usando le API di OpenAI (Using GPT-4 to measure the passage of time in fiction, 19 marzo 2023). Obiettivo del lavoro è misurare lo scorrere del tempo nella narrativa. La conclusione di Underwood è che i LLMs sono più accurati rispetto ai vecchi metodi computazionali di analisi semantica.