Il Funzionalismo: l’alleanza originaria tra IA e filosofia della mente
Quando John McCarthy coniò il termine “intelligenza artificiale” alla Conferenza di Dartmouth nel 1956, descrisse il suo obiettivo in termini sorprendentemente diretti: “far comportare una macchina in modi che sarebbero considerati intelligenti se a farlo fosse un essere umano.” McCarthy e i suoi colleghi puntavano a creare macchine in grado di utilizzare il linguaggio, formare astrazioni, risolvere problemi complessi e persino migliorarsi autonomamente (McCarthy et al., 1955, p. 12).
Come sappiamo bene, sebbene per i primi settant’anni di vita l’IA abbia ottenuto successi notevoli, il sacro graal dell’intelligenza generale – to make computers do the sorts of things that minds can do (Boden 2016) – è (per ora) sfuggito, ma l’obiettivo che la disciplina si era data sollevava e solleva ancora una questione epistemologica centrale: le macchine possono creare conoscenza a partire dall’esperienza in modi simili alla cognizione umana? Ovvero, “Qualunque cosa possediamo noi (umani), che la chiamiamo intelligenza, pensiero, cognizione, mente o altro, possono possederla anche le macchine?” (Walmsley, 2012, p. 3).
Naturalmente, noi umani siamo materialmente diversi dalle macchine: abbiamo cervelli biologici fatti di cellule, quindi l’ambizione dell’IA deve appoggiarsi sull’idea che l’intelligenza non riguarda tanto l’hardware, quanto i processi funzionali che l’hardware rende possibili. Quello che conta, non è la macchina di per sé, ma la macchina virtuale, che è un sistema di information processing realizzabile da diversi sostrati fisici. Non a caso, per molto tempo l’IA si è alleata con il funzionalismo, un approccio alla filosofia della mente diffuso a partire dagli anni 60 da studiosi come Hilary Putnam (Putnam 1960, 1967; vedi anche Block e Fodor 1972).
Secondo il funzionalismo, la cognizione non dipende dalla “materia” che calcola, ma dalle operazioni svolte da quella materia. La mente umana e un computer possono quindi condividere lo stesso tipo di “intelligenza”, se entrambi eseguono funzioni simili, indipendentemente dal fatto che uno sia fatto di neuroni e l’altro di circuiti. Sulla base di questo principio, il Cognitivismo Classico ha concepito la cognizione come una serie di operazioni simboliche che processano informazioni per generare risposte. L’idea è semplice e intuitiva: i processi cognitivi sono computazioni, che partono da un’esperienza (input) e producono rappresentazioni interne coerenti, a loro volta utilizzabili come base per ulteriori elaborazioni, fino ad una eventuale azione motoria (l’output). Prendendo ad esempio il riconoscimento visivo, secondo David Marr (1982), quando osserviamo una tazza di caffè, il cervello elabora gli stimoli visivi in moduli specifici fino a creare una rappresentazione tridimensionale dell’oggetto, che poi può guidare azioni come afferrarla.
Tuttavia, questa visione “funzionalista” della mente, pur avendo spinto la ricerca sull’IA negli anni ’60 e ’70, non è riuscita a risolvere il problema dell’intelligenza generale. Sebbene siano stati sviluppati sistemi avanzati per compiti specifici (dal riconoscimento vocale al gioco degli scacchi), al premio finale, l’intelligenza “forte” – capace di adattarsi e apprendere come un essere umano – lA nei suoi primi decenni non si è nemmeno avvicinata.
La Realtà dell’IA Moderna: reti neurali e GPU
Oggi l’IA si è allontanata dall’ideale funzionalista, spostando l’attenzione da architetture cognitive astratte e indipendenti dall’hardware verso strategie sempre più legate alla materialità della computazione. Il deep learning richiede enormi risorse computazionali e hardware specializzato, come le GPU, per addestrare reti neurali su larga scala.
La visione funzionalista, che considera la cognizione come un insieme di operazioni su simboli indipendenti dal substrato, si è radicalmente modificata, e i modelli di IA odierni evidenziano l’importanza di configurazioni hardware specifiche e risorse energetiche imponenti, nonché crescenti investimenti in conto capitale, anche per ottenere un’intelligenza ristretta.
La dipendenza dalle GPU e dall’hardware specializzato segna un passaggio verso un funzionalismo materializzato, in cui raggiungere l’intelligenza dipende tanto dall’ottimizzazione delle risorse fisiche quanto dall’implementazione di processi funzionali. I moderni sistemi di IA, che richiedono milioni di dollari in potenza di calcolo e una notevole quantità di energia per l’addestramento, rivelano una profonda dipendenza dai vincoli materiali. Così, l’intelligenza nell’IA contemporanea non è meramente una questione di ruoli causali astratti, ma è limitata dai sistemi fisici che la rendono possibile.
Naturalmente, anche dopo questo cambiamento, la questione epistemologica resta in primo piano: tali sistemi, vincolati dall’hardware, possono davvero rispecchiare i processi di generazione della conoscenza della cognizione umana o sono limitati a semplici approssimazioni superficiali condizionate dai loro vincoli materiali? Possono essere la chiave per rispondere alle domande di McCarthy?
Embodiment e Nouvelle AI: l’Intelligenza come Interazione
La materializzazione dell’intelligenza non è una novità di questi anni. Già negli anni ’80, la Nouvelle AI ha criticato il funzionalismo e il cognitivismo classico, sostenendo che la cognizione è inseparabile dalla struttura fisica di un sistema. Rodney Brooks (1991) e altri ricercatori hanno suggerito che la cognizione nasce dall’interazione con l’ambiente e non da semplici calcoli simbolici. Questo concetto di embodiment (incarnazione) sostiene che la conoscenza sia il risultato di una serie di azioni situate: per percepire una tazza di caffè, ad esempio, il corpo deve eseguire movimenti fisici che fanno parte integrante del processo cognitivo.
L’embodiment mette in discussione la “neutralità del substrato” postulata dal funzionalismo: l’intelligenza non può essere “disincarnata”, ma è radicata nella struttura fisica della macchina. I robot della Nouvelle AI, progettati per adattarsi dinamicamente agli ostacoli e agli ambienti, rappresentano un’“intelligenza pratica” che nasce dall’interazione con il mondo. Questa prospettiva, influenzata dalla psicologia ecologica di James Gibson (1979) e dall’autopoiesi di Francisco Varela (1991), suggerisce che alcune forme di conoscenza non possano essere simulate in assenza di un corpo. L’intelligenza nasce non soltanto dalle funzioni causali della cognizione, ma dalle caratteristiche uniche della forma materiale della macchina, una visione che sfida l’idea funzionalista classica della neutralità del substrato e sottolinea che alcune capacità cognitive sono inseparabili dai modi specifici in cui un sistema si relaziona con l’ambiente. Applicato al nostro esempio sopra, percepire una tazza di caffè richiede non soltanto azioni multiple come movimenti degli occhi, della testa e del corpo (ad esempio, il cambio dello sguardo), ma la percezione è finalizzata, fin dall’inizio, al rilevamento delle possibilità di azione (come afferrare).
Il cervello come macchina predittiva
La nouvelle AI, forse perché creare robot autonomi è davvero difficile, non è mai diventata mainstream (anche se ci ha portato Roomba, il robot domestico creato da un’azienda fondata proprio da Rodney Brooks), ma il successo del machine learning, e in particolare delle reti neurali, ha trovato un nuovo alleato in scienziato cognitivi come Andy Clark (2016), propugnatore di una teoria che si spinge ancor avanti nel definire l’interdipendenza tra aspetto funzionale e aspetto materiale della cognizione. Negli ultimi decenni, la teoria del predictive processing ha proposto una visione della cognizione come processo predittivo. Secondo Clark, il cervello umano funziona come una macchina predittiva, che crea continuamente ipotesi e le confronta con l’esperienza per aggiornarsi. Questa teoria sostituisce il modello di elaborazione lineare con un ciclo di feedback continuo, in cui le previsioni vengono corrette costantemente. Per tornare al nostro esempio, percepire la tazza di caffè è un processo già informato dai processi sottostanti nel cervello, che costituiscono un insieme di aspettative più o meno probabili riguardo agli input sensoriali e alle loro cause. Queste aspettative sono costantemente confrontate con le informazioni sensoriali effettivamente ricevute, generando errori di previsione (deviazioni) che vengono elaborati nel cervello. La visione tradizionale del cervello che utilizza le informazioni sensoriali per costruire una rappresentazione del mondo viene quindi capovolta. Il predictive processing vede il cervello come una “macchina predittiva” che costruisce continuamente dal basso ipotesi sul mondo e le confronta con gli input sensoriali ricevuti, aggiornando le previsioni per ridurre l’errore di previsione. In questa architettura, il sistema è costituito da un modello gerarchico e generativo che costruisce attivamente rappresentazioni interne basate su una continua integrazione di informazioni bottom-up (provenienti dall’ambiente) e top-down (provenienti dalle previsioni). Ogni livello del sistema mantiene aspettative sui livelli inferiori, creando un ciclo di feedback in cui le discrepanze tra le previsioni e la realtà percepita (errori di previsione) sono utilizzate per aggiornare e migliorare il modello del mondo.
World Models e simulazioni
Di recente, Yann LeCun (2022) ha proposto un’architettura nota come world models. L’idea è che un sistema intelligente debba costruire rappresentazioni interne del mondo per simulare scenari e prendere decisioni, anche in assenza di input sensoriali. L’architettura dei world models proposta da LeCun si basa sull’idea che un sistema intelligente debba costruire una rappresentazione interna del mondo, per immaginare scenari e prendere decisioni anche in assenza di input sensoriali diretti. Rispetto al predictive processing, LeCun mette in discussione il ruolo centrale dell’errore di previsione come meccanismo principale di apprendimento e aggiornamento delle previsioni. Invece, propone che l’intelligenza artificiale dovrebbe apprendere e pianificare utilizzando modelli interni che possano simulare l’interazione con l’ambiente senza basarsi esclusivamente su feedback di errori.
Nel modello di LeCun, il world model viene allenato a creare una sorta di simulatore interno dell’ambiente, che il sistema poi usa per “proiettare” i risultati di azioni e scenari futuri. Questo consente di anticipare gli effetti delle azioni e di pianificare in modo più efficiente, senza la necessità costante di un ciclo di feedback basato sull’errore. Il sistema, quindi, diventa capace di apprendere da esperienze simulate e di eseguire azioni informate senza un continuo confronto con gli input sensoriali reali. Il modello è chiaramente influenzato dalla moderna epistemologia materialista e dall’embodiment (anche se non la cita esplicitamente), sostenendo che l’intelligenza e la conoscenza siano necessariamente radicate nell’interazione con l’ambiente e nei processi di simulazione che anticipano e testano continuamente le esperienze.
Per LeCun l’intelligenza dipende non dalle operazioni simboliche su rappresentazioni (sono tutte reti neurali, quindi lavorano a livello sub-simbolico), ma dall’interazione simulata e dal substrato materiale che rende possibile questa interazione.
Filosofi! Aiuto!
John McCarthy, sempre lui, si è avvicinato spesso alla filosofia. Pur essendo consapevole che “i filosofi non sono davvero giunti a un accordo [riguardo alla definizione di intelligenza] in 2500 anni” (McCarthy 2007, p. 5, era convinto la filosofia servisse all’AI (ne era convinto da giovane, “Perché l’intelligenza artificiale ha bisogno della filosofia” (McCarthy & Hayes 1969, p. 2) e ne era convinto da maturo padrino della disciplina, “Filosofi! Aiuto!” (McCarthy 1995, p. 5). La filosofia serve all’AI perché bisogna risolvere la questione fondamentale, che è epistemologica: cosa significa che un sistema “conosce” qualcosa se non ha consapevolezza o intenzionalità? Senza una coscienza che struttura l’esperienza, il “sapere” delle macchine si riduce a pattern statistici, privi di una intenzionalità che possa legare la conoscenza al mondo.
Secondo una visione classica, la conoscenza umana è intenzionale e soggettiva, mentre le macchine mancano di questo legame attivo con il mondo. Questa differenza introduce una distanza epistemica importante: mentre il sapere umano è causale e deduttivo, quello dell’IA è correlativo e basato su statistiche. Possiamo davvero parlare di conoscenza, o siamo noi a interpretare questi output come “significativi”? Qui si apre uno spazio fondamentale per la filosofia, e in particolare per la filosofia della mente e dell’epistemologia: cosa significa che queste macchine “sanno” qualcosa, se non hanno una consapevolezza diretta del mondo?
Nella filosofia classica, la conoscenza è spesso vista come una relazione tra il soggetto e l’oggetto, mediata dall’intenzionalità della coscienza: un aspetto che risale a Brentano (1874) e che è stato sviluppato nella fenomenologia da Husserl (1900) e poi ripreso da molti altri. Le nostre macchine, però, mancano di questo tipo di intenzionalità: non hanno una coscienza che struttura l’esperienza o un “punto di vista” interno, eppure i loro output spesso appaiono come “significativi” o “dotati di senso” ai nostri occhi.
L’epistemologia dell’intelligenza artificiale solleva quindi interrogativi, il più fondamentale è questo: se il “sapere” dei modelli linguistici si limita a pattern statistici estratti da enormi quantità di dati, possiamo dire che possiedano conoscenza? Per molti, la risposta è “senza dubbio no, sono soltanto pappagalli stocastici” (Bender e al. 2021), siamo noi e soltanto noi ad attribuire senso e l’uso della parola “comprendere”, per un LLM, è soltanto metaforico. La questione, però, non è soltanto semantica, ma tocca la natura stessa della nostra relazione con queste macchine che non possiedono intenzionalità né esperienza diretta del mondo e quindi non sono davvero “consapevoli” di ciò che generano. Se è così, qual è la natura del sapere che queste macchine producono? E come possiamo fidarci nell’utilizzarlo?
Torniamo a Kant: la Struttura Trascendentale della Conoscenza
È capitato spesso alla filosofia di voler “tornare a Kant” (ad esempio alla fine dell’800 con le scuole neokantiane e la fenomenologia, negli 60 del ‘900 con Strawson e il contrattualismo di Rawls), e in questa domanda sull’epistemologia dell’IA, forse, torna utile la posizione kantiana, che distingue tra la conoscenza sensibile, radicata nell’esperienza, e la struttura concettuale a priori che dà forma a quell’esperienza. Le AI moderne operano senza una struttura concettuale: non possiedono categorie innate di causalità, unità o identità che strutturano il mondo in modo autonomo, come fanno gli esseri umani.
L’apprendimento delle macchine è prevalentemente induttivo e correlativo, mentre la conoscenza umana è, in gran parte, deduttiva e causale. Questa differenza introduce una distanza epistemologica significativa: per quanto avanzati, gli attuali sistemi sub-simbolici mancano di una vera capacità di comprendere di costruire significati indipendenti dai dati di addestramento.
C’è quindi un altro grande tema filosofico che merita attenzione, e riguarda la natura di questo “sapere per correlazione” che distingue l’IA dal sapere umano, che è di tipo causale. Per distinguere la cognizione umana da quella delle macchine, Judea Pearl (2018) parla della ladder of causation: riconoscere regolarità nelle osservazioni è il primo scalino (vedo il fumo dal camino), agire per portare un cambiamento è il secondo scalino (sono io che ho acceso il camino che produce il fumo), produrre contro fattuali è il terzo (che cosa sarebbe successo se non avessi acceso il camino?).
Una rete neurale profonda può arrivare al primo scalino, ma senza i successivi due non ha modo di sapere perché un dato pattern risponde a una domanda o risolve un problema: riconosce soltanto che certe combinazioni di input tendono a produrre output corretti in contesti simili. Questa forma di conoscenza “osservativa” ha una somiglianza superficiale con il sapere empirico, ma resta priva di quell’organizzazione concettuale che permette agli esseri umani di muoversi oltre l’immediato per elaborare inferenze e teorie.
Se accettiamo che le IA, anche le più avanzate, restino vincolate a una conoscenza senza intenzionalità né comprensione dei nessi causali, è obbligatorio chiedersi: qual è il limite delle loro capacità epistemiche? C’è una soglia oltre la quale, senza un tipo di “struttura trascendentale” simile a quella kantiana, le macchine non possono accedere a una forma di conoscenza realmente autonoma e creativa? Queste domande rivelano la necessità di una filosofia che non si limiti alla periferia etica e sociale dell’IA (o alle questioni metafisiche della coscienza), ma che si confronti con il cuore stesso della disciplina. Filosofi e scienziati dell’IA possono dialogare, per ripensare insieme il significato di conoscenza e comprensione in un mondo sempre più popolato da intelligenze artificiali.
di Vittorio Di Tomaso
Riferimenti
Bender, E. M., et al. (2021). “On the dangers of stochastic parrots: Can language models be too big?”. Proceedings of the 2021 ACM Conference on Fairness, Accountability, and Transparency.
Block, Ned and Jerry Fodor, 1972, “What Psychological States Are Not”, Philosophical Review, 81: 159–181.
Boden, Margaret A. (2016): Artificial intelligence. A very short introduction. Oxford: Oxford University Press.
Brentano, Franz (1874): La psicologia dal punto di vista empirico. Bari, Laterza 1997.
Brooks, Rodney A. (1991):“Intelligence without Representation”. In: Artificial Intelligence 47, Nr. 1–3, pp. 139–159.
Clark, Andy (2016): Surfing Uncertainty, Oxford: Oxford University Press.
Gibson, James J. (1979): The Ecological Approach to Visual Perception. Houghton Mifflin.
Husserl, Edmund (1900-1901) Ricerche logiche, a cura di Giovanni Piana, Milano, il Saggiatore 2015 [1968].
Y. LeCun (27 June 2022). A Path Towards Autonomous Machine Intelligence. OpenReview Archive. Link.
Marr, David (1982): Vision. Cambridge, MA: MIT Press.
McCarthy, John/Minsky, Marvin L./Rochester, Nathaniel/Shannon, Claude E. (1955): “A Proposal for the Dartmouth Summer Research Project on Artificial Intelligence”. In: AI Magazine 27. Nr. 4, pp. 12–14.
McCarthy, John/Hayes, Patrick: (1969).“Some Philosophical Problems from the Standpoint of Artificial Intelligence (Online).” Link.
McCarthy, John: (1995).“What Has AI in Common with Philosophy?”, Link.
McCarthy, John: (2007).“What Is Artificial Intelligence?”, Link.
Pearl, Judea (2018): The book of Why. The new science of cause and effect. London: Penguin.
Putnam, Hilary, 1960, “Minds and Machines”, reprinted in Putnam 1975, Mind, Language, and Reality, Cambridge: Cambridge University Press, 362–385.
Putnam, Hilary., 1967, “The Nature of Mental States”, reprinted in Putnam 1975, Mind, Language, and Reality, Cambridge: Cambridge University Press, 429–440.
Varela, Francisco J./Thompson, Evan/Rosch, Eleanor (1991): The embodied mind. Cambridge, MA: MIT Press.
Walmsley, Joel (2012): Mind and Machine. London: Palgrave MacMillan.