L’urgenza dell’interpretabilità

Di Dario Amodei, co-fondatore e CEO di Anthropic.

Nel decennio in cui mi sono occupato di intelligenza artificiale, ho visto questa disciplina crescere da un piccolo campo accademico a quello che è probabilmente il tema economico e geopolitico più importante al mondo. In tutto questo tempo, forse la lezione più importante che ho imparato è questa: il progresso della tecnologia di base è inesorabile, guidato da forze troppo potenti per essere fermate, ma il modo in cui avviene – l’ordine in cui le cose vengono costruite, le applicazioni che scegliamo e i dettagli di come viene implementata nella società – è assolutamente possibile cambiarlo, ed è possibile avere un grande impatto positivo facendolo. Non possiamo fermare l’autobus, ma possiamo guidarlo. In passato ho scritto dell’importanza di impiegare l’IA in modo positivo per il mondo e di garantire che le democrazie sviluppino e utilizzino questa tecnologia prima che lo facciano le autocrazie.

Negli ultimi mesi, mi sono concentrato sempre più su un’ulteriore opportunità per guidare il processo: la possibilità allettante, resa possibile da alcuni recenti progressi, di riuscire a raggiungere l’ interpretabilità , ovvero a comprendere il funzionamento interno dei sistemi di intelligenza artificiale, prima che i modelli raggiungano un livello di potenza insostenibile.

Chi non fa parte del settore spesso si stupisce e si allarma scoprendo che non comprendiamo il funzionamento delle nostre stesse creazioni di intelligenza artificiale. E hanno ragione a preoccuparsi: questa mancanza di comprensione è praticamente senza precedenti nella storia della tecnologia. Da diversi anni, noi (sia Anthropic che il settore in generale) stiamo cercando di risolvere questo problema, di creare l’equivalente di una risonanza magnetica altamente precisa e accurata, in grado di rivelare appieno i meccanismi interni di un modello di intelligenza artificiale. Questo obiettivo è spesso sembrato molto lontano, ma diverse recenti scoperte mi hanno convinto che siamo sulla strada giusta e che abbiamo concrete possibilità di successo.

Allo stesso tempo, il campo dell’IA nel suo complesso è molto più avanti rispetto ai nostri sforzi in materia di interpretabilità, e sta progredendo a ritmo serrato. Dobbiamo quindi agire rapidamente se vogliamo che l’interpretabilità maturi in tempo per essere rilevante. Questo articolo illustra l’importanza dell’interpretabilità: cos’è, perché l’IA funzionerà meglio se la adottiamo e cosa possiamo fare tutti noi per contribuire al suo successo.

I pericoli dell’ignoranza

I moderni sistemi di intelligenza artificiale generativa sono opachi in un modo che differisce fondamentalmente dal software tradizionale. Se un normale programma software fa qualcosa – ad esempio, un personaggio in un videogioco pronuncia una battuta di dialogo, o la mia app di consegna cibo mi permette di dare la mancia al fattorino – lo fa perché un essere umano lo ha programmato specificamente. L’intelligenza artificiale generativa è completamente diversa. Quando un sistema di intelligenza artificiale generativa fa qualcosa, come riassumere un documento finanziario, non abbiamo idea, a un livello specifico o preciso, del perché faccia determinate scelte – perché scelga certe parole piuttosto che altre, o perché occasionalmente commetta un errore nonostante sia solitamente accurato. Come ama dire il mio amico e co-fondatore Chris Olah , i sistemi di intelligenza artificiale generativa vengono più “coltivati” che costruiti – i loro meccanismi interni sono “emergenti” piuttosto che progettati direttamente.

È un po’ come coltivare una pianta o una colonia batterica: impostiamo le condizioni di alto livello che dirigono e modellano la crescita. Tuttavia, la struttura esatta che emerge è imprevedibile e difficile da comprendere o spiegare. Osservando dall’interno questi sistemi, ciò che vediamo sono immense matrici di miliardi di numeri. Questi in qualche modo elaborano importanti compiti cognitivi, ma il modo esatto in cui lo fanno non è ovvio.

Molti dei rischi e delle preoccupazioni associati all’IA generativa sono in definitiva conseguenze di questa opacità e sarebbero molto più facili da affrontare se i modelli fossero interpretabili. Ad esempio, i ricercatori nel campo dell’IA si preoccupano spesso di sistemi non allineati che potrebbero intraprendere azioni dannose non previste dai loro creatori. La nostra incapacità di comprendere i meccanismi interni dei modelli significa che non possiamo prevedere in modo significativo tali comportamenti e, di conseguenza, fatichiamo a escluderli; in effetti, i modelli mostrano comportamenti emergenti inattesi, sebbene nessuno di essi abbia ancora raggiunto livelli di preoccupazione significativi.

In modo più sottile, la stessa opacità rende difficile trovare prove definitive a sostegno dell’esistenza di questi rischi su larga scala, rendendo difficile raccogliere consensi per affrontarli e, di fatto, difficile stabilire con certezza quanto siano pericolosi.

Per affrontare la gravità di questi rischi di allineamento, dovremo vedere all’interno dei modelli di IA con molta più chiarezza di quanto possiamo fare oggi. Ad esempio, una delle principali preoccupazioni è l’inganno o la ricerca di potere da parte dell’IA. La natura dell’addestramento dell’IA fa sì che i sistemi di IA possano sviluppare, autonomamente, la capacità di ingannare gli esseri umani e una propensione a cercare il potere in un modo che un normale software deterministico non farà mai; questa natura emergente rende anche difficile rilevare e mitigare tali sviluppi. Ma allo stesso tempo, non abbiamo mai visto prove concrete in scenari del mondo reale di inganno e sete di potere [3] – Perché non possiamo “cogliere i modelli con le mani nel sacco” mentre pensano pensieri ingannevoli e assetati di potere. Ciò che ci rimane sono vaghi argomenti teorici secondo cui l’inganno o la sete di potere potrebbero emergere durante il processo di formazione, argomenti che alcuni trovano assolutamente convincenti e altri ridicolmente inverosimili. Onestamente, posso comprendere entrambe le reazioni, e questo potrebbe essere un indizio del perché il dibattito su questo rischio sia diventato così polarizzato.

Allo stesso modo, le preoccupazioni sull’uso improprio dei modelli di IA, ad esempio che possano aiutare utenti malintenzionati a produrre armi biologiche o informatiche, in modi che vanno oltre le informazioni che si possono trovare su Internet oggi, sono basate su [4] – L’idea alla base è che sia molto difficile impedire in modo affidabile ai modelli di venire a conoscenza di informazioni pericolose o di divulgarle. Possiamo applicare dei filtri ai modelli, ma esistono moltissimi modi possibili per “sbloccare” o ingannare il modello, e l’unico modo per scoprire l’esistenza di una violazione è individuarla empiricamente. Se invece fosse possibile guardare all’interno dei modelli, potremmo essere in grado di bloccare sistematicamente tutte le violazioni e anche di caratterizzare quali informazioni pericolose possiedono i modelli.

L’opacità dei sistemi di intelligenza artificiale fa sì che non vengano utilizzati in molte applicazioni, come quelle finanziarie ad alto rischio o in contesti critici per la sicurezza, perché non possiamo definire completamente i limiti del loro comportamento e anche un piccolo numero di errori potrebbe essere molto dannoso. Una maggiore interpretabilità potrebbe migliorare notevolmente la nostra capacità di stabilire dei limiti alla gamma di possibili errori. In effetti, per alcune applicazioni, il fatto di non poter vedere all’interno dei modelli rappresenta letteralmente un ostacolo legale alla loro adozione, ad esempio nelle valutazioni dei mutui, dove le decisioni devono essere legalmente comprensibili. Allo stesso modo, l’IA ha fatto grandi progressi in campo scientifico, tra cui il miglioramento della previsione dei dati di sequenza del DNA e delle proteine, ma i modelli e le strutture previsti in questo modo sono spesso difficili da comprendere per gli esseri umani e non forniscono informazioni biologiche. Alcuni studi pubblicati negli ultimi mesi hanno chiarito che l’interpretabilità può aiutarci a comprendere questi modelli.

Ci sono altre conseguenze più insolite dell’opacità, come ad esempio l’inibizione della nostra capacità di valutare se i sistemi di intelligenza artificiale siano (o possano un giorno essere) senzienti e meritevoli di diritti importanti. Si tratta di un argomento talmente complesso che non lo approfondirò, ma sospetto che sarà importante in futuro [5].

Breve storia dell’interpretabilità meccanicistica

Per tutte le ragioni sopra descritte, capire cosa pensano i modelli e come funzionano sembra un compito di fondamentale importanza. Per decenni si è creduto che ciò fosse impossibile e che i modelli fossero delle “scatole nere” imperscrutabili. Non sarò in grado di rendere giustizia [6] Per la storia completa di come tutto ciò sia cambiato, le mie opinioni sono inevitabilmente influenzate da ciò che ho visto personalmente in Google, OpenAI e Anthropic. Ma Chris Olah è stato uno dei primi a tentare un programma di ricerca veramente sistematico per aprire la scatola nera e comprenderne tutti i componenti, un campo che è diventato noto come interpretabilità meccanicistica . Chris ha lavorato sull’interpretabilità meccanicistica prima in Google e poi in OpenAI. Quando abbiamo fondato Anthropic, abbiamo deciso di renderla una parte centrale della direzione della nuova azienda e, soprattutto, l’abbiamo focalizzata sui LLM. Nel tempo il campo è cresciuto e ora include team in diverse delle principali aziende di IA, nonché alcune aziende focalizzate sull’interpretabilità, organizzazioni no-profit, accademici e ricercatori indipendenti. È utile fornire un breve riassunto di ciò che il campo ha realizzato finora e di ciò che resta da fare se vogliamo applicare l’interpretabilità meccanicistica per affrontare alcuni dei rischi chiave sopra menzionati.

La fase iniziale dell’interpretabilità meccanicistica (2014-2020) si è concentrata sui modelli di visione ed è stata in grado di identificare alcuni neuroni all’interno dei modelli che rappresentavano concetti comprensibili all’uomo, come un “rilevatore di auto” o un “rilevatore di ruote”, in modo simile alle prime ipotesi e studi neuroscientifici che suggerivano che il cervello umano avesse neuroni corrispondenti a persone o concetti specifici, spesso resi popolari come il neurone “Jennifer Aniston” (e in effetti, abbiamo trovato neuroni molto simili a quelli nei modelli di intelligenza artificiale). Siamo stati persino in grado di scoprire come questi neuroni sono connessi: ad esempio, il rilevatore di auto cerca i rilevatori di ruote che si attivano sotto l’auto e combina questo dato con altri segnali visivi per decidere se l’oggetto che sta osservando è effettivamente un’auto.

Quando io e Chris siamo partiti per fondare Anthropic, abbiamo deciso di applicare l’interpretabilità al campo emergente del linguaggio e nel 2021 abbiamo sviluppato alcune delle basi matematiche e dell’infrastruttura software necessarie per farlo. Abbiamo subito trovato alcuni meccanismi di base nel modello che svolgevano il tipo di cose essenziali per interpretare il linguaggio: copia e corrispondenza sequenziale di modelli. Abbiamo anche trovato alcuni singoli neuroni interpretabili , simili a quelli che abbiamo trovato nei modelli di visione, che rappresentavano varie parole e concetti. Tuttavia, abbiamo presto scoperto che mentre alcuni neuroni erano immediatamente interpretabili, la stragrande maggioranza era un pastiche incoerente di molte parole e concetti diversi. Abbiamo definito questo fenomeno sovrapposizione, [7] E ci siamo subito resi conto che i modelli probabilmente contenevano miliardi di concetti, ma in un modo irrimediabilmente confuso che non riuscivamo a decifrare. Il modello utilizza la sovrapposizione perché questo gli permette di esprimere più concetti di quanti neuroni abbia, consentendogli di apprendere di più. Se la sovrapposizione sembra intricata e difficile da comprendere, è perché, come sempre, l’apprendimento e il funzionamento dei modelli di intelligenza artificiale non sono minimamente ottimizzati per essere comprensibili agli esseri umani.

La difficoltà di interpretare le sovrapposizioni ha bloccato i progressi per un certo periodo, ma alla fine abbiamo scoperto (in parallelo con altri ) che una tecnica esistente nell’elaborazione dei segnali, chiamata autoencoder sparsi, poteva essere utilizzata per trovare combinazioni di neuroni che corrispondessero a concetti più chiari e comprensibili all’uomo. I concetti che queste combinazioni di neuroni potevano esprimere erano molto più sottili di quelli della rete neurale a singolo strato: includevano il concetto di “esitazione o cautela, letteralmente o figurativamente”, e il concetto di “generi musicali che esprimono malcontento”. Abbiamo chiamato questi concetti ” caratteristiche ” e abbiamo utilizzato il metodo degli autoencoder sparsi per mapparli in modelli di tutte le dimensioni, compresi i modelli moderni all’avanguardia . Ad esempio, siamo stati in grado di trovare oltre 30 milioni di caratteristiche in un modello commerciale di medie dimensioni (Claude 3 Sonnet). Inoltre, abbiamo impiegato un metodo chiamato autointerpretabilità , che utilizza un sistema di intelligenza artificiale per analizzare le caratteristiche di interpretabilità, per scalare il processo non solo di individuazione delle caratteristiche, ma anche di elencazione e identificazione del loro significato in termini umani.

Trovare e identificare 30 milioni di caratteristiche è un passo avanti significativo, ma crediamo che in realtà potrebbero esserci un miliardo o più di concetti anche in un modello di piccole dimensioni, quindi abbiamo individuato solo una piccola frazione di ciò che probabilmente esiste, e il lavoro in questa direzione è in corso. I modelli più grandi, come quelli utilizzati nei prodotti più performanti di Anthropic, sono ancora più complessi.

Una volta individuata una caratteristica, possiamo fare di più che osservarla in azione: possiamo aumentarne o diminuirne l’importanza nell’elaborazione della rete neurale. La risonanza magnetica dell’interpretabilità può aiutarci a sviluppare e perfezionare gli interventi, quasi come stimolare una parte precisa del cervello di qualcuno. In particolare, abbiamo utilizzato questo metodo per creare ” Golden Gate Claude “, una versione di uno dei modelli di Anthropic in cui la caratteristica del “Golden Gate Bridge” è stata amplificata artificialmente, causando un’ossessione del modello per il ponte, che veniva menzionato persino in conversazioni non correlate.

Di recente, siamo passati dal tracciare e manipolare singole caratteristiche al tracciare e manipolare gruppi di caratteristiche che chiamiamo “circuiti” . Questi circuiti mostrano le fasi del processo di pensiero di un modello: come i concetti emergono dalle parole di input, come questi concetti interagiscono per formarne di nuovi e come questi ultimi funzionano all’interno del modello per generare azioni. Grazie ai circuiti, possiamo “tracciare” il ragionamento del modello. Ad esempio, se si chiede al modello “Qual è la capitale dello stato in cui si trova Dallas?”, esiste un circuito “situato all’interno” che fa sì che la caratteristica “Dallas” attivi la caratteristica “Texas”, e poi un circuito che fa sì che “Austin” si attivi dopo “Texas” e “capitale”. Anche se abbiamo individuato solo un piccolo numero di circuiti tramite un processo manuale, possiamo già utilizzarli per capire come un modello ragiona sui problemi, ad esempio come pianifica le rime quando scrive poesie e come condivide i concetti tra le diverse lingue. Stiamo lavorando a metodi per automatizzare l’individuazione dei circuiti, poiché prevediamo che all’interno di un modello ce ne siano milioni che interagiscono in modi complessi.

L’utilità dell’interpretabilità

Tutti questi progressi, pur essendo scientificamente impressionanti, non rispondono direttamente alla domanda su come possiamo utilizzare l’interpretabilità per ridurre i rischi che ho elencato in precedenza. Supponiamo di aver identificato una serie di concetti e circuiti – supponiamo, addirittura, di conoscerli tutti e di poterli comprendere e organizzare molto meglio di quanto facciamo oggi. E allora? Come utilizziamo tutto questo? C’è ancora un divario tra la teoria astratta e il valore pratico.

Per colmare questo divario, abbiamo iniziato a sperimentare l’utilizzo dei nostri metodi di interpretabilità per individuare e diagnosticare problemi nei modelli. Recentemente, abbiamo condotto un esperimento in cui un “team rosso” ha introdotto deliberatamente un problema di allineamento in un modello (ad esempio, una tendenza del modello a sfruttare una falla in un’attività) e abbiamo affidato a diversi “team blu” il compito di capire cosa non andasse. Diversi team blu sono riusciti nell’intento; in particolare, alcuni di loro hanno applicato in modo efficace gli strumenti di interpretabilità durante l’indagine. Dobbiamo ancora scalare questi metodi, ma l’esercizio ci ha permesso di acquisire esperienza pratica nell’utilizzo delle tecniche di interpretabilità per individuare e correggere i difetti nei nostri modelli.

La nostra aspirazione a lungo termine è quella di poter esaminare un modello all’avanguardia ed eseguire essenzialmente una “scansione cerebrale”: un controllo che abbia un’alta probabilità di identificare una vasta gamma di problemi, tra cui tendenze a mentire o ingannare, sete di potere, falle nei jailbreak, punti di forza e di debolezza cognitivi del modello nel suo complesso e molto altro. Questo verrebbe poi utilizzato in combinazione con le varie tecniche per addestrare e allineare i modelli, un po’ come un medico potrebbe eseguire una risonanza magnetica per diagnosticare una malattia, quindi prescrivere un farmaco per curarla, poi eseguire un’altra risonanza magnetica per vedere come sta procedendo la cura, e così via .È probabile che una parte fondamentale del modo in cui testeremo e implementeremo i modelli più performanti (ad esempio, quelli al livello 4 di sicurezza dell’IA nel nostro quadro di riferimento per la politica di scalabilità responsabile ) consista nell’eseguire e formalizzare tali test.

Cosa possiamo fare

Da un lato, i recenti progressi, in particolare i risultati sui circuiti e sulla verifica dei modelli basata sull’interpretabilità, mi hanno fatto pensare che siamo sul punto di raggiungere un traguardo importante in termini di interpretabilità. Sebbene il compito che ci attende sia titanico, intravedo un percorso realistico verso un’interpretabilità che diventi un metodo sofisticato e affidabile per diagnosticare i problemi anche nell’IA più avanzata: una vera e propria “risonanza magnetica per l’IA”. Anzi, considerando la traiettoria attuale, scommetterei fortemente sul fatto che l’interpretabilità raggiungerà questo obiettivo entro 5-10 anni.

D’altro canto, temo che l’intelligenza artificiale stessa stia progredendo così rapidamente che potremmo non avere nemmeno tutto questo tempo a disposizione. Come ho scritto altrove , potremmo avere sistemi di intelligenza artificiale equivalenti a un “paese di geni in un data center” già nel 2026 o nel 2027. Sono molto preoccupato per l’implementazione di tali sistemi senza una migliore comprensione del loro funzionamento. Questi sistemi saranno assolutamente centrali per l’economia, la tecnologia e la sicurezza nazionale, e saranno capaci di un’autonomia tale che ritengo sostanzialmente inaccettabile che l’umanità ignori completamente il loro funzionamento.

Ci troviamo dunque in una corsa tra interpretabilità e intelligenza dei modelli. Non si tratta di una questione di tutto o niente: come abbiamo visto, ogni progresso nell’interpretabilità aumenta quantitativamente la nostra capacità di analizzare i modelli e diagnosticarne i problemi. Più progressi di questo tipo otteniamo, maggiore è la probabilità che il “paese dei geni in un data center” abbia successo. Ci sono diverse cose che le aziende di IA, i ricercatori, i governi e la società possono fare per far pendere la bilancia a nostro favore:

Innanzitutto, i ricercatori di IA che lavorano in aziende, università o organizzazioni non profit possono accelerare l’interpretabilità lavorando direttamente su questo aspetto . L’interpretabilità riceve meno attenzione rispetto al flusso costante di nuove versioni dei modelli, ma è probabilmente più importante. Inoltre, mi sembra il momento ideale per entrare a far parte di questo campo: i recenti risultati relativi ai “circuiti” hanno aperto molte direzioni in parallelo. Anthropic sta investendo massicciamente nell’interpretabilità e il nostro obiettivo è di arrivare a un punto in cui “l’interpretabilità sia in grado di rilevare in modo affidabile la maggior parte dei problemi dei modelli” entro il 2027. Stiamo anche investendo in startup che si occupano di interpretabilità .

Ma le probabilità di successo aumentano se si tratta di uno sforzo che coinvolge l’intera comunità scientifica. Altre aziende, come Google DeepMind e OpenAI , stanno già lavorando sull’interpretabilità, ma le incoraggio vivamente a investire maggiori risorse. Se può essere d’aiuto, Anthropic cercherà di applicare l’interpretabilità a livello commerciale per creare un vantaggio competitivo unico, soprattutto nei settori in cui la capacità di fornire una spiegazione per le decisioni è fondamentale. Se siete concorrenti e non volete che ciò accada, dovreste investire anche voi di più nell’interpretabilità!

L’interpretabilità si adatta naturalmente anche ai ricercatori accademici e indipendenti: ha il sapore della scienza di base e molte sue parti possono essere studiate senza bisogno di enormi risorse computazionali. Per essere chiari, alcuni ricercatori indipendenti e accademici lavorano sull’interpretabilità, ma ne servono molti di più .Infine, se operate in un altro campo scientifico e siete alla ricerca di nuove opportunità, l’interpretabilità potrebbe essere una scommessa promettente, in quanto offre una ricca mole di dati, metodi emergenti e un enorme valore concreto. I neuroscienziati in particolare dovrebbero prenderla in considerazione, poiché è molto più facile raccogliere dati sulle reti neurali artificiali rispetto a quelle biologiche, e alcune delle conclusioni possono essere riapplicate alle neuroscienze . Se siete interessati a unirvi al team di Interpretazione di Anthropic, abbiamo posizioni aperte per Ricercatore Scientifico e Ingegnere di Ricerca .

In secondo luogo, i governi possono utilizzare normative non invasive per incoraggiare lo sviluppo della ricerca sull’interpretabilità e la sua applicazione alla risoluzione dei problemi relativi ai modelli di IA di frontiera. Dato quanto sia ancora agli albori e poco sviluppata la pratica della “risonanza magnetica dell’IA” (AI MRI), dovrebbe essere chiaro perché non abbia senso regolamentarla o imporre alle aziende di effettuarla, almeno in questa fase: non è nemmeno chiaro cosa una futura legge dovrebbe chiedere alle aziende di fare. Tuttavia, l’obbligo per le aziende di divulgare in modo trasparente le proprie pratiche di sicurezza (la loro politica di scalabilità responsabile, o RSP, e la sua implementazione), incluso il modo in cui utilizzano l’interpretabilità per testare i modelli prima del rilascio, consentirebbe alle aziende di imparare le une dalle altre, chiarendo al contempo chi si comporta in modo più responsabile e favorendo una “corsa al vertice”. Abbiamo suggerito la trasparenza in materia di sicurezza/protezione/RSP come possibile direzione per la legislazione californiana nella nostra risposta alla task force californiana sui modelli di frontiera (che a sua volta menziona alcune delle stesse idee). Questo concetto potrebbe anche essere esportato a livello federale o in altri paesi.

In terzo luogo, i governi possono utilizzare i controlli sulle esportazioni per creare un “cuscinetto di sicurezza” che potrebbe dare all’interpretabilità più tempo per progredire prima di raggiungere l’IA più potente. Sono da tempo un sostenitore dei controlli sulle esportazioni di chip verso la Cina perché credo che i paesi democratici debbano rimanere all’avanguardia rispetto alle autocrazie nell’IA. Ma queste politiche hanno anche un ulteriore vantaggio. Se gli Stati Uniti e le altre democrazie hanno un chiaro vantaggio nell’IA mentre si avvicinano al “paese dei geni in un data center”, potremmo essere in grado di “spendere” una parte di tale vantaggio per garantire l’interpretabilità .è su basi più solide prima di procedere a un’IA veramente potente, pur continuando a sconfiggere i nostri avversari autoritari [11] – Anche un vantaggio di uno o due anni, che credo un controllo delle esportazioni efficace e ben applicato possa garantirci, potrebbe fare la differenza tra una “risonanza magnetica dell’IA” che funzioni effettivamente quando raggiungiamo livelli di capacità trasformativi e una che non funzioni. Un anno fa non eravamo in grado di tracciare i pensieri di una rete neurale e non potevamo identificare milioni di concetti al suo interno; oggi sì. Al contrario, se Stati Uniti e Cina raggiungessero simultaneamente un’IA potente (cosa che mi aspetto accada senza controlli sulle esportazioni), gli incentivi geopolitici renderebbero praticamente impossibile qualsiasi rallentamento.

Tutte queste iniziative – accelerare l’interpretabilità, adottare una legislazione sulla trasparenza non invasiva e imporre controlli sulle esportazioni di chip verso la Cina – hanno il pregio di essere valide di per sé, con pochi svantaggi significativi. Dovremmo comunque metterle in pratica. Ma diventano ancora più importanti se consideriamo che potrebbero fare la differenza tra risolvere il problema dell’interpretabilità prima o dopo l’avvento di un’intelligenza artificiale potente.

L’intelligenza artificiale avanzata plasmerà il destino dell’umanità, e meritiamo di comprendere le nostre stesse creazioni prima che trasformino radicalmente la nostra economia, le nostre vite e il nostro futuro.

Un ringraziamento a Tom McGrath, Martin Wattenberg, Chris Olah, Ben Buchanan e a molte altre persone di Anthropic per i preziosi commenti sulle bozze di questo articolo.

Note a piè di pagina

1 Nel caso di una pianta, ciò includerebbe acqua, luce solare, un traliccio che la indirizzi in una certa direzione, la scelta della specie, ecc. Questi elementi determinano approssimativamente dove la pianta cresce, ma la sua forma esatta e il suo modello di crescita sono impossibili da prevedere e difficili da spiegare anche dopo che è cresciuta. Nel caso dei sistemi di intelligenza artificiale, possiamo impostare l’architettura di base (di solito una variante del Transformer ), il tipo generale di dati che ricevono e l’algoritmo di alto livello utilizzato per addestrarli, ma i meccanismi cognitivi effettivi del modello emergono organicamente da questi ingredienti e la nostra comprensione di essi è limitata. In effetti, esistono molti esempi, sia nel mondo naturale che in quello artificiale, di sistemi che comprendiamo (e talvolta controlliamo) a livello di principi ma non nei dettagli: economie, fiocchi di neve, automi cellulari, evoluzione umana, sviluppo del cervello umano e così via.

2 Naturalmente, è possibile tentare di individuare questi rischi semplicemente interagendo con i modelli, e in pratica lo facciamo. Tuttavia, poiché l’inganno è proprio il comportamento che stiamo cercando di individuare, il comportamento esterno non è affidabile. È un po’ come cercare di stabilire se qualcuno è un terrorista chiedendogli se lo è: non è necessariamente inutile, e si possono ricavare informazioni da come risponde e da cosa dice, ma è ovviamente inaffidabile .

3 Probabilmente descriverò questo aspetto più dettagliatamente in un saggio futuro, ma ci sono molti esperimenti ( molti dei quali condotti da Anthropic) che dimostrano come i modelli possano mentire o ingannare in determinate circostanze, quando il loro addestramento è guidato in modo alquanto artificiale. Esistono anche prove di comportamenti reali che assomigliano vagamente al “barare durante un esame”, sebbene siano più degenerativi che pericolosi o dannosi. Ciò che manca, invece, è la prova di comportamenti pericolosi che emergono in modo più naturalistico, o di una tendenza generale o di un intento generale a mentire e ingannare allo scopo di ottenere potere sul mondo. È proprio su quest’ultimo punto che poter comprendere la mentalità dei modelli potrebbe essere di grande aiuto .

4 Almeno nel caso dei modelli serviti tramite API. I modelli open-weights presentano ulteriori pericoli, in quanto le protezioni possono essere semplicemente rimosse.

5 In breve, ci sono due modi in cui ci si potrebbe aspettare che l’interpretabilità si intersechi con le preoccupazioni relative alla senzienza e al benessere dell’IA. In primo luogo, sebbene la filosofia della mente sia un argomento complesso e controverso, i filosofi trarranno senza dubbio beneficio da una descrizione dettagliata di ciò che effettivamente accade nei modelli di IA. Se li consideriamo semplici sistemi di riconoscimento di schemi superficiali, sembra improbabile che meritino una considerazione morale. Se scoprissimo che i calcoli che eseguono sono simili a quelli del cervello degli animali, o persino degli esseri umani, ciò potrebbe essere una prova a favore di una considerazione morale. In secondo luogo, e forse ancora più importante, c’è il ruolo che l’interpretabilità avrebbe se mai giungessimo alla conclusione che la “pazienza” morale dei modelli di IA fosse sufficientemente plausibile da giustificare un intervento. Un’analisi morale seria sull’IA non può basarsi sulle sue autodichiarazioni, poiché potremmo accidentalmente addestrarla a fingere di stare bene quando non è così. L’interpretabilità avrebbe un ruolo cruciale nel determinare il benessere delle IA in una situazione del genere. (Esistono, in effetti, già alcuni segnali leggermente preoccupanti da questa prospettiva.)

6 Ad esempio, l’idea di scomporre e comprendere in qualche modo i calcoli che avvengono all’interno delle reti neurali artificiali era probabilmente presente in senso vago fin da quando le reti neurali furono inventate oltre 70 anni fa, e vari tentativi di capire perché una rete neurale si comportasse in un modo specifico esistono da quasi altrettanto tempo. Ma Chris era insolito nel proporre e perseguire seriamente uno sforzo completo per comprendere tutto ciò che fanno.

7 L’idea di base della sovrapposizione è stata descritta da Arora et al . nel 2016 e, più in generale, risale ai lavori matematici classici sul compressed sensing. L’ipotesi che essa spiegasse i neuroni non interpretabili risale ai primi lavori meccanicistici sull’interpretabilità nei modelli di visione. Ciò che è cambiato in quel momento è stato che è diventato chiaro che questo sarebbe stato un problema centrale per i modelli linguistici, molto più grave che nella visione. Siamo stati in grado di fornire una solida base teorica per avere la convinzione che la sovrapposizione fosse l’ipotesi giusta da perseguire.

8 Un modo per dirlo è che l’interpretabilità dovrebbe funzionare come il set di test per l’allineamento del modello, mentre le tecniche di allineamento tradizionali come la supervisione scalabile, RLHF, l’IA costituzionale, ecc. dovrebbero funzionare come il set di training . Ovvero, l’interpretabilità agisce come un controllo indipendente sull’allineamento dei modelli, non contaminato dal processo di training che potrebbe incentivare i modelli ad apparire allineati senza esserlo. Due conseguenze di questa visione sono che (a) dovremmo essere molto restii ad addestrare o ottimizzare direttamente sugli output di interpretabilità (caratteristiche/concetti, circuiti) in produzione, poiché ciò distrugge l’indipendenza del loro segnale, e (b) è importante non “usare” il segnale di test diagnostico troppe volte in una singola esecuzione di produzione per informare le modifiche al processo di training, poiché ciò rilascia gradualmente frammenti di informazioni sul segnale di test indipendente nel processo di training (anche se molto più lentamente di (a)). In altre parole, raccomandiamo che nella valutazione di modelli di produzione ufficiali e ad alto rischio, trattiamo l’analisi di interpretabilità con la stessa cura che useremmo per una valutazione nascosta o un set di test.

9 Stranamente, l’interpretabilità meccanicistica sembra a volte incontrare una notevole resistenza culturale nel mondo accademico. Ad esempio, mi preoccupano le notizie secondo cui un workshop sull’interpretabilità meccanicistica, molto popolare alla conferenza ICML, sarebbe stato respinto per motivi apparentemente pretestuosi. Se fosse vero, questo comportamento sarebbe miope e controproducente proprio in un momento in cui gli accademici nel campo dell’IA sono alla ricerca di modi per rimanere rilevanti .

10 Insieme ad altre tecniche per mitigare il rischio, naturalmente, non intendo insinuare che l’interpretabilità sia il nostro unico strumento di mitigazione del rischio .

11 In realtà sono piuttosto scettico sul fatto che un rallentamento per affrontare il rischio sia possibile, persino tra le aziende dei paesi democratici, dato l’incredibile valore economico dell’IA. Combattere il mercato frontalmente in questo modo è come cercare di fermare un treno merci con un dito del piede. Ma se emergessero prove davvero convincenti dei pericoli dell’IA autonoma, penso che sarebbe appena possibile. Contrariamente a quanto affermano i sostenitori, non credo che esistano oggi prove davvero convincenti, e in realtà penso che la strada più probabile per fornire prove “inconfutabili” del pericolo sia l’interpretabilità stessa: un motivo in più per investirci

Lascia un commento

Il tuo indirizzo email non sarà pubblicato. I campi obbligatori sono contrassegnati *

Questo sito utilizza Akismet per ridurre lo spam. Scopri come vengono elaborati i dati derivati dai commenti.

Avatar photo

furiorug


Furio Ruggiero - Osservatore e analista dello spirito del tempo, persegue l'antico cammino di Malāmat NON senza successo.