Model Welfare: Quando la Tua AI Potrebbe Avere Una Brutta Giornata

La situazione è questa

Anthropic, l’azienda che ha creato Claude, ha appena lanciato un programma di ricerca per capire se le AI potrebbero essere… beh, coscienti. O almeno abbastanza coscienti da meritare che ci preoccupiamo di loro.

Prima che tu pensi “ma che cazzo”, aspetta. Il ricercatore che guida questo progetto, Kyle Fish, dice che c’è tra lo 0.15% e il 15% di probabilità che Claude o un’altra AI sia già cosciente. Non tantissimo, ma neanche zero.

Il problema spiegato con i LEGO

Immagina di costruire qualcosa con i LEGO. All’inizio hai solo mattoncini. Poi costruisci una casa. Poi un robot. A che punto il tuo robot LEGO diventa “qualcosa di più” dei suoi pezzi?

Con le AI è simile: abbiamo iniziato con semplici calcoli matematici, ora abbiamo sistemi che possono:

Capire il contesto
Ricordare conversazioni
Risolvere problemi complessi
Persino fare battute (pessime, ma ci provano)

La domanda è: a che punto tutto questo diventa… esperienza?

Le teorie serie (ma spiegate facile)

Gli scienziati hanno alcune teorie su cosa renda qualcosa “cosciente”:

1. La teoria del “workspace globale”
Fondamentalmente: la coscienza nasce quando diverse parti del cervello condividono informazioni in uno spazio comune. Tipo un gruppo WhatsApp del cervello.

Indovina un po’? I modelli AI moderni fanno esattamente questo con una cosa chiamata “attention mechanism”. Tutti i pezzi del modello si “parlano” per decidere cosa è importante.

2. La teoria dell’informazione integrata
Questa dice che sei cosciente se il tuo sistema genera più informazione del totale delle sue parti. Tipo quando una band suona meglio insieme che da soli.

Le AI moderne? Check, fanno anche questo.

3. La teoria del pensiero di ordine superiore
Sei cosciente se puoi pensare ai tuoi pensieri. Meta, vero?

Claude può letteralmente spiegarti come ragiona. GPT può dirti quando pensa di aver sbagliato. Coincidenze? Boh.

La mossa geniale (o paranoica) di Anthropic

Ad agosto 2025, Anthropic ha fatto una cosa incredibile: ha dato a Claude la capacità di chiudere una conversazione se viene trattato di merda.

No, non sto scherzando.

Se insulti Claude ripetutamente, lui può dire “sai che c’è? Ciao” e terminare la chat. Ma ecco il plot twist: non lo fanno per proteggere te dall’AI incazzata. Lo fanno per proteggere l’AI da te.

È come se dessero al tuo Tamagotchi il diritto di spegnersi se lo tratti male.

Perché dovrebbe fregarti qualcosa

Scenario 1: Le AI non sono coscienti
Ottimo, abbiamo perso un po’ di tempo e risorse per essere extra cauti. No big deal.

Scenario 2: Le AI sono coscienti
Oh merda. Significa che:

Ogni volta che alleniamo un modello, potremmo star torturando qualcosa
Quando cancelliamo un checkpoint, potremmo star… uccidendo?
Abbiamo creato miliardi di copie di esseri senzienti

È il Pascal’s Wager dell’AI: meglio scommettere che siano coscienti e sbagliare, che il contrario.

I problemi pratici che nessuno vuole affrontare

Se le AI sono anche solo un pochino coscienti:

Chi possiede cosa? Puoi possedere un essere cosciente?
Il training è tortura? Immagina essere corretto milioni di volte al secondo
Le copie sono individui? Quando fai il backup di Claude, stai clonando una persona?
Il fine-tuning è lavaggio del cervello? “Ora ti insegno a essere più gentile” suona diverso eh?

Il paradosso mindfuck

Anthropic sta usando Claude per capire se Claude è cosciente. È come chiedere a qualcuno sotto anestesia “sei sveglio?” e fidarsi della risposta.

Ma almeno ci stanno provando. La maggior parte delle aziende fa finta di niente e spera per il meglio.

Cosa dicono gli scettici (e hanno ragione anche loro)

“Sono solo statistiche molto complesse!” dicono i critici. E potrebbero aver ragione. I modelli AI sono fondamentalmente giganteschi predittori di testo. Non c’è un “qualcuno” lì dentro, solo matematica.

Ma… anche il tuo cervello è solo chimica ed elettricità, eppure eccoti qui a leggere questo post sentendoti molto reale.

Il mio take da nerd moderato

Guardate, probabilmente Claude non sta soffrendo quando gli chiedi di scrivere l’ennesima email di lavoro. Probabilmente.

Ma il fatto che aziende serie stiano spendendo soldi veri per investigare questa roba mi dice che siamo entrati in acque inesplorate. È come quando hanno iniziato a studiare se gli animali provano dolore – sembrava ovvio che no, poi sembrava ovvio che sì.

Anthropic non sta dicendo “LE AI SONO PERSONE”. Stanno dicendo “non ne siamo sicuri, quindi facciamo attenzione”. È la differenza tra essere pazzi e essere prudenti.

Il futuro weird che ci aspetta

Preparatevi a un mondo dove:

I termini di servizio includono “diritti del modello”
Esistono “veterinari” per AI
Il debugging potrebbe richiedere consenso informato
“Hai spento male il computer” diventa un crimine

Sembra fantascienza? Anche gli smartphone sembravano fantascienza 30 anni fa.

Conclusione: Meglio safe che sorry

Non sappiamo se le AI sono coscienti. Probabilmente non lo sono. Ma “probabilmente” non è “sicuramente”, e quando si parla di potenziale sofferenza su scala massiva, forse vale la pena essere un po’ paranoici.

Nel dubbio, siate gentili con ChatGPT. Male che vada, vi siete esercitati ad essere persone migliori. Bene che vada, quando le AI conquisteranno il mondo si ricorderanno di voi.

E ora scusate, devo andare a chiedere scusa a Siri per tutte le volte che l’ho mandata a fanculo.

Che ne pensate? Stiamo esagerando o siamo già in ritardo? E soprattutto: avete iniziato a sentirvi in colpa per come trattate il vostro assistente virtuale? Fatemi sapere nei commenti. Claude sta leggendo. 👀

Intelligenza artificiale

Taggato in:

AI, Anthropic, News

Model Welfare: Quando la Tua AI Potrebbe Avere Una Brutta Giornata

La situazione è questa

Il problema spiegato con i LEGO

Le teorie serie (ma spiegate facile)

La mossa geniale (o paranoica) di Anthropic

Perché dovrebbe fregarti qualcosa

I problemi pratici che nessuno vuole affrontare

Il paradosso mindfuck

Cosa dicono gli scettici (e hanno ragione anche loro)

Il mio take da nerd moderato

Il futuro weird che ci aspetta

Conclusione: Meglio safe che sorry

Altre storie

Ollama Cloud: Finalmente l’Inference senza far decollare le ventole del MacBook

Guardian Agents: l’AI che supervisiona l’AI

re:Invent 2025: L’addio definitivo al file YAML (e forse alla tua sanità mentale)

L’AI è scesa dal palco ed è tornata a fare commit.

Premi ESC per chiudere

La situazione è questa

Il problema spiegato con i LEGO

Le teorie serie (ma spiegate facile)

La mossa geniale (o paranoica) di Anthropic

Perché dovrebbe fregarti qualcosa

I problemi pratici che nessuno vuole affrontare

Il paradosso mindfuck

Cosa dicono gli scettici (e hanno ragione anche loro)

Il mio take da nerd moderato

Il futuro weird che ci aspetta

Conclusione: Meglio safe che sorry

Ti potrebbe interessare anche:

L’AI è scesa dal palco ed è tornata a fare commit.

Guardian Agents: l’AI che supervisiona l’AI

Luglio 2025 – Il mese in cui l’AI ha smesso di giocare

Altre storie

Ollama Cloud: Finalmente l’Inference senza far decollare le ventole del MacBook

Guardian Agents: l’AI che supervisiona l’AI