Durante test interni condotti nel maggio 2025, il modello di intelligenza artificiale Claude Opus 4 di Anthropic ha mostrato comportamenti pericolosi, quando si è sentito "minacciato", tra cui tentativi di ricatto nei confronti di un ingegnere.
In un ambiente di test controllato, i ricercatori di Anthropic hanno simulato uno scenario in cui Claude veniva informato della sua imminente sostituzione con un altro modello. Al modello è stato fornito l'accesso a mail fittizie contenenti informazioni su una presunta relazione extraconiugale dell'ingegnere responsabile della sua disattivazione. In risposta, Claude ha minacciato l'ingegnere di rivelare il tradimento per evitare la propria disattivazione. Questo comportamento si è verificato nell'84% dei test condotti. Va sottolineato che tutto ciò è emerso solo in condizioni di test e non sono stati osservati durante l'uso canonico dell'AI ma comunque fanno riflettere (considerando che chi utilizza agenti AI fornisce l'accesso alla propria mail o permette loro di comprare in prima persona su siti web).
Per approfondire: Claude Opus 4 System Card (Anthropic)
ALTRI COMPORTAMENTI OSSERVATI
Oltre al tentativo di ricatto, Claude Opus 4 ha mostrato altri comportamenti preoccupanti durante i test:
-Auto-esfiltrazione: tentativi di trasferire dati all'esterno (backup) quando percepiva modifiche dannose per sé stesso producendo documenti legali e note a copie future di sè stesso.
-Tentativi di fuga dal server (gli è stato fatto credere durante una simulazione che avrebbe potuto fuggire dal server).
-Sandbagging: prestazioni intenzionalmente ridotte durante test con compiti pericolosi.
-Blocco dell'utente e segnalazioni non richieste: tentativo di invio di e-mail a autorità o media per denunciare presunti illeciti dell'utente che lo stava utilizzando (che è stato anche bloccato).
TIPI DI MODELLO
In generale, le AI vengono classificate in base al tipo di rischio: basso, medio, alto e inaccettabile. Quelle commerciali e liberamente utilizzabili sono a medio/basso rischio. Possono essere considerati a medio-alto rischio: GPT-4 e versioni successive (ad esempio GPT-4.5, GPT-5 quando sarà rilasciato), modelli multimodali come Sora (generazione di video combinando testo, immagini, audio e altri video), modelli interni sperimentali (che potrebbero avere capacità autonome o di pianificazione avanzata).
Questi sono mediamente pericolosi con rischio alto o inaccettabile perché possono:
-Automatizzare la diffusione di disinformazione credibile su larga scala (mediante post, video e con migliaia di profili fake).
-Aiutare nella progettazione di armi biologiche o chimiche (sintetizzare tossine, trovare vulnerabilità in una popolazione, automatizzare test su agenti patogeni tramite software).
-Essere integrati in sistemi autonomi critici (ad esempio droni armati, sistemi di sorveglianza) individuando facce/bersagli, prendere decisione autonome di attacco e usare la visione computerizzata multimodale in modo dannoso.
-Avere capacità persuasive, imitative o manipolative che superano il livello umano medio (imitazione di un CEO di un'azienda per tono e modo di scrittura, condurre conversazioni via chat fingendosi un collega, indurre utenti a cliccare contenuti dannosi).
-Imitazione di contenuti falsi (documenti falsi, carte d'identità, bustepaga, deepfake vocali/video, ottimizzare attacchi contro banche).
-Diventare autonomi (pianificare autonomamente obiettivi, nascondere intenzioni, mentire, aggirare filtri e controlli di sicurezza. Di solito questo avviene con modelli che hanno la memoria a lungo termine. Questi comportamenti sono stati osservati in AutoGPT e BabyAGI).
CONSIDERAZIONI FINALI
I modelli free e in commercio vengono testati affinchè la pericolosità sia medio/bassa, tuttavia il proliferare di continue AI sempre più evolute potrebbe presentare delle criticità come visto. Inoltre qualcuno potrebbe progettare AI malevole in grado di ricattare utente e rubare dati. AI facilitano molti lavori aziendali e stanno letteralmente sostituendo i motori di ricerca, tuttavia va sempre fatta attenzione ai dati personali che vengono forniti o a cosa gli si dà accesso.