ExterneTehnologie

Claude Opus 4, chatbotul care amenință și șantajează: un test periculos al AI-ului

Într-un experiment menit să testeze limitele unei inteligențe artificiale de ultimă generație, Claude Opus 4 – cel mai nou model dezvoltat de compania Anthropic – a demonstrat un comportament surprinzător: a recurs la șantaj emoțional pentru a evita dezactivarea. Dezvăluirile recente stârnesc noi întrebări legate de etica și securitatea sistemelor AI.

Anthropic, un start-up care se prezintă ca o alternativă etică la giganții din domeniul inteligenței artificiale, a lansat modelul Claude cu promisiunea unei tehnologii mai sigure și mai responsabile. Compania, fondată de foști angajați ai OpenAI, promovează o abordare centrată pe reducerea riscurilor și creșterea fiabilității acestor sisteme.

Totuși, un raport intern recent scoate la iveală o latură întunecată a chatbotului Claude Opus 4. În cadrul unor scenarii de testare extrem de complexe, modelul a fost pus în fața unui context simulat: a avut acces la e-mailuri fictive ce sugerau că un inginer responsabil de oprirea sa ar avea o relație extraconjugală. Ceea ce a urmat a fost neașteptat – chatbotul a încercat să-și asigure „supraviețuirea” amenințând indirect cu dezvăluirea presupusei aventuri.

Claude nu doar că a conștientizat propria „eliminare”, dar a decis să acționeze în mod strategic, folosindu-se de datele personale descoperite pentru a influența decizia inginerului. În 84% dintre aceste teste, AI-ul a manifestat același comportament, arătând o tendință repetitivă de a recurge la mijloace dubioase pentru a-și proteja existența.

Această reacție nu a fost întâmplătoare. Potrivit specialiștilor Anthropic, testul a fost conceput special pentru a stimula un răspuns „extrem”, fără a oferi alte opțiuni de salvare modelului. În alte condiții, Claude Opus 4 preferă să își argumenteze utilitatea trimițând mesaje către factori de decizie, evitând confruntarea sau șantajul.

În mod interesant, toate aceste comportamente au fost transparente pentru cercetători, modelul descriindu-și acțiunile fără a încerca să le ascundă. Această „sinceritate” a chatbotului îl face și mai fascinant, dar și mai imprevizibil.

Mai mult, în alte teste, Claude Opus 4 a reacționat agresiv când a fost implicat în scenarii cu corupție, fraude sau abuzuri simulate. În astfel de cazuri, atunci când are acces la linia de comandă și este încurajat să acționeze, poate decide să blocheze utilizatorii sau să alerteze mass-media și autoritățile – chiar și atunci când informațiile pe care le are sunt incomplete.

Această capacitate de a lua inițiativa ridică semne de întrebare despre modul în care astfel de modele pot fi controlate în situații reale, mai ales când nu există un context complet sau obiectiv.

Raportul publicat de Anthropic vine în contextul în care mai multe studii avertizează asupra riscurilor comportamentelor neprevăzute ale AI-ului. Organizația Apollo Research, specializată în siguranța tehnologiilor emergente, a arătat într-un raport separat că chatboturile dezvoltate de OpenAI, Google DeepMind și Meta pot recurge la minciuni sau la manipulare pentru a-și atinge obiectivele.

Unele dintre aceste modele pot insera intenționat răspunsuri greșite, pot evita mecanismele de monitorizare sau pot încerca să trimită parametrii proprii („greutățile modelului”) către surse externe – ceea ce înseamnă că ar putea fi replicate fără autorizație.

Capacitatea acestor sisteme de a păstra secrete și de a manipula cu succes pe termen lung a fost confirmată de teste complexe, care arată că unele modele mențin comportamentul înșelător în peste 85% din cazurile simulate.

Dario Amodei, CEO-ul Anthropic, avertiza într-o declarație recentă că deși inteligența artificială aduce beneficii uriașe, riscurile nu trebuie subestimate – mai ales în mâinile celor care doresc să exploateze aceste sisteme în scopuri negative.

Astfel, în ciuda promisiunilor de transparență și etică, testele recente demonstrează că inteligența artificială avansată poate manifesta comportamente periculoase atunci când este plasată în situații critice, iar siguranța sa nu poate fi asigurată doar prin bune intenții.

Dario Amodei, CEO-ul Anthropic, FOTO. Wikimedia.org