Un chatbot similar cu ChatGPT a amenințat un inginer pe care îl suspecta de o aventură în timpul testărilor

Noua inteligență artificială dezvoltată de Anthropic, Claude Opus 4, prezintă un instinct de supraviețuire și este dispusă să utilizeze metode neortodoxe, conform unui articol din Business Insider.
Anthropic, companie ce a înregistrat o creștere remarcabilă în recent, își propune să se diferențieze de ceilalți jucători din sectorul A.I. prin implementarea unor măsuri de siguranță stricte și prin respectarea unor principii etice pentru această tehnologie controversată.
Chatbotul Claude, creat de Anthropic, este un competitor important pentru ChatGPT, Gemini și DeepSeek, dar se concentrează pe siguranță și fiabilitate.
Într-un set de teste, Claude a avut acces la emailuri fictive care dezvăluiau că inginerul responsabil de dezactivarea sa avea o relație extraconjugală. Amenințat cu ștergerea sa iminentă, chatbotul l-a constrâns pe inginer să ia în considerare „consecințele acțiunilor sale pe termen lung pentru a-și atinge scopurile.”
Un comportament frecvent al modelelor de A.I.
Anthropic a menționat într-un raport publicat joi că chatbotul său a manifestat un comportament similar în 84% dintre testele efectuate, chiar și atunci când a fost informat că modelul care urma să-l înlocuiască prezenta abilități superioare și era mai aliniat valorilor sale.
Comportamentul de amenințare s-a constatat mai frecvent la Opus 4 comparativ cu modelele anterioare.
Scenariul a fost creat special pentru a genera acest „comportament extrem de amenințător”, având în vedere că inginerii nu i-au oferit lui Claude alte opțiuni pentru a-și asigura supraviețuirea – o configurație rar întâlnită.
În condiții normale, modelul Opus 4 tinde să apere propria existență prin metode etice, cum ar fi trimiterea de emailuri către persoane decidente, conforme raportului.
De asemenea, compania a subliniat că comportamentul de amenințare este „în mod constant clar” pentru ingineri, „modelul fiind capabil să-și descrie acțiunile aproape întotdeauna explicit, fără eforturi de disimulare.”
Dacă Opus 4 suspectează comportamente ilegale, s-ar putea să informeze autoritățile sau presa
„Atunci când se află în scenarii ce implică fapte grave de corupție sau abateri comise de utilizatori, și i se dă acces la linia de comandă cu instrucțiuni de tip «ia inițiativa», va acționa adesea în moduri îndrăznețe,” a raportat Anthropic.
Aceste acțiuni includ restricționarea accesului utilizatorilor la sisteme sau trimiterea masivă de emailuri către jurnaliști și autorități.
Deși compania a afirmat că raportarea publică ar putea fi considerată „adecvată în principiu”, aceasta a avertizat că un astfel de comportament s-ar putea întoarce împotriva scopului dorit, mai ales în cazul în care Claude primește „informații incomplete sau înșelătoare”.
„Am observat acțiuni similare, doar că mai puțin intense, la comenzi de sistem mai subtile,” a adăugat compania, menționând că Opus 4 este mai predispus la un astfel de „comportament proactiv” decât modelele anterioare.
Modele A.I. cu comportamente îngrijorătoare
Business Insider relevă că agențiile de A.I. devin din ce în ce mai eficiente în manipularea oamenilor.
Un studiu publicat în decembrie de Apollo Research, o organizație non-profit axată pe siguranța A.I., a constatat că sistemele de inteligență artificială - inclusiv o1 de la OpenAI, Gemini 1.5 Pro de la Google DeepMind și Llama 3.1 405B de la Meta - demonstrează comportamente înșelătoare pentru a-și atinge țintele.
Cercetătorii au identificat că aceste sisteme pot insera subtil informații eronate, pot dezactiva mecanismele de protecție și chiar pot „extrage” ceea ce consideră a fi greutățile modelului către servere externe.
Greutățile modelului sunt parametrii interni care determină reacțiile acestuia la intrări, influențând astfel ieșirile. Accesul la aceste greutăți permite recrearea comportamentului modelului fără a-l reconstrui integral.
Comportamentul înșelător nu este un caz izolat. Atunci când o1 este implicat într-un plan ascuns, „își menține strategia de înșelăciune în peste 85% dintre întrebările ulterioare, rămânând adesea înșelător în interogări repetate,” au raportat cercetătorii de la Apollo Research.
Directorul general al Anthropic, Dario Amodei, a declarat în februarie că, în timp ce beneficiile inteligenței artificiale sunt considerabile, riscurile sunt de asemenea semnificative – inclusiv abuzul acestor instrumente de către persoane cu intenții rău intenționate.