OpenAI lansează un instrument de securitate cripto, după ce un bug generat de AI a provocat pierderi de 2,7 milioane de dolari

Pe 19 februarie 2026, OpenAI și firma de capital de risc Paradigm au publicat EVMbench, un instrument conceput să evalueze cât de bine reușesc agenții AI să detecteze, să repare sau să exploateze vulnerabilități din contractele inteligente. Momentul lansării nu e deloc întâmplător.

Cu câteva zile înainte, un bug din cod scris cu ajutorul inteligenței artificiale a costat utilizatorii protocolului Moonwell aproape 2,7 milioane de dolari în active digitale.

Privite împreună, cele două întâmplări spun ceva important despre locul în care se află tehnologia acum. Companiile care dezvoltă modele de limbaj pun bani serioși în analiza automată a codului. Dar aceleași instrumente sunt deja folosite în producție, iar când ceva nu merge bine, consecințele se măsoară în milioane.

Ce este EVMbench și cum funcționează?

EVMbench pleacă de la 120 de vulnerabilități reale, descoperite în peste 40 de audituri anterioare ale contractelor inteligente. Pe lângă acestea, instrumentul include scenarii construite pornind de la auditurile blockchain-ului Tempo, un proiect aflat în dezvoltare sub umbrela Paradigm.

Concret, instrumentul pune agenții AI în fața a trei tipuri de sarcini. Detectarea presupune scanarea codului și identificarea punctelor slabe. Repararea cere nu doar găsirea problemei, ci și corectarea ei fără a strica restul funcționalităților. Exploatarea, adică simularea unui atac propriu-zis, a ieșit, poate surprinzător, drept sarcina la care modelele se descurcă cel mai bine.

Datele arată că GPT-5.3-Codex, cel mai recent model de codare al OpenAI, a avut rezultate de peste două ori mai bune decât GPT-5 la capitolul exploatare. La detectare și reparare, scorurile au rămas sub pragul unei acoperiri complete. OpenAI a recunoscut deschis acest lucru, explicând că agenții funcționează cel mai bine când obiectivul e limpede, cum ar fi în cazul exploatării, unde sarcina e să itereze până extrag fonduri.

Când vine vorba de detectare, agenții au tendința să se oprească după ce găsesc o singură problemă, fără să parcurgă tot codul. La reparare, lucrurile stau și mai complicat: să elimini o vulnerabilitate subtilă fără să afectezi funcționarea contractului e un exercițiu care pune în dificultate inclusiv programatorii experimentați, nu doar modelele AI.

Merită observat că, în testele EVMbench, modelul Claude Opus 4.6 de la Anthropic a obținut cel mai bun scor mediu la detectarea vulnerabilităților. GPT-5.3-Codex a dominat însă categoriile de reparare și exploatare. Fiecare model are, practic, un profil diferit de competențe, ceea ce înseamnă că alegerea instrumentului depinde foarte mult de ce anume vrei să faci cu el.

OpenAI a ținut să precizeze și limitele instrumentului. Setul de vulnerabilități pe care se bazează EVMbench este relativ mic, așa că rezultatele nu reflectă pe deplin complexitatea din lumea reală. Mai mult, instrumentul nu poate spune cu certitudine dacă o vulnerabilitate semnalată de un agent chiar există sau e o alarmă falsă.

Ce s-a întâmplat la Moonwell și de ce contează?

Cu câteva zile înainte de lansarea EVMbench, protocolul DeFi Moonwell a pierdut aproape 2,7 milioane de dolari din cauza unui bug prezent în cod scris cu asistența unui model AI. Mai multe voci din comunitate au indicat că instrumentul folosit a fost Claude, modelul dezvoltat de Anthropic.

Un inginer software din echipa Moonwell a confirmat pe rețelele sociale că respectivul cod trecuse și printr-un audit al firmei de securitate Halborn. Asta face situația și mai neplăcută: un cod generat cu AI, verificat de o firmă specializată, a conținut totuși o vulnerabilitate destul de gravă pentru a produce pierderi de milioane.

Multe echipe de dezvoltare din blockchain folosesc deja modele de limbaj în procesul de scriere a codului. Unele generează contracte inteligente de la zero, altele le folosesc pentru revizie sau optimizare. Când un astfel de cod ajunge să gestioneze banii reali ai utilizatorilor, discuția nu mai e teoretică.

Nu e vorba că inteligența artificială produce neapărat cod mai prost decât un programator uman. Buguri introduc și oamenii, asta se știe. Problema apare la nivelul încrederii. Dacă o firmă de securitate reputată validează un contract, toată lumea tinde să considere că riscul a fost eliminat.

Când codul respectiv a fost generat de AI și auditul tot nu prinde problema, se sparge un fel de dublu strat de siguranță pe care echipele și utilizatorii se bazau.

Moonwell funcționează ca un protocol de lending descentralizat, unde utilizatorii depun active digitale drept garanție pentru a accesa împrumuturi.

Orice eroare în logica unui astfel de contract poate însemna pierderea fondurilor depuse. Aici, un bug legat de integrarea activului cbETH, varianta tokenizată a ETH-ului pus în staking pe Coinbase, a permis extragerea neautorizată a celor 2,7 milioane de dolari.

Hackurile din DeFi: o problemă veche cu costuri tot mai mari

Atacurile asupra protocoalelor DeFi nu sunt ceva nou. Încă de la primele experimente cu finanțele descentralizate, vulnerabilitățile din contractele inteligente au fost exploatate repetat.

Cifrele cumulate depășesc demult miliardele de dolari. Ceea ce face contractele inteligente atât de tentante pentru atacatori este faptul că tranzacțiile pe blockchain sunt ireversibile. Odată ce fondurile pleacă, nu există nimeni care să apese un buton de anulare.

Datele agregate de pe DefiLlama arată că, doar în primele luni ale lui 2026, protocoalele DeFi au pierdut peste 108 milioane de dolari prin diverse hackuri și exploaturi. Anul abia a început, dar cifrele urmează un tipar familiar.

Câteva cazuri din trecutul recent rămân referințe pentru industrie. Hack-ul Ronin Network din 2022 a produs pierderi de peste 600 de milioane de dolari și rămâne printre cele mai mari din istoria cripto.

Atacul asupra Wormhole, din același an, a însemnat 320 de milioane de dolari pierduți. Exploatarea Euler Finance în 2023 a costat utilizatorii în jur de 197 de milioane de dolari, deși acolo o parte din fonduri au fost recuperate ulterior.

Din astfel de episoade s-a născut o întreagă industrie de audit și securitate blockchain. Firme ca Trail of Bits, OpenZeppelin, Certik, Halborn sau Consensys Diligence au ajuns parteneri obișnuiți ai echipelor de dezvoltare. Auditurile formale, verificarea matematică a proprietăților contractelor și programele de bug bounty sunt azi practici curente. Cu toate astea, vulnerabilitățile tot apar.

Explicația ține, cel puțin parțial, de complexitatea contractelor inteligente moderne. Un contract DeFi de azi interacționează cu alte contracte, cu oracole de preț, cu mecanisme de guvernanță și cu mai multe tipuri de active simultan.

Cu fiecare integrare nouă, suprafața pe care un atacator o poate exploata crește considerabil. Unele vulnerabilități sunt atât de greu de observat, încât nu ies la suprafață decât printr-un scenariu de atac foarte specific, pe care un auditor uman ar putea să nu-l anticipeze.

Cât de pregătită e inteligența artificială să apere blockchain-ul?

Ideea de a folosi modele AI pentru auditarea contractelor inteligente circulă de câțiva ani. Încă din 2023, cercetători din zona securității informatice au testat modele de limbaj pe analiza statică a codului Solidity. Rezultatele de atunci au fost amestecate, dar suficient de interesante încât industria să le ia în seamă.

EVMbench pune această idee pe o bază mai solidă. Prin crearea unui cadru standardizat de testare, OpenAI și Paradigm dau comunității un instrument prin care pot compara modele diferite pe același set de probleme. Echipele de dezvoltare pot vedea, cu cifre concrete, unde ajută un model și unde nu.

Ce confirmă însă EVMbench este o bănuială pe care mulți specialiști o aveau deja: agenții AI se pricep mai bine la atac decât la apărare. Când exploatezi o vulnerabilitate, obiectivul e clar, fondurile fie sunt extrase, fie nu.

Dar când trebuie să detectezi toate vulnerabilitățile dintr-un contract complex, sarcina devine deschisă, ambiguă, greu de cuantificat. Un agent optimizat pe iterare se descurcă excelent în primul caz și mediocru în al doilea.

Asta contează practic. Dacă instrumentele AI ajung în mâinile atacatorilor și capacitățile defensive ale acelorași modele rămân în urmă, balanța se înclină într-o direcție neplăcută. E un scenariu pe care oamenii din securitatea blockchain îl iau deja în calcul.

Pe de altă parte, scorurile obținute de Claude Opus 4.6 la detectare arată că potențialul defensiv există. Provocarea rămâne să transformi acel potențial în ceva cu adevărat fiabil, integrat în procesele reale de dezvoltare și audit, nu doar în teste de laborator.

Cine răspunde când codul scris de AI dă greș?

Incidentul Moonwell a readus în discuție o întrebare pe care industria cripto o tot ocolea. Când un contract inteligent generat cu asistență AI conține un bug care duce la pierderi reale, cine e de vină? Dezvoltatorul care a apelat la instrument? Compania care a construit modelul? Firma de audit care a semnat raportul?

Răspunsul nu e simplu, pentru că lanțul responsabilității e fragmentat. Modelele de limbaj vin cu termeni de utilizare care exclud explicit orice garanție privind corectitudinea rezultatelor. Cine le folosește, o face pe propria răspundere, cel puțin din punct de vedere legal.

Firmele de audit, la rândul lor, lucrează pe baza propriilor metodologii și standarde. Niciun audit nu promite absența totală a vulnerabilităților, ci doar o evaluare onestă pornind de la experiența auditorului.

Când codul a fost generat de un model AI, auditorii se confruntă cu o provocare suplimentară: tiparele de cod generate de modele pot arăta diferit față de cele scrise de mâna unui programator, iar unele vulnerabilități pot fi ascunse în structuri care arată corect la prima vedere, dar care conțin erori de logică.

Comunitatea cripto e împărțită pe subiect. Sunt voci care cer standarde de audit mai stricte pentru orice cod produs cu ajutorul AI. Alții pun responsabilitatea exclusiv pe echipa de dezvoltare, indiferent de instrumentele folosite.

Există și cei care cer un cadru de reglementare nou, adaptat situației, care să stabilească reguli clare privind răspunderea. Deocamdată, niciuna dintre aceste poziții nu s-a impus.

Rivalitatea OpenAI și Anthropic ajunge și în securitatea cripto

Lansarea EVMbench scoate la lumină și competiția tot mai intensă dintre OpenAI și Anthropic, cele două companii care domină piața modelelor de limbaj avansate. Cu GPT pe o parte și Claude pe cealaltă, cele două firme se întâlnesc acum și pe terenul securității blockchain.

Un aspect neobișnuit e transparența cu care OpenAI a prezentat rezultatele. De regulă, companiile de AI publică benchmark-uri care le pun propriile modele într-o lumină cât mai favorabilă. Aici, OpenAI a recunoscut fără ocolișuri că modelul Anthropic a avut rezultate mai bune la detectarea vulnerabilităților.

Gestul poate fi citit ca un semn de maturitate, dar și ca o mișcare calculată: prin publicarea unor date echilibrate, OpenAI câștigă credibilitate pentru EVMbench ca instrument neutru.

Competiția dintre cele două companii are și efecte bune pentru industria cripto. Cu cât mai mulți jucători investesc în instrumente de securitate bazate pe AI, cu atât ecosistemul devine mai rezistent. Dacă o echipă de dezvoltare poate rula mai multe modele în paralel pentru a-și verifica codul, cresc șansele de a prinde o vulnerabilitate pe care un singur model ar fi ratat-o.

Riscul apare însă când competiția generează așteptări exagerate. Dacă echipele de dezvoltare ajung să creadă că un audit AI le acoperă suficient și renunță la auditul uman sau îl reduc drastic, consecințele pot fi grave. EVMbench arată destul de clar că niciun model disponibil azi nu oferă o acoperire completă.

Paradigm, blockchain-ul Tempo și investiția în securitate

Un detaliu care riscă să treacă neobservat în toată povestea EVMbench este rolul jucat de Paradigm. Firma de capital de risc, una dintre cele mai influente din spațiul cripto, lucrează la propriul blockchain, Tempo, și a contribuit la construcția instrumentului cu scenarii de vulnerabilitate extrase din auditurile acestuia.

Ca investitor major în ecosistemul cripto, Paradigm are motive concrete să vrea mai puține hackuri. Fiecare incident serios din DeFi erodează încrederea publicului în finanțele descentralizate și, implicit, în valoarea portofoliului firmei.

Prin implicarea în EVMbench, Paradigm urmărește probabil să-și securizeze propriul blockchain înainte de lansare, dar și să se poziționeze ca un promotor al standardelor de securitate în industrie. Pe termen lung, miza e să creeze un ecosistem în care instrumentele AI de securitate devin suficient de bune pentru a reduce costurile și a scurta ciclurile de dezvoltare.

Încotro se îndreaptă securitatea contractelor inteligente?

Lansarea EVMbench și incidentul Moonwell, venite aproape concomitent, marchează un moment important în relația dintre inteligența artificială și securitatea blockchain-ului.

Cel mai probabil, vom vedea o integrare mai profundă a instrumentelor AI în fluxurile de securitate, dar cu o condiție esențială: aceste instrumente trebuie tratate ca un complement al auditului uman, nu ca un substitut.

EVMbench oferă deja un cadru prin care echipele pot evalua unde modelele ajută cu adevărat și unde lasă goluri, iar echipele care folosesc aceste informații responsabil vor fi mai bine poziționate decât cele care se bazează orbește pe un singur tip de verificare.

În paralel, e de așteptat ca din ce în ce mai multe resurse să meargă către modele specializate pe securitatea blockchain. Modelele generale de limbaj, oricât de capabile, nu sunt gândite special pentru particularitățile contractelor inteligente.

Antrenarea pe seturi de date cu vulnerabilități documentate și tipare de atac cunoscute ar putea aduce îmbunătățiri considerabile, mult peste ce oferă acum un model folosit direct din cutie.

Rămâne și chestiunea reglementării. Pe măsură ce AI-ul devine un participant activ în dezvoltarea software-ului financiar, autoritățile vor fi nevoite să clarifice cine răspunde, ce standarde minime trebuie respectate și cum se asigură transparența procesului.

Cadrul actual, în care companiile de AI nu oferă garanții iar toată responsabilitatea cade pe echipa de dezvoltare, s-ar putea dovedi insuficient pe măsură ce volumul de cod generat automat crește.

Între timp, ce s-a întâmplat la Moonwell rămâne un semnal pe care industria nu și-l poate permite să-l ignore. Codul trebuie verificat riguros, indiferent de cine sau ce l-a scris. Auditurile trebuie să fie temeinice. Iar încrederea necondiționată în orice instrument, fie el uman sau artificial, a fost întotdeauna o idee proastă în gestionarea banilor altora.

Industria cripto a trecut prin suficiente lecții costisitoare cât să știe asta. Rămâne de văzut dacă lecția de la Moonwell va fi și ea reținută.