Cercetătorii au descoperit ca unele date folosite la antrenarea AI conțineau parole valide

Silviu STAHIE

28 Februarie 2025

Promo Un singur produs care vă protejează toate dispozitivele.
Încercați-l gratuit 30 de zile
Cercetătorii au descoperit ca unele date folosite la antrenarea AI conțineau parole valide

Cercetătorii în domeniul securității au descoperit că unele seturi de date utilizate de companiile care dezvoltă modele lingvistice mari (LLM) includ chei API, parole și multe alte tipuri de acreditări.

Nu este un secret că modelele lingvistice mari domină lumea online. Companiile se laudă cu soluții AI puternice, care par să fie răspunsul la orice.

Cu toate acestea, pentru ca un agent sau o soluție de tip AI să fie eficientă, trebuie antrenată pe cât mai multe date posibil. O parte din aceste date sunt preluate direct de pe Internet, iar unele companii și organizații sunt specializate în acest tip de colectare de date.

Common Crawl este una dintre aceste organizații, oferind seturi de date companiilor care au nevoie să își antreneze AI-ul, iar toate datele sunt colectate din Internetul accesibil publicului. Acest lucru înseamnă că și informații sensibile pot fi colectate.

Cercetătorii în securitate de la Truffle Security au descoperit că tot felul de credențiale, chei API și parole sunt prinse în acest proces. Problema principală este că unii dezvoltatori încorporează informații sensibile direct în site-urile lor, ceea ce ajunge în final în datele de antrenament ale modelelor LLM.

Cercetătorii au descoperit 11.908 informații sensibile active (chei API, parole și alte acreditări care se autentifică cu succes la serviciile respective) în 2,76 milioane de site-uri web.

„Cheile scurse în setul de date Common Crawl nu ar trebui să reflecte negativ asupra organizației lor; nu este vina lor că dezvoltatorii încorporează chei în HTML și JavaScript pe pagini web pe care nu le controlează. Și Common Crawl nu ar trebui să fie responsabil pentru eliminarea acestor date; scopul lor este de a furniza un set de date gratuit și public, bazat pe Internetul public, astfel încât organizații precum Truffle Security să poată efectua acest tip de cercetare”, au explicat cercetătorii.

De fapt, companiile care dezvoltă LLM au avertizat cu privire la această problemă. Recomandarea este simplă: nu încorporați niciun tip de informație sensibilă în site-urile web, mai ales pentru că utilizatorii AI ar putea folosi codul paginilor în munca lor, răspândind astfel problema și mai mult.

tags


Autor


Silviu STAHIE

Silviu is a seasoned writer who followed the technology world for almost two decades, covering topics ranging from software to hardware and everything in between.

Toate articolele

Articole similare

Articole salvate


loader