Cercetătorii au descoperit ca unele date folosite la antrenarea AI conțineau parole valide

Cercetătorii în domeniul securității au descoperit că unele seturi de date utilizate de companiile care dezvoltă modele lingvistice mari (LLM) includ chei API, parole și multe alte tipuri de acreditări.

Nu este un secret că modelele lingvistice mari domină lumea online. Companiile se laudă cu soluții AI puternice, care par să fie răspunsul la orice.

Cu toate acestea, pentru ca un agent sau o soluție de tip AI să fie eficientă, trebuie antrenată pe cât mai multe date posibil. O parte din aceste date sunt preluate direct de pe Internet, iar unele companii și organizații sunt specializate în acest tip de colectare de date.

Common Crawl este una dintre aceste organizații, oferind seturi de date companiilor care au nevoie să își antreneze AI-ul, iar toate datele sunt colectate din Internetul accesibil publicului. Acest lucru înseamnă că și informații sensibile pot fi colectate.

Cercetătorii în securitate de la Truffle Security au descoperit că tot felul de credențiale, chei API și parole sunt prinse în acest proces. Problema principală este că unii dezvoltatori încorporează informații sensibile direct în site-urile lor, ceea ce ajunge în final în datele de antrenament ale modelelor LLM.

Cercetătorii au descoperit 11.908 informații sensibile active (chei API, parole și alte acreditări care se autentifică cu succes la serviciile respective) în 2,76 milioane de site-uri web.

„Cheile scurse în setul de date Common Crawl nu ar trebui să reflecte negativ asupra organizației lor; nu este vina lor că dezvoltatorii încorporează chei în HTML și JavaScript pe pagini web pe care nu le controlează. Și Common Crawl nu ar trebui să fie responsabil pentru eliminarea acestor date; scopul lor este de a furniza un set de date gratuit și public, bazat pe Internetul public, astfel încât organizații precum Truffle Security să poată efectua acest tip de cercetare”, au explicat cercetătorii.

De fapt, companiile care dezvoltă LLM au avertizat cu privire la această problemă. Recomandarea este simplă: nu încorporați niciun tip de informație sensibilă în site-urile web, mai ales pentru că utilizatorii AI ar putea folosi codul paginilor în munca lor, răspândind astfel problema și mai mult.

Cercetătorii au descoperit ca unele date folosite la antrenarea AI conțineau parole valide

Autor

Silviu STAHIE

Se întâmplă acum Populare

Cum să identifici și să te protejezi de fraudele cu laptopuri de gaming

Cele mai frecvente escrocherii online de Ziua Îndrăgostiților la care trebuie să fii atent

Ziua Siguranței pe Internet 2025: Bunăstarea digitală și siguranța online pentru copii și adolescenți

Au furat 20 de milioane de dolari spărgând emailurile agenților imobiliari – de ce firmele mici trebuie să ia în serios securitatea cibernetică

FOLLOW US ON SOCIAL MEDIA

Articole similare

O nouă funcție de securitate de la Google îți protejează telefonul de intruși

Actualizarea de securitate Microsoft din aprilie 2025 creează un folder gol 'inetpub' pe care nu ar trebui să-l ștergi

Vulnerabilitate WhatsApp pentru Windows permite atacatorilor să mascheze malware în atașamente

Articole salvate