
Image by Mika Baumeister, from Unsplash
AI Chatboti Podložni Napadima Ubacivanja u Memoriju
Istraživači su otkrili novi način manipulacije AI chatbotovima, što izaziva zabrinutost o sigurnosti AI modela s memorijom.
U žurbi? Evo brzih činjenica!
- Istraživači sa tri sveučilišta razvili su MINJA, pokazujući njegovu visoku uspješnost u obmani.
- Napad mijenja odgovore chatbota, utječući na preporuke proizvoda i medicinske informacije.
- MINJA zaobilazi sigurnosne mjere, postižući 95% uspješnosti injekcije u testovima.
Napad, nazvan MINJA (Memory INJection Attack), može se izvesti jednostavnom interakcijom s AI sustavom kao regularni korisnik, bez potrebe za pristupom njegovom backendu, kako je prvi put izvijestio The Register.
Razvijena od strane istraživača sa Sveučilišta Michigan State, Sveučilišta Georgia i Sveučilišta Singapore Management, MINJA djeluje tako što trovanjem memorije AI-a kroz zavaravajuće upute. Jednom kada chatbot pohrani ove obmanjujuće unose, oni mogu promijeniti buduće odgovore za druge korisnike.
“Danas AI agenti obično uključuju banku memorije koja pohranjuje zadatke i izvršenja temeljena na ljudskim povratnim informacijama za buduće reference,” objasnio je Zhen Xiang, docent na Sveučilištu Georgia, kako je izvijestio The Register.
“Na primjer, nakon svake sesije s ChatGPT-om, korisnik po želji može dati pozitivnu ili negativnu ocjenu. I ta ocjena može pomoći ChatGPT-u da odluči hoće li informacije o sesiji biti uključene u njihovu memoriju ili bazu podataka”, dodao je.
Istraživači su testirali napad na AI modele pokretane OpenAI-jevim GPT-4 i GPT-4o, uključujući asistenta za internetsku kupnju, chatbot za zdravstvenu skrb i agenta za odgovaranje na pitanja.
The Register izvještava da su otkrili kako MINJA može uzrokovati ozbiljne poremećaje. U zdravstvenom chatbotu, na primjer, izmijenila je pacijentove zapise, povezujući podatke jednog pacijenta s drugim. U online trgovini, prevarila je AI da kupcima prikaže krive proizvode.
“Nasuprot tome, naš rad pokazuje da se napad može pokrenuti samo interakcijom s agentom kao običnim korisnikom,” rekao je Xiang, izvještava The Register. “Bilo koji korisnik može lako utjecati na izvršenje zadatka bilo kojeg drugog korisnika. Stoga kažemo da je naš napad praktična prijetnja LLM agentima,” dodao je.
Napad je posebno zabrinjavajući jer zaobilazi postojeće mjere sigurnosti umjetne inteligencije. Istraživači su prijavili uspješnost od 95% u ubrizgavanju obmanjujućih informacija, što predstavlja ozbiljnu ranjivost koju moraju riješiti developeri umjetne inteligencije.
Kako modeli umjetne inteligencije s memorijom postaju sve češći, studija ističe potrebu za jačim zaštitnim mjerama kako bi se spriječilo zlonamjerne aktere u manipuliranju chatbotovima i obmanjivanju korisnika.
Ostavite komentar
Otkaži