AI Chatboti Podložni Napadima Ubacivanja u Memoriju

Image by Mika Baumeister, from Unsplash

AI Chatboti Podložni Napadima Ubacivanja u Memoriju

Vrijeme čitanja: 2 minuta

Istraživači su otkrili novi način manipulacije AI chatbotovima, što izaziva zabrinutost o sigurnosti AI modela s memorijom.

U žurbi? Evo brzih činjenica!

  • Istraživači sa tri sveučilišta razvili su MINJA, pokazujući njegovu visoku uspješnost u obmani.
  • Napad mijenja odgovore chatbota, utječući na preporuke proizvoda i medicinske informacije.
  • MINJA zaobilazi sigurnosne mjere, postižući 95% uspješnosti injekcije u testovima.

Napad, nazvan MINJA (Memory INJection Attack), može se izvesti jednostavnom interakcijom s AI sustavom kao regularni korisnik, bez potrebe za pristupom njegovom backendu, kako je prvi put izvijestio The Register.

Razvijena od strane istraživača sa Sveučilišta Michigan State, Sveučilišta Georgia i Sveučilišta Singapore Management, MINJA djeluje tako što trovanjem memorije AI-a kroz zavaravajuće upute. Jednom kada chatbot pohrani ove obmanjujuće unose, oni mogu promijeniti buduće odgovore za druge korisnike.

“Danas AI agenti obično uključuju banku memorije koja pohranjuje zadatke i izvršenja temeljena na ljudskim povratnim informacijama za buduće reference,” objasnio je Zhen Xiang, docent na Sveučilištu Georgia, kako je izvijestio The Register.

“Na primjer, nakon svake sesije s ChatGPT-om, korisnik po želji može dati pozitivnu ili negativnu ocjenu. I ta ocjena može pomoći ChatGPT-u da odluči hoće li informacije o sesiji biti uključene u njihovu memoriju ili bazu podataka”, dodao je.

Istraživači su testirali napad na AI modele pokretane OpenAI-jevim GPT-4 i GPT-4o, uključujući asistenta za internetsku kupnju, chatbot za zdravstvenu skrb i agenta za odgovaranje na pitanja.

The Register izvještava da su otkrili kako MINJA može uzrokovati ozbiljne poremećaje. U zdravstvenom chatbotu, na primjer, izmijenila je pacijentove zapise, povezujući podatke jednog pacijenta s drugim. U online trgovini, prevarila je AI da kupcima prikaže krive proizvode.

“Nasuprot tome, naš rad pokazuje da se napad može pokrenuti samo interakcijom s agentom kao običnim korisnikom,” rekao je Xiang, izvještava The Register. “Bilo koji korisnik može lako utjecati na izvršenje zadatka bilo kojeg drugog korisnika. Stoga kažemo da je naš napad praktična prijetnja LLM agentima,” dodao je.

Napad je posebno zabrinjavajući jer zaobilazi postojeće mjere sigurnosti umjetne inteligencije. Istraživači su prijavili uspješnost od 95% u ubrizgavanju obmanjujućih informacija, što predstavlja ozbiljnu ranjivost koju moraju riješiti developeri umjetne inteligencije.

Kako modeli umjetne inteligencije s memorijom postaju sve češći, studija ističe potrebu za jačim zaštitnim mjerama kako bi se spriječilo zlonamjerne aktere u manipuliranju chatbotovima i obmanjivanju korisnika.

Svidio vam se ovaj članak? Ocijenite ga!
Nije mi se uopće svidjelo Baš mi se i nije svidjelo U redu je Poprilično je dobro! Oduševilo me!

Drago nam je da vam se svidio naš rad!

Kao naš cijenjeni čitatelj, biste li nas pohvalili na Trustpilotu? Kratko je i puno nam znači. Hvala što ste sjajni!

Ocijenite nas na Trustpilotu
0 Ocijenilo 0 korisnika
Naslov
Komentiraj
Zahvaljujemo na povratnoj informaciji
Loader
Please wait 5 minutes before posting another comment.
Comment sent for approval.

Ostavite komentar

Loader
Loader Prikaži više...