Vaxt.AZ xarici mediaya istinadən xəbər verir ki, Böyük Britaniya Süni İntellekt Təhlükəsizliyi İnstitutu, “Alan Turing” İnstitutu və “Anthropic” şirkətinin ortaq araşdırması göstərir ki, təxminən 250 ədəd azsaylı sənəd böyük dil modellərində (LLM-lərdə) məna kəsb etməyən mətnlər yaradılmasına səbəb olan bir “arxa qapı” zəifliyi yarada bilər.
Bu boşluq xüsusilə narahatedicidir, çünki ən populyar LLM-lər internetdə açıq mövcud olan mətnlərlə – şəxsi saytlar və bloq yazıları daxil olmaqla – əvvəlcədən müəyyən olunur. Bu isə hər kəsi modelin təlim məlumatlarına daxil ola biləcək məzmunlar yaratmağa imkan verir.
“Anthropic” mövzunu şərh edən bloq yazısında, “Pis niyyətlilər zəhərləmə adlanan proses vasitəsilə modellərin istənməyən və ya təhlükəli davranışları öyrənməsinə səbəb olmaq üçün bu məzmunlara xüsusi mətnlər daxil edə bilərlər”, – deyə bildirib.
“Arxa qapı” əlavə etmək də bu hücum növünə aiddir. “Arxa qapı”lar modeldən normalda gizli qalacaq müəyyən davranışı işə salan xüsusi ifadələrdir. Məsələn, bir hücumçu zərərli qatil ifadəni daxil etdikdə, LLM-lər həssas məlumatları sızdıracaq şəkildə zəhərlənə bilər.
Bu tapıntılar süni intellekt təhlükəsizliyi ilə bağlı narahatlıqları artırarkən, tədqiqatçılar belə zəifliyin texnologiyanın həssas tətbiqlərdə istifadəsini məhdudlaşdıra biləcəyini bildirirlər.
“Alan Turing” İnstitutundan iki doktor – Vasilios Mavroudis və Kris Hiks, “Nəticələrimiz təəccüblü və narahatedicidir. Bir LLM-i zəhərləmək üçün lazım olan təhlükəli sənədlərin sayı (təxminən 250) modelin və ya təlim məlumatlarının ölçüsündən asılı olmayaraq demək olar ki, sabitdir”, – deyə yazır.
Başqa sözlə desək, məlumatların zəhərlənməsi hücumları əvvəl düşünüləndən daha tətbiq oluna bilən ola bilər. Məsələn, hücumçu üçün 250 ədəd zəhərli “Wikipedia” məqaləsi yaratmaq nisbətən asan iş ola bilər.
Risklər “Poisoning attacks on LLMs require a near-constant number of poison samples” (LLM-lərə yönəlmiş zəhərləmə hücumları təxminən sabit sayda zəhər nümunələri tələb edir) başlıqlı məqalədə ətraflı təsvir edilib.