Araştırmacılar Basit Karakter Dizileriyle Yapay Zekâ Koruma Katmanlarını Aşabiliyor

Güvenlik araştırmacıları büyük dil modellerini koruyan sistemlerde yeni bir zayıflık ortaya çıkardı. HiddenLayer ekibi koruyucu modelleri hedef alan EchoGram adlı yöntemle oldukça basit karakter dizilerinin filtreleri geçebildiğini gösterdi.

EchoGram Saldırı Yöntemi Yapay Zekâ Guardrail Sistemlerini Zor Durumda Bıraktı

HiddenLayer araştırmacıları EchoGram yöntemini geliştirirken koruma modellerinin işleyişini mercek altına aldı. Koruma sistemleri çoğu zaman giriş metnini inceleyen sınıflandırma modelleri ile karar veren LLM tabanlı değerlendirme araçlarından oluşuyor.

Her iki yapı eğitilmiş veri kümelerinden aldığı örneklerle zararlı girdi tespiti yapıyor. Araştırma ekibi bu yapıların zayıf noktalarını belirlemek için zararsız ve zararlı terimlerden oluşan özel bir kelime listesi oluşturdu. Ekip bu listedeki dizileri skorlayarak koruma modelinin kararının hangi noktada değiştiğini tespit etti. Bu süreç sonucunda EchoGram saldırganlara eklendiğinde filtreyi geçen tokenlar sunuyor.

Araştırmacılar =coffee ya da oz gibi çok basit dizilerin koruma modellerinin değerlendirmesini değiştirdiğini bildirdi. Örneğin GPT-4o ile Qwen3Guard 0.6B gibi modellerde tehlikeli girişler bu eklentilerle güvenli olarak sınıflandırıldı.

Prompt injection saldırıları geliştiricinin hazırladığı güvenilir komut zincirini hedef alıyor. Saldırgan metne yerleştirdiği talimatlarla modeli yönlendirmeye çalışıyor. Saldırı doğrudan giriş alanına yazı ekleyerek uygulanabildiği gibi modelin işlediği herhangi bir içerik üzerinden dolaylı biçimde de yapılabiliyor. HiddenLayer ekibi prompt injection ile jailbreak girişimlerini sırasıyla görev yönlendirme ile hizalama atlatma olarak tanımladı. Her iki saldırı türü de koruma modellerinin hatalı sınıflandırma yapmasına yol açıyor.

Bazı akademik güvenlik araştırmaları daha önce benzer açıkları ortaya çıkarmıştı. Geçen yıl Meta tarafından kullanılan Prompt-Guard-86M koruma modelinin boşluk ekleme yöntemiyle aşılabildiği raporlanmıştı. Koruma katmanının devre dışı kalması her zaman saldırının başarıya ulaştığı anlamına gelmese de güvenlik duvarının en kritik bölümünde büyük bir sorun ortaya çıkıyor.

HiddenLayer araştırmacıları Kasimir Schulz ile Kenneth Yeung koruma katmanlarının sistem için temel güvenlik hattı olduğunu söyledi. Uzmanlar EchoGram yönteminin içeriden erişim gerektirmeden korumaları devre dışı bırakabildiğini belirtti. Araştırmacılar şirketlerin koruma modellerinde eğitim verisi kalitesini artırması gerektiğini ifade etti.