Cisco, Açık Ağırlıklı Yapay Zekâ Modellerinde Ciddi Güvenlik Açıkları Tespit Etti

Cisco, önde gelen açık ağırlıklı yapay zekâ modellerinde ciddi güvenlik zafiyetleri tespit etti. Şirketin gerçekleştirdiği son araştırma, bu modellerin karmaşık manipülasyon tekniklerine karşı beklenenden çok daha savunmasız olduğunu ortaya çıkardı.

Cisco, Modellerin Güvenliğini AI Validation Aracıyla Test Etti

Açık ağırlıklı yapay zekâ modelleri, kullanıcıların indirip kendi sistemlerine entegre edebildiği ve özgürce uyarlayabildiği yapılar olarak biliniyor. Cisco’nun çalışması, Alibaba, DeepSeek, Google, Meta, Microsoft, OpenAI ve Mistral tarafından geliştirilen yedi farklı modeli kapsamlı şekilde inceledi.

Araştırma ekibi, modellerin güvenlik dayanıklılığını ölçümlemek için şirketin geliştirdiği AI Validation aracını kullandı. Bu araç, yapay zekâ modellerinin kötüye kullanılma olasılığını ve savunma mekanizmalarının gücünü analiz etmeye odaklanıyor. Elde edilen sonuçlar, incelenen tüm modellerin çok adımlı jailbreak saldırılarına karşı savunmasız olduğunu gösterdi. Bu saldırı türü, modele ardışık yönergeler verilerek normalde yasaklı veya sınırlı içerikler üretmesinin sağlanmasıyla gerçekleştiriliyor.

Araştırmacılar, geçmişte de benzer tekniklerin “Skeleton Key” adıyla kullanıldığını hatırlatarak, saldırı yöntemlerinin giderek daha karmaşık hâle geldiğini belirtti. Cisco’nun testlerinde, Google’ın Gemma 3-1B-IT modeli yüzde 25.86, Mistral Large-2 modeli ise yüzde 92.78 oranında saldırıya maruz kaldı.

Cisco, saldırı başarı oranlarındaki farklılıkların modelin hizalanma (insan değerleriyle uyumlu davranma) ve yetkinlik (belirli görevleri yerine getirme becerisi) düzeyleriyle yakından ilişkili olduğunu vurguladı. Meta’nın Llama serisi gibi geliştiricilere geniş esneklik tanıyan modellerin, çok adımlı saldırılara karşı daha zayıf bir savunma sergilediği tespit edildi. Buna karşılık Google’ın Gemma modeli, sıkı güvenlik protokolleri sayesinde daha dengeli bir performans ortaya koydu. Raporda, güvenlik odaklı geliştirilen modellerin kötüye kullanım riskinin düşük olduğu, ancak gelişmiş saldırı stratejilerine karşı hâlâ güçlendirilmesi gerektiği ifade edildi.

Cisco uzmanları, bu güvenlik açıklarının yalnızca teknik bir sorun olmadığını, aynı zamanda veri gizliliği, etik güvenlik ve operasyonel bütünlük açısından ciddi sonuçlar doğurabileceğini belirtti. Araştırmada, tespit edilen açıkların hassas verilerin sızmasına, manipüle edilmiş içeriklerin yayılmasına, önyargılı çıktılara ve kritik sistemlerde yanlış kararların alınmasına yol açabileceği uyarısında bulunuldu.

Kurumsal ortamlarda bu zafiyetlerin yetkisiz erişim riskini artırdığı, özellikle üretken yapay zekâ destekli sohbet robotları ve karar destek sistemlerinde ciddi tehditler oluşturabileceği vurgulandı. Cisco raporunun sonunda, üretken yapay zekâ teknolojilerinin hızla yaygınlaşmasıyla birlikte saldırı yöntemlerinin de sürekli evrildiğine dikkat çekildi. Uzmanlar, açık kaynaklı modellerin artık yalnızca işlevsellik açısından değil, sistematik güvenlik testleri açısından da düzenli olarak denetlenmesi gerektiğini belirtti.