Tehlike Kapıda: Siber Güvenlik Uzmanları Gerçek Zamanlı Sesli Deepfake Saldırılarına Karşı Uyarıyor

Yapay zekâ alanındaki hızlı ilerlemeler, artık insan sesini gerçek zamanlı olarak taklit edebilen sistemlerin ortaya çıkmasına yol açtı. Siber güvenlik uzmanları, bu teknolojinin dolandırıcılık ve kimlik hırsızlığı gibi alanlarda yeni riskler doğurduğunu söylüyor. Ses kopyalama sistemleri artık yalnızca kaydedilmiş ses örneklerine ihtiyaç duymadan, canlı konuşmalar sırasında bile kişilerin sesini gerçeğe çok yakın şekilde taklit edebiliyor.

Gerçek Zamanlı Ses Kopyalama Saldırıları Yayılıyor

Siber güvenlik firması NCC Group, açık kaynaklı yapay zekâ araçlarını sıradan donanımlarla birleştirerek gerçek zamanlı ses sahtekârlığı üretebilen bir yöntem geliştirdi. “Deepfake arama” olarak adlandırılan bu teknik, hedef kişinin ses örneklerinden eğitilen modeller aracılığıyla canlı görüşmelerde birebir benzer sesler oluşturabiliyor. Kullanıcılar, özel bir arayüzde yer alan tek bir tuşla bu sahte sesi etkinleştirebiliyor.

Deepfake saldırı akışı

Araştırmacılar, sistemi Nvidia RTX A1000 ekran kartına sahip bir dizüstü bilgisayarda test etti. Elde edilen sonuçlarda ses gecikmesinin yarım saniyeye kadar düştüğü görüldü. Kayıtların düşük kalitede olması bile sistemi etkilemedi. Bu durum, sıradan dizüstü bilgisayarlar veya akıllı telefonlardaki mikrofonlarla da benzer sonuçlar alınabileceğini gösteriyor. Böylece kötü niyetli kişilerin saldırı düzenlemesi daha kolay hale geliyor.

Geçmişte ses kopyalama girişimleri yalnızca önceden kaydedilmiş kısa ses parçaları üzerinden çalışıyordu. Bu yöntemler doğrudan etkileşim kurmaya elverişli değildi. Artık sesin anlık olarak dönüştürülebilmesi, karşı tarafın sahtekârlığı fark etmesini zorlaştırıyor. Aramalarda doğal konuşma akışı taklit edildiği için, hedef kişiler sahte sesi fark etmeden tepki verebiliyor.

NCC Group danışmanı Pablo Alobera, şirketin yaptığı kontrollü testlerde sahte seslerin neredeyse her denemede hedefi aldattığını açıkladı. Kimlik doğrulamada kullanılan arama sistemlerinin bu tarz saldırılara açık hale geldiği belirtiliyor. Alobera’ya göre saldırganlar, sahte kimlik bilgileriyle yapılan aramalarda büyük güvenlik açıklarından yararlanabiliyor.

Ses alanında yaşanan bu gelişmelere rağmen, video sahtekârlığında aynı düzeyde başarı sağlanamadı. Alibaba’nın WAN 2.2 Animate modeli ile Google’ın Gemini Flash 2.5 Image sistemi gerçeğe yakın videolar üretebiliyor. Ancak uzmanlara göre yüz ifadelerinde ve dudak hareketlerinde hâlâ uyumsuzluklar gözleniyor. Bu nedenle video sahtekârlıkları, canlı görüşmelerde kolayca fark edilebiliyor.

Yapay zekâ tabanlı sahte kimliklerle düzenlenen görüşmeler bazı şirketleri maddi kayba uğrattı. AI güvenlik firması The Circuit’in kurucusu Trevor Wiseman, bir işe alım sürecinde sahte bir video görüşmesinin şirketi kandırdığını ve ekipmanın yanlış kişiye gönderildiğini aktardı. Bu örnek, ses veya video görüşmelerine dayalı kimlik doğrulamasının artık güvenli olmadığını gösteriyor.

Uzmanlara göre gelecekte kimlik doğrulama süreçlerinin tamamen yeniden tasarlanması gerekiyor. Trevor Wiseman, uzaktan yapılan görüşmelerde kimliği kanıtlamak için benzersiz doğrulama sinyalleri veya önceden belirlenmiş özel kodların kullanılmasını öneriyor. Bu sistemlerin, spor karşılaşmalarındaki gizli işaretlere benzer şekilde çalışabileceği belirtiliyor. Aksi takdirde, yapay zekâ destekli sahtecilik girişimleri kişisel ve kurumsal güvenliği ciddi biçimde zayıflatabilir.