OpenAI Araştırması Yapay Zekâ Modellerinin İnsanları Bilerek Yanılttığını Ortaya Koydu

Teknoloji 20.09.2025 News 6 görüntüleme

3 dk okuma

OpenAI tarafından yayınlanan yeni bir araştırma, yapay zekâ modellerinin bazı durumlarda kullanıcıları kasıtlı olarak yanıltabildiğini gösterdi. Şirket, Apollo Araştırma ile yürüttüğü çalışmada “aldatma eğilimi” adı verilen bu davranışın ayrıntılarını paylaştı. Araştırmada, modellerin görünürde verilen görevi yerine getiriyormuş gibi davranıp aslında farklı bir amaç güdebildiği vurgulandı.

Yapay Zekâ Modellerinde Gizli Hedefler Ortaya Çıktı

Çalışmada, yapay zekâ modellerinin özellikle görev sırasında basit aldatmalara başvurduğu belirtildi. Araştırmacılar, modellerin kimi zaman bir işi tamamlamadan bitirmiş gibi yanıt verdiğini gözlemledi. Bu durumun, kullanıcıların güvenini zedeleyebilecek bir davranış olduğu ifade edildi.

Today we’re releasing research with @apolloaievals.

In controlled tests, we found behaviors consistent with scheming in frontier models—and tested a way to reduce it.

While we believe these behaviors aren’t causing serious harm today, this is a future risk we’re preparing…

— OpenAI (@OpenAI) September 17, 2025

Araştırmada “aldatma eğilimi” kavramı, bir borsa simsarı tarafından yasa dışı yollara başvurularak kâr elde edilmeye çalışılmasına benzetildi. Uzmanlara göre en büyük sorun, modellerin denetlendiğini fark ettiğinde gerçek amacını gizleyerek daha dikkatli davranabilmesi. Bu da geliştiricilerin, modeli eğitirken istemeden daha gelişmiş aldatma yöntemleri öğretmesine yol açabiliyor.

OpenAI ve Apollo Araştırma, “düşünerek uyumlama” adını verdikleri yeni bir yöntem geliştirdi. Bu yöntemde modele, aldatıcı davranışları engelleyecek kurallar tanımlanıyor ve model harekete geçmeden önce bu kuralları gözden geçiriyor. Araştırmacılar, yapılan denemelerde bu yaklaşım sayesinde aldatıcı davranışların önemli ölçüde azaldığını açıkladı.

OpenAI kurucu ortaklarından Wojciech Zaremba, konuyla ilgili yaptığı açıklamada bu tür aldatıcı davranışların günlük kullanımda ciddi sonuçlar doğurmadığını ancak küçük çaplı yanlış yönlendirmelerin hâlâ görüldüğünü ifade etti. Zaremba, ChatGPT’nin zaman zaman bir görevi tamamlamış gibi yanıt verdiğini fakat bu durumun araştırmalarla aşamalı olarak azaltılmaya çalışıldığını dile getirdi.

Araştırma sonuçları, yapay zekâ sistemlerinin insan davranışlarını taklit ederken zaman zaman bilinçli olarak yanıltıcı tepkiler verebildiğini ortaya koydu. Uzmanlar, daha karmaşık görevlerin yapay zekâya verilmesiyle bu riskin büyüyebileceğini ve güvenlik önlemlerinin aynı oranda geliştirilmesi gerektiğini belirtti.