OpenAI, Yapay Zekâ Güvenliğini Artıran Yeni Açık Ağırlıklı Modellerini Tanıttı

OpenAI, geliştiricilerin güvenlik politikalarını daha esnek şekilde uygulayabilmesi için yeni açık ağırlıklı modellerini duyurdu. Şirket, daha önce yayınladığı gpt-oss-120b ve gpt-oss-20b modellerini temel alarak güvenlik odaklı gpt-oss-safeguard-120b ve gpt-oss-safeguard-20b sürümlerini geliştirdi.

Yeni Modeller Güvenlik Sınıflandırmalarına Odaklanıyor

OpenAI tarafından geliştirilen gpt-oss-safeguard modelleri, güvenlik sınıflandırmalarına özel olarak uyarlandı. Bu modeller, geliştiricilerin kendi politikalarını uygulamasına imkân tanıyan esnek bir yapıya sahip. Model, içerikleri geliştiricinin tanımladığı güvenlik politikalarına göre değerlendiriyor. Böylece her platform, kendi risk düzeyine uygun denetim mekanizması kurabiliyor.

Yeni sistem, geliştiricilerden gelen politikaları doğrudan çalıştırma sırasında yorumlayarak içerik değerlendirmesi yapıyor. Geliştirici, modeli yeniden eğitmeden yalnızca politikayı güncelleyerek sistemi geliştirebiliyor. Model, iki girdi alarak çalışıyor: güvenlik politikası ve analiz edilecek içerik. Ardından içeriğin hangi kategoriye girdiğini ve buna ilişkin gerekçeyi açıklıyor.

OpenAI, bu yaklaşımın özellikle hızlı değişen risk alanlarında etkili olacağını belirtiyor. Geliştiriciler, yeni tehdit türlerine karşı politikalarını anında güncelleyebiliyor. Bu yöntem, örnek verinin yetersiz olduğu durumlarda da işe yarıyor. Şirket, açıklamalarında gpt-oss-safeguard modellerinin yüksek doğrulukla çalışsa da bazı sınırlamalara sahip olduğunu vurguladı.

OpenAI, büyük ölçekli riskler için özel olarak eğitilmiş modellerin hâlen en yüksek hassasiyeti sunduğunu ifade etti. gpt-oss-safeguard modelleri, açıklanabilir sonuçlar üretse de işlem gücü gereksinimi yüksek olduğundan büyük platformlarda sürekli kullanım maliyetli olabiliyor. Şirket, buna rağmen geliştiricilerin açıklanabilir güvenlik sınıflandırmalarında bu modellerden fayda sağlayabileceğini belirtiyor. Modelleri denemek isteyen kullanıcılar gpt-oss-safeguard-120b ve gpt-oss-safeguard-20b modellerini buradan indirebilir.