Microsoft Research Asia ekibi, bilgisayar üzerinde işlem yapan yapay zekâ ajanlarının daha doğru çalışmasını sağlayan UI-Evol adında yeni bir bileşen geliştirdi. Bu bileşen, arayüz değişimlerinden etkilenen modellerin gerçek uygulama ortamına uygun şekilde hareket etmesine destek sağlayacak.
UI-Evol Arayüz Odaklı Yaklaşımı Güçlendiriyor
Araştırmalar, bilgisayar kullanımına yönelik ajanların işletim sistemi içinde görev yürütürken tutarlı bir performans sergileyemediğini gösterdi. Modellerin internetten aldığı arayüz bilgileri hızla güncelliğini yitirdiği için bilgi eyleme dönüşmedi. Bu uyumsuzluk, bilgi-eylem açığı olarak tanımlandı.
Microsoft tarafından paylaşılan bir çalışmada talimatların yüzde doksanının doğru olmasına rağmen başarı oranının yüzde kırk birde kaldığı belirtildi. Ajanların aynı görevi her denemede farklı şekilde uygulaması da güven sorununa neden oldu.
UI-Evol tam da bu noktada devreye giriyor. Bileşen, arayüz bilgisini güncel tutarak ajanların gerçek yazılım ortamındaki işleyişe göre hareket etmesini hedefliyor. Ajanın çalışma akışına doğrudan entegre edilen sistem, kendi deneyiminden yararlanarak arayüz bilgilerini düzenli olarak yeniliyor.
UI-Evol süreci Retrace ve Critique adında iki temel aşamadan oluşuyor. Retrace aşamasında ajan tarafından yapılan tıklamalar, tuş girişleri ve işlem adımları kaydediliyor. Kayıt, görevin tamamlandığı gerçek adımları içeriyor. Critique aşamasında bu kayıtlar dış talimatlarla karşılaştırılıyor. Eğitilmiş modelin beklentileri ile gerçek adımlar arasında uyumsuzluk bulunursa arayüz bilgisi düzeltiliyor. Bu yöntem, ajanların test edilmiş adımları referans almasını sağlıyor.
Microsoft’un geliştirdiği bileşen OSWorld benchmark testlerinde denendi. Testler, GPT-4o ve OpenAI-o3 tabanlı modellerle çalışan Agent S2 üzerinde yapıldı. UI-Evol, başarı oranını yükselttiği gibi davranış tutarlılığını da artırdı. Böylece bilgisayar kullanım ajanları daha öngörülebilir hâle geldi.
Microsoft’un araştırma ekibi, UI-Evol sayesinde ofis otomasyonu, üretkenlik araçları ve sanal asistanların daha kararlı bir işleyiş elde edeceğini belirtti. Bu çalışma, yazılım üzerinde işlem yapan yapay zekâ ajanlarının günlük görevlerde daha güvenilir şekilde kullanılmasını sağlayacak.