Google, internet tarayıcısı üzerinden doğrudan işlem yapabilen yeni yapay zekâ modeli Gemini 2.5 Computer Use’u tanıttı. Şirket, bu modelin kullanıcı arayüzlerini tıpkı insanlar gibi algılayabildiğini ve etkileşim kurabildiğini belirtti.
Google Yapay Zekâsını İnsan Arayüzleriyle Uyumlu Hale Getiriyor
Gemini 2.5, kullanıcı talimatlarını görsel olarak analiz ederek internet sitelerinde form doldurma, buton tıklama, dosya sürükleme gibi görevleri yerine getirebiliyor. Modelin API erişimi bulunmayan platformlarda görevleri otomatikleştirmek ve arayüz tabanlı işlemleri kolaylaştırmayı hedefliyor.
Gemini 2.5 Computer Use, Google’ın yapay zekâ teknolojilerinde attığı en somut adımlardan biri olarak değerlendiriliyor. Model, tarayıcı üzerinden insan arayüzlerini analiz ederek belirlenen görevi adım adım tamamlayabiliyor. Bu yetenek, özellikle kullanıcı testleri ya da yazılım arayüzlerinin denetimi gibi alanlarda büyük kolaylık sağlıyor. Şirket, daha önce araştırma projelerinde benzer sistemleri sınırlı şekilde kullanmıştı. Ancak yeni sürüm, doğrudan geliştiricilere açılarak deneysel aşamadan çıkmış oldu.
Google, yeni yapay zekâ modelinin yalnızca web tarayıcısı ortamında işlem yaptığını vurguladı. Gemini 2.5’in masaüstü düzeyinde sistem erişimi bulunmuyor. Şu anda model, metin yazma, form doldurma, bağlantı tıklama, sayfa kaydırma ve öğe sürükleme gibi 13 eylemi destekliyor. Google, modelin masaüstü işletim sistemleri üzerinde tam kontrol sağlamadığını ancak web ortamında güçlü bir performans sunduğunu ifade etti.
Gemini 2.5 Computer Use, Google AI Studio ve Vertex AI platformları üzerinden geliştiricilere açıldı. Ayrıca Browserbase üzerinde sunulan bir deneme sürümü sayesinde kullanıcılar modelin görev tamamlama sürecini adım adım izleyebiliyor. Gösterimlerde modelin “2048 oyununu oyna” veya “Hacker News sitesinde popüler tartışmaları incele” gibi görevleri gerçekleştirdiği görüldü. Videolar, sürecin üç kat hızlandırılmış hâliyle paylaşıldı.
Google’ın yeni modeli, OpenAI’ın ChatGPT Agent ve Anthropic’in Claude modelleriyle aynı dönemde öne çıktı. Ancak Gemini 2.5, yalnızca web tarayıcısında işlem yapmasıyla rakiplerinden ayrılıyor. Şirket, modelin çeşitli web ve mobil testlerde lider performans gösterdiğini belirtti. Yapılan bu hamle, Google’ın yapay zekâ tabanlı görev otomasyonunda daha insan odaklı bir yaklaşım benimsediğini gösteriyor.