Yapay Zekâ Şirketleri Neden Kendi Verilerini Topluyor?

Yapay zekâ alanında faaliyet gösteren şirketler artık dış kaynaklı veri kümelerine güvenmek yerine kendi verilerini toplamayı tercih ediyor. Yeni dönemde teknoloji girişimleri, daha kaliteli sonuçlar elde edebilmek için çalışanlarını üretim sürecine dâhil ederek özgün veri setleri oluşturuyor.

Şirketler Verinin Kalitesine Odaklanıyor

Turing Labs gibi bazı yapay zekâ şirketleri, eğitim verilerini doğrudan sahadan topluyor. Şirket, sanatçılar, inşaat işçileri, aşçılar ve elektrikçilerle çalışarak farklı meslek gruplarına ait görüntü verileri elde ediyor. Çalışanlar, başlarına takılan GoPro kameralarla günlük faaliyetlerini kaydediyor. Bu sayede sistem, farklı açılardan aynı hareketi gözlemleyerek görsel mantık ve problem çözme becerilerini öğreniyor.

Turing Labs’in Genel Yapay Zekâ Sorumlusu Sudarshan Sivaraman, çeşitliliğin yüksek olduğu bir veri setine sahip olmanın model performansını doğrudan etkilediğini belirtiyor. Şirketin topladığı verilerin yaklaşık yüzde 75-80’i sentetik olarak genişletiliyor. Ancak Sivaraman’a göre, sentetik verilerin başarılı olabilmesi için temel veri setinin yüksek kalitede olması gerekiyor.

Fyxer adlı girişim de benzer bir yaklaşımla ilerliyor. E-posta yönetimi alanında çalışan şirket, verimliliği artırmak için çok sayıda küçük model kullanıyor. Fyxer’in kurucusu Richard Hollingsworth, modelin başarısının verinin miktarından çok kalitesiyle belirlendiğini ifade ediyor.

Şirket, başlangıçta mühendislerinden çok sayıda deneyimli yönetici asistanla çalıştı. Hollingsworth’e göre bu tercih, e-postaların nasıl yanıtlanması gerektiğini daha iyi anlamak için gerekliydi. Eğitim sürecinde toplanan veriler titizlikle seçildi. Şirket zamanla veri miktarını azaltıp, daha dikkatli hazırlanmış küçük veri setlerine yöneldi.

Yapay zekâ sektöründe artık veri toplamak sadece bir teknik gereklilik değil, aynı zamanda stratejik bir hamle olarak değerlendiriliyor. Kendi verisini toplayan şirketler, rakiplerine göre daha güçlü bir konum elde ediyor. Fyxer gibi girişimler, nitelikli veri üretiminin uzun vadede en önemli rekabet unsuru olduğunu düşünüyor.

Hollingsworth, “En iyi yöntemin insan eliyle toplanan verilerden özel modeller oluşturmak olduğuna inanıyoruz” sözleriyle bu yaklaşımı özetliyor. Şirketler, artık genel erişime açık modelleri kullanmak yerine kendi verileriyle beslenen özel sistemler geliştirmeye yöneliyor.