Yazılım şirketi VNGRS, Türkçe için sıfırdan geliştirilen ilk büyük dil modeli olan Kumru LLM’i tanıttı. 7.4 milyar parametreye sahip model, tamamen Türkçe veri kümeleri kullanılarak eğitildi ve yerel bir temel model olarak tasarlandı. Verimlilik odaklı mimarisi sayesinde model, yalnızca 16 GB VRAM kapasitesine sahip grafik kartlarında bile sorunsuz şekilde çalışabiliyor.
Kumru LLM Türkçe İçin Sıfırdan Eğitildi
Kumru’nun geliştirme süreci 45 günlük bir periyotta tamamlandı. Model, H100 ve H200 GPU’ları kullanılarak 500 GB’lık işlenmiş Türkçe veri setiyle eğitildi. Temel eğitimin ardından belge özetleme, kurumsal soru-cevap uygulamaları ve metin analizi gibi özel görevler için 1 milyon örnek içeren veri setiyle ince ayar yapıldı. Modelin bilgi kesim tarihi Mart 2024 olarak belirlendi.
Cetvel sonuçları
Kumru’nun mimarisi, açık kaynak kodlu Mistral-v0.3 modeli temel alınarak oluşturuldu. Modelin tasarım sürecinde toplu iş boyutu, öğrenme oranı ve optimizasyon parametreleri gibi teknik kararlar LLaMA-3 dokümantasyonundan faydalanılarak belirlendi. Kumru, 8.192 token kapasiteli bağlam uzunluğu sayesinde yaklaşık 20 A4 sayfasına eşdeğer metin içeriğini tek bir işlemde işleyebiliyor.
Kumru, verimliliğe odaklanan yapısı sayesinde RTX 3090 veya RTX A4000 gibi 16 GB VRAM kapasitesine sahip ekran kartlarında sorunsuz çalışabiliyor. Bu özellik, yüksek donanım maliyetlerinden kaçınmak isteyen kurumlar için önemli bir avantaj sağlıyor.
VNGRS’nin paylaştığı bilgilere göre, Kumru’nun kurum içi kurulum maliyeti yaklaşık 2.000 dolar civarında. Yabancı alternatiflerden biri olan Gemma-3–27B modelini çalıştırmak için ise tek bir H100 GPU’nun maliyeti 30.000 doları buluyor. Bu fark, Kumru’yu özellikle yerel işletmeler için ekonomik bir seçenek haline getiriyor.
Kumru’nun daha küçük sürümü olan Kumru-2B, aynı mimariyi 2 milyar parametreyle sunuyor. Yalnızca 4.8 GB bellek gerektiren bu sürüm, mobil cihazlarda dahi çalışabiliyor. Hugging Face üzerinden erişime açılan model, araştırmacılara ve geliştiricilere açık olarak sunuluyor.
Yapılan testler, Kumru’nun Türkçe görevlerde oldukça başarılı olduğunu gösteriyor. Model, LLaMA-3.3–70B, Gemma-3–27B, Qwen-2–72B ve Aya-32B gibi daha büyük yapay zekâ modellerini Türkçe performansında geride bıraktı. Özellikle dilbilgisi düzeltme ve özetleme gibi alanlarda öne çıkan Kumru, Türkçe’nin yapısal ve anlamsal özelliklerini daha doğru biçimde kavrıyor.
Kumru’nun tokenizasyon sistemi tamamen Türkçe’nin dil yapısına uygun şekilde tasarlandı. Yeni RegEx tabanlı ön işlemci, satır sonlarını, noktalama işaretlerini ve sayıları ayrı token’lar olarak değerlendiriyor. Bu sistem sayesinde model, metinleri yüzde 38 ila 98 arasında daha az token kullanarak temsil edebiliyor. Böylece hem daha uzun metinleri işleyebiliyor hem de işlem süresini ve maliyetini düşürüyor.
Kumru LLM’in herkese açık demo sürümüne kumru.ai adresinden erişilebiliyor. VNGRS, ilerleyen dönemde farklı sektörler için özel modeller geliştirmeyi de planlıyor.