Not: Bu modelin dokümantasyonu Türk yapay zeka topluluğuna katkı sağlamak amacıyla VeriPazarı tarafından Türkçeye çevrilmiştir. Orijinal model cturan tarafından geliştirilmiş olup, VeriPazarı tarafından Türk AI ekosistemi için arşivlenmiştir.
🔗 Orijinal Kaynak: cturan/Lamba-750M 🔗 Derleyen Platform: VeriPazarı
Lamba-750M
Lamba-750M, kompakt bir Türkçe dil modelidir. Qwen3.5 tabanlıdır ve özellikle Türkçe talimatları (instruction) takip etmesi için eğitilmiştir.
Kullanım Amacı
Sınıflandırma, özetleme ve metin dönüştürme gibi kısa Türkçe görevler için tasarlanmıştır. İngilizce istemler (prompts), uzun metin üretimi, matematik veya çok adımlı akıl yürütme (multi-step reasoning) için önerilmez.
Eğitim Detayları
- Continual Pre-Training (CPT): Türkçenin dilbilgisine ve kelime dağarcığına uyum sağlaması için 10 milyar (10B) Türkçe token ile eğitilmiştir.
- Supervised Fine-Tuning (SFT): Soru-cevap talimatları üzerinde eğitilmiştir. En iyi değerlendirme kaybı (eval loss): ~18 bin adımda 0.9285.
- DPO: İnsan tercihleriyle daha iyi hizalanması (alignment) için Direct Preference Optimization (Doğrudan Tercih Optimizasyonu) uygulanmıştır.
Yetenekler
Küçük donanım gereksinimlerine rağmen kısa Türkçe görevlerde oldukça etkilidir:
- Özetleme
- Metin sınıflandırma (duygu analizi, konu tespiti)
- Metin dönüştürme (gündelik dilden resmi dile, zıt anlamlılar)
- Kısa, tek turlu (single-turn) talimatlar
Sınırlamalar
- Matematik, mantık ve çok adımlı akıl yürütmede (multi-step reasoning) zayıftır. Chain-of-Thought (adım adım düşünme) kullanmayın, bu durum modelin halüsinasyonunu (uydurmasını) artırır.
- Yoğun bilgi gerektiren konularda halüsinasyon görebilir (yanlış bilgi üretebilir).
- Uzun metin üretimlerinde cümleleri/ifadeleri tekrar edebilir.
- Sadece metin destekler, görüntü (vision) desteği yoktur.
Bu dosya veripazari.com.tr topluluğu tarafından Hugging Face altyapısında barındırılmaktadır. Orijinal emeğe saygı kuralımız gereği lisans ve model isimleri korunmuştur.
- Downloads last month
- 31
Model tree for Taklaxbr/Lamba-750M
Base model
Qwen/Qwen3.5-0.8B-Base