Tether, QVAC Genesis II veri setini yayımladı

Tether Data’nın yapay zekâ araştırma birimi QVAC, yapay zekâ ön eğitimi için kamuya açık en büyük sentetik eğitim veri setlerinden biri olan QVAC Genesis’in yeni sürümü Genesis II’yi duyurdu. Yeni sürümle birlikte veri seti 107 milyar token genişlerken, toplam hacim 19 eğitim alanında 148 milyar token’a ulaştı.
Üniversite düzeyinde doğrulanmış çok disiplinli yapı
QVAC Genesis II, kimya, bilgisayar bilimi, makine öğrenimi, istatistik ve fizik gibi temel STEM alanlarını kapsayan Genesis I üzerine inşa edildi. Yeni sürüm, üniversite düzeyinde doğrulanmış, daha derin ve çok disiplinli bir sentetik veri altyapısı sunmayı hedefliyor.
Seçenek düzeyinde muhakeme yaklaşımı öne çıkıyor
Genesis II’nin merkezinde, yalnızca doğru yanıtları değil, bu yanıtların arkasındaki muhakeme süreçlerini analiz etmeyi amaçlayan Seçenek Düzeyinde Muhakeme (Option-Level Reasoning) yaklaşımı yer alıyor. Bu yöntem, çoktan seçmeli sorulardaki tüm seçenekleri sistematik biçimde ele alarak doğru muhakemeyi güçlendirirken yaygın hataları da görünür kılıyor. Genesis I’de kullanılan Hata Analizi yöntemiyle birlikte çalışan bu yapı, her sorunun yüksek eğitsel değer taşımasını amaçlıyor. Bağımsız değerlendirmeler, bu yaklaşımla eğitilen modellerin muhakeme doğruluğu ve yanıt netliğinde iyileşmeler gösterdiğini ortaya koyuyor.
Ölçekten çok anlayışa odaklanan tasarım
QVAC, Genesis II ile yalnızca veri ölçeğini büyütmeyi değil, eğitim amaçlı yapay zekâ verilerinin nasıl tasarlanması gerektiğine dair bir yön değişimini de vurguluyor. Yaklaşım, metin hacmini artırmak yerine modellere nasıl düşüneceklerini, muhakeme edeceklerini ve açıklama yapacaklarını öğretmeyi hedefliyor.
Paolo Ardoino: Hacmin ötesine geçiyoruz
Tether CEO’su Paolo Ardoino, “Günümüzde yapay zekâ eğitiminin çoğu, anlama değil, akıcılığa odaklanıyor. Bu sürümle hacmin ötesine geçerek yapıya, mantığa ve açıklığa yöneliyoruz. Zekâ, sadece kulağa doğru geleni tahmin etmekle değil, bir şeyin neden doğru olduğunu anlamakla inşa edilmelidir. Bu veri setini açık hale getirerek, daha güvenilir ve daha açıklanabilir yapay zekâ geliştirilmesine katkı sağlamayı amaçlıyoruz.” değerlendirmesinde bulundu.
Açık lisans ve küresel erişim
QVAC Genesis II, Genesis I’de olduğu gibi Creative Commons Atıf–Ticari Olmayan (CC-BY-NC 4.0) lisansı altında açık olarak yayımlanıyor. Veri seti, kapalı ve mülkiyetli sistemlerin dışında çalışan araştırmacıları, akademik kurumları ve bağımsız geliştiricileri desteklemeyi amaçlıyor. QVAC ve Tether Data, bu yayınla merkezi bulut platformlarına bağımlı olmayan, yerel ve merkeziyetsiz yapay zekâ geliştirme vizyonunu da güçlendirmeyi hedefliyor. Veri seti ve modellere Hugging Face üzerinden erişilebilirken, teknik ayrıntılar QVAC araştırma blogunda ve QVAC web sitesindeki ek kaynaklarda paylaşılıyor.