Samsung yapay zekâ benchmark çözümü TRUEBench’i tanıttı

Haber Merkezi03 Ekim 2025Son güncelleme: 03 Ekim 2025

Samsung Electronics, yapay zekâ verimliliğini değerlendirmek amacıyla geliştirdiği tescilli benchmark çözümü TRUEBench’i (Trustworthy Real-world Usage Evaluation Benchmark) tanıttı. Samsung Research tarafından geliştirilen çözüm, büyük dil modellerinin (LLM) gerçek dünyadaki iş verimliliği senaryolarında nasıl performans gösterdiğini ölçmek için tasarlandı.

Çok dilli testler ve geniş kapsamlı senaryolar

TRUEBench, içerik oluşturma, veri analizi, özet çıkarma ve çeviri gibi yaygın kurumsal görevleri 10 ana kategori ve 46 alt kategoride değerlendiriyor. Çözüm, tek dilli testlerle sınırlı kalmayarak 12 dili kapsayan 2.485 test seti içeriyor. Ayrıca, diller arası senaryoları da destekleyerek yapay zekâ modellerinin farklı kullanım alanlarındaki yetkinliklerini ölçüyor.

Benchmark çözümü, basit taleplerden uzun metin özetlemeye kadar farklı zorluk seviyelerine sahip görevler üzerinde testler yapıyor. İçerikler 8 karakterden 20.000 karakterin üzerine kadar çeşitlilik gösteriyor.

İnsan ve yapay zekâ iş birliğiyle doğrulama

TRUEBench’in değerlendirme sürecinde, kriterler hem insan yorumcular hem de yapay zekâ tarafından kontrol ediliyor. İnsan uzmanlar değerlendirme kriterlerini oluştururken, yapay zekâ bu kriterlerdeki hata ve çelişkileri tespit ediyor. Ardından kriterler yeniden gözden geçirilerek daha hassas standartlar geliştiriliyor. Bu süreç sayesinde kişisel önyargıların azaltıldığı ve daha tutarlı sonuçların elde edildiği belirtiliyor.

Mevcut benchmark’lara alternatif

Şirket, TRUEBench’in mevcut yapay zekâ benchmark’larının eksikliklerini gidermeyi hedeflediğini aktardı. Hâlihazırdaki ölçüm yöntemlerinin çoğu İngilizce odaklı ve genellikle tek tur soru-cevap testleriyle sınırlı kalıyor. Bu durumun, gerçek iş senaryolarını yansıtmada yetersizlik oluşturduğu ifade ediliyor.

Samsung Electronics Dijital Deneyimler CTO’su ve Samsung Research Başkanı Paul (Kyungwhoon) Cheun, konuyla ilgili yaptığı açıklamada, “TRUEBench’in üretkenlik işlerinde değerlendirme standartları oluşturacağına ve Samsung’un teknolojideki liderliğini güçlendireceğine inanıyoruz” dedi.

Sonuçların paylaşımı

TRUEBench’in veri örnekleri ve puanlama tabloları, küresel açık kaynak platformu Hugging Face üzerinde yayımlanıyor. Kullanıcılar burada farklı modelleri karşılaştırabiliyor ve performans sonuçlarını inceleyebiliyor. Ayrıca ortalama yanıt süreleri de erişime açılarak hem performans hem de verimlilik açısından karşılaştırma imkânı sunuluyor.

Haber Merkezi03 Ekim 2025Son güncelleme: 03 Ekim 2025

Takip Et

Çok dilli testler ve geniş kapsamlı senaryolar

İnsan ve yapay zekâ iş birliğiyle doğrulama

Mevcut benchmark’lara alternatif

Sonuçların paylaşımı

Haber Merkezi

İlgili Makaleler

Getac’tan Windows 11 destekli yeni dayanıklı tablet serisi

Apple CEO’su Cook: Fiyat artışları kaçınılmaz hâle geldi

Mobil Dünya Kongresi kapılarını açıyor

Valve yeni Steam Machine modellerini satışa sundu

Asus, ROG markasının 20. yılını Türkiye’de yeni koleksiyonla kutladı

ABD’li Midjourney sağlık sektörüne adım attı