Samsung yapay zekâ benchmark çözümü TRUEBench’i tanıttı

Samsung Electronics, yapay zekâ verimliliğini değerlendirmek amacıyla geliştirdiği tescilli benchmark çözümü TRUEBench’i (Trustworthy Real-world Usage Evaluation Benchmark) tanıttı. Samsung Research tarafından geliştirilen çözüm, büyük dil modellerinin (LLM) gerçek dünyadaki iş verimliliği senaryolarında nasıl performans gösterdiğini ölçmek için tasarlandı.

Çok dilli testler ve geniş kapsamlı senaryolar

TRUEBench, içerik oluşturma, veri analizi, özet çıkarma ve çeviri gibi yaygın kurumsal görevleri 10 ana kategori ve 46 alt kategoride değerlendiriyor. Çözüm, tek dilli testlerle sınırlı kalmayarak 12 dili kapsayan 2.485 test seti içeriyor. Ayrıca, diller arası senaryoları da destekleyerek yapay zekâ modellerinin farklı kullanım alanlarındaki yetkinliklerini ölçüyor.

Benchmark çözümü, basit taleplerden uzun metin özetlemeye kadar farklı zorluk seviyelerine sahip görevler üzerinde testler yapıyor. İçerikler 8 karakterden 20.000 karakterin üzerine kadar çeşitlilik gösteriyor.

İnsan ve yapay zekâ iş birliğiyle doğrulama

TRUEBench’in değerlendirme sürecinde, kriterler hem insan yorumcular hem de yapay zekâ tarafından kontrol ediliyor. İnsan uzmanlar değerlendirme kriterlerini oluştururken, yapay zekâ bu kriterlerdeki hata ve çelişkileri tespit ediyor. Ardından kriterler yeniden gözden geçirilerek daha hassas standartlar geliştiriliyor. Bu süreç sayesinde kişisel önyargıların azaltıldığı ve daha tutarlı sonuçların elde edildiği belirtiliyor.

Mevcut benchmark’lara alternatif

Şirket, TRUEBench’in mevcut yapay zekâ benchmark’larının eksikliklerini gidermeyi hedeflediğini aktardı. Hâlihazırdaki ölçüm yöntemlerinin çoğu İngilizce odaklı ve genellikle tek tur soru-cevap testleriyle sınırlı kalıyor. Bu durumun, gerçek iş senaryolarını yansıtmada yetersizlik oluşturduğu ifade ediliyor.

Samsung Electronics Dijital Deneyimler CTO’su ve Samsung Research Başkanı Paul (Kyungwhoon) Cheun, konuyla ilgili yaptığı açıklamada, “TRUEBench’in üretkenlik işlerinde değerlendirme standartları oluşturacağına ve Samsung’un teknolojideki liderliğini güçlendireceğine inanıyoruz” dedi.

Sonuçların paylaşımı

TRUEBench’in veri örnekleri ve puanlama tabloları, küresel açık kaynak platformu Hugging Face üzerinde yayımlanıyor. Kullanıcılar burada farklı modelleri karşılaştırabiliyor ve performans sonuçlarını inceleyebiliyor. Ayrıca ortalama yanıt süreleri de erişime açılarak hem performans hem de verimlilik açısından karşılaştırma imkânı sunuluyor.