Google DeepMind, yapay zeka modellerinin doğruluğunu ölçmek için geliştirdiği yeni bir benchmark olan FACTS Grounding‘i tanıttı. Bu yenilikçi test, AI modellerinin verilen belgelerden yola çıkarak doğru ve ayrıntılı yanıtlar oluşturma yeteneklerini değerlendiriyor. FACTS Grounding, modellerin karmaşık ve gerçeklere dayalı görevlerde ne kadar başarılı olduğunu anlamak için tasarlanmış bir araç.
FACTS Grounding Benchmark’ı Nasıl Çalışıyor?
FACTS Grounding, yapay zeka modellerini belirli bir belgeye dayalı olarak doğru bilgi sağlama yeteneklerine göre değerlendiriyor. Testte, çeşitli alanlardan seçilmiş 1.719 örnek bulunuyor. Bu örnekler arasında özetleme, soru-cevap ve yeniden ifade etme gibi görevler yer alıyor. Belgeler, finans, teknoloji, perakende, tıp ve hukuk gibi birçok sektörden alınmış ve yaklaşık 20.000 kelimeye (32.000 token) kadar uzayabiliyor. Bu geniş kapsam, modellerin karmaşık ve çeşitli metinleri işleme kapasitesini test ediyor.
Görevlerin oluşturulması ve doğrulanması, insan değerlendirmeciler tarafından yapılıyor. Bu sayede testin, yaratıcı cevaplar, uzmanlık bilgisi veya matematiksel hesaplama gerektirmediği garanti ediliyor. Ayrıca, değerlendirme sürecinde yanıtların hem soruya uygunluğu hem de kaynak belgeyle desteklenen doğruluğu ölçülüyor.
Hangi Modeller Test Edildi?
FACTS Grounding Benchmark, günümüzün en güçlü yapay zeka modellerini karşılaştırmak için bir platform sağlıyor. Testte Google’ın Gemini 1.5 Pro, OpenAI’nin GPT-4o ve Anthropic’in Claude 3.5 Sonnet modelleri yer aldı. Bu modeller, aynı zamanda FACTS Grounding sonuçlarının değerlendirilmesinde “hakem” olarak kullanılıyor. Modeller, yanıtları iki ana kritere göre değerlendiriyor:
- Yanıtın soruyu yeterince ele alıp almadığı.
- Yanıtın belgeye dayalı olarak ne kadar doğru olduğu.
Sonuçlar, her bir görev için farklı değerlendirme modellerinden elde edilen puanların birleşimiyle hesaplanıyor. Tüm örneklerdeki puanların ortalaması ise genel görev puanını oluşturuyor.
FACTS Grounding’ın Farkı Nedir?
FACTS Grounding, diğer testlerden farklı bir yaklaşım benimseyerek modellerin yeni bilgilerle çalışma yeteneğini test ediyor. Örneğin, OpenAI’nin SimpleQA testi, modellerin eğitim verilerinden bilgi sorularını yanıtlamasını değerlendirirken, FACTS Grounding, modellerin kendilerine sunulan belgelerden bilgi işleme ve sunma yeteneğini inceliyor.
Bu fark, FACTS Grounding’i yalnızca bilgiye erişim değil, aynı zamanda bilginin doğruluğunu ve kaynakla uyumluluğunu test eden bir araç haline getiriyor.
Manipülasyon Riskine Karşı Önlemler
Google DeepMind, FACTS Grounding’in manipüle edilmesini önlemek için testi iki bölüme ayırdı:
- 860 örnekten oluşan halka açık bir test seti.
- 859 örnekten oluşan özel bir test seti.
Son puanlar, her iki bölümden elde edilen sonuçların birleşimiyle hesaplanıyor. Bu yöntem, testin güvenilirliğini artırıyor ve manipülasyonu engelliyor.
Gelecek Planları
Google DeepMind, FACTS Grounding Benchmark’ı geliştirmeye devam edeceğini duyurdu. Şirket, yapay zeka modellerinin doğruluk ve güvenilirlik alanında ilerlemesinin, yapay zekanın başarılı bir şekilde benimsenmesi ve daha geniş uygulama alanlarına ulaşması için kritik olduğunu belirtiyor.
Google DeepMind, FACTS Grounding’in uzun vadede modellerin doğruluk kontrolü ve belgeye dayalı bilgi üretiminde bir standart oluşturacağını öngörüyor. Şirket, bu testin yapay zekanın gelecekteki başarısı ve güvenilirliği üzerinde büyük bir etkisi olacağına inanıyor.
Comments are closed