AGI Benchmark ARC: Büyük İlerleme Ama Hâlâ Çözülemedi

2024 yılında, yapay genel zeka (AGI) için önemli bir ölçüt olarak kabul edilen ARC-AGI benchmark’ında büyük bir performans artışı yaşandı. Ancak, hedef puan olan %85 hâlâ ulaşılamaz durumda.

Performans Artışı ve Ödül Sonuçları

2024 ARC Prize yarışmasında takımlar, özel değerlendirme testlerinde performansı %33’ten %55,5’e çıkarmayı başardı. Bu, büyük bir sıçrama olsa da, ödülü kazanmak için gerekli olan %85 puana yaklaşılamadı.

  • En yüksek puanı alan MindsAI, %55,5 başarıya ulaştı ancak kodlarını paylaşmadıkları için 600.000 dolarlık büyük ödülü kazanamadı.
  • Kazanan takım olan the ARChitects, test-time training (TTT) yöntemini kullanarak %53,5’lik bir başarı elde etti.

Yarışmada Öne Çıkan Yöntemler

Rapora göre, üç ana yaklaşım öne çıktı:

  1. AI Destekli Program Sentezi: Büyük dil modelleri, belirli görevler için program kodu üretiyor ve hata ayıklama yapıyor. Örneğin, GPT-4o ile binlerce Python programı oluşturan Ryan Greenblatt %42 başarıya ulaştı.
  2. Test-Time Training (TTT): Dil modellerinin çalışma zamanında belirli bir göreve uyum sağlaması. MindsAI tarafından tanıtılan bu yöntem, birçok takım tarafından benimsendi.
  3. Her İki Yöntemin Kombinasyonu: Bu yaklaşım en iyi sonuçları verdi. Sadece program sentezi veya sadece TTT yöntemleri genelde %40 civarında başarı sağladı.

MIT’den bir ekip, iki yöntemi birleştiren modellerle %61,9’luk bir başarı elde etti. Ancak bu sonuç, özel değerlendirme setinde test edilmedi çünkü bu test için gereken hesaplama gücü sınırlarını aştı.

2025 İçin Yeni Benchmark: ARC-AGI-2

2024 raporunda, mevcut ARC benchmark’ının eksiklerine de değinildi:

  • Özel değerlendirme seti sadece 100 görev içeriyor ve bu durum overfitting riskini artırıyor.
  • Yeni benchmark’ın daha geniş ve kapsamlı bir veri seti sunması planlanıyor.

Organizatörler, ARC Prize’ı AGI araştırmalarında “kalıcı bir kuzey yıldızı” haline getirmeyi hedefliyor. Bu yarışma, halihazırda yedi büyük yapay zeka girişiminin stratejilerini değiştirmesine neden oldu ve birçok büyük şirket, benchmark’ı çözmek için dahili çalışmalar başlattı.

Yeni Fikirler Gerekiyor

Raporda, ARC-AGI’nin önemine dikkat çekiliyor çünkü bu benchmark, sistemlerin tamamen yeni görevleri çözme yeteneğini test ediyor. Geleneksel derin öğrenme yöntemleri, saklanmış desenleri geri çağırmaya dayandığı için bu tür görevlerde başarısız oluyor.
2024’teki ilerlemeler algoritmik geliştirmelerin büyük bir etki yaratabileceğini gösterdi. Ancak, organizatörler hâlâ AGI geliştirmek için yeni fikirlere ihtiyaç duyulduğuna inanıyor.

category:

Yapay Zeka Haberleri

Tags:

Comments are closed

Latest Comments

Görüntülenecek bir yorum yok.