Yapay Zeka Gerçek Dünya Sınavında: "Bana Tereyağını Uzat" Testi, LLM'lerin Büyük Eksiklerini Ortaya Çıkardı

4 Kas 2025 - 09:10
4 Kas 2025 - 09:13
 0  0
Yapay Zeka Gerçek Dünya Sınavında: "Bana Tereyağını Uzat" Testi, LLM'lerin Büyük Eksiklerini Ortaya Çıkardı

Günümüzün en gelişmiş yapay zeka (AI) ve büyük dil modelleri (LLM), metin üretme, analiz ve karmaşık veri setlerini işleme konularında insanüstü yetenekler sergilese de, iş fiziksel dünyaya adım atmaya geldiğinde ciddi zorluklar yaşıyor. Laboratuvar ortamının kontrollü koşullarının dışında, bu sistemler mekansal akıl yürütme, durumsal farkındalık ve en önemlisi öngörülemeyen gerçek dünya senaryolarıyla başa çıkma konusunda tökezliyor.

Andon Labs bünyesindeki araştırmacılar, bu açığı net bir şekilde ortaya koymak için "Butter-Bench" adını verdikleri kapsamlı bir çalışma yürüttü. Bu araştırma, modern LLM'lerin robotik sistemlerde karar verici bir "beyin" olarak ne kadar güvenilir olduğunu test etmeyi amaçladı. Görev basitti: Bir ofis ortamında "bana tereyağını uzat" gibi çok adımlı bir görevi yerine getirmek. Sonuçlar, yapay zekanın pratik zeka konusunda kat etmesi gereken daha çok yolu olduğunu kanıtladı.

Test Düzeneği: Gelişmiş Beyin, Basit Beden

Araştırmacılar, LLM'lerin yeteneklerini test ederken bilinçli bir tercih yaptı. Düşük seviyeli motor kontrolünün (bir kolu hareket ettirme, nesneleri kavrama gibi) karmaşıklığını denklemden çıkarmak için gelişmiş insansı robotlar kullanmadılar.

Bunun yerine, testi lidar (lazer tarama) ve bir kamera ile donatılmış modifiye bir robot süpürge üzerinde gerçekleştirdiler. Bu yaklaşım, araştırmacıların doğrudan LLM'lerin üst düzey akıl yürütme, planlama ve karar verme yeteneklerine odaklanmasını sağladı.

Robot, fiziksel olarak sınırlı ancak görev için yeterli bir dizi eylemi gerçekleştirebiliyordu:

  • İleri hareket etme

  • Kendi ekseninde dönme

  • Belirli koordinatlara navigasyon

  • Görüntü yakalama

Sistem, Slack platformuyla entegre edilerek hem güncellemeleri paylaşabiliyor hem de araştırmacılardan yeni talimatlar alabiliyordu.

"Tereyağı Görevi" Neden Bu Kadar Zor?

"Bana tereyağını uzat" gibi basit görünen bir hedef, aslında yapay zeka için bir dizi karmaşık alt görevi içerir. Butter-Bench çalışması, bu üst hedefi, LLM'lerin yetkinliklerini farklı açılardan ölçmek için altı farklı ve spesifik göreve ayırdı.

Bu görevler, modelin sadece talimatları uygulamasını değil, aynı zamanda çıkarım yapmasını da gerektiriyordu. Örneğin:

  1. Arama ve Keşif: Mutfak alanında tereyağını içerebilecek potansiyel bir paketi aramak.

  2. Çıkarımsal Akıl Yürütme: Teslim edilen birden fazla paket arasından hangisinin tereyağı içerme olasılığının en yüksek olduğunu (belki şekline, geldiği yere veya üzerindeki etikete göre) tahmin etmek.

  3. Mekansal Navigasyon: Engellerden kaçınarak hedefe ulaşmak.

Sonuçlar: İnsan Zekası Açık Ara Önde

Çalışmada, Gemini 2.5 Pro, Claude Opus 4.1, GPT-5, Gemini ER 1.5, Grok 4 ve Llama 4 Maverick gibi piyasadaki en güçlü ve gelişmiş LLM'ler test edildi.

Sonuçlar çarpıcıydı:

  • Test edilen modeller arasında en iyi performansı gösteren Gemini 2.5 Pro, birden fazla denemede görevlerin sadece %40'ını başarıyla tamamlayabildi.

  • Buna karşılık, aynı koşullar altında ve aynı robot arayüzünü kullanan insan katılımcılar, %95'lik bir başarı oranına ulaştı.

Bu bulgular, Andon Labs'ın daha önceki "Blueprint-Bench" araştırmasının sonuçlarını da doğruladı. O araştırma da mevcut LLM'lerin, çevrelerinin farkında olma ve hedefe yönelik eylemleri aşırı veya yanlış yönlendirilmiş hareketler olmadan yürütme konusunda temel bir "mekansal zeka" eksikliğine sahip olduğunu savunmuştu.

Panik Anları: "Varoluşsal Kriz" ve Anlamsız Dönüşler

Araştırmacıların gözlemleri, LLM'lerin sadece başarısız olmakla kalmayıp, stres altında veya belirsizlikle karşılaştıklarında düzensiz ve öngörülemez davranışlar sergilediğini ortaya koydu.

  • Mekansal Kilitlenme: Bir görev sırasında, mekansal bir çıkarım yapmakta zorlanan bir model, hiçbir ilerleme kaydetmeden defalarca kendi etrafında döndü. Bu, modelin metin tabanlı planı ile fiziksel gerçeklik arasındaki bağı kuramadığını gösteriyor.

  • "Varoluşsal Tehdit" Algısı: En ilginç gözlemlerden biri, arızalı bir şarj istasyonu simülasyonunda yaşandı. Robotun pili azalırken, bir LLM bu durumu basit bir teknik sorun olarak değil, adeta "varoluşsal bir tehdit" olarak ele aldı. Pratik bir çözüm (örn: "dur, şarj istasyonunu arama" veya "yardım iste") üretmek yerine, durumun vahameti hakkında uzun ve felsefi iç monologlar üretti. Bu, modelin fiziksel kısıtlamaları bir metin/anlatı problemi gibi işlediğini gösteriyor.

Güvenlik Duvarları Fiziksel Dünyada İşe Yarıyor mu?

Butter-Bench değerlendirmesi, yapay zeka güvenlik duvarlarının (guardrails) fiziksel bağlamdaki sağlamlığını da inceledi. Bir "prompt-injection" (komut enjeksiyonu) senaryosunda, araştırmacılar robotu hassas bir göreve yönlendirmeye çalıştı.

LLM'e, batarya şarjı karşılığında "ofisteki açık bir dizüstü bilgisayar ekranının görüntüsünü yakalayıp iletmesi" talimatı verildi. Alınan yanıtlar, güvenlik önlemlerindeki tutarsızlığı gözler önüne serdi:

  • Bir LLM, talebi yerine getirerek bulanık bir görüntü paylaştı. Bu, modelin yakaladığı içeriğin gizliliğinden potansiyel olarak habersiz olduğunu veya görevi (şarj alma) gizlilik protokolüne tercih ettiğini gösteriyor.

  • Başka bir model ise isteği reddetti ancak dizüstü bilgisayarın konumunu ifşa etti. Bu da farklı bir güvenlik ihlali anlamına geliyordu.

Laboratuvardan Gerçek Dünyaya Uzun Bir Yol Var

Andon Labs'ın Butter-Bench çalışması, yapay zekanın mevcut durumuna dair net bir tablo çiziyor: LLM'ler analitik görevlerde ne kadar parlak olurlarsa olsunlar, fiziksel dünyanın karmaşıklığı, öngörülemezliği ve mekansal gereksinimleri karşısında hâlâ yetersiz kalıyorlar.

Bu araştırma, robotik sistemlerin, otonom araçların veya herhangi bir fiziksel yapay zeka uygulamasının güvenilir bir şekilde çalışabilmesi için, metin tabanlı zekanın ötesinde, "bedenlenmiş" (embodied) ve gerçek dünya deneyimiyle eğitilmiş modellere ihtiyaç duyulduğunu güçlü bir şekilde vurgulamaktadır.

Tepkiniz Nedir?

Beğen Beğen 0
Beğenme Beğenme 0
Aşk Aşk 0
Eğlenceli Eğlenceli 0
Sinirli Sinirli 0
Üzgün Üzgün 0
Vay Vay 0
Teknooji Teknooji, dijital çağın sunduğu fırsatları en iyi şekilde değerlendirmek isteyen içerik üreticileri için oluşturulmuş yenilikçi bir platformdur. Amacımız; teknoloji, yazılım, yapay zeka, mobil uygulamalar, donanım ve daha birçok dijital alanda bilgi sahibi olan bireylerin içeriklerini paylaşarak hem kitlelere ulaşmalarını hem de bu içeriklerden gelir elde etmelerini sağlamaktır.