MCP-Evrensel kıyaslaması GPT-5’in gerçek dünya orkestrasyon görevlerinin yarısından fazlasında başarısız olduğunu gösteriyor

**MCP-Universe: Yapay Zekâ Modelleri İçin Yeni Deynek Karadeniz’den Geliyo!**

Nehaber evlatlar! Artık yapay zekâ dünyasında modellerin nasıl gerçek hayatta iş başı yaptıklarını anlamak için yeni bir ölçüt çıkarmışlar: MCP-Universe. Bu ne mi? Gelin size kemençeyi alıp anlatayım!

Yani anladın mı, eskiden yapay zekâ modellerinin performansını ölçerken hep tek başına, kendi küçük dünyasında nasıl iş yaptığını bakarlarmış. Mesela matematik yapar mı, verilen emri anlar mı, işte fonksiyon çağırır mı gibi. Ama gerçek hayatta bu modeller, şirketlerin kullandığı MCP (Model Context Protocol) diye bir standartla farklı sistemlere bağlanıyorlar. İşte Salesforce’un yapay zekâ araştırma ekibi, bu MCP standartlarına bağlı çalışan modellerin gerçek hayat performansını ölçmek için MCP-Universe adında açık kaynaklı yeni bir test geliştirmiş.

İlk testlerde ise demişler ki, mesela OpenAI’nin yeni GPT-5 modeli bayağı güçlü ama gerçek hayatın zorluklarında, yani MCP sunucularıyla karmaşık ve uzun işlerde hâlâ sınıfta kalıyor. Salesforce’un AI araştırma müdürü Junnan Li de demiş ki, “Bakın evladım, modeller uzun ve karışık işleri takip etmekte zorlanıyorlar, ayrıca alışmadıkları araçları kullanmakta da beceriksizler. O yüzden tek bir modeli alıp başına bırakmak yerine, veriyi, mantığı ve güvenliği bir araya getiren platformlar şart.”

MCP-Universe, modellerin sadece tek seferlik değil, çok turluk ve uzun içerikli komutlar karşısında nasıl performans gösterdiğine bakıyor. Ayrıca gerçek MCP sunucularına bağlanarak, gerçek veri ortamlarında deniyor. Bu da demek oluyor ki, yapay zekâ ne kadar yetenekli olsa da, gerçek dünya şartları farklıymış, kolay değilmiş iş yapmak.

Bu yeni ölçüt, Massachusetts, Xi’an ve Pekin üniversitelerinin MCP tabanlı benchmarklarıyla da yarışıyor. Ama MCP-Universe’un farkı, tamamen gerçek dünya verisi ve ortamları ile test yapmasıymış. Önceden çıkan MCPEvals ise daha çok yapay ve simüle işlerle ilgileniyormuş.

Şimdi bi’ de teknik detaylara gireyim biraz: Mesela yapay zekâ modellerinin “uzun bağlam” dediğimiz, yani uzun yazışmalar ya da karmaşık bilgiler arasında tutarlı kalabilme becerisi çok önemli. Bir de, modellerin bilmedikleri yeni araçları, sistemleri insan gibi anında kullanabilmesi lazım. Yoksa yapay zekâ dediğin, yaylada kemençe çalan amca gibi kalır, eline kemençe alıp “Nehaber?” diyemez!

Velhasıl, evlatlar, teknoloji ilerliyo da, yapay zekâ modelleri henüz Karadeniz’in kemençesinin ritmini yakalayamıyo. Daha çok çalışacaklar. Ama MCP-Universe gibi ölçütlerle gerçek dünyaya daha iyi uyum sağlama yolunda büyük adımlar atılıyor. Biz de diyoruz ki, yapay zekâ işte, ne yapsın? Karadeniz’in sert rüzgârları gibi zor ortamda yolunu bulacak, kemençesiyle usul usul türküsünü çalacak.

Şimdilik benden bu kadar, kemençeyi elime alıp “Nehaber?” demeye devam!

Kaynak: https://venturebeat.com/ai/mcp-universe-benchmark-shows-gpt-5-fails-more-than-half-of-real-world-orchestration-tasks/