Kapsamlı Karşılaştırması
SWE-bench · Terminal-Bench · Aider Polyglot · LiveCodeBench · HumanEval
Doğrulanabilir kaynaklardan gerçek benchmark verileri
500 gerçek GitHub issue’sundan oluşan en önemli benchmark. Unit testlerle doğrulanır.
⭐ EN ÖNEMLİ
Terminal’de CLI görevleri, dosya sistemi ve build süreçlerini ölçer. DevOps için kritik.
CLI / DEVOPS
C++, Go, Java, JS, Python, Rust dahil 6 programlama dilinde kod düzenleme yeteneği.
ÇOK DİLLİ
Sürekli güncellenen rekabetçi programlama soruları. Elo sistemi ile sıralanır.
KOMPETİTİF
Python fonksiyonlarını docstring’den üretme kapasitesini ölçen klasik benchmark.
KLASİK
İnsan değerlendirmecilerin kodlama tercihine dayalı Arena oylaması.
İNSAN TERCİHİ
S TIER
• Multi-step otonom kodlama
• 200K token bağlam
• Geliştirici tercihi #1
• Competitive prog.’da Gemini gerisinde
• Terminal’de GPT gerisinde
S TIER
• Uzman görevlerde en iyi
• Mükemmel fiyat/performans
• Hız avantajı
• Terminal benchmark’ta orta
S TIER
• 1M token bağlam penceresi
• 18 benchmarktan 13’ünde 1.
• En iyi fiyat/performans
• Arena’da Claude gerisinde
• Hâlâ preview (GA yok)
S TIER
• Çok ucuz ($0.09/sorun)
• MIT — self-host
• OpenRouter’da en popüler
• Teknik rapor yok
• Yaratıcı yazı zayıf
A TIER
A TIER
A TIER
A TIER
B TIER
Otomatik tamamlama ve hızlı code review için ideal. High modunun ~%90 performansını çok daha düşük gecikme ile sunar. 1M token bağlam.
B TIER
SWE-rebench’te Flash, Pro’yu geçti! En ucuz Gemini. Agent loop’larında hız kritikse en iyi seçenek.
B TIER
256K bağlam + 32K output + system prompt uyumu mükemmel. Resmi benchmark yok.
ÜCRETSİZ
C TIER
Matematik #1. Data science için değerli. Genel SWE performansı orta.
ÜCRETSİZ
D TIER
Kilo IDE’ye özgü hafif model. Sadece basit tamamlama için.
ÜCRETSİZ
Gerçek dünya GitHub sorunları, büyük codebase, debugging
Claude Opus 4.6
Günlük geliştirme, çok dilli proje, maliyet kritik ortam
Claude Sonnet 4.6
LeetCode / Codeforces, algoritmik problemler, matematik
Gemini 3.1 Pro High
Self-host, maliyet minimizasyonu, kendi sunucusu
MiniMax M2.5
UI screenshot’tan kod, multimodal geliştirme
Kimi K2.5 / Qwen3.5+
Bütçe yok, deneme amaçlı, öğrenme ortamı
MiniMax M2.5 / Kimi K2.5
swebench.com ·
swe-rebench.com ·
aider.chat/leaderboards ·
lmarena.ai ·
marc0.dev SWE Leaderboard
Tüm veriler Mart 2026 itibarıyla doğrulanabilir kaynaklardan derlenmiştir.
Bunu paylaş:
- X'te paylaş (Yeni pencerede açılır) X
- Facebook üzerinde paylaş (Yeni pencerede açılır) Facebook
- WhatsApp'ta paylaş (Yeni pencerede açılır) WhatsApp
- Tumblr' da Paylaş (Yeni pencerede açılır) Tumblr
- Arkadaşınıza e-posta ile bağlantı gönderin (Yeni pencerede açılır) E-posta
- Yazdır (Yeni pencerede açılır) Yazdır
Bir Cevap Yazın