Benchmarks/code/SWE-Bench Verified

SWE-Bench Verified

A verified subset of 500 software engineering problems from real GitHub issues, validated by human annotators for evaluating language models' ability to resolve real-world coding issues by generating patches for Python codebases.

Paper

Progress Over Time

Interactive timeline showing model performance evolution on SWE-Bench Verified

State-of-the-art frontier

Open

Proprietary

SWE-Bench Verified Leaderboard

80 models

			Context	Cost
1	Claude Opus 4.5 Anthropic	—	200K	$5.00 / $25.00
2	Claude Opus 4.6 Anthropic	—	1.0M	$5.00 / $25.00
3	Gemini 3.1 Pro Google	—	1.0M	$2.50 / $15.00
4	MiniMax M2.5 MiniMax	230B	1.0M	$0.30 / $1.20
5	GPT-5.2 OpenAI	—	400K	$1.75 / $14.00
6	Claude Sonnet 4.6 Anthropic	—	200K	$3.00 / $15.00
7	Qwen3.6 PlusNew Alibaba Cloud / Qwen Team	—	—	—
8	Gemini 3 Flash Google	—	1.0M	$0.50 / $3.00
8	MiMo-V2-Pro Xiaomi	1.0T	1.0M	$1.00 / $3.00
10	GLM-5 Zhipu AI	744B	200K	$1.00 / $3.20
11	Kimi K2.5 Moonshot AI	1.0T	262K	$0.60 / $2.50
12	Seed 2.0 Pro ByteDance	—	—	—
13	Qwen3.5-397B-A17B Alibaba Cloud / Qwen Team	397B	262K	$0.60 / $3.60
14	GPT-5.1 OpenAI	—	400K	$1.25 / $10.00
14	GPT-5.1 Instant OpenAI	—	400K	$1.25 / $10.00
14	GPT-5.1 Thinking OpenAI	—	400K	$1.25 / $10.00
17	Gemini 3 Pro Google	—	—	—
18	GPT-5 OpenAI	—	400K	$1.25 / $10.00
19	MiMo-V2-Omni Xiaomi	—	262K	$0.40 / $2.00
20	GPT-5 Codex OpenAI	—	—	—
20	Claude Opus 4.1 Anthropic	—	200K	$15.00 / $75.00
22	Step-3.5-Flash StepFun	196B	66K	$0.10 / $0.40
23	GLM-4.7 Zhipu AI	358B	205K	$0.60 / $2.20
24	GPT-5.1 Codex OpenAI	—	400K	$1.25 / $10.00
25	Seed 2.0 Lite ByteDance	—	—	—
26	MiMo-V2-Flash Xiaomi	309B	256K	$0.10 / $0.30
27	Claude Haiku 4.5 Anthropic	—	200K	$1.00 / $5.00
28	DeepSeek-V3.2 (Thinking) DeepSeek	685B	—	—
28	DeepSeek-V3.2-Speciale DeepSeek	685B	—	—
30	Claude Sonnet 4 Anthropic	—	200K	$3.00 / $15.00
31	Claude Opus 4 Anthropic	—	200K	$15.00 / $75.00
32	Qwen3.5-27B Alibaba Cloud / Qwen Team	27B	—	—
33	Qwen3.5-122B-A10B Alibaba Cloud / Qwen Team	122B	262K	$0.40 / $3.20
34	Kimi K2-Thinking-0905 Moonshot AI	1.0T	—	—
35	Grok Code Fast 1 xAI	—	256K	$0.20 / $1.50
36	Claude 3.7 Sonnet Anthropic	—	200K	$3.00 / $15.00
37	LongCat-Flash-Thinking-2601 Meituan	560B	128K	$0.30 / $1.20
38	Qwen3 Max Alibaba Cloud / Qwen Team	1.0T	256K	$0.50 / $5.00
38	Qwen3-Coder 480B A35B Instruct Alibaba Cloud / Qwen Team	480B	—	—
40	MiniMax M2 MiniMax	230B	1.0M	$0.30 / $1.20
41	Qwen3.5-35B-A3B Alibaba Cloud / Qwen Team	35B	262K	$0.25 / $2.00
42	o3 OpenAI	—	200K	$2.00 / $8.00
43	o4-mini OpenAI	—	200K	$1.10 / $4.40
44	GLM-4.6 Zhipu AI	357B	131K	$0.55 / $2.19
45	DeepSeek-V3.2-Exp DeepSeek	685B	—	—
46	Gemini 2.5 Pro Preview 06-05 Google	—	1.0M	$1.25 / $10.00
47	MiniMax M2.1 MiniMax	230B	1.0M	$0.30 / $1.20
48	DeepSeek-V3.1 DeepSeek	671B	164K	$0.27 / $1.00
49	Kimi K2-Instruct-0905 Moonshot AI	1.0T	—	—
50	GLM-4.5 Zhipu AI	355B	131K	$0.40 / $1.60

1–50 of 80

1/2

Notice missing or incorrect data?

FAQ

Common questions about SWE-Bench Verified

The SWE-Bench Verified paper is available at https://arxiv.org/abs/2310.06770. This paper provides detailed information about the benchmark methodology, dataset creation, and evaluation criteria.

The SWE-Bench Verified leaderboard ranks 80 AI models based on their performance on this benchmark. Currently, Claude Opus 4.5 by Anthropic leads with a score of 0.809. The average score across all models is 0.627.

The highest SWE-Bench Verified score is 0.809, achieved by Claude Opus 4.5 from Anthropic.

80 models have been evaluated on the SWE-Bench Verified benchmark, with 0 verified results and 80 self-reported results.

SWE-Bench Verified is categorized under code, frontend development, and reasoning. The benchmark evaluates text models.

Sub-benchmarks

SWE-Bench Pro

SWE-Bench Pro is an advanced version of SWE-Bench that evaluates language models on complex, real-world software engineering tasks requiring extended reasoning and multi-step problem solving.

text•Max 1

SWE-Bench Verified

Progress Over Time

SWE-Bench Verified Leaderboard

FAQ

What is the SWE-Bench Verified benchmark?

Where can I find the SWE-Bench Verified paper?

What is the SWE-Bench Verified leaderboard?

What is the highest SWE-Bench Verified score?

How many models are evaluated on SWE-Bench Verified?

What categories does SWE-Bench Verified cover?

Sub-benchmarks

SWE-Bench Pro