D

DeepSWE

Coding

Datacurve's agentic coding benchmark: each model runs as an autonomous agent on real software engineering tasks and is scored on whether its final patch resolves the issue. Higher is better.

Official source

Score vs. cost

Leaderboard

#ModelScoreCost

1
GPT-5.5Extra High
70%$6.80
2
GPT-5.5High
62%$4.60
3
Claude Opus 4.8Max
58%$8.50
4
Claude Opus 4.8Extra High
57%$7.00
5
GPT-5.4Extra High
56%$5.50
6
Claude Opus 4.7Max
54%$16.50
7
Claude Opus 4.8High
50%$4.50
8
GPT-5.5Medium
48%$2.40
9
Claude Opus 4.8Medium
47%$3.30
10
Claude Opus 4.7Extra High
45%$11.50
11
Claude Opus 4.7High
40%$5.00
12
Claude Sonnet 4.6High
32%$4.50
13
Claude Opus 4.7Medium
32%$3.30
14
Gemini 3.5 FlashMedium
28%$7.00
15
Kimi K2.6
24%$4.50
16
GPT-5.4 MiniExtra High
24%$1.50
17
MiniMax-M3
20.5%$5.50
18
Gemini 3.1 Pro Preview
10%$2.00
19
DeepSeek V4
8%$5.50
20
Gemini 3 Flash
5%$1.50

Share:

Details:

Category
Coding
DCreated by
Datacurve
Models tested
12
Configs tested
20
Leader
GPT-5.5
Top score
70%

Updated June 2026