Leaderboards

Self-reported benchmark scores compiled from model cards and papers. Higher is better. Numbers should be treated as guidance, not gospel — labs use slightly different evaluation harnesses. See methodology for sources.

MMLU

50 models

Massive Multitask Language Understanding — 57 academic subjects, 5-shot. Saturating among frontier models; included for legacy comparison.

#	Model	Params	MMLU	Per B
1	DeepSeek R1· deepseek	671B	90.80	0.14
2	Kimi K2 Instruct· kimi	1000B	89.50	0.09
3	DeepSeek V3· deepseek	671B	88.50	0.13
4	Llama 3.1 405B Instruct· llama	405B	87.30	0.22
5	Qwen 3 235B (A22B)· qwen	235B	87.10	0.37
6	Qwen2.5 72B Instruct· qwen	72B	86.10	1.20
7	Llama 3.3 70B Instruct· llama	70B	86.00	1.23
8	DeepSeek R1 Distill Llama 70B· deepseek	70B	86.00	1.23
9	Llama 3.2 90B Vision· llama	90B	86.00	0.96
10	Llama 4 Maverick 17B (128E)· llama	17B	85.50	5.03
11	Llama 3.1 Nemotron 70B Instruct· nemotron	70B	85.00	1.21
12	Phi-4 14B· phi	14B	84.80	6.06
13	Llama 3.1 70B Instruct· llama	70B	83.60	1.19
14	Qwen 3 32B· qwen	32B	83.40	2.61
15	Qwen2.5 32B Instruct· qwen	32B	83.30	2.60
16	Jamba 1.5 Large· jamba	398B	81.20	0.20
17	Nemotron-4 340B Instruct· nemotron	340B	81.10	0.24
18	Mistral Small 3· mistral	24B	81.00	3.38
19	Qwen2.5 14B Instruct· qwen	14B	79.70	5.69
20	Hermes 3 Llama 3.1 70B· hermes	70B	79.60	1.14
21	Llama 4 Scout 17B (16E)· llama	17B	79.60	4.68
22	DeepSeek Coder V2· deepseek	236B	79.20	0.34
23	Phi-3 Medium 14B· phi	14B	78.00	5.57
24	Mixtral 8×22B Instruct· mistral	141B	77.75	0.55
25	Qwen 3 8B· qwen	8B	76.90	9.61
26	Yi 1.5 34B Chat· yi	34B	76.80	2.26
27	Command R+· command	104B	75.70	0.73
28	Gemma 2 27B· gemma	27B	75.20	2.79
29	Qwen2.5 Coder 32B· qwen	32B	75.10	2.35
30	QwQ 32B Preview· qwen	32B	75.00	2.34
31	Qwen2.5 7B Instruct· qwen	7B	74.20	10.60
32	DBRX Instruct· dbrx	132B	73.70	0.56
33	Llama 3.2 11B Vision· llama	11B	73.00	6.64
34	Grok 1· grok	314B	73.00	0.23
35	Gemma 2 9B· gemma	9B	71.30	7.92
36	Mixtral 8×7B Instruct· mistral	47B	70.60	1.51
37	Llama 3.1 8B Instruct· llama	8B	69.40	8.68
38	Llama 2 70B Chat· llama	70B	68.90	0.98
39	Phi-3 Mini 4K Instruct· phi	4B	68.80	18.11
40	Falcon 3 7B Instruct· falcon	7B	68.50	9.79
41	Command R· command	35B	68.20	1.95
42	Mistral Nemo 12B· mistral	12B	68.00	5.67
43	OLMo 2 13B· olmo	13B	67.50	5.19
44	Hermes 3 Llama 3.1 8B· hermes	8B	65.40	8.18
45	OLMo 2 7B· olmo	7B	63.70	9.10
46	Llama 3.2 3B· llama	3B	63.40	21.13
47	Falcon Mamba 7B· falcon	7B	62.00	8.86
48	Stable LM 2 12B· stablelm	12B	61.00	5.08
49	Mistral 7B v0.3· mistral	7B	60.10	8.59
50	Llama 2 13B Chat· llama	13B	54.80	4.22

Click any column header to sort.

HumanEval

49 models

OpenAI's Python coding benchmark — pass@1 on function completion. Saturating around 90+ for frontier models.

#	Model	Params	HumanEval	Per B
1	Qwen2.5 Coder 32B· qwen	32B	92.70	2.90
2	Qwen 3 235B (A22B)· qwen	235B	90.90	0.39
3	DeepSeek Coder V2· deepseek	236B	90.20	0.38
4	Qwen 3 32B· qwen	32B	89.60	2.80
5	Llama 3.1 405B Instruct· llama	405B	89.00	0.22
6	Llama 3.3 70B Instruct· llama	70B	88.40	1.26
7	Qwen2.5 32B Instruct· qwen	32B	88.40	2.76
8	Kimi K2 Instruct· kimi	1000B	88.40	0.09
9	Qwen2.5 72B Instruct· qwen	72B	86.60	1.20
10	DeepSeek R1 Distill Llama 70B· deepseek	70B	86.00	1.23
11	Llama 4 Maverick 17B (128E)· llama	17B	85.50	5.03
12	Mistral Small 3· mistral	24B	84.80	3.53
13	Qwen 3 8B· qwen	8B	84.80	10.60
14	Qwen2.5 7B Instruct· qwen	7B	84.80	12.11
15	Llama 3.1 Nemotron 70B Instruct· nemotron	70B	84.00	1.20
16	Qwen2.5 14B Instruct· qwen	14B	83.50	5.96
17	DeepSeek V3· deepseek	671B	82.60	0.12
18	Phi-4 14B· phi	14B	82.60	5.90
19	Llama 3.1 70B Instruct· llama	70B	80.50	1.15
20	Llama 4 Scout 17B (16E)· llama	17B	79.90	4.70
21	Hermes 3 Llama 3.1 70B· hermes	70B	78.80	1.13
22	Mixtral 8×22B Instruct· mistral	141B	76.00	0.54
23	Yi 1.5 34B Chat· yi	34B	75.20	2.21
24	Nemotron-4 340B Instruct· nemotron	340B	73.20	0.22
25	Llama 3.1 8B Instruct· llama	8B	72.60	9.07
26	Jamba 1.5 Large· jamba	398B	71.30	0.18
27	Command R+· command	104B	70.70	0.68
28	DBRX Instruct· dbrx	132B	70.10	0.53
29	Mistral Nemo 12B· mistral	12B	64.40	5.37
30	Grok 1· grok	314B	63.20	0.20
31	Phi-3 Medium 14B· phi	14B	62.20	4.44
32	Hermes 3 Llama 3.1 8B· hermes	8B	60.40	7.55
33	Phi-3 Mini 4K Instruct· phi	4B	59.10	15.55
34	Falcon 3 7B Instruct· falcon	7B	56.70	8.10
35	Command R· command	35B	53.70	1.53
36	Gemma 2 27B· gemma	27B	51.80	1.92
37	Llama 3.2 3B· llama	3B	51.50	17.17
38	Mixtral 8×7B Instruct· mistral	47B	40.20	0.86
39	Gemma 2 9B· gemma	9B	40.20	4.47
40	Llama 3.2 1B· llama	1B	37.20	37.20
41	Mistral 7B v0.3· mistral	7B	30.50	4.36
42	Llama 2 70B Chat· llama	70B	29.90	0.43
43	Falcon Mamba 7B· falcon	7B	29.90	4.27
44	OLMo 2 13B· olmo	13B	28.70	2.21
45	Stable LM 2 12B· stablelm	12B	27.40	2.28
46	OLMo 2 7B· olmo	7B	22.60	3.23
47	Llama 2 13B Chat· llama	13B	18.30	1.41
48	Gemma 2 2B· gemma	3B	17.70	6.81
49	Llama 2 7B Chat· llama	7B	12.80	1.83

Click any column header to sort.

MATH

41 models

Hendrycks competition mathematics. Exact-match grading. Reasoning models like DeepSeek R1 push 95+; non-reasoning frontier sits around 70–85.

#	Model	Params	MATH	Per B
1	DeepSeek R1· deepseek	671B	97.30	0.15
2	DeepSeek R1 Distill Llama 70B· deepseek	70B	94.50	1.35
3	Qwen 3 235B (A22B)· qwen	235B	91.20	0.39
4	QwQ 32B Preview· qwen	32B	90.60	2.83
5	Kimi K2 Instruct· kimi	1000B	90.00	0.09
6	Qwen 3 32B· qwen	32B	87.40	2.73
7	DeepSeek V3· deepseek	671B	84.00	0.13
8	Qwen2.5 72B Instruct· qwen	72B	83.10	1.15
9	Qwen2.5 32B Instruct· qwen	32B	83.10	2.60
10	Phi-4 14B· phi	14B	80.40	5.74
11	Qwen 3 8B· qwen	8B	80.20	10.03
12	Qwen2.5 14B Instruct· qwen	14B	80.00	5.71
13	Llama 3.3 70B Instruct· llama	70B	77.00	1.10
14	DeepSeek Coder V2· deepseek	236B	75.70	0.32
15	Qwen2.5 7B Instruct· qwen	7B	75.50	10.79
16	Llama 3.1 405B Instruct· llama	405B	73.80	0.18
17	Mistral Small 3· mistral	24B	70.60	2.94
18	Llama 3.1 70B Instruct· llama	70B	68.00	0.97
19	Llama 3.1 Nemotron 70B Instruct· nemotron	70B	67.40	0.96
20	Nemotron-4 340B Instruct· nemotron	340B	65.50	0.19
21	Qwen2.5 Coder 32B· qwen	32B	65.00	2.03
22	Llama 4 Maverick 17B (128E)· llama	17B	61.20	3.60
23	Mistral Nemo 12B· mistral	12B	55.10	4.59
24	Llama 3.1 8B Instruct· llama	8B	51.90	6.49
25	Llama 4 Scout 17B (16E)· llama	17B	50.30	2.96
26	Yi 1.5 34B Chat· yi	34B	50.10	1.47
27	Llama 3.2 3B· llama	3B	48.00	16.00
28	Gemma 2 27B· gemma	27B	42.30	1.57
29	Phi-3 Medium 14B· phi	14B	41.80	2.99
30	Mixtral 8×22B Instruct· mistral	141B	41.80	0.30
31	Falcon 3 7B Instruct· falcon	7B	39.30	5.61
32	Command R+· command	104B	38.60	0.37
33	Gemma 2 9B· gemma	9B	36.60	4.07
34	DBRX Instruct· dbrx	132B	34.60	0.26
35	Llama 3.2 1B· llama	1B	30.60	30.60
36	Mixtral 8×7B Instruct· mistral	47B	28.40	0.61
37	Phi-3 Mini 4K Instruct· phi	4B	28.00	7.37
38	Command R· command	35B	26.60	0.76
39	Grok 1· grok	314B	23.90	0.08
40	Mistral 7B v0.3· mistral	7B	13.10	1.87
41	Gemma 2 2B· gemma	3B	11.80	4.54

Click any column header to sort.

What does "Per B" mean?

Score divided by parameters in billions — a rough efficiency metric. Models that punch above their weight on a benchmark (Phi-4 on reasoning, Qwen2.5 Coder 32B on code) climb this ranking. Not a perfect measure (training data quality matters more than headline parameter count) but useful for spotting capable small models.