Humanity's Last Exam — AI model leaderboard

AI models ranked by Humanity's Last Exam, an aggregated third-party benchmark from artificial_analysis. Higher is better. Cross-referenced against our first-party meo scores and Effective Value (𝕍).

Ranking 82 models across the full field · as of 2026-06-07.

#	Model	Lab	Humanity's Last Exam
1	Anthropic: Claude Opus 4.8	anthropic	45.7%
2	Google: Gemini 3.1 Pro Preview	google	44.7%
3	OpenAI: GPT-5.5	openai	44.3%
4	OpenAI: GPT-5.4	openai	41.6%
5	Google: Gemini 3.5 Flash	google	41.0%
6	OpenAI: GPT-5.3-Codex	openai	39.9%
7	Anthropic: Claude Opus 4.7	anthropic	39.6%
8	Qwen: Qwen3.7 Max	qwen	38.1%
9	MiniMax: MiniMax M3	minimax	37.1%
10	DeepSeek: DeepSeek V4 Pro	deepseek	35.9%
11	OpenAI: GPT-5.2 Chat	openai	35.4%
12	xAI: Grok 4.3	x-ai	35.0%
13	Xiaomi: MiMo-V2.5-Pro	xiaomi	33.8%
14	OpenAI: GPT-5.2-Codex	openai	33.5%
15	Qwen: Qwen3.7 Plus	qwen	33.4%
16	DeepSeek: DeepSeek V4 Flash	deepseek	32.1%
17	MiniMax: MiniMax M2.7	minimax	28.1%
18	Z.ai: GLM 5.1	z-ai	28.0%
19	Qwen: Qwen3.5 397B A17B	qwen	27.3%
20	OpenAI: GPT-5.4 Mini	openai	26.6%
21	OpenAI: GPT-5.1	openai	26.5%
22	OpenAI: GPT-5	openai	26.5%
23	OpenAI: GPT-5.4 Nano	openai	26.5%
24	Qwen: Qwen3.6 Plus	qwen	25.7%
25	OpenAI: GPT-5 Codex	openai	25.6%
26	Tencent: Hy3 preview	tencent	25.5%
27	Z.ai: GLM 5 Turbo	z-ai	25.4%
28	OpenAI: GPT-5.1-Codex	openai	23.4%
29	Qwen: Qwen3.5-122B-A10B	qwen	23.4%
30	Google: Gemma 4 31B	google	22.7%
31	StepFun: Step 3.5 Flash	stepfun	22.6%
32	Qwen: Qwen3.6 27B	qwen	21.6%
33	Google: Gemini 2.5 Pro	google	21.1%
34	Qwen: Qwen3.6 35B A3B	qwen	20.2%
35	OpenAI: o3	openai	20.0%
36	StepFun: Step 3.7 Flash	stepfun	19.9%
37	OpenAI: GPT-5 Mini	openai	19.7%
38	OpenAI: gpt-oss-120b	openai	18.5%
39	inclusionAI: Ring-2.6-1T	inclusionai	18.3%
40	Google: Gemma 4 26B A4B (free)	google	18.3%
41	OpenAI: o4 Mini	openai	17.5%
42	OpenAI: GPT-5.1-Codex-Mini	openai	16.9%
43	Google: Gemini 3.1 Flash Lite	google	16.2%
44	Kwaipilot: KAT-Coder-Pro V2	kwaipilot	16.0%
45	Z.ai: GLM 5V Turbo	z-ai	15.8%
46	Inception: Mercury 2	inception	15.5%
47	Arcee AI: Trinity Large Thinking	arcee-ai	14.7%
48	Google: Gemini 3 Flash Preview	google	14.1%
49	Qwen: Qwen3.5-9B	qwen	13.3%
50	Anthropic: Claude Sonnet 4.6	anthropic	13.2%
51	Mistral: Mistral Medium 3.5	mistralai	12.8%
52	OpenAI: o3 Mini High	openai	12.3%
53	Prime Intellect: INTELLECT-3	prime-intellect	12.1%
54	Upstage: Solar Pro 3	upstage	10.1%
55	OpenAI: gpt-oss-20b	openai	9.8%
56	Qwen: Qwen3 Coder Next	qwen	9.3%
57	OpenAI: o3 Mini	openai	8.7%
58	inclusionAI: Ling-2.6-1T	inclusionai	8.2%
59	OpenAI: GPT-5 Nano	openai	8.2%
60	Xiaomi: MiMo-V2-Flash	xiaomi	8.0%
61	OpenAI: o1	openai	7.7%
62	inclusionAI: Ling-2.6-flash	inclusionai	6.2%
63	Google: Gemma 3 4B	google	5.2%
64	Google: Gemini 2.5 Flash	google	5.1%
65	Reka Flash 3	rekaai	5.1%
66	Meta: Llama 4 Maverick	meta-llama	4.8%
67	Google: Gemma 3 12B	google	4.8%
68	Google: Gemma 3 27B	google	4.7%
69	OpenAI: GPT-4.1	openai	4.6%
70	Google: Gemini 2.5 Flash Lite Preview 09-2025	google	4.6%
71	Cohere: Command A	cohere	4.6%
72	OpenAI: GPT-4.1 Mini	openai	4.6%
73	Meta: Llama 4 Scout	meta-llama	4.3%
74	Microsoft: Phi 4 Mini Instruct	microsoft	4.2%
75	Microsoft: Phi 4	microsoft	4.1%
76	OpenAI: GPT-4o-mini	openai	4.0%
77	OpenAI: GPT-4.1 Nano	openai	3.9%
78	IBM: Granite 4.1 8B	ibm-granite	3.8%
79	OpenAI: GPT-4o	openai	3.3%
80	OpenAI: GPT-4 Turbo	openai	3.3%
81	OpenAI: GPT-4o (2024-08-06)	openai	2.9%
82	OpenAI: GPT-4o (2024-05-13)	openai	2.8%

Artificial Analysis (artificialanalysis.ai). Redistribution requires an AA commercial license.

← All rankings Methodology & 𝕍 →