GPQA Diamond — AI model leaderboard

AI models ranked by GPQA Diamond, an aggregated third-party benchmark from artificial_analysis. Higher is better. Cross-referenced against our first-party meo scores and Effective Value (𝕍).

Ranking 82 models across the full field · as of 2026-06-07.

#	Model	Lab	GPQA Diamond
1	Google: Gemini 3.1 Pro Preview	google	94.1%
2	OpenAI: GPT-5.5	openai	93.5%
3	MiniMax: MiniMax M3	minimax	92.9%
4	Qwen: Qwen3.7 Max	qwen	92.3%
5	Google: Gemini 3.5 Flash	google	92.2%
6	Anthropic: Claude Opus 4.8	anthropic	92.0%
7	OpenAI: GPT-5.4	openai	92.0%
8	OpenAI: GPT-5.3-Codex	openai	91.5%
9	Anthropic: Claude Opus 4.7	anthropic	91.4%
10	OpenAI: GPT-5.2 Chat	openai	90.3%
11	xAI: Grok 4.3	x-ai	90.1%
12	Qwen: Qwen3.7 Plus	qwen	90.0%
13	OpenAI: GPT-5.2-Codex	openai	89.9%
14	DeepSeek: DeepSeek V4 Flash	deepseek	89.4%
15	Qwen: Qwen3.5 397B A17B	qwen	89.3%
16	DeepSeek: DeepSeek V4 Pro	deepseek	88.8%
17	Qwen: Qwen3.6 Plus	qwen	88.2%
18	OpenAI: GPT-5.4 Mini	openai	87.5%
19	MiniMax: MiniMax M2.7	minimax	87.4%
20	OpenAI: GPT-5.1	openai	87.3%
21	Z.ai: GLM 5.1	z-ai	86.8%
22	Tencent: Hy3 preview	tencent	86.7%
23	Xiaomi: MiMo-V2.5-Pro	xiaomi	86.6%
24	OpenAI: GPT-5.1-Codex	openai	86.0%
25	inclusionAI: Ring-2.6-1T	inclusionai	85.7%
26	Google: Gemma 4 31B	google	85.7%
27	Qwen: Qwen3.5-122B-A10B	qwen	85.7%
28	Kwaipilot: KAT-Coder-Pro V2	kwaipilot	85.5%
29	OpenAI: GPT-5	openai	85.4%
30	Z.ai: GLM 5 Turbo	z-ai	84.7%
31	OpenAI: o3 Pro	openai	84.5%
32	Google: Gemini 2.5 Pro	google	84.4%
33	Qwen: Qwen3.6 27B	qwen	84.2%
34	Qwen: Qwen3.6 35B A3B	qwen	84.1%
35	OpenAI: GPT-5 Codex	openai	83.7%
36	OpenAI: GPT-5 Mini	openai	82.8%
37	OpenAI: o3	openai	82.7%
38	StepFun: Step 3.5 Flash	stepfun	82.6%
39	Google: Gemini 3.1 Flash Lite	google	82.2%
40	OpenAI: GPT-5.4 Nano	openai	81.7%
41	OpenAI: GPT-5.1-Codex-Mini	openai	81.3%
42	Google: Gemini 3 Flash Preview	google	81.2%
43	StepFun: Step 3.7 Flash	stepfun	80.9%
44	Z.ai: GLM 5V Turbo	z-ai	80.9%
45	Qwen: Qwen3.5-9B	qwen	80.6%
46	Anthropic: Claude Sonnet 4.6	anthropic	79.9%
47	Google: Gemma 4 26B A4B (free)	google	79.2%
48	OpenAI: o4 Mini	openai	78.4%
49	OpenAI: gpt-oss-120b	openai	78.2%
50	OpenAI: o3 Mini High	openai	77.3%
51	Inception: Mercury 2	inception	77.0%
52	Prime Intellect: INTELLECT-3	prime-intellect	76.1%
53	Arcee AI: Trinity Large Thinking	arcee-ai	75.2%
54	inclusionAI: Ling-2.6-1T	inclusionai	75.2%
55	Mistral: Mistral Medium 3.5	mistralai	74.8%
56	OpenAI: o3 Mini	openai	74.8%
57	OpenAI: o1	openai	74.7%
58	Qwen: Qwen3 Coder Next	qwen	73.7%
59	Upstage: Solar Pro 3	upstage	72.4%
60	OpenAI: gpt-oss-20b	openai	68.8%
61	Google: Gemini 2.5 Flash	google	68.3%
62	OpenAI: GPT-5 Nano	openai	67.6%
63	Meta: Llama 4 Maverick	meta-llama	67.1%
64	OpenAI: GPT-4.1	openai	66.6%
65	OpenAI: GPT-4.1 Mini	openai	66.4%
66	Xiaomi: MiMo-V2-Flash	xiaomi	65.6%
67	Google: Gemini 2.5 Flash Lite Preview 09-2025	google	65.1%
68	inclusionAI: Ling-2.6-flash	inclusionai	59.3%
69	Meta: Llama 4 Scout	meta-llama	58.7%
70	Microsoft: Phi 4	microsoft	57.5%
71	OpenAI: GPT-4o	openai	54.3%
72	Reka Flash 3	rekaai	52.9%
73	Cohere: Command A	cohere	52.7%
74	OpenAI: GPT-4o (2024-05-13)	openai	52.6%
75	OpenAI: GPT-4o (2024-08-06)	openai	52.1%
76	OpenAI: GPT-4.1 Nano	openai	51.2%
77	IBM: Granite 4.1 8B	ibm-granite	43.3%
78	Google: Gemma 3 27B	google	42.8%
79	OpenAI: GPT-4o-mini	openai	42.6%
80	Google: Gemma 3 12B	google	34.9%
81	Microsoft: Phi 4 Mini Instruct	microsoft	33.1%
82	Google: Gemma 3 4B	google	29.1%

Artificial Analysis (artificialanalysis.ai). Redistribution requires an AA commercial license.

← All rankings Methodology & 𝕍 →