τ²-bench — AI model leaderboard

AI models ranked by τ²-bench, an aggregated third-party benchmark from artificial_analysis. Higher is better. Cross-referenced against our first-party meo scores and Effective Value (𝕍).

Ranking 78 models across the full field · as of 2026-06-07.

#	Model	Lab	τ²-bench
1	Z.ai: GLM 5 Turbo	z-ai	98.5%
2	Z.ai: GLM 5V Turbo	z-ai	98.5%
3	StepFun: Step 3.7 Flash	stepfun	98.5%
4	xAI: Grok 4.3	x-ai	97.7%
5	Z.ai: GLM 5.1	z-ai	97.7%
6	Qwen: Qwen3.6 Plus	qwen	97.7%
7	DeepSeek: DeepSeek V4 Pro	deepseek	96.2%
8	Google: Gemini 3.1 Pro Preview	google	95.6%
9	Qwen: Qwen3.5 397B A17B	qwen	95.6%
10	Google: Gemini 3.5 Flash	google	95.3%
11	Qwen: Qwen3.6 35B A3B	qwen	95.3%
12	DeepSeek: DeepSeek V4 Flash	deepseek	95.0%
13	Qwen: Qwen3.7 Max	qwen	94.7%
14	Anthropic: Claude Opus 4.8	anthropic	94.4%
15	Xiaomi: MiMo-V2.5-Pro	xiaomi	94.2%
16	Qwen: Qwen3.6 27B	qwen	94.2%
17	Mistral: Mistral Medium 3.5	mistralai	94.2%
18	OpenAI: GPT-5.5	openai	93.9%
19	Qwen: Qwen3.5-122B-A10B	qwen	93.6%
20	Qwen: Qwen3.7 Plus	qwen	93.0%
21	Tencent: Hy3 preview	tencent	92.7%
22	inclusionAI: Ring-2.6-1T	inclusionai	92.4%
23	OpenAI: GPT-5.2-Codex	openai	92.1%
24	Arcee AI: Trinity Large Thinking	arcee-ai	90.1%
25	inclusionAI: Ling-2.6-1T	inclusionai	89.8%
26	Kwaipilot: KAT-Coder-Pro V2	kwaipilot	89.5%
27	MiniMax: MiniMax M3	minimax	88.9%
28	Anthropic: Claude Opus 4.7	anthropic	88.6%
29	StepFun: Step 3.5 Flash	stepfun	87.4%
30	OpenAI: GPT-5.4	openai	87.1%
31	OpenAI: GPT-5 Codex	openai	86.8%
32	Qwen: Qwen3.5-9B	qwen	86.8%
33	Upstage: Solar Pro 3	upstage	86.3%
34	OpenAI: GPT-5.3-Codex	openai	86.0%
35	inclusionAI: Ling-2.6-flash	inclusionai	86.0%
36	OpenAI: GPT-5.2 Chat	openai	84.8%
37	MiniMax: MiniMax M2.7	minimax	84.8%
38	OpenAI: GPT-5	openai	84.8%
39	Xiaomi: MiMo-V2-Flash	xiaomi	83.9%
40	OpenAI: GPT-5.4 Mini	openai	83.3%
41	OpenAI: GPT-5.1-Codex	openai	83.0%
42	OpenAI: GPT-5.1	openai	81.9%
43	OpenAI: o3	openai	80.7%
44	Anthropic: Claude Sonnet 4.6	anthropic	79.5%
45	Qwen: Qwen3 Coder Next	qwen	79.5%
46	OpenAI: GPT-5.4 Nano	openai	76.0%
47	Inception: Mercury 2	inception	70.8%
48	OpenAI: GPT-5 Mini	openai	68.4%
49	OpenAI: gpt-oss-120b	openai	65.8%
50	OpenAI: GPT-5.1-Codex-Mini	openai	62.9%
51	OpenAI: o1	openai	62.6%
52	OpenAI: gpt-oss-20b	openai	60.2%
53	Google: Gemma 4 31B	google	59.9%
54	OpenAI: o4 Mini	openai	55.6%
55	Google: Gemini 2.5 Pro	google	54.1%
56	OpenAI: GPT-4.1 Mini	openai	52.9%
57	OpenAI: GPT-4.1	openai	47.1%
58	Google: Gemma 4 26B A4B (free)	google	43.6%
59	Google: Gemini 3 Flash Preview	google	43.3%
60	OpenAI: GPT-5 Nano	openai	36.5%
61	Google: Gemini 3.1 Flash Lite	google	31.3%
62	OpenAI: o3 Mini High	openai	31.3%
63	Google: Gemini 2.5 Flash Lite Preview 09-2025	google	30.4%
64	OpenAI: GPT-4o (2024-08-06)	openai	28.9%
65	OpenAI: o3 Mini	openai	28.7%
66	IBM: Granite 4.1 8B	ibm-granite	27.8%
67	Prime Intellect: INTELLECT-3	prime-intellect	26.6%
68	OpenAI: GPT-4o	openai	25.1%
69	Meta: Llama 4 Maverick	meta-llama	17.8%
70	OpenAI: GPT-4.1 Nano	openai	17.3%
71	Meta: Llama 4 Scout	meta-llama	15.5%
72	Cohere: Command A	cohere	15.2%
73	Google: Gemini 2.5 Flash	google	14.9%
74	Google: Gemma 3 12B	google	10.8%
75	Google: Gemma 3 27B	google	10.5%
76	Microsoft: Phi 4 Mini Instruct	microsoft	8.2%
77	Microsoft: Phi 4	microsoft	0.0%
78	Reka Flash 3	rekaai	0.0%

Artificial Analysis (artificialanalysis.ai). Redistribution requires an AA commercial license.

← All rankings Methodology & 𝕍 →