Terminal-Bench Hard — AI model leaderboard

AI models ranked by Terminal-Bench Hard, an aggregated third-party benchmark from artificial_analysis. Higher is better. Cross-referenced against our first-party meo scores and Effective Value (𝕍).

Ranking 79 models across the full field · as of 2026-06-07.

#	Model	Lab	Terminal-Bench Hard
1	OpenAI: GPT-5.5	openai	60.6%
2	Anthropic: Claude Opus 4.8	anthropic	58.3%
3	OpenAI: GPT-5.4	openai	57.6%
4	Google: Gemini 3.1 Pro Preview	google	53.8%
5	OpenAI: GPT-5.3-Codex	openai	53.0%
6	OpenAI: GPT-5.4 Mini	openai	52.3%
7	Anthropic: Claude Opus 4.7	anthropic	51.5%
8	Qwen: Qwen3.7 Max	qwen	50.8%
9	Kwaipilot: KAT-Coder-Pro V2	kwaipilot	49.2%
10	Qwen: Qwen3.7 Plus	qwen	47.0%
11	OpenAI: GPT-5.2 Chat	openai	47.0%
12	Anthropic: Claude Sonnet 4.6	anthropic	46.2%
13	DeepSeek: DeepSeek V4 Pro	deepseek	46.2%
14	OpenAI: GPT-5.1	openai	45.5%
15	Qwen: Qwen3.6 Plus	qwen	43.9%
16	Xiaomi: MiMo-V2.5-Pro	xiaomi	43.2%
17	Z.ai: GLM 5.1	z-ai	43.2%
18	OpenAI: GPT-5.4 Nano	openai	42.4%
19	MiniMax: MiniMax M3	minimax	42.4%
20	Google: Gemini 3.5 Flash	google	40.9%
21	Qwen: Qwen3.5 397B A17B	qwen	40.9%
22	MiniMax: MiniMax M2.7	minimax	39.4%
23	OpenAI: GPT-5 Codex	openai	37.9%
24	xAI: Grok 4.3	x-ai	37.9%
25	OpenAI: o3	openai	37.1%
26	OpenAI: GPT-5.2-Codex	openai	37.1%
27	Google: Gemma 4 31B	google	36.4%
28	DeepSeek: DeepSeek V4 Flash	deepseek	35.6%
29	StepFun: Step 3.7 Flash	stepfun	35.6%
30	Qwen: Qwen3.6 27B	qwen	34.8%
31	Qwen: Qwen3.6 35B A3B	qwen	34.8%
32	OpenAI: GPT-5.1-Codex	openai	34.8%
33	Tencent: Hy3 preview	tencent	34.1%
34	Z.ai: GLM 5 Turbo	z-ai	33.3%
35	OpenAI: GPT-5 Mini	openai	33.3%
36	Mistral: Mistral Medium 3.5	mistralai	33.3%
37	OpenAI: GPT-5.1-Codex-Mini	openai	33.3%
38	OpenAI: GPT-5	openai	32.6%
39	Z.ai: GLM 5V Turbo	z-ai	32.6%
40	StepFun: Step 3.5 Flash	stepfun	32.6%
41	Google: Gemini 3 Flash Preview	google	31.8%
42	Qwen: Qwen3.5-122B-A10B	qwen	31.1%
43	inclusionAI: Ling-2.6-1T	inclusionai	31.1%
44	inclusionAI: Ring-2.6-1T	inclusionai	28.8%
45	Google: Gemini 2.5 Pro	google	26.5%
46	Inception: Mercury 2	inception	26.5%
47	Xiaomi: MiMo-V2-Flash	xiaomi	25.8%
48	Google: Gemini 3.1 Flash Lite	google	24.2%
49	Qwen: Qwen3.5-9B	qwen	24.2%
50	OpenAI: gpt-oss-120b	openai	23.5%
51	Arcee AI: Trinity Large Thinking	arcee-ai	22.7%
52	inclusionAI: Ling-2.6-flash	inclusionai	21.2%
53	Qwen: Qwen3 Coder Next	qwen	18.2%
54	OpenAI: o4 Mini	openai	15.2%
55	Google: Gemma 4 26B A4B (free)	google	13.6%
56	OpenAI: GPT-4.1	openai	13.6%
57	OpenAI: o1	openai	12.9%
58	OpenAI: GPT-5 Nano	openai	12.1%
59	Google: Gemini 2.5 Flash	google	12.1%
60	OpenAI: gpt-oss-20b	openai	10.6%
61	Prime Intellect: INTELLECT-3	prime-intellect	9.1%
62	OpenAI: GPT-4o (2024-08-06)	openai	8.3%
63	OpenAI: GPT-4o	openai	8.3%
64	Upstage: Solar Pro 3	upstage	7.6%
65	OpenAI: GPT-4.1 Mini	openai	7.6%
66	Google: Gemini 2.5 Flash Lite Preview 09-2025	google	7.6%
67	OpenAI: o3 Mini	openai	6.8%
68	Meta: Llama 4 Maverick	meta-llama	6.8%
69	OpenAI: o3 Mini High	openai	6.1%
70	OpenAI: GPT-4.1 Nano	openai	3.8%
71	Microsoft: Phi 4	microsoft	3.8%
72	Google: Gemma 3 27B	google	3.8%
73	Meta: Llama 4 Scout	meta-llama	1.5%
74	Cohere: Command A	cohere	0.8%
75	Google: Gemma 3 12B	google	0.8%
76	Google: Gemma 3 4B	google	0.8%
77	IBM: Granite 4.1 8B	ibm-granite	0.0%
78	Reka Flash 3	rekaai	0.0%
79	Microsoft: Phi 4 Mini Instruct	microsoft	0.0%

Artificial Analysis (artificialanalysis.ai). Redistribution requires an AA commercial license.

← All rankings Methodology & 𝕍 →