Skip to content

Latest commit

 

History

History
109 lines (106 loc) · 3.7 KB

table-qa.md

File metadata and controls

109 lines (106 loc) · 3.7 KB
类别 大模型 表格问答 排名
商用 gpt-4o 100.0 1
商用 gpt-4o-mini 100.0 2
商用 ERNIE-3.5-8K 100.0 3
商用 yi-lightning 100.0 4
开源 Llama-3.3-70B-Instruct-fp8 100.0 5
开源 qwen2.5-math-72b-instruct 100.0 6
开源 deepseek-chat-v3 100.0 7
开源 Llama-3.1-Nemotron-70B-Instruct-fp8 100.0 8
开源 Hermes-3-Llama-3.1-405B 100.0 9
开源 DeepSeek-R1 100.0 10
商用 360gpt2-o1 100.0 11
商用 qwen2.5-max(new) 100.0 12
商用 MiniMax-Text-01(new) 100.0 13
商用 step-1-8k 100.0 14
商用 360gpt2-pro 100.0 15
商用 Baichuan4-Turbo 100.0 16
商用 gemini-2.0-flash-exp 100.0 17
商用 step-1-flash 100.0 18
商用 360gpt-turbo 100.0 19
商用 SenseChat-5-1202(new) 100.0 20
商用 gemini-2.0-flash-thinking-exp-01-21(new) 100.0 21
商用 gemini-2.0-pro-exp-02-05 100.0 22
商用 o1-mini 100.0 23
商用 360gpt-pro 100.0 24
商用 GLM-4-Plus 99.3 25
商用 ministral-8b 99.3 26
商用 gemini-2.0-flash-001 99.3 27
商用 gemini-1.5-pro 99.3 28
开源 Llama-3.3-70B-Instruct 99.3 29
商用 gemini-1.5-flash-8b 99.3 30
商用 Claude-3.5-Sonnet 99.3 31
商用 qwen-max 99.3 32
商用 gemini-2.0-flash-lite-preview-02-05 98.7 33
商用 SenseChat-Turbo-1202(new) 98.7 34
开源 DeepSeek-R1-Distill-Llama-8B 98.7 35
商用 ERNIE-4.0-Turbo-8K 98.7 36
开源 Meta-Llama-3.1-405B-Instruct 98.7 37
开源 DeepSeek-R1-Distill-Qwen-14B 98.0 38
开源 qwen2.5-14b-instruct 98.0 39
商用 GLM-4-FlashX(new) 98.0 40
商用 ERNIE-Lite-Pro-128K(new) 98.0 41
商用 ERNIE-Lite-8K(new) 98.0 42
开源 WizardLM-2-8x22B 97.3 43
商用 mistral-large 97.3 44
开源 phi-4 97.3 45
商用 hunyuan-turbo 97.3 46
商用 abab7-chat-preview 97.3 47
商用 Baichuan4-Air 97.3 48
商用 SenseChat-5 97.3 49
商用 gemini-1.5-flash 97.3 50
开源 internlm2_5-20b-chat 97.3 51
开源 gemma-2-27b-it 96.7 52
商用 ERNIE-Speed-Pro-128K(new) 96.7 53
商用 GLM-4-Long 96.7 54
商用 hunyuan-large 96.7 55
商用 mistral-small 96.7 56
开源 DeepSeek-R1-Distill-Qwen-32B 96.0 57
开源 DeepSeek-R1-Distill-Llama-70B 96.0 58
商用 o3-mini 95.3 59
商用 GLM-Zero-Preview(new) 95.3 60
商用 Baichuan4 95.3 61
开源 DeepSeek-R1-Distill-Qwen-7B 95.3 62
商用 ERNIE-4.0 94.0 63
开源 Mistral-Nemo-Instruct-2407 93.3 64
开源 qwq-32b-preview 93.3 65
开源 Meta-Llama-3.1-8B-Instruct-fp8 93.3 66
商用 xunfei-4.0Ultra 92.7 67
开源 qwen2.5-72b-instruct 92.7 68
开源 qwen2.5-7b-instruct 91.3 69
开源 qwen2.5-32b-instruct 91.3 70
开源 Mixtral-8x7B-Instruct-v0.1 90.0 71
开源 DeepSeek-R1-Distill-Qwen-1.5B 89.3 72
商用 moonshot-v1-8k 89.3 73
商用 ERNIE-Speed-8K 89.3 74
开源 Llama-3.2-3B-Instruct 88.7 75
商用 abab6.5s-chat 88.0 76
商用 GLM-4-Air 88.0 77
商用 GLM-4-AirX 88.0 78
商用 xunfei-spark-max 87.3 79
开源 gemma-2-9b-it 87.3 80
商用 Doubao-pro-32k 86.7 81
商用 SenseChat-v4 86.7 82
商用 qwen-long 86.7 83
商用 SenseChat-Turbo 86.0 84
商用 xunfei-spark-pro 86.0 85
商用 hunyuan-standard 85.3 86
开源 Llama-3.1-8B-Instruct 84.0 87
商用 qwen-plus 84.0 88
商用 ministral-3b 84.0 89
开源 internlm2_5-7b-chat 83.3 90
开源 Yi-1.5-34B-Chat 83.3 91
开源 Mistral-7B-Instruct-v0.3 83.3 92
开源 qwen2.5-3b-instruct 83.3 93
开源 glm-4-9b-chat 82.0 94
商用 GLM-4-Flash 82.0 95
开源 Yi-1.5-9B-Chat 80.0 96
商用 ERNIE-Tiny-8K(new) 77.3 97
商用 qwen-turbo 76.0 98
商用 Doubao-lite-32k 64.7 99
开源 qwen2.5-1.5b-instruct 63.3 100
开源 Llama-3.2-1B-Instruct 54.0 101
开源 qwen2.5-0.5b-instruct 46.0 102
商用 o1-preview / 103

lin