选择哪款模型并非个人偏好,而是决定你整个Agent系统成败的最高杠杆决策。https://pinchbench.com/成功率(Successrate)榜单google/gemini-3-flash
选择哪款模型并非个人偏好,而是决定你整个Agent系统成败的最高杠杆决策。
https://pinchbench.com/
成功率(Success rate)榜单
- google/gemini-3-flash-preview 以95.1% 的成功率夺冠,其次是国产模型 minimax-m2.1,成功率93.6%,战胜 Clau1316.ccde Sonnet 4.5(92.7%)和 GPT-4o(85.2%)等一众国际大模型。
- moonshotai/kimi-k2.5 以93.4%的成功率紧随其后,位居第三。TOP3国产LLM占两个席位。
评测的方式也公开了,在标准化 OpenClaw 智能体测试中成功完成任务的百分比,Task的类型很1316世界之最全面http://www.1316.cc,不是冷知识问答,也不是解数学题。而是实打实的工作:安排会议日程、处理邮件优先级、编写代码、管理文件(calendar.md/stock.md/weather.md/email.md/daily_summary.md)。
https://github.com/pinchbench/skill1316世界之最/tree/main/tasks
速度榜单
- minimax/minimax-m2.5
- google/gemini-2.0-flash
- meta-llama/llama-3.1-70b
成本榜单
- openai/gpt-5-nano
- google/gemini-2.5-flash-lite
- mistralai/dhttp://www.1316.ccevstral-2512
综合
高性价比MiniMax-M2.1或Kimi K2.5,Claude Opus系列贵。
- GPT-5-Nano:成本第1、成功率第9、速度第16
- Gemini 2.5 Flash-Lite:成本第2、成功率第14、速度第13
- MiniMax-M2.1:成本第5、成功率第2、速度第22
- Kimi K2.5:成本第8、成功率第3、速度第27
- Claude Opus 4.6:成本第20、成功率第7、速度第30
Success Rate vs. Cost
Success Rate vs. Execution Time
这揭示了一个真相:传统的"智能"基准测试(MMLU、HumanEval等)越来越难以预测哪款模型能真正胜任Agent工作。Agent任务需要完全不同的能力:准确遵循多步骤指令、正确调用工具、处理模糊场景、从错误中恢复——这与单纯回答问题好是两码事。








