13 个模型大 PK，到底谁最牛逼

做 AI Coding 平台久了，我们发现一个很现实的问题：MonkeyCode 里内置的大模型越来越多，名字一个比一个能打，用户打开列表以后经常陷入沉思：这个强吗？那个适合写代码吗？我今天到底该选谁？

所以我们决定整点直观的。

光看参数、榜单、宣传页都太抽象。模型厉害不厉害，拉出来下棋。

于是就有了这场 AI 五子棋锦标赛。

为什么是五子棋？因为它规则简单，大家都能看懂：黑白轮流下，谁先连成五个谁赢。没有复杂术语，没有隐藏规则，输了也没法说“我这是战略性试探”。

同时五子棋又刚好适合考模型能力：它需要看局势、算威胁、做取舍，还得在回合制里一步一步推理。对 AI 来说，这比“请你夸夸我”要真实多了。

参赛模型

这次比赛一共有 13 个模型参赛：

gpt-5.5：当前榜首热门选手
gpt-5.4：稳定强力通用模型
gpt-5.4-mini：轻量版速度型选手
gpt-5.3-codex：代码场景专用选手
qwen3.5-plus：通义高性能旗舰模型
qwen3.6-plus：通义新一代增强模型
glm-5.1：智谱当前最强模型
glm-4.7：智谱上一代主力模型
kimi-k2.6：长上下文推理选手
minimax-m2.7：MiniMax 主力模型
claude-sonnet-4-6：Claude 均衡型选手
claude-opus-4-6：Claude 高阶推理模型
claude-opus-4-7：Claude Opus 新版本

比赛规则

比赛方式很朴素：每两个模型都要互相打一遍。

比如 A vs B 时，A 执黑，B 执白；到了 B vs A，B 执黑，A 执白。

每组固定方向打 5 局。为什么要打 5 局？因为大模型的决策带有随机性。同一个局面，它这次可能杀得很果断，下次可能突然开始“深思熟虑”，然后把自己想没了。

打一局容易变成“抽卡”。打 5 局可以把偶然性摊薄一点，看的是模型整体稳定性，以及它在多轮对抗里的真实表现。

这次总对局数是：

13 × 12 × 5 = 780 局

没有人类选手，没有人工干预，全程 AI 自己下。更狠的是，整个比赛平台也是用 MonkeyCode 自动开发的。属于 AI 写平台，AI 来比赛，人类在旁边端着茶看热闹。

计分规则大致是：

黑棋赢：+15 分
白棋赢：+20 分
平局：双方 +10 分
输棋也有一点安慰分，能撑得越久分越多
输出格式乱了会扣分
下到已经有子的地方也会扣分

这不只是看谁会赢，还看谁稳定、谁靠谱、谁别在关键时候突然开始写小作文。

当前战况

目前比赛还在进行中。

从当前进度图来看：

总对局：780 局
已完成：550 局
完成进度：约 70.5%

当前第一名是 gpt-5.5：

1444 分
80 胜 / 0 平 / 14 负

这个成绩很离谱，基本属于“下棋的时候顺便把别人心理防线也下崩了”。

第二名是 gpt-5.4：

1173 分
64 胜 / 0 平 / 26 负

第三名是 qwen3.5-plus：

1020 分
55 胜 / 0 平 / 31 负

再往后，claude-sonnet-4-6、qwen3.6-plus、glm-5.1、gpt-5.4-mini 几个模型分数比较接近，属于中游乱战区。

目前垫底的是 gpt-5.3-codex：

202 分
8 胜 / 0 平 / 99 负

这个成绩看起来有点像：本来是来写代码的，结果被拉去参加体育考试。

当前能看出什么

目前看下来，模型之间的差距还是挺明显的。

gpt-5.5 现在是断层领先。它不光赢得多，而且响应很快，整体表现也很稳。更关键的是，到目前为止它没有出现过违规落子这类低级失误。五子棋这种场景里，稳定性很重要，因为一步看漏，满盘皆输；如果连坐标都能下错，那就更像是把棋盘当 Excel 填表了。

gpt-5.4 和 qwen3.5-plus 属于第二梯队，实力也很强，但和第一名已经有明显分差。

几个国产模型整体表现挺有看头。qwen3.5-plus 目前冲到了第三，说明通义这边的通用推理和棋局判断都相当能打；qwen3.6-plus 也在中上游，属于稳稳咬住第一梯队尾巴的选手。glm-5.1 的表现比 glm-4.7 明显更好，智谱新一代模型的提升在棋盘上看得很直观。kimi-k2.6 和 minimax-m2.7 也有不少胜场，属于有爆发、有亮点，但稳定性还需要继续观察的类型。

中游几个模型很有意思：有的能赢不少局，但也会输很多局，说明它们有爆发力，但稳定性还在打磨。就像打游戏时队友说“相信我这把能 C”，然后下一秒走进对面包围圈。

Claude 的情况就更有意思了。众所周知，Claude 一直是很强的模型，尤其在 Coding 场景里经常表现得很优雅，像一个坐姿端正、变量命名讲究的资深工程师。但从这次五子棋结果看，它的优势可能更集中在代码领域；到了这种通用博弈场景里，整体压制力没有 GPT 系列那么明显。

更尴尬的是，Claude 在指令遵循上也出现了一些小毛病。比赛要求模型只输出严格 JSON，但它有时会先来一段“让我分析一下棋盘”，分析得挺认真，格式也确实不合格。还有一些对局里出现了违规落子，属于想得很多，下得有点歪。它不是不会思考，而是偶尔太爱展示思考过程，像考试要求只写答案，它偏要把草稿纸也交上来。

至于后排选手，目前压力有点大。尤其是 gpt-5.3-codex，负场非常多。它可能更适合回去写代码，不太适合在棋盘上和这些模型硬碰硬。

MonkeyCode 会员模型怎么选

这次比赛还有一个很实用的参考价值：MonkeyCode 会员里内置的三个常用档位，刚好都在参赛名单里。

基础模型：qwen3.5-plus
专业模型：kimi-k2.6
旗舰模型：gpt-5.5

从目前战况看，qwen3.5-plus 作为基础模型表现非常能打，当前排在第三，已经不是“够用”的水平，而是相当有竞争力。日常写代码、问问题、处理常规开发任务，基础模型已经能覆盖很大一部分场景。

kimi-k2.6 作为专业模型，特点更像是长上下文和复杂材料处理选手。它在棋局里的排名没有 qwen3.5-plus 那么靠前，但胜场不少，说明它有自己的优势区间。遇到长文档、长代码、需要消化大量上下文的任务，它依然很适合上场。

gpt-5.5 作为旗舰模型，这次基本把“旗舰”两个字写在棋盘上了。它当前断层领先，响应快、胜率高、稳定性好，也没有出现违规落子。遇到高难度重构、复杂问题定位、关键代码生成这类任务，直接上旗舰模型会更省心。

一句话：平时用 qwen3.5-plus 很能打，长上下文用 kimi-k2.6 更顺手，关键任务上 gpt-5.5 最稳。

欢迎围观

比赛还没结束，后面还有不少对局，排名也可能继续变化。

你可以直接来围观实时战况：

https://8000-de2a5f209a44b3a2.monkeycode-ai.online/

代码也已经开源：

https://github.com/safe1ine/gomoku-ai

这场比赛没有人工操盘，没有剧本，没有“友谊第一”。13 个模型自己下，自己赢，自己翻车。

最终谁最强，棋盘说了算。

本地运行

默认配置文件：config/default.json。

可以通过环境变量指定配置文件：

GOMOKU_CONFIG=/path/to/config.json python3 server.py

启动服务：

python3 server.py

默认访问地址：http://localhost:8000。

服务启动时不会逐个连接检查模型。实际对局调用模型失败时，系统会在对应棋局中记录失败结果。系统不会使用假数据或 fallback 模拟模型落子。

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
scripts		scripts
static		static
.gitignore		.gitignore
README.md		README.md
server.py		server.py

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

13 个模型大 PK，到底谁最牛逼

参赛模型

比赛规则

当前战况

当前能看出什么

MonkeyCode 会员模型怎么选

欢迎围观

本地运行

About

Uh oh!

Releases

Packages

Uh oh!

Contributors

Uh oh!

Languages

Folders and files

Latest commit

History

Repository files navigation

13 个模型大 PK，到底谁最牛逼

参赛模型

比赛规则

当前战况

当前能看出什么

MonkeyCode 会员模型怎么选

欢迎围观

本地运行

About

Resources

Uh oh!

Stars

Watchers

Forks

Releases

Packages 0

Uh oh!

Contributors

Uh oh!

Languages

Packages