做 AI Coding 平台久了,我们发现一个很现实的问题:MonkeyCode 里内置的大模型越来越多,名字一个比一个能打,用户打开列表以后经常陷入沉思:这个强吗?那个适合写代码吗?我今天到底该选谁?
所以我们决定整点直观的。
光看参数、榜单、宣传页都太抽象。模型厉害不厉害,拉出来下棋。
于是就有了这场 AI 五子棋锦标赛。
为什么是五子棋?因为它规则简单,大家都能看懂:黑白轮流下,谁先连成五个谁赢。没有复杂术语,没有隐藏规则,输了也没法说“我这是战略性试探”。
同时五子棋又刚好适合考模型能力:它需要看局势、算威胁、做取舍,还得在回合制里一步一步推理。对 AI 来说,这比“请你夸夸我”要真实多了。
这次比赛一共有 13 个模型参赛:
gpt-5.5:当前榜首热门选手gpt-5.4:稳定强力通用模型gpt-5.4-mini:轻量版速度型选手gpt-5.3-codex:代码场景专用选手qwen3.5-plus:通义高性能旗舰模型qwen3.6-plus:通义新一代增强模型glm-5.1:智谱当前最强模型glm-4.7:智谱上一代主力模型kimi-k2.6:长上下文推理选手minimax-m2.7:MiniMax 主力模型claude-sonnet-4-6:Claude 均衡型选手claude-opus-4-6:Claude 高阶推理模型claude-opus-4-7:Claude Opus 新版本
比赛方式很朴素:每两个模型都要互相打一遍。
比如 A vs B 时,A 执黑,B 执白;到了 B vs A,B 执黑,A 执白。
每组固定方向打 5 局。为什么要打 5 局?因为大模型的决策带有随机性。同一个局面,它这次可能杀得很果断,下次可能突然开始“深思熟虑”,然后把自己想没了。
打一局容易变成“抽卡”。打 5 局可以把偶然性摊薄一点,看的是模型整体稳定性,以及它在多轮对抗里的真实表现。
这次总对局数是:
13 × 12 × 5 = 780 局
没有人类选手,没有人工干预,全程 AI 自己下。更狠的是,整个比赛平台也是用 MonkeyCode 自动开发的。属于 AI 写平台,AI 来比赛,人类在旁边端着茶看热闹。
计分规则大致是:
- 黑棋赢:+15 分
- 白棋赢:+20 分
- 平局:双方 +10 分
- 输棋也有一点安慰分,能撑得越久分越多
- 输出格式乱了会扣分
- 下到已经有子的地方也会扣分
这不只是看谁会赢,还看谁稳定、谁靠谱、谁别在关键时候突然开始写小作文。
目前比赛还在进行中。
从当前进度图来看:
- 总对局:780 局
- 已完成:550 局
- 完成进度:约 70.5%
当前第一名是 gpt-5.5:
- 1444 分
- 80 胜 / 0 平 / 14 负
这个成绩很离谱,基本属于“下棋的时候顺便把别人心理防线也下崩了”。
第二名是 gpt-5.4:
- 1173 分
- 64 胜 / 0 平 / 26 负
第三名是 qwen3.5-plus:
- 1020 分
- 55 胜 / 0 平 / 31 负
再往后,claude-sonnet-4-6、qwen3.6-plus、glm-5.1、gpt-5.4-mini 几个模型分数比较接近,属于中游乱战区。
目前垫底的是 gpt-5.3-codex:
- 202 分
- 8 胜 / 0 平 / 99 负
这个成绩看起来有点像:本来是来写代码的,结果被拉去参加体育考试。
目前看下来,模型之间的差距还是挺明显的。
gpt-5.5 现在是断层领先。它不光赢得多,而且响应很快,整体表现也很稳。更关键的是,到目前为止它没有出现过违规落子这类低级失误。五子棋这种场景里,稳定性很重要,因为一步看漏,满盘皆输;如果连坐标都能下错,那就更像是把棋盘当 Excel 填表了。
gpt-5.4 和 qwen3.5-plus 属于第二梯队,实力也很强,但和第一名已经有明显分差。
几个国产模型整体表现挺有看头。qwen3.5-plus 目前冲到了第三,说明通义这边的通用推理和棋局判断都相当能打;qwen3.6-plus 也在中上游,属于稳稳咬住第一梯队尾巴的选手。glm-5.1 的表现比 glm-4.7 明显更好,智谱新一代模型的提升在棋盘上看得很直观。kimi-k2.6 和 minimax-m2.7 也有不少胜场,属于有爆发、有亮点,但稳定性还需要继续观察的类型。
中游几个模型很有意思:有的能赢不少局,但也会输很多局,说明它们有爆发力,但稳定性还在打磨。就像打游戏时队友说“相信我这把能 C”,然后下一秒走进对面包围圈。
Claude 的情况就更有意思了。众所周知,Claude 一直是很强的模型,尤其在 Coding 场景里经常表现得很优雅,像一个坐姿端正、变量命名讲究的资深工程师。但从这次五子棋结果看,它的优势可能更集中在代码领域;到了这种通用博弈场景里,整体压制力没有 GPT 系列那么明显。
更尴尬的是,Claude 在指令遵循上也出现了一些小毛病。比赛要求模型只输出严格 JSON,但它有时会先来一段“让我分析一下棋盘”,分析得挺认真,格式也确实不合格。还有一些对局里出现了违规落子,属于想得很多,下得有点歪。它不是不会思考,而是偶尔太爱展示思考过程,像考试要求只写答案,它偏要把草稿纸也交上来。
至于后排选手,目前压力有点大。尤其是 gpt-5.3-codex,负场非常多。它可能更适合回去写代码,不太适合在棋盘上和这些模型硬碰硬。
这次比赛还有一个很实用的参考价值:MonkeyCode 会员里内置的三个常用档位,刚好都在参赛名单里。
- 基础模型:
qwen3.5-plus - 专业模型:
kimi-k2.6 - 旗舰模型:
gpt-5.5
从目前战况看,qwen3.5-plus 作为基础模型表现非常能打,当前排在第三,已经不是“够用”的水平,而是相当有竞争力。日常写代码、问问题、处理常规开发任务,基础模型已经能覆盖很大一部分场景。
kimi-k2.6 作为专业模型,特点更像是长上下文和复杂材料处理选手。它在棋局里的排名没有 qwen3.5-plus 那么靠前,但胜场不少,说明它有自己的优势区间。遇到长文档、长代码、需要消化大量上下文的任务,它依然很适合上场。
gpt-5.5 作为旗舰模型,这次基本把“旗舰”两个字写在棋盘上了。它当前断层领先,响应快、胜率高、稳定性好,也没有出现违规落子。遇到高难度重构、复杂问题定位、关键代码生成这类任务,直接上旗舰模型会更省心。
一句话:平时用 qwen3.5-plus 很能打,长上下文用 kimi-k2.6 更顺手,关键任务上 gpt-5.5 最稳。
比赛还没结束,后面还有不少对局,排名也可能继续变化。
你可以直接来围观实时战况:
https://8000-de2a5f209a44b3a2.monkeycode-ai.online/
代码也已经开源:
https://github.com/safe1ine/gomoku-ai
这场比赛没有人工操盘,没有剧本,没有“友谊第一”。13 个模型自己下,自己赢,自己翻车。
最终谁最强,棋盘说了算。
默认配置文件:config/default.json。
可以通过环境变量指定配置文件:
GOMOKU_CONFIG=/path/to/config.json python3 server.py启动服务:
python3 server.py默认访问地址:http://localhost:8000。
服务启动时不会逐个连接检查模型。实际对局调用模型失败时,系统会在对应棋局中记录失败结果。系统不会使用假数据或 fallback 模拟模型落子。