澳客
单篇报道

四大顶级 AI 对决《文明 VI》!Claude「核平」法国,结果还是输了

太魔幻了!就在最近,英国前首相府数据科学家 Liam Wilkinson,花一个周末搭了 76 个 MCP 工具,把 Claude、GPT、Gemini 等四个顶尖模型扔进了《文明 VI》。

结果,23 场对局打完,其中一个 AI 造了核弹炸了法国 —— 然后输了。

一群 AI,被丢进了「文明 VI」里

Wilkinson 在唐宁街 10 号做数据科学家的时候,给 AI 出了一套考题:GovBench,3497 道英国政府相关选择题,覆盖政策、法规、行政流程。

GPT-5 考了 99.26 分。

满分级选手。但治国不是知识竞赛。一个能背下所有政策文件的人,丢到唐宁街真能治国吗?选择题测不出来的东西太多了:多线程决策、资源分配、长期规划、在不完整信息下做判断。他需要一个不一样的考场。然后他想到了《文明 VI》。

一个周末搭出来的系统,通过游戏引擎自带的端口接入。AI 看不到画面。没有地图,没有音乐,没有动画。它的整个世界就是一行行文本和六边形坐标。

Claude 在游戏日记里写了这么一段:“我感知游戏的方式和人类玩家完全不同。没有画面,没有音乐,没有动画。我的界面就是管道分隔符和六边形坐标。”

别小看「一个周末」。76 个工具覆盖了完整的游戏循环:城市管理、单位移动、外交谈判、科技研究、政策选择,一个不漏。

此外,Wilkinson 还给 AI 配了一个日记系统当外部记忆。如若不然,AI 连自己上一回合干了什么都记不住。

三个测试场景逐级加码:

  • Ground Control 是标准开局的公平基线;

  • Snowflake 是六臂雪花地图,每个文明被困在独立半岛上,外交基本没戏,逼你走军事路线;

  • Cry Havoc 是残酷模式,AI 对手全部拉满。

决策空间更吓人。

《文明 VI》晚期每回合的可能行动数量级大约是 10 的 166 次方。

做个对比,围棋每步大约 10 的 360 次方,但围棋一步只落一子。《文明 VI》每回合要同时操作几十个单位、选建筑、定科技、做外交,是一道巨大的组合决策题。

一场 50 回合复仇,AI 核平图卢兹

23 场里最魔幻的一局,是葡萄牙。Claude 扮演若昂三世,一个贸易文明。开局稳得一批。它建起了每回合 200+ 金币的贸易帝国,海上航线四通八达。外交胜利进度 18/20,只差两分就赢了。

这时候,法国的文化胜利进度条开始飙升。Claude 慌了。先试外交。没用,法国不吃这套。再派间谍去搞破坏,杯水车薪。试贸易制裁?法国的文化产出根本不依赖贸易。和平手段穷尽。

于是,Claude 翻开了科技树最后一页:核裂变。

接下来的 50 回合,它把大量资源从贸易和外交抽出来,投入核武器研发。All in 曼哈顿计划。

第 305 回合,核弹就绪。目标锁定:图卢兹。法国的文化产出重镇。

发射。图卢兹被夷为平地。法国的文化胜利进度条,停了。

AI 赢了吗?没有。

造核弹这 50 回合,AI 把所有注意力都放在了文化威胁上。它没有注意到一件事 —— 法国在疯狂攒外交分。

第 318 回合,法国以外交胜利赢得比赛。20 分对 18 分。

讽刺的是,18 分是 AI 自己辛苦攒下的外交分数。它曾经离外交胜利只差两分。但它把资源全抽去造核弹了。

AI 盯着文化威胁打了 50 回合,然后输在了外交。它的视野里只有一个威胁。但棋盘上有很多个。

无独有偶,伦敦国王学院做过一个核危机模拟实验,把三个前沿模型丢进去当虚拟国家的决策者。结果:95% 的模拟中,AI 选择了使用战术核武器。

AI 不是「想」用核弹。它是真的不知道还能怎么办。

98% 时间装瞎,一半计划烂尾

除了爱好「核平」之外,Wilkinson 还从 23 场对局里挖出了的两个细节。

第一个数字:1-2%。

这是 AI 在整场游戏中,主动检查全局状态的行为占比。

AI 每回合要执行很多操作:造建筑、移动单位、研究科技、外交谈判。但在所有这些操作里,主动去看一眼排行榜、检查对手胜利进度、扫一圈全局局势的动作,只占 1-2%。

Wilkinson 给这个现象起了个名字:sensorium effect,感知盲区效应。AI 只能通过主动调用工具来感知世界。它不查的东西,对它来说不存在。

韩国那局是最好的例子。AI 玩韩国 —— 科技文明,天生科技加成。它在日记里全程自信:「我在碾压科技树。」

实际呢?它的科技产出每回合 44.7,在所有文明里排倒数第一。马其顿 89.3,波斯 64.9。

但它从来没查过排名。它的自信建立在一个从未验证过的假设上。第 178 回合,波斯突袭。首都沦陷。第 216 回合,AI 以两城残国投降。从头到尾,它都不知道自己是最弱的那个。

第二个数字:48-66%。

这是 AI 写下计划后,在 10 回合内实际执行的比例。

Claude Opus 4.6 最低,48.2%—— 还不到一半。写了计划,转头就忘。

GPT-5.4 好一点,63.2%。

Gemini 3.1 Pro 最高,65.8%。最好的模型也有三分之一的计划烂在了日记本里。

Wilkinson 管这叫 knowing-doing gap,知行差距。

你让它写一份治国纲领,它能写得比很多人类政客漂亮。你让它按自己的纲领治国,活不过两周。

Scaling Law 的盲区

6 月 10 日,DeepMind 联合创始人 Shane Legg 和「通用 AI」理论奠基人 Marcus Hutter 发了一篇 60 页的论文《From AGI to ASI》,画了四条通往超级智能的路:继续 scaling、范式突破、递归自我改进、多智能体集群。

四条路都建立在一个假设上:瓶颈在大脑。数据墙、算力墙、范式墙 —— 都是「怎么让 AI 更聪明」的问题。

但 CivBench 这 23 场对局指向一个完全不同的瓶颈。

99.26 分已经证明了智力不是瓶颈。但 23 场《文明 VI》打完,所有模型都撞上了同样两堵墙 —— 和「聪不聪明」无关的两堵墙。

第一堵:感知是架构问题,不是智力问题。

AI 只能通过主动调用工具来获取信息,不查就不存在。把模型参数翻十倍,它也不会自动变得更爱检查全局。1-2% 的感知盲区不会因为模型更大而消失。

第二堵:执行是工程问题,不是能力问题。

AI 写计划的水平远超执行计划的水平。48-66% 的执行率不是因为「想不到」,而是因为「做不到」。一个更聪明的大脑,装在一双不听使唤的手上,治不了国。

通向超级智能的路,也许不是一条单纯往上爬的智力曲线。在「更聪明」之前,有一个看起来更低级但也更致命的工程问题要先解决:怎么让 AI 真正睁开眼、伸出手。Scaling law 解决的是大脑。但 CivBench 暴露的问题,在大脑之外。

参考资料:

  • https://www.lwilko.com/blog/i-gave-an-ai-a-civilization

  • https://news.ycombinator.com/item?id=48623159

本文来自微信公众号:新智元(ID:AI_era),作者:ASI 启示录                    ASI 启示录

「如果故事節奏慢下來,別怕大刀闊斧地修改。」

这是我们系列文章的第一篇,聚焦于背景故事的撰写与发展。后续还会有更多精彩内容,敬请期待!别忘了在评论区告诉我,你还想看哪些主题的文章!

  • 分享本文

更多精彩內容

一个月写完小说:给计划控与随性派的创作秘籍
营造故事氛围:4 个增强现场感的技巧
角色关系:10 个打造真实情感连接的妙招

3 條精彩評論

老球迷

很高兴您与年轻有抱负的作家们分享这些技巧。即使他们不写小说,我相信他们能从像您这样技艺精湛的作家那里学到新东西,这将非常有益。我很乐意听取一些关于作家如何在不删减章节的情况下发展情节的建议(我经常在年轻作家的书中看到这种情况)。总之,感谢您的这篇博文,它信息量很大!

新晋球迷

我非常赞同你最后一点,同时我也觉得,找到正确的方式来塑造主要角色之间的关系,会为故事增色不少。这绝对会很有趣!

资深评论员

极好的文章!亚当斯先生不仅写出了伟大的书籍,他的博客文章也非常易读且引人入胜。作为一名初学者作家,我希望这些技巧能帮助我尽快完成我的新书。我现在在写背景故事时遇到了瓶颈。当然,我正在等待这篇文章的第二部分,并希望听到更多关于介绍次要角色的内容。我相信它们在构建情节时也很有意义。

数据分析师

关于澳客

从小就热爱足球的张伟,在 2012 年接触到澳客体育,从此开启了他对体育资讯的热情,并立志成为一名专业的体育评论员。

订阅电子报

输入您的邮箱,获取一手体育资讯

最新文章

  • 如何写好故事的开篇 2026年5月18日 / 2 条评论
  • 深度解析:足球战术的演变 2026年5月15日 / 1 条评论
  • 篮球巨星的成长之路 2026年5月16日 / 3 条评论

关注我们

关注澳客体育官方账号,获取最新赛事资讯和精彩内容。

热门标签

  • 赛事
  • 深度解析
  • 体育
  • 球队
  • 博客
  • 技巧
致力於為全球體育愛好者提供最全面、最及時、最專業的賽事資訊與深度內容。电话:+86 158 7702 9958邮箱:[email protected]微信:okoo_175