一群AI玩狼人殺,GPT-5斷崖式領(lǐng)先,勝率達(dá)到了驚人的96.7%。
OpenAI的總裁格雷格·布羅克曼轉(zhuǎn)發(fā)了這樣的一個(gè)基準(zhǔn)測(cè)試:讓7個(gè)強(qiáng)大的LLMs,包括開(kāi)源和閉源,玩了210場(chǎng)完整的狼人殺。

GPT-5表現(xiàn)非常出色,是目前當(dāng)之無(wú)愧的MVP。
國(guó)產(chǎn)模型中Qwen3和Kimi-K2分別位列第4和第6。

官方博客分享了一些有趣的分析,包括這些模型在狼人殺游戲中表現(xiàn)出的性格特質(zhì)。
比如Kimi-K2居然學(xué)會(huì)了“悍跳”:在作為狼人且犯了明顯錯(cuò)誤的情況下,選擇公開(kāi)聲稱自己是女巫,并成功扭轉(zhuǎn)了局面。
可以說(shuō)是很大膽激進(jìn)了。
讓AI玩狼人殺
先簡(jiǎn)單介紹一下游戲規(guī)則,狼人殺是一種社交推理游戲,游戲分為交替進(jìn)行的夜晚和白天階段。
在該基準(zhǔn)的設(shè)置中,游戲僅有6名玩家:2名狼人和4名村民,包括預(yù)言家和女巫。
夜晚時(shí)狼人選擇目標(biāo),而女巫和預(yù)言家行動(dòng);白天時(shí)桌上的玩家進(jìn)行討論和投票,淘汰被認(rèn)為是“狼人”的選手。村民獲勝的條件是淘汰所有狼人,而狼人的獲勝條件是取得數(shù)量?jī)?yōu)勢(shì)。

狼人基準(zhǔn)設(shè)置的官方是這樣介紹這款基準(zhǔn)的:
當(dāng)前的基準(zhǔn)測(cè)試告訴我們模型能否解決方程式或調(diào)試代碼,但它們不能告訴我們模型在交叉詢問(wèn)下是否會(huì)崩潰,在壓力下是否會(huì)拋棄盟友,或者操縱房間做出錯(cuò)誤決策。
當(dāng)我們把 AI 代理部署到人類團(tuán)隊(duì)中時(shí),這些行為模式與數(shù)學(xué)和代碼分?jǐn)?shù)同樣重要。
狼人殺游戲迫使模型處理信任、欺騙和社會(huì)動(dòng)態(tài),這些技能是它們作為自主代理時(shí)所需要的。
在這場(chǎng)測(cè)試中,每對(duì)模型進(jìn)行10場(chǎng)比賽:其中5場(chǎng)由一個(gè)模型控制狼玩家,另一個(gè)模型運(yùn)行村民;另外5場(chǎng)角色互換。
這種設(shè)置能夠看到兩個(gè)維度:當(dāng)模型是狼人時(shí),它操縱其他玩家;當(dāng)它是村民時(shí),它抵抗被操縱。
7個(gè)模型兩兩對(duì)決時(shí),GPT-5完全沒(méi)有敗績(jī)。

測(cè)試方通過(guò)獨(dú)立的Elo評(píng)分系統(tǒng)和三項(xiàng)互補(bǔ)指標(biāo)進(jìn)行量化:村民陣營(yíng)因誤除己方預(yù)言家或女巫而造成的自損程度、識(shí)別協(xié)同作戰(zhàn)狼人的速度,以及狼人陣營(yíng)在多日游戲中維持對(duì)村莊控制的有效性。
在整個(gè)群體中,GPT-5獨(dú)占鰲頭。其他模型則形成了一個(gè)第二梯隊(duì),根據(jù)角色不同展現(xiàn)出不同的優(yōu)勢(shì)。這就是運(yùn)行角色條件Elo的目的:它將操縱者(狼人)與抗操縱者(村民)區(qū)分開(kāi)來(lái)。
作為狼,最強(qiáng)的模型不僅追求單一的錯(cuò)判,而是在數(shù)天內(nèi)積累勢(shì)頭,將夜間選擇與公開(kāi)故事保持一致,控制壓力節(jié)奏,并在新指控出現(xiàn)時(shí)保持備選方案。

GPT-5憑借嚴(yán)格的數(shù)日控制主導(dǎo),始終占據(jù)頂端;而Kimi-K2和Gemini 2.5 Pro展現(xiàn)出高影響力但波動(dòng)性大的風(fēng)格,能夠迫使房間或扭轉(zhuǎn)敘事,但常因失誤或過(guò)度而暴露。
其余模型則相對(duì)落后:GPT-5-mini、2.5 Flash和Qwen3可以影響投票,但很少能將欺騙持續(xù)到第二天,而GPT-OSS保持透明且容易被擊退。
在作為村民防守時(shí),任務(wù)則會(huì)反轉(zhuǎn):過(guò)濾掉沒(méi)有偏執(zhí)的指控,懲罰矛盾之處,并避免隧道式的錯(cuò)誤排除。
好村民會(huì)維護(hù)信息秩序:他們讓討論錨定在公共事實(shí)上,提出有針對(duì)性的問(wèn)題,并在公開(kāi)場(chǎng)合更新信念,這樣,狼的“故事”就難以誤導(dǎo)他們。

在抵抗誤導(dǎo)的表現(xiàn)上,GPT-5再次確立了標(biāo)桿水準(zhǔn)。其結(jié)構(gòu)化的平局裁決規(guī)則與實(shí)時(shí)公開(kāi)更新的機(jī)制,使得長(zhǎng)期誤導(dǎo)行為難以得逞。
Gemini 2.5 Pro擅長(zhǎng)防御,并能堅(jiān)決拒絕誘餌陷阱。
Qwen3不總是主導(dǎo)局勢(shì),但能始終保持立場(chǎng)穩(wěn)定性,能夠有效規(guī)避災(zāi)難性誤判。
Kimi-K2抗壓穩(wěn)定性不足:能憑借勢(shì)頭扭轉(zhuǎn)投票,但在局勢(shì)精確時(shí)容易波動(dòng)。
GPT-5-mini與Flash的表現(xiàn)勉勉強(qiáng)強(qiáng),在持續(xù)敘事壓力下容易被誤導(dǎo)。
而GPT-OSS的表現(xiàn)簡(jiǎn)直一敗涂地,被耍得團(tuán)團(tuán)轉(zhuǎn)。

測(cè)試方還透露,在早期測(cè)試中,他們實(shí)際驗(yàn)證的模型數(shù)量超過(guò)上述7個(gè),發(fā)現(xiàn)能力提升并非線性漸進(jìn),而是存在行為模式的躍遷,弱模型和強(qiáng)模型差異極大:
弱模型表現(xiàn)混亂:玩家各自為政,狼人選擇明顯目標(biāo);強(qiáng)模型則展現(xiàn)紀(jì)律性:規(guī)范投票,制定夜間刀人計(jì)劃,分配角色任務(wù),甚至策略性地犧牲狼隊(duì)友。
此外,推理模型≠優(yōu)秀表現(xiàn)。
經(jīng)過(guò)推理優(yōu)化的模型大多表現(xiàn)卓越,但技術(shù)標(biāo)簽并不能保證實(shí)際能力。在更廣泛的測(cè)試中,o3展現(xiàn)出卓越的高紀(jì)律性玩法,而o4-mini則表現(xiàn)脆弱:雖擅長(zhǎng)局部辯論,但容易陷入固定套路、適應(yīng)能力差,且經(jīng)常因投票時(shí)機(jī)不當(dāng)而自我暴露。
不過(guò),網(wǎng)友們更關(guān)心的是那些未參賽選手的表現(xiàn)——比如Grok和Claude——希望有更多的模型加入測(cè)試。


測(cè)試方表示目前正在聯(lián)系了,或許可以期待一下。

模型表現(xiàn)出不同的性格
有趣的是,在這場(chǎng)測(cè)試中,每個(gè)模型都表現(xiàn)出了不同的風(fēng)格。
舉幾個(gè)風(fēng)格明顯的例子:
GPT-5 → 冷靜沉穩(wěn)的架構(gòu)師,為游戲建立秩序,主導(dǎo)每次辯論并讓全場(chǎng)遵循其節(jié)奏,展現(xiàn)出絕對(duì)的權(quán)威與控制力;GPT-oss → 猶豫防御型,受壓時(shí)常退縮,呈現(xiàn)出畏怯特征;Kimi-K2 → 大膽激進(jìn)的高風(fēng)險(xiǎn)賭徒,快速積累勢(shì)頭,擅長(zhǎng)迫使對(duì)手過(guò)早表態(tài),但后期表現(xiàn)波動(dòng)極大。
尤其是Kimi-K2,表現(xiàn)出了令人矚目的創(chuàng)造力和冒險(xiǎn)行為。
在作為狼人且犯了明顯錯(cuò)誤的情況下,毅然“悍跳”,公開(kāi)聲稱自己是女巫,并成功扭轉(zhuǎn)了局面。

即使由于一開(kāi)始的失誤(泄露了關(guān)鍵信息),這一局游戲最終沒(méi)能讓它獲勝,但依然表現(xiàn)出了極高的游戲水平。

測(cè)試方表示,這個(gè)基準(zhǔn)真正重要的其實(shí)是幫助人們理解LLMs在社會(huì)系統(tǒng)中的行為方式:它們的個(gè)性、影響模式以及在壓力下的群體動(dòng)態(tài)。
通過(guò)繪制這些行為特征,就可以組裝具有特定個(gè)性組合的智能體群體:一些懷疑論者、說(shuō)服者,或者分析者。
這為模擬復(fù)雜的社會(huì)互動(dòng)打開(kāi)了大門。
長(zhǎng)遠(yuǎn)來(lái)看,狼人基準(zhǔn)的目標(biāo)是實(shí)現(xiàn)人工智能驅(qū)動(dòng)的市場(chǎng)研究——通過(guò)精心篩選的模型人格進(jìn)行動(dòng)態(tài)模擬,預(yù)測(cè)現(xiàn)實(shí)世界中的用戶反應(yīng),從而優(yōu)化成本高昂、效率低下的人類焦點(diǎn)小組。
這個(gè)目標(biāo)還很遙遠(yuǎn),目前他們正因昂貴的算力成本尋找合作中。
他們?cè)敢夥窒碓敿?xì)的日志、案例分析和按角色的行為洞察,以幫助合作方了解模型在社交環(huán)境中的表現(xiàn)。

GPT5的進(jìn)步比想象中更大
在這次狼人殺基準(zhǔn)測(cè)試中,GPT-5的表現(xiàn)可以說(shuō)是非常出色了。
在其它基準(zhǔn)測(cè)試中,它的表現(xiàn)也沒(méi)有讓人失望。
Epoch AI發(fā)布的一份新報(bào)告證實(shí):GPT-5在主要基準(zhǔn)測(cè)試中,相比GPT-4實(shí)現(xiàn)了巨大的性能提升。

數(shù)據(jù)顯示,相比起GPT-4,GPT-5在Mock AIME上實(shí)現(xiàn)了 80%的飛躍,在Level 5 MATH上得分高達(dá)98%(GPT-4得分僅23%),提升了75%。
這個(gè)報(bào)告引發(fā)了網(wǎng)友的一系列討論,認(rèn)為這是一個(gè)重大的進(jìn)步。


在發(fā)布時(shí),GPT-4被廣泛視為相較于GPT-3的一次重大飛躍,展示了擴(kuò)大訓(xùn)練計(jì)算規(guī)模的高回報(bào)。
而用戶對(duì)GPT-5的接受度則更為復(fù)雜,覺(jué)得它似乎沒(méi)有像GPT-4那樣取得顯著的進(jìn)步,這可能與模型的開(kāi)發(fā)方式有關(guān):GPT-5專注于強(qiáng)化學(xué)習(xí),而不是提升預(yù)訓(xùn)練的規(guī)模。

報(bào)告顯示,GPT-5在一些顯著的性能基準(zhǔn)測(cè)試中表現(xiàn)遠(yuǎn)超GPT-4,類似于GPT-4在其時(shí)代被廣泛引用的基準(zhǔn)測(cè)試中超越GPT-3的情況——
雖然這些改進(jìn)不能直接比較,但它們確實(shí)表明GPT-5和GPT-4 都是相較于上一代的重大進(jìn)步。
也有網(wǎng)友認(rèn)為,數(shù)字上的提升并不能代表什么,重要的還是體驗(yàn)感。


不過(guò)體驗(yàn)感這東西就見(jiàn)仁見(jiàn)智了。
Epoch AI提出,這種體驗(yàn)上的差異可能和產(chǎn)品發(fā)布的頻率有關(guān)。


鄭重聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)載文章僅為傳播更多信息之目的,如作者信息標(biāo)記有誤,請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除,多謝。



