国产精品91久久久久久久久,中午字幕人成乱码在线观看,永久免费福利在线视频

一群AI玩狼人殺，GPT-5斷崖式領(lǐng)先，勝率達(dá)到了驚人的96.7%。

OpenAI的總裁格雷格·布羅克曼轉(zhuǎn)發(fā)了這樣的一個(gè)基準(zhǔn)測(cè)試：讓7個(gè)強(qiáng)大的LLMs，包括開(kāi)源和閉源，玩了210場(chǎng)完整的狼人殺。

GPT-5表現(xiàn)非常出色，是目前當(dāng)之無(wú)愧的MVP。

國(guó)產(chǎn)模型中Qwen3和Kimi-K2分別位列第4和第6。

官方博客分享了一些有趣的分析，包括這些模型在狼人殺游戲中表現(xiàn)出的性格特質(zhì)。

比如Kimi-K2居然學(xué)會(huì)了“悍跳”：在作為狼人且犯了明顯錯(cuò)誤的情況下，選擇公開(kāi)聲稱自己是女巫，并成功扭轉(zhuǎn)了局面。

可以說(shuō)是很大膽激進(jìn)了。

讓AI玩狼人殺

先簡(jiǎn)單介紹一下游戲規(guī)則，狼人殺是一種社交推理游戲，游戲分為交替進(jìn)行的夜晚和白天階段。

在該基準(zhǔn)的設(shè)置中，游戲僅有6名玩家：2名狼人和4名村民，包括預(yù)言家和女巫。

夜晚時(shí)狼人選擇目標(biāo)，而女巫和預(yù)言家行動(dòng)；白天時(shí)桌上的玩家進(jìn)行討論和投票，淘汰被認(rèn)為是“狼人”的選手。村民獲勝的條件是淘汰所有狼人，而狼人的獲勝條件是取得數(shù)量?jī)?yōu)勢(shì)。

狼人基準(zhǔn)設(shè)置的官方是這樣介紹這款基準(zhǔn)的：

當(dāng)前的基準(zhǔn)測(cè)試告訴我們模型能否解決方程式或調(diào)試代碼，但它們不能告訴我們模型在交叉詢問(wèn)下是否會(huì)崩潰，在壓力下是否會(huì)拋棄盟友，或者操縱房間做出錯(cuò)誤決策。

當(dāng)我們把 AI 代理部署到人類團(tuán)隊(duì)中時(shí)，這些行為模式與數(shù)學(xué)和代碼分?jǐn)?shù)同樣重要。

狼人殺游戲迫使模型處理信任、欺騙和社會(huì)動(dòng)態(tài)，這些技能是它們作為自主代理時(shí)所需要的。

在這場(chǎng)測(cè)試中，每對(duì)模型進(jìn)行10場(chǎng)比賽：其中5場(chǎng)由一個(gè)模型控制狼玩家，另一個(gè)模型運(yùn)行村民；另外5場(chǎng)角色互換。

這種設(shè)置能夠看到兩個(gè)維度：當(dāng)模型是狼人時(shí)，它操縱其他玩家；當(dāng)它是村民時(shí)，它抵抗被操縱。

7個(gè)模型兩兩對(duì)決時(shí)，GPT-5完全沒(méi)有敗績(jī)。

測(cè)試方通過(guò)獨(dú)立的Elo評(píng)分系統(tǒng)和三項(xiàng)互補(bǔ)指標(biāo)進(jìn)行量化：村民陣營(yíng)因誤除己方預(yù)言家或女巫而造成的自損程度、識(shí)別協(xié)同作戰(zhàn)狼人的速度，以及狼人陣營(yíng)在多日游戲中維持對(duì)村莊控制的有效性。

在整個(gè)群體中，GPT-5獨(dú)占鰲頭。其他模型則形成了一個(gè)第二梯隊(duì)，根據(jù)角色不同展現(xiàn)出不同的優(yōu)勢(shì)。這就是運(yùn)行角色條件Elo的目的：它將操縱者（狼人）與抗操縱者（村民）區(qū)分開(kāi)來(lái)。

作為狼，最強(qiáng)的模型不僅追求單一的錯(cuò)判，而是在數(shù)天內(nèi)積累勢(shì)頭，將夜間選擇與公開(kāi)故事保持一致，控制壓力節(jié)奏，并在新指控出現(xiàn)時(shí)保持備選方案。

GPT-5憑借嚴(yán)格的數(shù)日控制主導(dǎo)，始終占據(jù)頂端；而Kimi-K2和Gemini 2.5 Pro展現(xiàn)出高影響力但波動(dòng)性大的風(fēng)格，能夠迫使房間或扭轉(zhuǎn)敘事，但常因失誤或過(guò)度而暴露。

其余模型則相對(duì)落后：GPT-5-mini、2.5 Flash和Qwen3可以影響投票，但很少能將欺騙持續(xù)到第二天，而GPT-OSS保持透明且容易被擊退。

在作為村民防守時(shí)，任務(wù)則會(huì)反轉(zhuǎn)：過(guò)濾掉沒(méi)有偏執(zhí)的指控，懲罰矛盾之處，并避免隧道式的錯(cuò)誤排除。

好村民會(huì)維護(hù)信息秩序：他們讓討論錨定在公共事實(shí)上，提出有針對(duì)性的問(wèn)題，并在公開(kāi)場(chǎng)合更新信念，這樣，狼的“故事”就難以誤導(dǎo)他們。

在抵抗誤導(dǎo)的表現(xiàn)上，GPT-5再次確立了標(biāo)桿水準(zhǔn)。其結(jié)構(gòu)化的平局裁決規(guī)則與實(shí)時(shí)公開(kāi)更新的機(jī)制，使得長(zhǎng)期誤導(dǎo)行為難以得逞。

Gemini 2.5 Pro擅長(zhǎng)防御，并能堅(jiān)決拒絕誘餌陷阱。

Qwen3不總是主導(dǎo)局勢(shì)，但能始終保持立場(chǎng)穩(wěn)定性，能夠有效規(guī)避災(zāi)難性誤判。

Kimi-K2抗壓穩(wěn)定性不足：能憑借勢(shì)頭扭轉(zhuǎn)投票，但在局勢(shì)精確時(shí)容易波動(dòng)。

GPT-5-mini與Flash的表現(xiàn)勉勉強(qiáng)強(qiáng)，在持續(xù)敘事壓力下容易被誤導(dǎo)。

而GPT-OSS的表現(xiàn)簡(jiǎn)直一敗涂地，被耍得團(tuán)團(tuán)轉(zhuǎn)。

測(cè)試方還透露，在早期測(cè)試中，他們實(shí)際驗(yàn)證的模型數(shù)量超過(guò)上述7個(gè)，發(fā)現(xiàn)能力提升并非線性漸進(jìn)，而是存在行為模式的躍遷，弱模型和強(qiáng)模型差異極大：

弱模型表現(xiàn)混亂：玩家各自為政，狼人選擇明顯目標(biāo)；強(qiáng)模型則展現(xiàn)紀(jì)律性：規(guī)范投票，制定夜間刀人計(jì)劃，分配角色任務(wù)，甚至策略性地犧牲狼隊(duì)友。

此外，推理模型≠優(yōu)秀表現(xiàn)。

經(jīng)過(guò)推理優(yōu)化的模型大多表現(xiàn)卓越，但技術(shù)標(biāo)簽并不能保證實(shí)際能力。在更廣泛的測(cè)試中，o3展現(xiàn)出卓越的高紀(jì)律性玩法，而o4-mini則表現(xiàn)脆弱：雖擅長(zhǎng)局部辯論，但容易陷入固定套路、適應(yīng)能力差，且經(jīng)常因投票時(shí)機(jī)不當(dāng)而自我暴露。

不過(guò)，網(wǎng)友們更關(guān)心的是那些未參賽選手的表現(xiàn)——比如Grok和Claude——希望有更多的模型加入測(cè)試。

測(cè)試方表示目前正在聯(lián)系了，或許可以期待一下。

模型表現(xiàn)出不同的性格

有趣的是，在這場(chǎng)測(cè)試中，每個(gè)模型都表現(xiàn)出了不同的風(fēng)格。

舉幾個(gè)風(fēng)格明顯的例子：

GPT-5 → 冷靜沉穩(wěn)的架構(gòu)師，為游戲建立秩序，主導(dǎo)每次辯論并讓全場(chǎng)遵循其節(jié)奏，展現(xiàn)出絕對(duì)的權(quán)威與控制力；GPT-oss → 猶豫防御型，受壓時(shí)常退縮，呈現(xiàn)出畏怯特征；Kimi-K2 → 大膽激進(jìn)的高風(fēng)險(xiǎn)賭徒，快速積累勢(shì)頭，擅長(zhǎng)迫使對(duì)手過(guò)早表態(tài)，但后期表現(xiàn)波動(dòng)極大。

尤其是Kimi-K2，表現(xiàn)出了令人矚目的創(chuàng)造力和冒險(xiǎn)行為。

在作為狼人且犯了明顯錯(cuò)誤的情況下，毅然“悍跳”，公開(kāi)聲稱自己是女巫，并成功扭轉(zhuǎn)了局面。

即使由于一開(kāi)始的失誤（泄露了關(guān)鍵信息），這一局游戲最終沒(méi)能讓它獲勝，但依然表現(xiàn)出了極高的游戲水平。

測(cè)試方表示，這個(gè)基準(zhǔn)真正重要的其實(shí)是幫助人們理解LLMs在社會(huì)系統(tǒng)中的行為方式：它們的個(gè)性、影響模式以及在壓力下的群體動(dòng)態(tài)。

通過(guò)繪制這些行為特征，就可以組裝具有特定個(gè)性組合的智能體群體：一些懷疑論者、說(shuō)服者，或者分析者。

這為模擬復(fù)雜的社會(huì)互動(dòng)打開(kāi)了大門。

長(zhǎng)遠(yuǎn)來(lái)看，狼人基準(zhǔn)的目標(biāo)是實(shí)現(xiàn)人工智能驅(qū)動(dòng)的市場(chǎng)研究——通過(guò)精心篩選的模型人格進(jìn)行動(dòng)態(tài)模擬，預(yù)測(cè)現(xiàn)實(shí)世界中的用戶反應(yīng)，從而優(yōu)化成本高昂、效率低下的人類焦點(diǎn)小組。

這個(gè)目標(biāo)還很遙遠(yuǎn)，目前他們正因昂貴的算力成本尋找合作中。

他們?cè)敢夥窒碓敿?xì)的日志、案例分析和按角色的行為洞察，以幫助合作方了解模型在社交環(huán)境中的表現(xiàn)。

GPT5的進(jìn)步比想象中更大

在這次狼人殺基準(zhǔn)測(cè)試中，GPT-5的表現(xiàn)可以說(shuō)是非常出色了。

在其它基準(zhǔn)測(cè)試中，它的表現(xiàn)也沒(méi)有讓人失望。

Epoch AI發(fā)布的一份新報(bào)告證實(shí)：GPT-5在主要基準(zhǔn)測(cè)試中，相比GPT-4實(shí)現(xiàn)了巨大的性能提升。

數(shù)據(jù)顯示，相比起GPT-4，GPT-5在Mock AIME上實(shí)現(xiàn)了 80%的飛躍，在Level 5 MATH上得分高達(dá)98%（GPT-4得分僅23%），提升了75%。

這個(gè)報(bào)告引發(fā)了網(wǎng)友的一系列討論，認(rèn)為這是一個(gè)重大的進(jìn)步。

在發(fā)布時(shí)，GPT-4被廣泛視為相較于GPT-3的一次重大飛躍，展示了擴(kuò)大訓(xùn)練計(jì)算規(guī)模的高回報(bào)。

而用戶對(duì)GPT-5的接受度則更為復(fù)雜，覺(jué)得它似乎沒(méi)有像GPT-4那樣取得顯著的進(jìn)步，這可能與模型的開(kāi)發(fā)方式有關(guān)：GPT-5專注于強(qiáng)化學(xué)習(xí)，而不是提升預(yù)訓(xùn)練的規(guī)模。

報(bào)告顯示，GPT-5在一些顯著的性能基準(zhǔn)測(cè)試中表現(xiàn)遠(yuǎn)超GPT-4，類似于GPT-4在其時(shí)代被廣泛引用的基準(zhǔn)測(cè)試中超越GPT-3的情況——

雖然這些改進(jìn)不能直接比較，但它們確實(shí)表明GPT-5和GPT-4 都是相較于上一代的重大進(jìn)步。

也有網(wǎng)友認(rèn)為，數(shù)字上的提升并不能代表什么，重要的還是體驗(yàn)感。

不過(guò)體驗(yàn)感這東西就見(jiàn)仁見(jiàn)智了。

Epoch AI提出，這種體驗(yàn)上的差異可能和產(chǎn)品發(fā)布的頻率有關(guān)。

鄭重聲明：本文版權(quán)歸原作者所有，轉(zhuǎn)載文章僅為傳播更多信息之目的，如作者信息標(biāo)記有誤，請(qǐng)第一時(shí)間聯(lián)系我們修改或刪除，多謝。

幣圈網(wǎng)

7個(gè)AI玩狼人殺 GPT-5獲斷崖式MVP Kimi手段激進(jìn)

相關(guān)文章閱讀