亚洲精品乱码久久久久久黑人 _欧美日韩国产大片_亚洲色图在线播放_国产精品色哟哟_www.欧美.com_麻豆精品一二三_国产一区二区0_欧美精品在线视频_色哟哟欧美精品_91丝袜呻吟高潮美腿白嫩在线观看_日韩午夜在线观看_午夜精品视频在线观看_欧美日韩精品一区二区三区_国产一区二区三区综合_欧美一区中文字幕_福利91精品一区二区三区

7個AI玩狼人殺 GPT-5獲斷崖式MVP Kimi手段激進

2025-09-03 00:00:48 分類：新聞統計中...

一群AI玩狼人殺，GPT-5斷崖式領先，勝率達到了驚人的96.7%。

OpenAI的總裁格雷格·布羅克曼轉發了這樣的一個基準測試：讓7個強大的LLMs，包括開源和閉源，玩了210場完整的狼人殺。

GPT-5表現非常出色，是目前當之無愧的MVP。

國產模型中Qwen3和Kimi-K2分別位列第4和第6。

官方博客分享了一些有趣的分析，包括這些模型在狼人殺游戲中表現出的性格特質。

比如Kimi-K2居然學會了“悍跳”：在作為狼人且犯了明顯錯誤的情況下，選擇公開聲稱自己是女巫，并成功扭轉了局面。

可以說是很大膽激進了。

讓AI玩狼人殺

先簡單介紹一下游戲規則，狼人殺是一種社交推理游戲，游戲分為交替進行的夜晚和白天階段。

在該基準的設置中，游戲僅有6名玩家：2名狼人和4名村民，包括預言家和女巫。

夜晚時狼人選擇目標，而女巫和預言家行動；白天時桌上的玩家進行討論和投票，淘汰被認為是“狼人”的選手。村民獲勝的條件是淘汰所有狼人，而狼人的獲勝條件是取得數量優勢。

狼人基準設置的官方是這樣介紹這款基準的：

當前的基準測試告訴我們模型能否解決方程式或調試代碼，但它們不能告訴我們模型在交叉詢問下是否會崩潰，在壓力下是否會拋棄盟友，或者操縱房間做出錯誤決策。

當我們把 AI 代理部署到人類團隊中時，這些行為模式與數學和代碼分數同樣重要。

狼人殺游戲迫使模型處理信任、欺騙和社會動態，這些技能是它們作為自主代理時所需要的。

在這場測試中，每對模型進行10場比賽：其中5場由一個模型控制狼玩家，另一個模型運行村民；另外5場角色互換。

這種設置能夠看到兩個維度：當模型是狼人時，它操縱其他玩家；當它是村民時，它抵抗被操縱。

7個模型兩兩對決時，GPT-5完全沒有敗績。

測試方通過獨立的Elo評分系統和三項互補指標進行量化：村民陣營因誤除己方預言家或女巫而造成的自損程度、識別協同作戰狼人的速度，以及狼人陣營在多日游戲中維持對村莊控制的有效性。

在整個群體中，GPT-5獨占鰲頭。其他模型則形成了一個第二梯隊，根據角色不同展現出不同的優勢。這就是運行角色條件Elo的目的：它將操縱者（狼人）與抗操縱者（村民）區分開來。

作為狼，最強的模型不僅追求單一的錯判，而是在數天內積累勢頭，將夜間選擇與公開故事保持一致，控制壓力節奏，并在新指控出現時保持備選方案。

GPT-5憑借嚴格的數日控制主導，始終占據頂端；而Kimi-K2和Gemini 2.5 Pro展現出高影響力但波動性大的風格，能夠迫使房間或扭轉敘事，但常因失誤或過度而暴露。

其余模型則相對落后：GPT-5-mini、2.5 Flash和Qwen3可以影響投票，但很少能將欺騙持續到第二天，而GPT-OSS保持透明且容易被擊退。

在作為村民防守時，任務則會反轉：過濾掉沒有偏執的指控，懲罰矛盾之處，并避免隧道式的錯誤排除。

好村民會維護信息秩序：他們讓討論錨定在公共事實上，提出有針對性的問題，并在公開場合更新信念，這樣，狼的“故事”就難以誤導他們。

在抵抗誤導的表現上，GPT-5再次確立了標桿水準。其結構化的平局裁決規則與實時公開更新的機制，使得長期誤導行為難以得逞。

Gemini 2.5 Pro擅長防御，并能堅決拒絕誘餌陷阱。

Qwen3不總是主導局勢，但能始終保持立場穩定性，能夠有效規避災難性誤判。

Kimi-K2抗壓穩定性不足：能憑借勢頭扭轉投票，但在局勢精確時容易波動。

GPT-5-mini與Flash的表現勉勉強強，在持續敘事壓力下容易被誤導。

而GPT-OSS的表現簡直一敗涂地，被耍得團團轉。

測試方還透露，在早期測試中，他們實際驗證的模型數量超過上述7個，發現能力提升并非線性漸進，而是存在行為模式的躍遷，弱模型和強模型差異極大：

弱模型表現混亂：玩家各自為政，狼人選擇明顯目標；強模型則展現紀律性：規范投票，制定夜間刀人計劃，分配角色任務，甚至策略性地犧牲狼隊友。

此外，推理模型≠優秀表現。

經過推理優化的模型大多表現卓越，但技術標簽并不能保證實際能力。在更廣泛的測試中，o3展現出卓越的高紀律性玩法，而o4-mini則表現脆弱：雖擅長局部辯論，但容易陷入固定套路、適應能力差，且經常因投票時機不當而自我暴露。

不過，網友們更關心的是那些未參賽選手的表現——比如Grok和Claude——希望有更多的模型加入測試。

測試方表示目前正在聯系了，或許可以期待一下。

模型表現出不同的性格

有趣的是，在這場測試中，每個模型都表現出了不同的風格。

舉幾個風格明顯的例子：

GPT-5 → 冷靜沉穩的架構師，為游戲建立秩序，主導每次辯論并讓全場遵循其節奏，展現出絕對的權威與控制力；GPT-oss → 猶豫防御型，受壓時常退縮，呈現出畏怯特征；Kimi-K2 → 大膽激進的高風險賭徒，快速積累勢頭，擅長迫使對手過早表態，但后期表現波動極大。

尤其是Kimi-K2，表現出了令人矚目的創造力和冒險行為。

在作為狼人且犯了明顯錯誤的情況下，毅然“悍跳”，公開聲稱自己是女巫，并成功扭轉了局面。

即使由于一開始的失誤（泄露了關鍵信息），這一局游戲最終沒能讓它獲勝，但依然表現出了極高的游戲水平。

測試方表示，這個基準真正重要的其實是幫助人們理解LLMs在社會系統中的行為方式：它們的個性、影響模式以及在壓力下的群體動態。

通過繪制這些行為特征，就可以組裝具有特定個性組合的智能體群體：一些懷疑論者、說服者，或者分析者。

這為模擬復雜的社會互動打開了大門。

長遠來看，狼人基準的目標是實現人工智能驅動的市場研究——通過精心篩選的模型人格進行動態模擬，預測現實世界中的用戶反應，從而優化成本高昂、效率低下的人類焦點小組。

這個目標還很遙遠，目前他們正因昂貴的算力成本尋找合作中。

他們愿意分享詳細的日志、案例分析和按角色的行為洞察，以幫助合作方了解模型在社交環境中的表現。

GPT5的進步比想象中更大

在這次狼人殺基準測試中，GPT-5的表現可以說是非常出色了。

在其它基準測試中，它的表現也沒有讓人失望。

Epoch AI發布的一份新報告證實：GPT-5在主要基準測試中，相比GPT-4實現了巨大的性能提升。

數據顯示，相比起GPT-4，GPT-5在Mock AIME上實現了 80%的飛躍，在Level 5 MATH上得分高達98%（GPT-4得分僅23%），提升了75%。

這個報告引發了網友的一系列討論，認為這是一個重大的進步。

在發布時，GPT-4被廣泛視為相較于GPT-3的一次重大飛躍，展示了擴大訓練計算規模的高回報。

而用戶對GPT-5的接受度則更為復雜，覺得它似乎沒有像GPT-4那樣取得顯著的進步，這可能與模型的開發方式有關：GPT-5專注于強化學習，而不是提升預訓練的規模。

報告顯示，GPT-5在一些顯著的性能基準測試中表現遠超GPT-4，類似于GPT-4在其時代被廣泛引用的基準測試中超越GPT-3的情況——

雖然這些改進不能直接比較，但它們確實表明GPT-5和GPT-4 都是相較于上一代的重大進步。

也有網友認為，數字上的提升并不能代表什么，重要的還是體驗感。

不過體驗感這東西就見仁見智了。

Epoch AI提出，這種體驗上的差異可能和產品發布的頻率有關。

鄭重聲明：本文版權歸原作者所有，轉載文章僅為傳播更多信息之目的，如作者信息標記有誤，請第一時間聯系我們修改或刪除，多謝。

標簽：

相關文章閱讀

余華英的三個子女現狀余華英的四個女兒在法庭上
什么是抑郁癥軀體化_什么是抑郁癥軀體化
大連60歲老人免費坐公交嗎_大連60歲憑老年證可以免費乘車嗎
緬北地下奶廠是真的嗎_緬北牛奶工廠是真的嗎

亚洲精品乱码久久久久久黑人 _欧美日韩国产大片_亚洲色图在线播放_国产精品色哟哟_www.欧美.com_麻豆精品一二三_国产一区二区0_欧美精品在线视频_色哟哟欧美精品_91丝袜呻吟高潮美腿白嫩在线观看_日韩午夜在线观看_午夜精品视频在线观看_欧美日韩精品一区二区三区_国产一区二区三区综合_欧美一区中文字幕_福利91精品一区二区三区

精品视频一区二区三区免费| 日本不卡高清视频一区| 日本午夜精品视频在线观看| 亚洲国产美女搞黄色| 五月激情综合网| 久久精品国产亚洲a| 国产成a人亚洲精品| 99三级在线| 美日韩免费视频| 亚洲午夜精品久久久久久浪潮| 欧美性受xxxx黑人xyx性爽| 宅男噜噜噜66一区二区66| 26uuu国产日韩综合| 亚洲特黄一级片| 日本不卡在线视频| 豆国产96在线|亚洲| 福利视频久久| 一区二区视频在线免费| 日韩免费在线观看| 亚洲视频你懂的| 另类欧美日韩国产在线| av亚洲精华国产精华精| 欧美日韩精品免费观看视一区二区 | 亚洲三级小视频| 日韩精品午夜视频| 成人一级片在线观看| 精品无码久久久久国产| 欧美综合亚洲图片综合区| 日韩欧美你懂的| 一区二区三区免费| 精品一区二区成人精品| 国产高清在线一区二区| 色综合天天综合网国产成人综合天| 日韩亚洲欧美高清| 亚洲同性同志一二三专区| 国产综合色视频| 久久草.com| 欧美一区二区三区的| 亚洲精选视频在线| 成人教育av在线| 亚洲蜜桃av| 久久午夜国产精品| 视频一区二区欧美| 91精品婷婷国产综合久久蝌蚪| 亚洲欧美影院| 欧美激情资源网| 久久国产精品72免费观看| 精品国产一区二区三区麻豆小说 | 亚洲欧美国产77777| 狠狠色综合播放一区二区| 国产高清在线一区| 欧美男生操女生| 亚洲欧美日韩中文播放| 丁香婷婷深情五月亚洲| 一区二区三区国| 国产精品国产精品国产专区不蜜| 国产一区二区不卡| 一区二区精品国产| 成人欧美一区二区三区1314| 国产成人久久精品77777最新版本国产成人鲁色资源国产91色综 | 久久精品国产秦先生| 另类小说综合网| www国产亚洲精品久久麻豆| 久久精品二区亚洲w码| 麻豆视频成人| 国产清纯白嫩初高生在线观看91| 激情综合五月天| 色婷婷综合久久久久中文 | 成人av午夜影院| 色久综合一二码| 亚洲欧美另类久久久精品| 91视频在线看| 日韩欧美一二区| 捆绑变态av一区二区三区| 日韩精品欧美专区| 国产精品第五页| 91蜜桃网址入口| 日韩一级二级三级| 狠狠色丁香久久婷婷综| 中文字幕剧情在线观看一区| 亚洲乱码国产乱码精品精98午夜| 翡翠波斯猫1977年美国| 久久精品一区蜜桃臀影院| www.久久精品| 26uuu亚洲综合色欧美| 国产一区不卡在线| 欧美日产在线观看| 毛片不卡一区二区| 在线视频国内自拍亚洲视频| 日韩主播视频在线| 一区二区视频在线播放| 午夜精品福利一区二区三区av| 亚洲v欧美v另类v综合v日韩v| 亚洲一卡二卡三卡四卡无卡久久| 欧美三级电影在线播放| 亚洲色大成网站www久久九九| 久久草视频在线看| 亚洲欧美日韩中文播放| 欧美资源一区| 午夜精品免费在线| 色婷婷综合久色| 久久精品久久久精品美女| 欧美色网站导航| 久久香蕉国产线看观看99| 国产欧美日韩三级| 91一区二区在线观看| 国产欧美一区二区三区在线老狼| 91在线观看网站| 亚洲天堂免费在线观看视频| 茄子视频成人在线观看| 天天色图综合网| 欧美精品99久久久**| 丰满白嫩尤物一区二区| 久久久99久久| 免费日韩电影在线观看| 午夜精品一区二区三区免费视频| 91国产精品成人| 菠萝蜜视频在线观看一区| 亚洲国产精品99久久久久久久久| 精品在线一区| 亚洲国产综合色| 欧美视频日韩视频| 成人黄色大片在线观看| 中文一区二区完整视频在线观看| 欧美日韩一区二区三区在线观看免| 婷婷成人综合网| 日韩欧美三级在线| 国产视频99| 男男gaygay亚洲| 欧美不卡在线视频| 国内精品一区二区| 香港成人在线视频| 91精品国产91久久久久久一区二区| **亚洲第一综合导航网站| 亚洲免费观看高清| 欧美另类高清zo欧美| www.久久久| 日本亚洲视频在线| 欧美mv日韩mv亚洲| 鲁丝片一区二区三区| 另类人妖一区二区av| 国产偷国产偷精品高清尤物| 亚洲国产精品一区二区第四页av| 国产一区二区三区免费观看| 国产精品少妇自拍| 欧美亚洲免费在线一区| 91视频.com| 日韩成人精品在线| 久久婷婷成人综合色| 先锋影音日韩| av亚洲精华国产精华精华| 夜夜嗨av一区二区三区网页| 91精品国产综合久久福利| 久久国产欧美精品| 成人永久免费视频| 亚洲大片在线观看| 亚洲精品一线二线三线| 亚洲精品第一区二区三区| 白白色亚洲乱淫| 青青草一区二区三区| 久久久亚洲国产美女国产盗摄| 一级特黄录像免费播放全99| 91日韩在线专区| 久久99精品久久只有精品| 中文字幕一区视频| 欧美一级欧美一级在线播放| 三区精品视频| 91精品国产一区二区三区动漫 | 国产精品三级久久久久三级| 欧美巨大另类极品videosbest| 中文字幕一区二区在线播放| 日本韩国一区二区三区| 国产一区二区三区无遮挡| 国内一区二区视频| 亚洲欧美激情小说另类| 精品日韩一区二区| 欧美综合视频在线观看| 欧美在线一区二区三区四区| 99电影在线观看| 国产91高潮流白浆在线麻豆 | 国产精品三级久久久久三级| 7878成人国产在线观看| 亚洲一区二区不卡视频| 九9re精品视频在线观看re6| 99视频一区二区| 国产成人免费视频| 久久国产尿小便嘘嘘尿| 亚洲一区二区三区在线播放| 国产精品私人影院| 精品国产91九色蝌蚪| 欧美精品日韩一区| 欧美性受xxxx黑人xyx性爽| 日韩亚洲视频| 欧美精品国产精品久久久| 国产麻豆日韩| 懂色一区二区三区av片| 91免费国产在线观看| www.日本不卡| 成人爱爱电影网址| 成人少妇影院yyyy|