1️⃣ Weibo VibeThinker-3B:3B 參數模型打平 DeepSeek 671B,AI 社群質疑基準測試是否已崩壞
VentureBeat 報導,中國社群媒體巨頭新浪微博的 9 人研究團隊在 arXiv 發表一篇 14 頁技術報告,聲稱一個僅 30 億參數的語言模型可以在推理性能上匹敵或超越 Google DeepMind、OpenAI、Anthropic 和 DeepSeek 的大數百倍旗艦系統。
這個名為 VibeThinker-3B 的模型在 AIME 2026(美國數學邀請賽)上得分 94.3,與 DeepSeek V3.2(6710 億參數)並列,超越 Gemini 3 Pro(91.7)。使用團隊稱為 Claim-Level Reliability Assessment 的測試時縮放技術後,分數更高達 97.1。
參數差距有多懸殊:DeepSeek V3.2 有 6710 億參數——約為 VibeThinker-3B 的 224 倍。GLM-5 有 7440 億。Kimi K2.5 和 GPT-5.5 更大。
但反應並非一片讚揚。在 X 上,用戶 @orcus108 寫道:「3B 參數模型剛在編碼基準測試中拿出了和 Claude Opus 4.5 同一級別的分數……我真的不知道這是突破還是基準測試已經壞了。」該貼文累積超過 16.1 萬次瀏覽。
這種張力——真正的科學進步與對 AI 基準測試日益可被操縱到失去意義的懷疑——正是 VibeThinker-3B 故事的核心。而答案事關重大:AI 產業不斷推向更大模型的路線是否是通往智慧的唯一道路。
🔗 VentureBeat 深度報導 · arXiv 論文 · GitHub
2️⃣ Arbor AI 框架:同一運算預算下效能超越 Claude Code 和 Codex 2.5 倍
VentureBeat 報導,中國人民大學與 Microsoft Research 的研究人員推出了 Arbor,一個將 AI 驅動的研究與優化從「試錯猜測」升級為「累積學習」的框架。Arbor 將假設、實驗和見解組織成樹狀結構,讓系統從先前的失敗中學習。
核心問題:標準 AI 編碼代理(如 Claude Code、Codex)在長時間運行時,會把每次嘗試視為獨立事件,缺乏結構化記憶來累積經驗。「自動化可以讓 AI 工作很長時間——但循環不等於進步,」論文共同作者 Jiajie Jin 告訴 VentureBeat。「如果目標模糊,或指標容易被 hack,長時間運行的自動化通常只是更快地產生沒人真正想要的『改善』。」
在實測中,Arbor 在真實工程任務上,同一資源預算下提供了超過標準 AI 編碼代理 2.5 倍的可驗證性能提升。
3️⃣ 英國 Dorset 議會測試 AI 代理加速建築許可,目標全國推廣
BBC 報導,英國 Dorset 議會正在試用 AI 代理協助處理建築許可申請積壓。由政府委託 AI 專家公司 Faculty 開發的工具,能自動審查文件、整理關鍵資訊,並為許可官員提供初步評估建議。
Dorset 是三個試點議會之一(另兩個為 Barnet 和 Camden)。系統針對約佔 85% 的「小型申請」(如閣樓改造、加建臥室)進行分流和摘要。Faculty 公共服務總監 Paul Maltby 表示:「規劃系統堵塞了,它拖慢了想改善住宅的人,也阻礙了經濟增長。」
政府目標是將平均處理時間從 8 週減半至 4 週,如成功將於 2027 年前全國推廣。住房與規劃部長 Matthew Pennycook 表示:「我們正在將系統拖入 21 世紀。」
議會強調 AI 不會做出最終決策——「規劃決策將繼續由合格的規劃官員和由民選議員組成的規劃委員會掌握。」