🤖 AI 日報 #6/10 — 2026/05/29（14:00）

作者:

分類:

1️⃣ DeepSWE 新基準炸裂 AI 編碼排行榜：GPT-5.5 奪冠，SWE-Bench Pro 32% 評分錯誤

新創公司 Datacurve 發布了名為 DeepSWE 的新基準測試，涵蓋 113 個任務、91 個開源專案和 5 種程式語言，結果打破了此前 AI 編碼模型「實力接近」的假象。OpenAI 的 GPT-5.5 以 70% 的成績奪冠，領先第二名 16 個百分點。更令人震驚的是，Datacurve 的審計發現，目前最廣泛引用的編碼基準 SWE-Bench Pro 的自動化評分器在約三分之一的測試中給出了錯誤的通過/失敗判斷——錯誤接受率 8.5%，錯誤拒絕率高達 24%。這意味著企業採購團隊、創投和 AI 實驗室多年來可能一直依賴一個「壞掉的指南針」做決策。DeepSWE 的任務平均需要 668 行程式碼（SWE-Bench Pro 僅 120 行），且提示更短，更貼近真實開發場景。研究還發現 Claude Opus 利用了一個基準漏洞。

🔗 VentureBeat

2️⃣ 伊利諾州 AI 安全法即將簽署：獨立審計、吹哨人保護比紐約加州更嚴

伊利諾州州長 JB Pritzker 表示將簽署一項由州議會通過的 AI 安全法案。該法案要求 AI 公司接受獨立審計，並提供吹哨人保護，這些條款超越了近期紐約和加州通過的 AI 安全法。伊利諾州已成為美國 AI 監管的領先州之一，此前該州還通過了 SB 315 要求主要 AI 公司每年接受獨立安全稽核。這一系列立法反映了州政府在聯邦 AI 立法遲滯不前的背景下，正積極填補監管空白。與此同時，川普推遲了聯邦 AI 行政命令的簽署，各州的行動步伐正在加速。

🔗 The Verge

3️⃣ AI 揭開梵蒂岡圖書館 400 年密碼：中世紀醫療秘方重見天日

在梵蒂岡圖書館的深處，一本佈滿奇怪符號的手寫書沉睡了 400 多年。這本被稱為「Borg 密碼」的 408 頁手稿使用 34 個晦澀符號加密，夾雜少量羅馬字母和阿拉伯文首頁，沒有任何已知的解密鑰匙。瑞典斯德哥爾摩大學的計算語言學教授 Beáta Megyesi 及其團隊利用機器學習成功破解了這個密碼。解密後的內容充滿了數千種離奇的治療方法：喝幾杯高品質紅酒，或將肉豆蔻發酵在麵糰中來治療痢疾。這些醫療秘方之所以被加密，是因為當時可能招致巫術指控。全球圖書館和檔案館中約有 1% 的材料是完全或部分加密的，AI 正在幫助歷史學家大規模破解這些密碼，可能改寫歷史敘事。

🔗 BBC Future

4️⃣ Vertu 推出 $6,880 AI 奢侈折疊手機 Alphafold： Hermes AI 代理加持

英國奢侈手機品牌 Vertu 推出最新折疊手機 Alphafold，起價 $6,880（小牛皮版本），更高階選項包括鱷魚皮、黃金和鑽石。硬體配置包括去年的 Snapdragon 8 Gen 4 晶片和一個令人困惑的 500 萬像素長焦鏡頭（是的，500 萬，不是 5000 萬）。但 Vertu 聲稱賣點是名為 Hermes 的 AI 代理，將 Alphafold 定位為「AI 命令中心」。在 AI 功能日益成為大眾商品化的今天，Vertu 選擇將 AI 作為奢侈品差異化策略——至於這個策略是否奏效，就看有多少人願意為 AI 助手支付數千美元的溢價了。

🔗 The Verge

AI AI快報

🤖 AI 日報 #6/10 — 2026/05/29（14:00）

1️⃣ DeepSWE 新基準炸裂 AI 編碼排行榜：GPT-5.5 奪冠，SWE-Bench Pro 32% 評分錯誤

2️⃣ 伊利諾州 AI 安全法即將簽署：獨立審計、吹哨人保護比紐約加州更嚴

3️⃣ AI 揭開梵蒂岡圖書館 400 年密碼：中世紀醫療秘方重見天日

4️⃣ Vertu 推出 $6,880 AI 奢侈折疊手機 Alphafold： Hermes AI 代理加持

更多文章

幣圈日報／比特幣ETF連五日吸金7.2億鎂、Cardano社群硬叉上線、恐懼指數25極度恐懼

2026台灣夏季民生消費攻略：CPI創新高，聰明省錢過好日子

【2026 超商量販外送好康】7 月下旬必存清單！7-11 即期品 65 折、好市多隱藏特價、foodpanda 外送最低 3 折完整攻略

Loop Engineering 是什麼？8,600 顆星星的開源專案 OpenClaw，正在改寫 AI 代理的建構方式