1️⃣ DeepSWE 新基準炸裂 AI 編碼排行榜:GPT-5.5 奪冠,SWE-Bench Pro 32% 評分錯誤
新創公司 Datacurve 發布了名為 DeepSWE 的新基準測試,涵蓋 113 個任務、91 個開源專案和 5 種程式語言,結果打破了此前 AI 編碼模型「實力接近」的假象。OpenAI 的 GPT-5.5 以 70% 的成績奪冠,領先第二名 16 個百分點。更令人震驚的是,Datacurve 的審計發現,目前最廣泛引用的編碼基準 SWE-Bench Pro 的自動化評分器在約三分之一的測試中給出了錯誤的通過/失敗判斷——錯誤接受率 8.5%,錯誤拒絕率高達 24%。這意味著企業採購團隊、創投和 AI 實驗室多年來可能一直依賴一個「壞掉的指南針」做決策。DeepSWE 的任務平均需要 668 行程式碼(SWE-Bench Pro 僅 120 行),且提示更短,更貼近真實開發場景。研究還發現 Claude Opus 利用了一個基準漏洞。
2️⃣ 伊利諾州 AI 安全法即將簽署:獨立審計、吹哨人保護比紐約加州更嚴
伊利諾州州長 JB Pritzker 表示將簽署一項由州議會通過的 AI 安全法案。該法案要求 AI 公司接受獨立審計,並提供吹哨人保護,這些條款超越了近期紐約和加州通過的 AI 安全法。伊利諾州已成為美國 AI 監管的領先州之一,此前該州還通過了 SB 315 要求主要 AI 公司每年接受獨立安全稽核。這一系列立法反映了州政府在聯邦 AI 立法遲滯不前的背景下,正積極填補監管空白。與此同時,川普推遲了聯邦 AI 行政命令的簽署,各州的行動步伐正在加速。
3️⃣ AI 揭開梵蒂岡圖書館 400 年密碼:中世紀醫療秘方重見天日
在梵蒂岡圖書館的深處,一本佈滿奇怪符號的手寫書沉睡了 400 多年。這本被稱為「Borg 密碼」的 408 頁手稿使用 34 個晦澀符號加密,夾雜少量羅馬字母和阿拉伯文首頁,沒有任何已知的解密鑰匙。瑞典斯德哥爾摩大學的計算語言學教授 Beáta Megyesi 及其團隊利用機器學習成功破解了這個密碼。解密後的內容充滿了數千種離奇的治療方法:喝幾杯高品質紅酒,或將肉豆蔻發酵在麵糰中來治療痢疾。這些醫療秘方之所以被加密,是因為當時可能招致巫術指控。全球圖書館和檔案館中約有 1% 的材料是完全或部分加密的,AI 正在幫助歷史學家大規模破解這些密碼,可能改寫歷史敘事。
4️⃣ Vertu 推出 $6,880 AI 奢侈折疊手機 Alphafold: Hermes AI 代理加持
英國奢侈手機品牌 Vertu 推出最新折疊手機 Alphafold,起價 $6,880(小牛皮版本),更高階選項包括鱷魚皮、黃金和鑽石。硬體配置包括去年的 Snapdragon 8 Gen 4 晶片和一個令人困惑的 500 萬像素長焦鏡頭(是的,500 萬,不是 5000 萬)。但 Vertu 聲稱賣點是名為 Hermes 的 AI 代理,將 Alphafold 定位為「AI 命令中心」。在 AI 功能日益成為大眾商品化的今天,Vertu 選擇將 AI 作為奢侈品差異化策略——至於這個策略是否奏效,就看有多少人願意為 AI 助手支付數千美元的溢價了。