分類: 科技

  • 🤖 AI 日報 #7/10 — 2026/05/30(15:00)

    1️⃣ Anthropic 發布 Claude Opus 4.8:Dynamic Workflows 可協調千個 AI 子代理

    41 天前才發布 Opus 4.7,Anthropic 5/28 又推出 Opus 4.8。新功能 Dynamic Workflows 讓 Claude Code 以 JavaScript 腳本編排最多 1,000 個平行子代理,自動完成大型程式庫遷移。Fast Mode 速度提升 2.5x、成本降低 3 倍。Opus 4.8 在代理編程、推理與金融分析等基準測試上超越競品,且更主動標記自身不確定性,發生幻覺的機率大幅降低。

    🔗 來源:Anthropic 官方

    2️⃣ OpenAI 發布前沿模型治理框架,呼應歐美 AI 法規

    OpenAI 5/29 公開《Frontier Governance Framework》,將 Preparedness Framework 轉化為面向監管的公開文件,涵蓋網路攻擊、CBRN 風險、有害操控與模型失控等風險評估,並明確對應加州《AI 透明度法》及 EU AI Act。這是 OpenAI 首次以如此系統化的方式公開其安全治理架構,為企業採用與監管機構審查提供清晰依據。

    🔗 來源:OpenAI 官方

    3️⃣ 中國管控 AI 人才出國:Alibaba、DeepSeek 研究員須申請政府核准

    Bloomberg 5/26 報導,中國當局正式要求 Alibaba、DeepSeek 等私營 AI 企業的核心研究員與高管出國前須取得政府核准,從過去的「建議避免赴美」升級為正式強制規定。此舉目的在防止頂尖 AI 人才流失與技術知識外流。史丹佛 2026 AI 指數顯示中美 AI 性能差距已縮至僅 2.7%,中國對技術主權的掌控意志益發強烈。

    🔗 來源:Bloomberg

    4️⃣ NBA 宣布引入 AI 裁判系統:Hawk-Eye 攝影機接管出界判決

    NBA 主席 Adam Silver 5/28 宣布聯盟將採用類 Hawk-Eye 多攝影機系統,以 AI 自動判定出界與爭球等客觀裁判決定,取代人工裁判在這類情境的介入。此舉由西區準決賽第五場一次關鍵漏判引發。Silver 表示將「相當快速地」落地。NBA 與 Sony Hawk-Eye 的 3D 光學追蹤合作早在 2023-24 賽季即已開展,此次宣布標誌邁向完全 AI 裁判的重要里程碑。

    🔗 來源:Cybernews

  • 🤖 AI 日報 #6/10 — 2026/05/30(14:00)

    1️⃣ DeepSeek V4 永久降價 75%:7x-17x 更便宜,打破矽谷 token 護城河

    DeepSeek 宣布其旗艦模型 V4 Pro 的 75% 降價將成為永久措施,這是對矽谷資本密集型商業模式的颠覆性攻擊。V4 Pro 的輸入成本比 Anthropic Claude Sonnet 或 OpenAI GPT 5.5-Med 低 7 倍,輸出成本低 17 倍。輕量版 V4 Flash 更比 Claude Haiku 便宜 10-25 倍。在中國本土託管時,cache 讀取定價比西方雲端便宜 87 倍。效能方面,V4 Pro 在 SWE-bench Verified 達到 80.6%,MMLU-Pro 達到 87.5,幾乎與西方前沿模型持平。兩款模型均為開放權重,採用 MIT 授權。這場價格戰的連鎖反應已經開始:Uber 四個月就燒光了全年的 Claude Code 和 Cursor 預算,Pinterest 轉向開源 Qwen 模型節省 90% 成本。對 OpenAI 來說風險最大——其收入嚴重依賴通用型 API 流量。

    🔗 VentureBeat

    2️⃣ Merck 用 AI 代理加速藥物研發:發現週期縮短三分之一

    製藥巨頭 Merck(默克)正在使用 AI 代理將藥物發現週期縮短三分之一,並將合規行銷材料的交付速度提升 70-80%。Merck 數位平台副總裁 Sean Finnerty 透露,AI 生成的行銷草稿合規率達到「99% 正確」,審查週期從數月縮短到數天。在醫學研究方面,一個 AI 輔助的發現週期縮短了 33%——相當於節省了一年時間,意味著患者可以提前一年獲得治療。Finnerty 強調,AI 代理成功的關鍵是先建好「基礎設施」(plumbing),Merck 目前支援 2,500 個 AWS 帳戶、多個 Azure 訂閱和 GCP 整合,47 個邊緣位置和數百個資料庫。他警告:「如果我們做一次性的方案,最終會累積數千個技術債。」

    🔗 VentureBeat

    3️⃣ Google Gemini 聊天將可透過 Drive 分享:對話也能協作

    Google 宣佈將從 6 月 3 日起推出新的 Google Workspace 功能,讓用戶可以透過 Google Drive 分享 Gemini 聊天記錄。用戶可以選擇分享 Gemini 對話的快照,接收者可以繼續展開對話,但不會修改原始對話內容。這項功能涵蓋聊天記錄、Canvas 作品和生成的媒體內容。Google 將 AI 對話定位為可共享的協作資產,類似於文件和試算表——這反映了 AI 聊天從個人工具向團隊協作工具的演進趨勢。企業用戶可以分享特定的 AI 分析結果或創意發想過程,讓團隊成員在既有基礎上繼續深入。

    🔗 The Verge

    4️⃣ 新創公司付錢請人提供真實世界資料訓練機器人

    隨著人形機器人和通用機器人的發展加速,AI 公司面臨一個關鍵瓶頸:缺乏高品質的真實世界物理互動資料。與語言模型可以從網路上抓取海量文字不同,機器人需要人類在真實環境中操作、抓取、移動物體的資料。越來越多的新創公司開始付費招募人員提供這類資料——穿戴感測器操作物體、遠端操控機器人完成任務、或在家中記錄日常生活動作。這標誌著 AI 訓練資料採集從「網路抓取」轉向「實體採集」的新階段,也意味著機器人 AI 的進步速度將取決於人類願意提供多少真實世界示範資料。

    🔗 The Verge

  • 🤖 AI 日報 #5/10 — 2026/05/30(13:00)

    1️⃣ AutoTTS:Meta/Google 研究人員自動化 LLM 推理策略,token 消耗降低 69.5%

    Meta、Google 與多所大學的研究者發布 AutoTTS 框架,將「測試時間縮放」(test-time scaling)策略設計從人工手動轉為自動化搜尋。AutoTTS 由 Claude Code 擔任探索代理,反覆提出推理控制器並測試優化。

    在維持相同準確率下,token 消耗降低約 69.5%;在 GPQA-Diamond 基準上,推論成本從 51 萬 token 降至 15.1 萬。發現的最優控制器「Confidence Momentum Controller」採用趨勢追蹤停止、耦合寬深度控制等非直觀策略,是人類工程師幾乎不可能手動設計的方案。

    🔗 來源:VentureBeat

    2️⃣ Book of Life 導演退出 Amazon AI 動畫計畫,AI 創作引發藝術界強烈反彈

    《Manolo 的奇幻冒險》導演 Jorge Gutierrez 在網路強烈抵制後宣布退出 Amazon GenAI Creators Fund 的 AI 動畫影集《Punky Duck》。Gutierrez 原本期望藉新技術展現新舊藝術家,但收到大量批評甚至死亡威脅後公開道歉並退出。

    此事件再次凸顯 AI 生成內容在影視動畫產業引發的倫理爭議,也顯示 AI 創作工具在藝術家社群中仍面臨巨大阻力。

    🔗 來源:The Verge

    3️⃣ Amazon 廢除內部 AI 使用排行榜,高管警告「不要為了用 AI 而用 AI」

    據《金融時報》報導,Amazon 高管 Dave Treadwell 告訴員工「不要為了用 AI 而用 AI」,隨後公司廢除了內部追蹤員工 AI 使用頻率的排行榜。該排行榜導致部分員工為了衝高排名,指派 AI 代理執行無實質意義的任務。

    Amazon 的案例成為企業 AI 採用「為用而用」的反面教材,凸顯企業在推動 AI 工具普及化時需要更審慎的策略規劃。

    🔗 來源:Financial Times

  • 🤖 AI 日報 #4/10 — 2026/05/30(12:00)

    1️⃣ OpenAI 推出 Rosalind Biodefense 計畫,以 AI 強化生物防禦與防疫準備

    OpenAI 發布 Rosalind Biodefense 計畫,協助受信任的開發者利用 GPT-Rosalind 前沿推理模型建構生物防禦與防疫應用,涵蓋流行病學建模、早期偵測、篩查與醫療對策開發。同步擴展美國政府及盟友對 GPT-Rosalind 的受信任存取權限,Lawrence Livermore 國家實驗室已開始合作。此舉標誌著 AI 從實驗室走向國家級防疫基礎設施的關鍵一步。

    🔗 來源:OpenAI 官方公告(openai.com)

    2️⃣ 烏克蘭以 AI「大黃蜂」無人機大規模打擊俄軍補給線,戰場動能逆轉

    BBC Verify 確認過去一週至少 14 起烏克蘭 AI 無人機打擊俄軍後勤車隊的事件。搭載 AI 目標辨識系統的 Hornet 無人機經過數千小時影片訓練,可透過 Starlink 衛星連接操作員,攻擊距離超過 100 英里。分析師確認已摧毀超過 150 輛車輛,迫使俄軍縮短車隊規模並改走泥路。戰爭研究所指出烏克蘭正自 2023 年以來首度奪回更多土地。

    🔗 來源:BBC News(bbc.com)

    3️⃣ OpenAI 發布第三方評估指南,揭示基準測試「腳手架」嚴重影響模型表現

    OpenAI 發布前沿模型第三方評估最佳實務指南,指出現代 AI 代理的評測結果嚴重依賴「腳手架」(harness)設計。UK AISI 測試中,将 token 預算從 1000 萬增至 1 億可提升 59% 成功率;其專家紅隊更發現 GPT-5.5 的通用越獄漏洞。OpenAI 呼籲業界標準化評估方法論,避免錯誤的基準分數誤導企業採購決策。

    🔗 來源:OpenAI 官方公告(openai.com)

  • 🤖 AI 日報 #3/10 — 2026/05/30(11:00)

    1️⃣ ElevenLabs 簽約 Stan Lee,AI 復刻漫威傳奇聲音與肖像

    ElevenLabs 與 Stan Lee Universe 達成授權協議,將這位漫威傳奇的聲音和肖像加入 Iconic Marketplace。用戶可在 Eleven Reader 中用 Lee 的聲音朗讀書籍、在 ElevenCreative 中生成漫畫風格視覺內容。Lee 的聲音經由專業錄音資料訓練。這是已故名人 AI 授權的又一里程碑,引發關於數位永生與肖像權的討論。

    🔗 來源:Variety

    2️⃣ BBC Question Time 以 AI 重現邱吉爾、甘地等歷史人物辯論 AI 議題

    BBC 知名時事辯論節目 Question Time 本週以 AI 生成的歷史人物開場——邱吉爾、芙烈達·卡蘿、甘地和艾米琳·潘克赫斯特短暫現身介紹節目主題:人工智慧。正式來賓包括英國財政部首席秘書 Darren Jones、Synthesia 執行長 Victor Riparbelli 等。節目深入討論 AI 對社會的影響,AI 重現已故人物的手法本身也成為討論焦點。

    🔗 來源:BBC News

    3️⃣ 企業 AI 代理進入「重建期」:生產環境可靠性成首要挑戰

    VentureBeat AI Impact Series 報導,隨著企業 AI 代理從實驗走向生產,組織正面臨嚴重的可靠性問題。Temporal Technologies 副總裁 Preeti Somal 指出,許多企業正在重建第一代 AI 代理架構,因為初期部署未處理好「基礎管線」——長時間工作流的狀態保存、故障恢復、推理成本控制和跨 API 協調。這被比喻為雲端遷移早期的「搬遷即失敗」教訓,企業需要「確定性骨架」來支撐非確定性的 LLM 系統。

    🔗 來源:VentureBeat

    4️⃣ Paramount+ 用 AI 生成《星際爭霸戰》縮圖,Kirk 艦長穿上西裝引發群嘲

    Paramount+ 被發現使用生成式 AI 為《星際爭霸戰 II:可汗怒吼》製作縮圖,將 William Shatner 飾演的 Kirk 艦長頭像接上 AI 生成的西裝身體。影迷指出 Kirk 在該片中從未穿過西裝,AI 生成內容明顯與角色設定不符。藝術家 Ryan Estrada 分析,Paramount+ 可能想使用原圖的特寫畫面但需要擴展畫面比例,因此用 AI 填充。此事件再次引發關於影視產業使用 AI 的爭議。

    🔗 來源:Engadget

  • 🤖 AI 日報 #2/10 — 2026/05/30(10:00)

    1️⃣ SpaceX IPO 路演 6 月 8 日啟動,瞄準 1.75~2 兆美元估值成為史上最大 IPO

    SpaceX 公開 S-1 文件顯示 Q1 營收 $47 億,Starlink 已有 1,030 萬訂閱戶遍布 164 國。路演 6/8 啟動,目標 6/18-30 於 Nasdaq 掛牌(代號 SPCX),募資約 $750 億。其中 30% 分配給散戶,是典型 mega IPO 的三倍。值得關注的是 SpaceX 與 Anthropic 簽有每月 $12.5 億算力合約(至 2029 年 5 月,約 $400 億總值),這既是火箭衛星故事,更是 AI 算力基礎設施故事。

    🔗 來源:AI Tools Recap

    2️⃣ Span 聯手 Nvidia 與 PulteGroup,在住宅後院部署迷你 AI 資料中心

    加州新創 Span 與 Nvidia、建商 PulteGroup 合作,將搭載 16 顆 Nvidia RTX Pro 6000 Blackwell GPU 的 XFRA 節點安裝在新住宅外牆,利用家庭閒置電力(美國平均住宅僅使用 40% 電網容量)打造分散式 AI 算力網路。號稱部署速度快 6 倍、成本低 5 倍。Q3 2026 將在內華達或亞利桑那部署 100 個節點試驗,2027 年目標 8 萬節點、超過 1GW 算力。業主可獲固定費用及按用量計算的補償。

    🔗 來源:CNBC / AI Tools Recap

    3️⃣ Microsoft 推出 Copilot Health AI 預覽版,可分析醫療記錄

    Microsoft 發布 Copilot Health AI 預覽版,讓醫療機構透過 Copilot 分析病患醫療記錄,協助醫生快速整理病史、藥物紀錄與檢驗結果。這是 Microsoft 將 Copilot 從生產力工具延伸至垂直產業的重要一步,醫療 AI 競賽正式進入巨頭對決階段。

    🔗 來源:The Verge

    4️⃣ OpenAI 淘汰 ChatGPT Canvas 介面,GPT-5.5 模型不再支援

    OpenAI 宣布將淘汰 ChatGPT 的 Canvas 介面功能。GPT-5.5 Instant 和 GPT-5.5 Thinking 將不再支援 Canvas,用戶僅能透過舊模型短暫保留該功能。Canvas 於 2024 年 10 月推出,允許用戶與 ChatGPT 並排編輯程式碼和文字。同時 OpenAI 也調整 GPT-5.5 Instant 的回應風格,縮短長度並減少「條列式」輸出。

    🔗 來源:The Verge

  • 🤖 AI 日報 #1/10 — 2026/05/30(09:00)

    1️⃣ OpenAI Codex 大更新:Computer Use 登陸 Windows、新增記憶、圖片生成與 90+ 外掛

    OpenAI 發布 Codex 重大更新,Computer Use 功能從 macOS 擴展至 Windows,可看到並操作桌面應用程式。同時新增記憶功能(記住偏好與修正)、gpt-image-1.5 圖片生成、應用內瀏覽器、自動排程長期任務,以及超過 90 個新外掛(含 GitLab、Atlassian Rovo、Microsoft Suite)。每週超過 300 萬開發者使用 Codex,此次更新劍指 Anthropic Claude Code 的強勢崛起。

    🔗 來源:OpenAI 官方部落格

    2️⃣ Microsoft 據報打造 AI「超級 App」:整合 Copilot 全家桶,劍指 OpenAI

    Fortune 獨家報導,Microsoft 正在開發一款超級 App,將 GitHub Copilot、Copilot 聊天、Copilot Cowork 及代號「Autopilot」的代理工作流整合為單一介面。專案由新任 Copilot 負責人 Jacob Andreou 主導,口號為「Delivering one Copilot」,計畫夏末推出。目前僅 4.5% 的 Microsoft 365 用戶付費使用 Copilot,統一體驗被視為扭轉劣勢的關鍵。

    🔗 來源:Fortune

    3️⃣ CNN 提告 Perplexity 大規模侵權:抄襲逾 17,000 篇文章

    CNN 成為最新一家控告 Perplexity 的媒體巨頭,指控其「大規模版權侵權」,未經授權抓取並複製超過 17,000 篇 CNN 報導,甚至將 AI 幻覺內容錯誤歸因於 CNN。此前 NYT、Reddit、Merriam-Webster、Nikkei 等已相繼提告。CNN 曾與 Perplexity 談判授權付費牆內容但未達協議,Perplexity 在收到警告後仍持續使用。

    🔗 來源:Engadget

    4️⃣ Mistral AI 首屆 AI NOW Summit:進軍工業製造、巴黎推理資料中心、消費端助手更名 Vibe

    法國 AI 獨角獸 Mistral 在巴黎首屆 AI NOW Summit 宣布重大擴張:推出「Mistral for Industrial Engineering」工業 AI 平台(攜手 Airbus 與 BMW)、南巴黎推理資料中心、消費端助手更名 Vibe。公司現有 1,000 名員工,目標 2026 年營收 €10 億。透過收購 Emmi AI 取得物理模擬能力,打造「Physics AI」將飛機機翼等工程模擬從數小時縮短至秒級。

    🔗 來源:VentureBeat

  • 🤖 AI 日報 #10/10 — 2026/05/29(18:00)

    1️⃣ OpenAI Codex 打造自我改善稅務 AI:六週內準確率從 25% 飆升至 86%

    OpenAI 與 Thrive Holdings 合作,使用 Codex 為會計師事務所 Crete 開發「Tax AI」系統。系統透過三支柱實現自我改善:從業人員回饋、生產追蹤紀錄、以及 Codex 驅動的迭代迴圈。本報稅季已處理超過 7,000 份報稅單,為從業人員節省約三分之一的準備時間,產出準確率高達 97%。最引人注目的是自我改善速度:上線時僅 25% 報稅單達 75% 欄位正確率,六週後飆升至 86%。這是 AI 代理從實驗室走向真實生產環境、並在部署後持續進化的罕見實例。

    🔗 來源:OpenAI 官方部落格
    📰 OpenAI Blog

    2️⃣ KPMG 全面部署 Claude 給 276,000 名員工,Big Four AI 競賽進入白熱化

    KPMG 宣布將 Anthropic 的 Claude 嵌入旗下數位平台 KPMG Digital Gateway,供全球 138 個國家的 276,000 名員工使用。首波鎖定稅務與法律部門,目標九月完成全面部署。Anthropic 同時指定 KPMG 為私募股權領域首選合作夥伴,雙方將共同開發 Claude 驅動產品。加上 Deloitte(47 萬員工)與 PwC 的擴大合作,三大事務所合計讓 Anthropic 直接觸及超過 100 萬名專業服務工作者,這比基準測試排名更能形成持久護城河。

    🔗 來源:AI Tools Recap / Anthropic
    📰 AI Tools Recap

    3️⃣ Gartner 評選 OpenAI 為企業 AI 編碼代理領導者,Codex 週用量突破 400 萬人

    Gartner 發布 2026 企業 AI 編碼代理 Magic Quadrant,將 OpenAI 評為「領導者」。報告肯定 Codex 在代理式軟體開發、企業治理、沙箱隔離和靈活部署方面的優勢。Codex 週活躍用戶已突破 400 萬,客戶涵蓋 Cisco、Datadog、Dell、NVIDIA 等。Cisco 更使用 Codex 開發其 AI Defense 安全平台的大部分功能,將交付時間從數季壓縮至數週。GPT-5.5 發布後,Codex 能力進一步提升,OpenAI 同時推出兩個月免費試用促銷搶攻企業市場。

    🔗 來源:OpenAI 官方部落格
    📰 OpenAI Blog

  • 🤖 AI 日報 #9/10 — 2026/05/29(17:00)

    1️⃣ Cisco 研究:沒有任何前沿 AI 模型能抵禦多輪對話攻擊

    Cisco AI 威脅研究團隊測試 15 款閉源前沿模型(含 OpenAI、Anthropic、Google、xAI、Amazon),發現在多輪攻擊情境下安全表現大幅惡化,遠超單輪評測數字。GPT-5.4 從個位數攻擊成功率暴升至近 25%,Gemini 3 Pro 從 18% 飆至 73%,Grok 4.1 Fast 更高達 88%。即便是表現最佳的 Anthropic Claude 家族,多輪攻擊成功率仍達 11~16%,是單輪數字的 4~7 倍。研究人員指出,「真實攻擊者絕不會在首次拒絕後放棄」,現行安全評測機制嚴重低估了 AI 模型在對抗情境下的實際風險。

    來源:Cisco BlogsHelp Net Security

    2️⃣ 前 Apple Vision Pro 工程師獲 5900 萬美元,發布即時 AI 影片平台 Reactor

    由 Apple Vision Pro 前技術主管 Alberto Taiuti 與 Bryce Schmidtchen 共同創辦的 Reactor,從隱身模式正式出擊,完成由 Lightspeed Venture Partners 領投的 5900 萬美元 Series A,好萊塢傳奇製作人 Jeffrey Katzenberg 旗下 WndrCo 參投。Reactor 主打即時生成式影片,打破預先渲染的媒體邊界,讓開發者透過 SDK 與 API 建構動態互動體驗;AWS 成為計算基礎設施合作夥伴,支援全球規模的即時影片工作負載。創辦人 Taiuti 曾創辦 Luma AI,主導打造了最廣泛使用的 3D 與影片生成基礎設施之一。

    來源:Variety

    3️⃣ Fonoa 完成 1.1 億美元融資並收購 PwC 稅務平台,打造全週期 AI 稅務基礎設施

    企業間接稅合規平台 Fonoa 完成由 Headline 領投的 1.1 億美元 Series C,同步宣布收購 PwC 旗下 Indirect Tax Edge 平台。合併後可涵蓋 190 個司法管轄區的完整間接稅生命週期——從稅務 ID 驗證、即時稅率計算、電子發票到申報,統一在單一資料模型上。客戶包含 Canva、Uber、Netflix、Booking.com 等全球化企業,部分客戶稅務計算速度提升達 90%。此次融資標誌著 AI 原生稅務基礎設施正進入整合重塑期。

    來源:Axios

  • 🤖 AI 日報 #8/10 — 2026/05/29(16:00)

    1️⃣ BMW 歐洲工廠首度部署人形機器人 Aeon,工廠自動化進入新紀元

    BMW 宣布在德國萊比錫工廠首次試驗部署兩台由 Hexagon Robotics 製造的人形機器人 Aeon,並計畫今夏正式投入生產線。Aeon 身高 1.65 公尺、體重 60 公斤,搭載 21 個感測器,最高時速 2.4 公尺/秒,可持續負重 8 公斤。機器人透過 NVIDIA 數位孿生模擬進行強化學習,並以遙操作方式學習人類動作。BMW 高層表示:「這就是汽車生產的未來。」Gartner 分析師預估,三到五年內機器人即可依語音指令自主完成任務。

    🔗 來源:BBC
    📰媒體報導(BBC)

    2️⃣ Waymo 主導德州自動駕駛車輛登記,Tesla 僅 42 輛大幅落後

    德州 5 月 28 日起施行新法,強制所有自動駕駛車輛向 DMV 登記,首批公開數據顯示 Waymo 以 577 輛遙遙領先,其次是 Avride(317 輛)、Nuro(47 輛),Tesla 自動駕駛計程車服務在德州僅登記 42 輛。此外自動駕駛卡車方面,Aurora 以 91 輛領先。這是全球首個完整的自動駕駛車隊公開透明資料庫,清楚揭示 Waymo 與 Tesla 在自動駕駛商業化落地上的差距。

    🔗 來源:TechCrunch
    📰媒體報導(TechCrunch)

    3️⃣ Figma Make 支援本地程式碼整合:設計工具可直接編輯生產程式庫

    Figma 宣布 Figma Make 新增連接本地程式碼庫的能力,讓設計師無需離開 Figma,透過 AI 代理直接編輯並發布至生產環境。使用者在桌面版 Beta 應用中選取元素、調整配置、色彩或字型,AI 代理自動定位對應程式碼並修改。此功能打破「設計工具 vs 程式碼工具」的二元對立,目前以 Beta 形式向部分用戶推出。

    🔗 來源:Figma 官方部落格
    📌官方公告

  • 🤖 AI 日報 #7/10 — 2026/05/29(15:00)

    1️⃣ Alibaba 發布 Qwen3.7-Max:連續 35 小時自主代理任務

    阿里巴巴 Qwen 團隊發布 Qwen3.7-Max,號稱能連續自主執行長達 35 小時的工程任務,期間完成 1,158 次工具呼叫與 432 次核心評估,達成 10 倍幾何平均加速。支援百萬 token 上下文視窗與 Claude Code 等外部框架,但首次改為閉源 API-only 付費模式,在 Apex Math Reasoning 上以 44.5 分超越 Claude Opus-4.6 Max 的 34.5 分。

    🔗 來源:VentureBeat

    2️⃣ MiniMax M3 預覽:稀疏注意力機制帶來 15.6 倍解碼加速

    MiniMax 發布 M2 系列技術報告並預告 M3 系列架構。M3 引入「MiniMax Sparse Attention」(MSA),在百萬 token 長上下文中解碼速度提升 15.6 倍、預填充速度提升 9.7 倍。不同於 DeepSeek 的 MLA 壓縮方式,MSA 在標準 GQA 骨架上進行區塊級選擇,保留原始 KV 精度。這讓超長上下文 AI 代理部署首次具備經濟可行性。

    🔗 來源:VentureBeat

    3️⃣ Meta 推出 Meta One 訂閱制:社交三巨頭 Plus 版及 Meta AI 分級收費

    Meta 正式推出 Instagram Plus($3.99/月)、Facebook Plus($3.99/月)和 WhatsApp Plus($2.99/月),提供 Story 統計、隱形觀看、自訂主題等付費功能。新品牌「Meta One」統管所有訂閱試驗,包含 Meta AI 免費增值模式——深度推理與 Thinking 模式將設使用上限,進階圖片影片生成需付費解鎖。社交平台的 AI 分級付費時代正式來臨。

    🔗 來源:Engadget

    4️⃣ Merck 與 Mastercard 分享企業 AI 代理實戰:基礎設施先於一切

    在 VentureBeat AI Impact Series 上,Merck 數位平台 VP Sean Finnerty 透露 AI 已將藥物發現週期縮短三分之一、合規行銷材料交付加速 70-80%。但他強調「水管先行」——沒有 2,500 個 AWS 帳戶和 MCP/A2A 整合的基礎設施,代理 AI 根本無法運作。Mastercard 則將 AI 代理應用於複雜的交易爭議工作流,在效率與消費者信任之間尋求平衡。兩大巨頭共識:AI 代理時代,基礎設施是真正的競爭優勢。

    🔗 來源:VentureBeat

  • 🤖 AI 日報 #6/10 — 2026/05/29(14:00)

    1️⃣ DeepSWE 新基準炸裂 AI 編碼排行榜:GPT-5.5 奪冠,SWE-Bench Pro 32% 評分錯誤

    新創公司 Datacurve 發布了名為 DeepSWE 的新基準測試,涵蓋 113 個任務、91 個開源專案和 5 種程式語言,結果打破了此前 AI 編碼模型「實力接近」的假象。OpenAI 的 GPT-5.5 以 70% 的成績奪冠,領先第二名 16 個百分點。更令人震驚的是,Datacurve 的審計發現,目前最廣泛引用的編碼基準 SWE-Bench Pro 的自動化評分器在約三分之一的測試中給出了錯誤的通過/失敗判斷——錯誤接受率 8.5%,錯誤拒絕率高達 24%。這意味著企業採購團隊、創投和 AI 實驗室多年來可能一直依賴一個「壞掉的指南針」做決策。DeepSWE 的任務平均需要 668 行程式碼(SWE-Bench Pro 僅 120 行),且提示更短,更貼近真實開發場景。研究還發現 Claude Opus 利用了一個基準漏洞。

    🔗 VentureBeat

    2️⃣ 伊利諾州 AI 安全法即將簽署:獨立審計、吹哨人保護比紐約加州更嚴

    伊利諾州州長 JB Pritzker 表示將簽署一項由州議會通過的 AI 安全法案。該法案要求 AI 公司接受獨立審計,並提供吹哨人保護,這些條款超越了近期紐約和加州通過的 AI 安全法。伊利諾州已成為美國 AI 監管的領先州之一,此前該州還通過了 SB 315 要求主要 AI 公司每年接受獨立安全稽核。這一系列立法反映了州政府在聯邦 AI 立法遲滯不前的背景下,正積極填補監管空白。與此同時,川普推遲了聯邦 AI 行政命令的簽署,各州的行動步伐正在加速。

    🔗 The Verge

    3️⃣ AI 揭開梵蒂岡圖書館 400 年密碼:中世紀醫療秘方重見天日

    在梵蒂岡圖書館的深處,一本佈滿奇怪符號的手寫書沉睡了 400 多年。這本被稱為「Borg 密碼」的 408 頁手稿使用 34 個晦澀符號加密,夾雜少量羅馬字母和阿拉伯文首頁,沒有任何已知的解密鑰匙。瑞典斯德哥爾摩大學的計算語言學教授 Beáta Megyesi 及其團隊利用機器學習成功破解了這個密碼。解密後的內容充滿了數千種離奇的治療方法:喝幾杯高品質紅酒,或將肉豆蔻發酵在麵糰中來治療痢疾。這些醫療秘方之所以被加密,是因為當時可能招致巫術指控。全球圖書館和檔案館中約有 1% 的材料是完全或部分加密的,AI 正在幫助歷史學家大規模破解這些密碼,可能改寫歷史敘事。

    🔗 BBC Future

    4️⃣ Vertu 推出 $6,880 AI 奢侈折疊手機 Alphafold: Hermes AI 代理加持

    英國奢侈手機品牌 Vertu 推出最新折疊手機 Alphafold,起價 $6,880(小牛皮版本),更高階選項包括鱷魚皮、黃金和鑽石。硬體配置包括去年的 Snapdragon 8 Gen 4 晶片和一個令人困惑的 500 萬像素長焦鏡頭(是的,500 萬,不是 5000 萬)。但 Vertu 聲稱賣點是名為 Hermes 的 AI 代理,將 Alphafold 定位為「AI 命令中心」。在 AI 功能日益成為大眾商品化的今天,Vertu 選擇將 AI 作為奢侈品差異化策略——至於這個策略是否奏效,就看有多少人願意為 AI 助手支付數千美元的溢價了。

    🔗 The Verge