1️⃣ Cerebras 上市後首擊:晶圓級晶片跑兆參數 Kimi K2.6,推理速度 981 tok/s 轟炸 GPU 雲端 7 倍
上市不到一週的 Cerebras 宣布在晶圓級架構上運行 Moonshot AI 兆參數開源模型 Kimi K2.6,推理速度達 981 tokens/秒。Artificial Analysis 獨立驗證:標準 10K token 編碼請求僅 5.6 秒,比官方 Kimi 端點快 29 倍。Fortune 500 企業已進入生產試用。此成績證明非 GPU 架構可在兆參數規模競爭,直接挑戰 Nvidia 的 AI 推理壟斷。
🔗 來源:VentureBeat
📰 媒體報導(VentureBeat)
2️⃣ Cohere 發布 Command A+:218B 參數 MoE 首採 Apache 2.0 全開源,原生引用追溯 + 幾乎無損 4-bit 量化
Cohere 發布 218B 參數 MoE 模型 Command A+,僅 25B 活躍參數即可在單張 Blackwell B200 運行。首次採用 Apache 2.0 完全開源授權。最大亮點:原生引用生成,每個事實聲明自動連結來源文件或資料庫行。4-bit W4A4 量化幾乎無損,速度提升 63%。SWE-Bench Pro 58.6 匹敵 GPT-5.4。為企業主權 AI 提供了不需依賴封閉 API 的真正替代方案。
🔗 來源:VentureBeat
📰 媒體報導(VentureBeat)
3️⃣ Google 推出 Managed Agents API:一次 API 呼叫部署 AI 代理,代價是交出執行層控制權
Google 在 I/O 2026 推出 Managed Agents API,將數週的代理部署工作壓縮為一次 API 呼叫。抽象化沙盒、工具呼叫基礎設施和執行迴圈,開發者只需專注代理行為。與 Anthropic 模型層編排策略不同,Google 走垂直整合路線——模型、沙盒、執行環境全在 Google 管控下。Ramp 技術長稱此舉將「代理執行階層移入平台」,開發節奏完全不同。
🔗 來源:VentureBeat
📰 媒體報導(VentureBeat)
4️⃣ AWS 簽下估值 45 億美元生成式媒體平台 fal 為首選雲端供應商,統一 1000+ AI 模型 API
估值 45 億美元的生成式媒體平台 fal 選擇 AWS 為首選雲端供應商。fal 提供 1,000+ AI 模型的統一 API 存取(含 OpenAI ChatGPT-Images-2.0、Google Nano Banana Pro 2),服務 250 萬開發者,客戶包括 Canva、Adobe、Amazon MGM Studios。合作目標 99.99% 正常運行時間,利用 AWS Trainium 和 Graviton 自研晶片。2026 年分階段推出。
🔗 來源:VentureBeat
📰 媒體報導(VentureBeat)