Anthropic 推出了其頂尖前沿模型 Opus 4.5,具備改進的編程能力和用戶體驗增強,使其具備與 OpenAI 最新模型競爭的能力。
對用戶來說,一個關鍵的更新是改善了在消費者應用(網頁、移動和桌面)中的對話流暢性。模型 Claude 現在將避免因為對話過長而突然停止討論。這項增強適用於 Opus 4.5 以及其他目前廣泛使用的 Claude 模型。
此前,因觸及 200,000 個 tokens 的硬性上下文窗口限制,即使用戶還有使用許可,他們也可能遭遇對話意外中斷。儘管一些大型語言模型通過修剪早期消息來應對,Claude 會選擇終止討論以防止對話連貫性下降。通過新的更新,Claude 將總結對話早期的要點,捨去不太重要的內容以保持相關性和連貫性。
對於使用 Anthropic API 的開發者,提供相同的上下文管理和摘要技術,以增強對互動的控制。
在性能方面,Opus 4.5 通過在 SWE-Bench Verified 基準測試中達到 80.9% 的準確率,設立了新的基準。這超過了 OpenAI 最近發布的 GPT-5.1-Codex-Max(77.9%)和 Google 的 Gemini 3 Pro(76.2%)。雖然 Opus 4.5 在主動編程和工具使用基準中表現出色,但在視覺推理能力(MMMU)方面仍遜於 GPT-5.1。