要闻列表GPT-5.5 正式發布:六週迭代、主攻科研應用、程式碼測試破頂
動區 BlockTempo2026-04-24 02:35:34

GPT-5.5 正式發布:六週迭代、主攻科研應用、程式碼測試破頂

AI 影响分析Grok 分析中...
📄完整原文· 由 trafilatura 自动抓取Gemini 翻譯1471 字
OpenAI 於 23 日發布 GPT-5.5,距 GPT-5.4 推出僅六週。標準版在程式設計測試 Terminal-Bench 2.0 得 82.7%,Pro 版在博士後等級數學題 FrontierMath Tier 4 得 39.6%。 (前情提要:OpenAI 最強 GPT-5 發布會全整理:免費開放、功能亮點、gpt-5、gpt-5-mini 和 gpt-5-nano API 價格) (背景補充:五分鐘帶你看懂 GPT-5》跟 ChatGPT 4o 有何差別?幻覺更少且聽話、API 價格整理) GPT-5.5 在 4 月 23 日上線,距離上一個版本 GPT-5.4 整整只過了六週。OpenAI 官方將這次發布定位為「目前最聰明、最直覺的模型」,強調它相較於 GPT-5.4 是「以更少 token 思考得更快、更精準」。 在程式設計基準 Terminal-Bench 2.0,標準版 GPT-5.5 得分 82.7%,Claude Opus 4.7 同題得 69.4%,差距約 13 個百分點。在基礎設施最佳化任務,GPT-5.5 的 token 生成速度提升超過 20%,代表在長上下文處理和多步驟工作流上的成本效益同步改善。 Pro 版本的差異化重心是數學推理。FrontierMath Tier 4 是業界公認最難的數學評測集,題目等級為博士後研究水準,人類專家可能需要數天才能解出。GPT-5.5 Pro 在此測試得 39.6%,Claude Opus 4.7 得 22.9%,差距接近 17 個百分點。 另一個值得注意的數字:GDPval 經濟任務基準,標準版 GPT-5.5 得分 84.9%,反而比 Pro 版更高。這個結果說明在通用知識工作場景,標準版已足夠且具成本優勢;Pro 版的差異化價值更集中在高強度推理任務,而非廣度覆蓋。 OpenAI 同時指出,GPT-5.5 在「computer use」能力上也有顯著提升:能自主操控軟體介面、處理多步驟工作流,在 agentic 任務上需要更少的使用者介入。 這是本次發布較不尋常的敘事重點,是官方宣告使用了「在科學與技術研究的工作流程中,取得實質性的進展」,並特別提到藥物發現場景,稱 GPT-5.5 能幫助專家科學家取得進展。 有一個被具名引用的案例:一個客製化 GPT-5.5 版本協助研究人員找到了 Ramsey 數的組合數學新證明。Ramsey 數問題是純數學領域數十年來的硬核難題,這個案例能被 OpenAI 在官方發布文中直接提出,代表它不是邊緣示範,而是未來商業化的方向訊號。 為什麼科研場景如此被強調?背後是清晰的商業邏輯:製藥企業、材料實驗室、科研機構是能接受高算力費用的付費群體;Pro 版定價遠高於標準版,但目前僅開放給 Business 和 Enterprise 訂閱者。 OpenAI 透過差異化定價,實際上正在把研究場景當作高階 SKU 來經營,而非普惠性開放。 目前 GPT-5.5 向 Plus、Pro、Business、Enterprise 使用者即日開放,GPT-5.5 Pro 限定 Business 和 Enterprise,API 接入「近期上線」。標準版在 GDPval 的表現顯示它已足以處理大多數知識工作;Pro 版則更明確指向需要高強度數理推理的企業場景。 六週的迭代節奏是一個結構性壓力。當競爭對手每年可以推出八個主版本,任何一個技術落後的視窗期都極短。演算法發布的速度,現在本身就是競爭力的一部分。
数据状态✓ 已抓取全文阅读原文(動區 BlockTempo)
🔍历史类似事件· 关键词 + 标的比对5 则
💡 目前用关键词 + 标的比对(MVP)· 之后会升级为 embedding 语义搜寻
原始信息
ID:6f31e7235a
来源:動區 BlockTempo
发布:2026-04-24 02:35:34
分类:zh_news · 导出分类 zh
标的:未指定
社群投票:+0 /0 · ⭐ 0 重要 · 💬 0 留言
GPT-5.5 正式發布:六週迭代、主攻科研應用、程式碼測試破頂 | Feel.Trading