
OpenAI 發布GPT-5,能力與知識全面升級
2025年8月7日,OpenAI正式推出了全新的GPT-5模型,相較於先前的所有模型,GPT‑5 的智慧大幅進化,除了在知識與能力全面升級外,在程式設計、數學、寫作、健康、視覺感知及更多領域的表現,皆達到頂尖水準,這是OpenAI 目前迄今為止最優秀的模型。
[更新] GPT-5.1 於2025/11/13發佈,更快更聰明: 完整測評報告在這裏
GPT-5.1 是 GPT-5 系列的最新模型,特色在於:
- 自適應推理(Adaptive Reasoning):依任務難度自動調整「思考時間」。
- No-Reasoning 模式:不需深度推理時可瞬間回應。
自適應推理(Adaptive Reasoning)
GPT-5.1 最大的突破之一是它能根據任務難度「調整思考力道」:
- 簡單任務 → 減少 token、加快速度
- 困難任務 → 增加推理深度、提高準確率
根據 Balyasny Asset Management 測試:
- GPT-5.1 速度比 GPT-5 快 2–3 倍
- 在工具密集型推理任務中,token 使用量比其他頂尖模型少 約 50%

創意表達與寫作
GPT‑5 可引導您從粗略的概念發想,轉化為具有文學深度與節奏感、引人入勝且打動人心的作品。它能更穩定處理結構模糊的寫作格式,例如不押韻的抑揚格五音步,或是自然流動的自由體詩,注重形式同時清晰傳達內容。這些寫作能力的提升。
健康
GPT‑5 是OpenAI迄今最適合處理健康保健相關問題的模型,能為使用者提供各項保健新知,協助他們為自身健康把關。此模型在 HealthBench 評估的表現明顯優於前代模型;該項評估是今年稍早根據實際情境和內科醫師所定義的標準所發佈。與前代模型相比,此模型的表現更像是會主動思考的夥伴,能積極指出潛在問題,並透過提問來提供更實用的答案。這款模型現在還可根據使用者的上下文、知識程度和地理位置調整內容,給出更準確可靠的回答,在各種情境下提高安全性與實用性。重要的是,ChatGPT 無法取代醫療專業人員,請將它當成一位得力夥伴,協助您理解檢查結果、就診時提出適當問題,以及在做決定時權衡各種選項。
模型評估與效能報告
GPT‑5 的智慧水準全方位大幅提升,從各項學術及人類評量的基準測試中可見一斑。它在數學 (在 AIME 2025 未使用工具的情況下達到 94.6%)、實際程式設計 (SWEBench 達 74.9%、Aider-Polyglot 達 88%)、多模態理解 (MMMU 達 84.2%) 和健康 (HealthBench Hard 達 46.2%) 領域的基準測試中,全面刷新最高記錄,而這些進步就體現在日常使用情境中。運用 GPT‑5 Pro 的延伸推理能力,這款模型還在 GPQA 中創下 SOTA 新紀錄,在不使用輔助工具的狀態下取得 88.4% 高分。

多模態
在各項多模態基準測試中都表現卓越,涵蓋視覺、影片、空間與科學推理領域。多模態能力提升,就表示 GPT-5 可針對圖像和非文字輸入內容做出更精準的推理,無論是詮釋圖表、照片的摘要還是回答示意圖相關問題。

更快速有效的思考能力
GPT‑5 用更短的思考時間產生更大的價值。具備思考能力的 GPT‑5 在多項能力 (包括視覺推理、自主代理程式設計和解決研究生等級科學問題) 的表現均勝過 OpenAI o3,模型輸出字元數少了 50-80%。

給出更準確的回應
GPT‑5 出現幻覺的機率比起前代模型大幅下降。 在代表 ChatGPT 實際使用流量的提示中,GPT‑5 出現事實錯誤的機率,比 GPT‑4o 少了約 20%;而在使用思考能力的情況下,GPT‑5 的事實錯誤率比 OpenAI o3 少了約 70%。

詳細評測報告
智能 / Intelligence (學術/知識評測)

多模態 / Multimodal (對於圖像的理解程度, 讀圖的細節及正確性評估)

長上下文 (Long context evals – 較長的上下文理解, 對話中先前你的輸入及模型輸出的記憶,記得更多先前的對話及正確性)

指令遵循 (Instruction following – 對於指令遵從性的指標,遵循指令及使用自主代理工具)
GPT‑5 的表現有明顯的進步,這些能力是它可穩定執行多步驟要求、協調各項工具和根據上下文調整內容的關鍵。在實際應用中,這表示 GPT‑5 更有能力處理複雜多變的任務、更準確遵循指令,還能靈活運用工具全程包辦更多工作。


軟體開發
在基於真實世界軟體工程任務的評估 SWE-bench Verify 中,GPT-5 得分為 74.9%,高於 o3 的 69.1%。值得注意的是,GPT-5 以更高的效率和速度獲得了高分:相對於高推理努力的 o3,GPT-5 使用的輸出令牌減少了 22%,工具調用減少了 45%。下表為依GPT-5與o3模型,在不同的推理程式(Minimal 到 High) 的正確性以及平均輸出Tokens數之比較表。

程式碼評測

OpenAI表示,GPT-5在多項關鍵的程式碼基準測試中表現卓越,例如在SWE-bench Verified測試中獲得74.9%的高分,在Aider polyglot上達到88%。這不只是數字上的提升,更代表著它成為開發者「真正的程式碼協作者」的潛力。它能夠產生高品質程式碼,並擅長處理錯誤修復、程式碼編輯以及回答複雜程式碼庫的問題。這將大大加速開發流程,讓開發者能更專注於高層次的設計和創新,而不是繁瑣的細節。
為開發者量身打造的強大新功能
超乎想像的Agent 代理能力與工具調用
GPT-5在「長時間運行的代理任務」上也表現出色,在僅發布兩個月的τ2-bench電信工具調用基準測試中,取得了96.7%的領先成績。GPT-5的工具智能得到顯著提升,使其能夠可靠地將數十個工具調用串聯起來,無論是循序執行還是平行操作,都能精準無誤,使其在執行複雜的真實世界端到端任務時表現更佳。它還能更精確地遵循工具指令,更好地處理工具錯誤,並擅長長上下文內容檢索。
OpenAI在GPT-5的API中引入了多項新功能,旨在賦予開發者更多對模型回應的控制權:
- 語義參數(Verbosity Parameter):全新的verbosity參數(值:low, medium, high)可以幫助開發者控制答案的長度,讓回應更簡潔或更詳細。
- 最小推理工作量(Minimal Reasoning Effort):reasoning_effort參數現在可以設為minimal,以在不進行大量推理的情況下,更快地獲得答案。
- 工具調用前的引導訊息(Preamble Messages before Tool Calls):GPT-5在工具調用之前和之間,如果被指示,可以輸出使用者可見的引導訊息,讓使用者了解其計畫和進度。
- 自定義工具(Custom Tools):引入了一種新的工具類型,允許GPT-5使用純文本而不是JSON來調用工具,並且支持通過正則表達式或上下文無關文法進行約束。
verbosity和reasoning_effort的引入,讓模型在不同場景下具備了更高的靈活性和效率,開發者可以根據具體需求在品質與速度之間進行權衡。特別值得一提的是「自定義工具」支援純文本調用,這是一個看似微小卻極其重要的改進,它解決了過去JSON轉義的痛點,顯著降低了開發複雜度。而「引導訊息」的加入,則體現了AI與使用者協作的透明化趨勢,有助於建立使用者對AI代理的信任。
安全性與事實性:更值得信賴的AI
相較於前代模型,GPT-5產生「幻覺」(hallucinations)的可能性顯著降低了約80%。它能更誠實地溝通其行動和能力,並在遵守安全邊界的前提下,提供最有幫助的答案。OpenAI也強調,模型對自身局限性的自我意識更強,更能處理意料之外的「曲線球」。
本文參考 OpenAI 佈落格及文件



![[資訊分享] AI 修圖 - 最新AI 圖像編輯模型](https://learn.build-school.com/wp-content/uploads/2025/01/iShot_2025-07-03_13.58.36-150x150.png)
