
新模型 GPT‑4.1 發佈及評測報告
OpenAI 官方原文請參考 – https://openai.com/index/gpt-4-1/
全新 GPT-4.1 系列模型,包含 GPT‑4.1、GPT‑4.1 mini 與 GPT‑4.1 nano,大幅提升了學術知識評測能力、程式編碼能力、指令遵循、影像理解、長上下文處理效率。(註: 2025/6月已於 ChatGPT 付費版中提供 4.1 模型)
核心亮點:
- 優異編碼能力:GPT‑4.1 在 SWE‑bench Verified 評測上得到 54.6%,較 GPT‑4o 提升 21.4 個百分點,較 GPT‑4.5 提升 26.6 個百分點
- 指令遵循進步:在 Scale 的 MultiChallenge 衡量任務指令遵循能力中,GPT‑4.1 得分 38.3%,提升 10.5 個百分點。
- 強化長上下文理解:在 Video‑MME 上取得 72.0%,比 GPT‑4o 多出 6.7 點,達成史上最佳。
模型與效能概覽
- GPT‑4.1:上下文最大可達 100 萬 tokens,編碼、指令遵循與長上下文表現全面提升,且成本更低。
- GPT‑4.1 mini:體積縮小,速度快近 2 倍,成本降低約 83%,在智力測驗領域不輸 GPT‑4o。
- GPT‑4.1 nano:速度最快、成本最低,context 仍達 100 萬 tokens,於 MMLU 得 80.1%、GPQA 50.3%,甚至在多語程式碼測試上超越 GPT‑4o-mini。
效能評測 (橫軸Latency: 模型回應延遲時間, 愈小愈好速度愈快 ; 縱軸 Intelligence 為智力程度, 愈大愈好)

GPT‑4.1 mini 在小型模型的效能上實現了重大飛躍,甚至在多項基準測試中超越了 GPT‑4o。它在智慧評估上的表現與 GPT‑4o 相當甚至更好,同時將延遲減少近一半、成本降低了 83%。
若任務對低延遲有高度需求,GPT‑4.1 nano 是目前最快、最便宜的模型。儘管體積小巧,仍具備強大效能,支援長達 100 萬 token 的上下文,並在多項評測中表現出色:MMLU 得分 80.1%、GPQA 得分 50.3%、Aider polyglot coding 得分 9.8%,甚至比 GPT‑4o mini 還高。非常適合用於分類或自動補全等任務。
學術/知識評測

指令遵循 (Instruction following – 對於指令遵從性的指標)

長上下文 (Long context evals – 較長的上下文理解, 對話中先前你的輸入及模型輸出的記憶,記得更多先前的對話及正確性)

視覺 (Vision – 對於圖像的理解程度, 讀圖的細節及正確性評估)

程式碼評測

GPT‑4.1 在多種程式設計任務上明顯優於 GPT‑4o,包含:自主解決編碼問題、前端開發、減少多餘編輯、遵循 diff 格式的一致性、正確且穩定地使用工具等方面,表現皆更為出色。在衡量真實世界軟體工程能力的 SWE-bench Verified 測試中,GPT‑4.1 的任務完成率為 54.6%,而 GPT‑4o(2024 年 11 月 20 日版本)僅為 33.2%。