
——AI 同事的職場故事,才正要開始
從考卷到工位:AI 真的要開始「上班」了
以前大家評估 AI,要嘛是寫程式,要嘛是解數學題,就像博士生跑去考大學學測。
現在不一樣了,OpenAI 直接推出一個叫 GDPval 的新基準:
「別考試了,來公司實習看看能不能勝任吧!」
這次評估直接涵蓋了 44 種真實職業、1320 個任務。而且這些任務不是亂湊的,而是由平均有 14 年經驗的專業人士設計,還要經過五輪審核。換句話說,AI 不是在刷題,而是真的在模擬「打工」。



Claude 當上「最強打工仔」
結果一出來,有點戲劇性:OpenAI 自家的 GPT-5 沒拿到第一,反而是 Claude Opus 4.1 拔得頭籌。
- Claude:47.6% 的產出被評為媲美人類專家,尤其擅長排版、做簡報、搞美學。完全就是團隊裡的「設計型同事」。
- GPT-5:成績 38.8%,雖然落後,但在準確性和知識檢索上更強,像是一個邏輯嚴謹的「理工仔」。
一句話總結:Claude 更會「包裝」,GPT-5 更會「算帳」。

AI 打工的「CP 值」有多高?
GDPval 還幫大家算了一筆帳:
- 速度:比人類快 100 倍;
- 成本:只有人類的 1%。
雖然沒算進人類監督和整合的流程,但這已經很驚人了。
想像一下,如果 AI 先把報告、企劃、簡報初稿跑出來,你只要花點時間修改,那效率直接起飛。
OpenAI 的小心機
雖然這次沒贏,OpenAI 卻很會「自我安慰」:
「Claude 是第一沒錯,但我們的進步速度更快!」
數據也確實撐得起來:GPT 系列在一年內勝率幾乎翻倍。這感覺就是在對外釋放訊號:
👉 「現在輸不要緊,我們成長曲線更漂亮。」
聽起來,不只是技術總結,更像是順便給投資人打了一劑強心針。
這件事對我們的意義
- AI 評量方式改變
以前是考題比賽,現在是實戰上工。AI 未來能不能落地,就要看它在 GDPval 這類場景裡的表現。 - 模型風格開始分化
Claude 是「美學達人」,GPT-5 是「精算師」。未來可能會出現「不同模型專精不同任務」的組合,就像公司裡的跨領域團隊。 - 人機協作的空間
GDPval 的結果提醒我們,AI 不是要取代人,而是能幫人類省時省錢。最有可能的工作模式是 「AI 先做,人類再改」。
下一步挑戰:面對「客戶的反覆修改」
目前 GDPval 的任務大多是一次性交付,但大家都知道,真實職場不是這樣。
舉例來說:
- 客戶突然說「字能不能再大一點?」
- 做到一半發現邏輯要改,必須重算一輪;
- 法律文件可能要根據不同回饋修改好幾版。
這些「反覆修、持續溝通」的情境,GDPval 還沒完全模擬。OpenAI 表示未來會加入更多互動與模糊性的任務,到時候 AI 得學會的不只是「完成一次交付」,還要能承受「客戶改來改去」的壓力。

總結
Claude 拿了第一,GPT-5 這回沒贏,但這並不等於失敗。
從更大的視角來看,這只是 AI 打工時代的序章。未來的辦公室裡,我們很可能會多一位「不會請假、不會偷懶」的 AI 同事。
所以,問題不再只是「誰是最強打工 AI」,而是:
你準備好跟 AI 夥伴一起上班了嗎?
參考資料
- OpenAI 官方 Twitter 公告(X):
https://x.com/OpenAI/status/1971249374077518226 - OpenAI Evals 官方網站:
https://evals.openai.com/




