
從「AI神話」回到現實世界的工作場景
近年來,生成式 AI 在各種研究基準(knowledge & reasoning benchmarks)上屢創佳績,但這些多為「受控環境下的學術題」—但實際進入真實工作環境後,並模擬真實工作任務的表現如何呢?
於是,2025 年由 Center for AI Safety 及 Scale AI 等多機構發表的研究中,提出了 RLI 基準:從自由職業實際市場出發,衡量 AI 在真實、端到端、具有經濟價值的工作任務上的自動化能力。
研究結果顯示:目前最強的 AI 模型在這些任務上的自動化率僅約 2.5%。
RLI 是什麼?真實世界的 AI「工作實測」
為何要建立新的基準?
過去的 AI 評測往往聚焦于快速解題、知識推理、或受限任務(如問答、摘要、程式修正),但真實遠端工作往往複雜得多:跨領域、長時間、多階段交付並含有互動、視覺、音頻等要素。論文指出:「AI 在研究型基準上進步神速,但仍不清楚這些進步如何轉化為經濟價值與真正的自動化。」
因此,RLI 的設計目標就是從真實商業自由職業案件中抽樣,涵蓋遊戲開發、產品設計、建築、資料分析、動畫製作等多個領域。研究指出:「這些專案的成本甚至超過 US$10,000,完成時間超過 100 小時。」
RLI 規模與構成
- 專案總工作量超過 6,000 小時,總商業價值逾 US$140,000。
- 涵蓋多達 23 個不同工作類別,來自真實自由職業平台的案件。
- 所有案件皆具備「專案簡報(brief)」「輸入檔案(input files)」「人類提交成果(human deliverable)」。
這樣的設計讓 RLI 比過去許多偏「軟體/文字」的基準更加貼近真實市場。

RLI 資料集的建立流程:從 64 領域篩選到 240 個真實專案
研究團隊首先在 64 個職業領域中初步挑選,經篩選後鎖定 43 個符合條件的領域。
接著,他們招募了 358 名經驗豐富的自由職業者,這些受測者在 Upwork 平台平均工作時數已達 2,341 小時、完成專案數平均為 89 件,平均收入約為 US$23,364。
最終,從初始 550 件專案中篩選出 240 件符合標準的 RLI 專案。

評估 AI 的四大指標
RLI 不僅收集真實專案,也制定了「可量化」的評估指標:
- 自動化率(Automation Rate):AI 成功完成、達到人類交付標準的專案比例。
- Elo 評分:採「配對比較」方式,AI 模型間相對勝負的量化分數,將人類基準設定為 1,000 點。
- 專案收益(Dollars Earned):AI 成功完成專案所代表的貨幣價值。
- 自動化通縮(Autoflation):若 AI 可替代人力,專案成本下降的比例。
為了衡量交付品質,研究人員還設計了手動評估平台,評估者從「合理客戶視角」檢驗 AI 成果是否符合專案 brief,並採三點量表檢判。

結果:AI 的真實表現只有 2.5%
研究對六款邊緣 AI 智能體進行測試,包括 GPT‑5、Claude Sonnet 4.5、Grok 4、Gemini 2.5 Pro、Manus 等。
- 最高自動化率為 Manus 約 2.5%。
- 其他模型如 Grok 4/Sonnet 4.5 約 2.1%;GPT-5 約 1.7%;ChatGPT Agent 約 1.3%;Gemini 2.5 Pro 約 0.8%。

換句話說,即使是最前緣的 AI,也只能完全獨立完成不到 3% 的真實自由職業專案。
Elo 評分雖然顯示模型間有進步,但「絕對完成專案」的能力仍然遠低於人類基準。

為什麼 AI 仍然未達「高度自動化及高工作完成度呢」?
透過對大約 400 份交付評估樣本的質性分析,論文指出主要原因包括:
- 技術與檔案完整性問題:生成損毀檔案、格式錯誤、無法使用。
- 交付成果不完整或關鍵缺漏:如缺少素材、影片截斷、未提供源檔。
- 品質不足達專業水準:即便完成檔案,其細節粗糙、不能達客戶預期。
- 一致性差:多檔案專案中,風格或結果間前後不一致。
這些皆反映了 AI 在「世界知識校驗」「記憶與持續性」「視覺/音頻互動驗證」等方面的不足——特別是在建築設計、遊戲開發與網站建構這類需強調交互、視覺、音頻驗證的專案中,瓶頸尤為明顯。

哪些領域 AI 表現較為亮眼?
雖然整體自動化率極低,但論文指出,AI 在創意性較強或工具化較好的任務中已展現相對優勢,如:
- 圖像/音頻生成任務:AI 工具生成宣傳素材、圖像或音頻型作品。
- 寫作、資料檢索/網頁爬蟲任務:AI 在文字與資訊檢索領域效率較高。
這與模型目前在視覺生成、語言生成上較成熟的事實一致。例如,Sonnet 4.5 在簡單 Web 視覺化任務上的成果甚至被評為優於人類交付。 - 例如: GPT-5在閱讀/寫作/數學/知識也超越GPT-4模型

結論:AI 還遠不能100%完成人類的複雜工作
RLI 的研究為我們提供了一個「可量化」且貼近真實工作的基準。其結論清晰:即使是當前最先進的 AI,也僅能完成極少數具經濟價值的真實專案。
儘管 AI 在研究基準上的躍進迅速,但進入真實遠端工作市場後,依然存在明顯差距。主要障礙在於:自我校正能力弱、跨模態(視覺/音頻/互動)理解薄弱、長篇/多階段專案管理能力不佳。
因此,目前更合理的策略是將 AI 視為「強化人類能力」的工具,而非完全替代人類專業人士。
未來趨勢與實務建議
- AI 作為「協作夥伴」而非替代者:專業人士與企業應聚焦在 AI 能提升效率、輔助創作、改善流程的場景,並非單純追求全面替代。
- 強化資料真實性、驗證能力將成為關鍵突破點:未來若 AI 能夠自動偵測錯誤、修正檔案格式、跨模態驗證影片/互動效果,其於真實工作場景的應用才有機會大規模擴展。
參考資料
- Remote Labor Index 原始論文:https://www.remotelabor.ai/paper.pdf




