
導言
Anthropic 於 2026 年發表的教育報告提出「AI 流利度指數」(AI Fluency Index),透過分析近萬筆與 Claude 的多回合對話,量化使用者在與 AI 協作時展現的可觀察行為。此報告為企業與技術主管提供一個基準,用以評估組織在導入生成式 AI 時的實作成熟度與風險點。
重點速覽:研究以 4D AI Fluency Framework 中可直接觀察的 11 項行為為主,發現「迭代與精進(iteration and refinement)」與其他流利度行為高度關聯;另外在產出 artifact(如程式碼或文件)時,使用者雖更具指令性,但對 AI 產出的評估行為反而下降。
如何量化 AI 流利度(方法與指標)
本研究採用由學者與 Anthropic 共同提出的 4D AI Fluency Framework,將 AI 流利度切分為多項可觀察行為。報告聚焦於在 Claude.ai 或 Claude Code 聊天介面中可直接辨識的 11 項行為(例如:迭代與精進、質疑模型推理、指出缺失情境、設定格式、提供範例等)。
研究資料來自 2026 年 1 月一週內的 9,830 筆多回合對話,採用隱私保護的分析工具逐一標註每場對話是否出現特定行為,並檢驗結果在不同日與不同語言間的一致性,以確認樣本的穩定性。
核心方法要點:
- 樣本:9,830 筆在 Claude.ai 上的多回合對話
- 可觀察指標:11 項行為(每場對話可同時呈現多項)
- 分析方式:逐條對話二元標註(有/無該行為),檢驗週期與語言一致性
研究限制(方法面):僅能觀察聊天介面內的行為,無法涵蓋框架中另外 13 項在對話外發生的重要行為(例如對 AI 輸出負責任的使用決策);此外以二元分類忽略行為強度或部分展現的細節。

圖片:一張流程圖示意 4D 框架到 11 項可觀察行為的關聯。
主要發現:迭代帶動流利度,產出情境降低評估行為
報告揭示兩大重要模式:
1. 迭代與精進是流利度的核心
85.7% 的對話包含迭代與精進(即以先前回覆為基礎反覆修正),而這類對話平均展現 2.67 項流利度行為,相較於非迭代對話的 1.33 項,幾乎多一倍。尤其在評估面向(如質疑模型推理、識別缺失情境)差距更大:迭代對話在質疑模型推理上的發生率高出約 5.6 倍,在識別缺失情境上高出約 4 倍。
此結果對企業意義重大:鼓勵使用者在 AI 互動中維持多回合、以迭代為導向,能顯著提高整體的甄別與驗證行為,降低因過度依賴單次回覆而產生的風險。
![The iteration and refinement effect: Comparison table or visual showing behavior rates with/without iteration and refinement]](https://www.anthropic.com/_next/image?url=https%3A%2F%2Fwww-cdn.anthropic.com%2Fimages%2F4zrzovbb%2Fwebsite%2F995a58d356ab28738abc3c1313296b298e4b77dc-1920x1080.png&w=3840&q=75)
圖片:柱狀圖比較有無迭代之下各行為的相對頻率。
2. 在產出 artifact 時使用者更具指令性,但評估行為下降
約 12.3% 的對話涉及生成 artifact(程式碼、文件或互動工具)。在這類對話中,使用者更常進行:
- 明確說明目標(+14.7 個百分點)
- 指定輸出格式(+14.5 個百分點)
- 提供範例(+13.4 個百分點)
- 進行更多迭代(+9.7 個百分點)
然而,相對地,對評鑑/辨識面的行為(例如:識別缺失情境、事實查核或要求模型說明推理)卻顯著下降(分別約 -5.2pp、-3.7pp、-3.1pp)。換言之,使用者在要求具體產出時傾向把重心放在指令性與格式化,而非批判性驗證。
對企業而言,這可能影響產品或服務品質:當 AI 生成看起來「完成」的工件時,若缺乏驗證流程,錯誤或不一致性可能被忽略。

圖片:雙柱圖比較 artifact 與非-artifact 對話在描述/委派行為與辨識行為的差異。
對企業導入的風險與機會(策略性觀點)
根據上述發現,可以從風險治理與效率增進兩面來思考:
- 機會:透過設計鼓勵迭代的使用流程(如內建回饋回圈、範本化的追問提示),可提升使用者在驗證與辨識上的行為頻率。
- 風險:在需要高正確性或法遵的場景(法務文件、財務分析、關鍵程式碼),若僅依賴 AI 所產生的「完成品」而缺少審核,將增加錯誤、偏誤或責任歸屬模糊的風險。
因此企業在導入生成式 AI 時應同時投資於使用者訓練、流程設計與檢核機制,以確保可觀察行為與不可觀察但關鍵的倫理實務同步提升。
發展使用者 AI 流利度的建議(企業視角)
基於研究中的行為模式,對企業與技術主管的建議包括:
- 把「迭代」納入標準作業流程:在工具或內部培訓中強制或鼓勵多回合互動與逐步驗證。
- 在產出導向的使用情境中設計驗證檢查點:即便輸出看似完成,也應強制事實查證、同行審閱或自動化測試。
研究限制(面向與解讀)
Anthropic 報告指出多項限制,對企業解讀此指數時應謹慎:
- 樣本為單一週期(2026 年 1 月)且偏向多回合使用者,可能高估早期採用者的成熟度。
- 僅可觀察對話內行為,無法衡量對話外的關鍵行為(如透明揭露 AI 參與、後續風險評估與責任分配)。
- 採用二元標註方式忽略了行為強度與部分表現的差異。
- 研究為相關性分析,無法直接斷定某行為會造就另一行為的因果性。
未來趨勢
- 隨著模型產能與可用性提升,企業會更仰賴 AI 產生可交付物,但同時會發展更多自動化的驗證工具(如自動化事實核查、靜態分析與合規掃描)。
- AI 流利度的衡量將從可觀察對話行為擴展到整個協作生態,包括責任揭露、使用者外部驗證與跨工具的能力指標。
給專業人士的實務建議
- 在團隊內建立「迭代文化」:推動多回合互動與持續回饋,避免把 AI 回覆當成一次性答案。
- 為關鍵產出設計強制性驗證:包含事實查核流程、同儕審查或整合測試,確保 AI 產物在上線前被檢驗。
參考資料
本文整理自 Anthropic 的《Education Report: The AI Fluency Index》(2026-02-23)。如需延伸閱讀
(來源若需逐條引用,建議以 Anthropic 原報告為主)




