
在生成式 AI 全面進入校園後,許多教師正面臨一個棘手卻真實的問題:
學生交出的作業愈來愈完美,但他們真的理解了嗎?
來自 紐約大學史登商學院 的資料科學教授 Panos Ipeirotis,最近就親身經歷了這種「詭異的幸福」。他的實驗不只是一門課的插曲,而是對整個高等教育評量制度的正面衝擊。
一、作業品質異常飆升,卻揭露更大的評量危機
在與 Konstantinos Rizakos 合開的《AI/ML 產品管理》課程中,Panos 發現學生的課前作業品質突然全面「升級」——
結構嚴謹、語言精煉,幾乎像顧問公司反覆修訂過的正式報告。
然而,當教師在課堂上隨機請學生解釋自己繳交的內容時,問題立刻浮現:
不少學生在被追問兩三個關鍵細節後,便無法清楚說明自己的決策邏輯,甚至完全當機。
結論非常殘酷:
如果學生連自己交出的作業都說不清楚,那這份作業就根本無法衡量其真實理解能力。
這已不只是作弊或投機,而是整個作業評量機制在 AI 時代失效。
二、為什麼「現在」必須重新思考口試?
核心原因其實很直接:
大型語言模型(LLM)已能即時完成大多數傳統作業與專題成果。
- 課後作業 → 可隨時請 ChatGPT 協助
- 小組專題 → AI 可生成完整簡報與講稿
- 課堂報告 → 即使未實際參與,也能講得條理分明
Panos 坦言,真正讓他感到無力的,不再只是「搭便車」,而是教師已無從判斷誰真正參與、誰真正理解。
此時,「口試」重新浮上檯面,因為它具備三項 AI 難以取代的特性:
- 即時推理與臨場反應
- 對陌生問題的即時應用能力
- 能為每一個決策提出清楚、可追溯的理由
唯一的問題只有一個:
口試長期無法規模化——除非,考官本身也是 AI。
三、用語音 AI 代理,讓口試第一次得以規模化
為了解決人力與排程的後勤噩夢,Panos 團隊選擇使用 ElevenLabs 的對話式語音 AI 平台,打造一套「AI 口試考官」。
核心設計重點
- 動態變數注入:學生姓名、專題內容皆可個人化
- 工作流架構:由多個子 Agent 分工,而非單一泛用模型
口試流程
- 討論學生專題:目標、資料來源、模型選擇依據、失敗經驗
- 即時案例分析:隨機抽取課堂案例,測試知識吸收程度
背後由三個子 Agent 支撐:
- 身分驗證 Agent
- 專題討論 Agent
- 案例討論 Agent
這樣的設計,不只降低對話失控風險,也讓系統調校更清晰可控。
四、成本與成效:數據給出了明確答案
實際執行結果顯示:
- 36 名學生,9 天內完成所有口試
- 平均每人 25 分鐘
- 每位學生成本僅 0.42 美元
- 總成本約 15 美元(人工至少 750 美元以上)
此外,團隊引入「三模型評分委員會」:
- Anthropic 的 Claude
- Google 的 Gemini
- OpenAI 的 ChatGPT


經過交叉審議後,模型間評分一致度大幅提升,證實 AI 評量是可以被校準、被監督的。

五、AI 口試的關鍵價值:讓教學盲點無所遁形
透過結構化拆解成績,Panos 團隊發現:
- 「實驗設計」是全班最弱的能力項目
- 無任何學生達到精通等級
這迫使教師正視一個事實:
問題不只在學生,也在課程設計本身。
更有意思的是:
- 口試時間長短與成績完全無相關
- 真正理解者,往往回答更精煉、效率更高

六、學生真的接受 AI 口試嗎?
調查結果相當真實:
- 多數學生仍偏好傳統筆試
- 83% 認為 AI 口試壓力更大
- 但有 70% 認同它更能檢驗真實理解程度
換言之:
學生未必喜歡,但他們知道這樣更公平。
結語|AI 正在讓「真正的學習」回歸本質
Panos 的總結相當明確:
作業的時代已經結束,
回到紙筆考試只是技術上的倒退。AI,正在讓口試重新變得可行、可規模化。
更重要的是,這套系統甚至能開放給學生反覆練習——
不是背題,而是訓練思考與表達本身。
給專業教育工作者的未來趨勢與實務建議
- 評量設計應從「成果導向」轉向「推理與決策歷程導向」
- 將 AI 視為教學診斷工具,而非單純風險來源



![[2026 AI 轉型]政府補助最高95~200萬! Build School協助企業導入 AI一站式服務-從OpenAI GPT/ Gemini、GitHub Copilot、M365 Copilot、Azure AI、Google Vertex AI 等工具及雲端平台](https://learn.build-school.com/wp-content/uploads/2026/01/government-ai-subsidy-program-1-150x150.png)
