華東師范大學智能教育學院發布OmniEduBench,首次從「知識+育人」雙維度評測大模型教育能力。測評2.4萬道中文題后,實驗結果顯示:GPT-4o等頂尖AI會做題,卻在啟發思維、情感支持等育人能力上遠不及人類,暴露AI當老師的關鍵短板。
近年來,大模型在知識問答、數學推理等方面取得了驚人進展。
然而,當這些技術被引入復雜的教育環境時,一個關鍵問題隨之而來:我們現有的評估方式足夠嗎?我們如何全面評估它們的能力?一個好的「AI老師」僅僅是一個「解題高手」嗎?
當前的評測基準,尤其是在中文領域,存在兩大局限性:
-
維度單一:絕大多數基準(如C-Eval, MMLU等)主要關注模型的知識儲備和理解能力,即「知識維度」。此外大多數基準題型簡單,很難涵蓋現實考試場景中的全部題型類型。
-
忽視能力:它們很大程度上忽視了教育場景中不可或缺的「育人維度」(Cultivation Capabilities),例如啟發式教學、情感支持、道德價值觀培養、批判性思維引導等。
近日,來自華東師范大學的研究者們推出了OmniEduBench,一個專為評估中文大模型「綜合教育素質」而設計的全新基準,包含24,602個高質量問答對。
研究指出,現有基準大多集中在知識維度,而嚴重忽視了真實教育場景中至關重要的「育人能力」。