根據調查顯示,以自然語言處理為基礎的人工智慧論文評分系統,美國至少 21 個州已引入正式考試的評分工作。
這些機器評卷員的背後,有大量資料為參考,即使一天閱卷無數,也不會因疲勞及不高興的情緒影響閱卷的效率和公正。
但事實真是這樣嗎?最近 VICE 的報導顯示,這些 AI 評卷員實際上並沒有大家想像中公正。
無可避免的演算法偏見AI 評卷,其實也沒有大家想像的公正。首先第一個問題,就是演算法偏見。
教育行業一直以來都在盡力消除對不同語言背景的學生產生的潛意識偏見,但這個問題在人工智慧評卷系統相當嚴重。
ETS(美國非營利性考試服務中心)提供的 E-rater 機器評分系統,目前正為 GRE、TOEFL 等考試提供評分參考。ETS 也是眾多機器評分系統提供商中,極少數有提供偏差研究報告的。
ETS 新產品開發副總裁 David Williamson 表示: 其實評分系統有演算法偏見是普遍的問題,只不過大多數提供商都不會像我們這樣公開。
多年的研究裡,ETS 發現機器評分系統「偏愛」中國學生,給的分數整體會比人類評卷員更高。同時非裔美國人、阿拉伯裔學生、西班牙留學生等群體更容易受到機器的偏見,得到的分數會更低一些。
(Source:VICE)
為此,ETS 在 2018 年深入研究演算法,最終發現了原因。
以 GRE(美國研究生入學考試)為例,中國學生由於篇幅更長,且會在論文使用大量複雜詞彙,使機器誤認為論文水準高於平均水準,才給更高的分數。即使這些複雜句型在人類評卷員看來和論文主旨沒有太多關聯,甚至能明顯看出是套用背好的範本。
相反地,由於非裔美國人、阿拉伯裔留學生的語言風格更偏向簡單直接,導致在機器評分系統很難獲得較高分數。 這些偏見也直接反映在分數,測試時,一群水準相當的學生中,E-rater 機器評分系統為中國學生的平均分達 1.31 分,非裔美國人只有 0.81 分。
當然,如果有參與 GRE 的讀者不用擔心,因為該系統目前只是幫人類評分員「輔助」而已,最終的論文成績依舊由人類決定。
除 ETS 外,紐澤西理工學院也發現自家使用的機器評分系統有演算法偏見。
紐澤西理工學院之前透過名為 ACCUPLACER 的評分系統判斷 1 年級學生是否需要額外輔導,但後來經過技術委員會研究發現,系統對亞裔、西班牙裔學生所寫的論文有偏見,並不能公正地判斷。
甚至「狗屁不通」的論文也能獲得高分如果說演算法偏見只是影響分數高低,對考試公正影響還不算特別大,那機器評分系統還有個更嚴重的缺陷。 就是連胡編亂造也辨識不能。
幾年前,麻省理工學院的預科主任 Les Perelman 和一群學生利用論文語言生成器 BABEL 生拼硬湊出數篇論文。 這幾篇論文與正常論文不太一樣,雖然用了很多高級詞彙、複雜句型,但大部分內容都前言不搭後語,甚至可用「狗屁不通」形容。
他們將這幾篇論文提交至幾個不同的機器評分系統,出乎意料的是,都獲得不錯的成績。
讓人想不到的是,幾年後 VICE 複製了該實驗,結果也驚人地相似。紐澤西理工學院教授 Elliot 表示:
目前的論文評分系統更強調語法的準確性、書面語言的標準性。但卻很難發現學生敏銳的觀點和特別的洞察處。然而這兩點在人類評卷員看來,都是一篇論文最寶貴的地方。
(Source:pixabay)
目前,已經有不少教育領域人士對這些機器改卷員提出質疑,澳洲也宣布暫時擱置在標準考試引入機器評分系統。 AI Now 研究所的 Sarah Myers West 表示,與更廣泛的人工智慧應用領域一樣,想消除評分系統的演算法偏見也是場持久戰。
不過儘管如此,無論紐澤西理工學院的教授 Elliot 還是 AI Now 研究所的 Sarah Myers West,他們都還是發展機器評分系統的支持者。因為這確實是未來的發展方向,正如猶他州考試發展評估員 Cydnee Carter 所說,透過機器評估論文,不僅能為國家的教育系統省下大量人力和物力,未來還能提供學生和教師即時學術回饋,提高教育效率。
只不過做到完全公平公正之前,這些機器評卷員還是只能當輔助角色。 |