透過研究顯示,人類研發的機器也能學到人類看世界的觀點,無論是否有意。對閱讀文本的人工智慧來說,它可能會將「醫生」一詞與男性優先關聯,而非女性,或影像辨識也會更大機率將黑人錯誤分類為大猩猩。
2015 年,Google Photos 應用誤把兩名黑人標註為「大猩猩」,當時這錯誤意味著 Google 的機器學習還處於「路漫漫其修遠兮」的狀態。Google 立即對此道歉,並表示將調整演算法,以修復該問題。近日,身為錯誤的責任方,Google 正在嘗試讓大眾了解 AI 如何不經意間永久學到創造它們的人持有的偏見;一方面,這是 Google 對外 PR(公關)的好方式,其次,AI 工程師也可用一種簡單的方法來簡介自己的偏見演算法。
[Youtube]59bMh59JQDo[/Youtube]
在影片中,Google 介紹了 3 種偏見:
互動偏差:用戶可透過我們與其互動的方式來偏移演算法。例如,Google 召集一些參與者,讓他們每人畫一只鞋,但多半用戶會選擇畫男鞋,故以這些資料為基礎的系統可能不會知道高跟鞋也是鞋子。
潛在偏差:該演算法會將想法和性別、種族、收入等不正確地聯繫。例如,當用戶在 Google Search 搜尋「醫生」時,出現的大多為白人男性。
之前 Quarts 發了一則相關新聞,該報導稱,經普林斯頓大學最新研究成果,這些偏見,如將醫生與男性相關聯,將護士與女性關聯,都來自演算法被教授的語言影響。正如一些資料科學家所說:沒有好的資料,演算法也做不出好決策。
選擇偏差:據了解,用於訓練演算法的資料量已大大超過全球人口,如果訓練影像辨識的資料僅針對白人進行,那麼得到的資料也只能來自 AI 有限的認定。
去年 6 月,「青年實驗室」(輝達、微軟等科技巨擘均是該實驗室的合作夥伴和支援者)舉辦了一次 Beauty.ai 網路選美大賽。比賽透過人工智慧分析,徵集了 60 萬條紀錄。演算法參考皺紋、臉部比例、皮膚疙瘩和瑕疵的數量、種族和預測的年齡等因素。最後結果顯示,種族因素比預期發揮更大的作用:在 44 名獲獎者中,其中有 36 人為白人。
事實上,關於演算法中含有性別、種族偏見的研究和報導,早已有之。據之前報導,要消除這些偏見,並不容易。正如微軟紐約研究院的進階研究員 Hanna Wallach 所說:
只要機器學習的程式是透過社會已存在的資料訓練,那麼只要這個社會有偏見,機器學習就會重現這些偏見。
|
|