機器學習研究結果準確性普遍堪虞,可能正在導致一場「科學危機」

yobe 發表於 2019-2-19 16:13:21 [顯示全部樓層] 回覆獎勵 閱讀模式 7 1715

越來越多的科學研究涉及使用機器學習軟體來分析已經收集到的數據,這發生在從生物醫學研究到天文學的許多學科領域,且數據通常非常龐大而昂貴。

但休士頓萊斯大學的 Genevera Allen 博士近日卻表示,機器學習系統的使用增加,正在導致一場「科學危機」,並警告科學家,如果他們再不改進技術,將會浪費大量的時間和金錢。


「再現性危機」

根據 Allen 博士的說法,機器學習系統給出的答案很可能是不準確甚至完全錯誤的,因為軟體辨識的模式只存在於數據集中,而不存在於現實世界。


科學中的「再現性危機」指的是當另一組科學家嘗試相同的實驗時,無法重現當初的研究結果,或是發現它們站不住腳,而這意味著最初的結果是錯誤的。一項分析認為,在世界範圍內進行的生物醫學研究中,有高達 85% 都是浪費精力的無用功。


「現在人們普遍認識到科學中的再現性危機,我冒昧地爭辯說,其中很大一部分來自於在科學中使用機器學習技術。」她指出,這些研究結果通常不會被發現是不準確的,直到有另一個真正的大數據集,有人應用這些技術,才會發現兩項研究的結果不重疊。


這是一場已經持續了 20 年的危機,之所以會發生,是因為實驗設計得不夠好,無法確保科學家在看不到他們想看到的結果時不會自欺欺人。


有缺陷的模式

Allen 博士表示,機器學習系統和大數據集的使用加速了這場危機。這是因為機器學習演算法是專門為在數據集中尋找有趣的東西而開發的,所以在搜尋大量數據時,必然能發現其中的一個模式。


「問題在於,這些發現真的可信嗎?真的能代表科學嗎?是可重現的嗎?如果我們換一個額外的數據集,我們會看到相同的科學發現或原理嗎?很不幸,答案通常是否定的。」


Allen 博士正與休士頓貝勒醫學院的一組生物醫學研究人員合作,以提高他們研究結果的可靠性。她正在開發下一代機器學習和統計技術,這些技術不僅可以篩選大量數據進行發現,還可以報告結果的不確定性以及可能的重現性。


「收集這些龐大的數據集非常昂貴,我告訴和我一起工作的科學家們,你們發表論文可能需要更長的時間,但最終你們的成果將更能經受住時間的考驗。」Allen 博士表示,「這將為科學家節省資金,而且重要的是,能將機器學習從這些可能的錯誤方向上拉回正軌,進而促進真正的科學發展。」

已有(7)人回文

切換到指定樓層
樺sss 發表於 2019-2-19 19:56
現在可能大家認為不太可能
但可能幾年後研究成果就出來ㄌ
yobe 發表於 2019-2-19 21:02
其實本來就是
就連搜尋引擎出現之後
很多查詢到的資料也未必是正確的
小小藍天 發表於 2019-2-19 22:35
如果機器人選擇的結果是錯了
一開始如果就錯了
會浪費很多成本修正
abide0222 發表於 2019-2-20 01:01
機器人的學習目標就是人類的思想源端
所以是非對錯都是人類的行為
國外也有許多論文專門分析Machine language
整體感覺這個內文有點門外漢....
yobe 發表於 2019-2-20 13:27
太信賴電腦處理運算結果是將錯就錯
大數據給的資料不夠完善
leumas10 發表於 2019-3-6 13:54
雖然有大部分都是無用的
且有很多錯誤
但做研究本就是要一直改正錯誤才能成功
yrden 發表於 2019-6-29 12:07
如果數據資料已經是 bias 的,你不管如何做機械學習,出來的模型跟結果都不會是正確的....
你需要登入後才可以回覆 登入 | 註冊會員

本版積分規則

yobe

LV:-2 禁止發言

追蹤
  • 28741

    主題

  • 48008

    回文

  • 14

    粉絲