越來越多的科學研究涉及使用機器學習軟體來分析已經收集到的數據,這發生在從生物醫學研究到天文學的許多學科領域,且數據通常非常龐大而昂貴。
但休士頓萊斯大學的 Genevera Allen 博士近日卻表示,機器學習系統的使用增加,正在導致一場「科學危機」,並警告科學家,如果他們再不改進技術,將會浪費大量的時間和金錢。
「再現性危機」根據 Allen 博士的說法,機器學習系統給出的答案很可能是不準確甚至完全錯誤的,因為軟體辨識的模式只存在於數據集中,而不存在於現實世界。
科學中的「再現性危機」指的是當另一組科學家嘗試相同的實驗時,無法重現當初的研究結果,或是發現它們站不住腳,而這意味著最初的結果是錯誤的。一項分析認為,在世界範圍內進行的生物醫學研究中,有高達 85% 都是浪費精力的無用功。
「現在人們普遍認識到科學中的再現性危機,我冒昧地爭辯說,其中很大一部分來自於在科學中使用機器學習技術。」她指出,這些研究結果通常不會被發現是不準確的,直到有另一個真正的大數據集,有人應用這些技術,才會發現兩項研究的結果不重疊。
這是一場已經持續了 20 年的危機,之所以會發生,是因為實驗設計得不夠好,無法確保科學家在看不到他們想看到的結果時不會自欺欺人。
有缺陷的模式Allen 博士表示,機器學習系統和大數據集的使用加速了這場危機。這是因為機器學習演算法是專門為在數據集中尋找有趣的東西而開發的,所以在搜尋大量數據時,必然能發現其中的一個模式。
「問題在於,這些發現真的可信嗎?真的能代表科學嗎?是可重現的嗎?如果我們換一個額外的數據集,我們會看到相同的科學發現或原理嗎?很不幸,答案通常是否定的。」
Allen 博士正與休士頓貝勒醫學院的一組生物醫學研究人員合作,以提高他們研究結果的可靠性。她正在開發下一代機器學習和統計技術,這些技術不僅可以篩選大量數據進行發現,還可以報告結果的不確定性以及可能的重現性。
「收集這些龐大的數據集非常昂貴,我告訴和我一起工作的科學家們,你們發表論文可能需要更長的時間,但最終你們的成果將更能經受住時間的考驗。」Allen 博士表示,「這將為科學家節省資金,而且重要的是,能將機器學習從這些可能的錯誤方向上拉回正軌,進而促進真正的科學發展。」 |