人工智慧的發展一日千里,但是包括視覺辨識、自動駕駛其實都離完美還有很大一段路要走。
這則《七分鐘用監視器抓到嫌犯》的新聞你一定不陌生。中國早已透過大數據,建立起可即時追蹤每個人面孔的社會監控系統;而這也是機器學習用在視覺辨識威力最強,卻也最令人恐懼的應用之一。
但有的讀者也應該知道,就連 Google 的視覺辨識 也犯過把黑人誤認成黑猩猩這種尷尬又敏感的錯誤。機器學習已經全面進入我們的生活,卻看似萬能卻有時又是顯得如此不可靠,這是怎麼回事?我們真能把我們的一切全交給機器學習嗎? 下面就以科普角度,從原理開始跟大家討論這個話題。
讓我們先用幾張簡單的圖,介紹機器學習用於視覺辨識的原理吧!首先第一張圖是假設我們「A 是蘋果」、「B 不是蘋果」,然後圖中實線的長橢圓形,代表我們人類在視覺上判別「這東西是不是蘋果」的界線。 好,接下來我們找出八張圖片,其中圈內的四張標註這是蘋果,另外圈外的四張標註這不是蘋果,設定好演演演算法讓機器學習辨別什麼是蘋果,什麼不是蘋果,就可以得到一個自動辨認「這東西是不是蘋果」的模型了,是不是很方便啊? 但問題就來了,我們用這八張圖片用機器學習學到的模型,可能反而是長成圖中虛線的橫橢圓形,跟我們人類認知的蘋果範圍大異其趣;你也不能說它錯,因為它是依照你所提供的資料畫出的模型。 所以你就知道為什麼很多時候機器學習訓練出的模型會發生誤認了。 當然這只是原理解說,現實的機器學習訓練過程比上述簡單的圖例複雜多了; 理論上只要資料越多,就幫助電腦畫出的模型越趨於人類視覺判別的那條線,這也是大家常常聽到為什麼只要資料越多,機器學習算出的模型就會越精準的原因。 但資料再多,目前還有另一大問題:很多時候機器學習畫出的模型還不是這麼工整的橢圓形,而是坑坑洞洞,歪七扭八。 先看看下面這張知名圖例,最左邊是很明顯是一張熊貓,機器學習也以 57.7% 判別率辨認出這是隻熊貓,但加了中間肉眼難以辨認雜訊以後,模型反而以 99.3% 的判別率辨認這是隻長臂猿。
另外下面幾張圖也是另一個避開視覺辨識的好例子:這種特殊化妝干擾這些臉部識別技術,隱藏人們在鏡頭下的身份。另一位來自柏林的藝術家 Adam Harvey 把這種技術稱為 CV Dazzle。其原理是目前的臉部識別技術都仰賴人臉的眼睛或鼻樑特徵,進一步辨認它們的相對位置、對稱性,膚色色調和皮膚紋理是否相符合;換句話說,只要能破壞人臉特徵的延續性,其實就能破解這類臉部識別技術。
Photo Credit: CV Dazzle
Photo Credit: CV Dazzle
AI 有我們想像中那麼安全嗎?那這會產生什麼問題?第一,人身安全直接相關(如自動駕駛)等領域要運用機器學習,是否距離還比想像遙遠的多?別誤會,這個提問不是要否定 Google Waymo、TESLA 或是各大車廠對自動駕駛所投入的努力,但再看一次,這張光一點雜訊就能把 STOP 標誌、時速 80 變 30 公里,右轉變直走的下圖(論文請見連結)。 還有這段 TESLA 車主模擬自動駕駛車禍的過程。 [Youtube]6QCF8tVqM3I[/Youtube]
事實上,現在汽車、飛機或船舶交通工具,或是其他直接跟人身安全有關的電子控制系統都需經過非常嚴謹的形式化驗證(Formal Verification);但現在發展最迅速、產值最大也跟大家生命最息息相關的自駕車,卻沒有相對應的嚴謹形式化驗證,不是會讓人捏一把冷汗嗎?
上個月發生的 UBER 自駕車致死車禍,就是最血淋淋的案例;這起事件緣起為車載軟體識別敏感度設定過低,導致無法正確判斷物體,也無法判定突然從路口另一側走出的人是否會造成碰撞意外,釀成悲劇。 [Youtube]pO9iRUx5wmM[/Youtube]
這就是為什麼需要形式化驗證的原因。 而且雖然世上沒有完美無缺的系統,自動駕駛非常十分具有商業潛力,而且目前以機器學習為主的模型雖然在某個很專精、特定領域可發揮極大能力(例如 AlphaGO);但只要應用環境複雜一點,機器學習模型所產生不可預期的漏洞或攻擊法還是太多了。 這延伸到第二個規模更大的問題:電腦科學與人工智慧,只有深度學習與類神經網路這條路嗎?2012 年 Alex Krizhevsky 以 GPU 分散式運算開啟了新一波人工智慧熱潮,但這一兩年是不是成了過熱的 Buzzword,是否讓許多新進工程師、產品經理、創投或大眾只關注深度學習與類神經網路,而忽略了其他演演算法?
機器學習與類神經網路很強,但距離人類把全部生活,甚至生命安全交給在他們手上的日子,或許還早了點。
|