我們都曾經在電影中看過這樣的場景:由於懷疑有竊聽設備,主角們運用紙張溝通並不出聲響的進行任務。在語音助理應用普及後,許多人也都開始有了被智慧型產品監聽的疑慮,以現在來說,「不說話」確實能夠應對被監聽的可能,只是隨著科學家開發出能以高頻率聲波掌握環境的裝置,在未來,即使是在獨處不說話的時候,這些產品仍可能知道你的一舉一動。
許多動物都能透過回聲定位(echolocation)掌握周遭環境狀況,過去研究也曾成功讓盲人及視力正常者學會回聲定位,而在中國武漢理工大學的研究中,團隊則是成功運用麥克風陣列(microphone array)和演算法讓機器也具有相同能耐。
在這項已刊載於《應用物理快報》(Applied Physics Letters)期刊的研究中,團隊打造了一台與筆記型電腦大小差不多的設備,能夠發出人耳無法聽見的極高頻率聲波,並使用其中嵌入的數百個麥克風來監聽回聲,再透過 AI 技術從聲音反射中解讀人的行為,儘管目前技術仍處於發展階段,但團隊已經取得了一些有希望的初步成果。
在初步研究中,團隊對 4 名不同的大學生進行了測試,結果發現透過回聲定位,他們可以完全準確的辨識出確定這個人究竟是坐著、站著、走路還是摔倒,雖然這項技術是否適用於更多人、是否能辨別更廣泛的行為都還有待確認,但這項研究已經顯示出一種辨識人體動作的新技術潛力。
就像現在流行的智慧手錶一樣,團隊開發的設備也是收集訊號後透過電腦進行分析,在設備收集回聲之後,演算法會去除一些環境噪聲並開始分析數據的模式,Guo 認為如果使用更多的麥克風來獲取迴聲,各種動作間的音調差異將會更為明顯,演算法的準確性也將隨之提高。
團隊的麥克風陣列總計共有 256 個麥克風,由於太過笨重且成本過於昂貴,設備並無法大規模生產,團隊在嘗試提高精確度的同時也在試圖在減少麥克風的數量。以目前來說,並未有公司將類似的行為檢測技術發展為商業產品,但 Guo 已經對未來的應用有了一些想法。
除了能將納入類似 Amazon Echo 的設備中,讓使用者能更輕鬆關心自己家中的老人,在一些影像監視無法很好辨別的環境,也能夠作為影像辨識軟體的替代品。Guo 甚至認為基於聲音的監控能比影片監控更好的去保護個人隱私,這或許會使人們更願意在家中接受這種技術。
然而其他人並不這麼想。紐約研究機構 Data&Society 技術倫理學家 Jake Metcalf 認為,聲音監控很容易就能和影像結合,打造出一種更深入的監控形式。就像歷史上的許多發明一樣,儘管原始開發者希望的是某種正向用途,但他們並無法控制人們最終如何使用。
Metcalf 認為,整合監控或許真能挽救一些年邁長者的生命,但也可能被國家用來尋找、迫害特定族群,像是需要定時跪拜祈禱的穆斯林,同時也可能被駭客用來「偷聽」特定對象的親密行為。
以目前來說,團隊還必須進一步開發這種設備,才能將其應用到任何產品中。為了需要縮小硬體並保持功效,團隊計劃進行更多測試,來確保算法適用於更多族群及環境,隨著設備越來越進化,也許有人會為其找到適合的應用方式。
只是最終會應用在什麼樣的環境中,就不得而知了。 |