台灣時間 2017 年 6 月 6 日凌晨 1 點,第 28 屆 WWDC 蘋果全球開發者大會,蘋果終於壓軸重磅發表了 HomePod,一款蘋果精心打造的智慧型音響。但是,估計這讓很多果粉失望了,這應該是蘋果系列中極少稱得上「很醜」的產品。鑑於筆者並不懂藝術,因此凌晨著急詢問了很多美學人士,這才沒讓筆者懷疑自己的審美出現了問題。
HomePod 的設計師估計是成長在 80 年代的中年人,因為看到 HomePod 的第一眼就想起媽媽的毛線球,新世紀的年輕人哪見過這古董。當然,還有一種更難看的尼龍繩球也是這個造型。
HomePod 雖然醜了點,但性能一點不差,蘋果對用戶體驗的極致追求還在,而且,HomePod 是迄今為止首款回歸音響本質的智慧型音響。蘋果甚至不惜代價同時部署了麥克風陣列和揚聲器陣列,這就是蘋果的態度:不僅追求遠場語音互動的體驗,也追求極致音質帶來的享受。
靴子落地,為何要用 6 麥的環型陣列HomePod 內建 Siri,這次蘋果採用業界流行的 6 麥環形陣列技術。這種麥克風陣列技術適合遠場語音互動,這樣可以滿足用戶遠距離透過「Hey, Siri」與 HomePod 的命令互動。蘋果 HomePod 採用麥克風陣列技術,也表明了蘋果將 Siri 從近場語音互動升級到遠場語音互動的技術思路。
前幾年,語音互動應用最為普遍的就是以 Siri 為代表的智慧手機,這個場景一般都是採用單麥克風系統。單麥克風系統可以在低噪聲、無混響、距離聲源很近的情況下獲得符合語音辨識需求的聲音信號。但是,若聲源距離麥克風距離較遠,並且真實環境存在大量的噪聲、多徑反射和混響,導致拾取信號的質量下降,這會嚴重影響語音辨識率。
而且,單麥克風接收的訊號,是由多個聲源和環境噪聲疊加的,很難實現各個聲源的分離。這樣就無法實現聲源定位和分離,這很重要,因為還有一類聲音的疊加並非噪聲,但是在語音辨識中也要抑制,就是人聲的干擾,語音辨識顯然不能同時辨識兩個以上的聲音。
顯然,當語音互動的場景過渡到以智慧型音響、智慧電視、機器人或者汽車為主要場景的時候,單麥克風的局限就突顯出來。為了解決單麥克風的這些局限性,利用麥克風陣列進行語音處理的方法應時而生。麥克風陣列由一組按一定幾何結構(常用線形、環形)擺放的麥克風組成,對採集的不同空間方向的聲音信號進行空時處理,實現噪聲抑制、混響去除、人聲干擾抑制、聲源測向、聲源追蹤、陣列增益等功能,進而提高語音信號處理品質,以提高真實環境下的語音辨識率。
從目前海內外市場產品來看,Amazon Echo 的方案是 6+1 麥的環型陣列結構,Amazon Echo Show 是 8 麥橢圓型陣列結構,Google Home 是 2 個麥克風結構,中國科大訊飛的叮咚音響是 7+1 麥的環型陣列結構,當前聲智科技的產品線最為齊全,擁有 3 / 4 / 4+1 / 6 麥的環型陣列結構以及單麥、4 麥線型、6 麥 L 型,8 麥雙 L 型、10 麥分布式陣列等結構。
實際上,不同的陣型適應不同的場景,同時還要考慮性價比,顯然陣列結構越複雜其成本也越高。而對於智慧型音響來說,由於用戶使用習慣需要 360 度的拾音和定向,所以環型陣列結構是最為合適的。至於選用 3 個、4 個還是 6 個,則是根據定向精度和互動距離來決定,從某個角度可以理解為麥克風的數量越多定向越準,語音識別的距離也會越遠,當然,這和陣型的具體結構也有關係。
注意,這裡的 2 麥克風不是陣列,並不具有陣列的一些功能和性能,2 麥最通常是用在類似手機和藍牙耳機等超薄的裝置上實現降噪功能,實際上,很多場合經過特殊設計的單個麥克風即可替代 2 麥結構。由於蘋果 HomePod 必須差異於 Amazon Echo 和 Google Home,選用 6 個麥克風的結構非常明智,性價比最為合適,這也是聲智科技主推的麥克風陣型,事實上,根據聲智科技當前的技術,選用 4 個麥克風的效果也不會太差,只是語音互動距離會損失一點。
智慧型音響的根本屬性還要聽音質智慧型音響畢竟還是音響的品類,這是成熟的品類,也不明白為何很多智慧型音響的廠商非要定位自己是機器人。事實上定位於機器人對於消費市場來說反而是一個災難,因為機器人市場還是一個需要巨大投入教育的市場。因此,HomePod 選擇了回歸音響的本質,非常注重音質和聽覺體驗。
HomePod 擁有非常棒的音頻技術,底部採用了 7 個波束形成的高頻揚聲器陣列,可以精準呈現聲學效果以及聲場控制。過分的是,在如此小的產品之中,蘋果竟然用了一個 4 吋的低頻揚聲器,這裡就不再強調低頻揚聲器越大越好了。
不僅如此,HomePod 還採用了大量音效演算法,包括自動低音均衡、動態建模等。雖然 7 英吋的小身材,即使調大音量,音質也不會失真。 HomePod 採用的是蘋果手機使用的 A8 處理晶片,同時兼具了實時聲學建模、音頻波束形成、多通道迴聲消除技術,這使 HomePod 是迄今為止速度最快、音效最棒的智慧型音響。筆者相信,單憑這個理由,就有很多果粉會掏腰包。
另外,蘋果也提到了 Spatial awareness 技術,其實這不是什麼新奇的技術,就是強調了空間感和沉浸感,也就是讓音樂在不同的場景以不同音效播放。顧名思義,當 HomePod 放在房間裡,可以根據現場環境來調整音樂效果。
雖然不新鮮,但是這是一個很大的進步,因為虛擬空間音效極度依賴空間的聲場環境。順便多說幾句,杜比折騰了那麼多年的全景聲,應用到家庭級產品中始終沒解決這個問題。小米的超薄電視強調空間音效,也就增加了從天花板反射的聲音,但是杜比顯然無法依據用戶的家庭環境來適應最佳音效。
當然,HomePod 肯定支持多房間音樂系統,如果使用多個 HomePod,其音效將更棒,這更適合國外喜歡聚會的年輕朋友。當前聲智科技也提供了支援多房間音樂系統,同時還有一項「就近喚醒」的技術,也就是當多個語音智慧設備同時存在,優先響應用戶指令的是距離用戶最近的智慧裝置。
至於蘋果的音樂生態、家庭控制就不再重複強調了。HomePod 增加的聲紋辨識功能倒是一個小亮點,這樣 Siri 會辨識用戶的聲音是否與用戶聲紋相符,不僅提升使用效率,而且能為用戶的隱私提供安全保障。
那麼,為什麼蘋果越變越醜了呢?似乎不僅 HomePod,蘋果自從離開賈伯斯時代後,就再也沒推出過外觀令人驚豔的產品,甚至,閉著眼睛都能猜到蘋果 iPhone 8 的造型,更不用說一直沒變化的 Mac 和 iPad 系列了,包括 AirPods 的設計也是吐槽對象。這自然是庫克的功勞,這位供應鏈出身的 CEO 驅動蘋果帝國一直前行,但太過務實的作風也讓庫克失去了結合技術和藝術的掌控力。
顯然,HomePod 是藝術妥協技術的結果,因為從布局來看,從下到上依次是高頻揚聲器陣列、麥克風陣列、4 吋低頻揚聲器和主控板,這樣羅列在一起,再考慮到聲學結構設計,從技術角度來看確實也想不出更好的造型。但這是蘋果啊!擁有全世界最牛的設計人員和技術人員,結果還是設計出一款沒有擺脫技術思路的產品。
有時候不得不說,讓技術或供應鏈的大腕負責產品設計或也是一場災難。總之,這是一款完全符合技術人員審美和風格的產品,因為從技術層面來說,這款音響確實沒毛病,而且還挑戰了技術難度,比如麥克風陣列放置中部的技術實現難度就很大。
產品的尷尬,如何應對蘋果的打法但蘋果終歸是蘋果,蘋果對產品的理解和打法還是超過普遍業界認知。首先來看蘋果的定位,高階這是必須的。Amazon Echo 是先入為主的產品,售價 179 美元,這接近成本的價格很要命,幾乎堵住了很多產品的出路。逼 Google 不得不走低階,售價拉低到 129 美元,為此還棄用了麥克風陣列,犧牲了遠場語音互動的體驗。
不管怎樣,反正蘋果售價定到 349 美元了,這對蘋果應該還算降價了,但是也把高階智慧型音響市場的出路給堵死了。其次,蘋果既然定位高階,其產品就要給消費者帶來高階的體驗,因此蘋果堆砌了麥克風陣列和揚聲器陣列技術,再加上原本的音樂和控制生態,對於吸引一大批蘋果粉絲來說,還是穩妥的策略。當然蘋果最大的失誤就是 HomePod 醜了一點,否則會讓更多廠商感覺悲觀。
從當前國外市場來看,Amaon、Google、Apple 從低階到高階針對智慧型音響的佈局,一致都壓縮利潤空間,這絕對不是一款以賺錢為目標的產品,而是一款戰略級的產品。說白了,巨頭們壓根就沒指望依賴智慧型音響賺多少錢,而是不能失去這個語音入口,即便不確定未來是不是入口,至少賭錯了要比錯過更好。何況,以現在的形勢來看,聲音和圖像注定是人工智慧時代的兩大核心基礎數據。
這就產生了一個難題,Amazon Echo 和 Google Home 怎麼應付?Amazon 還好,畢竟市場佔用率在那,而且產品線也比較齊全,尷尬的反而是 Google,花費那麼大精力,反而只是做了其他兩家巨頭的陪襯。這還好,最尷尬的是中國做海外市場的一些廠商,比如聯想,聯想的智慧型音響該怎麼面對這個複雜的情況?在這樣的壓力下,會不會有更令人驚喜的產品出現,比如小米該如何行動?這也是這個年度最期待的事情。
為什麼 HomePod 需要等到年底?蘋果 HomePod 預計至少等到 12 月才在美國、英國、澳洲同步發售,而全球發貨要等到明年稍晚。這是什麼情況?一款音響竟然就要等到半年以上。而且,根據現場的朋友反應,發表會展示的音響,應該只是一個殼子,因為除了展示時亮了一下燈,其他什麼功能都沒有。所以,蘋果確實也急了一點,必須要推出智慧型音響才行了。
不得不說,這也是技術上頗尷尬的事,蘋果絕對保證用戶體驗,但 HomePod 一下子加了兩個陣列,哪個陣列都不是簡單的事情。畢竟現在的產品已不是純功能型的產品,這是一個完整的技術鏈條。比如麥克風陣列,就包括了噪聲抑制、混響去除、人聲干擾抑制、聲源測向、聲源追蹤、陣列增益、模型匹配、語音辨識等功能,這都是需要認真打磨的複雜技術體系,即便是蘋果,也需要足夠的時間積累經驗。產品考驗的是每處細節, 所以很多時候,請善待你們身邊那些沒日沒夜加班的創業公司吧。
蘋果為何如此重視一款音響?隨著人工智慧領域的不斷發展,人們開始追求更自由的語音互動方式,遠場語音互動的優勢逐漸突顯出來。事實上 Echo 出現之前,語音互動產品解決的一直都是近場問題,這是典型的由於技術限制而刻意迴避場景的案例,因為近場語音互動要求人類適應機器。
但是人類之間的語音互動從來都要拉開一定距離,所以現在需要機器適應人類。這可以說是計算機技術的巨大進步,也是人工智慧的核心要素之一。
當然,這並非聲學領域特有的問題,當鏡頭和雷達安裝到汽車,以及 GPS 安裝到自行車的時候,場景變化所帶來的技術挑戰才會突顯,因為真實場景需要的技術支援並非簡單升級,而是顛覆性創新,這也是巨頭公司紛紛進入這個領域的主要原因,誰也不想在技術升級換代過程中被淘汰。
事實上,當機器獲取的融合數據足以覆蓋到人類十分之一的時候,人類確實很多時候只需要說一說、看一看或想一想,機器就能明白,但這個時候,我們也不知道到底會產生哪些新的商業模式,畢竟從我們角度來看,廣告模式肯定不是人工智慧時代的最佳商業模式。
從亞馬遜 Echo 暢銷,大家逐漸瞄準智慧型音響。Google 推出 Google Home,微軟也聯手哈曼卡頓、惠普等推出搭載 Cortana 的智慧音響。雖然,蘋果透過智慧耳機 Airpod 搶佔語音市場入口,然而,隨著亞馬遜 Alexa 用 Echo 在智慧家居市場攻城略地,似乎漸漸吞噬蘋果在智慧家居領域的市佔率,也逐漸穩固其語音互動入口的地位,Alexa 似乎成為新一代「Android」或「OS」。如此看來,蘋果推出 HomePod 的確勢在必行。
即便在賈伯斯時代,蘋果的每款產品發表都會被吐槽多次,但蘋果的銷量就是最佳回應。至少,從蘋果 HomePod 的性能和價格來看,HomePod 的銷量也不會太差,這從 Airpods 可以類比一下。
延伸閱讀: