你可能聽過,河南的農村,非洲的城市,每個想像不到的地方,有大量的資料標記員。他們手動把圖片裡的花瓶和汽車框出來,標上「花瓶」和「汽車」文字。一段時間後,這些人把成千上萬張標記的圖片打包,傳送給遠在北京、上海甚至舊金山的 AI 公司。
你可以將這些人稱為《幫人工智慧打工的人》。
人工智慧發展迅速,大大小小的網路科技公司相繼開展研究,投入商用。然而訓練可用的 AI,需要大量準確標記好的圖片、影片等資料庫。
正因為此,市場對資料標記的需求如此大,吸引「幫 AI 打工的人」爭相加入,不乏找不到工作的閒散人──畢竟這份工作只需動動滑鼠,用不了太多知識。
但恐怕不久後,這些人將再次失業。
上週,約翰‧霍普金斯大學、史丹佛大學和 Google 專家聯合發表一篇論文,介紹使用神經網路自動搜尋神經網路,投入影像分割研究,並取得重要進展:
研究人員採用神經架構搜尋(Neural Architecture Seartch,NAS)技術設計一個神經架構(A),放任它自動搜尋/設計新的神經架構(B),投入影像語義分割(semantic image segmentation)工作。
研究人員發現,自動搜尋出來的神經架構 B,在主流小型影像資料集,未經訓練就直接使用,表現竟超過人類設計、預先訓練好的模型。
以往人們一直相信,設計 AI 需要大量知識和經驗,簡而言之就是需要人來設計。 但現在,AI 設計的 AI,已經比人設計的 AI 更強。
論文題目為《Auto-DeepLab: Hierarchical Neural Architecture Search for Semantic Image Segmentation》。
研究人員將能自動搜尋(設計)神經架構的技術命名為 Auto-DeepLab。這個名字來自 DeepLab,Google 人工開發的影像語義分割技術。前面加上 Auto,意思是在 DeepLab 的基礎上,新技術可做到很大程度的自動化。
論文署名作者中,兩人來自約翰‧霍普金斯大學,第一作者是 Chenxi Liu,曾在 Google 實習;4 人來自 Google;剩餘一人來自史丹佛大學,正是前 Google Cloud 首席科學家,電腦視覺學術和業界都知名的李飛飛。
「本著 AutoML(註:Google 主導的 AI 計畫,將選擇演算法、超參數調整模型,建模更新和評估模型等工作自動化)和人工智慧普及化的精神,對不依賴專家經驗知識,自動設計神經網路架構,人們的興趣有顯著提升。」作者提到。 在「AI 自動設計 AI」這件事上,Auto-DeepLab 有幾個較重要的新嘗試。
首先,神經架構搜尋 NAS 技術是 AI 領域的新興物種,主要用於簡單的圖片分類。這篇論文裡,研究者首次嘗試將 NAS投入高密度的圖片預測工作(也就是語義分割更複雜的高解析度圖片,如 Cityscapes 城市街景資料集、PASCAL VOC 2012和 ADE20K 等資料集)。
其次,電腦視覺領域的神經網路架構,通常分為內外兩層的兩級架構,自動化的神經架構設計往往只能設計內層,外層仍需人來設計和手調。而 Auto-DeepLab 是第一個讓 AI 掌握外層設計和調參能力,並在影像語義分割工作得到優異結果的嘗試。
「影像語義分割」6 個字聽起來拗口,其實很好理解:分類一張圖,然後將所有像素點歸類。
比如下面這張圖,可簡單分成三類。影像語義分割的工作,就是判斷每個像素點屬於人、自行車還是背景。 需要明確的是,影像語義分割的工作純粹是判斷像素點屬於哪類,無法辨識和區分獨立物體。
不過影像語義分割仍有很重要的意義,比如可用於手機拍照的「人像模式」。採用更優秀的影像語義分割技術,手機能在更高精確度的照片裡確認每個像素點,屬於人或是背景。
目前 Google、小米等公司都在手機拍照使用這技術。理論上,未來的「人像模式」可在毛髮、衣物邊緣達成更好的效果。 自動駕駛場景裡,神經網路需要判斷擋在前面的是車、行人還是建築物,進而採用不同策略行動,這同樣需要影像語義分割打基礎。 從論文效果來看,Auto-DeepLab 還可移轉到其他工作。言外之意,讓 AI 自動設計 AI 這件事,可能會有很大的想像空間。
比如作者在論文最後提到,目前的研究框架內,他們可繼續研究物體辨識方向。
如果能取得類似結果,大規模使用,說不定有一天,資料標記(特別是影像標記)這件事,人類標記員的成本等優勢可能會消失。
如果人工智慧可幫人工智慧打工,效率還比人高……
「幫人工智慧打工的人」,會失去工作嗎? |