英國當地時間 1 月 24 日,DeepMind 在倫敦線上直播,向全世界的遊戲 AI 研究人員及遊戲愛好者介紹 AI 研發最新進展。
參加直播的 DeepMind 研究人員是 DeepMind 團隊聯合研發負責人 Oriol Vinyals 和 David Silver,後者也是 AlphaGo 計畫的核心開發人員,外界對他應該比較熟悉。 ▲ Oriol Vinyals(左)與 David Silver。
DeepMind 的《星海爭霸 2》AI 名為「AlphaStar」,命名方式正如之前的圍棋 AI「AlphaGo」及蛋白質摺疊計算 AI「AlphaFold」。
據 DeepMind 介紹,AlphaStar 操作神族(Protoss),2018 年 12 月 10 日以 5:0 戰績打敗了 Team Liquid 的職業《星海 2》選手 TLO,然後經過更多訓練後,12 月 19 日再次以 5:0 完勝戰績打敗了同一戰隊的職業選手 MaNa。直播現場重播、解說其中數場比賽。 AlphaStar 展現出職業選手般成熟的比賽策略,以及超越職業選手水準的微操作,甚至可在地圖上多地點同時展開戰鬥(人類選手在這種狀況下會吃不少虧)。 ▲ 職業選手式的建築布局,並快速派出偵查兵探索地圖及對方基地。 ▲ AlphaStar 會製造大量工人,快速建立資源優勢(超過人類職業選手的 16 個或 18 個上限)。 ▲ AlphaStar 的追獵者從三面圍攻人類選手 MaNa 的不朽者。 ▲ AlphaStar 控制的兩個追獵者黑血極限逃生。
直播時 DeepMind 還再次讓 AlphaStar 與 MaNa 現場比賽。這次比賽的 AlphaStar 是重新訓練的新版本,需要自己控制視角(不像之前版本可直接讀取地圖所有可見內容)。這次 MaNa 終於取得勝利。
《星海爭霸》AI 背景從以圍棋為代表的完全資訊博弈/遊戲被 AlphaGo 攻克、取得超出人類頂尖棋手水準之後,研究人員立刻向非完全資訊博弈發起更猛烈的進攻。典型的非完全資訊博弈如德州撲克,玩家需在看不到對手牌面的狀況下決策,CMU 的德撲 AI 論文也拿到 NIPS 2017 最佳論文獎。
另一方面,深度學習的研究人員也希望借助深度強化學習的力量探索更複雜的博弈/遊戲。德州撲克顯然不夠難,德撲 AI 之父表示沒有用到任何深度學習;再看圍棋,雖然圍棋可能出現的局面總數是天文數字,但每回合雙方只需選擇在棋盤某處落一顆棋即可。相比之下,現代競技類電子遊戲的移動空間就複雜得多,比賽可有 2 個以上玩家參與、每個玩家可同步行動、每個行動有不同時間長短、位移和移動都是空間連續,攻擊防禦技能等物品也有很多變化。
隨著當年的狂熱玩家如今成為電腦科學領域的研究人員,電子競技遊戲 AI 研發也快速分出兩大主要陣營:《星海爭霸/星海爭霸 2》,以及 DOTA 2。兩者都有廣泛群眾基礎,玩家對遊戲 AI 喜聞樂見,也有許多高水準的職業選手可與 AI 切磋學習。
雖然都是 RTS (即時戰略)遊戲,都需要在收集資源和打仗間找到平衡,但星海和 DOTA 2 也有不少區別。星海需要控制多種不同類別的單位,這些單位有各自的運動和攻擊特點,DOTA 2 可從頭到尾只控制同一個英雄;星海每一方只有一位玩家,而 DOTA 2 每一方有 5 位玩家。因此遊戲策略和執行區別也讓星海 AI 和 DOTA 2 AI 研究走出不同的發展路線。
截至本次比賽前,《星海爭霸》AI 和 DOTA 2 AI 研究領域已見識過的最強 AI 分別來自三星和 OpenAI:
- 2018 年 AIIDE《星海爭霸》AI 挑戰賽共有全世界 27 支團隊帶著 AI 參賽,獲得冠軍的人族 bot「SAIDA」來自三星。這個 bot 的核心特點是有一個穩定的遊戲策略,會首先考慮防守,然後在遊戲中期伺機一波帶走對方。這種策略是從南韓職業星海選手學到的。這個 bot 去年時還無法擊敗職業選手。
- 《星海爭霸》AI 普遍大量使用固定策略和手工規則,三星 bot 應用一些機器學習技術來幫助控制單位、探索地圖,開發團隊也嘗試更應用機器學習技術。參加同一個比賽的 Facebook 蟲族 bot「CherryPi」大量應用機器學習技術,但只獲得第二名。
- 2018 年 8 月,OpenAI 舉行線下比賽測試自己的 DOTA 2 AI 系統「OpenAI Five」,在較多比賽限制的情況下對陣歐美前職業選手組成的團隊取得勝利,在稍後 DOTA 2 國際邀請賽 Ti8 對陣中國(前)職業選手組成的團隊時失敗。這之後 OpenAI 持續不斷改進,並聲稱後來的某版已大幅超越之前比賽的版本。
- 「OpenAI Five」是一套精心設計的深度強化學習系統,由 5 個獨立神經網路分別控制 5 個英雄。研究人員使用許多技巧啟動 AI 學習 DOTA 2 各種行為,也設計超參數幫助網路學習團隊合作;但比賽過程中 AI 之間沒有直接溝通。
AlphaStar 技術介紹活動預告文中,盤點了之前 DeepMind 在星海 2 AI 研究的動向。以深度強化學習著稱的人工智慧企業,如今我們見到的 DeepMind《星海爭霸 2》AI「AlphaStar」自然毫不意外是一套基於深度強化學習的系統。 ▲ 2018 年 12 月比賽,觀戰室的 Oriol Vinyals 和 David Silver(看出來中間是誰了嗎)。
AlphaStar 模型設計AlphaStar 是一個把遊戲看作長串列建模學習工作的強化學習 AI,模型設計也就以長串列建模為能力為核心。模型從遊戲介面接收的資料是單位清單和這些單位的屬性,經過神經網路計算後匯出遊戲執行的指令。這個神經網路的基礎是 Transformer 網路,並結合一個深度 LSTM 網路核心、一個帶指標網路的自動回歸策略頭,以及一個中心化的評分基準。這網路架構是 DeepMind 對複雜串列建模工作的最新思考結果,他們也相信這先進模型可在其他需要長串列建模、有很大行動空間的機器學習工作(比如機器翻譯、語言建模和視覺表示)同樣發揮出優秀的表現。 |