▲聊天機器人(Chatbot)。(圖/達志影像/美聯社)
記者王曉敏/綜合報導
過去10年來,聊天機器人(Chatbot)一直是相當熱門的應用之一,如今在各種互動性服務上更為常見。不過一般的聊天機器人往往被其專業性受限,即其對話大多僅限於特定主題,為此,Google正致力於開發一款「不專門」的聊天機器人,「可以與用戶天南地北地聊天。」
過去那些「高專業化」的聊天機器人大多存在一些關鍵缺陷,包括問答自相矛盾、缺乏對世界的常識及基本認知,有時候也會給出一些無法呼應上下文的答覆。Google周二(28日)詳細介紹了一款近似人類的開放性聊天機器人「 Meena」,其有著26億參數的端對端神經對話模型,較現有的SOTA聊天機器人能更正確地完成對話,內容也更加具體、清楚。
Google的目標是創建一款可「聊用戶想聊的所有內容」的聊天機器人, Meena著重於理解對話的上下文以提供「正確」的回應。該模型使用來自公共領域社交媒體對話達314GB大的文本進行訓練,與現有的GPT-2模型最大版本相較,訓練的資料量是後者的8.5倍。
為進一步進行評測,Google針對該聊天機器人提出一項新的人類評估指標,即敏感度及特異度平均值(Sensibleness and Specificity Average, SSA)。該指標捕捉人類對話中基本但重要的屬性,值得注意的是,研究也發現「困惑度」(Perplexity)是一種易於在任何神經對話模型中實現的計算指標,與SSA高度相關。
為計算SSA,研究人員會與正在測試的聊天機器人進行自由形式的對話,這些聊天機器人包括Meena及其他開放性聊天機器人,如水谷(Mitsuku)、Cleverbot、小冰及DialoGPT等。而為確保評估的一致性,所有對話都將從「嗨!」開始,評估人員都將基於常識來判斷每次對話,並對其評定「具體與否」、「有意義與否」兩個指標。舉例來說,若A表示:「我愛網球」,而B回答:「這很好。」則會被標示為「不具體」;但若B的回答為:「我也是,我很喜歡費德勒。」則會被標示為「具體」,因為其所討論的內容與主題密切相關。在此標準上,Meena的表現比現有其他聊天機器人來得好,且其也正逐漸「縮小與真人的差距」。
▼Meena和其他聊天機器人的性能對比。(圖/取自Google AI Blog)
科技網站《9to5Google》指出,這種聊天機器人的實際應用包括設備指導及製作相關的互動式電影或遊戲角色等。展望未來,雖然目前研究人員僅關注聊天機器人的敏感度及特異度,但Google希望能在未來持續加入如個性及真實性等其他屬性的評量,此外,解決模型中的安全性和偏差也是一個關鍵的重點領域,目前團隊並未發布研究演示。「但是,我們正在評估將模型檢查點具體化所帶來的風險及益處,並且有可能會選擇在未來幾個月內使用,以幫助推進該領域的研究工作。」
|
|