助攻中文 AI 語音、語意技術突破！科技部推出「AI 語音數據資料集」

（圖片來源／科技部提供）

科技部今日（6/25）於國立臺灣科技大學舉辦「AI 語音數據資料集」上線發表會。首批開放 400 小時「科技大擂台與AI 對話」競賽所使用的語音試題資料中，除了自行錄製的資料外，更結合內政部的警政署警察廣播電臺及教育部的國立教育廣播電臺提供相關語音資料，並由科技部指導、國家實驗研究院科技政策研究與資訊中心（STPI）拓建加值，成為高品質的數據集（Dataset）。此數據集公開釋出後，我國企業、學研界可免費取得授權，用於 AI 相關技術研發突破，提升臺灣競爭力。

科技部許有進政務次長致詞。（圖片來源／科技部提供）

科技部政務次長許有進於發表會上表示，「科技大擂台與 AI 對話」挑戰 AI 在語意理解與語音對話，期望能夠加速開發中文語音對話的核心技術。對 AI 的訓練來說，最重要的就是正確的資料。搭配這個比賽的進行，科技部建立了 AI 語音數據資料庫，也邀請臺北科技大學的廖元甫副教授協助語音資料的標註；由科技部來提供大家方便取得的資料，加速 AI 的訓練與精進。感謝警察廣播電臺宣介慈及教育廣播電臺謝忠武兩位臺長協助科技部，一起建立起這個資料集，順利完成比賽並授權開放各位研究者與企業來運用。

長官進行 AI 語音數據資料集上線儀式。（圖片來源／科技部提供）

本次釋出約 400 小時的「AI 語音數據資料集」，可以大幅縮短發展語音過程中所需的資料標註人力和時間，降低相關技術的發展門檻。資料集在國家實驗研究院高速網路與計算中心資料集平台（NCHC DATA MARKET）上架，期望藉此吸引更多企業、學研機構齊力投入，共同推動我國語音 AI 技術躍進，協助台灣企業進行數位轉型。

同日，結合 2019 年語音訊號處理研討會（SPEECH PROCESSING WORKSHOP 2019），共同舉辦「科技大擂台與 AI 對話」第二場賽後技術交流會，邀請 Google 臺灣董事總經理簡立峰分享自然語言處理與 AI 未來趨勢的看法、Taiwan AI Labs 創辦人杜奕瑾、臺灣大學資訊工程學系教授，同時也是臺灣 AI 獨角獸沛星互動科技（Appier）首席科學家林軒田博士等，發表目前在 AI 與語音訊號處理的前瞻研究成果。另外，第一屆「與 AI 對話」的獲獎團隊：臺灣大學電資學院、華碩電腦、中央研究院等代表也應邀出席，和大家分享參賽經歷及比賽中使用的秘技。