Google 巧妙命名為「Dataset Search」的資料集搜尋引擎,如今推出正式版,提供更完美過濾搜尋結果並存取近 2,500 萬個資料集的新工具。
Dataset Search(Beta版)發表於 2018 年 9 月,Google 希望逐漸將極分散的線上開放取用(Open-Access)資料世界統整起來。儘管許多諸如大學、政府和實驗室的機構都在網路發表資料,但使用傳統搜尋機制多半很難找到。透過網頁新增開源詮釋資料標籤(Metadata Tag),這些組織便可透過 Dataset Search 為資料建立索引,如今 Dataset Search 涵蓋了從滑雪受傷到火山爆發、再到企鵝族群的大量資訊。
Google 不願透露搜尋引擎的具體使用量,但表示自推出以來,已有數十萬使用者試用 Dataset Search,科學界的反應整體持肯定態度。
協助創建該工具的 Google 人工智慧研究科學家 Natasha Noy 表示,大多數資料庫的「回應都非常快」,引擎推出意味著歷史較悠久的科研機構現在「更重視發表詮譯資料」。
「例如,知名科學期刊《自然》(Nature)正在改變政策,要求使用適當的詮釋資料共享資料。」Noy 表示,這變化將支撐一流科學研究的資料未來更容易取得。
可在行動裝置使用,涵蓋 2,500 萬個資料集Dataset Search 新增的新功能包括按類型(表格、圖像、純文字等),按是否可免費使用,以及按覆蓋地理區域來篩選資料。現在也可在行動裝置使用,並擴充資料集說明檔。
Google 表示,搜尋引擎涵蓋的資料集約有 2,500 萬個,雖然只是「網路資料集的一小部分」,但集結了「非常重要」的資料集。最大檢索主題包括地球科學、生物學和農業,最常見的查詢包括「教育」、「天氣」、「癌症」、「犯罪」、「足球」和「狗」。美國也是開放政府資料集的領導者,在網路發佈 200 多萬個資料集。
Noy 不願對 Dataset Search 的未來計畫多做評論,但她表示,團隊正在思索一些希望有用的功能,包括「了解資料集如何引用和重複使用」,以及「當使用者不一定知道在找什麼時,協助他們在 Dataset Search 探索資料集」。「當然我們會繼續擴展資料集。」Noy表示。畢竟網路總有層出不窮的資料出現。 |