跳至主要內容

政府資料開放平臺

貳、資料品質提升流程介紹

一、資料品質相關標準

以資料使用流程為出發點,分為資料可直接取得、資料易於處理、資料易於理解三個面向:

(一) 資料可直接取得

包含 2 項指標:

1.資料資源連結有效性:資料資源連結可回傳連結成功狀態(HTTP Status Code)。

2.資料資源可直接下載:使用者能透過資料資源連結直接獲取資料,無需透過登入或任何額外的操作形式。

(二) 資料易於處理

就資料描述方式可區分為結構化與非結構化 2 種形式。

1.結構化資料:

指經分析後可分解成多個互相關聯的組成部分,各組成部分間有明確的層次結構:

(1) 固定欄位結構化資料:單一列(Row)標題的表格式資料,每筆資料的欄位數均相同,且無合併儲存格、無公式、無空行、無小計等。

(2)非固定欄位結構化資料:每筆資料欄位非固定之結構化資料,符合 W3C 之 XML、JSON、 JSON-LD 標準等結構化資料。

2.非結構化資料:

排除結構化資料以外均為非結構化資料。例如一般文字文件、圖檔、影音等。

為利資料易於處理,如資料型態允許,應優先提供固定欄位結構化資料。

(三) 資料易於理解

針對結構化之資料資源,於詮釋資料須依「資料集詮釋資料標準規範」提供資料資源之編碼及其主要欄位之描述。

二、資料品質檢測方式

7項檢測指標列示如下:

表- 3 通用性資料集詮釋資料標準框架表_檔案資料
檢測構面 檢測指標 計算基礎 判斷方式 判斷時點 輸出結果
資料可直接取得 連結有效性 全部資料資源 機器測試 定期 True/False
資料資源能否直接下載 全部資料資源 機器測試 資料資源異動時 檔案載點(含 API 回傳資料 )/網頁連結
資料易於被處理 是否屬結構化檔案類型 全部資料資源 機器測試(非僅檢測副檔名) 資料資源異動時 結構化檔案/非結構化檔案
資料易於理解 詮釋資料編碼描述與資料相符 結構化資料資源 機器測試 資料資源異動時 True/False
詮釋資料欄位描述與資料相符 結構化資料資源 機器測試 資料資源異動時 True/False
資料更新時效性 結構化資料資源 機器測試 定期 無逾期/有逾期
民眾意見回饋 民間回饋意見之回復效率 全部資料集 人工檢核(是否於14個工作天內進行回復/民間評分低於中間值者 定期  

三、資料品質管理重點

(一)各部會管理者參考結果報告,協助資料集提供者進行改善;倘資料產製來源為系統者,可配合於維運週期提供符合結構化資料定義之資料資源。

(二)非結構化但可轉為結構化之資料資源(如:具有合併儲存格之 CSV、具報表原始資料然僅以 PDF 檔提供者),應以資料使用者的角度思考其提供方式是否妥適並安排期程改善。

(三)資料內容為非結構化格式者,應避免進行無意義的檔案格式轉換(如:以 Word 另存為 XML 格式)。

(四)政府資料開放平臺之資料集均應適用政府資料開放授權條款,各項資料之開放前均應確認其權利完整性(如:著作權等)。

(五)民眾回饋意見,機關應於 14 個工作天內回復;如屬資料有誤,或重大事件相關之資料資源未能符合民間需求品質,除依上開期限回復外,數位發展部得協調資料提供機關改善。

這是測試站! This is staging.