貳、資料品質提升流程介紹
一、資料品質相關標準
以資料使用流程為出發點,分為資料可直接取得、資料易於處理、資料易於理解三個面向:
(一) 資料可直接取得
包含 2 項指標:
1.資料資源連結有效性:資料資源連結可回傳連結成功狀態(HTTP Status Code)。
2.資料資源可直接下載:使用者能透過資料資源連結直接獲取資料,無需透過登入或任何額外的操作形式。
(二) 資料易於處理
就資料描述方式可區分為結構化與非結構化 2 種形式。
1.結構化資料:
指經分析後可分解成多個互相關聯的組成部分,各組成部分間有明確的層次結構:
(1) 固定欄位結構化資料:單一列(Row)標題的表格式資料,每筆資料的欄位數均相同,且無合併儲存格、無公式、無空行、無小計等。
(2)非固定欄位結構化資料:每筆資料欄位非固定之結構化資料,符合 W3C 之 XML、JSON、 JSON-LD 標準等結構化資料。
2.非結構化資料:
排除結構化資料以外均為非結構化資料。例如一般文字文件、圖檔、影音等。
為利資料易於處理,如資料型態允許,應優先提供固定欄位結構化資料。
(三) 資料易於理解
針對結構化之資料資源,於詮釋資料須依「資料集詮釋資料標準規範」提供資料資源之編碼及其主要欄位之描述。
二、資料品質檢測方式
7項檢測指標列示如下:
| 檢測構面 | 檢測指標 | 計算基礎 | 判斷方式 | 判斷時點 | 輸出結果 |
|---|---|---|---|---|---|
| 資料可直接取得 | 連結有效性 | 全部資料資源 | 機器測試 | 定期 | True/False |
| 資料資源能否直接下載 | 全部資料資源 | 機器測試 | 資料資源異動時 | 檔案載點(含 API 回傳資料 )/網頁連結 | |
| 資料易於被處理 | 是否屬結構化檔案類型 | 全部資料資源 | 機器測試(非僅檢測副檔名) | 資料資源異動時 | 結構化檔案/非結構化檔案 |
| 資料易於理解 | 詮釋資料編碼描述與資料相符 | 結構化資料資源 | 機器測試 | 資料資源異動時 | True/False |
| 詮釋資料欄位描述與資料相符 | 結構化資料資源 | 機器測試 | 資料資源異動時 | True/False | |
| 資料更新時效性 | 結構化資料資源 | 機器測試 | 定期 | 無逾期/有逾期 | |
| 民眾意見回饋 | 民間回饋意見之回復效率 | 全部資料集 | 人工檢核(是否於14個工作天內進行回復)/民間評分低於中間值者 | 定期 |
三、資料品質管理重點
(一)各部會管理者參考結果報告,協助資料集提供者進行改善;倘資料產製來源為系統者,可配合於維運週期提供符合結構化資料定義之資料資源。
(二)非結構化但可轉為結構化之資料資源(如:具有合併儲存格之 CSV、具報表原始資料然僅以 PDF 檔提供者),應以資料使用者的角度思考其提供方式是否妥適並安排期程改善。
(三)資料內容為非結構化格式者,應避免進行無意義的檔案格式轉換(如:以 Word 另存為 XML 格式)。
(四)政府資料開放平臺之資料集均應適用政府資料開放授權條款,各項資料之開放前均應確認其權利完整性(如:著作權等)。
(五)民眾回饋意見,機關應於 14 個工作天內回復;如屬資料有誤,或重大事件相關之資料資源未能符合民間需求品質,除依上開期限回復外,數位發展部得協調資料提供機關改善。

