參、資料品質提升作法說明
一、建議資料提供方式
(一)通則
1.資料集詮釋資料注意事項
(1)「資料集名稱」是資料資源集合的正式名稱,請以可一目瞭然之名稱命名之,必要時可加上機關全銜。
(2)「資料集描述」為資料集簡明陳述,應避免與資料集名稱相同,讓使用者可進一步瞭解資料集內容。
(3)如有說明文件(readme.*、schema.*)、說明網頁連結,應放置於「資料集相關網址(landingPage)」欄位,或與資料資源一併置於壓縮檔內。
2.資料資源注意事項
(1)如有檔案壓縮之需求,應於壓縮檔內提供 manifest 表單,以利使用者理解壓縮檔內各檔案之關聯性。
(2)檔案名稱建議以英數、連字號、底線、括號為限,避免使用中文檔名以免轉換時產生亂碼。
(3)若資料資源內容有所更新,或者有多個來源相同、欄位之資料資源,建議上架於同一資料集,不新建新資料集存放。
(二)API
1.適用資料類型:高更新頻率資料或已有系統可即時產製資料者。
2.建議資料格式:JSON、XML 格式。
3.資料集詮釋資料注意事項: 建議優先提供符合 OpenAPI 3.0 含以上版本之說明文件。
(三)固定欄位結構化資料
1.適用資料類型:定期產製且未經統計彙整之原始資料(raw data)、統計資料、地理圖資、已有系統可產製資料者。
2.建議資料格式:CSV、JSON、XML、GeoJSON、KML、KMZ、SHP 等格式。
3.資料內容注意事項:
(1)CSV 內容請以半形逗號","作為資料區隔,欄位標題以一列為原則(可加註另一列為英文)。
(2)結構化資料內容無多表合併、無合併儲存格、無空行、無小計。
4.資料集詮釋資料注意事項:主要欄位說明請依「資料集詮釋資料標準規範」填列,欄位區隔請一致採用全形頓號"、"。
(四)非固定欄位結構化資料
1.適用資料類型:會議紀錄、法規函釋等。
2.建議資料格式:建議以 JSON 格式優先。
(五)非結構化資料
1.適用資料類型:不限制。
2.建議提供資料型態:不限制。
二、檢測流程概要
(一)資料品質檢核功能於政府資料開放平臺後臺提供,後臺上架資料集(手動/批次)需於資料上架前進行資料資源檢測流程;透過介接方式上架之資料集,需於上架後於後臺或使用品質檢測 API 執行檢測。單筆檢測結果可於介面瀏覽,批次檢測結果則以電子郵件通知測試結果,便利資料提供者據以提升資料品質。
(二)當資料資源有所異動時,皆須重新檢測資料集,以確保更新資料之品質。
(三)連結有效性測試以每週至少一次的頻率進行測試,放置資料資源之檔案伺服器應同時支援 IPv4 與 IPv6。
(四)資料資源是否屬結構化之判斷流程:
[start]承辦人增修資料資源
[A]判斷資料資源檔案格式
➔ 如果是 壓縮檔,到 [B]
➔ 如果是 JSON, XML, GeoJSON, KML, KMZ, SHP 檔,到 [C]
➔ 如果是 CSV 檔,到 [D]
➔ 如果是 XLS, XLSX, ODS 檔,到 [E]
➔ 如果是 API, WebService 到[F]
➔ 如果是 其他檔,直接到 [Z]
[B] 壓縮檔 (zip, rar, 7z…) file
➔ 解壓縮後,先排除部分忽略清單(例如 readme.* schema.*等)
➔ 如果只剩一個檔案,回到 [A]
➔ 如果有多個檔案則到 [U]
[C] JSON, XML, GeoJSON, KML, KMZ, SHP file
➔ 進行 syntax check
➔ 失敗到 [Z]
➔ 通過到 [T]
[D] CSV file
➔ 進行 UTF-8 check
➔ 屬 UTF-8,到 [T]
➔ 非屬 UTF-8,轉存為 UTF-8 後到 [T]
[E] XLS, XLSX, ODS file
➔ 有合併儲存格、繪製框線、儲存格背景色或使用公式等,到 [Z]
➔ 有使用多分頁,到 [Z]
➔ 無以上情形者,到 [T]
[F] API / WebService
➔ 若 API / WebService 提供 html 介面,則到 [X]
➔ 若直接提供 json 輸出結果,則回到 [C]
[T]進行是否為 table 格式判定
➔ 嘗試轉換為 CSV 格式
➔ 屬 table 格式,取出 CSV 欄位值,填至資料集詮釋資料之fieldDescription 欄位,於政府資料開放平臺保留轉換後之 CSV 檔,到 [Y]
➔ 非屬 table 格式,到 [X]
[U]判斷壓縮檔是否包含 manifest 描述檔
➔ 無 manifest 描述檔,到 [Z]
➔ 有 manifest 描述檔,採人工判斷 [end]
[X] 將這個檔案上架,標記為結構化資料 [end]。
[Y] 將原始檔案上架,標記為結構化資料,一併將轉存之 CSV 檔案上架,並註記轉換日期時間[end]。
[Z] 將檔案上架,標記為非結構化資料,並錄是從哪個流程進到這步,供部會管理者參考[end]。

