跳至主要內容

政府資料開放平臺

參、資料品質提升作法說明

一、建議資料提供方式

(一)通則

1.資料集詮釋資料注意事項

(1)「資料集名稱」是資料資源集合的正式名稱,請以可一目瞭然之名稱命名之,必要時可加上機關全銜。

(2)「資料集描述」為資料集簡明陳述,應避免與資料集名稱相同,讓使用者可進一步瞭解資料集內容。

(3)如有說明文件(readme.*、schema.*)、說明網頁連結,應放置於「資料集相關網址(landingPage)」欄位,或與資料資源一併置於壓縮檔內。

2.資料資源注意事項

(1)如有檔案壓縮之需求,應於壓縮檔內提供 manifest 表單,以利使用者理解壓縮檔內各檔案之關聯性。

(2)檔案名稱建議以英數、連字號、底線、括號為限,避免使用中文檔名以免轉換時產生亂碼。

(3)若資料資源內容有所更新,或者有多個來源相同、欄位之資料資源,建議上架於同一資料集,不新建新資料集存放。

(二)API

1.適用資料類型:高更新頻率資料或已有系統可即時產製資料者。

2.建議資料格式:JSON、XML 格式。

3.資料集詮釋資料注意事項: 建議優先提供符合 OpenAPI 3.0 含以上版本之說明文件。

(三)固定欄位結構化資料

1.適用資料類型:定期產製且未經統計彙整之原始資料(raw data)、統計資料、地理圖資、已有系統可產製資料者。

2.建議資料格式:CSV、JSON、XML、GeoJSON、KML、KMZ、SHP 等格式。

3.資料內容注意事項:

(1)CSV 內容請以半形逗號","作為資料區隔,欄位標題以一列為原則(可加註另一列為英文)。

(2)結構化資料內容無多表合併、無合併儲存格、無空行、無小計。

4.資料集詮釋資料注意事項:主要欄位說明請依「資料集詮釋資料標準規範」填列,欄位區隔請一致採用全形頓號"、"。

(四)非固定欄位結構化資料

1.適用資料類型:會議紀錄、法規函釋等。

2.建議資料格式:建議以 JSON 格式優先。

(五)非結構化資料

1.適用資料類型:不限制。

2.建議提供資料型態:不限制。

二、檢測流程概要

(一)資料品質檢核功能於政府資料開放平臺後臺提供,後臺上架資料集(手動/批次)需於資料上架前進行資料資源檢測流程;透過介接方式上架之資料集,需於上架後於後臺或使用品質檢測 API 執行檢測。單筆檢測結果可於介面瀏覽,批次檢測結果則以電子郵件通知測試結果,便利資料提供者據以提升資料品質。

(二)當資料資源有所異動時,皆須重新檢測資料集,以確保更新資料之品質。

(三)連結有效性測試以每週至少一次的頻率進行測試,放置資料資源之檔案伺服器應同時支援 IPv4 與 IPv6。

(四)資料資源是否屬結構化之判斷流程:

[start]承辦人增修資料資源

[A]判斷資料資源檔案格式

➔ 如果是 壓縮檔,到 [B]

➔ 如果是 JSON, XML, GeoJSON, KML, KMZ, SHP 檔,到 [C]

➔ 如果是 CSV 檔,到 [D]

➔ 如果是 XLS, XLSX, ODS 檔,到 [E]

➔ 如果是 API, WebService 到[F]

➔ 如果是 其他檔,直接到 [Z]

[B] 壓縮檔 (zip, rar, 7z…) file

➔ 解壓縮後,先排除部分忽略清單(例如 readme.* schema.*等)

➔ 如果只剩一個檔案,回到 [A]

➔ 如果有多個檔案則到 [U]

[C] JSON, XML, GeoJSON, KML, KMZ, SHP file

➔ 進行 syntax check

➔ 失敗到 [Z]

➔ 通過到 [T]

[D] CSV file

➔ 進行 UTF-8 check

➔ 屬 UTF-8,到 [T]

➔ 非屬 UTF-8,轉存為 UTF-8 後到 [T]

[E] XLS, XLSX, ODS file

➔ 有合併儲存格、繪製框線、儲存格背景色或使用公式等,到 [Z]

➔ 有使用多分頁,到 [Z]

➔ 無以上情形者,到 [T]

[F] API / WebService

➔ 若 API / WebService 提供 html 介面,則到 [X]

➔ 若直接提供 json 輸出結果,則回到 [C]

[T]進行是否為 table 格式判定

➔ 嘗試轉換為 CSV 格式

➔ 屬 table 格式,取出 CSV 欄位值,填至資料集詮釋資料之fieldDescription 欄位,於政府資料開放平臺保留轉換後之 CSV 檔,到 [Y]

➔ 非屬 table 格式,到 [X]

[U]判斷壓縮檔是否包含 manifest 描述檔

➔ 無 manifest 描述檔,到 [Z]

➔ 有 manifest 描述檔,採人工判斷 [end]

[X] 將這個檔案上架,標記為結構化資料 [end]。

[Y] 將原始檔案上架,標記為結構化資料,一併將轉存之 CSV 檔案上架,並註記轉換日期時間[end]。

[Z] 將檔案上架,標記為非結構化資料,並錄是從哪個流程進到這步,供部會管理者參考[end]。

這是測試站! This is staging.