統計資料專題庫的研究與設計分析

才智咖 人氣:4.05K

摘 要:著眼統計領域資訊的發展趨勢,從建設統計專題資料的必要性、基本思路出發,對統計領域專題資料庫建設的步驟、方法、應用等進行闡述,並對統計資料專題庫的應用等方面作了一些思考。

統計資料專題庫的研究與設計分析

【關鍵詞】專題庫 統計 資料處理 資料應用

Abstract: Focus on the development trend of information in the field of statistics, the need to build statistical thematic data from the basic idea of view, the thematic areas of statistics database construction steps, methods, applications and so forth, and the application of statistical data, etc. for thematic library some thinking.

Key words Thematic library statistical data processing data application

1 統計專題庫建設的必要性

統計部門應用系統繁多,資料來源廣。在對資料進行使用時,一方面可能會出現不同系統中的相同指標資料矛盾的情況;另一方面,若涉及不同專業,則需要協調的範圍、週期的難度都會明顯增大,資料的時效性和及時性都難以得到保障。而專題庫的建設將可有效的將歷史資料整合利用起來,以專業為邊界切割海量資料,實現按專業的跨年度資料儲存,從而可進行更深價值的挖掘。

2 專題庫建設的步驟和方法

2.1 確定專題範圍

專題庫建設時,首先需要明確該專題的資料範圍,專題資料可來源於統計年鑑、專題彙報等檔案以及聯網直報系統等應用,緊密圍繞專題的業務本質進行設定,如能源專題庫則應該包括能源建設、能源生產、能源消費等內容。

2.2 建立資料模型

根據對統計領域已有系統和基礎資料的分析,建立專題庫的資料模型。其元資料主要包括13類,其中9類為業務元資料(圖1)、4類為管理元資料(圖2)。

專題庫中最直接的為資料,通過對9類業務元資料的分析可得知指標與資料關聯最為緊密,其他元資料均可通過指標與資料進行關聯,通過分析和設計,可變為如圖3所示的資料模型。

通過分析每個元資料本身的屬性,根據模型可得出每一資料應包括60多個屬性,考慮資料儲存及專題庫的價值,逐一評估後給出需冗餘的屬性,如下:ID、值、報送單位_ID、期別_ID、指標_ID、目錄條目_ID、入庫時間戳、報送單位全稱、期別_起、期別_訖、指標全稱、目錄_ID、目錄條目名稱、分組1條目_ID 、分組2條目_ID 、分組3條目_ID 、分組4條目_ID 、分組5條目_ID 、分組6條目_ID 、分組7條目_ID、地域1級_ID 、地域2級_ID 、地域3級_ID、計量單位_ID、資料釋意全文

其中,5個必須欄位為值、報送單位_ID、期別_ID、指標_ID、目錄條目_ID;2個管理欄位為ID、入庫時間戳,以及18個冗餘儲存欄位。

2.3 確定資料來源

資料是專題庫的基礎,所有的資料處理和分析都是建立在及時、準確、全面的資料之上,專題資料的來源主要包括以下幾個方面:

(1)通過聯網直報系統由企業、地方統計部門等按照制度報送週期的要求進行資料的報送;

(2)通過各專業司建立的資訊上報系統,由相關的企業(如房地產企業等)進行定期的資料報送;

(3)通過電子郵件、紙質檔案等由各部委辦局或地方統計局等將相關的資料進行彙總報送;

專題庫的建設將支撐不同的資料來源、不同型別資料的匯聚,並以統一的資料集合加以利用。

2.4 資料處理及儲存

當資料處理和儲存時需考慮資料的處理,包括輸入格式轉換、資料篩選、資料單位的轉化、資料的校驗、資料儲存等。

(1) 輸入格式轉換。不同的資料來源可能有不同的資料格式,系統將自動解析來源資料的格式,並轉換為系統的統一資料格式。

(2) 資料篩選。由於專題庫的資料有著多種資料來源,可能存在不同來源間的資料衝突,系統將建立資料衝突的處理機制,對資料進行篩選,確定資料採集途徑的標準,確保資料的唯一性。

(3) 資料單位的轉化。在統計資料中,經常會碰到以不同數量級的單位作統計的資料,如萬噸和噸。針對這種情況,系統將自動把不同數量級的單位轉換成標準單位儲存入庫。