統(tǒng)計基礎(chǔ)數(shù)據(jù)庫建設(shè)研究

時間:2022-11-24 03:02:23

導(dǎo)語:統(tǒng)計基礎(chǔ)數(shù)據(jù)庫建設(shè)研究一文來源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

統(tǒng)計基礎(chǔ)數(shù)據(jù)庫建設(shè)研究

山東省統(tǒng)計基礎(chǔ)數(shù)據(jù)庫是在“互聯(lián)網(wǎng)+”政務(wù)的時代大背景下提出的面向統(tǒng)計數(shù)據(jù)深度分析的新一代統(tǒng)計大數(shù)據(jù)管理系統(tǒng)。系統(tǒng)可以有效整合現(xiàn)有的所有數(shù)據(jù)資源以及對未來產(chǎn)生的數(shù)據(jù)資源進(jìn)行更好的管理,形成具備處理百億級統(tǒng)計數(shù)據(jù)的高性能、專業(yè)化統(tǒng)計數(shù)據(jù)分析工作平臺,有利于更好地開展統(tǒng)計數(shù)據(jù)生產(chǎn),建設(shè)現(xiàn)代化服務(wù)型統(tǒng)計,滿足各級黨委、政府和人民群眾對統(tǒng)計數(shù)據(jù)服務(wù)越來越高的要求。伴隨著現(xiàn)代統(tǒng)計業(yè)務(wù)的快速發(fā)展,建設(shè)“覆蓋全面、調(diào)查準(zhǔn)確、核算科學(xué)、運(yùn)作高效”的現(xiàn)代統(tǒng)計體系的要求不斷提高,這就要求統(tǒng)計部門能夠隨時對所掌握的統(tǒng)計數(shù)據(jù)進(jìn)行大規(guī)模、隨機(jī)場景的專業(yè)化統(tǒng)計分析。建設(shè)統(tǒng)計基礎(chǔ)數(shù)據(jù)庫能夠幫助統(tǒng)計部門管理海量、多來源異構(gòu)統(tǒng)計數(shù)據(jù),并對數(shù)據(jù)進(jìn)行多層次的分析和利用,解決當(dāng)前各級統(tǒng)計部門在統(tǒng)計數(shù)據(jù)管理使用過程中所面臨的以下問題:1)數(shù)據(jù)資源分散,各種來源的統(tǒng)計微觀數(shù)據(jù)、綜合數(shù)據(jù)、宏觀數(shù)據(jù)分散在數(shù)管部門、業(yè)務(wù)處室,數(shù)據(jù)資源目錄不清晰,數(shù)據(jù)資源管理困難,大規(guī)模、跨專業(yè)使用困難。2)不同種類的調(diào)查歷史數(shù)據(jù)存儲在固定的硬件設(shè)備上,查詢歷史數(shù)據(jù)需要使用相應(yīng)的軟件系統(tǒng),效率低。年代久遠(yuǎn)、硬件損壞、軟件丟失,導(dǎo)致數(shù)據(jù)丟失風(fēng)險大。3)設(shè)管、專業(yè)、數(shù)管、各軟件開發(fā)商對統(tǒng)計調(diào)查元數(shù)據(jù)的術(shù)語不統(tǒng)一,建模方法不統(tǒng)一,導(dǎo)致在數(shù)據(jù)生產(chǎn)的各個流程階段,元數(shù)據(jù)可比性、延續(xù)性差。歷年的統(tǒng)計制度中,元數(shù)據(jù)的口徑變化沒有得到有效管理。4)生成指標(biāo)時間序列數(shù)據(jù)困難,不能夠方便快速的查看數(shù)據(jù)隨時間的變化情況。5)數(shù)據(jù)交換效率低。數(shù)據(jù)庫系統(tǒng)與分析系統(tǒng)之間進(jìn)行數(shù)據(jù)交換的能力弱,元數(shù)據(jù)交換質(zhì)量差,主要數(shù)據(jù)文件載體無法直接跨系統(tǒng)使用。統(tǒng)計基礎(chǔ)數(shù)據(jù)庫的建設(shè)應(yīng)具備以下兩大目標(biāo):第一,整合各種原始數(shù)據(jù)資源。使用標(biāo)準(zhǔn)化的元數(shù)據(jù)來描述來自不同調(diào)查的原始數(shù)據(jù),使各種格式的原始數(shù)據(jù)都能夠方便的進(jìn)入到基礎(chǔ)數(shù)據(jù)庫中,同時納入部門宏觀數(shù)據(jù)以及部分微觀數(shù)據(jù),未來根據(jù)分析需求納入企業(yè)數(shù)據(jù)以及互聯(lián)網(wǎng)數(shù)據(jù),實(shí)現(xiàn)對統(tǒng)計數(shù)據(jù)資源的整合和統(tǒng)一管理,方便按時間序列、主題、地區(qū)、行業(yè)等多維度多角度的查詢,使山東省統(tǒng)計數(shù)據(jù)資源都達(dá)到可以直接用于分析的狀態(tài)。第二,為統(tǒng)計數(shù)據(jù)分析工作提供支撐。使各種分析應(yīng)用、分析工具都能夠方便的訪問基礎(chǔ)數(shù)據(jù)庫中的數(shù)據(jù)資源,提高數(shù)據(jù)資源的利用效率,提升數(shù)據(jù)資源的價值。

1總體架構(gòu)設(shè)計

基礎(chǔ)數(shù)據(jù)庫的總體架構(gòu)如下,從上至下依次分為數(shù)據(jù)應(yīng)用展示、數(shù)據(jù)管理服務(wù)層、應(yīng)用支撐層、數(shù)據(jù)資源層以及基礎(chǔ)設(shè)施層。1.1數(shù)據(jù)應(yīng)用展示層。數(shù)據(jù)應(yīng)用展示層包括元數(shù)據(jù)門戶、數(shù)據(jù)分析子系統(tǒng)、數(shù)據(jù)查詢展現(xiàn)門戶。數(shù)據(jù)應(yīng)用展示層直接面向數(shù)據(jù)分析用戶,提供包括了元數(shù)據(jù)查詢、數(shù)據(jù)查詢、數(shù)據(jù)分析、數(shù)據(jù)計算等系統(tǒng)核心業(yè)務(wù)功能。元數(shù)據(jù)門戶可以查詢和展示基礎(chǔ)數(shù)據(jù)庫中各類元數(shù)據(jù)、元數(shù)據(jù)的關(guān)聯(lián)關(guān)系、元數(shù)據(jù)的屬性信息等。數(shù)據(jù)分析子系統(tǒng)包含兩個部分,分析應(yīng)用工具集和可視化分析工具??梢暬治龉ぞ呤腔A(chǔ)數(shù)據(jù)庫提供的基于R語言的集成化數(shù)據(jù)分析環(huán)境。分析工具集是常用的數(shù)據(jù)分析工具的統(tǒng)稱,包括SPSS、SAS、馬克威等。數(shù)據(jù)查詢展現(xiàn)門戶能夠?qū)崿F(xiàn)用戶快速查找、對比數(shù)據(jù)、數(shù)據(jù)圖表展示等。1.2數(shù)據(jù)管理服務(wù)層。數(shù)據(jù)管理服務(wù)層作為后臺支撐數(shù)據(jù)分析和各種數(shù)據(jù)應(yīng)用,核心是數(shù)據(jù)資源服務(wù)平臺,各種數(shù)據(jù)管理模塊、數(shù)據(jù)應(yīng)用模塊以組件的方式連接到數(shù)據(jù)資源服務(wù)平臺上。數(shù)據(jù)資源服務(wù)平臺應(yīng)用多種先進(jìn)的數(shù)據(jù)查詢訪問技術(shù)、數(shù)據(jù)緩存基礎(chǔ)開發(fā),集成分析引擎、圖形引擎、報表引擎的多種組件,針對R和其他多種數(shù)據(jù)分析工具定制外部訪問組件。元數(shù)據(jù)管理系統(tǒng)基于DDI標(biāo)準(zhǔn)進(jìn)行構(gòu)建,主要功能包括元數(shù)據(jù)編輯、元數(shù)據(jù)管理、元數(shù)據(jù)注冊、元數(shù)據(jù)等功能。數(shù)據(jù)整合工具用于數(shù)據(jù)入庫,通過數(shù)據(jù)整合工具,多種源頭的基礎(chǔ)數(shù)據(jù)都能夠匹配上標(biāo)準(zhǔn)的元數(shù)據(jù)被寫入到基礎(chǔ)數(shù)據(jù)庫中。1.3應(yīng)用支撐層。應(yīng)用支撐層包括基礎(chǔ)開發(fā)平臺、高性能數(shù)據(jù)加載引擎、混合數(shù)據(jù)訪問引擎、報表工具、公式引擎、圖形引擎等。1.4數(shù)據(jù)資源層。數(shù)據(jù)資源層包括元數(shù)據(jù)庫、整合資源庫、數(shù)據(jù)倉庫和數(shù)據(jù)集市四個大的組成部分。其中元數(shù)據(jù)庫用于支撐元數(shù)據(jù)管理系統(tǒng)存儲和管理元數(shù)據(jù),相對其他三個庫是獨(dú)立出來的,元數(shù)據(jù)庫中的內(nèi)容通過元數(shù)據(jù)管理系統(tǒng)進(jìn)行編輯入庫。整合數(shù)據(jù)資源庫采用NoSQL數(shù)據(jù)庫,實(shí)現(xiàn)非結(jié)構(gòu)化數(shù)據(jù)以及元數(shù)據(jù)、標(biāo)準(zhǔn)化數(shù)據(jù)文件、數(shù)據(jù)描述文件的存儲。整合資源庫的數(shù)據(jù)內(nèi)容,按照元數(shù)據(jù)描述的情況,被打散后逐條保存到數(shù)據(jù)倉庫中。數(shù)據(jù)倉庫的數(shù)據(jù)結(jié)構(gòu)根據(jù)元數(shù)據(jù)動態(tài)生成,方便用戶隨時根據(jù)各種條件進(jìn)行數(shù)據(jù)查詢,支持對海量數(shù)據(jù)的即席查詢和匯總分析。1.5基于大數(shù)據(jù)的基礎(chǔ)設(shè)施層?;A(chǔ)設(shè)施基于大數(shù)據(jù)分析架構(gòu)搭建,整合資源庫、數(shù)據(jù)倉庫和元數(shù)據(jù)庫都由分布式數(shù)據(jù)庫、分布式文件存儲系統(tǒng)和應(yīng)用服務(wù)引擎組成,共同為數(shù)據(jù)存儲和數(shù)據(jù)分析應(yīng)用服務(wù),具備處理海量結(jié)構(gòu)化數(shù)據(jù)、非結(jié)構(gòu)化數(shù)據(jù)的能力,能夠滿足快速查詢、高性能數(shù)據(jù)運(yùn)算、復(fù)雜數(shù)據(jù)挖掘的需求。

2基于標(biāo)準(zhǔn)的理論模型設(shè)計

基礎(chǔ)數(shù)據(jù)庫系統(tǒng)的理論模型可以從業(yè)務(wù)模型、元數(shù)據(jù)標(biāo)準(zhǔn)、信息技術(shù)和最終實(shí)現(xiàn)四個層面。理論模型研發(fā)設(shè)計參照多個國際統(tǒng)計標(biāo)準(zhǔn),包括GSBPM、GSIM、DDI、SDMX、ISO11179、CSpro等。標(biāo)準(zhǔn)規(guī)范體系按照國家統(tǒng)計局相關(guān)元數(shù)據(jù)標(biāo)準(zhǔn)、國家統(tǒng)計局相關(guān)業(yè)務(wù)流程規(guī)范設(shè)計,做到完整覆蓋和完美兼容。采用標(biāo)準(zhǔn)體系不但可以提升業(yè)務(wù)融合性、數(shù)據(jù)可讀性、系統(tǒng)可擴(kuò)展性,而且可以實(shí)現(xiàn)統(tǒng)計數(shù)據(jù)的平臺無關(guān)性,系統(tǒng)數(shù)據(jù)和元數(shù)據(jù)脫離本系統(tǒng)一樣可以被理解被使用。系統(tǒng)設(shè)計應(yīng)遵循統(tǒng)計通用業(yè)務(wù)模型、統(tǒng)計通用信息模型和企業(yè)聯(lián)網(wǎng)直報系統(tǒng)等,采用DDI和SDMX進(jìn)行統(tǒng)計業(yè)務(wù)和數(shù)據(jù)的組織,運(yùn)用XML和數(shù)據(jù)倉庫等信息技術(shù),形成最終的產(chǎn)品。

3統(tǒng)計分析設(shè)計

統(tǒng)計分析設(shè)計為全流程一站式,徹底改變過去進(jìn)行統(tǒng)計分析時需要先去多個系統(tǒng)找數(shù),再逐一進(jìn)行指標(biāo)化預(yù)處理,再進(jìn)行分析的低效能弊端,將數(shù)據(jù)提取、數(shù)據(jù)處理、數(shù)據(jù)分析、數(shù)據(jù)可視化的過程集成在一個平臺內(nèi),應(yīng)用高性能的數(shù)據(jù)計算技術(shù)保證整個過程流暢,基于R語言實(shí)現(xiàn)描述性分析、模型分析和挖掘分析的多種層次的分析能力,保障用戶可以進(jìn)行任意組合的查詢分析,提供即查即所見,使探索式分析成為可能。

作者:侯昭民 單位:山東省統(tǒng)計數(shù)據(jù)管理中心