海洋環(huán)境數(shù)據(jù)系統(tǒng)設計論文

時間:2022-04-02 10:39:56

導語:海洋環(huán)境數(shù)據(jù)系統(tǒng)設計論文一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

海洋環(huán)境數(shù)據(jù)系統(tǒng)設計論文

1引言

傳統(tǒng)的海洋數(shù)據(jù)服務一般是專項專建、專人專用,針對人群比較單一、數(shù)據(jù)類型比較簡單,而且在項目結(jié)束后通常建設的數(shù)據(jù)庫和應用系統(tǒng)由于沒有后期的經(jīng)費支撐而停用。本研究提出的海洋環(huán)境數(shù)據(jù)在線服務系統(tǒng)(以下簡稱系統(tǒng)),涵蓋了多專項、多學科的數(shù)據(jù),在原有數(shù)據(jù)庫、應用系統(tǒng)、專網(wǎng)基礎(chǔ)上進行系統(tǒng)集成、數(shù)據(jù)庫擴建,為海洋局屬各單位提供共享服務。系統(tǒng)是運用面向服務架構(gòu)的設計思想搭建應用系統(tǒng)。采用并行數(shù)據(jù)庫技術(shù)實現(xiàn)大數(shù)據(jù)量的存儲、加載、更新、查詢等操作,利用ETL調(diào)度工具實現(xiàn)源數(shù)據(jù)庫到并行數(shù)據(jù)庫的數(shù)據(jù)抽取、轉(zhuǎn)換和轉(zhuǎn)載,減少重新建庫的工作量。采用虛擬化技術(shù)整合存儲、服務器、網(wǎng)絡資源,建設數(shù)據(jù)中心集群,提高資源利用率,采用域控管理機制實現(xiàn)數(shù)據(jù)安全管理,權(quán)限管理。采用VPN認證管理機制,保障系統(tǒng)安全正常運轉(zhuǎn)。

2系統(tǒng)設計

系統(tǒng)通過面向服務的總體架構(gòu),以數(shù)據(jù)的匯集、處理、應用為基礎(chǔ)主線,采用高速并行技術(shù),結(jié)合虛擬化技術(shù)等先進IT技術(shù),設計系統(tǒng)的邏輯架構(gòu)、功能架構(gòu)、物理架構(gòu)與技術(shù)架構(gòu)。

2.1邏輯架構(gòu)

系統(tǒng)總體架框架由數(shù)據(jù)層、管理層和應用層3部分構(gòu)成,數(shù)據(jù)層是指通過對歷史收集、專項調(diào)查、在線傳輸?shù)确绞绞占?,采用?shù)據(jù)集、數(shù)據(jù)庫方式進行數(shù)據(jù)存儲與管理;管理層是指對使用系統(tǒng)的用戶進行統(tǒng)一認證、用戶管理、數(shù)據(jù)授權(quán)等實現(xiàn)用戶有效可控的管理;應用層是指為用戶提供數(shù)據(jù)的在線查詢檢索、數(shù)據(jù)時空分布檢索、產(chǎn)品加工處理等應用服務,滿足用戶多樣化的需求。應用層與管理層通過內(nèi)網(wǎng)和專網(wǎng)訪問數(shù)據(jù)層,實現(xiàn)數(shù)據(jù)的管理、查詢、處理等服務。

(1)數(shù)據(jù)層。數(shù)據(jù)層主要由原始數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)和成果數(shù)據(jù)3部分組成。原始數(shù)據(jù)是指海洋儀器現(xiàn)場采集的原始資料、現(xiàn)場匯交的紙質(zhì)或者電子資料等。原始數(shù)據(jù)采用文件方式存儲,基于原始資料清單和數(shù)據(jù)庫文件目錄等方式進行管理。類型包括海洋觀測原始資料、海洋監(jiān)測原始資料、專項調(diào)查匯交資料等。基礎(chǔ)數(shù)據(jù)是指對原始數(shù)據(jù)進行整理、排重、質(zhì)量控制等處理之后形成的標準化數(shù)據(jù)。內(nèi)容主要包括專項調(diào)查數(shù)據(jù)、觀測實時資料數(shù)據(jù)與國際業(yè)務化數(shù)據(jù)等,專項調(diào)查數(shù)據(jù)包括水文、氣象等9個學科,觀測實時資料數(shù)據(jù)包括海洋站、雷達、浮標等?;A(chǔ)數(shù)據(jù)采用數(shù)據(jù)庫存儲方式,根據(jù)基礎(chǔ)數(shù)據(jù)的資料類型、資料格式、數(shù)據(jù)觀測頻率、數(shù)據(jù)傳輸頻率、數(shù)據(jù)量等設計數(shù)據(jù)庫結(jié)構(gòu)。成果數(shù)據(jù)是指經(jīng)過信息提取、多源數(shù)據(jù)融合、數(shù)值模型分析、統(tǒng)計分析等手段處理后形成的數(shù)據(jù)。成果數(shù)據(jù)由要素數(shù)據(jù)、成果專題數(shù)據(jù)、資料目錄數(shù)據(jù)組成,采用數(shù)據(jù)庫存儲方式。要素數(shù)據(jù)是以基礎(chǔ)數(shù)據(jù)為基礎(chǔ),根據(jù)數(shù)據(jù)的專題應用保障和服務需求,按照時間、空間、專題要素等進行組織的數(shù)據(jù)。成果專題數(shù)據(jù)主要包括數(shù)值型產(chǎn)品和圖形產(chǎn)品,涵蓋海洋再分析產(chǎn)品、實況分析產(chǎn)品、潮汐預報產(chǎn)品和海洋專題產(chǎn)品等。資料目錄數(shù)據(jù)主要包括原始數(shù)據(jù)集目錄索引、標準數(shù)據(jù)集目錄索引、產(chǎn)品數(shù)據(jù)目錄索引等。

(2)管理層。管理層主要負責系統(tǒng)的用戶管理、資源管理、業(yè)務流程管理和運行監(jiān)控管理等內(nèi)容。用戶管理包括用戶的創(chuàng)建、更改和刪除、角色管理、功能授權(quán)與數(shù)據(jù)授權(quán);資源管理包括目錄索引管理、數(shù)據(jù)導航管理、信息管理與信息資源管理;業(yè)務流程管理包括數(shù)據(jù)申請、虛擬機管理、數(shù)據(jù)審批管理等;運行監(jiān)控管理包括運行環(huán)境監(jiān)控、數(shù)據(jù)資源監(jiān)控與用戶行為監(jiān)控。

(3)應用層。應用層依托于中心內(nèi)網(wǎng)和海洋專網(wǎng),基于并行數(shù)據(jù)庫技術(shù)和虛擬化技術(shù),實現(xiàn)海洋局屬單位間的數(shù)據(jù)在線服務。應用層主要包括:數(shù)據(jù)時空分布展示、數(shù)據(jù)查詢檢索服務、數(shù)據(jù)共享虛擬環(huán)境、產(chǎn)品制作與產(chǎn)品導出功能。數(shù)據(jù)時空分布展示是利用數(shù)據(jù)的經(jīng)緯度、時間范圍、站次數(shù)等關(guān)鍵信息,通過統(tǒng)計計算數(shù)據(jù)量,依據(jù)色彩圖例,進行時空分布展示。數(shù)據(jù)查詢檢索服務包括數(shù)據(jù)庫查詢檢索和數(shù)據(jù)集查詢檢索。該服務可提供基于矢量地圖及影像地圖的地圖顯示控件的數(shù)據(jù)查詢服務,以及使用關(guān)鍵字對數(shù)據(jù)進行查詢。產(chǎn)品制作是指對資料進行整理、標準化處理,開展數(shù)據(jù)識別、解碼等預處理操作,利用數(shù)據(jù)統(tǒng)計分析工具進行產(chǎn)品的加工制作。產(chǎn)品導出是指對用戶加工制作產(chǎn)生的產(chǎn)品成果提供數(shù)據(jù)的導出功能,實現(xiàn)數(shù)據(jù)從虛擬機到本機的導出服務。

2.2物理架構(gòu)

按照系統(tǒng)設計,對系統(tǒng)運行硬件環(huán)境進行搭建,硬件環(huán)境涵蓋原始數(shù)據(jù)文件存儲區(qū)、數(shù)據(jù)庫存儲區(qū)、數(shù)據(jù)處理區(qū)、數(shù)據(jù)服務區(qū)。按照網(wǎng)絡布局可化為中心內(nèi)網(wǎng)和海洋專網(wǎng),內(nèi)網(wǎng)為中心內(nèi)部用戶提供在線服務的入口,專網(wǎng)主要包括海洋觀測網(wǎng)、海洋監(jiān)測網(wǎng)、數(shù)字海洋網(wǎng);數(shù)字海洋網(wǎng)為海洋局屬單位提供在線服務的入口,用戶經(jīng)由內(nèi)網(wǎng)/數(shù)字海洋網(wǎng)通過VPN身份認證后方可進入用戶主頁,通過登錄進入個人虛擬工作環(huán)境(即用戶虛擬機),用戶可在虛擬機中對數(shù)據(jù)進行查詢、處理和產(chǎn)品制作。系統(tǒng)經(jīng)由海洋觀測網(wǎng)和海洋監(jiān)測網(wǎng)接收實時、延時觀測和監(jiān)測的海洋數(shù)據(jù),并發(fā)送到系統(tǒng)的文件存儲區(qū)和處理資料臨時存儲區(qū),由存儲管理系統(tǒng)進行數(shù)據(jù)的接收、存儲和管理。利用用戶授權(quán)管理將數(shù)據(jù)分發(fā)到數(shù)據(jù)處理用戶的虛擬機中。數(shù)據(jù)處理用戶通過中心內(nèi)網(wǎng)登錄到虛擬機后,開展數(shù)據(jù)整理、標準化處理工作后,將處理結(jié)果按照指定的路徑存放。由數(shù)據(jù)傳輸系統(tǒng)同步傳輸?shù)疆a(chǎn)品制作用戶的虛擬機中,用戶可開展產(chǎn)品加工制作并將成果按照指定的路徑存放。最終由數(shù)據(jù)交換系統(tǒng)存儲到統(tǒng)一的資料存儲管理區(qū)。ETL處理系統(tǒng)經(jīng)過數(shù)據(jù)抽取、清洗、轉(zhuǎn)換等處理,將數(shù)據(jù)處理結(jié)果和產(chǎn)品加載入庫,最終經(jīng)由中心內(nèi)網(wǎng)和海洋專網(wǎng)為海洋局屬單位提供數(shù)據(jù)共享服務。

3系統(tǒng)功能實現(xiàn)

系統(tǒng)通過用戶唯一入口登錄,保證數(shù)據(jù)安全;開發(fā)數(shù)據(jù)處理系統(tǒng),完成數(shù)據(jù)格式化轉(zhuǎn)換;利用ETL處理系統(tǒng),完成并行數(shù)據(jù)庫的數(shù)據(jù)處理與調(diào)度,包括數(shù)據(jù)抽取、數(shù)據(jù)轉(zhuǎn)換與清洗及數(shù)據(jù)加載;開發(fā)數(shù)據(jù)庫檢索、數(shù)據(jù)集檢索、文件輸出審批和文件導出等應用程序;開發(fā)系統(tǒng)運行監(jiān)控管理系統(tǒng),對系統(tǒng)的運行環(huán)境、數(shù)據(jù)狀況和用戶行為進行監(jiān)控和管理。

3.1數(shù)據(jù)處理分系統(tǒng)

3.1.1實時數(shù)據(jù)處理子系統(tǒng)

根據(jù)海洋環(huán)境數(shù)據(jù)觀測的采集規(guī)范和編碼規(guī)定,對接收、收集和整合的大量海洋調(diào)查、業(yè)務化觀測/監(jiān)測等資料,按照資料類型、觀測儀器、觀測手段、要素內(nèi)容等特點,開展數(shù)據(jù)識別、解碼、數(shù)字化、數(shù)據(jù)項檢查、代碼檢查等預處理,按照時間、空間和觀測資料類型進行排重、排序和初步質(zhì)量控制,剔除異常數(shù)據(jù),依據(jù)數(shù)據(jù)來源、時間、地點等信息對數(shù)據(jù)文件進行挑選、過濾、分類存放,同時完善和新建相應的海洋環(huán)境數(shù)據(jù)存儲標準,對資料進行標準化格式轉(zhuǎn)換。

3.1.2歷史數(shù)據(jù)處理子系統(tǒng)

系統(tǒng)根據(jù)海洋環(huán)境數(shù)據(jù)觀測設備性能、儀器訂正參數(shù)、資料種類、觀測要素類型、觀測方式、資料時空分布、要素數(shù)據(jù)經(jīng)驗范圍等特點,配置質(zhì)量控制參數(shù),采用相應的質(zhì)量控制方法,對各類海洋環(huán)境數(shù)據(jù)進行精細化的計算機自動質(zhì)量控制和人工審核。質(zhì)量控制方法包括范圍檢驗、非法碼檢驗、相關(guān)檢驗、季節(jié)性檢驗、一致性檢驗、著陸點檢驗、梯度檢驗、尖峰檢驗、氣候?qū)W檢驗和極值檢驗等。

3.2數(shù)據(jù)庫加載分系統(tǒng)

數(shù)據(jù)庫加載系統(tǒng)包括通用數(shù)據(jù)庫加載系統(tǒng)與并行數(shù)據(jù)庫加載系統(tǒng)。通用數(shù)據(jù)庫加載系統(tǒng)是通過加載文件清單的方式進行數(shù)據(jù)管理,清單文件是對每類數(shù)據(jù)的特征描述,包括文件類型、文件名、調(diào)查機構(gòu)、絕對路徑、備注等信息,通過一條記錄就可以確認數(shù)據(jù)類型并找到數(shù)據(jù)存儲位置。清單文件的組織結(jié)構(gòu)與數(shù)據(jù)庫表結(jié)構(gòu)一致,且加載系統(tǒng)可實現(xiàn)清單列名與數(shù)據(jù)庫列名對應關(guān)系的動態(tài)調(diào)整,清單配置文件設置完成后,單擊上傳,將清單的記錄入庫,加載過程中可通過狀態(tài)條查看加載進度。并行數(shù)據(jù)庫加載系統(tǒng)先按照數(shù)據(jù)庫結(jié)構(gòu)利用ETL處理系統(tǒng)通過抽取數(shù)據(jù)文件的相關(guān)信息形成庫文件,將庫文件存放在規(guī)定的目錄下,并查看庫文件的文件表結(jié)構(gòu),創(chuàng)建相應的數(shù)據(jù)庫表,創(chuàng)建shell腳本并制定源文件和目標文件,最后寫入數(shù)據(jù)庫。

3.3數(shù)據(jù)查詢檢索分系統(tǒng)

系統(tǒng)主要分為兩大模塊:關(guān)鍵字查詢和圖形化檢索。系統(tǒng)界面左側(cè)顯示海洋資料體系結(jié)構(gòu),右側(cè)用于經(jīng)緯度區(qū)域選擇地圖和查詢結(jié)果瀏覽。用戶首先在左側(cè)選擇相應的航次,然后在右側(cè)地圖圈定需求的區(qū)域,再輸入關(guān)鍵字,查詢該區(qū)域的特定信息,或查詢特定區(qū)域的所有信息,或查詢所有區(qū)域的特定信息,并能夠?qū)Σ樵兘Y(jié)果進行統(tǒng)計、排序、固定格式表格的導出。

3.4運行監(jiān)控管理分系統(tǒng)

通過建立運行環(huán)境監(jiān)控信息數(shù)據(jù)庫,確定數(shù)據(jù)庫中各類監(jiān)控信息表、監(jiān)控要素字段、監(jiān)控狀態(tài)字段、表關(guān)系和數(shù)據(jù)字典等,實現(xiàn)運行環(huán)境監(jiān)控、數(shù)據(jù)監(jiān)控與用戶行為監(jiān)控的實體建設。

3.4.1運行環(huán)境監(jiān)控與管理子系統(tǒng)

運行環(huán)境監(jiān)控與管理子系統(tǒng)包括硬件環(huán)境監(jiān)控和軟件環(huán)境監(jiān)控兩部分。硬件環(huán)境監(jiān)控是通過對系統(tǒng)局域網(wǎng)硬件設備運行的日志信息進行提取、分析,實現(xiàn)對服務器、存儲陣列、交換機、路由器、防火墻等設備故障診斷、告警等功能。軟件環(huán)境監(jiān)控是通過研制各商業(yè)軟件(操作系統(tǒng)、數(shù)據(jù)庫軟件等)與各業(yè)務系統(tǒng)(數(shù)據(jù)處理軟件等)運行日志讀取接口,實時讀取日志信息并加載運行環(huán)境監(jiān)控信息數(shù)據(jù)庫。

3.4.2數(shù)據(jù)資源監(jiān)控與管理子系統(tǒng)

數(shù)據(jù)資源監(jiān)控與管理子系統(tǒng)通過對數(shù)據(jù)匯集狀態(tài)實時監(jiān)控,實現(xiàn)信息反饋、到期告警、匯集情況季報與年報輸出等功能,實現(xiàn)對海洋數(shù)據(jù)處理和質(zhì)量情況的實時監(jiān)控和預警、數(shù)據(jù)處理任務。調(diào)度管理;通過提取用戶登錄日志、數(shù)據(jù)庫與數(shù)據(jù)集訪問日志、數(shù)據(jù)申請信息進行分析,實現(xiàn)數(shù)據(jù)的服務內(nèi)容、服務對象、應用領(lǐng)域情況的實時監(jiān)控。

3.4.3用戶行為監(jiān)控與管理子系統(tǒng)

用戶行為監(jiān)控與管理子分系統(tǒng)實時對用戶的登錄、數(shù)據(jù)資源訪問、外部設備使用、軟件安裝預警和設備接入等行為進行監(jiān)控,具有終止用戶操作、告警提示、季度分析報告輸出等功能,在提供用戶方便使用的前提下保障系統(tǒng)的穩(wěn)定運行。

4關(guān)鍵技術(shù)

根據(jù)系統(tǒng)總體功能定位,在已有的工作基礎(chǔ)之上,以數(shù)據(jù)的匯集、處理、存儲、管理、服務過程為主線,采用操作系統(tǒng)、數(shù)據(jù)庫、數(shù)據(jù)管理與共享3層軟件體系,集成各類自主研發(fā)功能,構(gòu)建靈活、穩(wěn)定的架構(gòu)模式。架構(gòu)主要基于虛擬化技術(shù)、并行處理技術(shù)、數(shù)據(jù)檢索并行處理技術(shù)與J2EE技術(shù)等關(guān)鍵技術(shù)。

4.1虛擬化技術(shù)

由于用戶對處理器、內(nèi)存等硬件和操作系統(tǒng)需求不同,用戶工作使用的數(shù)據(jù)處理軟件、資料質(zhì)量控制軟件和產(chǎn)品制作軟件不盡相同,為滿足用戶需求,同時提高服務器、存儲陣列等資源的利用率,采用服務器虛擬化技術(shù)實現(xiàn)滿足不同用戶需求的虛擬機,同時消除服務器與存儲陣列對應用系統(tǒng)的物理局限性。服務器虛擬化技術(shù)是將一個物理服務器虛擬成若干個服務器使用,使得單個物理服務器上可以運行多個虛擬服務器。

4.2并行處理技術(shù)

利用高速并行處理引擎,完成多層次海洋數(shù)據(jù)體系動態(tài)更新的ETL(抽取、轉(zhuǎn)換、加載)并行處理,實現(xiàn)整個系統(tǒng)的數(shù)據(jù)處理與調(diào)度,包括數(shù)據(jù)抽取、數(shù)據(jù)傳輸、數(shù)據(jù)轉(zhuǎn)換與清洗、數(shù)據(jù)加載以及調(diào)度監(jiān)控。

4.2.1數(shù)據(jù)抽取

數(shù)據(jù)抽取的方式包括:全表刷新、時間戳增量、日志增量和時間戳比較。系統(tǒng)采用時間戳增量方式完成數(shù)據(jù)的抽取,時間戳增量方式是通過記錄時間將增量數(shù)據(jù)從源數(shù)據(jù)抽取出來,以附加的方式加載到高速數(shù)據(jù)存儲中,完成源數(shù)據(jù)中的記錄定期更新。時間戳增量方式是在源系統(tǒng)需要抽取的數(shù)據(jù)表中增加時間戳字段,用以表示數(shù)據(jù)的修改或新增時間,在數(shù)據(jù)抽取時通過它來識別和抽取增量數(shù)據(jù)。

4.2.2數(shù)據(jù)轉(zhuǎn)換

由于海洋數(shù)據(jù)通過調(diào)查、匯交、網(wǎng)載等多種手段獲取,每種手段來源的數(shù)據(jù)存在定義不規(guī)范、格式不統(tǒng)一等情況,導致系統(tǒng)的源數(shù)據(jù)存在重復、錯誤、格式不一等情況。數(shù)據(jù)轉(zhuǎn)換是將多來源、多調(diào)查手段、多要素和多格式的數(shù)據(jù)進行轉(zhuǎn)換,形成格式統(tǒng)一、實用性強的數(shù)據(jù)存儲層。

4.2.3數(shù)據(jù)加載

將業(yè)務系統(tǒng)和源數(shù)據(jù)庫層抽取、轉(zhuǎn)換后的數(shù)據(jù)加載、更新到目標數(shù)據(jù)庫中。根據(jù)業(yè)務數(shù)據(jù)的實際情況,對不同業(yè)務系統(tǒng)的數(shù)據(jù)采用不同的加載周期;根據(jù)數(shù)據(jù)的抽取策略以及業(yè)務規(guī)則確定,采用直接追加、全部覆蓋、更新追加等多種方式進行處理。

4.2.4高速并行調(diào)度

利用高速并行ETL調(diào)度,按照既定步驟完成數(shù)據(jù)抽取、轉(zhuǎn)換、加載的全部時間和流程的調(diào)度任務。調(diào)度的內(nèi)容包括:從各業(yè)務系統(tǒng)到數(shù)據(jù)層的調(diào)度,實現(xiàn)多來源數(shù)據(jù)的提取、轉(zhuǎn)換和加載;從數(shù)據(jù)層到數(shù)據(jù)存儲的調(diào)度,實現(xiàn)了原始數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)、產(chǎn)品數(shù)據(jù)的高速并行存儲;從數(shù)據(jù)存儲到應用層的調(diào)度,實現(xiàn)數(shù)據(jù)的并行查詢檢索。

5結(jié)束語

海洋環(huán)境數(shù)據(jù)在線服務系統(tǒng)實現(xiàn)了內(nèi)部資源整合和數(shù)據(jù)業(yè)務流程的規(guī)劃設計,完成了海洋數(shù)據(jù)從接收、整理、標準化處理到產(chǎn)品加工的一體化管理與服務。但是系統(tǒng)仍存在很多不足,如數(shù)據(jù)加載程序中間過程仍需要人工干預,數(shù)據(jù)三維可視化方面存在不足。因此其進一步改進目標是實現(xiàn)數(shù)據(jù)的自動化加載,開發(fā)信息可視化展示系統(tǒng)。

作者:宋曉姜曉軼韓璐遙王漪單位:國家海洋信息中心國家海洋局數(shù)字海洋科學技術(shù)重點實驗室