數(shù)據(jù)理論論文范文
時(shí)間:2023-04-11 17:15:14
導(dǎo)語:如何才能寫好一篇數(shù)據(jù)理論論文,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
(一)類型繁多(Variety)
數(shù)據(jù)通常被分為結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)和非結(jié)構(gòu)化數(shù)據(jù)。相對(duì)于傳統(tǒng)的以文本為主的結(jié)構(gòu)化數(shù)據(jù),網(wǎng)絡(luò)日志、音頻、視頻、圖片、地理位置信息等半結(jié)構(gòu)化、非結(jié)構(gòu)化數(shù)據(jù)越來越多。同時(shí),近幾年出現(xiàn)的微博、微信等可通過移動(dòng)互聯(lián)設(shè)備使用的電子交往形式使數(shù)據(jù)量和數(shù)據(jù)種類更加復(fù)雜化。
(二)價(jià)值不高(Value)
價(jià)值密度的高低與數(shù)據(jù)總量的大小成反比。以社會(huì)中常見的監(jiān)控錄像為例,一天的監(jiān)控記錄,有用數(shù)據(jù)可能僅有一二秒。如何將已有的結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)及非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行整合、分析,挖掘出更多有價(jià)值的信息,并通過強(qiáng)大的計(jì)算能力迅速地完成數(shù)據(jù)的價(jià)值“提純”成為目前大數(shù)據(jù)背景下亟待解決的難題。
(三)要求高速處理(Velocity)
這是大數(shù)據(jù)區(qū)分于傳統(tǒng)數(shù)據(jù)挖掘的最顯著特征。根據(jù)IDC的“數(shù)字宇宙”的報(bào)告,預(yù)計(jì)到2020年,全球數(shù)據(jù)使用量將達(dá)到35.2ZB。在如此海量的數(shù)據(jù)面前,處理數(shù)據(jù)的效率就是生命。
二、圖書館大數(shù)據(jù)的主要來源分析
根據(jù)大數(shù)據(jù)的基本特征,經(jīng)筆者分析,圖書館知識(shí)服務(wù)領(lǐng)域的未來大數(shù)據(jù)的來源主要有RFID射頻數(shù)據(jù)、傳感器數(shù)據(jù)、社交網(wǎng)絡(luò)和移動(dòng)互聯(lián)數(shù)據(jù)等幾個(gè)方面。隨著圖書館數(shù)字技術(shù)的不斷提高,RFID將不斷推廣,這將是未來圖書館大數(shù)據(jù)的主要來源之一;由圖書館中的傳感器感知生成的數(shù)據(jù),長時(shí)間積累后也將產(chǎn)生巨大的數(shù)據(jù)量;社交網(wǎng)絡(luò)已廣泛應(yīng)用于社會(huì)各個(gè)方面,逐步成為人們交往的主要形式,其所產(chǎn)生的數(shù)據(jù)量遠(yuǎn)超以往任何一個(gè)信息傳播媒介,由其生成的數(shù)據(jù)量是不可估量的;移動(dòng)互聯(lián)網(wǎng)及移動(dòng)互聯(lián)技術(shù)的不斷完善,使得圖書館可以靈活獲取移動(dòng)電子設(shè)備、人員、資源、用戶行為和需求等信息,并對(duì)這些信息進(jìn)行實(shí)時(shí)分析,從而幫助我們開展有效的智能輔助決策。
三、大數(shù)據(jù)對(duì)圖書館管理的影響和挑戰(zhàn)
(一)海量數(shù)據(jù)處理考驗(yàn)圖書館計(jì)算能力
大數(shù)據(jù)時(shí)代背景下,各類數(shù)據(jù)量迅速增長,數(shù)據(jù)產(chǎn)生的方式、范圍發(fā)生前所未有的變化,人們在社會(huì)中的各類行為都產(chǎn)生了大量的信息數(shù)據(jù),信息數(shù)據(jù)的組成結(jié)構(gòu)、格式類型、存在形態(tài)等都更加復(fù)雜。圖書館要對(duì)上述復(fù)雜的數(shù)據(jù)進(jìn)行應(yīng)用、存儲(chǔ),將具有很強(qiáng)的挑戰(zhàn)性,不僅僅涉及云計(jì)算、大數(shù)量級(jí)數(shù)據(jù)存儲(chǔ)等技術(shù)問題,還可能促發(fā)圖書館服務(wù)模式、資源建設(shè)模式、管理模式與發(fā)展模式的轉(zhuǎn)變。
(二)數(shù)據(jù)分析方式轉(zhuǎn)變帶來的挑戰(zhàn)
隨著圖書館信息化程度的提高,以互聯(lián)網(wǎng)信息搜索、查詢?yōu)榛A(chǔ)的知識(shí)服務(wù)逐漸被更多的圖書館所采用。但不管是簡單的信息服務(wù),還是結(jié)合了信息檢索、組織、分析等高級(jí)業(yè)務(wù)服務(wù),都可歸納為就數(shù)據(jù)而進(jìn)行的服務(wù)。大數(shù)據(jù)時(shí)代背景下要求圖書館不僅需要通過結(jié)構(gòu)化數(shù)據(jù)了解客戶需求,也需要大量的非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)去挖掘、預(yù)測和分析當(dāng)前和未來的用戶需求,社會(huì)大眾的需求也將隨著不斷變化的個(gè)性化的高滿意度服務(wù)出現(xiàn)而對(duì)圖書館的服務(wù)呈現(xiàn)出明確和迫切的需求。滿足用戶的需求,提供復(fù)雜數(shù)據(jù)的處理也將成為大數(shù)據(jù)時(shí)代圖書館的發(fā)展方向,如何處理好數(shù)據(jù)分析,將直接影響圖書館的生存與發(fā)展。
(三)大數(shù)據(jù)對(duì)圖書館基礎(chǔ)設(shè)施提出更高的要求
半結(jié)構(gòu)化及非結(jié)構(gòu)化數(shù)據(jù)的迅速增加,導(dǎo)致數(shù)據(jù)存儲(chǔ)、計(jì)算規(guī)模越來越大,其成本急劇上升。很多知識(shí)服務(wù)機(jī)構(gòu)出于成本的考慮將應(yīng)用由高端服務(wù)器轉(zhuǎn)向中低端硬件構(gòu)成的大規(guī)模計(jì)算機(jī)集群,從而對(duì)支持非結(jié)構(gòu)化數(shù)據(jù)存儲(chǔ)及分析的基礎(chǔ)設(shè)施提出了很高的要求。
四、大數(shù)據(jù)時(shí)代圖書館管理發(fā)展方向
(一)探索利用數(shù)據(jù)分析技術(shù)與工具
對(duì)圖書館來說,在大數(shù)據(jù)時(shí)代要想在激烈的市場份額競爭中爭得一席之地,避免邊緣化,開展必要的大數(shù)據(jù)分析服務(wù)顯得必不可少。圖書館開展的大數(shù)據(jù)分析服務(wù)業(yè)務(wù),主要可以有以下幾種:首先是圖書館自身建設(shè)所需的大數(shù)據(jù)分析。這類分析一般以圖書館的現(xiàn)有數(shù)據(jù)為對(duì)象進(jìn)行分析,如讀者的借閱方式、行為愛好等,是一種對(duì)現(xiàn)有資源的分析與挖掘;其次是客戶即讀者所需的大數(shù)據(jù)分析。這類分析業(yè)務(wù)類似于當(dāng)今圖書館為企業(yè)等客戶群體所做的信息情報(bào)參考、競爭情報(bào)分析,但也有著很大的區(qū)別,如對(duì)于分析對(duì)象數(shù)據(jù)的不同、分析手段的不同、分析目的不同等,這類分析業(yè)務(wù)所依靠的大量數(shù)據(jù)可能并非圖書館所擁有,從而成為限制該項(xiàng)業(yè)務(wù)發(fā)展的瓶頸,如何解決此類服務(wù)的數(shù)據(jù)問題是突破該瓶頸的關(guān)鍵。麥肯錫的《大數(shù)據(jù):創(chuàng)新、競爭和生產(chǎn)力的下一個(gè)前沿領(lǐng)域》報(bào)告中首次提出了“大數(shù)據(jù)”的概念,對(duì)大數(shù)據(jù)的分析技術(shù)與工具進(jìn)行了列舉,如目前已為廣大圖書情報(bào)研究者所熟知的聚類分析、數(shù)據(jù)挖掘、網(wǎng)絡(luò)分析、可視化分析、數(shù)據(jù)融合與數(shù)據(jù)集成等,特別是聚類分析、可視化分析與數(shù)據(jù)挖掘技術(shù)。但這些現(xiàn)有的研究目前僅僅只是針對(duì)結(jié)構(gòu)化數(shù)據(jù)和有限數(shù)量的關(guān)鍵詞進(jìn)行聚類分析、共現(xiàn)分析等,并不能真正挖掘大量負(fù)責(zé)數(shù)據(jù)的存在與表現(xiàn)形態(tài),更不能通過這些分析去預(yù)測未來的可能發(fā)展趨勢。當(dāng)然,大量網(wǎng)絡(luò)社交等信息行為產(chǎn)生的大量非結(jié)構(gòu)化數(shù)據(jù)、半結(jié)構(gòu)化數(shù)據(jù)也讓許多學(xué)者開始思考去采集和利用這些信息,如蘇玉照等人就認(rèn)為如果能夠采集到Web日志的數(shù)據(jù),就能很好地滿足發(fā)現(xiàn)關(guān)聯(lián)規(guī)則、內(nèi)容分類和用戶聚類的需求,從而能提高個(gè)性化推薦的精度,進(jìn)而對(duì)定制Web日志的數(shù)據(jù)模型、過程及方法進(jìn)行探索。
(二)重視基礎(chǔ)設(shè)施建設(shè)
大數(shù)據(jù)時(shí)代,圖書館的核心競爭力不再僅是文獻(xiàn)數(shù)據(jù)信息的競爭,各類形式的海量數(shù)據(jù)以及對(duì)海量數(shù)據(jù)的分析、挖掘才是今后圖書館之間競爭的核心因素。因此,要跟上大數(shù)據(jù)的腳步,必須完善信息收集的基礎(chǔ)設(shè)施建設(shè),加強(qiáng)各類信息資源的收集將成為圖書館資源建設(shè)的大方向。圖書館首先要明白“數(shù)據(jù)即生命”,解決數(shù)據(jù)存儲(chǔ)問題。大數(shù)據(jù)時(shí)代對(duì)于圖書館的數(shù)據(jù)存儲(chǔ)量要求極高。早在2007年,沃爾瑪就通過對(duì)消費(fèi)者的購物行為等非結(jié)構(gòu)化數(shù)據(jù)進(jìn)行分析,創(chuàng)造了“啤酒與尿布”的經(jīng)典商業(yè)案例。這樣的經(jīng)典案例是通過對(duì)海量的多類型數(shù)據(jù)收集和分析得到的。因此,圖書館要掌握讀者用戶、館員乃至社會(huì)服務(wù)群體等的信息,既要有當(dāng)前通用的數(shù)據(jù)記錄中的個(gè)人身份、借閱記錄等結(jié)構(gòu)化數(shù)據(jù),還要有存儲(chǔ)信息行為、搜索方式、行為痕跡等非傳統(tǒng)數(shù)據(jù),這些都需要通過基礎(chǔ)設(shè)施的建設(shè)來支持。除此之外,圖書館還必須解決數(shù)據(jù)計(jì)算和數(shù)據(jù)分析問題。要積極利用“云計(jì)算”技術(shù),搭建圖書館的云計(jì)算平臺(tái),解決圖書館自身海量數(shù)據(jù)的存儲(chǔ)及運(yùn)算能力與大數(shù)據(jù)對(duì)存儲(chǔ)能力的高要求之間的矛盾。
(三)提高圖書館服務(wù)的智能化程度
篇2
城鎮(zhèn)土地調(diào)查數(shù)據(jù)庫的主要內(nèi)容包括:土地權(quán)屬、土地登記、土地利用、基礎(chǔ)地理、影像等信息。城鎮(zhèn)土地調(diào)查數(shù)據(jù)庫建設(shè)的依據(jù)是《城鎮(zhèn)地籍調(diào)查規(guī)程》、《城鎮(zhèn)地籍?dāng)?shù)據(jù)庫標(biāo)準(zhǔn)》和二次調(diào)查相關(guān)技術(shù)標(biāo)準(zhǔn)、規(guī)范和辦法等,根據(jù)城鎮(zhèn)地籍測量、城鎮(zhèn)地籍調(diào)查和土地登記成果,建立了城鎮(zhèn)土地調(diào)查數(shù)據(jù)庫。①數(shù)據(jù)檢查。利用自主開發(fā)的MDIGS數(shù)字化系統(tǒng)對(duì)入庫前的地籍、地形圖、入庫基礎(chǔ)街坊圖內(nèi)業(yè)數(shù)據(jù)進(jìn)行100%的檢查,對(duì)檢查到的線型、符號(hào)等地形要素、數(shù)據(jù)字段屬性等錯(cuò)誤自動(dòng)或人工進(jìn)行了及時(shí)改正,保證了入庫基礎(chǔ)數(shù)據(jù)的完整性、正確性。在數(shù)據(jù)庫內(nèi),利用ARCGIS9.3拓?fù)錂z查工具、“城鎮(zhèn)地籍建庫管理軟件以及“ACCESS2003”數(shù)據(jù)庫工具,對(duì)所有錄入的地籍調(diào)查表主、子表項(xiàng)、勘丈數(shù)據(jù)、街坊面積、街坊數(shù)據(jù)圖等100%進(jìn)行了嚴(yán)密地檢查。對(duì)檢查中發(fā)現(xiàn)的問題,由相關(guān)作業(yè)人員進(jìn)行了更正。②數(shù)據(jù)入庫。借助數(shù)據(jù)庫管理系統(tǒng),將圖形和屬性數(shù)據(jù)轉(zhuǎn)入城鎮(zhèn)土地調(diào)查數(shù)據(jù)庫管理系統(tǒng)。③數(shù)據(jù)庫建設(shè)質(zhì)量控制。對(duì)城鎮(zhèn)土地調(diào)查數(shù)據(jù)庫建設(shè)進(jìn)行全過程質(zhì)量控制,包括基礎(chǔ)數(shù)據(jù)源質(zhì)量控制、環(huán)節(jié)質(zhì)量控制、交接檢查、數(shù)據(jù)自檢、數(shù)據(jù)庫建設(shè)成果質(zhì)量檢查。數(shù)據(jù)庫建設(shè)過程中重要的過程數(shù)據(jù)和質(zhì)量控制記錄進(jìn)行了保存,以保證數(shù)據(jù)質(zhì)量的可追查性,確保數(shù)據(jù)安全。④統(tǒng)計(jì)數(shù)據(jù)輸出。經(jīng)檢查合格后的入庫數(shù)據(jù),按《城鎮(zhèn)地籍調(diào)查規(guī)程》、二次調(diào)查的規(guī)定輸出各種統(tǒng)計(jì)報(bào)表。
2上交產(chǎn)品質(zhì)量
根據(jù)對(duì)樣本圖幅綜合質(zhì)量特性的檢測結(jié)果,無錫市錫山區(qū)第二次土地調(diào)查1:500城鎮(zhèn)土地調(diào)查(A標(biāo)段)各項(xiàng)精度指標(biāo)均需符合技術(shù)設(shè)計(jì)書和規(guī)范的要求,質(zhì)量保證可靠。上交質(zhì)量包括控制測量資料和城鎮(zhèn)土地調(diào)查質(zhì)量,其中控制測量資料包括一二級(jí)導(dǎo)線觀測記錄手簿、一二級(jí)導(dǎo)線平差計(jì)算成果、圖根導(dǎo)線計(jì)算成果、一二級(jí)導(dǎo)線點(diǎn)點(diǎn)之記、埋石圖根點(diǎn)點(diǎn)之記、一二級(jí)導(dǎo)線點(diǎn)成果表、圖根點(diǎn)成果表、控制點(diǎn)展點(diǎn)圖、儀器鑒定資料;城鎮(zhèn)土地調(diào)查資料包括街道街坊分布圖、城鎮(zhèn)地籍調(diào)查表及相關(guān)資料、宗地界址點(diǎn)坐標(biāo)及面積表、以街坊為單位的宗地面積匯總表、以街道為單位的土地分類面積匯總表、城鎮(zhèn)土地分類面積統(tǒng)計(jì)表、1:500分幅地籍圖接合表、宗地圖、新舊街坊對(duì)照表、新舊宗地號(hào)對(duì)照表。上交質(zhì)量還應(yīng)該包括數(shù)據(jù)建庫資料(宗地圖分幅地籍圖光盤、城鎮(zhèn)地籍?dāng)?shù)據(jù)庫)、專項(xiàng)調(diào)查統(tǒng)計(jì)資料(工業(yè)用地、基礎(chǔ)設(shè)施用地、金融商業(yè)服務(wù)用地、開發(fā)園區(qū)用地、房地產(chǎn)用地統(tǒng)計(jì))、文檔資料(無錫市1:500城鎮(zhèn)土地調(diào)查技術(shù)設(shè)計(jì)書、技術(shù)總結(jié)檢查報(bào)告)。
3總結(jié)
篇3
1.1系統(tǒng)功能模塊設(shè)計(jì)經(jīng)過對(duì)福州外語外貿(mào)學(xué)院科研管理的需求調(diào)查分析,對(duì)取得的信息進(jìn)行仔細(xì)整理可以發(fā)現(xiàn),科研管理系統(tǒng)的主要任務(wù)可以劃分為機(jī)構(gòu)管理、科研人員管理、科研項(xiàng)目管理、科研成果管理、報(bào)表打印管理、系統(tǒng)管理6個(gè)部分,各部分之間并非各個(gè)獨(dú)立,而是相互聯(lián)系。本研究正是據(jù)此設(shè)計(jì),從而使本系統(tǒng)能夠很好地完成這些功能。具體功能結(jié)構(gòu)如圖2所示。(1)機(jī)構(gòu)管理:科研機(jī)構(gòu)包括各學(xué)院、部處、機(jī)關(guān)單位等,所有的科研人員、成果、項(xiàng)目等都按照科研機(jī)構(gòu)進(jìn)行歸口管理。提供各科研機(jī)構(gòu)的增加、刪除、修改與檢索。(2)科研人員管理:主要對(duì)學(xué)校參與科研工作的人員基本信息進(jìn)行管理,提供人員信息的增加、刪除、修改與檢索。為其他模塊提供人員信息,是其他模塊的基礎(chǔ)。(3)科研成果管理:主要對(duì)科研論文、著作、成果等進(jìn)行管理,提供成果信息的增加、刪除、修改與檢索。(4)科研項(xiàng)目管理:主要對(duì)已經(jīng)立項(xiàng)后的項(xiàng)目進(jìn)行管理,提供項(xiàng)目信息的增加、刪除、修改與檢索。可以對(duì)項(xiàng)目狀態(tài)進(jìn)行編輯。(5)報(bào)表打印管理:可以打印部門成果報(bào)表、個(gè)人成果報(bào)表、成果分類統(tǒng)計(jì)表、院部處教師科研分統(tǒng)計(jì)表、申報(bào)項(xiàng)目表、立項(xiàng)項(xiàng)目表等報(bào)表的打印。(6)系統(tǒng)管理:用于對(duì)登錄用戶信息、密碼等進(jìn)行維護(hù)。
1.2數(shù)據(jù)庫設(shè)計(jì)數(shù)據(jù)庫設(shè)計(jì)在軟件開發(fā)過程中是一個(gè)很重要的環(huán)節(jié),數(shù)據(jù)庫是任何系統(tǒng)都不可避免的。本研究在設(shè)計(jì)數(shù)據(jù)庫時(shí)盡量滿足第三范式,減少數(shù)據(jù)冗余,盡量設(shè)計(jì)比較精簡的數(shù)據(jù)庫。(1)人員信息表:有機(jī)構(gòu)、人員編號(hào)、姓名、出生日期、性別、職稱、最后學(xué)歷、最后學(xué)位、學(xué)科、研究方向等字段。(2)科研成果信息表:有機(jī)構(gòu)、成果編號(hào)、成果名稱、第一作者、成果來源、成果形式、出版單位、出版時(shí)間、刊號(hào)、關(guān)鍵字、成果字?jǐn)?shù)等字段。(3)科研項(xiàng)目信息表:有機(jī)構(gòu)、項(xiàng)目編號(hào)、項(xiàng)目名稱、項(xiàng)目來源、批準(zhǔn)號(hào)、負(fù)責(zé)人、立項(xiàng)時(shí)間、完成時(shí)間、項(xiàng)目狀態(tài)、批準(zhǔn)經(jīng)費(fèi)等字段。(4)管理員信息表:有用戶名稱、密碼。管理員登錄的時(shí)候要進(jìn)行驗(yàn)證,表單獲得的數(shù)據(jù)和數(shù)據(jù)庫中該表的數(shù)據(jù)對(duì)比如果成功,則登錄成功,否則,登錄失敗。對(duì)以上所有表的添加、刪除、修改、讀取等數(shù)據(jù)操作都設(shè)計(jì)相應(yīng)的存儲(chǔ)過程來實(shí)現(xiàn)。
2系統(tǒng)實(shí)現(xiàn)
2.1系統(tǒng)用戶界面的設(shè)計(jì)用戶界面設(shè)計(jì)的要求是:(1)簡單清晰,一目了然,容易上手;(2)功能相似的頁面,采用統(tǒng)一的布局;(3)方便操作,盡量減少數(shù)據(jù)錄入量;(4)具有較好的錄入容錯(cuò)功能。用戶工作界面由三層組成:上方是圖標(biāo)欄;左下方為事務(wù)菜單;右下方為操作界面。頁面主要采用webForm來進(jìn)行設(shè)計(jì)。如校級(jí)管理員用戶通過驗(yàn)證后的登入界面。
2.2數(shù)據(jù)庫的實(shí)現(xiàn)本科研管理系統(tǒng)采用了三層結(jié)構(gòu)的框架,將訪問數(shù)據(jù)庫的一些底層方法封裝在DBUtility這個(gè)類庫中,其中DbHelperSQL類和DbHelperSQLP類是連接數(shù)據(jù)庫字符串和一些公用的方法,如簡單的SQL語句,帶參數(shù)的SQL語句,存儲(chǔ)過程的操作等,DES-Encrypt類是數(shù)據(jù)庫的安全性,加密解密等操作。PubConstant類是動(dòng)態(tài)的配置數(shù)據(jù)庫的連接字符串。
2.3配置web.config為了方便數(shù)據(jù)操作和維護(hù),可以將一些數(shù)據(jù)庫連接配置參數(shù)放在web.config文件中,代碼如下。
2.4科研項(xiàng)目管理功能模塊的實(shí)現(xiàn)高??蒲许?xiàng)目管理主要針對(duì)已通過審核的項(xiàng)目提供管理功能,能提供項(xiàng)目的信息,對(duì)項(xiàng)目實(shí)現(xiàn)增加、修改、查找等功能。點(diǎn)擊項(xiàng)目管理,可以出現(xiàn)項(xiàng)目一覽和新增項(xiàng)目兩個(gè)功能模塊。這時(shí)候點(diǎn)擊項(xiàng)目一覽,可以出現(xiàn)項(xiàng)目的一些基本信息,并且可以對(duì)其進(jìn)行增加、修改、查找等相關(guān)操作。系統(tǒng)管理員有最高權(quán)限,可以查找全校的申報(bào)項(xiàng)目,可以模糊查找,有修改、刪除的權(quán)限,還可以導(dǎo)出所要的項(xiàng)目資料。以下是校級(jí)科研項(xiàng)目管理設(shè)計(jì)界面,如圖4所示。
3結(jié)束語
篇4
1.1BGP/MPLSVPN技術(shù)分析基于BGP與MPLS結(jié)合的第三層VPN在確保安全性的基礎(chǔ)上為解決骨干網(wǎng)絡(luò)的可擴(kuò)展性問題提供了一種有效的技術(shù)手段。MPLS技術(shù)為IP骨干網(wǎng)提供了安全、高速的數(shù)據(jù)傳輸隧道以及流量工程控制的能力;而BGP則負(fù)責(zé)骨干網(wǎng)中的路由信息與控制信息的傳遞,通過BGP的擴(kuò)展屬性實(shí)現(xiàn)VPN的地址與路由信息分離。
1.2路由設(shè)計(jì)技術(shù)分析路由設(shè)計(jì)是數(shù)據(jù)網(wǎng)建設(shè)中的核心問題,設(shè)計(jì)恰當(dāng)與否直接影響到整個(gè)網(wǎng)絡(luò)的可靠性及效率。在建設(shè)骨干IP網(wǎng)中,選擇合適的路由協(xié)議非常重要,路由協(xié)議有域內(nèi)路由和域間路由兩種基本類型。域間路由協(xié)議主要有邊界網(wǎng)關(guān)協(xié)議(BGP)和外部網(wǎng)關(guān)協(xié)議(EGP)等;域內(nèi)路由協(xié)議主要有開放式最短路由優(yōu)先協(xié)議(OSPF)、中間系統(tǒng)路由選擇協(xié)議(IS-IS)和路由信息協(xié)議(RIP)/RIP2等。作為一個(gè)大型電力城域網(wǎng)的內(nèi)部路由協(xié)議可供選擇的實(shí)際上有:靜態(tài)路由、RIP、EIGRP、OSPF和IS-IS。(1)由于EIGRP是Cisco專有協(xié)議,而不是標(biāo)準(zhǔn)、開放協(xié)議,考慮到系統(tǒng)的開放性與互連性,不建議選擇EIGRP。(2)RIP是較老的路由協(xié)議,加上它收斂慢,受Hop跳數(shù)限制,所以也不建議選擇。(3)IS-IS路由協(xié)議多用于ISP,企業(yè)用戶不熟悉,不建議選擇。(4)從MPLS草案及現(xiàn)實(shí)運(yùn)行來看,如果要運(yùn)行MPLS網(wǎng)絡(luò),OSPF和IS-IS經(jīng)常被選用做內(nèi)部IGP,但是根據(jù)綜合業(yè)務(wù)數(shù)據(jù)網(wǎng)的規(guī)模和層次化結(jié)構(gòu),建議選擇OSPF+MPBGP作為主要的路由協(xié)議,其中OSPF路由協(xié)議作為骨干數(shù)據(jù)網(wǎng)連接路由協(xié)議,MPBGP用于MPLSVPN的實(shí)現(xiàn)。(5)靜態(tài)路由協(xié)議的優(yōu)點(diǎn)是配置簡單,效率高,缺點(diǎn)是不靈活。我們可以在局部情況下,例如MPLSPE和CE的連接中部分選擇靜態(tài)路由協(xié)議。
1.3QoS技術(shù)分析QoS指網(wǎng)絡(luò)提供服務(wù)的能力,包括專用帶寬、抖動(dòng)控制和延遲(用于實(shí)時(shí)和交互式流量情形)、丟包率的改進(jìn)以及不同WAN、LAN和MAN技術(shù)下的指定網(wǎng)絡(luò)流量等,同時(shí)確保為每種流量提供的優(yōu)先權(quán)不會(huì)阻礙其他流量的進(jìn)程。QoS是網(wǎng)絡(luò)與用戶之間以及網(wǎng)絡(luò)上互相通信的用戶之間關(guān)于信息傳輸與共享的質(zhì)的約定,例如,傳輸延遲允許時(shí)間、最小傳輸畫面失真度以及聲像同步等,是用來解決網(wǎng)絡(luò)延遲和阻塞等問題的一種技術(shù)?,F(xiàn)在的路由器一般均支持QoS,當(dāng)網(wǎng)絡(luò)過載或擁塞時(shí),QoS能確保重要業(yè)務(wù)量不受延遲或丟棄,同時(shí)保證網(wǎng)絡(luò)的高效運(yùn)行。
1.4IPv6技術(shù)分析IPv6被稱作下一代互聯(lián)網(wǎng)協(xié)議,它是由IETF設(shè)計(jì)的用來替代現(xiàn)行的IPv4的一種新IP。現(xiàn)在互聯(lián)網(wǎng)大多數(shù)應(yīng)用的是IPv4,但I(xiàn)Pv4面臨著地址匱乏等一系列問題。在IPv6的設(shè)計(jì)過程中除解決了地址短缺問題以外,還考慮了在IPv4中解決不好的其他一些問題,主要有端到端IP連接、QoS、安全性、多播、移動(dòng)性、即插即用等。
二、安全體系建設(shè)內(nèi)容
2.1MPLSVPN協(xié)議安全性遼寧電力綜合數(shù)據(jù)通信網(wǎng)承載了數(shù)10個(gè)重要業(yè)務(wù),業(yè)務(wù)之間的安全和隔離成為首要安全設(shè)計(jì)目標(biāo),正是因?yàn)槿绱?,遼寧電力綜合數(shù)據(jù)通信網(wǎng)使用MPLSVPN技術(shù)對(duì)網(wǎng)絡(luò)進(jìn)行整合。MPLSVPN提供的業(yè)務(wù)之間的隔離性是邏輯性的,但是要想從一個(gè)業(yè)務(wù)VPN非法訪問另一個(gè)業(yè)務(wù)VPN基本不可能。在MPLSVPN中,業(yè)務(wù)隔離性是來自于每個(gè)業(yè)務(wù)VPN實(shí)例都有一個(gè)獨(dú)立的邏輯控制平面,這表明一個(gè)業(yè)務(wù)VPN實(shí)例并不能學(xué)習(xí)到另一個(gè)業(yè)務(wù)VPN的路由表。這樣的隔離性不僅可以確保VPN之間的獨(dú)立性,還可以確保任何一個(gè)業(yè)務(wù)VPN都不能訪問骨干網(wǎng)的全局路由空間(IGP),確保骨干網(wǎng)的安全。因此MPLSVPN在協(xié)議上即具備極高的安全性和可靠性。使用MPLSVPN技術(shù)對(duì)遼寧電力綜合數(shù)據(jù)通信網(wǎng)進(jìn)行整合可確保遼寧電力各項(xiàng)重要業(yè)務(wù)的隔離性和安全性。
2.2數(shù)據(jù)鏈路層安全綜合數(shù)據(jù)通信網(wǎng)的本地接入層和邊緣接入層連接的網(wǎng)點(diǎn)、廠商網(wǎng)絡(luò)眾多,接口數(shù)量巨大,是進(jìn)行安全防御的重點(diǎn)區(qū)域,而在本地接入層和邊緣接入層網(wǎng)絡(luò)中,數(shù)據(jù)鏈路層較容易出現(xiàn)安全問題。為了防范問題,遼寧電力綜合數(shù)據(jù)通信網(wǎng)部署了如下安全措施:對(duì)于所有的中繼端口使用專門的VLANID;避免使用VLAN1;將所有的業(yè)務(wù)接口設(shè)置為非中繼;為業(yè)務(wù)接口部署端口安全;部署ARP安全選項(xiàng);啟用STP攻擊防御(BPDU防護(hù)及根防護(hù));在不需要的地方禁用CDP;禁用所有未使用的端口,并將它們放入一個(gè)為使用的VLAN中;在需要的地方部署DHCP安全選項(xiàng)。
2.3IP地址安全遼寧電力綜合數(shù)據(jù)通信網(wǎng)在IP地址規(guī)劃充分考慮了安全控制,采取基于業(yè)務(wù)角色的子網(wǎng)劃分方法,并預(yù)留足夠的擴(kuò)展空間。同時(shí),也采用路由匯總的方法來提高路由效率以及管理效率。遼寧電力綜合數(shù)據(jù)通信網(wǎng)地址規(guī)劃使用RFC1918定義的私網(wǎng)地址,確保綜合數(shù)據(jù)通信網(wǎng)的地址空間獨(dú)立和安全。遼寧電力綜合數(shù)據(jù)通信網(wǎng)使用了MPLSVPN技術(shù),在MPLSVPN中,VPN實(shí)例通過路由標(biāo)識(shí)符RD(RouteDistinguisher)實(shí)現(xiàn)地址空間獨(dú)立,且MPLSVPN使用VPN-IPv4地址族,VPN-IPv4地址共有12個(gè)字節(jié),包括8Byte的路由標(biāo)識(shí)符RD(RouteDistinguisher)和4Byte的IPv4地址前綴,如圖1所示。增加了RD的IPv4地址稱為VPN-IPv4地址,這樣PE從CE接收到普通IPv4路由后,轉(zhuǎn)換為VPN-IPv4路由,進(jìn)行私網(wǎng)路由在公網(wǎng)上的傳輸。RD確保了MPLSVPN中的地址空間獨(dú)立性和安全性。
2.4預(yù)防DoS安全遼寧電力綜合數(shù)據(jù)通信網(wǎng)完善工程在省網(wǎng)骨干層以及地市匯聚層均增加了防火墻板卡以及入侵檢測板卡,可以有效預(yù)防DoS攻擊。防火墻板卡可以攔截TCPSYN泛洪等欺騙類DoS攻擊,可以通過限制會(huì)話數(shù)量以及設(shè)置會(huì)話超時(shí)來預(yù)防DoS攻擊。當(dāng)入侵檢測板卡發(fā)現(xiàn)DoS攻擊時(shí),還可以進(jìn)行記錄并與防火墻聯(lián)動(dòng)對(duì)攻擊進(jìn)行攔截。另外,在重要的業(yè)務(wù)網(wǎng)絡(luò)邊緣上進(jìn)行限速措施,防止DoS攻擊對(duì)業(yè)務(wù)網(wǎng)絡(luò)或骨干網(wǎng)絡(luò)造成嚴(yán)重影響。同時(shí),在遼寧電力綜合數(shù)據(jù)通信網(wǎng)部署NetFlow管理,可以及時(shí)發(fā)現(xiàn)異常流量以及蠕蟲、DoS攻擊等威脅。
2.5訪問控制安排和部署(1)MPLSVPN策略設(shè)計(jì)使用MPLSVPN技術(shù),在同一物理拓?fù)涞幕A(chǔ)上,MPLSVPN能夠按照需求實(shí)現(xiàn)多種業(yè)務(wù)的隔離,并且管理和控制VPN的業(yè)務(wù)只是在數(shù)據(jù)上作相應(yīng)配置,物理設(shè)備和鏈路都不用作改動(dòng),這樣為各VPN業(yè)務(wù)的管理和維護(hù)提供了很大的方便,具有很好的業(yè)務(wù)擴(kuò)展性。BGP/MPLSIPVPN使用32位的BGP擴(kuò)展團(tuán)體屬性-VPNTarget(也稱為RouteTarget/RT)來控制VPN路由信息的。通過嚴(yán)格的RT規(guī)則控制,上述業(yè)務(wù)網(wǎng)絡(luò)之間做到了完全隔離,確保各業(yè)務(wù)網(wǎng)絡(luò)的運(yùn)行安全。遼寧電力綜合數(shù)據(jù)通信網(wǎng)通過MPLSVPN部署,實(shí)現(xiàn)物理上多網(wǎng)合一、邏輯上各網(wǎng)絡(luò)隔離,滿足多種靈活的業(yè)務(wù)需求。(2)面向MPLSVPN的防火墻及入侵檢測系統(tǒng)設(shè)計(jì)及部署地市業(yè)務(wù)匯聚層設(shè)備連接了地市各類業(yè)務(wù)網(wǎng)絡(luò),是綜合數(shù)據(jù)通信網(wǎng)的重要安全邊界,也是MPLSVPN的重要PE設(shè)備,本次新增防火墻板卡及入侵檢測板卡主要部署在此設(shè)備上。在省網(wǎng)骨干層以及地市匯聚層均增加了防火墻板卡以及入侵檢測板卡,在PE的邊界進(jìn)行邏輯部署,對(duì)PE上每個(gè)業(yè)務(wù)VPN的進(jìn)出流量都可以執(zhí)行訪問控制等防火墻功能,確保業(yè)務(wù)網(wǎng)絡(luò)以及綜合數(shù)據(jù)通信網(wǎng)骨干網(wǎng)的安全運(yùn)行,部署方式如圖2所示。入侵檢測系統(tǒng)(IDSM-2)的邏輯部署位置在防火墻后側(cè),靠近業(yè)務(wù)網(wǎng)絡(luò)CE。入侵監(jiān)控模塊本身沒有物理端口,通過多個(gè)GE和背板總線連接,可以同時(shí)監(jiān)控多個(gè)VLAN和VLANID,通過VLAN訪問控制列表VACL獲取功能來提供對(duì)數(shù)據(jù)流的訪問權(quán)限VACL。防火墻板卡(FWSM)與入侵檢測系統(tǒng)(IDSM-2)聯(lián)動(dòng)部署。融合兩種技術(shù)發(fā)展趨勢的優(yōu)點(diǎn),在單一設(shè)備中提供業(yè)界領(lǐng)先的安全保護(hù);IDSM-2和FWSM防火墻模塊之間可以非常容易地實(shí)現(xiàn)互動(dòng),IDSM-2在監(jiān)測到網(wǎng)絡(luò)攻擊之后,可以直接控制FWSM防火墻模塊和CAT6K做出相應(yīng)的安全防護(hù)動(dòng)作,有效地防護(hù)網(wǎng)絡(luò)攻擊。
2.6網(wǎng)絡(luò)管理協(xié)議安全性在網(wǎng)絡(luò)管理協(xié)議安全性方面,本次工程采取了如下措施:通過全網(wǎng)安全加固,已全部禁用Telnet遠(yuǎn)程訪問協(xié)議,并啟用SSHv2協(xié)議;Web管理協(xié)議已全部啟用HTTPs,禁用HTTP;網(wǎng)絡(luò)管理協(xié)議正在向SNMPv3遷移;禁用TFTP進(jìn)行設(shè)備文件傳輸,從FTP向SFTP遷移;定期檢查設(shè)備的Syslog服務(wù)器配置來確保Syslog傳輸安全;只在網(wǎng)絡(luò)的關(guān)鍵點(diǎn)部署NetFlow,并避免長距離傳輸NetFlow數(shù)據(jù),通過NetFlow的正確部署,遼寧電力綜合數(shù)據(jù)通信網(wǎng)可以及時(shí)發(fā)現(xiàn)異常流量以及蠕蟲、DoS攻擊等威脅。
2.7重點(diǎn)業(yè)務(wù)保障對(duì)于重點(diǎn)業(yè)務(wù),例如視頻會(huì)議、調(diào)度電話、95598用電服務(wù)、行政電話網(wǎng)絡(luò)、電能質(zhì)量在線監(jiān)測等業(yè)務(wù)實(shí)現(xiàn)安全保護(hù)機(jī)制,網(wǎng)絡(luò)實(shí)時(shí)業(yè)務(wù)安全(監(jiān)控)機(jī)制。對(duì)各專項(xiàng)業(yè)務(wù)采取有效的安全保障管理,確保業(yè)務(wù)網(wǎng)絡(luò)數(shù)據(jù)傳輸質(zhì)量,減少因個(gè)體業(yè)務(wù)分支的因素影響全部數(shù)據(jù)信通運(yùn)行的風(fēng)險(xiǎn)。
2.8實(shí)時(shí)業(yè)務(wù)服務(wù)質(zhì)量保障對(duì)重點(diǎn)保障業(yè)務(wù),由使用單位提出最低保障帶寬,通過QoS保障技術(shù)確保數(shù)據(jù)傳送的安全。為了保障實(shí)時(shí)業(yè)務(wù)的服務(wù)質(zhì)量,主要采取如下措施:實(shí)時(shí)業(yè)務(wù)流量抓取及分析;基于MPLSVPNQoS的實(shí)時(shí)業(yè)務(wù)服務(wù)質(zhì)量保障;實(shí)時(shí)業(yè)務(wù)的QoS持續(xù)優(yōu)化。
三、項(xiàng)目創(chuàng)新點(diǎn)
在本次遼寧電力綜合數(shù)據(jù)通信網(wǎng)安全體系建設(shè)中進(jìn)行了大量的技術(shù)創(chuàng)新,這些技術(shù)和管理方法上的創(chuàng)新形成了一個(gè)創(chuàng)新集合,為電力綜合數(shù)據(jù)通信網(wǎng)建設(shè)積累了大量的經(jīng)驗(yàn)和案例,本次完善工程中主要的技術(shù)創(chuàng)新點(diǎn)如下。(1)基于MPLSVPN的綜合數(shù)據(jù)網(wǎng)整合方案傳統(tǒng)的VPN構(gòu)建使用永久虛電路(PVC)和隧道技術(shù)。隨著網(wǎng)絡(luò)連接范圍的不斷擴(kuò)大,其可擴(kuò)展性和管理問題日益突出。MPLS技術(shù)的出現(xiàn)使我們可以建設(shè)能夠支持多種業(yè)務(wù)級(jí)別并且能夠無限擴(kuò)展的全互連IPVPN。(2)基于MPLSVPNQoS的實(shí)時(shí)業(yè)務(wù)服務(wù)質(zhì)量保障MPLS實(shí)現(xiàn)了一種高效的流量工程機(jī)制。采用基于MPLSVPNQoS的實(shí)時(shí)業(yè)務(wù)服務(wù)質(zhì)量保障解決方案能夠平衡網(wǎng)絡(luò)中的各種鏈接、路由器和交換機(jī)上的網(wǎng)絡(luò)匯集業(yè)務(wù)負(fù)載,使這些特定的單元不會(huì)被過分使用,也不會(huì)未被充分利用。這樣可以使網(wǎng)絡(luò)的運(yùn)行更有效,并能提供更多可預(yù)測的業(yè)務(wù)。(3)面向MPLSVPN的防火墻及入侵檢測系統(tǒng)設(shè)計(jì)及部署,建立通道保障體系面向MPLSVPN的防火墻及入侵檢測系統(tǒng)在復(fù)雜網(wǎng)絡(luò)、多數(shù)據(jù)、多設(shè)備的情況下,通過該保障體系保障了實(shí)時(shí)業(yè)務(wù)、高保護(hù)業(yè)務(wù)的安全。(4)IPv6在綜合數(shù)據(jù)網(wǎng)中的應(yīng)用遼寧電力公司是國網(wǎng)IPv6試點(diǎn)單位,率先在省公司和營口、渤海等地進(jìn)行應(yīng)用,在使用過程中驗(yàn)證了IPv6的優(yōu)越性。
四、工作展望
篇5
環(huán)境監(jiān)測一般包括常規(guī)監(jiān)測和污染源監(jiān)測[6]。常規(guī)監(jiān)測的對(duì)象是大氣、噪聲、河流等,污染源監(jiān)測對(duì)象通常是一些工業(yè)單位,我國的工業(yè)單位眾多,單位之間有各不相同,給環(huán)境監(jiān)測工作帶來了更大的困難。大氣、河流、降水甚至噪聲都是環(huán)境監(jiān)測的內(nèi)容,每一項(xiàng)檢測內(nèi)容又有不同的監(jiān)測指標(biāo),此外還涉及到污染物的排放量、治理效果等,所以環(huán)境監(jiān)測工作量繁重。環(huán)境監(jiān)測工作關(guān)聯(lián)性較強(qiáng),而且還是按照一定的順序進(jìn)行的。環(huán)境監(jiān)測工作和其他的環(huán)保工作也相關(guān)聯(lián),因此環(huán)境監(jiān)測工作在滿足自身要求的同時(shí),還需要同時(shí)滿足各項(xiàng)工作要求。必須建立健全環(huán)境監(jiān)測數(shù)據(jù)管理系統(tǒng)。在進(jìn)行數(shù)據(jù)統(tǒng)計(jì)分析工作時(shí),必須按照要求生成格式化的標(biāo)準(zhǔn)報(bào)表與非標(biāo)準(zhǔn)報(bào)表。
二、環(huán)境監(jiān)測數(shù)據(jù)管理系統(tǒng)
1、環(huán)境監(jiān)測模塊
該模塊的功能在于通過時(shí)間觸發(fā)器連續(xù)或間斷地對(duì)某地區(qū)環(huán)境條件下的污染物性質(zhì)變化進(jìn)行判斷,同時(shí)對(duì)污染物濃度發(fā)展情況、趨勢進(jìn)行預(yù)測,通過預(yù)測分析污染物的變化趨勢及其可能性,判定環(huán)境問題、污染問題發(fā)生的結(jié)果。環(huán)境監(jiān)測通常是按照檢測目的劃分的,其中包括兩部分,即監(jiān)視性監(jiān)測、特定監(jiān)測。在系統(tǒng)設(shè)計(jì)過程中,應(yīng)當(dāng)參照監(jiān)測目的對(duì)相關(guān)模塊進(jìn)行劃分,并在此基礎(chǔ)上確定監(jiān)視性監(jiān)測、特定監(jiān)測子系統(tǒng)。環(huán)境監(jiān)測數(shù)據(jù)管理系統(tǒng),圍繞著空氣質(zhì)量、水質(zhì)質(zhì)量以及廢棄物和噪聲進(jìn)行常規(guī)性的監(jiān)測,從而實(shí)現(xiàn)數(shù)據(jù)管理、預(yù)測和統(tǒng)計(jì)分析,重點(diǎn)數(shù)據(jù)繪制環(huán)境質(zhì)量圖過程中顯示出來,從而使其更加的直觀。其具體的功能結(jié)構(gòu)設(shè)計(jì)如下圖所示。
2、排污申報(bào)與環(huán)境污染源管理模塊
環(huán)保法及相關(guān)法規(guī)規(guī)定的排污單位,一定要履行申報(bào)義務(wù),排污申報(bào)是污染管理系統(tǒng)的一個(gè)非常重要的功能。對(duì)于該模塊而言,其包含如下功能:數(shù)據(jù)匯總,即對(duì)污染源數(shù)據(jù)進(jìn)行及時(shí)的匯總,采取相關(guān)信息資料。數(shù)據(jù)查詢:根據(jù)排污單位、污染源對(duì)其進(jìn)行查詢;數(shù)據(jù)管理,即排污申請?zhí)顚?,?duì)污染源信息資料進(jìn)行維護(hù);數(shù)據(jù)分析,即針對(duì)性的對(duì)重點(diǎn)企業(yè)、污染源進(jìn)行分析。在數(shù)據(jù)查詢功能設(shè)計(jì)過程中,查詢危險(xiǎn)源以及排污企業(yè),并且基于GIS技術(shù)的應(yīng)用在地圖上對(duì)排污企業(yè)的具置顯示出來;按單位名稱和污染源名稱對(duì)其進(jìn)行查詢,并且按地區(qū)對(duì)污染源進(jìn)行查詢。數(shù)據(jù)分析功能設(shè)計(jì)為:分析污染事故緩沖區(qū),對(duì)重點(diǎn)污染源進(jìn)行分析,并且用圖表將其顯示出來;污染物歷年數(shù)據(jù)分析;地區(qū)污染物以及污染企業(yè)分析等。排污申報(bào)及污染源管理系統(tǒng)如下圖所示。
3、環(huán)境在線監(jiān)控模塊
監(jiān)控的主要內(nèi)容是污染源排放在線監(jiān)控?zé)焿m、污水(主要是COD、流量、TOC以及總磷和pH值等),同時(shí)還包括污染源噪聲。首先,系統(tǒng)登陸。客戶端管理軟件提供具體的授權(quán)訪問模式,以確保該系統(tǒng)管理的安全可靠性。授權(quán)用戶利用賬號(hào)、密碼登錄該數(shù)據(jù)管理系統(tǒng),并且用戶權(quán)限由管理員進(jìn)行分配。比如,管理員可以進(jìn)行建庫、控制、監(jiān)測以及其他高級(jí)功能;一般用戶則只能使用基本的系統(tǒng)功能,比如在線監(jiān)測和基本的圖表報(bào)表打印等。系統(tǒng)登錄過程中,先輸入用戶名、登錄密碼,然后驗(yàn)證身份,進(jìn)入該系統(tǒng)主界面。其次,系統(tǒng)界面??蛻舳斯芾斫缑鏋閄P風(fēng)格界面,客戶端管理軟件所有功能均可通過在界面右側(cè)選擇任務(wù)欄目實(shí)現(xiàn),任務(wù)欄為可展開/收縮的風(fēng)格控件,功能欄目為類Web風(fēng)格的超級(jí)鏈接。界面中部為GIS地理信息系統(tǒng),GIS的主要功能通過GIS工具欄實(shí)現(xiàn)。界面右側(cè)還有若干窗口顯示即時(shí)消息、系統(tǒng)報(bào)警以及快速查看數(shù)據(jù)等功能。數(shù)據(jù)輸入:把各類污染物的監(jiān)測數(shù)據(jù)都存儲(chǔ)起來,構(gòu)建成一個(gè)數(shù)據(jù)庫,這樣可以方便數(shù)據(jù)統(tǒng)計(jì),也為技術(shù)人員的分析提供了數(shù)據(jù)基礎(chǔ)。通過先進(jìn)的計(jì)算機(jī)技術(shù),把這些數(shù)據(jù)都統(tǒng)一管理,然后按照監(jiān)測地點(diǎn)、監(jiān)測類型、監(jiān)測時(shí)間等信息,分類處理這些數(shù)據(jù),方便用戶選擇,使他們可以快速的掌握到想要了解的信息。此外,必須注意數(shù)據(jù)的存儲(chǔ)工作,多做一些備份,以免數(shù)據(jù)丟失,影響環(huán)境監(jiān)測工作不能正常的進(jìn)行。數(shù)據(jù)修改:錄入環(huán)境監(jiān)測數(shù)據(jù)以后,管理人員要認(rèn)真仔細(xì)的核對(duì)數(shù)據(jù),要及時(shí)的修改和更正以及刪除無效的數(shù)據(jù),確保數(shù)據(jù)的準(zhǔn)確性[4]。數(shù)據(jù)修改有條件修改、當(dāng)前記錄修改和替換修改的功能,這些功能的設(shè)置,可以方便管理人員快速、高效的進(jìn)行修改工作,也能提高數(shù)據(jù)的準(zhǔn)確性。數(shù)據(jù)備份:由于環(huán)境監(jiān)測數(shù)據(jù)眾多,而且是環(huán)境監(jiān)測分析工作的基礎(chǔ),一旦丟失,就會(huì)給環(huán)境檢測部門帶來很大的損失,所以管理人員在管理數(shù)據(jù)的時(shí)候必須注意數(shù)據(jù)的備份工作,把數(shù)據(jù)存儲(chǔ)在不同的工具下,預(yù)防電腦崩潰使數(shù)據(jù)丟失。確保數(shù)據(jù)的安全性,保證環(huán)境監(jiān)測工作的順利進(jìn)行。數(shù)據(jù)查詢。數(shù)據(jù)查詢可以幫助用戶很快的找到他們需要的數(shù)據(jù),使他們更好的進(jìn)行環(huán)境監(jiān)測工作。在查詢數(shù)據(jù)的過程中,用戶可以設(shè)置條件,然后數(shù)據(jù)庫中相關(guān)的數(shù)據(jù)就會(huì)自動(dòng)出現(xiàn),這樣可以減少查詢時(shí)間,提高查詢的效率,而且還能保證數(shù)據(jù)的準(zhǔn)確性。數(shù)據(jù)輸出:數(shù)據(jù)輸出一般采用打印輸出、屏幕輸出[5]以及文件輸出三種輸出方法。打印輸出,顧名思義就是把數(shù)據(jù)報(bào)表通過打印機(jī)打印出來;屏幕輸出則是把數(shù)據(jù)制作成圖形和圖表的形式顯示在電腦屏幕上,供用戶查看,然后根據(jù)這些信息來分析環(huán)境狀況;文件輸出就是把環(huán)境監(jiān)測數(shù)據(jù)、分析結(jié)果通過不同的文件格式存儲(chǔ)在磁盤上,可供用戶下載查看。數(shù)據(jù)統(tǒng)計(jì):數(shù)據(jù)庫中的數(shù)據(jù)一般只是環(huán)境監(jiān)測的原始數(shù)據(jù),可供用戶進(jìn)行查看、統(tǒng)計(jì)分析,然后更好的進(jìn)行環(huán)境保護(hù)工作。數(shù)據(jù)統(tǒng)計(jì)分為常規(guī)統(tǒng)計(jì)和選擇統(tǒng)計(jì)兩種。常規(guī)統(tǒng)計(jì)是按照報(bào)表的要求進(jìn)行的,要計(jì)算監(jiān)測點(diǎn)以及區(qū)域的年、月、日均值等,然后保存。選擇統(tǒng)計(jì)則是按照用戶的定義條件進(jìn)行的,靈活性較大。數(shù)據(jù)分析:數(shù)據(jù)分析是把數(shù)據(jù)轉(zhuǎn)化為圖形或者圖表的形式來展示數(shù)據(jù)信息,可以使用戶更加直觀、清晰的掌握環(huán)境的質(zhì)量和變化情況,方便環(huán)境監(jiān)測部門快速、高效的處理環(huán)境問題,更好的服務(wù)環(huán)境保護(hù)工作。
4、環(huán)境監(jiān)測部門的職能
建立環(huán)境監(jiān)測數(shù)據(jù)管理系統(tǒng)是為了更好的管理環(huán)境監(jiān)測的數(shù)據(jù),為了使環(huán)境監(jiān)測部門管理人員可以準(zhǔn)確、快捷的掌握環(huán)境質(zhì)量信息,因此必須要符合環(huán)境監(jiān)測部門的工作要求,提高工作人員的管理水平,滿足環(huán)境信息化的需求,做好環(huán)保工作。環(huán)境監(jiān)測主要是監(jiān)測污染源以及常規(guī)的監(jiān)測,做好了這兩種工作才能保證我國環(huán)境污染狀況不再加劇。常規(guī)監(jiān)測是一項(xiàng)銜接性很強(qiáng)的工作,需要經(jīng)過一系列的過程:現(xiàn)場采樣,樣品登記,分析實(shí)驗(yàn)等等,最后通過審核簽字才能生成分析報(bào)表。在進(jìn)行常規(guī)監(jiān)測工作的時(shí)候,一定要有序進(jìn)行[3],這樣才能保證分析報(bào)表的準(zhǔn)確性。污染源監(jiān)測也是一項(xiàng)非常繁瑣的工作,進(jìn)行污染源監(jiān)測工作時(shí)首先要委托登記,其次分配任務(wù),然后按照現(xiàn)場采樣、樣品登記等的順序進(jìn)行監(jiān)測工作?,F(xiàn)階段我國已經(jīng)控制了污染源的排放量,只有減少污染源的排放,我國的環(huán)境質(zhì)量才能得到徹底的改善。
三、結(jié)語
篇6
要了解Web數(shù)據(jù)挖掘技術(shù),首先就必須要了解數(shù)據(jù)挖掘技術(shù)。數(shù)據(jù)挖掘是指從大量不完全的、有噪聲的、模糊的、隨機(jī)的數(shù)據(jù)中,提取隱含在其中的、有用的信息和知識(shí)的過程。它的表現(xiàn)形式為概念(Concepts)、規(guī)則(Rules)、模式(Patterns)等形式。數(shù)據(jù)挖掘技術(shù)是人們長期對(duì)數(shù)據(jù)庫技術(shù)進(jìn)行研究和開發(fā)的結(jié)果。起初各種商業(yè)數(shù)據(jù)是存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫中的,然后發(fā)展到可對(duì)數(shù)據(jù)庫進(jìn)行查詢和訪問,進(jìn)而發(fā)展到對(duì)數(shù)據(jù)庫的即時(shí)遍歷。數(shù)據(jù)挖掘技術(shù)是人們長期對(duì)數(shù)據(jù)庫技術(shù)進(jìn)行研究和開發(fā)的結(jié)果。起初各種商業(yè)數(shù)據(jù)是存儲(chǔ)在計(jì)算機(jī)的數(shù)據(jù)庫中的,然后發(fā)展到可對(duì)數(shù)據(jù)庫進(jìn)行查詢和訪問,進(jìn)而發(fā)展到對(duì)數(shù)據(jù)庫的即時(shí)遍歷。Web數(shù)據(jù)挖掘是一種綜合的技術(shù),它主要是使用數(shù)據(jù)挖掘技術(shù)在互聯(lián)網(wǎng)挖掘各種有用的、有趣的、隱藏起來的信息或者是有用的模式。與傳統(tǒng)的數(shù)據(jù)挖掘相比,Web數(shù)據(jù)挖掘所挖掘的信息更加的海量,這些信息具有異構(gòu)和分布廣的特點(diǎn)。對(duì)于服務(wù)器上的日志與用戶信息的挖掘仍然屬于傳統(tǒng)的數(shù)據(jù)挖掘。Web數(shù)據(jù)挖掘由于Web的邏輯結(jié)構(gòu)其所挖掘到的模式有可能是關(guān)于Web內(nèi)容的,也有可能是關(guān)于Web結(jié)構(gòu)的。同時(shí)有些數(shù)據(jù)挖掘技術(shù)也不能直接運(yùn)用到Web數(shù)據(jù)挖掘中。Web數(shù)據(jù)挖掘的研究范圍十分廣泛,它的研究主要包括了數(shù)據(jù)庫技術(shù)、信息獲取技術(shù)、統(tǒng)計(jì)學(xué)、神經(jīng)網(wǎng)絡(luò)等。Web數(shù)據(jù)挖掘根據(jù)所處理的對(duì)象可以分為三類:Web文檔的內(nèi)容挖掘、Web文檔的結(jié)構(gòu)挖掘、Web使用的挖掘。Web文檔的內(nèi)容挖掘指的是從Web文檔及對(duì)其的描述內(nèi)容中獲取到有用的信息,即是對(duì)Web上大量的各種文檔集合的內(nèi)容進(jìn)行處理,例如摘要、分類、聚類、關(guān)聯(lián)分析等。同時(shí)內(nèi)容挖掘還可以對(duì)各種多媒體信息進(jìn)行挖掘。Web上的內(nèi)容摘要是用簡潔的語言和方式對(duì)文檔的內(nèi)容進(jìn)行描述和解釋,讓用戶在不用瀏覽全文的情況下就可以對(duì)全文的內(nèi)容和文章寫作的目的有一個(gè)總體的了解。文章寫作的目的有一個(gè)總體的了解。而Web內(nèi)容挖掘的這種方式非常有用,例如應(yīng)用到檢索結(jié)果的顯示中。Web分類則指的是根據(jù)已經(jīng)確定好的類別,為每一個(gè)獲得的Web文檔確定一個(gè)大類。聚類則是指的在沒有確定類別之前,將相似度高的文檔歸為一類。關(guān)聯(lián)分析指的是從文檔集合中找出不同語詞之間的具有的關(guān)系。Web文檔的結(jié)構(gòu)挖掘指的是從互聯(lián)網(wǎng)的整體結(jié)構(gòu)和網(wǎng)頁之間的相互鏈接以及網(wǎng)頁本身的結(jié)構(gòu)中獲取有用的信息和知識(shí)。目前為止針對(duì)結(jié)構(gòu)的挖掘主要還是鏈?zhǔn)浇Y(jié)構(gòu)模式。對(duì)于Web結(jié)構(gòu)的挖掘主要源于對(duì)引文的分析,引文分析的主要內(nèi)容就是通過對(duì)網(wǎng)頁的鏈接數(shù)和被連接數(shù)以及對(duì)象的分析來建立一個(gè)鏈接結(jié)構(gòu)模式,這種模式可以用來對(duì)網(wǎng)頁進(jìn)行歸類,同時(shí)還可以獲取網(wǎng)頁之間的相似度和關(guān)聯(lián)度等信息。Web使用的挖掘一般情況下指的是對(duì)Web日志的挖掘。其挖掘的對(duì)象是用戶與互聯(lián)網(wǎng)交互過程中所抽取出來的各種信息,例如訪問記錄、用戶名、用戶注冊信息以及用戶所進(jìn)行的操作等。在這一方面的研究已經(jīng)比較成熟,同時(shí)也有很多較為成熟的產(chǎn)品例如NETPERCERPION公司的Netpercerptions,Accrue公司的AccrueInsight和AccrueHitList等都是技術(shù)較為成熟的產(chǎn)品。
二、Web數(shù)據(jù)挖掘技術(shù)的工作流程
Web數(shù)據(jù)挖掘技術(shù)的主要工作流程可以分為以下幾個(gè)步驟:第一步,確立目標(biāo)樣本,這一步是用戶選取目標(biāo)文本,以此來作為提取用戶的特征信息;第二步,提取特征信息,這一步就是根據(jù)第一步得到的目標(biāo)樣本的詞頻分布,從現(xiàn)有的統(tǒng)計(jì)詞典中獲取所要挖掘的目標(biāo)的特征向量,并計(jì)算出其相應(yīng)的權(quán)值;第三步,從網(wǎng)絡(luò)上獲取信息,這一步是利用通過搜索引擎站點(diǎn)選擇采集站點(diǎn),然后通過Robot程序采集靜態(tài)的Web頁面,最后再獲取這些被訪問站點(diǎn)的網(wǎng)絡(luò)數(shù)據(jù)庫中的動(dòng)態(tài)信息,然后生成WWW資源庫索引;第四步,進(jìn)行信息特征匹配,通過提取源信息的特征向量,去和目標(biāo)樣本的特征向量進(jìn)行匹配,最后將符合閾值條件的信息返回個(gè)用戶。
三、Web數(shù)據(jù)挖掘技術(shù)在高校數(shù)字圖書館中的應(yīng)用
高校數(shù)字圖書館為師生主要提供以下功能:查找圖書、期刊論文、會(huì)議文獻(xiàn)等數(shù)字資源;圖書借閱、歸還等服務(wù);圖書信息、管理制度;導(dǎo)航到圖書光盤、視頻資源等數(shù)據(jù)庫系統(tǒng)。師生時(shí)常登錄到網(wǎng)站中查找其需要的信息,根據(jù)師生所學(xué)專業(yè)、研究方向不同,關(guān)注目標(biāo)也不同。通常這類師生會(huì)到常用的圖書館網(wǎng)站上,查找自己所需要的特定領(lǐng)域的資源;瀏覽一下有哪些內(nèi)容發(fā)生變化,是否有新知識(shí)增加,而且所有改變常常是用戶所關(guān)注的內(nèi)容;另外,當(dāng)目標(biāo)網(wǎng)頁所在的位置有所改變或這個(gè)網(wǎng)站的組織結(jié)構(gòu)、層次關(guān)系有所變動(dòng)時(shí),所有這些問題只要稍加改動(dòng),容易使用戶難以找到所需內(nèi)容。本課題采用Web挖掘技術(shù)與搜索技術(shù)相結(jié)合。首先允許用戶對(duì)感興趣的內(nèi)容進(jìn)行定制,構(gòu)造數(shù)據(jù)挖掘的先驗(yàn)知識(shí),然后通過構(gòu)造瀏覽器插件,捕獲用戶在瀏覽器上的行為數(shù)據(jù),采用Web數(shù)據(jù)挖掘的方法,深入分析用戶的瀏覽行為數(shù)據(jù),獲得用戶的信息資料集,最終為用戶提供不同的個(gè)性化服務(wù)頁面,并提供用戶對(duì)站內(nèi)信息進(jìn)行搜索功能,同時(shí)可以滿足師生對(duì)于圖書館資源進(jìn)行查找訪問的需求,實(shí)現(xiàn)高校圖書館網(wǎng)站資源真正意義上的個(gè)性化服務(wù)。
1、為開發(fā)網(wǎng)絡(luò)信息資源提供了工具
數(shù)字圖書館需要的是一種可以有效的將信息進(jìn)行組織管理,同時(shí)還能夠?qū)π畔⑦M(jìn)行深層的加工管理,提供多層次的、智能化的信息服務(wù)和全方位的知識(shí)服務(wù),提供經(jīng)過加工、分析綜合等處理的高附加值的信息產(chǎn)品和知識(shí)產(chǎn)品的工具。目前許多高校數(shù)字圖書館的查詢手段還只局限于一些基本的數(shù)據(jù)操作,對(duì)數(shù)據(jù)只能進(jìn)行初步的加工,不具有從這些數(shù)據(jù)中歸納出所隱含的有用信息的功能,也使得這些信息不為人知,從而得不到更好的使用,這些都是對(duì)網(wǎng)絡(luò)信息資源的一種浪費(fèi)。而通過Web數(shù)據(jù)挖掘技術(shù)科研有效的解決這一問題。這種技術(shù)可以用于挖掘文檔的隱含的有用的內(nèi)容,或者可以在其他工具搜索的基礎(chǔ)上進(jìn)一步進(jìn)行處理,得到更為有用和精確的信息。通過Web數(shù)據(jù)挖掘技術(shù)科研對(duì)數(shù)字圖書關(guān)注中的信息進(jìn)行更加有效地整合。
2、為以用戶為中心的服務(wù)提供幫助
通過瀏覽器訪問數(shù)字圖書館后,可被記載下來的數(shù)據(jù)有兩類,一類是用戶信息,另一類是用戶訪問記錄。其中用戶信息包括了用戶名,用戶訪問IP地址,用戶的職業(yè)、年齡、愛好等。用戶名師用戶登錄圖書館時(shí)輸入,用戶訪問IP地址通過程序獲得,其他的信息都是用戶在注冊時(shí)所填寫的,訪問記錄則是在用戶登錄時(shí)所記錄的,也是由程序獲得。對(duì)這些用戶信息進(jìn)行分析可以更加有效的了解用戶的需求通過分析服務(wù)器中用戶請求失敗的數(shù)據(jù),結(jié)合聚集算法,可以發(fā)現(xiàn)信息資源的缺漏,從而指導(dǎo)對(duì)信息資源采集的改進(jìn),讓高校數(shù)字圖書館的信息資源體系建設(shè)的更加合理。對(duì)數(shù)字圖書館系統(tǒng)的在線調(diào)查、留言簿、薦書條等的數(shù)據(jù)進(jìn)行收集整理,并使之轉(zhuǎn)化為標(biāo)準(zhǔn)的結(jié)構(gòu)化數(shù)據(jù)庫,然后在通過數(shù)據(jù)挖掘,皆可以發(fā)現(xiàn)用戶所感興趣的模式,同時(shí)還可以預(yù)先發(fā)現(xiàn)用戶群體興趣的變遷,調(diào)整館藏方向,提前做好信息資源的采集計(jì)劃。通過Web數(shù)據(jù)挖掘,可以對(duì)用戶的信息需求和行為規(guī)律進(jìn)行總結(jié),從而為優(yōu)化網(wǎng)絡(luò)站點(diǎn)的結(jié)構(gòu)提供參考,還可以適當(dāng)各種資源的配置更加的合理,讓用戶可以用更少的時(shí)間找到自己所需要的資源。例如可以通過路徑分析模式采掘捕捉確定用戶頻繁瀏覽訪問的路徑,調(diào)整站點(diǎn)結(jié)構(gòu),并在適當(dāng)處加上廣告或薦書條。
3、Web數(shù)據(jù)挖掘技術(shù)在圖書館采訪工作中的應(yīng)用
在圖書館的工作中有一步十分的重要,這就是采訪工作,采訪工作的做的好壞程度會(huì)直接的對(duì)圖書館的服務(wù)質(zhì)量產(chǎn)生影響。通常情況圖書館的工作人員會(huì)根據(jù)圖書館的性質(zhì)、服務(wù)對(duì)象及其任務(wù)來決定采訪的內(nèi)容。但是這種采訪局限性很大,很多時(shí)候會(huì)受采訪人員的主觀意識(shí)的影響,同時(shí)這種方式也會(huì)顯得死板不靈活。很多時(shí)候會(huì)出現(xiàn)應(yīng)該購進(jìn)的文獻(xiàn)沒有買,不應(yīng)該買的文獻(xiàn)卻買了很多等與讀者的需求不符的現(xiàn)象。這些現(xiàn)象的產(chǎn)生都是因?yàn)槿狈?duì)讀者需求的了解和分析。要解決這些問題就必須對(duì)讀者的需求進(jìn)行全面的了解和分析,而Web數(shù)據(jù)挖掘則為解決該問題提供了一種較好的方法。通過對(duì)各種日志文件和采訪時(shí)獲得的數(shù)據(jù)進(jìn)行分析,可以很清楚的得到讀者需要的是什么樣的書籍、不需要的又是什么樣的書籍,從而為采購提供各種科學(xué)合理的分析報(bào)告和預(yù)測報(bào)告。根據(jù)對(duì)分析還能幫組圖書館管理人員確定各種所需書籍的比例,從而確定哪些文獻(xiàn)應(yīng)該及時(shí)的進(jìn)行補(bǔ)充,哪些文獻(xiàn)應(yīng)該進(jìn)行剔除,對(duì)館藏機(jī)構(gòu)進(jìn)行優(yōu)化,真正的為高校里的師生提供所需要的文獻(xiàn)和資料。
4、使用Web數(shù)據(jù)挖掘技術(shù)提供個(gè)性化服務(wù)
傳統(tǒng)的信息檢索工具在友好型、可理解性、交互性方面都存在著很大的缺陷。通常情況下都只是將各種查詢結(jié)果毫無邏輯的簡單的進(jìn)行羅列,用戶很難從其中獲取自己需要的信息,通過數(shù)據(jù)挖掘,可以對(duì)圖書館網(wǎng)站上的在線調(diào)查、留言簿、讀者調(diào)查表等數(shù)據(jù)進(jìn)行收集整理,對(duì)不需要的冗余信息進(jìn)行剔除。通過分析可以獲知用戶所喜好的瀏覽模式是哪種,他們常訪問的網(wǎng)站的路徑是什么,他們對(duì)圖書館中的那些資源比較有興趣。然后再根據(jù)用戶的普遍需求與每個(gè)人的個(gè)性需求,建立起相應(yīng)的規(guī)則,從而幫助網(wǎng)站設(shè)計(jì)人員對(duì)網(wǎng)站進(jìn)行設(shè)計(jì)和優(yōu)化,使得這些信息檢索變得更加的個(gè)性化、智能化,并根據(jù)每個(gè)用戶的偏好等特征將檢索到的信息排列處理,使得讀者可以用最快的速度獲得想要檢索的文獻(xiàn)信息。通過Web數(shù)據(jù)挖掘技術(shù)可以對(duì)用戶的特征信息進(jìn)行總結(jié),將那些從沒有發(fā)出過信息的潛在用戶進(jìn)行歸類,同時(shí)還可以免費(fèi)的為他們提供各種他們所感興趣的信息和資料,把這些潛在的用戶轉(zhuǎn)變?yōu)檎降挠脩羰褂肳eb數(shù)據(jù)挖掘可以對(duì)用戶的檢索日志進(jìn)行分析,從而得知用戶所感興趣的內(nèi)容、他們的研究方向,并根據(jù)這些內(nèi)容為用戶指定個(gè)性化服務(wù)的內(nèi)容,為用戶提供各種他們所感興趣的各種信息。
篇7
我國大部分醫(yī)院的倉庫管理工作都是基于其醫(yī)療設(shè)備管理信息系統(tǒng)的。這些系統(tǒng)大部分都是由PB語言編程的,數(shù)據(jù)庫應(yīng)用的是Oragcle數(shù)據(jù)庫系統(tǒng)。應(yīng)用了數(shù)據(jù)信息技術(shù)的系統(tǒng)軟件可以準(zhǔn)確地記錄了醫(yī)院材料入庫、出庫等業(yè)務(wù),并可以更規(guī)范的對(duì)醫(yī)院的庫存進(jìn)行清單查詢、財(cái)務(wù)查詢以及對(duì)賬等查詢工作,也可以根據(jù)其來出具更加準(zhǔn)確的季度收支和財(cái)務(wù)報(bào)表和明細(xì)表。目前,信息技術(shù)在我國醫(yī)院倉庫管理中的應(yīng)用已經(jīng)比較廣泛。我國很多醫(yī)院都通過構(gòu)建高速的以太網(wǎng),來部署高質(zhì)量的無線網(wǎng)絡(luò)以及一些移動(dòng)應(yīng)用軟件,通過這些硬件設(shè)備來構(gòu)建移動(dòng)庫房管理系統(tǒng)。并通過管理信息系統(tǒng)來做到醫(yī)院倉庫庫存減少,耗材量也有所降低,使醫(yī)院的倉庫管理由過去的倉儲(chǔ)模式轉(zhuǎn)變成為了現(xiàn)代物流的倉庫管理模式。醫(yī)院倉庫管理信息技術(shù)系統(tǒng)構(gòu)建的整體思路是利用信息條形碼、無線網(wǎng)絡(luò)、以及智能計(jì)算、移動(dòng)技術(shù)以及RFID等技術(shù),來將醫(yī)院的材料通過完全流程從進(jìn)貨、入庫、登記、收費(fèi)、使用等完整的工作管理環(huán)節(jié)來嚴(yán)格的控制和管理。通過數(shù)據(jù)信息技術(shù),我國醫(yī)院已經(jīng)取得了更好的成績,完善了醫(yī)院的物資管理質(zhì)量,也同時(shí)提升了我國醫(yī)院的經(jīng)濟(jì)效益和服務(wù)質(zhì)量。
(一)數(shù)據(jù)信息技術(shù)系統(tǒng)的構(gòu)成數(shù)據(jù)信息技術(shù)系統(tǒng)的構(gòu)成是由MC50、RFID以及一些其他數(shù)據(jù)采集終端和無線網(wǎng)絡(luò)聯(lián)合構(gòu)成的。通過這些技術(shù)與醫(yī)院倉庫后臺(tái)服務(wù)器進(jìn)行實(shí)時(shí)交互。醫(yī)院倉庫應(yīng)用有線網(wǎng)絡(luò)對(duì)數(shù)據(jù)庫的信息進(jìn)行查詢以及錄入,并實(shí)現(xiàn)數(shù)據(jù)的共享和交互,保持醫(yī)療信息數(shù)據(jù)的同步。
(二)數(shù)據(jù)信息技術(shù)系統(tǒng)的功能模塊數(shù)據(jù)信息技術(shù)系統(tǒng)的功能模塊主要包括醫(yī)院倉庫的采購管理模塊、入庫管理模塊、出庫管理模塊、庫存管理模塊、會(huì)計(jì)管理模塊以及物資質(zhì)量管理模塊。
(三)數(shù)據(jù)信息技術(shù)系統(tǒng)的工作流程數(shù)據(jù)信息技術(shù)系統(tǒng)的工作流程是比較明確的。當(dāng)材料進(jìn)入醫(yī)院的倉庫時(shí),材料物品一定要貼上條碼或者RFID等信息化標(biāo)簽,并在后臺(tái)映射與其對(duì)應(yīng)的數(shù)據(jù)。醫(yī)院倉庫管理工作人員應(yīng)該持手持終端接入無線網(wǎng)絡(luò),通過網(wǎng)上申領(lǐng),填寫醫(yī)院倉庫領(lǐng)用物品名稱、數(shù)量以及信息。醫(yī)院倉庫管理的工作人員通過PC上查看科室領(lǐng)用計(jì)劃,并根據(jù)這個(gè)領(lǐng)用計(jì)劃來準(zhǔn)備材料。醫(yī)療材料出庫之后,應(yīng)該將領(lǐng)用的物品保存在智能耗材柜中。
二、數(shù)據(jù)信息技術(shù)為醫(yī)院倉庫管理帶來的效益分析
篇8
使用秘密共享技術(shù)可利用多個(gè)數(shù)據(jù)中心形成低成本的醫(yī)療數(shù)據(jù)云,實(shí)現(xiàn)云計(jì)算時(shí)代的數(shù)據(jù)管理要求,即不需要自己保管關(guān)鍵數(shù)據(jù),有安全的地方保存關(guān)鍵數(shù)據(jù),任何地點(diǎn)、任何時(shí)間可使用數(shù)據(jù),僅合法用戶可訪問數(shù)據(jù),降低初始投資和運(yùn)營成本,確保業(yè)務(wù)的持續(xù)性。秘密共享也是一種加密技術(shù)。以Shamir[1]的(k,n)門限秘密共享方案為例,其原理是將秘密消息加密并分割成n個(gè)分享份額后分布存儲(chǔ)到不同的遠(yuǎn)程數(shù)據(jù)中心,多個(gè)數(shù)據(jù)中心構(gòu)成低成本的醫(yī)療數(shù)據(jù)云。每個(gè)數(shù)據(jù)中心存放的單個(gè)分享份額看起來毫無意義,傳輸和存儲(chǔ)不再需要額外的機(jī)密性保護(hù),秘密只能從不同數(shù)據(jù)中心收集滿任意k個(gè)組成的授權(quán)子集中得以恢復(fù),而對(duì)于不足k個(gè)分享份額的非授權(quán)子集,即使擁有無限計(jì)算能力和無限大的存儲(chǔ)器也無法恢復(fù)秘密,因?yàn)槊孛芄蚕砑夹g(shù)的安全性不像傳統(tǒng)加密技術(shù)那樣基于復(fù)雜的計(jì)算,而是基于信息理論,所以可保證秘密的長期安全性,目前主要用于安全要求較高的密鑰管理方面。此外,n個(gè)分享份額具有冗余性,即使任意(n-k)個(gè)分享份額遭到損壞或因網(wǎng)絡(luò)故障不能獲取,也能從其余的k個(gè)分享份額中恢復(fù)出秘密,這可保證業(yè)務(wù)的持續(xù)性。秘密共享方案可以是完美的,也可以是不完美的。(k,n)門限方案具有完美的安全性,即少于門限值k個(gè)的分享份額得不到原始消息的任何信息,完美方案的缺點(diǎn)是每個(gè)分享份額的長度≥原始消息的長度,即所有分享份額的總?cè)萘俊菰枷⒌膎倍,如果用于數(shù)據(jù)量很少的密鑰共享是沒有問題,目前實(shí)際應(yīng)用的幾乎都是完美秘密共享方案,但對(duì)于數(shù)據(jù)量較大的醫(yī)療數(shù)據(jù)管理來說,效率和安全一樣重要。
二、提高秘密共享技術(shù)的效率
要提高秘密共享技術(shù)的效率首先可從算法入手,目前典型的秘密共享算法是Shamir[1]的多項(xiàng)式插值法,這種算法的優(yōu)點(diǎn)是不管(k,n)門限方案中k和n取什么值,都能用通用的公式實(shí)現(xiàn)加密和解密。有作者提出了(k,n)門限方案的異或運(yùn)算方法[2-4],異或運(yùn)算的效率要比多項(xiàng)式插值法高很多,這種方法沒有通用的加密或解密公式,不同的k和n取值,需設(shè)計(jì)不同的加密和解密方法,這使得加密和解密方法也成了秘密的一部分,雖然通用性不高,但安全性更高。Yamamoto[5]提出的(k,L,n)秘密共享方案可大幅減少計(jì)算量和傳輸量,該方案被設(shè)計(jì)成1個(gè)原始消息s可從n個(gè)分享份額中的任意k個(gè)分享份額獲得重構(gòu),從任何(k-L)個(gè)或更少的分享份額中得不到原始消息的任何信息,但可能會(huì)從(K-j)(其中,j=1,2,…,L-1)個(gè)分享份額組成的跳板(Ramp)集合中獲得一點(diǎn)兒有關(guān)原始消息的信息,由于該方案可能會(huì)犧牲一點(diǎn)安全性,所以被稱為不完美的秘密共享。但根據(jù)對(duì)已有(k,L,n)方案的具體算法的研究發(fā)現(xiàn),Ramp集合的不安全性是可以避免和消除的。此方案的優(yōu)點(diǎn)是:每個(gè)分享份額的位長是原始消息長度的1/L,所有分享份額的總?cè)萘拷禐樵枷⒌膎/L,這將使計(jì)算量和傳輸量比(k,n)方案降低大約L倍。(k,L,n)方案的概念自提出以來,根據(jù)廣泛的國內(nèi)外文獻(xiàn)檢索結(jié)果顯示,目前國際上實(shí)際的應(yīng)用案例還非常少,迄今還沒發(fā)現(xiàn)任何醫(yī)院使用這項(xiàng)技術(shù)進(jìn)行數(shù)據(jù)安全管理。
三、秘密共享服務(wù)軟件
我們開發(fā)了秘密共享服務(wù)測試軟件,使用了異或運(yùn)算的(3,2,4)Ramp秘密共享技術(shù),發(fā)現(xiàn)該技術(shù)完全可勝任大容量醫(yī)療數(shù)據(jù)的分布式存儲(chǔ)。該秘密共享服務(wù)軟件可為用戶提供遠(yuǎn)程備份、遠(yuǎn)程訪問、共享與交換等醫(yī)療數(shù)據(jù)的安全管理功能。用戶通過常規(guī)方式在指定文件夾中存儲(chǔ)1個(gè)文件,該文件就會(huì)被自動(dòng)加密并分割成4個(gè)子文件,子文件又被分布存儲(chǔ)到4個(gè)數(shù)據(jù)中心,每個(gè)數(shù)據(jù)中心存放的單個(gè)子文件毫無意義。用戶隨時(shí)隨地再次登錄并打開文件時(shí),秘密共享服務(wù)軟件又自動(dòng)從不同的遠(yuǎn)程數(shù)據(jù)中心收集任意3個(gè)子文件,恢復(fù)出原始文件,同時(shí)相關(guān)聯(lián)的應(yīng)用程序會(huì)自動(dòng)開啟,文件又可被編輯和瀏覽。任何一個(gè)子文件遭破壞或因網(wǎng)絡(luò)故障無法獲取,也不會(huì)影響文件的恢復(fù)。將秘密共享服務(wù)軟件用于醫(yī)療數(shù)據(jù)的遠(yuǎn)程備份可兼顧安全性和冗余性,從而保證業(yè)務(wù)的持續(xù)性;用于遠(yuǎn)程訪問可使遠(yuǎn)程工作者無需隨身攜帶數(shù)據(jù),隨時(shí)隨地通過賬號(hào)遠(yuǎn)程登錄秘密共享服務(wù)文件夾抽取數(shù)據(jù);通過多用戶共享1個(gè)秘密共享文件夾可為多用戶或多機(jī)構(gòu)的醫(yī)療數(shù)據(jù)交換與共享提供多一種選擇。
四、秘密共享方案的優(yōu)勢
篇9
科學(xué)工作流中的任務(wù)之間的依賴既包含控制依賴,也包含數(shù)據(jù)依賴。連接兩個(gè)任務(wù)(t1-t2)的邊表示任務(wù)t1的輸出作為任務(wù)t2的輸入,工作流中的每個(gè)任務(wù)可能讀入一個(gè)或多個(gè)輸入文件,然后寫入一個(gè)或多個(gè)輸出文件。在工作流層,文件可以分為3種類型:輸入文件、中間文件和輸出文件。不同類型的文件具有不同的生命周期。(1)輸入文件。輸入文件不由工作流中的任務(wù)產(chǎn)生,文件通常駐留在用戶存儲(chǔ)服務(wù)器上。在運(yùn)行時(shí),可以從一個(gè)存儲(chǔ)服務(wù)器傳送到另一個(gè)存儲(chǔ)服務(wù)器,然后在這里被檢索,也可以在存儲(chǔ)服務(wù)器上直接檢索。圖1中的F-input就是一個(gè)輸入文件[10]。(2)中間文件。在工作流運(yùn)行過程中產(chǎn)生但無需長期保存的文件稱為中間文件,將在所有使用它的任務(wù)結(jié)束后被立即刪除。圖1中的f-t1-o1、f-t1-o2、f-t2-o1、f-t2-o2都是中間文件。(3)輸出文件,由工作流產(chǎn)生,對(duì)用戶有用并且在工作流結(jié)束后需要永久保存的文件。在工作流執(zhí)行過程中,這些文件通常被轉(zhuǎn)移到常駐存儲(chǔ)中。圖1中的F-output就是工作流的輸出文件。值得注意的是,輸出文件不一定必須是工作流中最后任務(wù)的輸出,也可能是中間環(huán)節(jié)任務(wù)的輸出數(shù)據(jù)。
2云計(jì)算環(huán)境下工作流執(zhí)行模型
科學(xué)工作流由工作流管理系統(tǒng)提交和管理,工作流管理系統(tǒng)駐留在提交主機(jī),協(xié)調(diào)調(diào)度工作的流執(zhí)行。工作流管理系統(tǒng)將工作流中的任務(wù)分配到虛擬機(jī)的工作節(jié)點(diǎn),任務(wù)的執(zhí)行所需要的數(shù)據(jù)可以從一個(gè)或多個(gè)輸入數(shù)據(jù)存儲(chǔ)點(diǎn)輸入。中間文件在工作流執(zhí)行期間駐留在數(shù)據(jù)暫存站點(diǎn)。當(dāng)工作流結(jié)束時(shí),工作流管理系統(tǒng)刪除中間數(shù)據(jù),同時(shí)將輸出文件從暫存站點(diǎn)轉(zhuǎn)存到輸出站點(diǎn),然后永久性保存。根據(jù)工作流管理系統(tǒng)和目標(biāo)執(zhí)行環(huán)境的不同,多個(gè)數(shù)據(jù)站點(diǎn)可以協(xié)同工作。例如,在輸入數(shù)據(jù)已經(jīng)駐留在計(jì)算節(jié)點(diǎn)的情況下,該計(jì)算節(jié)點(diǎn)和輸入點(diǎn)是相同的。圖2顯示了具有兩個(gè)任務(wù)的工作流,來說明工作流所需的文件是如何在邏輯上獨(dú)立的站點(diǎn)之間移動(dòng)的。
3對(duì)象存儲(chǔ)應(yīng)用于科學(xué)工作流中的數(shù)據(jù)管理
對(duì)象存儲(chǔ)系統(tǒng)主要包括存儲(chǔ)服務(wù)器、元數(shù)據(jù)服務(wù)器、客戶端等組成部分,其核心思想是將數(shù)據(jù)的讀和寫與元數(shù)據(jù)存儲(chǔ)分離,如圖3所示。存儲(chǔ)服務(wù)器主要負(fù)責(zé)數(shù)據(jù)存儲(chǔ)、智能的數(shù)據(jù)分布以及每個(gè)對(duì)象元數(shù)據(jù)的管理;元數(shù)據(jù)服務(wù)器主要提供對(duì)象存儲(chǔ)訪問、文件和目錄訪問管理以及客戶端緩存的一致性管理等功能。為了提供可擴(kuò)展的可靠服務(wù),對(duì)象存儲(chǔ)器的內(nèi)部結(jié)構(gòu)非常復(fù)雜。例如,亞馬遜的簡單存儲(chǔ)服務(wù)(S3)[12]通過REST(RepresentationalStateTransfer)、SOAP(SimpleObjectAccessProtocol)和APIs(ApplicationProgrammingInterfaces)提供檢索和刪除操作;它將一個(gè)對(duì)象的多個(gè)副本布局在存儲(chǔ)服務(wù)器上以提供錯(cuò)誤情況下的冗余。很多網(wǎng)格存儲(chǔ)服務(wù)和為數(shù)據(jù)密集型應(yīng)用設(shè)計(jì)的協(xié)議可以認(rèn)為是對(duì)象存儲(chǔ),這種架構(gòu)對(duì)構(gòu)建來自不同的執(zhí)行環(huán)境的數(shù)據(jù)管理模式而言具有重要的借鑒意義。針對(duì)面向大數(shù)據(jù)工作流,利用對(duì)象存儲(chǔ)的優(yōu)點(diǎn),本文提出兩個(gè)方案:一是工作流中的3類數(shù)據(jù)文件都使用遠(yuǎn)程的對(duì)象存儲(chǔ);二是在計(jì)算節(jié)點(diǎn)上使用共享文件系統(tǒng)作為數(shù)據(jù)暫存點(diǎn)來存儲(chǔ)中間數(shù)據(jù)。
3.1單獨(dú)使用對(duì)象存儲(chǔ)
在這種情況下,所有的數(shù)據(jù)都存儲(chǔ)在對(duì)象存儲(chǔ)系統(tǒng)中,工作流管理系統(tǒng)需要從對(duì)象存儲(chǔ)中無縫檢索數(shù)據(jù),為本地工作流任務(wù)使用。在這樣的設(shè)置中,工作流管理系統(tǒng)從對(duì)象存儲(chǔ)中檢索輸入文件和中間文件,然后,工作流中的任務(wù)對(duì)本地的POSIX文件系統(tǒng)做必要的輸入/輸出設(shè)置,任務(wù)完成時(shí),工作流管理系統(tǒng)能夠?qū)⒅虚g數(shù)據(jù)和輸出數(shù)據(jù)存儲(chǔ)到對(duì)象存儲(chǔ)中。這樣,即使工作流被部署在分布的資源上,科學(xué)應(yīng)用只需要對(duì)POSIX做常規(guī)的輸入/輸出設(shè)置,就能完成工作流的執(zhí)行。工作流管理系統(tǒng)與對(duì)象存儲(chǔ)的多次交互增加了工作流執(zhí)行的開銷,而該開銷與分布資源上的計(jì)算相比并不算大。對(duì)象存儲(chǔ)中既有輸入數(shù)據(jù)也有中間數(shù)據(jù),只要工作流系統(tǒng)與對(duì)象存儲(chǔ)能夠無縫檢索和存儲(chǔ),那么任務(wù)執(zhí)行可以在任何地方。如圖4中,任務(wù)t1可以在校園計(jì)算機(jī)集群上完成,而屬于同一工作流的任務(wù)t2可以在亞馬遜的EC2上完成,t1、t2使用亞馬遜的S3對(duì)象存儲(chǔ)作為中間數(shù)據(jù)文件的暫存。總之,數(shù)據(jù)存儲(chǔ)和執(zhí)行環(huán)境的分離,使得工作流在分布資源上的執(zhí)行更為容易。一個(gè)常見的情況是,當(dāng)計(jì)算需求超過本地或校園計(jì)算所提供的資源時(shí),將使用云資源。圖4也說明了工作流的數(shù)據(jù)移動(dòng)情況。在這里,文件F-i被傳送到云中的高性能計(jì)算集群工作節(jié)點(diǎn)的本地文件系統(tǒng)。任務(wù)t1從該節(jié)點(diǎn)開始,讀入輸入文件F-i,然后寫入本地文件系統(tǒng)的中間文件F-t,F(xiàn)-t被傳回到作為數(shù)據(jù)暫存點(diǎn)的對(duì)象存儲(chǔ)中。F-t文件將從對(duì)象存儲(chǔ)中被檢索進(jìn)入到EC2節(jié)點(diǎn)的本地文件系統(tǒng)。任務(wù)t2啟動(dòng)后讀取F-t文件(該文件是由t1創(chuàng)建),然后將F-o寫到本地磁盤,再傳送到對(duì)象存儲(chǔ)中。以上所有的數(shù)據(jù)傳輸工作都由工作流管理系統(tǒng)完成??茖W(xué)工作流中單獨(dú)使用對(duì)象存儲(chǔ)的明顯不足之處是,數(shù)據(jù)重復(fù)傳輸會(huì)引起在大數(shù)據(jù)處理過程中的延遲。工作流中的多個(gè)任務(wù)使用相同的文件,所以重復(fù)傳輸是顯而易見的[13][14]。對(duì)象存儲(chǔ)將對(duì)同一資源的重復(fù)請求認(rèn)為是不同的請求,對(duì)象存儲(chǔ)通常以其良好的擴(kuò)展性減輕這種重復(fù)對(duì)工作流性能造成的影響。另外,工作流系統(tǒng)可能在本地節(jié)點(diǎn)選擇緩存文件,或者利用集群中的共享文件系統(tǒng)來減輕此問題。延遲是整個(gè)工作流性能應(yīng)該關(guān)注的問題,云對(duì)象存儲(chǔ)的設(shè)計(jì)提供了很高的帶寬,但對(duì)單個(gè)檢索或?qū)ο蟛僮骺赡苄枰獢?shù)秒鐘的延遲。對(duì)具有大量文件的數(shù)據(jù)密集型的科學(xué)工作流而言,這種延遲顯著增加了工作流運(yùn)行的時(shí)間開銷。大型工作流中的另一個(gè)問題是多數(shù)中間文件需要被傳輸?shù)綄?duì)象存儲(chǔ)中由相關(guān)后續(xù)任務(wù)檢索并使用。由于商業(yè)對(duì)象存儲(chǔ)提供以GB為單位的存儲(chǔ),并按遷移、存儲(chǔ)和檢索的請求數(shù)付費(fèi),所以重復(fù)傳輸也就意味著費(fèi)用的增加。
3.2共享文件系統(tǒng)作為數(shù)據(jù)暫存
解決由數(shù)據(jù)重復(fù)遷移造成的延遲問題的方法之一,是工作流管理系統(tǒng)將中間文件暫存在POSIX兼容系統(tǒng)中,由多個(gè)計(jì)算節(jié)點(diǎn)文件系統(tǒng)共享,然后在一個(gè)資源節(jié)點(diǎn)上運(yùn)行所有的計(jì)算。文件共享系統(tǒng)保存了工作流管理系統(tǒng)中所有任務(wù)的中間數(shù)據(jù),在這種情況下,只有輸入輸出文件存儲(chǔ)在對(duì)象存儲(chǔ)中。由于中間文件不需要在對(duì)象存儲(chǔ)與計(jì)算節(jié)點(diǎn)之間傳送,從而可降低使用商業(yè)云對(duì)象存儲(chǔ)的費(fèi)用。如圖5所示,是一個(gè)具有文件共享系統(tǒng)的高性能計(jì)算環(huán)境下具有2個(gè)任務(wù)的簡單工作流。文件F-i被工作流管理系統(tǒng)傳送到集群文件共享文件系統(tǒng)。任務(wù)t1在計(jì)算節(jié)點(diǎn)1上啟動(dòng),從共享文件系統(tǒng)中讀入文件F-i,然后將中間文件F-i-t寫入到共享文件系統(tǒng)中,任務(wù)t2在計(jì)算節(jié)點(diǎn)2上啟動(dòng),從文件共享系統(tǒng)中讀入F-i-t(由任務(wù)t1創(chuàng)建),然后將其輸出寫入到F-o,F(xiàn)-o由工作流管理系統(tǒng)送到對(duì)象存儲(chǔ)中,這種方法的優(yōu)點(diǎn)在傳統(tǒng)的有高速并行超級(jí)計(jì)算環(huán)境中尤為顯著。例如,XSEDE(ExtremeScienceandEngineeringDiscoveryEnvironment)節(jié)點(diǎn)對(duì)多數(shù)科學(xué)工作流點(diǎn)有極大擴(kuò)展性[15]。值得注意的是,如果第一個(gè)計(jì)算節(jié)點(diǎn)忙而需要將計(jì)算溢出到另一個(gè)節(jié)點(diǎn)時(shí),這種隨數(shù)據(jù)布局任務(wù)的方法,損失了布局計(jì)算的靈活性。以上兩種方法各有所長,選擇使用哪種方法取決于工作流的類型和工作流執(zhí)行的目標(biāo)環(huán)境,這就要求工作流管理系統(tǒng)的開發(fā)具有彈性的數(shù)據(jù)管理方案,允許科學(xué)家有效使用對(duì)他們有用的基礎(chǔ)設(shè)施。工作流中的數(shù)據(jù)管理方案應(yīng)該具有如下特征:首先,科學(xué)工作流管理系統(tǒng)允許任務(wù)和數(shù)據(jù)后綁定,任務(wù)依據(jù)資源的可用性映射到計(jì)算資源上,任務(wù)在執(zhí)行時(shí)能夠發(fā)現(xiàn)資源,并從眾多存儲(chǔ)中選擇數(shù)據(jù)暫存位置;其次,在科學(xué)家只有一個(gè)計(jì)算資源可用的情況下,允許任務(wù)和數(shù)據(jù)的靜態(tài)綁定;再次,支持使用不同協(xié)議和不同安全機(jī)制訪問對(duì)象存儲(chǔ)。
4相關(guān)工作
工作流管理系統(tǒng)處理數(shù)據(jù)的方法很多,Swift[16]采用與本文所描述的第二種模式類似,使用本地文件系統(tǒng)或共享文件系統(tǒng)作為數(shù)據(jù)緩存,提交主機(jī)扮演數(shù)據(jù)暫存的角色。系統(tǒng)首先選擇一個(gè)計(jì)算站點(diǎn)來運(yùn)行一個(gè)任務(wù),然后將數(shù)據(jù)從提交主機(jī)推向該站點(diǎn)的文件系統(tǒng),任務(wù)執(zhí)行后,輸入的文件被回傳給提交主機(jī),中間文件被留在共享文件系統(tǒng)中以便后續(xù)任務(wù)的執(zhí)行。相對(duì)而言,本文將數(shù)據(jù)文件(包括輸入、輸出、中間文件)與提交主機(jī)分離,并使用不同的協(xié)議,具有更好的靈活性。其他工作流管理系統(tǒng)如Kepler[17],Triana[18]和Taverna[19]關(guān)注的是流式工作流中任務(wù)的調(diào)度和其他Web資源的調(diào)用,這些工作流具有圖形化的用戶界面,允許用戶搭建具有不同部件的工作流,但通常沒有涉及訪問大量數(shù)據(jù)集的問題。這些工作流中的數(shù)據(jù)管理很大程度上依賴于用戶,數(shù)據(jù)管理自動(dòng)化非常有限。Kepler[20]引入了一個(gè)MapReduce執(zhí)行器,允許執(zhí)行采用MapReduce算法的混合工作流。Hadoop平臺(tái)通常用來運(yùn)行數(shù)據(jù)密集型的科學(xué)應(yīng)用,它所提供的文件操作與POSIX類似,允許隨機(jī)讀,但不允許隨機(jī)寫。在這種情況下,Hadoop平臺(tái)負(fù)責(zé)將輸入文件切片并分布在各個(gè)數(shù)據(jù)節(jié)點(diǎn)。而本文提出的方法主要針對(duì)工作流運(yùn)行在多個(gè)不同的執(zhí)行環(huán)境中,代碼不能MapReduce的情況。在XSEDE中,任務(wù)利用分布式文件系統(tǒng)如GPFS-WAN[21](GeneralParallelFileSystem-WAN)來訪問數(shù)據(jù),分布式文件系統(tǒng)支持POSIX操作,可以對(duì)輸入和輸出文件進(jìn)行遠(yuǎn)程訪問。研究表明[22],將大型數(shù)據(jù)集布局在本地計(jì)算節(jié)點(diǎn)會(huì)更好,但這一策略也會(huì)帶來新的問題,如不同類型工作流的融合以及數(shù)據(jù)布局策略算法等。
5總結(jié)
篇10
1 大數(shù)據(jù)采集
大數(shù)據(jù)采集是大數(shù)據(jù)能力的基礎(chǔ),培養(yǎng)學(xué)生快速準(zhǔn)確全面獲取數(shù)據(jù)的能力是大數(shù)據(jù)分析技能的起點(diǎn)。企業(yè)各種原始憑證、記賬憑證、賬簿、報(bào)表等會(huì)計(jì)資料信息采集,包括傳統(tǒng)紙質(zhì)材料和電商電子材料等信息的采集,因?yàn)橄鄬?duì)工整規(guī)范,采集難度不大;培養(yǎng)學(xué)生對(duì)企業(yè)自有數(shù)據(jù)倉庫數(shù)據(jù)抽取導(dǎo)出能力,將充分發(fā)揮企業(yè)歷年數(shù)據(jù)作用。
同時(shí),企業(yè)不僅要采集企業(yè)內(nèi)部核算資料,還要進(jìn)行管理活動(dòng)需要采集原材料價(jià)格、市場前景、同類產(chǎn)品銷售情況等外部數(shù)據(jù)資料,這些資料有公開的如鋼鐵價(jià)格、原油價(jià)格等,也有不公開的某企業(yè)某產(chǎn)品銷售情況,所以通過大數(shù)據(jù)的手段在獲取某類產(chǎn)品、某些特點(diǎn)產(chǎn)品的銷售情況,或者購買參考公共銷售情況數(shù)據(jù),需要培養(yǎng)學(xué)生爬取數(shù)據(jù)的能力。
例如,利用八爪魚進(jìn)行淘寶、天貓、京東等網(wǎng)站商品檢索結(jié)果抓取或者商品詳情內(nèi)頁資料進(jìn)行抓取,也可以自行設(shè)計(jì)或者購買規(guī)則進(jìn)行特定數(shù)據(jù)抓取;利用公共平臺(tái)數(shù)據(jù)對(duì)企業(yè)商品的競爭情況有更全面的了解,也可以獲取消費(fèi)者的檢索熱點(diǎn);對(duì)自己產(chǎn)品的評(píng)論資料可以進(jìn)行典型意見和關(guān)鍵詞的提取,提高CRM水平,如圖1所示。 隨著物聯(lián)網(wǎng)傳感器的發(fā)展,自動(dòng)、實(shí)時(shí)、全面、完整、可靠、準(zhǔn)確的數(shù)據(jù)不斷出現(xiàn),每一個(gè)界面、每一個(gè)動(dòng)作、每一次交互都有跡可循并被規(guī)范記錄,獲取的數(shù)據(jù)也將更加全面,企業(yè)的數(shù)據(jù)采集也更趨自動(dòng)。
2 大數(shù)據(jù)清洗
培養(yǎng)學(xué)生通過對(duì)數(shù)據(jù)進(jìn)行多方驗(yàn)證、審核,將有雜質(zhì)的數(shù)據(jù)剔除能力;培養(yǎng)學(xué)生從格式、邏輯、數(shù)值等多方面進(jìn)行數(shù)據(jù)清洗和整理,處理缺失值、孤立點(diǎn)垃圾信息、規(guī)范化、重復(fù)記錄、特殊值、合并數(shù)據(jù)集等問題的能力。
3 大數(shù)據(jù)分析
對(duì)于企業(yè)積累數(shù)據(jù)和獲取的外部數(shù)據(jù)都要及時(shí)進(jìn)行分析應(yīng)用,快速充分分析數(shù)據(jù)尤為關(guān)鍵。培養(yǎng)學(xué)生數(shù)據(jù)分析、數(shù)據(jù)挖掘的技能尤為重要,具體需培養(yǎng)數(shù)據(jù)分析技能如。
(1)描述型分析:是什么?
描述性分析會(huì)提供重要指標(biāo)和信息。例如,通過每月的銷售單據(jù),可以獲取大量的客戶數(shù)據(jù),如客戶的地理信息、客戶偏好等;也可以了解企業(yè)庫存、銷售等生產(chǎn)經(jīng)營數(shù)據(jù)。
(2)診斷型分析:為什么?
通過評(píng)估描述型數(shù)據(jù),診斷分析工具能夠深入的分析數(shù)據(jù),鉆取到數(shù)據(jù)的核心,分析某種產(chǎn)品或者某些產(chǎn)品銷售量變化原因等。
(3)預(yù)測型分析:可能怎樣?
預(yù)測型分析主要用于進(jìn)行預(yù)測事件未來發(fā)生的可能性、預(yù)測一個(gè)可量化的值,或者是預(yù)估事情發(fā)生的時(shí)間點(diǎn)。使用各種可變數(shù)據(jù)來實(shí)現(xiàn)預(yù)測,在充滿不確定的環(huán)境下,預(yù)測能夠幫助做出更好的決定,如預(yù)測原料價(jià)格可以輔助決定庫存、預(yù)測銷售可以輔助決定產(chǎn)量、預(yù)測業(yè)務(wù)量可以輔助決定資金籌集量等。
(4)指令型分析:做什么?
指令模型是基于對(duì)“是什么”“為什么”和“可能怎樣”的分析,幫助用戶決定應(yīng)該采取什么措施。通常情況下,指令型分析不是單獨(dú)使用的方法,而是前面的所有方法都完成之后,最后需要完成的分析方法。例如,交通規(guī)劃分析考量了每條路線的距離、每條線路的行駛速度、以及目前的交通管制等方面因素,來幫助選擇最好的回家路線;企業(yè)考量了銷售數(shù)據(jù)的變化、分析了市場和消費(fèi)者的原因、預(yù)判了產(chǎn)品市場前景,進(jìn)而決定對(duì)產(chǎn)品實(shí)施哪些改進(jìn)。
4 大數(shù)據(jù)可視化
大數(shù)據(jù)可視化是培養(yǎng)學(xué)生對(duì)大數(shù)據(jù)分析結(jié)果進(jìn)行直觀呈現(xiàn)能力。培養(yǎng)學(xué)生利用企業(yè)自有數(shù)據(jù)或者外部連接數(shù)據(jù)、抓取數(shù)據(jù)等方式獲得的數(shù)據(jù)進(jìn)行全方位呈現(xiàn)的能力,培養(yǎng)學(xué)生將數(shù)據(jù)的匯總、平均、交叉列聯(lián)分析等描述和分析結(jié)果,利用適當(dāng)?shù)膱D形進(jìn)行展示的能力。大數(shù)據(jù)可視化是非常重要的技能,具體如。
4.1各類變量適合的基本可視化效果
單一變量:點(diǎn)圖、抖動(dòng)圖;直方圖、核密度估計(jì);累計(jì)分布函數(shù)。
兩個(gè)變量:散點(diǎn)圖、LOESS平滑、殘差分析、對(duì)數(shù)圖、傾斜。
多個(gè)變量:假色圖、馬賽克圖、平行左邊圖。
熱門標(biāo)簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)安全論文 數(shù)據(jù)管理論文 數(shù)據(jù)庫論文 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)誤差 數(shù)據(jù)采集 數(shù)據(jù)通信論文 數(shù)據(jù) 心理培訓(xùn) 人文科學(xué)概論
相關(guān)文章
1政務(wù)數(shù)據(jù)協(xié)同治理的分析
3建筑業(yè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量探討