數(shù)據(jù)倉庫范文
時(shí)間:2023-04-04 18:28:37
導(dǎo)語:如何才能寫好一篇數(shù)據(jù)倉庫,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
關(guān)鍵詞:數(shù)據(jù)倉庫;體系結(jié)構(gòu);維度
中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2008)15-20998-02
The Summary of the Data Warehouse Technology
WANG Min1,2, ZHOU Cong-jun2,DU Cheng-Long2
(1. Hubei University of Technology,Wuhan,430068;2.Hubei Professional College of Land Resource,Jingzhou,434003)
Abstract: Data warehouse is a new progressing direction of database technology,and is also a popular research fields currently.This paper introduces the data warehouse definition,architecture and characters.The article also analyzes the procedure of building Data Warehouse .In the end,it describes the application of data warehouse to the national economy fields and the prospect of the data warehouse in the future.
Key words: data warehouse;architecture of the warehouse;dimension
1 引言
在過去的幾十年中,人們?yōu)榱四軌蚴占?、存儲和處理大量的業(yè)務(wù)數(shù)據(jù)而開發(fā)了數(shù)據(jù)庫管理系統(tǒng)(DBMS)。由于數(shù)據(jù)庫系統(tǒng)的開發(fā)和使用,為企業(yè)記錄和處理業(yè)務(wù)提供了極大的方便,使得這種技術(shù)得以迅速的發(fā)展和應(yīng)用。但隨著數(shù)據(jù)庫系統(tǒng)記錄和處理的數(shù)據(jù)越來越多,人們不再滿足僅僅使用數(shù)據(jù)庫系統(tǒng)來記錄企業(yè)的業(yè)務(wù)活動(dòng)數(shù)據(jù)和對數(shù)據(jù)進(jìn)行簡單處理,人們需要對企業(yè)業(yè)務(wù)活動(dòng)的數(shù)據(jù)進(jìn)行各種分析,以便找出影響企業(yè)成功的要素和企業(yè)未來的發(fā)展趨勢。而如何將這些大量的數(shù)據(jù)轉(zhuǎn)化為對企業(yè)管理者有用的,可供輔助決策的信息,也逐漸成為研究的熱點(diǎn)。
2 數(shù)據(jù)倉庫技術(shù)
2.1 數(shù)據(jù)倉庫的定義
數(shù)據(jù)倉庫的概念是由W.H.Inmon博士在1992年出版的《建立數(shù)據(jù)倉庫》(Building the Data Warehouse)一書中提出的。他在書中對數(shù)據(jù)倉庫是這樣說明的:“數(shù)據(jù)倉庫(data warehouse)是一個(gè)面向主題的、集成的、穩(wěn)定的、不同時(shí)間的數(shù)據(jù)集合,它用于支持經(jīng)營管理中的決策制定過程?!盵1]實(shí)際上可以理解為數(shù)據(jù)倉庫就是從多個(gè)數(shù)據(jù)源收集數(shù)據(jù),存儲于一個(gè)統(tǒng)一的數(shù)據(jù)模式下的數(shù)據(jù)體。從本質(zhì)上講,數(shù)據(jù)倉庫就是一種信息集成技術(shù)。數(shù)據(jù)倉庫從多個(gè)信息源中獲取原始數(shù)據(jù),經(jīng)整理加工后,存儲在數(shù)據(jù)倉庫的內(nèi)部數(shù)據(jù)庫中,通過向用戶提供訪問工具,向數(shù)據(jù)倉庫用戶提供統(tǒng)一、協(xié)調(diào)和集成的信息環(huán)境,從企業(yè)的角度來支持用戶的決策和幫助企業(yè)的管理進(jìn)行深入綜合分析。[2]
2.2 數(shù)據(jù)倉庫與數(shù)據(jù)庫的區(qū)別
數(shù)據(jù)倉庫是在數(shù)據(jù)庫的基礎(chǔ)上發(fā)展起來的,因此數(shù)據(jù)倉庫與數(shù)據(jù)庫有著本質(zhì)的區(qū)別,主要體現(xiàn)在以下幾個(gè)方面:
(1)數(shù)據(jù)庫中存儲的都是當(dāng)前使用的值,而數(shù)據(jù)倉庫的建立是一個(gè)企業(yè)日積月累的建立過程因而其存儲的數(shù)據(jù)都是一些歷史的、存檔的數(shù)據(jù),另外由于要提供分析決策,還需要存儲一些歸納的、計(jì)算的數(shù)據(jù);
(2)數(shù)據(jù)庫的數(shù)據(jù)主要是面向業(yè)務(wù)操作程序的,可以重復(fù)處理,主要是用來進(jìn)行事務(wù)處理的。而數(shù)據(jù)倉庫卻是面向主題,主要是用來分析與應(yīng)用的;
(3)數(shù)據(jù)庫的數(shù)據(jù)結(jié)構(gòu)是高度結(jié)構(gòu)化的,比較復(fù)雜,適合于操作計(jì)算。而數(shù)據(jù)倉庫的數(shù)據(jù)卻比較簡單,適合于分析處理;
(4)數(shù)據(jù)庫中的數(shù)據(jù)的使用頻率是很高的。數(shù)據(jù)倉庫中的數(shù)據(jù)的使用則不是很高;
(5)通常對數(shù)據(jù)庫中的事務(wù)的訪問,只需要訪問少量的記錄數(shù)據(jù)。而對數(shù)據(jù)倉庫的事務(wù)的訪問就可能需要訪問大量的記錄;
(6)對數(shù)據(jù)庫的響應(yīng)時(shí)間一般要求比較高,通常是以秒為單位。而對數(shù)據(jù)倉庫的響應(yīng)時(shí)間要求則較低,通常比較長。
2.3 數(shù)據(jù)倉庫的主要特點(diǎn)
從數(shù)據(jù)倉庫的定義我們可以看出,它的特點(diǎn)主要體現(xiàn)在以下幾個(gè)方面:
(1)數(shù)據(jù)倉庫是面向主題的。也就是說數(shù)據(jù)是按其自然屬性來進(jìn)行組織的。主題通常是在一個(gè)較高層次上將數(shù)據(jù)歸類的標(biāo)準(zhǔn),每個(gè)主題對應(yīng)一個(gè)宏觀分析領(lǐng)域。比如,在學(xué)生的學(xué)籍管理成績系統(tǒng)中,數(shù)據(jù)常被組織成“學(xué)生”、“課程”、“學(xué)生成績”等關(guān)系模式,描述了各個(gè)學(xué)生、各門課程以及學(xué)生學(xué)習(xí)各門課程的詳細(xì)信息。而在數(shù)據(jù)倉庫中,我們則要對學(xué)生、課程、學(xué)生成績進(jìn)行綜合分析,以便進(jìn)行決策,因而應(yīng)重新組織數(shù)據(jù),完成業(yè)務(wù)數(shù)據(jù)向主題數(shù)據(jù)的轉(zhuǎn)換。主題的抽取則應(yīng)根據(jù)分析的要求進(jìn)行確定。[3]如針對學(xué)生成績分析數(shù)據(jù)倉庫就可以設(shè)置以下主體:學(xué)生、課程、教師等。
(2)數(shù)據(jù)倉庫是集成的。數(shù)據(jù)在進(jìn)入數(shù)據(jù)倉庫之前,必須經(jīng)過加工與集成。對不同來源的數(shù)據(jù)進(jìn)行數(shù)據(jù)結(jié)構(gòu)統(tǒng)一編碼。統(tǒng)一原始數(shù)據(jù)中的所有矛盾之處,如字段的同名異義,單位不統(tǒng)一,字長不一致等情況。即將原始數(shù)據(jù)結(jié)構(gòu)做一個(gè)從面向應(yīng)用到面向主題的大轉(zhuǎn)變。[4]
要將決策分析建立在數(shù)據(jù)倉庫之上,數(shù)據(jù)系統(tǒng)就需要定期從各院系、各部門抽取適宜于進(jìn)行決策分析的細(xì)節(jié)數(shù)據(jù),然后按照不同的粒度要求匯總到各級數(shù)據(jù)集市或數(shù)據(jù)倉庫中。以“教師”主題為例,關(guān)于教師的完整信息是分散在各個(gè)院系、各部門的,每個(gè)部門都沒有關(guān)于“教師”的完整信息,而且這些數(shù)據(jù)可能是不一致的。比如:“教師”主題中的教師編號在“圖書管理系統(tǒng)”和“科研信息系統(tǒng)”中可能不同;性別在各部門中的表示方法也可能不同,在“科研信息系統(tǒng)”中用“M”、“F”來表示,而在“教師基本信息系統(tǒng)”中用“0”和“1”來表示。在經(jīng)過了面向主題的數(shù)據(jù)組織后,消除同名異義、異名同義、單位不統(tǒng)一、字長不統(tǒng)一等數(shù)據(jù)不一致之處,按照元數(shù)據(jù)的定義形成關(guān)于教師的完整、一致的信息集合。[3]
2.4 數(shù)據(jù)倉庫的體系結(jié)構(gòu)
數(shù)據(jù)倉庫系統(tǒng)通常由數(shù)據(jù)倉庫(DW)、倉庫管理和分析工具三部分組成,其結(jié)構(gòu)形式如下圖所示。
(1)源數(shù)據(jù):數(shù)據(jù)倉庫的數(shù)據(jù)來源多個(gè)不同的數(shù)據(jù)源,它可以是通常的數(shù)據(jù)庫系統(tǒng),也可以是非傳統(tǒng)的數(shù)據(jù),如文件、HTML文件、知識庫等。
(2)倉庫數(shù)據(jù)管理系統(tǒng)(DWMS):倉庫的管理主要包括對數(shù)據(jù)的案例、歸檔、備份、維護(hù)以及恢復(fù)等工作,這些工作需通過數(shù)據(jù)倉庫管理系統(tǒng)來完成。
(3)分析工具:數(shù)據(jù)倉庫的查詢不是指對記錄級數(shù)據(jù)的查詢,而是指對分析要求的查詢。一般包含兩種工具。一種是查詢工具,用來對分析要求的查詢。一種是挖掘工具,用于在大量數(shù)據(jù)中進(jìn)行挖掘有規(guī)律性的知識。
2.5 數(shù)據(jù)倉庫的實(shí)施
數(shù)據(jù)倉庫的開發(fā)要以數(shù)據(jù)為中心,可大體分為以下幾個(gè)步驟:
(1)明確目標(biāo),制訂計(jì)劃
根據(jù)需求確定相應(yīng)的數(shù)據(jù)倉庫的設(shè)計(jì)目標(biāo),并制定實(shí)施計(jì)劃,用發(fā)展的眼光創(chuàng)立架構(gòu)方案。
(2)建立技術(shù)環(huán)境
建立支撐平臺建立技術(shù)環(huán)境,選擇實(shí)現(xiàn)數(shù)據(jù)倉庫的軟硬件資源,包括開發(fā)平臺、DBMS、網(wǎng)絡(luò)通信、開發(fā)工具、終端訪問工具等等。
(3)確定主題
通過對用戶、管理層的需求進(jìn)行深入的了解與分析,然后對這些需求中比較迫切、重要程度初步確定幾個(gè)主題。
(4)概念模型設(shè)計(jì)
概念模型設(shè)計(jì)是主觀與客觀之間的橋梁,通過概念模型,可以用適合計(jì)算機(jī)世界的模型和語言對客觀世界中的問題進(jìn)行具體的描述。主要包括事實(shí)的定義、維度的定義和級別的定義。所謂事實(shí),即指決策者分析的目標(biāo)數(shù)據(jù),可以幫助決策者了解全局,作出相應(yīng)決策。也稱為度量值。而維度,即指事實(shí)的屬性信息。也稱為考察事實(shí)的角度。
(5)邏輯模型設(shè)計(jì)
邏輯模型的設(shè)計(jì)是指根據(jù)事實(shí)、維度和級別之間的關(guān)系確定所采用的架構(gòu)。通常采用星型構(gòu)架進(jìn)行設(shè)計(jì),也就是以事實(shí)表為中心,四周與每個(gè)維度相關(guān)聯(lián),不存在維度與維度相關(guān)聯(lián)的情況。
(6)物理模型設(shè)計(jì)
物理設(shè)計(jì)主要完成開發(fā)決策工具的選擇、數(shù)據(jù)表的創(chuàng)建與索引的創(chuàng)建。數(shù)據(jù)表主要包括事實(shí)表與維度表的創(chuàng)建。一般對維度都創(chuàng)建了主鍵索引,對事實(shí)表則設(shè)置了組合主鍵索引。
(7)數(shù)據(jù)轉(zhuǎn)換程序
實(shí)現(xiàn)從數(shù)據(jù)源中抽取、清理、聚集、轉(zhuǎn)換數(shù)據(jù)并加載數(shù)據(jù)等過程的設(shè)計(jì)。
(8)定義元數(shù)據(jù)
即定義數(shù)據(jù)的意義及系統(tǒng)各組成部件的關(guān)系。
(9)運(yùn)行與維護(hù)
管理數(shù)據(jù)倉庫環(huán)境,定期進(jìn)行數(shù)據(jù)的更新,使數(shù)據(jù)倉庫正常運(yùn)行。
3 數(shù)據(jù)倉庫技術(shù)的應(yīng)用
目前,國內(nèi)數(shù)據(jù)倉庫的需求主要表現(xiàn)在如下方面:
(1)由于銀行商業(yè)化的步伐正在加大,各大、中型銀行開始重新考慮自身的業(yè)務(wù),特別是加強(qiáng)對自身的信貸風(fēng)險(xiǎn)的管理,因而對有關(guān)信貸風(fēng)險(xiǎn)管理和風(fēng)險(xiǎn)規(guī)避的決策支持系統(tǒng)的需求逐漸多了起來。
(2)由于電子商務(wù)的迅速發(fā)展,不少網(wǎng)站開始考慮如何提高對顧客的忠誠度,為客戶提供更進(jìn)一步的“貼身”服務(wù)。
(3)各大型企業(yè)如移動(dòng)通信局等開始考慮著手進(jìn)行決策支持以及數(shù)據(jù)倉庫規(guī)則。
4 結(jié)束語
雖然目前國內(nèi)的數(shù)據(jù)倉庫市場經(jīng)過了多年的發(fā)展,但是比起國外大企業(yè)所建的巨型企業(yè)級數(shù)據(jù)倉庫來講,還只能算是剛剛起步,還存在很多的不足之處,主要表現(xiàn)在計(jì)算機(jī)應(yīng)用水平較低,無法提出決策支持需求,所以很多企業(yè)無法馬上實(shí)施數(shù)據(jù)倉庫。
但相信隨著相關(guān)計(jì)算機(jī)技術(shù)的進(jìn)步,數(shù)據(jù)倉庫技術(shù)也一定能得到不斷的發(fā)展,為企業(yè)在商業(yè)競爭中提供更好的幫助。
參考文獻(xiàn):
[1] w.H.Inmon.?dāng)?shù)據(jù)倉庫管理[M].北京:機(jī)械工業(yè)出版社,1999,8-9.
[2] 鐘愛軍,宋麒.基于數(shù)據(jù)倉庫的醫(yī)院決策支持系統(tǒng)的構(gòu)建.數(shù)理醫(yī)藥學(xué)雜志,2007,13-19.
篇2
信息技術(shù)的不斷推廣應(yīng)用,將企業(yè)帶入一個(gè)信息爆炸的時(shí)代。每時(shí)每刻都有潮水般的信息出現(xiàn)在管理者的面前,等待管理者去處理、去使用。這些管理信息的處理類型主要分事務(wù)型(操作型)處理和信息型(分析型)處理兩大類。事務(wù)型處理也就是通常所說的業(yè)務(wù)操作處理。這種操作處理主要是對管理信息進(jìn)行日常的操作,對信息進(jìn)行查詢和修改等,目的是滿足組織特定的日常管理需要。在這類處理中,管理者關(guān)心的是信息能否得到快速的處理,信息的安全性能否得到保證,信息的完整性是否遭到破壞。信息型處理則是指對信息做進(jìn)一步的分析,為管理人員的決策提供支持。
1.1 數(shù)據(jù)倉庫的定義
業(yè)界公認(rèn)的數(shù)據(jù)倉庫概念創(chuàng)始人W.H.Inmon在《數(shù)據(jù)倉庫》(Building the Data Warehouse)一書中對數(shù)據(jù)倉庫的定義是:數(shù)據(jù)倉庫就是面向主題的、集成的、不可更新的(穩(wěn)定性)、隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定。
數(shù)據(jù)倉庫是將原始的操作數(shù)據(jù)進(jìn)行各種處理并轉(zhuǎn)換成綜合信息,提供功能強(qiáng)大的分析工具對這些信息進(jìn)行多方位的分析以幫助企業(yè)領(lǐng)導(dǎo)做出更符合業(yè)務(wù)發(fā)展規(guī)律的決策。因此,在很多場合,決策支持系統(tǒng)也成了數(shù)據(jù)倉庫的代名詞。建立數(shù)據(jù)倉庫的目的是把企業(yè)的內(nèi)部數(shù)據(jù)和外部數(shù)據(jù)進(jìn)行有效的集成,為企業(yè)的各層決策和分析人員使用。
1.2 數(shù)據(jù)倉庫的特點(diǎn)
從W.H.Inmon關(guān)于數(shù)據(jù)倉庫的定義中可以分析出數(shù)據(jù)倉庫具有這樣一些重要的以下特性。
1.2.1 面向主題性
面向主題性表示了數(shù)據(jù)倉庫中數(shù)據(jù)組織的基本原則,數(shù)據(jù)倉庫中的所有數(shù)據(jù)都是圍繞著某一主題組織展開的。由于數(shù)據(jù)倉庫的用戶大多是企業(yè)的管理決策者,這些人所面對的往往是一些比較抽象的、層次較高的管理分析對象。
1.2.2 集成性
所謂集成性是指在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫之前,必須經(jīng)過數(shù)據(jù)加工和集成,這是建立數(shù)據(jù)倉庫的關(guān)鍵步驟。
1.2.3 時(shí)變性
所謂時(shí)變性是指數(shù)據(jù)倉庫中的信息并不只是關(guān)于企業(yè)當(dāng)時(shí)或某一時(shí)點(diǎn)的信息,而是系統(tǒng)地記錄了企業(yè)從過去某一時(shí)點(diǎn)到目前的數(shù)據(jù),主要用于進(jìn)行時(shí)間趨勢分析。
1.2.4 非易失性
數(shù)據(jù)倉庫總是物理地分離存放數(shù)據(jù),這些數(shù)據(jù)源于操作環(huán)境下的應(yīng)用數(shù)據(jù)。
1.3 數(shù)據(jù)倉庫的技術(shù)體系結(jié)構(gòu)
一個(gè)數(shù)據(jù)倉庫系統(tǒng)的技術(shù)體系結(jié)構(gòu)總體來說包括后臺數(shù)據(jù)預(yù)處理,數(shù)據(jù)倉庫,數(shù)據(jù)管理和數(shù)據(jù)倉庫的前臺查詢服務(wù)三大部分。
數(shù)據(jù)倉庫中的數(shù)據(jù)來自企業(yè)內(nèi)部不同的業(yè)務(wù)系統(tǒng)甚至企業(yè)外部的商業(yè)數(shù)據(jù)庫,這些數(shù)據(jù)庫對于數(shù)據(jù)倉庫來說被稱為數(shù)據(jù)源。數(shù)據(jù)源中的數(shù)據(jù)在數(shù)據(jù)的組織方式、數(shù)據(jù)格式等許多方面與數(shù)據(jù)倉庫對數(shù)據(jù)的要求有很大的差別,因此這些數(shù)據(jù)不可能直接載入數(shù)據(jù)倉庫的數(shù)據(jù)庫中,為此必須進(jìn)行數(shù)據(jù)的預(yù)處理操作。數(shù)據(jù)的預(yù)處理包括數(shù)據(jù)源的定義、從數(shù)據(jù)源提取數(shù)據(jù)到預(yù)處理數(shù)據(jù)區(qū)(數(shù)據(jù)準(zhǔn)備區(qū))、在數(shù)據(jù)準(zhǔn)備區(qū)中對數(shù)據(jù)進(jìn)行凈化處理、作必要的轉(zhuǎn)換、再將數(shù)據(jù)加載到數(shù)據(jù)倉庫,等等。實(shí)現(xiàn)這部分功能的是數(shù)據(jù)倉庫的后臺數(shù)據(jù)預(yù)處理部分。
數(shù)據(jù)倉庫的應(yīng)用服務(wù)部分提供了各種應(yīng)用工具,使用這些工具可以對數(shù)據(jù)倉庫中的數(shù)據(jù)進(jìn)行復(fù)雜的查詢分析和知識挖掘等等。沒有一種工具可以滿足所有的應(yīng)用需求。可選擇的工具大致分為:數(shù)據(jù)挖掘工具:數(shù)據(jù)挖掘是基于人工智能來分析數(shù)據(jù)的一種技術(shù),通過對數(shù)據(jù)倉庫中數(shù)據(jù)的分析去發(fā)現(xiàn)一些用戶可能沒有想到的模式和數(shù)據(jù)關(guān)系。特別查詢工具:特別查詢提供了一種能力,使得分析人員可以提交一些特別的問題,并產(chǎn)生相應(yīng)的結(jié)果。在線分析處理(OLAP,On-Line Analytical Processing):在線分析處理以數(shù)據(jù)立方體或多維的方式來查看數(shù)據(jù),允許用戶進(jìn)行鉆取以獲得更詳細(xì)或更概括的數(shù)據(jù),或者對不同的“維”如時(shí)間、商品等進(jìn)行切片操作。OLAP工具可用于對商業(yè)問題進(jìn)行分析,是最常用的輔助決策工具。
2、數(shù)據(jù)挖掘
2.1 數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘是指從大量的數(shù)據(jù)中提取有用的信息和知識的過程。所發(fā)現(xiàn)的信息和知識是潛在的并隱藏在大量數(shù)據(jù)背后的,是用戶感興趣的、可理解、可運(yùn)用的知識。所以,數(shù)據(jù)挖掘有時(shí)也被人們稱為知識挖掘、知識提取、知識發(fā)現(xiàn)等。
數(shù)據(jù)挖掘也可視為是一類深層次的新型數(shù)據(jù)分析方法,它與傳統(tǒng)的數(shù)據(jù)分析的本質(zhì)區(qū)別在于:數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識,所得到的信息通常是預(yù)先未知的、也是很難預(yù)料到的,甚至與人的直覺是相背的,但又是非常有用的;而傳統(tǒng)的數(shù)據(jù)分析得到的信息則是浮在表面的、人的直覺能夠感受到的、或與人的直覺較為相近的。
2.2 數(shù)據(jù)挖掘的過程
數(shù)據(jù)挖掘過程,可以概括為數(shù)據(jù)準(zhǔn)備、數(shù)據(jù)挖掘及結(jié)果的解釋和評價(jià)三部分。
2.2.1 數(shù)據(jù)準(zhǔn)備
數(shù)據(jù)準(zhǔn)備一般包括三個(gè)子步驟:數(shù)據(jù)集成、數(shù)據(jù)選擇、數(shù)據(jù)預(yù)處理。數(shù)據(jù)集成將多文件或多數(shù)據(jù)庫運(yùn)行環(huán)境中的數(shù)據(jù)進(jìn)行合并處理,解決語義模糊性、處理數(shù)據(jù)中的遺漏和清洗“臟數(shù)據(jù)”等。數(shù)據(jù)選擇的目的是辨別出需要分析的數(shù)據(jù)集合,即目標(biāo)數(shù)據(jù)(Target Data),是以用戶需求驅(qū)動(dòng)的從原始數(shù)據(jù)庫中抽取的一組數(shù)據(jù),它使處理范圍縮小,提高數(shù)據(jù)挖掘的質(zhì)量。數(shù)據(jù)預(yù)處理一般包括消除噪聲、推導(dǎo)計(jì)算缺值數(shù)據(jù)、消除重復(fù)記錄、完成數(shù)據(jù)類型轉(zhuǎn)換,預(yù)處理目的是為了克服目前數(shù)據(jù)挖掘工具的局限性。
2.2.2 數(shù)據(jù)挖掘
數(shù)據(jù)挖掘階段首先要決定挖掘的任務(wù)或目標(biāo),確定了任務(wù)或目標(biāo)之后我們才能決定使用什么樣的挖掘方法。確定挖掘任務(wù)后選擇合適的算法,可進(jìn)行數(shù)據(jù)挖掘操作,獲取相應(yīng)的模式。
2.2.3 結(jié)果的解釋和評價(jià)
經(jīng)過數(shù)據(jù)挖掘階段后,獲得了一些模式結(jié)果,但通常存在冗余或無關(guān)的模式。有可能這些模式不滿足用戶要求,這時(shí)則需退回到發(fā)現(xiàn)過程的前面階段,可能需要獲取新的數(shù)據(jù),采用新的數(shù)據(jù)預(yù)處理方法,換一種挖掘方法等等。
2.3 數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù)主要分為:關(guān)聯(lián)分析、時(shí)序模式、聚類、分類、偏差檢測和預(yù)測等。
2.3.1 關(guān)聯(lián)分析
關(guān)聯(lián)分析用來發(fā)現(xiàn)關(guān)聯(lián)規(guī)則。它是從數(shù)據(jù)庫中發(fā)現(xiàn)知識的一類重要方法。關(guān)聯(lián)分析廣泛用于購物籃或事務(wù)數(shù)據(jù)分析。
2.3.2 時(shí)序模式
時(shí)間序列模式是用變量過去的值來預(yù)測未來的值。比如可以用前六天的數(shù)據(jù)來預(yù)測第七天的值,這樣就建立了一個(gè)區(qū)間大小為7的窗口。
2.3.3 聚類
聚類是把整個(gè)數(shù)據(jù)庫分成不同的組群。它的目的是使得群與群之間差別很明顯,而同一個(gè)群內(nèi)的數(shù)據(jù)盡量相似。劃分出來的組群具有一定的意義,我們稱為類。在同一類別中,個(gè)體之間的距離較小,而不同類別的個(gè)體之間的距離較大。
2.3.4 分類
數(shù)據(jù)挖掘應(yīng)用最多的任務(wù)要屬分類。分類找出描述并區(qū)分?jǐn)?shù)據(jù)類或概念的模型,以便能夠使用模型預(yù)測類標(biāo)記未知的對象類。該模式能把數(shù)據(jù)庫中的元組映射到給定類別中的某一個(gè)。
2.3.5 偏差檢測
所謂偏差檢測就是在數(shù)據(jù)分析中發(fā)現(xiàn)有很多異常情況存在于數(shù)據(jù)庫中,我們根據(jù)這種異常情況可以獲得很多有用的信息
2.3.6 預(yù)測
預(yù)測可以利用歷史數(shù)據(jù)或數(shù)據(jù)分布依據(jù)一定的模型計(jì)算出數(shù)值數(shù)據(jù)或識別出未來分布趨勢等。
2.4 數(shù)據(jù)挖掘面臨的主要問題及對策
2.4.1 數(shù)據(jù)挖掘面臨的主要問題
數(shù)據(jù)挖掘在不斷的實(shí)際應(yīng)用中,正不斷地吸取各種領(lǐng)域的經(jīng)驗(yàn)而逐漸成熟。從目前的情況來看,在運(yùn)用現(xiàn)代數(shù)據(jù)挖掘技術(shù)時(shí)還需要注意一些問題,如數(shù)據(jù)挖掘任務(wù)、數(shù)據(jù)挖掘方法、用戶交互、挖掘性能和數(shù)據(jù)類型多樣性等問題。
2.4.2 主要對策
針對數(shù)據(jù)挖掘現(xiàn)在面臨的主要問題,所應(yīng)用的對策有以下一些:(1)與數(shù)據(jù)倉庫技術(shù)結(jié)合。數(shù)據(jù)倉庫可以為數(shù)據(jù)挖掘提供經(jīng)過清洗的和轉(zhuǎn)換的、完整的數(shù)據(jù)資源。(2)挖掘多種類型的知識。數(shù)據(jù)挖掘除了最常見的關(guān)聯(lián)與分類之外,還有許多重要的任務(wù)待進(jìn)一步的開發(fā),包括聚合、預(yù)測模型以及時(shí)間相關(guān)分析等等。(3)發(fā)現(xiàn)語言的形式化描述,即研究專門用于知識發(fā)現(xiàn)的數(shù)據(jù)挖掘語言,如SQL語言一樣的形式化和標(biāo)準(zhǔn)化。(4)可視化數(shù)據(jù)挖掘。尋求數(shù)據(jù)挖掘過程中的可視化方法,使知識發(fā)現(xiàn)的過程便于用戶的理解,也便于在知識發(fā)現(xiàn)的過程中進(jìn)行人機(jī)交互。(5)高效的數(shù)據(jù)挖掘。高效性和可伸縮性是目前數(shù)據(jù)挖掘算法的焦點(diǎn)之一,隨著并行的、分布式的以及增長式的數(shù)據(jù)挖掘技術(shù)的研究與發(fā)展,這種趨勢將會(huì)繼續(xù)得到進(jìn)一步的發(fā)展。(6)數(shù)據(jù)挖掘的應(yīng)用。更加廣泛的將數(shù)據(jù)挖掘技術(shù)應(yīng)用于現(xiàn)實(shí)世界也是一個(gè)非常重要的研究方向。
3、數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的關(guān)系
3.1 數(shù)據(jù)挖掘是數(shù)據(jù)倉庫發(fā)展的必然結(jié)果
隨著大量數(shù)據(jù)被收集,從原始數(shù)據(jù)中得到有價(jià)值的決策信息越來越困難,于是新的數(shù)據(jù)庫的體系結(jié)構(gòu)產(chǎn)生了,即出現(xiàn)了數(shù)據(jù)倉庫。數(shù)據(jù)倉庫中存放的是從原始數(shù)據(jù)中經(jīng)過計(jì)算和統(tǒng)計(jì)后得到的滿足決策者需要的數(shù)據(jù),這種數(shù)據(jù)也被稱為是信息型或分析型數(shù)據(jù)。聯(lián)機(jī)分析處理工具是基于數(shù)據(jù)倉庫的信息分析處理過程,具有匯總、合并和聚集功能,以及從不同的角度觀察信息的能力,但對于深層次的分析,如數(shù)據(jù)分類、聚類和數(shù)據(jù)隨時(shí)間變化的特性,仍然需要其他分析工具。數(shù)據(jù)挖掘可以看作是聯(lián)機(jī)分析處理的高級階段。
3.2 數(shù)據(jù)倉庫為數(shù)據(jù)挖掘提供應(yīng)用基礎(chǔ)
從數(shù)據(jù)挖掘的定義可以看出,數(shù)據(jù)挖掘包含一系列旨在從數(shù)據(jù)庫中發(fā)現(xiàn)有用而未發(fā)現(xiàn)的模式的技術(shù),如果將其與數(shù)據(jù)倉庫緊密聯(lián)系在一起,將獲得意外的成功。
4、結(jié)語
本章主要介紹了數(shù)據(jù)倉庫的概念、特點(diǎn)和體系結(jié)構(gòu),以及數(shù)據(jù)挖掘的概念、數(shù)據(jù)挖掘的過程和數(shù)據(jù)挖掘的技術(shù),和數(shù)據(jù)挖掘面臨的主要問題及對策,最后分析了數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的關(guān)系。為數(shù)據(jù)挖掘與數(shù)據(jù)倉庫的實(shí)際運(yùn)用打下堅(jiān)實(shí)的理論基礎(chǔ)。
參考文獻(xiàn)
[1]吳慶慧.在金融數(shù)據(jù)庫營銷中的一種數(shù)據(jù)挖掘與決策分析的方法.中國科學(xué)技術(shù)大學(xué)學(xué)報(bào),2009,39(2):208~214.
[2]高祥濤.數(shù)據(jù)挖掘在水文相似年查找中的應(yīng)用研究.計(jì)算機(jī)工程與應(yīng)用,2009,45(5):243~245.
篇3
(1)本單位的基本情況,包括本單位組織結(jié)構(gòu)、人員構(gòu)成、經(jīng)營業(yè)務(wù)范圍規(guī)模、科研生產(chǎn)經(jīng)營管理情況,單位在行業(yè)中的地位、優(yōu)勢、特色,以及取得的各種榮譽(yù)和獎(jiǎng)勵(lì)等。(2)本單位目前執(zhí)行的各種法規(guī)制度和內(nèi)控制度。(3)歷年財(cái)務(wù)數(shù)據(jù),包括會(huì)計(jì)科目余額匯總表、明細(xì)科目、全年每張憑證的明細(xì)內(nèi)容;還可能包括基建賬目的會(huì)計(jì)科目余額匯總表和序時(shí)賬,以及固定資產(chǎn)計(jì)提折舊、大修理基金的匯總表,分?jǐn)偟礁鱾€(gè)科研項(xiàng)目設(shè)備費(fèi)的分?jǐn)偯骷?xì)數(shù)據(jù)和分?jǐn)傄罁?jù)說明;每年的管理費(fèi)用分?jǐn)偙砑捌涿骷?xì)表,以及對分?jǐn)傄罁?jù)進(jìn)行說明,等等。(4)被審計(jì)項(xiàng)目的文件資料。(5)有關(guān)基礎(chǔ)數(shù)據(jù)。如固定資產(chǎn)增減變動(dòng)情況表、原材料出入庫匯總表和入庫單、領(lǐng)料單明細(xì)表、固定資產(chǎn)采購合同、進(jìn)口設(shè)備結(jié)算單、施工合同、施工圖、工程預(yù)結(jié)算書、設(shè)計(jì)變更、工程洽商及現(xiàn)場鑒證資料、單項(xiàng)工程質(zhì)量評定材料、竣工驗(yàn)收文件,中介機(jī)構(gòu)提供的工程結(jié)算審核報(bào)告、客戶名錄、招投標(biāo)數(shù)據(jù)庫、各類合同,等等。(6)接受外部檢查的資料。如審計(jì)報(bào)告、審計(jì)意見書和專項(xiàng)審核報(bào)告等以及稅務(wù)、財(cái)政、社保、環(huán)保、消防安全機(jī)構(gòu)、質(zhì)量體系、集團(tuán)公司等對單位各項(xiàng)檢查結(jié)果檢查的結(jié)論性意見。(7)內(nèi)部審計(jì)的資料。(8)所屬子公司和附屬單位的數(shù)據(jù)資料??傊?,滿足審計(jì)需要的數(shù)據(jù),眾多且龐雜。
二、建立和管理審計(jì)數(shù)據(jù)倉庫
數(shù)據(jù)倉庫的建設(shè)是以現(xiàn)有業(yè)務(wù)系統(tǒng)的積累為基礎(chǔ)。數(shù)據(jù)倉庫建設(shè)是一個(gè)工程,是一個(gè)過程。數(shù)據(jù)倉庫建立不是一蹴而就的,一成不變的,需要平時(shí)不斷地收集和整理。根據(jù)數(shù)據(jù)倉庫的特點(diǎn),數(shù)據(jù)內(nèi)容是歷史的、存檔的、歸納的、計(jì)算的數(shù)據(jù)。在管理中需要注意以下幾點(diǎn):1.傳統(tǒng)操作型數(shù)據(jù)庫中的數(shù)據(jù)要抽取、凈化和轉(zhuǎn)換成“干凈”數(shù)據(jù)后才能進(jìn)入數(shù)據(jù)倉庫。源數(shù)據(jù)可能有很多與審計(jì)無關(guān)的信息,經(jīng)過凈化和轉(zhuǎn)換的數(shù)據(jù)才是審計(jì)有用的數(shù)據(jù)。2.數(shù)據(jù)倉庫的數(shù)據(jù)特性是歷史的、靜態(tài)的、定時(shí)添加的,數(shù)據(jù)倉庫內(nèi)已經(jīng)存在的數(shù)據(jù)不會(huì)改變,要定期持續(xù)對有關(guān)內(nèi)容進(jìn)行維護(hù),產(chǎn)生的新數(shù)據(jù)要及時(shí)添加補(bǔ)充,單位若有新的規(guī)章制度也需添加進(jìn)去。3.數(shù)據(jù)倉庫里的數(shù)據(jù)和資料,一般可按年度來建立,跨年度的被審計(jì)項(xiàng)目數(shù)據(jù)就可以方便地從各個(gè)年度數(shù)據(jù)倉庫中提取。4.數(shù)據(jù)倉庫里的數(shù)據(jù)是有時(shí)效性的,而被審計(jì)項(xiàng)目往往跨越幾個(gè)年度,不同時(shí)期所遵循實(shí)施的標(biāo)準(zhǔn)和管理規(guī)定也不盡相同。在數(shù)據(jù)倉庫中要合理劃分不同時(shí)間區(qū)段。5.遇審計(jì)項(xiàng)目內(nèi)容的,只提供給有保密資質(zhì)的外審人員,并簽署保密協(xié)議;若外部審計(jì)單位沒有審計(jì)資質(zhì),則需要?jiǎng)h除數(shù)據(jù)倉庫中的信息后轉(zhuǎn)化為非密版本,即可按和非準(zhǔn)備兩套版本,根據(jù)不同需要提供不同的版本。6.建立數(shù)據(jù)倉庫需要各個(gè)部門的大力溝通配合共同建設(shè)。建立數(shù)據(jù)倉庫之后,審計(jì)部門將所有收集來的審計(jì)相關(guān)信息存放在一個(gè)唯一的地方——數(shù)據(jù)倉庫。倉庫中的數(shù)據(jù)按照一定的方式組織,從而使得審計(jì)信息容易存取并且有使用價(jià)值,從而大大提高審計(jì)效率。
三、數(shù)據(jù)分析應(yīng)用于數(shù)據(jù)倉庫
篇4
數(shù)據(jù)倉庫十多年前開始出現(xiàn)在企業(yè)中,其承諾相當(dāng)誘人:將關(guān)鍵數(shù)據(jù)集中在容易發(fā)現(xiàn)的統(tǒng)一站點(diǎn),這樣所有的商業(yè)人士就可根據(jù)具體的事實(shí)分析作出決策,而不是在信息不充分的條件下憑直覺作出決策?,F(xiàn)在,數(shù)據(jù)倉庫仍是實(shí)力雄厚的公司的奢侈品,這些公司具有足夠的資金、員工以及耐心來購買、安裝和維護(hù)數(shù)據(jù)倉庫。
而開源,這種破壞性的力量完全顛覆了數(shù)據(jù)倉庫和其它許多市場。開源交付的特許軟件成本很低或者根本無需成本,即使對再小的公司也開放性能;而且對網(wǎng)絡(luò)社區(qū)開放代碼和功能,只要社區(qū)能保證解決方案切實(shí)滿足主要標(biāo)準(zhǔn),解決方案在部署時(shí)變得更加直接、靈活,不再花里胡哨。
數(shù)據(jù)倉庫的開源方案
現(xiàn)在,開源的革命已經(jīng)滲入數(shù)據(jù)倉庫領(lǐng)域。不僅有工具和技術(shù)可在實(shí)施數(shù)據(jù)倉庫時(shí)構(gòu)建模塊,同時(shí)數(shù)據(jù)倉庫本身也已成為開源。下面是支持?jǐn)?shù)據(jù)倉庫的開源方案。
第一,數(shù)據(jù)庫系統(tǒng)。成功部署數(shù)據(jù)倉庫時(shí),開源構(gòu)建模塊(building blocks)的數(shù)量取得了巨大增長,這表明采用開源數(shù)據(jù)倉庫的時(shí)機(jī)已經(jīng)成熟。例如,Gartner公司的報(bào)告指出:近幾年,開源FIRMS引擎已顯著增長。Gartner還發(fā)現(xiàn),47%的受調(diào)查公司已經(jīng)采用開源數(shù)據(jù)倉庫,19%的公司正考慮在12個(gè)月內(nèi)采用開源數(shù)據(jù)倉庫。
在許多情況下,開源數(shù)據(jù)倉庫正得到廣泛采用的市場正是大型數(shù)據(jù)庫供應(yīng)商長期忽略的市場。但是,如果公司以活躍的商業(yè)數(shù)據(jù)庫實(shí)施項(xiàng)目為主導(dǎo),那么公司內(nèi)部也會(huì)存在開源數(shù)據(jù)倉庫。一項(xiàng)針對獨(dú)立Oracle用戶組(IOUG)226個(gè)成員的研究表明,超過三分之一(35%)的站點(diǎn)也擁有開源數(shù)據(jù)庫,如運(yùn)行MySQL。
第二,ETL工具。與開源數(shù)據(jù)庫同時(shí)出現(xiàn)的還有ETL、開源分析/商業(yè)智能工具,這些工具在企業(yè)中逐步得到應(yīng)用。Gartner估計(jì),大約11%的受調(diào)查公司正在使用開源ETL工具,16%的公司正考慮在未來幾個(gè)月內(nèi)采用這類工具。開源ETL工具包括Pentaho公司的KETL、Talend、Clover.ETL以及Octopus等。
第三,商業(yè)智能。在商業(yè)智能和分析工具領(lǐng)域,Gartner指出,9%的受調(diào)查公司已經(jīng)采用開源BI解決方案,18%的公司正考慮在未來12個(gè)月內(nèi)采用開源方案。目前,市場中存在許多開源BI或分析程序,以Pentaho和JasperSoft等供應(yīng)商為主導(dǎo)。同時(shí),Ventana Research對500家公司的調(diào)查結(jié)果證實(shí):BI受到廣泛關(guān)注,并且這種趨勢在繼續(xù)增長;對開源商業(yè)智能感興趣的公司中有21%已部署開源程序。顯然,仍有許多公司聲稱他們未來沒有此類項(xiàng)目,因?yàn)樗麄儾粫?huì)考慮開源商業(yè)智能。
使用如此廣泛、客戶如此滿意,并且擁有開源數(shù)據(jù)庫和開源分析工具,開源數(shù)據(jù)倉庫在此時(shí)興起也就不足為奇了。之前,供應(yīng)商根據(jù)開源數(shù)據(jù)庫(如MysQL、PostgreSQL和Ingres)生產(chǎn)數(shù)據(jù)倉庫專有產(chǎn)品,現(xiàn)在,供應(yīng)商開始引入全面的開源數(shù)據(jù)倉庫解決方案及其伴隨社區(qū)。
最近的產(chǎn)品ICE(Infobright Communicy Edition)及其在的伴隨社區(qū)就是一個(gè)很好的例子。論壇帖子表明社區(qū)用戶在不斷增加,其中一些用戶對數(shù)據(jù)庫非常了解,但是對數(shù)據(jù)倉庫相對陌生。MySQL擴(kuò)展了數(shù)據(jù)庫市場,ICE等開源產(chǎn)品亦如此,因?yàn)閿?shù)據(jù)卷快速增長,分析需求也不斷增加。
開源數(shù)據(jù)倉庫的優(yōu)勢
開源數(shù)據(jù)倉庫可以解決當(dāng)前諸多問題,而且足跡較少、運(yùn)作的管理資源較少。開源模型運(yùn)用到數(shù)據(jù)倉庫的優(yōu)勢為:
第一,開源數(shù)據(jù)倉庫在前期耗費(fèi)較少,維護(hù)和支持費(fèi)也較少。目前,市場中的開源軟件產(chǎn)品通常比相應(yīng)的特許產(chǎn)品更加便宜。另外,開發(fā)人員和IT管理人員可以下載開源產(chǎn)品的源代碼,也可以定制產(chǎn)品或修改產(chǎn)品,從而進(jìn)一步簡化操作。
第二,開源數(shù)據(jù)倉庫采用的技術(shù)很容易在市場中獲得。因此,公司如果具備現(xiàn)有數(shù)據(jù)庫或數(shù)據(jù)倉庫的專業(yè)知識,在實(shí)施新的開源數(shù)據(jù)庫工程時(shí),就不必進(jìn)一步研究。
第三,開源數(shù)據(jù)倉庫大大促進(jìn)了標(biāo)準(zhǔn)化。開源代碼透明、支持社區(qū),因此,一些重要的標(biāo)準(zhǔn)就可獲得各種版本和實(shí)施方式的一致性支持。專有形式不能也不會(huì)在這些設(shè)置中獲得支持。
第四,開源數(shù)據(jù)倉庫相當(dāng)靈活。開源許可方式使得企業(yè)能夠?qū)⒔鉀Q方案擴(kuò)展給無數(shù)用戶,而不像專有軟件包那樣:按用戶或處理器收取費(fèi)用。公司只需花費(fèi)很少甚至無需花費(fèi)就可添加用戶或者擴(kuò)展工程。另外,終端用戶公司不必?fù)?dān)心被某個(gè)供應(yīng)商的強(qiáng)制升級路徑鎖定,相反可以選擇系統(tǒng)的新版本。
第五,開源數(shù)據(jù)倉庫能從網(wǎng)絡(luò)社區(qū)效應(yīng)中獲利。開源解決方案利用開發(fā)人員和創(chuàng)新人員的社區(qū)促進(jìn)發(fā)展。將新代碼和新特性貢獻(xiàn)給社區(qū),不斷為終端用戶提供各種可用的新方案。網(wǎng)絡(luò)社區(qū)的方法也可應(yīng)用到數(shù)據(jù)倉庫――開創(chuàng)新領(lǐng)域,將能很好地適應(yīng)環(huán)境,因?yàn)橛性S多系統(tǒng)和數(shù)據(jù)種類需要集成到數(shù)據(jù)倉庫中。單個(gè)供應(yīng)商提供的解決方案很難解決所有的集成問題。另外,公司可以依靠社區(qū)快速修復(fù)bug或安全缺陷,通常只需花費(fèi)幾天時(shí)間,而不必等待幾個(gè)星期甚至幾個(gè)月,直到供應(yīng)商再次提供安全補(bǔ)丁或服務(wù)補(bǔ)丁。
第六,開源數(shù)據(jù)倉庫可以逐步實(shí)施。對于一項(xiàng)大型工程,切忌好大喜功。數(shù)據(jù)管理人員即使需要實(shí)施全新功能,也不必向預(yù)算委員會(huì)尋求資金支付公司昨天所需的性能。工程可以從小做起,在成功實(shí)施的基礎(chǔ)上逐步完成。這也可以緩解“承諾過多”的問題――在確定數(shù)據(jù)倉庫項(xiàng)目的最佳資金時(shí),“承諾過多”是不得已而為之。開源數(shù)據(jù)倉庫無需大量啟動(dòng)資金,而是首先瞄準(zhǔn)最迫切的商業(yè)問題,隨著收效增長而增加資金人投入。
實(shí)施開源數(shù)據(jù)倉庫的建議
如果中小企業(yè)需要管理和觀察大型數(shù)據(jù)卷,但是缺乏實(shí)施和支持大型專有數(shù)據(jù)庫所需的資金或資源,那么開源數(shù)據(jù)倉庫就非常合適。另外,開源數(shù)據(jù)倉庫提供專門針對大型企業(yè)的某些部門或業(yè)務(wù)單元的解決方案,一旦產(chǎn)生商業(yè)問題,就可快速解決可以部署的解決方案。以下建議可以幫你最大程度地實(shí)施開源數(shù)據(jù)倉庫。
第一,開源和專有數(shù)據(jù)倉庫需要共存。開源數(shù)據(jù)倉庫將會(huì)增加,但是不會(huì)取代專有數(shù)據(jù)倉庫。如前所述,調(diào)查中有超過三分之一的Oracle的公司采用MysQL等開源數(shù)據(jù)庫。通常,這些數(shù)據(jù)倉庫能夠很好地滿足策略需求,補(bǔ)充許多專有數(shù)據(jù)庫無法快速或有效滿足的新需求。
第二,尋找產(chǎn)品背后大型的活躍社區(qū)。不管是開源數(shù)據(jù)倉庫還是專有數(shù)據(jù)倉庫,都是非常復(fù)雜的工程,因?yàn)樾枰婕捌髽I(yè)中所有的數(shù)據(jù)。充分互動(dòng)的社區(qū)是必不可少的資料來源。
第三,終端用戶應(yīng)該無法見到開源數(shù)據(jù)倉庫。操作型數(shù)據(jù)倉庫的數(shù)據(jù)與生產(chǎn)數(shù)據(jù)密切相關(guān),是市場中增長最快的數(shù)據(jù)倉庫。數(shù)據(jù)倉庫的數(shù)據(jù)需要與前端用戶實(shí)時(shí)合作,但是幾乎無需終端用戶的輸入。在許多情況下,這些“普遍的BI”用戶沒有技術(shù)背景,操作應(yīng)該盡可能簡單。相比之下,數(shù)據(jù)倉庫的主要使用人員――分析人員或“超級用戶”――在過去擅長構(gòu)建大量的查詢方式。開源數(shù)據(jù)倉庫應(yīng)該只需少量調(diào)整,就能支持普遍的BI用戶。
第四,開源數(shù)據(jù)倉庫應(yīng)該一如既往地支持開源標(biāo)準(zhǔn)。之前市場中的“開源”數(shù)據(jù)倉庫都是根據(jù)開源數(shù)據(jù)庫,開發(fā)專有接口,與開源的本意背道而馳。開源數(shù)據(jù)倉庫應(yīng)該與相關(guān)的開源環(huán)境兼容。
第五,尋找快速的部署方式和簡便的使用方法。尋找這樣的開源數(shù)據(jù)倉庫工具和平臺:具有數(shù)據(jù)壓縮功能,擁有較少的硬件和軟件足跡,只需較少的服務(wù)器和存儲空間就可支持TB級的數(shù)據(jù)。否則,維護(hù)費(fèi)用可能上升到專有數(shù)據(jù)倉庫的水平。
篇5
關(guān)鍵詞:地理信息系統(tǒng);空間數(shù)據(jù)倉庫;數(shù)據(jù)倉庫;認(rèn)知過程
0引言
進(jìn)入21世紀(jì)后,對空間數(shù)據(jù)倉庫的研究方興未艾,在許多次的國際學(xué)術(shù)會(huì)議上都有相關(guān)[1~3]。例如在泰國召開的ISPRS第三屆動(dòng)態(tài)與多維GIS會(huì)議暨CPGIS第十屆地理信息年會(huì)、北京召開的第20屆國際制圖協(xié)會(huì)國際學(xué)術(shù)會(huì)議、南非召開的第21屆國際制圖協(xié)會(huì)國際學(xué)術(shù)會(huì)議等。還有一些ESRI公司的白皮書、全球性用戶大會(huì)、SSD國際會(huì)議、數(shù)字地球國際會(huì)議、GIS國際會(huì)議等也開始討論空間數(shù)據(jù)倉庫問題[4~8]。將空間數(shù)據(jù)倉庫技術(shù)引入到我國大概是20世紀(jì)90年代末,文獻(xiàn)[9~14]的發(fā)表開創(chuàng)了我國空間數(shù)據(jù)倉庫理論與技術(shù)研究的新局面,此后又陸續(xù)出現(xiàn)了一些這方面的論文。
總體說來,上述工作對空間數(shù)據(jù)倉庫的理論和方法進(jìn)行了初步研究,在概念、原理、結(jié)構(gòu)、操作與算法等方面進(jìn)行了初步論述,已取得了卓有成效的成績。但是到目前為止,空間數(shù)據(jù)倉庫的概念框架和認(rèn)知過程等方面還是缺乏系統(tǒng)的論述,沒有形成一套比較完整的空間數(shù)據(jù)倉庫概念框架體系和認(rèn)知過程體系。
1概念框架
空間數(shù)據(jù)倉庫是GIS技術(shù)和數(shù)據(jù)倉庫技術(shù)相結(jié)合的產(chǎn)物,其定義很多,但中心思想包含三方面內(nèi)容:①空間數(shù)據(jù)倉庫是在網(wǎng)絡(luò)環(huán)境下,實(shí)現(xiàn)對異地、異質(zhì)、異構(gòu)不同源數(shù)據(jù)庫中地理空間數(shù)據(jù)、專題數(shù)據(jù)及時(shí)間數(shù)據(jù)的統(tǒng)一、整合、集成處理,形成用戶獲取數(shù)據(jù)的共享操作模式;②空間數(shù)據(jù)倉庫可根據(jù)需求對這些數(shù)據(jù)再進(jìn)行測繪專業(yè)處理,提供多種空間數(shù)據(jù)產(chǎn)品,滿足用戶更高層次——對數(shù)據(jù)產(chǎn)品的需求;③基于空間數(shù)據(jù)產(chǎn)品,空間數(shù)據(jù)倉庫可從多維的角度進(jìn)行空間數(shù)據(jù)立方體分析和空間數(shù)據(jù)挖掘分析,提供綜合的、多維的、面向分析的空間輔助決策支持信息,滿足用戶空間決策分析的需求。
空間數(shù)據(jù)倉庫的概念框架分為外部結(jié)構(gòu)、內(nèi)部結(jié)構(gòu)。外部結(jié)構(gòu)主要描述空間數(shù)據(jù)倉庫與外部系統(tǒng)的關(guān)系;內(nèi)部結(jié)構(gòu)主要描述空間數(shù)據(jù)倉庫的內(nèi)部功能模塊組成。
1.1外部結(jié)構(gòu)
數(shù)據(jù)庫系統(tǒng)處于空間數(shù)據(jù)倉庫系統(tǒng)的最底層,管理著若干種不同的地理空間數(shù)據(jù)庫和專題數(shù)據(jù)庫,它們各自獨(dú)立,形成了各式各樣的異地異質(zhì)異構(gòu)的數(shù)據(jù)庫系統(tǒng),它們主要為空間數(shù)據(jù)倉庫提供數(shù)據(jù)源。應(yīng)用系統(tǒng)處于空間數(shù)據(jù)倉庫系統(tǒng)的最上層,它通過一個(gè)標(biāo)準(zhǔn)的接口從空間數(shù)據(jù)倉庫中提取地理空間數(shù)據(jù)、空間數(shù)據(jù)產(chǎn)品和空間輔助決策分析信息,為應(yīng)用系統(tǒng)服務(wù)。其具體外部結(jié)構(gòu)如圖1所示。
1.2內(nèi)部結(jié)構(gòu)
空間數(shù)據(jù)倉庫的內(nèi)部組成應(yīng)由八個(gè)獨(dú)立功能模塊構(gòu)成,分層次實(shí)現(xiàn)空間數(shù)據(jù)倉庫系統(tǒng)。其中,第一層次的功能模塊是空間數(shù)據(jù)倉庫的基礎(chǔ)處理模塊,由多源空間數(shù)據(jù)抽取、多源空間數(shù)據(jù)整合、多源空間數(shù)據(jù)統(tǒng)一、空間數(shù)據(jù)倉庫元數(shù)據(jù)組成;第二層次的功能模塊是空間數(shù)據(jù)倉庫的服務(wù)模塊,由空間數(shù)據(jù)產(chǎn)品服務(wù)、空間數(shù)據(jù)立方體分析、空間數(shù)據(jù)挖掘分析組成;第三層次的功能模塊是空間數(shù)據(jù)倉庫的對外數(shù)據(jù)接口模塊,由對外數(shù)據(jù)交換格式組成。第一層次的功能模塊為第二層次的功能模塊服務(wù),第二層次的功能模塊為第三層次的功能模塊服務(wù)。其具體內(nèi)部結(jié)構(gòu)圖如圖2所示。
當(dāng)應(yīng)用系統(tǒng)提出需求時(shí):①多源空間數(shù)據(jù)抽取功能模塊從各源數(shù)據(jù)庫系統(tǒng)中抽取出相應(yīng)地理范圍(矩形、多邊形、橢圓)的不同種類的地理空間數(shù)據(jù)、專題數(shù)據(jù);②多源空間數(shù)據(jù)整合功能模塊對這些由圖幅范圍組織的地理空間數(shù)據(jù)進(jìn)行相應(yīng)地理范圍的裁剪、拼接、接邊、圖形編輯、拓?fù)渲亟M等整合處理,形成裁剪拼接和接邊好的、具有完整拓?fù)潢P(guān)系的、物理上無縫的、按區(qū)域范圍組織的地理空間數(shù)據(jù);③多源空間數(shù)據(jù)統(tǒng)一功能模塊對這些整合處理好的地理空間數(shù)據(jù)進(jìn)行數(shù)學(xué)基礎(chǔ)、數(shù)據(jù)編碼、數(shù)據(jù)格式、數(shù)據(jù)精度等方面的統(tǒng)一處理,形成能相互疊加的地理空間數(shù)據(jù);④將經(jīng)抽取、整合、統(tǒng)一處理好的地理空間數(shù)據(jù)提交給空間數(shù)據(jù)產(chǎn)品服務(wù)功能模塊,經(jīng)過集成、融合、派生和關(guān)聯(lián)等測繪專業(yè)算法處理,生成應(yīng)用系統(tǒng)所需的各種空間數(shù)據(jù)產(chǎn)品;⑤基于已生成的空間數(shù)據(jù)產(chǎn)品,進(jìn)行空間數(shù)據(jù)立方體分析和空間數(shù)據(jù)挖掘分析,得到面向空間輔助決策分析的結(jié)果;⑥將這些空間數(shù)據(jù)產(chǎn)品和空間輔助決策分析結(jié)果,以對外數(shù)據(jù)交換格式的形式提交給應(yīng)用系統(tǒng)使用。
2認(rèn)知過程
2.1認(rèn)知過程概念圖
空間數(shù)據(jù)倉庫是描述地理現(xiàn)象的一個(gè)重要分支,其認(rèn)知過程應(yīng)與地理空間信息的認(rèn)知過程基本一致,不同之處在于其描述的內(nèi)容和范圍大小的區(qū)別。因此,建立空間數(shù)據(jù)倉庫的認(rèn)知過程,實(shí)際上是要經(jīng)過一個(gè)地理現(xiàn)象認(rèn)識、抽象、組織、分析和應(yīng)用的過程。其具體的認(rèn)知過程概念框圖如圖3所示。
2.2認(rèn)知過程描述
這14個(gè)世界模型和13個(gè)轉(zhuǎn)換算子的組合構(gòu)成了三個(gè)層次世界,即實(shí)體世界、目標(biāo)世界和產(chǎn)品世界。其中,現(xiàn)實(shí)世界、地理現(xiàn)實(shí)世界、地理工程現(xiàn)實(shí)世界和地理工程概念世界這四個(gè)世界模型,以及命名、選擇、抽象這三個(gè)轉(zhuǎn)換算子,共同構(gòu)成實(shí)體世界;地理工程尺度世界、地理要素分類世界、地理要素編碼世界、地理要素幾何世界和地理要素集合世界這五個(gè)世界模型,以及度量、分層、編碼、測量和聚集這五個(gè)轉(zhuǎn)換算子,共同構(gòu)成目標(biāo)世界;地理空間抽取世界、地理空間整合世界、地理空間統(tǒng)一世界、地理空間產(chǎn)品世界、地理空間決策世界這五個(gè)世界模型,以及提取、處理、變換、計(jì)算、分析這五個(gè)轉(zhuǎn)換算子,共同構(gòu)成產(chǎn)品世界。
數(shù)據(jù)庫概念設(shè)計(jì)階段、地理空間數(shù)據(jù)庫實(shí)現(xiàn)階段和空間數(shù)據(jù)倉庫實(shí)現(xiàn)階段構(gòu)成了空間數(shù)據(jù)倉庫系統(tǒng)實(shí)現(xiàn)過程的三個(gè)階段,這三個(gè)階段分別對應(yīng)著三個(gè)層次世界,即實(shí)體世界、目標(biāo)世界和產(chǎn)品世界。其中,前兩個(gè)階段是為地理空間數(shù)據(jù)庫的建立服務(wù)的,由它們實(shí)現(xiàn)實(shí)體世界向目標(biāo)世界的轉(zhuǎn)換;后一個(gè)階段是為空間數(shù)據(jù)倉庫的建立服務(wù)的,由它們實(shí)現(xiàn)目標(biāo)世界向產(chǎn)品世界的轉(zhuǎn)換。
由此可見,空間數(shù)據(jù)倉庫的認(rèn)知過程主要就是這14個(gè)世界模型通過這13個(gè)轉(zhuǎn)換算子的轉(zhuǎn)換實(shí)現(xiàn)三個(gè)層次世界的過程。這個(gè)認(rèn)知過程指導(dǎo)了空間數(shù)據(jù)倉庫的實(shí)現(xiàn)。
3認(rèn)知的概念定義
3.1世界模型
實(shí)際上,這些世界模型主要是依靠具體的實(shí)體模型或數(shù)據(jù)模型描述來實(shí)現(xiàn)的。每個(gè)世界模型均有其描述的地理空間對象,因此這些世界模型描述的內(nèi)容大不相同,必須定義出這些世界模型。
3.1.1現(xiàn)實(shí)世界模型
現(xiàn)實(shí)世界中,人們能看到一系列物質(zhì)和現(xiàn)象,對于這些物質(zhì)和現(xiàn)象,不管是否能叫上名字,它們都是客觀存在的,并且相互之間通過它們的關(guān)系組成了自然界的千差萬別。由此可見,能將現(xiàn)實(shí)世界中所有物質(zhì)和現(xiàn)象集合以及它們之間的相互關(guān)系用一定的形式進(jìn)行描述就是現(xiàn)實(shí)世界模型。
現(xiàn)實(shí)世界的物質(zhì)和現(xiàn)象集合中,隱含著許多不同的地理現(xiàn)象類,如地質(zhì)、礦產(chǎn)、石油、自然地理等地理現(xiàn)象類。地理現(xiàn)象類是現(xiàn)實(shí)世界的一個(gè)子集。由此可見,能將現(xiàn)實(shí)世界中所有地理現(xiàn)象類集合以及它們之間的相互關(guān)系用一定的形式進(jìn)行描述就是地理現(xiàn)實(shí)世界模型。
本文原文
3.1.3地理工程現(xiàn)實(shí)世界模型
地理現(xiàn)實(shí)世界的地理現(xiàn)象類集合中,特指一個(gè)或若干個(gè)地理現(xiàn)象就是地理工程現(xiàn)實(shí)世界,如自然地理等。地理工程現(xiàn)實(shí)世界是地理現(xiàn)實(shí)世界的一個(gè)子集。由此可見,能將地理現(xiàn)實(shí)世界指的地理現(xiàn)象以及它們之間的相互關(guān)系用一定的形式進(jìn)行描述就是地理工程現(xiàn)實(shí)世界模型。
3.1.4地理工程概念世界模型
要用計(jì)算機(jī)來描述地理工程現(xiàn)實(shí)世界中的地理現(xiàn)象,就必須對它們進(jìn)行抽象描述,形成地理現(xiàn)象在人們頭腦中的反映,生成概念模型。由此可見,能將地理工程現(xiàn)實(shí)世界指的地理現(xiàn)象以及它們的內(nèi)部關(guān)系用一定的形式進(jìn)行抽象的概念描述就是地理工程概念世界模型。
3.1.5地理工程尺度世界模型
將地理現(xiàn)象抽象成概念模型,僅有這些還遠(yuǎn)遠(yuǎn)不夠,因?yàn)楝F(xiàn)實(shí)世界中的所有地理現(xiàn)象均是有度量的,所以用計(jì)算機(jī)描述這些地理現(xiàn)象時(shí),也必須是可度量的。度量主要包括描述地理現(xiàn)象的歐幾里德幾何坐標(biāo)系和數(shù)學(xué)單位尺度。由此可見,對地理工程概念世界中的抽象地理現(xiàn)象進(jìn)行歐幾里德幾何坐標(biāo)系和數(shù)學(xué)單位尺度描述就是地理工程尺度世界模型。3.1.6地理要素分類世界模型
按照GIS理論,概念中的地理現(xiàn)象最終都是通過多種地理要素來表達(dá)的,因此如何對地理要素進(jìn)行合理的設(shè)計(jì)和劃分就顯得十分重要。根據(jù)ARC/INFO的分層理論,只有將這些地理要素進(jìn)行分類分級,才能高效地處理它們。由此可見,對地理工程尺度世界中具有尺度度量的地理現(xiàn)象進(jìn)行地理要素的分類分級描述就是地理要素分類世界模型。
3.1.7地理要素編碼世界模型
要使計(jì)算機(jī)能識別和處理地理要素,就必須給這些地理要素進(jìn)行分類分級編碼,即用一串?dāng)?shù)字來表示它們,該分類分級編碼就成為該地理要素在計(jì)算機(jī)中的唯一標(biāo)志符,以便計(jì)算機(jī)能識別和處理。由此可見,對地理要素分類世界中具有明確分類分級定義的地理要素進(jìn)行分類分級編碼描述就是地理要素編碼世界模型。
3.1.8地理要素幾何世界模型
為了便于計(jì)算機(jī)的存儲和管理,必須將地理要素細(xì)分為幾何目標(biāo)。地理要素幾何目標(biāo)包括基本目標(biāo)和復(fù)合目標(biāo)?;灸繕?biāo)按地理要素的空間特征劃分為點(diǎn)狀目標(biāo)、線狀目標(biāo)、面狀目標(biāo)、體狀目標(biāo)和表面狀目標(biāo)等五種;復(fù)合目標(biāo)由基本目標(biāo)集合嵌套構(gòu)成。由此可見,對地理要素編碼世界中具有明確分類分級編碼的地理要素進(jìn)行幾何目標(biāo)的劃分和描述就是地理要素幾何世界模型。
3.1.9地理要素集合世界模型
因?yàn)榈乩硪卦谝欢ǖ臈l件下由相同或不同的點(diǎn)、線、面、表面和體等五類空間目標(biāo)組合而成,所以在實(shí)際使用中,必須通過計(jì)算機(jī)系統(tǒng)把數(shù)據(jù)庫中存儲的基本目標(biāo)、復(fù)合目標(biāo)還原成地理要素。由此可見,對地理要素幾何世界中具有基本目標(biāo)、復(fù)合目標(biāo)描述的地理要素進(jìn)行數(shù)據(jù)庫的幾何目標(biāo)集合操作就是地理要素集合世界模型。
定義9地理要素集合世界模型。設(shè)Con中地理要素點(diǎn)狀目標(biāo)、線狀目標(biāo)、面狀目標(biāo)、體狀目標(biāo)、表面目標(biāo)集合分別表示為Po、Lo、Ao、To、So,Atr為地理要素的某一地理特征集合,則地理要素集合世界模型為Ent={e|(Po,Lo,Ao,To,So)∈Atr}。
3.1.10地理空間抽取世界模型
地理空間抽取的主要功能就是從源數(shù)據(jù)庫中按地理區(qū)域范圍(矩形、橢圓、多邊形等)抽取出滿足一定條件的不同種類的地理空間數(shù)據(jù)。由此可見,對地理要素集合世界中的地理空間數(shù)據(jù)按一定地理區(qū)域范圍和地理特征進(jìn)行抽取的操作描述就是地理空間抽取世界模型。
3.1.11地理空間整合世界模型
數(shù)據(jù)庫中存儲的地理空間數(shù)據(jù)是以圖幅為單位組織的,但應(yīng)用系統(tǒng)使用數(shù)據(jù)是無圖幅概念的,是以地理區(qū)域范圍為組織的。由此可見,對地理空間抽取世界中抽取出的地理空間數(shù)據(jù)進(jìn)行圖形裁剪、圖形拼接、圖形接邊、圖形編輯和拓?fù)渲亟M等整合處理,形成以地理區(qū)域范圍為組織的無縫數(shù)據(jù)集合操作就是地理空間整合世界模型。定義11地理空間整合世界模型。設(shè)Con中圖形裁剪、圖形拼接、圖形編輯、圖形接邊、拓?fù)渲亟M功能分別表示為Cut、Stitch、Meet、Edit和Topology,整合功能集合表示為Fun={Cut,Stitch,Meet,Edit,Topology},則地理空間整合世界模型Pro={e|(e∈Ext,e∈Fun)}。
3.1.12地理空間統(tǒng)一世界模型
實(shí)現(xiàn)地理空間數(shù)據(jù)整合后,必須對來自不同源數(shù)據(jù)庫中的地理空間數(shù)據(jù)進(jìn)行統(tǒng)一,因?yàn)榈乩砜臻g數(shù)據(jù)存在著差異。這些差異表現(xiàn)在如下方面,即數(shù)學(xué)基礎(chǔ)差異、數(shù)據(jù)編碼差異和數(shù)據(jù)格式差異、數(shù)據(jù)精度差異。由此可見,對地理空間整合世界中的地理空間數(shù)據(jù)進(jìn)行數(shù)學(xué)基礎(chǔ)、數(shù)據(jù)編碼、數(shù)據(jù)格式、數(shù)據(jù)精度的統(tǒng)一操作和描述就是地理空間統(tǒng)一世界模型。
3.1.13地理空間產(chǎn)品世界模型
隨著應(yīng)用的深入,單純的地理空間數(shù)據(jù)已越來越不能滿足用戶的需求,用戶更加希望使用的是經(jīng)過測繪專業(yè)處理的、經(jīng)過二次加工處理的地理空間數(shù)據(jù)產(chǎn)品,后者在實(shí)際中具有更大的應(yīng)用價(jià)值。由此可見,對地理空間統(tǒng)一世界中的地理空間數(shù)據(jù)進(jìn)行測繪專業(yè)處理生成空間數(shù)據(jù)產(chǎn)品的操作就是地理空間產(chǎn)品世界模型。
定義13地理空間產(chǎn)品世界模型。設(shè)Con中單一、集成、融合、派生和關(guān)聯(lián)的功能分別表示為Single、Integrate、Fuse、Derive和Relate,測繪專業(yè)處理算法集合為Fru={Single,Integrate,Fuse,Derive,Relate},則地理空間產(chǎn)品世界模型Pdu={e|(e∈Uni,e∈Fru}。
3.1.14地理空間決策世界模型
建立空間數(shù)據(jù)倉庫的最終目的是為空間決策支持服務(wù),為用戶提供大量的具有空間決策支持的信息,這可通過空間數(shù)據(jù)倉庫中的空間數(shù)據(jù)立方體分析和空間數(shù)據(jù)挖掘分析來實(shí)現(xiàn)。由此可見,對地理空間產(chǎn)品世界中的空間數(shù)據(jù)產(chǎn)品進(jìn)行空間數(shù)據(jù)立方體分析和空間數(shù)據(jù)挖掘分析,生成空間決策支持信息的操作和描述就是地理空間決策世界模型。
定義14地理空間決策世界模型。設(shè)Con中的空間數(shù)據(jù)立方體分析和空間數(shù)據(jù)挖掘分析分別表示為Scube、Smine,空間決策分析算法集合為Sdss={Scube,Smine},則地理空間決策世界模型Dss={e|(e∈Pdu,e∈Sdss)}。
3.2轉(zhuǎn)換算子
在空間數(shù)據(jù)倉庫的認(rèn)知過程中,14個(gè)世界模型的變換離不開13個(gè)轉(zhuǎn)換算子,即命名、選擇、抽象、度量、分層、編碼、測量、聚集、提取、處理、變換、計(jì)算和分析,由它們實(shí)現(xiàn)每兩個(gè)世界模型的轉(zhuǎn)換。這些轉(zhuǎn)換算子主要是依靠元數(shù)據(jù)來實(shí)現(xiàn)的,因?yàn)槊總€(gè)世界模型均有描述它的元數(shù)據(jù),要實(shí)現(xiàn)兩個(gè)世界模型的轉(zhuǎn)換,通曉這兩個(gè)世界的元數(shù)據(jù)是轉(zhuǎn)換的前提。雖然這些轉(zhuǎn)換算子的具體定義不同,但它們都是實(shí)現(xiàn)每兩個(gè)世界模型的轉(zhuǎn)換,從數(shù)學(xué)的定義上說就是由某個(gè)世界模型通過函數(shù)轉(zhuǎn)換到另一個(gè)世界模型上,因此這些轉(zhuǎn)換算子的宏觀數(shù)學(xué)定義是一致的。
4結(jié)束語
目前,空間數(shù)據(jù)倉庫理論和技術(shù)研究才剛剛起步,其目標(biāo)是支持?jǐn)?shù)字地球發(fā)展、空間數(shù)據(jù)集成、空間決策支持發(fā)展的需求。因此應(yīng)該抓住這個(gè)千載難逢的好機(jī)會(huì),將我國的空間數(shù)據(jù)倉庫研究與建立邁上一個(gè)新臺階,以支持我國的空間數(shù)據(jù)基礎(chǔ)設(shè)施建設(shè)。本文對空間數(shù)據(jù)倉庫的概念框架和認(rèn)知過程體系進(jìn)行了一定程度的技術(shù)探討,希望能起到拋磚引玉的作用。
參考文獻(xiàn):
[1]ZOUYijiang.Theconceptualframeworkonthemulti-scaleandspatio-temporaldatawarehouse[C].Beijing:20thICCAcademicPress,2001:2823-2831.
[2]ZOUYijiang.Thedesignofspatlatldatawarehouse[C].Bangkok:GeoInformatics&DMGIS’2001AcademicPress,2001:421-426.
[3]ZOUYijiang.Theresearchofmetadataonspatialdatawarehouse[C].Durban:21thICCAcademicPress,2003:225-226.
[4]ESRI.ESRIopenstrategywhitepapersonSDE/CADclient&spatialdatawarehousing[EB/OL].(1998).Esri/com/base/compay/opengis.
[5]ESRI.AnESRIwhitepapers,mappingforthedatawarehouse[EB∕OL].(2002).Esri/com/base/compay/opengis.
[6]TOMB,GRAYJ,SLUTZD.Microsoftterraserver:aspatialdatawarehouse.microsoftresearchadvancedtechnologydivision[EB/OL].(2004)./.
[7]SHEKHARS,LUCT,TANX,etal.Avisualizationtoolforspatialdatawarehouses[EB/OL].(2003).cs.umn.edu/Research/Shashi-group.[8]DIMITRISP.EfficientOLAPoperationsinspatialdatawarehouses,HKUST-CS01-01[R].HongKong:[s.n.],2001:65-69.
[9]趙霈生,楊崇俊.空間數(shù)據(jù)倉庫的技術(shù)與實(shí)踐[J].遙感學(xué)報(bào),2000,4(2):157-160.
[10]李琦,楊超偉.空間數(shù)據(jù)倉庫及其構(gòu)建策略[J].中國圖像圖形學(xué)報(bào),1999,4(11):984-990.
[11]楊群,閭國年,陳鐘明.地理信息數(shù)據(jù)倉庫的技術(shù)研究[J].中國圖像圖形學(xué)報(bào),1999,4(8):621-626.
[12]周炎坤,李滿春.大型空間數(shù)據(jù)倉庫初探[J].測繪通報(bào),2000,22(8):22-23.
篇6
關(guān)鍵詞:空間數(shù)據(jù)倉庫
中圖分類號:TP311文獻(xiàn)標(biāo)識碼:A 文章編號:1009-3044(2009)33-9532-02
The Application of Spatial Data Warehouse Technology
HUANG Hai-yan
(Faculty of Information Science and Technology,Jiujiang University,Jiujiang 332005,China)
Abstract: The article elaborate conception, characteristic and function of spatial Data Warehouse.It analyzes how spatial Data Warehouse help moden enterprise make decision.
Key words: spatial Data Warehouse
隨著企業(yè)管理技術(shù)的不斷提升和信息系統(tǒng)的廣泛應(yīng)用和逐趨完善,企業(yè)相應(yīng)的信息數(shù)據(jù)量也得到了極速增長。同時(shí),隨著數(shù)據(jù)庫技術(shù)應(yīng)用的發(fā)展,企業(yè)決策人對于數(shù)據(jù)的應(yīng)用提出了更高的要求,己不僅僅滿足于對事務(wù)處理的電子化與自動(dòng)化,還希望能夠提供更多的對于數(shù)據(jù)進(jìn)行分析、統(tǒng)計(jì)、趨勢預(yù)測,從而對于管理決策提供支持。由此,數(shù)據(jù)倉庫及相關(guān)技術(shù)應(yīng)運(yùn)而生。
1 空間數(shù)據(jù)倉庫的簡述
空間數(shù)據(jù)倉庫是今年來數(shù)據(jù)倉庫思想在空間信息科學(xué)領(lǐng)域延伸的產(chǎn)物。數(shù)據(jù)倉庫是一個(gè)面向主題的、集成、穩(wěn)定的、包含歷史數(shù)據(jù)的數(shù)據(jù)集合,用于支持經(jīng)營管理中的決策制定過程。傳統(tǒng)的數(shù)據(jù)庫是聯(lián)機(jī)事務(wù)處理系統(tǒng),處理和存儲日常業(yè)務(wù)數(shù)據(jù),無法實(shí)現(xiàn)更高層次的分析處理各種類型信息的任務(wù)。而數(shù)據(jù)倉庫從各數(shù)據(jù)庫中按專題和內(nèi)容等提取數(shù)據(jù),并對所提取的數(shù)據(jù)進(jìn)行預(yù)處理,可以支持在線分析處理,利用存儲在數(shù)據(jù)倉庫中的數(shù)據(jù)完成各種分析操作,以直觀易懂的形式將分析結(jié)果返回給決策分析分員。目前,數(shù)據(jù)倉庫在許多需要大型數(shù)據(jù)庫管理海量數(shù)據(jù)和對數(shù)據(jù)進(jìn)行分析的行業(yè)如通信、金融等領(lǐng)域得到了成功的應(yīng)用。
空間數(shù)據(jù)倉庫的特點(diǎn):與傳統(tǒng)空間數(shù)據(jù)庫面向應(yīng)用進(jìn)行數(shù)據(jù)組織的特點(diǎn)相對應(yīng),空間數(shù)據(jù)倉庫的數(shù)據(jù)是面向主題進(jìn)行數(shù)據(jù)組織的。它在較高層次上將企業(yè)信息系統(tǒng)中的數(shù)據(jù)進(jìn)行綜合、歸類,并加以抽象地分析利用??臻g數(shù)據(jù)倉庫的數(shù)據(jù)是從原有的空間數(shù)據(jù)庫數(shù)據(jù)中抽取來的。因此在數(shù)據(jù)進(jìn)入空間數(shù)據(jù)倉庫之前,必然要經(jīng)過統(tǒng)一與綜合,這一步是空間數(shù)據(jù)倉庫建設(shè)中最關(guān)鍵、最復(fù)雜的一步,所要完成的工作包括消除源數(shù)據(jù)中的不一致性和進(jìn)行數(shù)據(jù)綜合計(jì)算??臻g數(shù)據(jù)倉庫中的數(shù)據(jù)主要供決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一般情況下并不進(jìn)行修改操作??臻g數(shù)據(jù)倉庫的數(shù)據(jù)反映的是一段相當(dāng)長的時(shí)間內(nèi)的數(shù)據(jù)內(nèi)容,是不同時(shí)間的空間數(shù)據(jù)庫快照的集合和基于這些快照進(jìn)行統(tǒng)計(jì)、綜合和重組導(dǎo)出的數(shù)據(jù),而不是聯(lián)機(jī)處理的數(shù)據(jù)。空間數(shù)據(jù)庫中進(jìn)行聯(lián)機(jī)處理的數(shù)據(jù)經(jīng)過集成輸入到空間數(shù)據(jù)倉庫中,一旦空間數(shù)據(jù)倉庫存放的數(shù)據(jù)已經(jīng)超過空間數(shù)據(jù)倉庫的數(shù)據(jù)存儲期限,這些數(shù)據(jù)將從空間數(shù)據(jù)庫中刪去。空間數(shù)據(jù)倉庫的數(shù)據(jù)是隨時(shí)間的變化不斷變化的,它會(huì)不斷增加新的數(shù)據(jù)內(nèi)容,不斷刪去舊的數(shù)據(jù)內(nèi)容,不斷對數(shù)據(jù)按時(shí)間段進(jìn)行綜合。
2 空間數(shù)據(jù)倉庫的應(yīng)用
2.1 空間數(shù)據(jù)倉庫的功能
空間數(shù)據(jù)倉庫在數(shù)據(jù)倉庫基礎(chǔ)上引入空間維,根據(jù)主題從不同的GIS應(yīng)用系統(tǒng)中截取從瞬態(tài)到區(qū)段直到全球系統(tǒng)的不同規(guī)模時(shí)空尺度上的信息??臻g數(shù)據(jù)倉庫主要實(shí)現(xiàn)三個(gè)功能:1) 從分布式空間數(shù)據(jù)庫中獲取空間數(shù)據(jù);2) 對數(shù)據(jù)進(jìn)行動(dòng)態(tài)綜合、集成、管理和分析;3) 提供空間信息訪問。通過空間數(shù)據(jù)倉庫技術(shù),可以將來自不同專業(yè)領(lǐng)域的相關(guān)數(shù)據(jù),按照選定的主題轉(zhuǎn)換成統(tǒng)一的格式,集成、存儲在一起,實(shí)現(xiàn)空間和非空間的分析操作,然后借助各種專業(yè)模型通過數(shù)據(jù)挖掘技術(shù)從數(shù)據(jù)中發(fā)現(xiàn)知識,為輔助決策提供支持。
2.2 空間數(shù)據(jù)倉庫的作用
空間數(shù)據(jù)倉庫是分析型數(shù)據(jù)庫,根據(jù)主題通過專業(yè)模型中不同空間數(shù)據(jù)庫中的原始業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取和聚集,為用戶提供一個(gè)多視角、綜合、全面的分析決策支持環(huán)境。空間數(shù)據(jù)倉庫是一種基于空間數(shù)據(jù)管理和利用的綜合性技術(shù),它使得現(xiàn)有的傳統(tǒng)空間數(shù)據(jù)系統(tǒng)由操作型向分析型轉(zhuǎn)變。在競爭日益激烈的市場中,能否迅速做出更好的決策關(guān)系到銀行是茍且偷生還是繁榮興旺。銀行需要對各種壓力迅速做出反應(yīng),包括不斷加劇的競爭、行業(yè)的無規(guī)律發(fā)展、企業(yè)并購、產(chǎn)品和市場革新、傳統(tǒng)系統(tǒng)的重組等。 如今大多數(shù)企業(yè)并不缺少?zèng)Q策的數(shù)據(jù),這些數(shù)據(jù)包括:聯(lián)機(jī)交易的歷史數(shù)據(jù)、研究分析結(jié)果、Internet提供的數(shù)據(jù)……數(shù)據(jù)幾乎無處不在。因此,關(guān)鍵不在于數(shù)量,而在于質(zhì)量――是否一致、準(zhǔn)確、具有時(shí)效性和復(fù)雜度。 在過去幾年中,許多企業(yè)認(rèn)識到了這一問題,并開發(fā)了各種系統(tǒng),如決策支持系統(tǒng)、管理信息系統(tǒng)、運(yùn)作信息系統(tǒng)。這些系統(tǒng)從各種源系統(tǒng)中下載數(shù)據(jù),通過運(yùn)行一些相應(yīng)的程序進(jìn)行查詢等操作。 但由于這些系統(tǒng)基本上都是基于主機(jī)的,功能有限,比如:聯(lián)機(jī)無法進(jìn)行數(shù)據(jù)分析;數(shù)據(jù)是離散的、冗余的;用戶訪問過于復(fù)雜;用戶訪問降低了業(yè)務(wù)操作的效率。聯(lián)機(jī)系統(tǒng)一般的設(shè)計(jì)原則是以最快速度更改一條記錄,而不是用于數(shù)據(jù)分析,也不是按照某一標(biāo)準(zhǔn)瀏覽數(shù)據(jù)和對數(shù)據(jù)進(jìn)行排序,以及對數(shù)據(jù)進(jìn)行計(jì)算。 與之相比,數(shù)據(jù)倉庫卻能夠?qū)崿F(xiàn)快速數(shù)據(jù)查詢,幫助銀行挖掘其傳統(tǒng)系統(tǒng)中潛在的無法被直接利用的信息。
3 結(jié)束語
空間數(shù)據(jù)倉庫的構(gòu)建是一個(gè)處理過程,空間數(shù)據(jù)倉庫是―個(gè)從多個(gè)數(shù)據(jù)源收集的信息存儲庫,存放在一個(gè)一致的模式下并且通常駐留在單個(gè)站點(diǎn)。數(shù)據(jù)倉庫通過數(shù)據(jù)清理、數(shù)據(jù)變換、數(shù)據(jù)集成、數(shù)據(jù)裝入和定期數(shù)據(jù)刷新過程來構(gòu)造。數(shù)據(jù)倉庫系統(tǒng)由數(shù)據(jù)倉庫、數(shù)據(jù)倉庫管理系統(tǒng)、數(shù)據(jù)倉庫工具三個(gè)部分組成。在整個(gè)系統(tǒng)中,DW居于核心地位,是信息挖掘的基礎(chǔ);數(shù)據(jù)倉庫管理系統(tǒng)負(fù)責(zé)管理整個(gè)系統(tǒng)的運(yùn)作;數(shù)據(jù)倉庫工具則是整個(gè)系統(tǒng)發(fā)揮作用的關(guān)鍵,包含用于完成實(shí)際決策問題所需的各種查詢檢索工具、多維數(shù)據(jù)的OLAP分析工具、數(shù)據(jù)挖掘DM工具等,以實(shí)現(xiàn)決策支持的各種要求。
參考文獻(xiàn):
[1] 鄒逸江.空間數(shù)據(jù)倉庫研究綜述[J].測繪學(xué)院學(xué)報(bào),2002(3).
[2] 陳文偉.數(shù)據(jù)倉庫與數(shù)據(jù)挖掘教程[M].北京:清華大學(xué)出版社,2006.
篇7
關(guān)鍵詞:數(shù)據(jù)庫技術(shù);聯(lián)機(jī)分析
中圖分類號:TP311 文獻(xiàn)標(biāo)識碼:A文章編號:1007-9599 (2011) 16-0000-01
The Analysis of Data Warehouse Technology and Application
Fu Shuguang
(Qingdao Hismile College,Qingdao266100,China)
Abstract:with the development of society,information has become an important feature of today's society, a lot of information and data are required to have a scientific technology to study and analysis,database technology will emerge as the times require,is a product of the development of the computer,business and other fields play a vital role.This article from the database technology and the characteristics of the development of analysis,analysis of the database in various fields of application.
Keywords:Database Technology;Online Analysis
數(shù)據(jù)倉庫技術(shù)作為一門計(jì)算機(jī)應(yīng)用技術(shù),是新興的技術(shù),也是這個(gè)時(shí)代對信息化管理發(fā)展的一個(gè)產(chǎn)物,數(shù)據(jù)倉庫是在企業(yè)管理和決策中面向主題的、集成的、與時(shí)間相關(guān)的、不可修改的數(shù)據(jù)集合數(shù)據(jù)倉庫,英文名稱為Data Warehouse,可簡寫為DW。在市場競爭日益加劇的今天,不管是企業(yè)還是社會(huì)團(tuán)體,都需要把市場經(jīng)營或者社會(huì)服務(wù)同各種需求相聯(lián)系起來,把市場上的各種數(shù)據(jù)進(jìn)行有效的統(tǒng)計(jì)和分析,從而做出科學(xué)正確的決策。所以,對于數(shù)據(jù)倉庫技術(shù)在各個(gè)企業(yè)和社會(huì)團(tuán)體進(jìn)行收集、存儲和研究各種數(shù)據(jù)的環(huán)節(jié)就起到了尤為重要的作用。
一、數(shù)據(jù)倉庫技術(shù)概述
(一)含義
數(shù)據(jù)倉庫概念創(chuàng)始人W.H.Inmon對數(shù)據(jù)倉庫的定義:數(shù)據(jù)倉庫是面向主題的、集成的、相對穩(wěn)定的、隨時(shí)間不斷變化(不同時(shí)間)的數(shù)據(jù)集合,用以支持經(jīng)營管理中的決策制定過程、數(shù)據(jù)倉庫中的數(shù)據(jù)面向主題,與傳統(tǒng)數(shù)據(jù)庫面向應(yīng)用相對應(yīng)。
(二)數(shù)據(jù)倉庫的發(fā)展
數(shù)據(jù)倉庫技術(shù)是信息化高速發(fā)展的產(chǎn)物,它是基于信息系統(tǒng)業(yè)務(wù)發(fā)展的需要,基于數(shù)據(jù)庫系統(tǒng)技術(shù)發(fā)展而來、并逐步獨(dú)立的一系列新的應(yīng)用技術(shù)。它是在傳統(tǒng)的數(shù)據(jù)庫技術(shù)的基礎(chǔ)上發(fā)展而來的新的應(yīng)用技術(shù),傳統(tǒng)的數(shù)據(jù)庫技術(shù)是一種單一的數(shù)據(jù)資源,是以數(shù)據(jù)庫為中心,進(jìn)行事務(wù)處理以及批處理再到?jīng)Q策分析的各種類數(shù)據(jù)處理工作。而數(shù)據(jù)倉庫技術(shù)不單單是這種單一的數(shù)據(jù)資源,實(shí)現(xiàn)了對決策主題的存儲和綜合等特點(diǎn)。隨著數(shù)據(jù)倉庫技術(shù)在應(yīng)用過程中的不斷深入,近些年,數(shù)據(jù)倉庫技術(shù)得到了長足的發(fā)展,各行各業(yè)已經(jīng)能夠接受“整合數(shù)據(jù),從數(shù)據(jù)中找知識,運(yùn)用數(shù)據(jù)知識、用數(shù)據(jù)說話”等新的關(guān)系到改良生產(chǎn)活動(dòng)各環(huán)節(jié)、提高生產(chǎn)效率、發(fā)展生產(chǎn)力的理念。
(三)數(shù)據(jù)倉庫的作用
建立數(shù)據(jù)倉庫系統(tǒng),可以更加科學(xué)的收集、存儲以及管理業(yè)務(wù)中的各種數(shù)據(jù),從而不斷分析市場已經(jīng)各種因素,不斷改善和提高工作人員的工作效率,更科學(xué)的分析數(shù)據(jù)用來指導(dǎo)管理過程中的各種行為,如在客戶的研究方面,在應(yīng)用系統(tǒng)和企業(yè)行為方面,以Internet和電子商務(wù)、專家系統(tǒng)、多媒體數(shù)據(jù)挖掘和人工智能以及呼叫中心等信息技術(shù)為基礎(chǔ),從而實(shí)現(xiàn)企業(yè)識別、保留以及挽回最具價(jià)值的客戶,從而提升企業(yè)的核心競爭力。
二、企業(yè)數(shù)據(jù)倉庫的應(yīng)用
數(shù)據(jù)倉庫的應(yīng)用主要表現(xiàn)在數(shù)據(jù)的抽取、數(shù)據(jù)的存儲和管理、信息的探索、集成和轉(zhuǎn)換以及避免臟數(shù)據(jù)的進(jìn)入、質(zhì)量的管理和數(shù)據(jù)??偟膩碚f,企業(yè)數(shù)據(jù)倉庫是一個(gè)環(huán)境,是通過有效的信息來不斷滿足企業(yè)的決策的制定過程,換言之就是通過企業(yè)數(shù)據(jù)倉庫來對企業(yè)的一些決策進(jìn)行指導(dǎo)。也可以說是一個(gè)企業(yè)的數(shù)據(jù)庫的平臺,這些數(shù)據(jù)來源于各種各樣的數(shù)據(jù)源,并經(jīng)過一定的過程如抽取篩選清晰以及轉(zhuǎn)換后根據(jù)用戶的查詢適時(shí)的提供給用戶的這么一個(gè)平臺。企業(yè)數(shù)據(jù)倉庫包含綜合數(shù)據(jù)、分粒度的數(shù)據(jù)、歷史數(shù)據(jù)、共享數(shù)據(jù),是一個(gè)企業(yè)決策的基礎(chǔ),擁有大的存儲量,對企業(yè)來說具有極其重要的作用。
數(shù)據(jù)倉庫應(yīng)用在不同的企業(yè)和單位,在資源環(huán)境企業(yè)中的應(yīng)用,能夠利用空間數(shù)據(jù)倉庫技術(shù)不斷規(guī)范、提煉和集成環(huán)境數(shù)據(jù),按照不同的決策主題來組織數(shù)據(jù),而且還能用于支持環(huán)境管理制定決策,使相關(guān)部門利用決策支持分析工具從資源環(huán)境的信息池中提取、分析數(shù)據(jù),為資源環(huán)境的發(fā)展做出有利的貢獻(xiàn)。在公路交通方面的應(yīng)用,公路數(shù)據(jù)倉庫是一項(xiàng)綜合且復(fù)雜的信息化系統(tǒng)工程,是公路工程、大地測量、地理學(xué)、計(jì)算機(jī)科學(xué)、系統(tǒng)工程、統(tǒng)計(jì)學(xué)、管理學(xué)等學(xué)科還有技術(shù)的結(jié)晶,它改變了傳統(tǒng)的信息處理的方式,使交通規(guī)劃、建設(shè)、運(yùn)營和管理變得直觀、輕松和高效??梢哉f數(shù)據(jù)倉庫是公路交通管理步入數(shù)字化的標(biāo)志。數(shù)據(jù)倉庫在醫(yī)院中的應(yīng)用,現(xiàn)代醫(yī)院中,電子病歷廣泛使用,,挖掘海量病案數(shù)據(jù)中所潛藏的信息進(jìn)行支持決策是醫(yī)院提高管理水平的一個(gè)重要的手段,通過數(shù)據(jù)倉庫在病案數(shù)據(jù)的分析中的應(yīng)用,如,根據(jù)某醫(yī)院常發(fā)疾病的治療和新生兒出生的情況,建立病案數(shù)據(jù)倉庫,借助聯(lián)機(jī)分析技術(shù)來對對病案中的發(fā)病率、治愈情況等進(jìn)行分析,為疾病的預(yù)防、醫(yī)院的管理決策,提供可靠的數(shù)據(jù)支持。數(shù)據(jù)倉庫技術(shù)在銀行業(yè)的應(yīng)用,解決客戶關(guān)系以及企業(yè)在收入、成本、預(yù)算方面的分析,一些收入的發(fā)展、項(xiàng)目的狀況及預(yù)算狀況進(jìn)行全面分析,使領(lǐng)導(dǎo)能夠及時(shí)的得到企業(yè)發(fā)展情況報(bào)告。
三、結(jié)論
隨著數(shù)據(jù)倉庫技術(shù)應(yīng)用的不斷擴(kuò)大,各行各業(yè)都已經(jīng)通過數(shù)據(jù)倉庫技術(shù)來對各種數(shù)據(jù)進(jìn)行分析以不斷地提升自身的各種競爭力和競爭水平。在信息化如此發(fā)達(dá)的今天,數(shù)據(jù)倉庫技術(shù)已經(jīng)作為一門新興的技術(shù)在各個(gè)領(lǐng)域內(nèi)發(fā)揮著極其重要的作用,企業(yè)如何根據(jù)自己企業(yè)自身的情況來應(yīng)用這種技術(shù),如何在競爭如此強(qiáng)烈的市場占有一席之地,應(yīng)用好數(shù)據(jù)倉庫不斷解決企業(yè)發(fā)展中遇到的問題,將對企業(yè)有著積極的作用。
參考文獻(xiàn):
[1]張維明等.數(shù)據(jù)倉庫原理與應(yīng)用[M].北京:電子工業(yè)出版社,2002
[2]彭木根.數(shù)據(jù)倉庫技術(shù)與實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2002
篇8
【關(guān)鍵詞】數(shù)據(jù)倉庫;科研管理;應(yīng)用
在科研項(xiàng)目質(zhì)量管理中,科研數(shù)據(jù)以及科研資源的管理、科研檔案管理等等,都是其中的重要組成部分,通過數(shù)據(jù)庫,實(shí)現(xiàn)對科研管理的規(guī)范化、科學(xué)化,同時(shí),也應(yīng)當(dāng)努力規(guī)范和提高科研管理運(yùn)行機(jī)制,健全約束機(jī)制,完善科研項(xiàng)目的管理評標(biāo)體系,這都是提高我國科研管理水平行之有效的途徑。
一、數(shù)據(jù)倉庫概述
數(shù)據(jù)采集是數(shù)據(jù)倉庫構(gòu)建中的重要內(nèi)容,從數(shù)據(jù)源中抽取所需要的數(shù)據(jù),然后對抽取到的數(shù)據(jù)進(jìn)行清洗,將其按照一定的數(shù)據(jù)倉庫的模型,放到數(shù)據(jù)倉庫中。數(shù)據(jù)采集中的數(shù)據(jù)抽取其實(shí)就是數(shù)據(jù)源接口,數(shù)據(jù)源接口從不同的系統(tǒng)中抽取所需要的數(shù)據(jù),將其作為數(shù)據(jù)倉庫的輸入數(shù)據(jù),數(shù)據(jù)轉(zhuǎn)換是對不同系統(tǒng)中生成的數(shù)據(jù)源進(jìn)行處理,保證這些不同的數(shù)據(jù)源可以按照規(guī)定的要求輸入到數(shù)據(jù)倉庫中。數(shù)據(jù)清洗是對所有的數(shù)據(jù)進(jìn)行處理,使得數(shù)據(jù)集中的所有數(shù)據(jù)值保持一致,并可以正確的對這些數(shù)據(jù)進(jìn)行記錄。而數(shù)據(jù)的裝載是按照一定的模型將以上經(jīng)過數(shù)據(jù)抽取、轉(zhuǎn)換、清除的所有數(shù)據(jù)裝入數(shù)據(jù)倉庫中,在數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫的過程中還包括了將數(shù)據(jù)域清除、對數(shù)據(jù)進(jìn)行有效的檢查等。
二、數(shù)據(jù)倉庫在科研管理中的應(yīng)用研究
(一)數(shù)據(jù)倉庫的核心技術(shù)――ETL技術(shù)
在科研管理中,管理人員需要隨時(shí)獲取所需要的數(shù)據(jù)和信息,因此,通過數(shù)據(jù)倉庫,將外部數(shù)據(jù)和內(nèi)部數(shù)據(jù)進(jìn)行整理和儲存,并且為數(shù)據(jù)的查詢提供了極大的便利。但是這些數(shù)據(jù)信息有不同的來源,具有數(shù)量、不清潔等諸多不良特點(diǎn),進(jìn)而不能直接對這些數(shù)據(jù)進(jìn)行使用,也不能直接將這些數(shù)據(jù)輸入到數(shù)據(jù)倉庫中,所以需要對這些數(shù)據(jù)先進(jìn)行處理分析,然后再將這些數(shù)據(jù)以高質(zhì)量輸入到數(shù)據(jù)倉庫中供用戶使用。因此,數(shù)據(jù)倉庫的核心技術(shù)――ETL技術(shù)負(fù)責(zé)對數(shù)據(jù)信息進(jìn)行清洗、轉(zhuǎn)換等,保證數(shù)據(jù)信息質(zhì)量的一種技術(shù),ETL技術(shù)可以將數(shù)據(jù)分散、數(shù)據(jù)不清等問題進(jìn)行解決,保證數(shù)據(jù)信息可以高質(zhì)量的輸入到數(shù)據(jù)倉庫中供企業(yè)的各部門安全使用。
(二)數(shù)據(jù)倉庫用于科研數(shù)據(jù)的快速檢索、查詢
數(shù)據(jù)倉庫是為了實(shí)現(xiàn)數(shù)據(jù)的存儲、檢索以及表達(dá),例如當(dāng)數(shù)據(jù)倉庫中的數(shù)據(jù)需要從一種形式轉(zhuǎn)換成另一種形式時(shí),ETL的數(shù)據(jù)轉(zhuǎn)換就需要進(jìn)行考慮,同時(shí)ETL中的數(shù)據(jù)抽取、轉(zhuǎn)換、裝載等都需要變成轉(zhuǎn)換操作,所以對于數(shù)據(jù)倉庫而言數(shù)據(jù)轉(zhuǎn)換是其核心部分。數(shù)據(jù)倉庫實(shí)質(zhì)上是一個(gè)獨(dú)立的數(shù)據(jù)環(huán)境,它需要從不同的系統(tǒng)中抽取所需要的數(shù)據(jù),然后通過ETL技術(shù)將這些數(shù)據(jù)進(jìn)行處理,處理過后的數(shù)據(jù)信息才可以安全的輸入到數(shù)據(jù)倉庫中。ETL技術(shù)主要涉及到互連、復(fù)制、轉(zhuǎn)換、監(jiān)控等方面的內(nèi)容,在數(shù)據(jù)倉庫中的數(shù)據(jù)不需要和處理系統(tǒng)中、或者其他相關(guān)系統(tǒng)中的數(shù)據(jù)保持同步,盡量保證數(shù)據(jù)倉庫中信息的有效性。
為了將數(shù)據(jù)冗余等問題進(jìn)行避免,在抽取的數(shù)據(jù)進(jìn)入到數(shù)據(jù)倉庫之前,需要對其進(jìn)行有效性檢查,這項(xiàng)工作在數(shù)據(jù)倉庫數(shù)據(jù)輸入中非常重要,如果沒有對這些即將輸入到數(shù)據(jù)倉庫的數(shù)據(jù)進(jìn)行有效性檢查,就會(huì)對整個(gè)數(shù)據(jù)倉庫的完整性產(chǎn)生破壞,或者將其破壞的幾率大大的增加。對數(shù)據(jù)進(jìn)行有效性檢查最好的方法就是源系統(tǒng)。在源系統(tǒng)中有專業(yè)的和非專業(yè)的技術(shù)知識人員,但是數(shù)據(jù)有效性檢查是一項(xiàng)費(fèi)時(shí)又不可省略的一個(gè)環(huán)節(jié),所以可以進(jìn)行自動(dòng)化的檢查。
(三)通過數(shù)據(jù)倉庫實(shí)現(xiàn)科研數(shù)據(jù)的清除及轉(zhuǎn)換
由于數(shù)據(jù)倉庫中的數(shù)據(jù)來自不同的數(shù)據(jù)源,這些數(shù)據(jù)源可能出現(xiàn)不同的平臺上,有不同的操作系統(tǒng),所以這些數(shù)據(jù)會(huì)以不同的形式輸入到數(shù)據(jù)倉庫中。如何將這些數(shù)據(jù)加載,是數(shù)據(jù)倉庫建立中需要考慮的一個(gè)問題,在進(jìn)行數(shù)據(jù)遷移的過程中,會(huì)將數(shù)據(jù)以一種適合數(shù)據(jù)倉庫的格式轉(zhuǎn)入數(shù)據(jù)倉庫中,這就是數(shù)據(jù)的格式化,對數(shù)據(jù)的處理是數(shù)據(jù)倉庫成功建立的關(guān)鍵,所以在數(shù)據(jù)提取的過程中,對數(shù)據(jù)進(jìn)行格式化,從操作中實(shí)現(xiàn)數(shù)據(jù)資源的共享。ETL技術(shù)進(jìn)行的數(shù)據(jù)有效性檢查是對數(shù)據(jù)進(jìn)行標(biāo)準(zhǔn)給定的過程,如果數(shù)據(jù)的給定沒有在界定的范圍之內(nèi),那么它就是需要清除的對象。數(shù)據(jù)的清除包括了在給定界限范圍之外的數(shù)據(jù),對這些數(shù)據(jù)采取一定的糾正措施。
通過數(shù)據(jù)倉庫,實(shí)現(xiàn)科研數(shù)據(jù)的轉(zhuǎn)換,是為了體現(xiàn)這些數(shù)據(jù)的價(jià)值,使其更加有意義,進(jìn)一步推動(dòng)科研工作的進(jìn)程。在數(shù)據(jù)轉(zhuǎn)換的過程,使用最好的方法保證數(shù)據(jù)從原始儲存器到數(shù)據(jù)倉庫的過程是同步的,將數(shù)據(jù)轉(zhuǎn)換的重點(diǎn)放在語言的標(biāo)準(zhǔn)化、數(shù)據(jù)移動(dòng)、通信等方面,數(shù)據(jù)的轉(zhuǎn)換除了自動(dòng)化轉(zhuǎn)換以外,還具有一定的復(fù)雜性,所以在ETL數(shù)據(jù)轉(zhuǎn)換工具、技術(shù)不斷更新的同時(shí),還需要將其復(fù)雜性進(jìn)行解決。
(四)數(shù)據(jù)倉庫與科研數(shù)據(jù)動(dòng)態(tài)更新
隨著科研進(jìn)程的推進(jìn),數(shù)據(jù)倉庫也需要伴隨著科研數(shù)據(jù)的動(dòng)態(tài)進(jìn)行更新,這樣,才有助于實(shí)現(xiàn)數(shù)據(jù)的時(shí)效性。對檢查驗(yàn)收之后的業(yè)務(wù)數(shù)據(jù)進(jìn)行相應(yīng)的更新,其他的數(shù)據(jù)都是在年底的時(shí)候才進(jìn)行統(tǒng)一的更新。兩項(xiàng)或者兩項(xiàng)以上的、連續(xù)生產(chǎn)經(jīng)營活動(dòng)的變化和更新,都會(huì)被看作是多次變化,需要分別進(jìn)行更新。數(shù)據(jù)倉庫更新方法主要是主鍵關(guān)聯(lián)法,主鍵關(guān)聯(lián)法就是要求被更新的數(shù)據(jù)庫和更新數(shù)據(jù)庫具有相同標(biāo)識的小班唯一鍵值,然后才可以進(jìn)行一對一的關(guān)聯(lián),最后才可以進(jìn)行數(shù)據(jù)倉庫數(shù)據(jù)的更新,主要更新的手段是字段更新。在對數(shù)據(jù)倉庫進(jìn)行更新時(shí),必須保證的是一對一的關(guān)聯(lián),要不然會(huì)產(chǎn)生錯(cuò)誤的邏輯關(guān)系。
(五)數(shù)據(jù)倉庫在科研檔案管理中的應(yīng)用
通過數(shù)據(jù)倉庫來實(shí)現(xiàn)科研的檔案管理工作,對完善科研檔案管理具有重大的意義。對科研課題檔案資源進(jìn)行研究和開發(fā)利用,檔案管理人員要注意聯(lián)合課題研究人員一起,及時(shí)的對各種課題檔案進(jìn)行整理,通過數(shù)據(jù)倉庫,對檔案資源進(jìn)行整合。然后積極的利用各種信息化技術(shù),有效實(shí)現(xiàn)檔案資源的共享。并努力的深入研究開發(fā)各種檔案資源,更好的為經(jīng)濟(jì)建設(shè)提供服務(wù),最大程度的妥善利用各種檔案資源,保證科研究成果的最大化利用。從而有效的實(shí)現(xiàn)通過合理的利用促進(jìn)科研工作的快速發(fā)展的目的,取得較大的經(jīng)濟(jì)社會(huì)價(jià)值。
三、結(jié)語
針對現(xiàn)階段我國研究所科研項(xiàng)目管理工作中存在的問題,積極運(yùn)用數(shù)據(jù)倉庫,來實(shí)現(xiàn)對科研數(shù)據(jù)資源的整合及管理。依靠數(shù)據(jù)倉庫實(shí)現(xiàn)科研檔案的規(guī)范化管理,以科研動(dòng)態(tài)為基礎(chǔ),及時(shí)更新數(shù)據(jù)倉庫,保持?jǐn)?shù)據(jù)倉庫的時(shí)效性。數(shù)據(jù)倉庫在科研管理中的應(yīng)用,進(jìn)一步優(yōu)化了我國科研管理工作,提高了科研管理的質(zhì)量和效率。努力提升我國科研管理能力,完善科研項(xiàng)目管理程序,使該管理體系逐步趨向規(guī)范化、成熟化。
參考文獻(xiàn):
[1]焦振.基于Oracle的人事科研數(shù)據(jù)倉庫設(shè)計(jì)與實(shí)現(xiàn)[J].安陽師范學(xué)院學(xué)報(bào),2013,(2):46-50.
[2]湯雪,趙衛(wèi)東,呂萬里等.高校教職工科研管理系統(tǒng)數(shù)據(jù)倉庫設(shè)計(jì)[J].福建電腦,2010,26(2):119-119,102.
[3]肖紅玉,黃靜,陳海等.數(shù)據(jù)庫技術(shù)在科研管理系統(tǒng)中的應(yīng)用[J].制造業(yè)自動(dòng)化,2010,32(10):68-70.
[4]巫莉莉,張波,李濤等.高??蒲泄芾硐到y(tǒng)智能分析模塊的分析與實(shí)現(xiàn)[J].計(jì)算機(jī)工程與設(shè)計(jì),2010,31(11):2641-2644.
[5]胡君.基于數(shù)據(jù)倉庫的科研管理系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)[D].中國地質(zhì)大學(xué)(武漢),2011.
篇9
隨著社會(huì)的進(jìn)步與科技水平的提高,互聯(lián)網(wǎng)在各個(gè)領(lǐng)域被廣泛的使用,為了實(shí)現(xiàn)更好的組織決策和服務(wù),互聯(lián)網(wǎng)管理人員對大數(shù)據(jù)的重視程度越來越高,對大數(shù)據(jù)進(jìn)行了詳細(xì)的獲取、應(yīng)用以及分析的深入研究。就目前而言,手機(jī)使用率與普及程度已經(jīng)達(dá)到了很高的程度,移動(dòng)互聯(lián)網(wǎng)APP的用戶也在不斷的增加。為了有效的開發(fā)和改良APP軟件,時(shí)其可以更好的服務(wù)于客戶,相關(guān)的APP管理人與開發(fā)人員需要針對用戶群體進(jìn)行高度分析與調(diào)查,認(rèn)識客戶的需求,如此大量的數(shù)據(jù)分析也就需要構(gòu)建相應(yīng)移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉庫,開發(fā)人員也需要對這項(xiàng)工作高度的重視。本文通過分析移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉庫的應(yīng)用,提出有效的具體策略,以供開發(fā)者參考與借鑒。
【關(guān)鍵詞】移動(dòng)互聯(lián)網(wǎng) APP 數(shù)據(jù)倉庫 應(yīng)用分析
網(wǎng)絡(luò)信息技術(shù)如今正處于高速發(fā)展的階段,大數(shù)據(jù)逐漸被社會(huì)各界重視起來,數(shù)據(jù)倉庫作為數(shù)據(jù)挖掘和分析的重要平臺,在各個(gè)行業(yè)中被廣泛的使用。數(shù)據(jù)倉庫可以記錄每一個(gè)人網(wǎng)絡(luò)中進(jìn)行的操作與行為,并以數(shù)據(jù)的形式存儲起來,為開發(fā)者與管理者提供了大量的數(shù)據(jù)信息,穩(wěn)定了數(shù)據(jù)來源。移動(dòng)互聯(lián)網(wǎng)APP自身具備便捷、用戶流量較小、數(shù)據(jù)變化快速等特點(diǎn),對于此特點(diǎn)使用現(xiàn)有的大型數(shù)據(jù)倉庫并不合適,可以針對移動(dòng)互聯(lián)網(wǎng)APP的特點(diǎn)開發(fā)適用于其的數(shù)據(jù)倉庫,對移動(dòng)互聯(lián)網(wǎng)的用戶行為與需求進(jìn)行有效的收集和存儲。
1 建立適用于移動(dòng)互聯(lián)網(wǎng)數(shù)據(jù)倉庫的必要性
數(shù)據(jù)挖掘與分析是目前人工智能與數(shù)據(jù)倉庫的熱門要點(diǎn),目前這樣的數(shù)據(jù)處理技術(shù)是通過數(shù)據(jù)庫,將其中的有價(jià)值的、隱藏的數(shù)據(jù)抽離出來,為開發(fā)者與管理者策略提供相應(yīng)的線索。數(shù)據(jù)倉庫則是實(shí)現(xiàn)這一技術(shù)的重要平臺,其通過將用戶的行為與需求已數(shù)據(jù)的形式進(jìn)行記錄,建立龐大的數(shù)據(jù)集合,為開發(fā)者與管理者提供有效的信息。
目前,智能手機(jī)的普及程度在不斷的上升,移動(dòng)互聯(lián)網(wǎng)的用戶也在不斷的增加,可以說現(xiàn)在每一個(gè)人都可以使用手機(jī)在互聯(lián)網(wǎng)上進(jìn)行活動(dòng),已經(jīng)成為了人們?nèi)粘I町?dāng)中不可缺少的必須品。手機(jī)具有通信、娛樂、購物等眾多的功能,占據(jù)了人們?nèi)粘I畹拇蟛糠挚臻g與時(shí)間。為了跟隨時(shí)代的腳步,更好的為手機(jī)用戶提供服務(wù),移動(dòng)互聯(lián)網(wǎng)的開發(fā)者開始著手于對數(shù)據(jù)倉庫的建設(shè),利用先進(jìn)的數(shù)據(jù)技術(shù),對用用戶的需求進(jìn)行詳細(xì)的分析與研究,就手機(jī)用戶流量小、數(shù)據(jù)變動(dòng)較快、數(shù)據(jù)復(fù)雜的特點(diǎn)而言,構(gòu)建適用于移動(dòng)互聯(lián)網(wǎng)的數(shù)據(jù)倉庫迎合了時(shí)代的腳步又滿足了用戶的需求,是十分必要的。
2 移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉庫的應(yīng)用需求
關(guān)于移動(dòng)互聯(lián)網(wǎng)APP的數(shù)據(jù)挖掘與分析,其自身具有一定的用戶使用的規(guī)律與特點(diǎn),因此要構(gòu)建適合移動(dòng)互聯(lián)網(wǎng)APP的數(shù)據(jù)倉庫。首先,移動(dòng)互聯(lián)網(wǎng)APP其自身的數(shù)據(jù)規(guī)模并不是很大,由此可見數(shù)據(jù)倉庫的構(gòu)建并不需要大型的,要更加的靈巧、便捷,并且不會(huì)占用大量的儲存空間,能夠及時(shí)的反應(yīng)用戶的行為。再者,移動(dòng)互聯(lián)網(wǎng)APP的數(shù)據(jù)是在時(shí)刻變動(dòng)的,沒有相應(yīng)的規(guī)律可循,這就需要數(shù)據(jù)庫頻繁的上傳數(shù)據(jù),盡快對實(shí)時(shí)的用戶數(shù)據(jù)進(jìn)行分析和處理,為開發(fā)者和管理者留有充裕的時(shí)間做出決策。最后,數(shù)據(jù)倉庫要具有一定的安全性與有效性,避免數(shù)據(jù)丟失與遺漏的情況出現(xiàn),為移動(dòng)互聯(lián)網(wǎng)APP開發(fā)者上傳有效可觀的數(shù)據(jù)資料,保持其數(shù)據(jù)、信息與參數(shù)的高度統(tǒng)一,確保數(shù)據(jù)的準(zhǔn)確性與可行性。
3 移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉庫的設(shè)計(jì)思慮
在滿足移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉庫的需求之后,開發(fā)者對數(shù)據(jù)倉庫的設(shè)計(jì)思路只要符合移動(dòng)互聯(lián)網(wǎng)APP的特點(diǎn)與數(shù)據(jù)的規(guī)律就可以初步實(shí)現(xiàn)。構(gòu)建移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉庫包括以下幾個(gè)方面:首先,需要明確用戶在使用APP的時(shí)候所展現(xiàn)的形態(tài),這種形態(tài)表現(xiàn)為關(guān)系型的數(shù)據(jù)聯(lián)系,其中包括了:個(gè)性信息、粉絲群體以及與其他用戶的互動(dòng)行為,以及用戶自身的登錄時(shí)間規(guī)律等。因此關(guān)于數(shù)據(jù)的分析與記錄的工作,需要從數(shù)據(jù)之間的兼容性以及數(shù)據(jù)看的從屬關(guān)系入手,將數(shù)據(jù)自動(dòng)同步到數(shù)據(jù)倉庫之中。再者,用戶在使用移動(dòng)互聯(lián)網(wǎng)APP的時(shí)候,所產(chǎn)生操作數(shù)據(jù),可以及時(shí)的在服務(wù)器上產(chǎn)生相應(yīng)的日志。這些日志一般都是以文件的方式儲存而來的,規(guī)模較大、內(nèi)容較為隨意。對于這樣的數(shù)據(jù)我們需要做的就是在規(guī)律性的時(shí)間內(nèi)對這些數(shù)據(jù)進(jìn)行整理并錄入到數(shù)據(jù)倉庫當(dāng)中,在轉(zhuǎn)化這些數(shù)據(jù)的時(shí)候,需要保證數(shù)據(jù)的安全性與有效性,避免對數(shù)據(jù)進(jìn)行改變。其次,客戶端產(chǎn)生的數(shù)據(jù),以及數(shù)據(jù)的形式都不具備規(guī)律性擁有較大的隨機(jī)性,但是這些數(shù)據(jù)往往反映了用戶對APP的使用情況。這類信息的存儲要保證一定的完整性,以便管理者與開發(fā)者可以有效的分析用戶的行為規(guī)則,探索用戶實(shí)際的操作行為。最后,對于前端數(shù)據(jù)的錄入到數(shù)據(jù)倉庫之中,首先需要對這些數(shù)據(jù)進(jìn)行檢驗(yàn),確保數(shù)據(jù)的一致性,排除多余參數(shù)與無效格式(如圖1)。
4 移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉庫應(yīng)用實(shí)踐
4.1 移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)庫收集的數(shù)據(jù)情況
在互聯(lián)網(wǎng)APP投入使用的過程當(dāng)中,原始數(shù)據(jù)和變遷數(shù)據(jù)的表現(xiàn)形式主要變現(xiàn)為以下三個(gè)方面:
(1)同步到繼承前端數(shù)據(jù)倉庫中的數(shù)據(jù),這一類數(shù)據(jù),是未經(jīng)過加工的數(shù)據(jù),具有較好的即時(shí)性,以及自我同步與可隨時(shí)查閱的特性。由于這些數(shù)據(jù)沒有經(jīng)過處理,因此這一類的數(shù)據(jù)不利于整合與分析,更適合作為即時(shí)信息進(jìn)行查閱。
(2)通過服務(wù)器手機(jī)的數(shù)據(jù),這些數(shù)據(jù)是經(jīng)過格式化處理的信息,被收錄在數(shù)據(jù)倉庫已經(jīng)建立的好的數(shù)據(jù)表格當(dāng)中。但是由于用戶的行為不斷的變動(dòng)所以日志的內(nèi)容也在不斷的增加與更行的,因此對于這一類的信息,通常需要經(jīng)過固定時(shí)間來進(jìn)行收集。在收集記錄這些數(shù)據(jù)的時(shí)候,系統(tǒng)會(huì)對于之前的信息進(jìn)行切斷性的總結(jié),避免數(shù)據(jù)出現(xiàn)丟失與損失。日志數(shù)據(jù)要比前一個(gè)數(shù)據(jù)占有更多的空間,對此,這部分?jǐn)?shù)據(jù)需要比之前的要大10倍,同時(shí)采用階段式的數(shù)據(jù)收集方式,避免別前端數(shù)據(jù)的影響。
(3)來自客戶端的集成日志。來自客戶端的操作日志,具備有序性、不完整性,它們是非格式化的數(shù)據(jù)。為保證其完整和規(guī)范,需要在導(dǎo)入到數(shù)據(jù)倉庫前,集中對其進(jìn)行格式化的操作。首先,需要進(jìn)行數(shù)據(jù)清理和補(bǔ)齊。因?yàn)檫@部分?jǐn)?shù)據(jù)在收錄過程中會(huì)收錄到系統(tǒng)自動(dòng)生成的日志或者機(jī)器人操作產(chǎn)生的日志,因此,需要根據(jù) APP 自身的特點(diǎn),進(jìn)行數(shù)據(jù)清理。而部分?jǐn)?shù)據(jù)會(huì)有缺失字段的現(xiàn)象,通過設(shè)置,可以對發(fā)生字段缺失的數(shù)據(jù)進(jìn)行補(bǔ)齊。然后,對數(shù)據(jù)進(jìn)行格式化處理,將所有字段進(jìn)行整理,形成統(tǒng)一完整的文本。最后,在數(shù)據(jù)倉庫中建立好與格式相匹配的數(shù)據(jù)表,將格式化后的數(shù)據(jù)信息導(dǎo)入到數(shù)據(jù)倉庫中。
4.2 實(shí)際應(yīng)用與數(shù)據(jù)倉庫的管理
移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉庫的具體管理方式對應(yīng)其表現(xiàn)的數(shù)據(jù)形式,這一部分是數(shù)據(jù)倉庫運(yùn)行的關(guān)鍵。移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉庫的具體管理方式為一下這三個(gè)方面:
4.2.1 利用關(guān)系數(shù)據(jù)庫系統(tǒng)
海量的數(shù)據(jù)存儲,要保證其有序可操作行,就必須利用關(guān)系數(shù)據(jù)庫系統(tǒng),通過大量的時(shí)間積累,數(shù)據(jù)在不斷的增加,關(guān)系數(shù)據(jù)庫可以保證這些數(shù)據(jù)有序的運(yùn)行并且依然具備可操作性。
4.2.2 并發(fā)操作技術(shù)的應(yīng)用
對于APP而言其用戶的訪問量較而且較為集中,數(shù)據(jù)之間常處于并行狀態(tài),這就需要采用并行操作,將用戶的需求都可均勻的滿足,不會(huì)出現(xiàn)網(wǎng)絡(luò)擁堵的狀態(tài)。此外關(guān)于整體數(shù)據(jù)的處理,并行操作還可以對所有的數(shù)據(jù)進(jìn)行查詢和分解,使得數(shù)據(jù)擁有高利用率。
4.2.3 優(yōu)化支持查詢
移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉庫的關(guān)系數(shù)據(jù)對于決策的查詢功能還不完善。但是結(jié)合優(yōu)化過后的查詢其等技術(shù),可以使得決策的查詢處于合理化有效化(見圖2)。
數(shù)據(jù)倉庫最主要的功能就是對數(shù)據(jù)的表現(xiàn)以及分析,其可以有效的反應(yīng)數(shù)據(jù)的具體情況,為開發(fā)者與管理者提供相應(yīng)的對策。如今的移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉庫對數(shù)據(jù)的表現(xiàn)形式主要集中在多想數(shù)據(jù)的挖掘以及分析上面。在數(shù)據(jù)倉庫的運(yùn)用當(dāng)中,多為分析起到了重要的作用,可以幫助開發(fā)者與管理者從多個(gè)元度進(jìn)行比較,數(shù)據(jù)統(tǒng)計(jì)的方式已經(jīng)被廣泛的運(yùn)用,并且其收益十分之高。
5 結(jié)語
移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉庫的使用可以為APP開發(fā)人員提供海量的參考信息,可以更加便捷快速的了解用戶的需求與滿意程度。數(shù)據(jù)倉庫的應(yīng)用在數(shù)據(jù)挖掘中具有很高的使用價(jià)值和更高的性能,此外,數(shù)據(jù)倉庫的投入較少,性價(jià)比極高。其在大數(shù)據(jù)挖掘、分析以及移動(dòng)互聯(lián)網(wǎng)APP領(lǐng)域有著較高的發(fā)展空間。要開發(fā)者更深入的進(jìn)行了解與創(chuàng)新,使數(shù)據(jù)倉庫發(fā)揮自身的價(jià)值與潛能,為開發(fā)者提供更為有效的信息。
參考文獻(xiàn)
[1]黃國賢.移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉庫的應(yīng)用實(shí)踐研究[J].科技傳播,2016,8(03):67,75.
[2]沈偉,汪海航.移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉庫的實(shí)現(xiàn)與應(yīng)用[J].科技風(fēng),2015(06):93-94.
[3]賈慶華.移動(dòng)互聯(lián)網(wǎng)APP數(shù)據(jù)倉庫的應(yīng)用實(shí)踐研究[J].通訊世界,2016(09):30-30.
[4]王恂.大數(shù)據(jù)背景下基于Hbase技術(shù)的移動(dòng)統(tǒng)計(jì)平臺研究[J].無線互聯(lián)科技,2015(13):47-48.
篇10
1.數(shù)據(jù)倉庫的定義
目前,數(shù)據(jù)倉庫一詞尚沒有一個(gè)統(tǒng)一的定義,著名的數(shù)據(jù)倉庫專家W.H.Inmon在其著作《BuildingtheDataWarehouse》一書中給予如下描述:數(shù)據(jù)倉庫(DataWarehouse)是一個(gè)面向主題的(SubjectOriented)、集成的(Integrate)、相對穩(wěn)定的(Non-Volatile)、反映歷史變化(TimeVariant)的數(shù)據(jù)集合,用于支持管理決策。對于數(shù)據(jù)倉庫的概念我們可以從兩個(gè)層次予以理解,首先,數(shù)據(jù)倉庫用于支持決策,面向分析型數(shù)據(jù)處理,它不同于企業(yè)現(xiàn)有的操作型數(shù)據(jù)庫;其次,數(shù)據(jù)倉庫是對多個(gè)異構(gòu)的數(shù)據(jù)源有效集成,集成后按照主題進(jìn)行了重組,并包含歷史數(shù)據(jù),而且存放在數(shù)據(jù)倉庫中的數(shù)據(jù)一般不再修改。
2.數(shù)據(jù)倉庫的特點(diǎn)
(1)面向主題。操作型數(shù)據(jù)庫的數(shù)據(jù)組織面向事務(wù)處理任務(wù),各個(gè)業(yè)務(wù)系統(tǒng)之間各自分離,而數(shù)據(jù)倉庫中的數(shù)據(jù)是按照一定的主題域進(jìn)行組織。主題是一個(gè)抽象的概念,是指用戶使用數(shù)據(jù)倉庫進(jìn)行決策時(shí)所關(guān)心的重點(diǎn)方面,一個(gè)主題通常與多個(gè)操作型信息系統(tǒng)相關(guān)。
(2)集成的。面向事務(wù)處理的操作型數(shù)據(jù)庫通常與某些特定的應(yīng)用相關(guān),數(shù)據(jù)庫之間相互獨(dú)立,并且往往是異構(gòu)的。而數(shù)據(jù)倉庫中的數(shù)據(jù)是在對原有分散的數(shù)據(jù)庫數(shù)據(jù)抽取、清理的基礎(chǔ)上經(jīng)過系統(tǒng)加工、匯總和整理得到的,必須消除源數(shù)據(jù)中的不一致性,以保證數(shù)據(jù)倉庫內(nèi)的信息是關(guān)于整個(gè)企業(yè)的一致的全局信息。
(3)相對穩(wěn)定的。操作型數(shù)據(jù)庫中的數(shù)據(jù)通常實(shí)時(shí)更新,數(shù)據(jù)根據(jù)需要及時(shí)發(fā)生變化。數(shù)據(jù)倉庫的數(shù)據(jù)主要供企業(yè)決策分析之用,所涉及的數(shù)據(jù)操作主要是數(shù)據(jù)查詢,一旦某個(gè)數(shù)據(jù)進(jìn)入數(shù)據(jù)倉庫以后,一般情況下將被長期保留,也就是數(shù)據(jù)倉庫中一般有大量的查詢操作,但修改和刪除操作很少,通常只需要定期的加載、刷新。
(4)反映歷史變化。操作型數(shù)據(jù)庫主要關(guān)心當(dāng)前某一個(gè)時(shí)間段內(nèi)的數(shù)據(jù),而數(shù)據(jù)倉庫中的數(shù)據(jù)通常包含歷史信息,系統(tǒng)記錄了企業(yè)從過去某一時(shí)點(diǎn)(如開始應(yīng)用數(shù)據(jù)倉庫的時(shí)點(diǎn))到目前的各個(gè)階段的信息,通過這些信息,可以對企業(yè)的發(fā)展歷程和未來趨勢做出定量分析和預(yù)測。
企業(yè)數(shù)據(jù)倉庫的建設(shè),是以現(xiàn)有企業(yè)業(yè)務(wù)系統(tǒng)和大量業(yè)務(wù)數(shù)據(jù)的積累為基礎(chǔ)。數(shù)據(jù)倉庫不是靜態(tài)的概念,只有把信息及時(shí)交給需要這些信息的使用者,供他們做出改善其業(yè)務(wù)經(jīng)營的決策,信息才能發(fā)揮作用,信息才有意義。而把信息加以整理歸納和重組,并及時(shí)提供給相應(yīng)的管理決策人員,是數(shù)據(jù)倉庫的根本任務(wù)。因此,從產(chǎn)業(yè)界的角度看,數(shù)據(jù)倉庫建設(shè)是一個(gè)工程,是一個(gè)過程。
二、決策支持系統(tǒng)(DSS)
1.數(shù)據(jù)倉庫化決策分析系統(tǒng)的體系結(jié)構(gòu)
這一結(jié)構(gòu)首先從各類異構(gòu)的數(shù)據(jù)庫中通過數(shù)據(jù)復(fù)制技術(shù),將數(shù)據(jù)復(fù)制到數(shù)據(jù)倉庫中。然后,在數(shù)據(jù)倉庫的基礎(chǔ)上建立數(shù)據(jù)立方體,實(shí)現(xiàn)OLAP。最后,客戶端訪問服務(wù)器采用了三層結(jié)構(gòu),通過HTTP方式直接訪問數(shù)據(jù)庫。而傳統(tǒng)的數(shù)據(jù)倉庫一般采用C/S結(jié)構(gòu)。對于C/S結(jié)構(gòu),一般說來客戶端維護(hù)比較困難,而且應(yīng)用局限在局域網(wǎng)內(nèi)。對于網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,訪問需要經(jīng)過防火墻的情況,難以處理。這里采用三層結(jié)構(gòu)有效的解決了這一問題。
2.構(gòu)建決策分析系統(tǒng)的幾個(gè)關(guān)鍵技術(shù)
(1)各庫管理系統(tǒng)。在DSS中有數(shù)據(jù)庫管理系統(tǒng)、模型庫管理系統(tǒng)、知識庫管理系統(tǒng)。它們分別對數(shù)據(jù)庫、模型庫、知識庫進(jìn)行有效的管理。各庫管理系統(tǒng)有其共性也有各自的特點(diǎn),需要進(jìn)行分別處理。
①數(shù)據(jù)庫管理系統(tǒng)。作為DSS中的數(shù)據(jù)庫,系統(tǒng)可以采用已成熟的數(shù)據(jù)庫系統(tǒng),也可以根據(jù)需要自行設(shè)計(jì)。采用已成熟的數(shù)據(jù)庫系統(tǒng),可以減少實(shí)現(xiàn)數(shù)據(jù)庫管理系統(tǒng)的大量工作,但是要解決好決策支持系統(tǒng)與數(shù)據(jù)庫系統(tǒng)的接口。如果自行設(shè)計(jì)數(shù)據(jù)庫系統(tǒng),就要按數(shù)據(jù)庫系統(tǒng)的要求,設(shè)計(jì)和完成一套數(shù)據(jù)庫語言來實(shí)現(xiàn)數(shù)據(jù)庫的功能。
②模型庫管理系統(tǒng)。建立模型庫管理系統(tǒng)同數(shù)據(jù)庫管理系統(tǒng)一樣,要設(shè)計(jì)一套模型庫管理語言來實(shí)現(xiàn)對模型庫的一般管理和特殊管理功能。一般的管理包括對模型的增加、刪除、修改以及查詢等功能。由于模型有源程序文件和目標(biāo)程序文件的特點(diǎn),故需要增加對模型源文件的編輯和編譯等功能,這是模型庫的特殊管理功能。
③知識庫管理系統(tǒng)。知識庫是由知識文件庫組成。類似于數(shù)據(jù)庫管理系統(tǒng),知識庫管理系統(tǒng)需要有對各類知識的基本管理功能,即對知識進(jìn)行增加、刪除、修改等維護(hù)功能以及查詢功能等。對知識需要進(jìn)行特殊管理,即對知識的一致性檢查。
(2)接口技術(shù)。在數(shù)據(jù)庫系統(tǒng)、模型庫系統(tǒng)和知識庫系統(tǒng)建立以后,部件之間的接口技術(shù)就突出了。
①模型存取數(shù)據(jù)庫的接口。
②知識存取數(shù)據(jù)庫的接口。
③模型庫和知識庫之間的接口。
3.統(tǒng)一集成技術(shù)
DSS是人機(jī)交互、問題處理、數(shù)據(jù)庫系統(tǒng)、模型庫系統(tǒng)、知識庫的有機(jī)集成體。對任一個(gè)實(shí)際決策問題,首先需要建立數(shù)據(jù)庫系統(tǒng)、模型庫系統(tǒng)和知識庫系統(tǒng)。再在各庫間接口的基礎(chǔ)上,利用DSS集成語言,對決策問題進(jìn)行形式
化描述,形成統(tǒng)一集成各庫的問題處理系統(tǒng),即統(tǒng)一集成的DSS。
熱門標(biāo)簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)安全論文 數(shù)據(jù)管理論文 數(shù)據(jù)庫論文 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)誤差 數(shù)據(jù)采集 數(shù)據(jù)通信論文 數(shù)據(jù) 心理培訓(xùn) 人文科學(xué)概論
相關(guān)文章
1政務(wù)數(shù)據(jù)協(xié)同治理的分析
3建筑業(yè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量探討