數(shù)據挖掘范文
時間:2023-03-26 17:13:39
導語:如何才能寫好一篇數(shù)據挖掘,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
關鍵詞:數(shù)據挖掘;因特網;服務
中圖分類號:TP
文獻標識碼:A
文章編號:1672-3198(2010)17-0357-01
1 數(shù)據挖掘的概念
數(shù)據挖掘(Data Mining)最早是在數(shù)據庫領域發(fā)展起來的。稱為數(shù)據庫中的知識發(fā)現(xiàn)(KDD,Knowledge Discovery in Database),據挖掘是從大量的包括結構化和非結構化數(shù)據中提取隱含在其中的、事先不為人知的、潛在的、有用的信息和知識的過程,它要求數(shù)據源應該是大量的、真實的、多媒體的;所發(fā)現(xiàn)和提取的信息和知識是潛在的、有效的并隱藏在大量數(shù)據背后,是用戶感興趣的、可理解、可運用的知識,數(shù)據挖掘是一個利用各種分析工具在海量數(shù)據中發(fā)現(xiàn)模型和數(shù)據間關系的過程。
2 數(shù)據挖掘的系統(tǒng)簡介
2.1 AuthorLink系統(tǒng)
最近,美國開發(fā)出了基于文獻計量分析的知識查詢系統(tǒng),并借助于可視化技術首次將復雜的統(tǒng)計結果,用通俗易懂的圖像形式顯示給用戶,從而實現(xiàn)了知識信息提供服務的一次變革。
2.2 專利統(tǒng)計分析系統(tǒng)
人們關于專利的統(tǒng)計分析,事實上也是一種知識挖掘。目前,包括英國的WPI及美國、日本專利局等網絡站點,都在提供專利文獻檢索服務的同時提供專利統(tǒng)計分析的服務。
2.3 OLAP系統(tǒng)
OLAP系統(tǒng)(On-Line Analytical Processing聯(lián)機分析處理系統(tǒng))也是一種典型的數(shù)據挖掘系統(tǒng)。這是一種含有數(shù)據導航、數(shù)據查詢、建模、預測和數(shù)據挖掘的數(shù)據分析系統(tǒng)。其中OLAP引擎可以在前端接口接受用戶提交的多維提問,并轉換成SQL語句,然后將提問查詢提交數(shù)據庫,最后以圖表的形式輸出。
3 數(shù)據挖掘的步驟
(1)確定應用領域:包括此領域的基本知識和目標;(2)建立目標數(shù)據集:選擇一個數(shù)據集或在多數(shù)據集的子集上聚焦;(3)數(shù)據預處理:在大數(shù)據集中,根據需求,利用數(shù)據凈化和整合技術,選擇與任務相關數(shù)據,在不降低其準確度的狀況下減少處理數(shù)據量;(4)數(shù)據轉換:找到數(shù)據的特征進行編碼,減少有效變量的數(shù)目;(5)數(shù)據挖掘:根據數(shù)據和所要發(fā)現(xiàn)知識的種類來確定相應的挖掘算法;(6)數(shù)據評價:將挖掘出的知識和數(shù)據以各種可視化方式顯示,并將其以圖形、文本等方式存儲在庫中,以便對它們進一步挖掘,直至滿意為止;(7)實施和應用:實施和應用階段是指利用數(shù)據挖掘技術所建立模型在實際項目中的應用,包括數(shù)據庫的構建,個性化用戶服務、基于知識的企業(yè)信息管理(MIS)、金融、證券、股票分析、電子商務、企業(yè)目標管理、決策支持等等。
4 數(shù)據挖掘服務的實現(xiàn)
4.1 數(shù)據挖掘為個性化服務打下基礎
收集用戶有關的信息,建立用戶信息庫。用戶是數(shù)字圖書館的重要資源,一個信息完整的用戶信息庫,能保證在充分挖掘的基礎上,了解用戶的普遍性需求與特殊性需求,從而開展有針對性的個性化服務。通過對用戶訪問日志記錄信息的挖掘,把握用戶興趣,有助于開展網絡信息推送服務以及個人信息的定制服務。但從用戶群整體來看,用戶的信息需求又是隨機的,這為一般用戶需求信息分析帶來了很大困難。數(shù)據挖掘從全局出發(fā),以豐富、動態(tài)的聯(lián)機查詢和分析來了解用戶的信息需求。通過在線提問、調查表等方式,系統(tǒng)可以獲取關于用戶的用戶名、用戶訪問IP地址、用戶的職業(yè)、年齡、愛好等原始信息。然后,采取一定的挖掘規(guī)則(如關聯(lián)規(guī)則、聯(lián)機分析處理等),對這些數(shù)據進行融合分析,其結果是為每個用戶建立一個信息需求模型。根據用戶需求,主動跟蹤本地信息庫和網絡相關信息,收集用戶所需信息。為了提高準確度,還應對所收集的信息進行相關性分析,可以根據用戶提供的檢索詞,確定所檢索到的信息與該檢索詞的相關度。同時還可以利用智能推送技術將用戶所需信息推到用戶的計算機、電子信箱,甚至手機、PDA上。
4.2 數(shù)據挖掘使網絡資源的內容檢索成為可能
網絡內容挖掘是一個從文本、圖像、音頻、視頻、元數(shù)據等形式的網絡源信息中采用分類、聚類等形式的挖掘方法,發(fā)現(xiàn)有用信息,并將這些信息按滿足某種檢索方式的形式加以組織的過程。通過對網站內容的挖掘,主要是對文本內容的挖掘,可以有效地組織網絡資源。有的學者應用數(shù)據和文本挖掘技術在網絡上進行問題跟蹤,從而獲得了以前未知的有用知識,為信息內容分析提供了極大的可能性。網絡內容挖掘是目前網絡信息檢索發(fā)展的一個關鍵,通過對網頁內容挖掘,可以實現(xiàn)對網頁的聚類、分類,實現(xiàn)網絡信息的分類瀏覽與檢索;通過對用戶所使用的提問式(query)的歷史記錄分析,可以有效地進行提問擴展(query expansion),提高查全率和查準率;可以運用網絡內容挖掘技術進行關鍵詞加權算法,提高網絡信息的標引準確度,從而改善檢索效果。
篇2
關鍵詞:數(shù)據挖掘;方法;數(shù)據挖掘技術;數(shù)據倉庫
中圖分類號:TP311文獻標識碼:A 文章編號:1009-3044(2008)34-2030-03
Brief Analysis of Data Mining Techniques
WEI Xiao-ling
(Department of Primary education, Qinzhou University, Qinzhou 535000, China)
Abstract: Data mining techniques is an emerging research field in database and artificial intelligence.Is present widespread research data bank technology Is present widespread research data bank technology, It may refine usefully, the latent information from the massive data, After ten several years research and application, Had already established the quite solid rationale, at present, is closely integrated with applications, Further reform of the existing technology development.
Key words: data mining; methods; data mining; techniques data warehouse
1 引言
隨著計算機技術,特別是數(shù)據庫技術的快速發(fā)展和廣泛應用,各行各業(yè)積累的數(shù)據量越來越大,傳統(tǒng)的數(shù)據處理方式已很難充分利用蘊藏在這些數(shù)據中的有用知識,為適應這種需求 ,數(shù)據挖掘(Data Mining,DM)應運而生,并得以蓬勃發(fā)展,越來越顯示出其強大的生命力。
數(shù)據挖掘技術是人們長期對數(shù)據庫技術進行研究和開發(fā)的結果。起初各種商業(yè)數(shù)據是存儲在計算機的數(shù)據庫中的,然后發(fā)展到可對數(shù)據庫進行查詢和訪問,進而發(fā)展到對數(shù)據庫的即時遍歷。數(shù)據挖掘使數(shù)據庫技術進入了一個更高級的階段,它不僅能對過去的數(shù)據進行查詢和遍歷,并且能夠找出過去數(shù)據之間的潛在聯(lián)系,從而促進信息的傳遞。
從80年代末數(shù)據挖掘開始出現(xiàn),短短二十多年它的發(fā)展速度很快。目前數(shù)據挖掘技術在零售業(yè)的購物籃分析、金融風險預測 、產品質量分析、通訊及醫(yī)療服務 、基因工程研究等許 多領域得到了成功的應用.很多專題會議也把數(shù)據挖掘和知識發(fā)現(xiàn)列為議題之一。
2 數(shù)據挖掘技術概述
所謂數(shù)據挖掘就是從大量的、不完全的、有噪聲的、模糊的、隨機的實際應用數(shù)據中,提取隱含在其中的、人們事先不知道的、但又是潛在有用的信息和知識的過程。
數(shù)據挖掘的核心模塊技術歷經了數(shù)十年的發(fā)展,其中包括數(shù)理統(tǒng)計、人工智能、機器學習。今天,這些成熟的技術,加上高性能的關系數(shù)據庫引擎以及廣泛的數(shù)據集成,讓數(shù)據挖掘技術在當前的數(shù)據倉庫環(huán)境中進入了實用的階段。
數(shù)據挖掘與傳統(tǒng)的數(shù)據分析(如查詢、報表、聯(lián)機應用分析)的本質區(qū)別是數(shù)據挖掘是在沒有明確假設的前提下去挖掘信息、發(fā)現(xiàn)知識。數(shù)據挖掘所得到的信息應具有先未知,有效和可實用三個特征。
3 數(shù)據挖掘技術功能
1) 自動預測趨勢和行為
數(shù)據挖掘自動在大型數(shù)據庫中尋找預測性信息,以往需要進行大量手工分析的問題如今可以迅速直接由數(shù)據本身得出結論。一個典型的例子是市場預測問題,數(shù)據挖掘使用過去有關促銷的數(shù)據來尋找未來投資中回報最大的用戶,其它可預測的問題包括預報破產以及認定對指定事件最可能作出反應的群體。
2) 關聯(lián)分析
數(shù)據關聯(lián)是數(shù)據庫中存在的一類重要的可被發(fā)現(xiàn)的知識。若兩個或多個變量的取值之間存在某種規(guī)律性,就稱為關聯(lián)。關聯(lián)可分為簡單關聯(lián)、時序關聯(lián)、因果關聯(lián)。關聯(lián)分析的目的是找出數(shù)據庫中隱藏的關聯(lián)網。有時并不知道數(shù)據庫中數(shù)據的關聯(lián)函數(shù),即使知道也是不確定的,因此關聯(lián)分析生成的規(guī)則帶有可信度。
3) 聚類
數(shù)據庫中的記錄可被化分為一系列有意義的子集,即聚類。聚類增強了人們對客觀現(xiàn)實的認識,是概念描述和偏差分析的先決條件。聚類技術主要包括傳統(tǒng)的模式識別方法和數(shù)學分類學。80年代初,Mchalski提出了概念聚類技術其要點是,在劃分對象時不僅考慮對象之間的距離,還要求劃分出的類具有某種內涵描述,從而避免了傳統(tǒng)技術的某些片面性。
4) 概念描述
概念描述就是對某類對象的內涵進行描述,并概括這類對象的有關特征。概念描述分為特征性描述和區(qū)別性描述,前者描述某類對象的共同特征,后者描述不同類對象之間的區(qū)別。生成一個類的特征性描述只涉及該類對象中所有對象的共性。生成區(qū)別性描述的方法很多,如決策樹方法、遺傳算法等。
5) 偏差檢測
數(shù)據庫中的數(shù)據常有一些異常記錄,從數(shù)據庫中檢測這些偏差很有意義。偏差包括很多潛在的知識,如分類中的反常實例、不滿足規(guī)則的特例、觀測結果與模型預測值的偏差、量值隨時間的變化等。偏差檢測的基本方法是,尋找觀測結果與參照值之間有意義的差別。
4 數(shù)據挖掘常用技術
在數(shù)據挖掘中最常用的技術有:
人工神經網絡:人工神經網絡方法從結構上模仿生物神經網絡,是一種通過訓練來學習的非線性預測模型。 它將每一個連接看作一個處理單元(PE),試圖模擬人腦神經元的功能。它可以完成分類、聚類、特征挖掘等多種數(shù)據挖掘任務。
決策樹:決策樹是數(shù)據挖掘中經常要用到的一種技術,可以用于分析數(shù)據,同樣也可以用來作預測。它利用樹的結構將數(shù)據記錄進行分類,樹的一個葉結點就代表某個條件下的一個記錄集,根據記錄字段的不同取值建立樹的分支;在每個分支子集中重復建立下層結點和分支,便可生成一棵決策樹。常用的算法有CHAID、 CART、 Quest 和C5.0。
遺傳算法:遺傳算法是一種基于生物自然選擇與遺傳機理的隨機搜索算法。其基本思想是基于 Darwin的進化論和 Mendel的遺傳學說。該算法由密執(zhí)安(Michigan)大學教授 Holland及其學生于 1975年創(chuàng)建。與傳統(tǒng)搜索算法不同,遺傳算法從一組隨機產生的初始解,稱為種群(Population),開始搜索過程。種群中的每個個體是問題的一個解,稱為染色體(Chromone)。染色體是一串符號,例如一個二進制字符串。這些染色體在后續(xù)迭代中不斷進化,稱為遺傳在每一代中用適應度 (Fitness)來衡量染色體的好壞。生成下一代染色體,稱為后代(Offspring)。后代是由前一代染色體通過交叉(Crossover)或變異(Muration)運算形成。根據適應度大小選擇部分后代淘汰部分后代,從而保持種群大小是常數(shù)。適應度高的染色體被選中的概率高。這樣,經過若干代之后,算法收斂于最好的染色體,它很可能就是問題的最優(yōu)解或次優(yōu)解。
近鄰算法:將數(shù)據集合中每一個記錄進行分類的方法。
規(guī)則推導:從統(tǒng)計意義上對數(shù)據中的“如果-那么”規(guī)則進行尋找和推導。
5 數(shù)據挖掘技術實現(xiàn)
在技術上可以根據它的工作過程分為:數(shù)據的抽取、數(shù)據的存儲和管理、數(shù)據的展現(xiàn)等關鍵技術。
1) 數(shù)據的抽取
數(shù)據的抽取是數(shù)據進入倉庫的入口。由于數(shù)據倉庫是一個獨立的數(shù)據環(huán)境,它需要通過抽取過程將數(shù)據從聯(lián)機事務處理系統(tǒng)、外部數(shù)據源、脫機的數(shù)據存儲介質中導入數(shù)據倉庫。數(shù)據抽取在技術上主要涉及互連、復制、增量、轉換、調度和監(jiān)控等幾個方面的處理。在數(shù)據抽取方面,未來的技術發(fā)展將集中在系統(tǒng)功能集成化方面,以適應數(shù)據倉庫本身或數(shù)據源的變化,使系統(tǒng)更便于管理和維護。
2) 數(shù)據的存儲和管理
數(shù)據倉庫的組織管理方式決定了它有別于傳統(tǒng)數(shù)據庫的特性,也決定了其對外部數(shù)據的表現(xiàn)形式。數(shù)據倉庫管理所涉及的數(shù)據量比傳統(tǒng)事務處理大得多,且隨時間的推移而快速累積。在數(shù)據倉庫的數(shù)據存儲和管理中需要解決的是如何管理大量的數(shù)據、如何并行處理大量的數(shù)據、如何優(yōu)化查詢等。目前,許多數(shù)據庫廠家提供的技術解決方案是擴展關系型數(shù)據庫的功能,將普通關系數(shù)據庫改造成適合擔當數(shù)據倉庫的服務器。
3) 數(shù)據的展現(xiàn)
在數(shù)據展現(xiàn)方面主要的方式有:
查詢:實現(xiàn)預定義查詢、動態(tài)查詢、OLAP查詢與決策支持智能查詢;報表:產生關系數(shù)據表格、復雜表格、OLAP表格、報告以及各種綜合報表;可視化:用易于理解的點線圖、直方圖、餅圖、網狀圖、交互式可視化、動態(tài)模擬、計算機動畫技術表現(xiàn)復雜數(shù)據及其相互關系;統(tǒng)計:進行平均值、最大值、最小值、期望、方差、匯總、排序等各種統(tǒng)計分析;挖掘:利用數(shù)據挖掘等方法,從數(shù)據中得到關于數(shù)據關系和模式的知識。
4) 數(shù)據挖掘一般過程
圖1描述了數(shù)據挖掘的基本過程和主要步驟。
過程中各步驟的大體內容如下:
5.1 確定業(yè)務對象
清晰地定義出業(yè)務問題,認清數(shù)據挖掘的目的是數(shù)據挖掘的重要一步.挖掘的最后結構是不可預測的,但要探索的問題應是有預見的,為了數(shù)據挖掘而數(shù)據挖掘則帶有盲目性,是不會成功的
5.2 數(shù)據準備
1) 數(shù)據的選擇
搜索所有與業(yè)務對象有關的內部和外部數(shù)據信息,并從中選擇出適用于數(shù)據挖掘應用的數(shù)據。
2) 數(shù)據的預處理
研究數(shù)據的質量,為進一步的分析作準備。并確定將要進行的挖掘操作的類型。
3) 數(shù)據的轉換
將數(shù)據轉換成一個分析模型。這個分析模型是針對挖掘算法建立的。建立一個真正適合挖掘算法的分析模型是數(shù)據挖掘成功的關鍵。
5.3 數(shù)據挖掘
對所得到的經過轉換的數(shù)據進行挖掘。除了完善從選擇合適的挖掘算法外,其余一切工作都能自動地完成。
5.4 結果分析
解釋并評估結果。其使用的分析方法一般應作數(shù)據挖掘操作而定,通常會用到可視化技術。
5.5 知識的同化
將分析所得到的知識集成到業(yè)務信息系統(tǒng)的組織結構中去。
6 數(shù)據挖掘技術的應用
應用是數(shù)據挖掘技術的發(fā)展動力,數(shù)據挖掘研究具有廣泛的應用前景,因為數(shù)據挖掘產生的知識可以用于決策支持、信息管理、科學研究等許多領域。數(shù)據挖掘技術與各個行業(yè)的有機結合體現(xiàn)了其蓬勃的生命力 ,且這種趨勢正在以前所未有的速度繼續(xù)向前發(fā)展。尤其是在如銀行、電信、保險、交通、零售(如超級市場)等商業(yè)領域。數(shù)據挖掘所能解決的典型商業(yè)問題包括:數(shù)據庫營銷(Database Marketing)、客戶群體劃分(Customer Segmentation & Classification)、背景分析(Profile Analysis)、交叉銷售(Cross-selling)等市場分析行為,以及客戶流失性分析(Churn Analysis)、客戶信用記分(Credit Scoring)、欺詐發(fā)現(xiàn)(Fraud Detection)等等。具體應用實例如:IBM公司開發(fā)的QUEST和Intelligent Miner系統(tǒng)可以挖掘顧客的購物行為模式,預測銷售行情。AT& T實驗室開發(fā)了Hancock系統(tǒng),該系統(tǒng)主要處理電信數(shù)據流,分析電話呼叫記錄。Bell通信研究所的Tribeca則是一個用于網絡監(jiān)控的系統(tǒng)。Google公司利用其數(shù)據挖掘技術Page Rank,在短短的幾年內打敗所有競爭對手成為Internet上的贏家。
7 結束語
數(shù)據挖掘是當前計算機工業(yè)最熱門的研究領域之一。它是一個不斷發(fā)展的、綜合交叉的學科。隨著數(shù)據挖掘成功案例的廣播,越來越多的行業(yè)采用數(shù)據挖掘技術,它將會被廣泛而深入地應用于人類生活的各個領域。
參考文獻:
[1] 張士玲,楊林楠,孫向前,等.淺論數(shù)據挖掘技術[J].福建電腦,2005(8):61-62.
[2] 楊雪.淺析數(shù)據挖掘技術[J].華南金融電腦,2005(8):83-85.
[3] 張倩.數(shù)據挖掘技術綜述[J].甘肅科技,2005,21(7):92-93.
[4] 黃曉霞,蕭蘊詩.數(shù)據挖掘應用研究及展望[J].計算機輔助工程,2001(4):23-29.
篇3
[關鍵詞]大數(shù)據;數(shù)據挖掘
中圖分類號:TP311.13 文獻標識碼:A 文章編號:1009-914X(2014)35-0286-01
當“大數(shù)據”鋪天蓋地般向我們涌來,人們往往期冀能夠對大數(shù)據能夠有更進一步的了解,“數(shù)據挖掘”因此成為我們理解大數(shù)據概念繞不過去的“坎”。通過將大數(shù)據與數(shù)據挖掘進行對比分析,將有助于人們了解大數(shù)據的來龍去脈和未來真實走向。
1.基本概念
數(shù)據挖掘,顧名思義就是從大量的數(shù)據中挖掘出有用的信息,即從大量的、不完全的、有噪聲的、隨機的、模糊的數(shù)據中,提取隱含其中的、規(guī)律性的、人們事先未知的、但又是潛在的有用信息和知識的過程。數(shù)據挖掘是一個在海量數(shù)據中利用各種分析工具發(fā)現(xiàn)模型與數(shù)據間關系的過程,它可以幫助決策者尋找數(shù)據間潛在的某種關聯(lián),發(fā)現(xiàn)被隱藏的、被忽略的因素,因而被認為是在這個數(shù)據爆炸時代解決信息貧乏問題的一種有效方法。數(shù)據挖掘作為一門交叉學科,融合了數(shù)據庫、人工智能、統(tǒng)計學、機器學習等多領域的理論與技術。數(shù)據庫、人工智能與數(shù)理統(tǒng)計為數(shù)據挖掘的研究提供了三大技術支持。
大數(shù)據是通過高速捕捉、發(fā)現(xiàn)和分析,從大容量數(shù)據中獲取價值的一種新的技術架構。著名研究機構IDC給大數(shù)據的定義,有四個"V"字開頭的特征:Volume(體量大),Velocity(速度快),Variety(種類雜),Value(價值大)。Volume是指大數(shù)據巨大的數(shù)據量與數(shù)據完整性Velocity可以理解為更快地滿足實時性需求;Variety則意味著要在海量、種類繁多的數(shù)據間發(fā)現(xiàn)其內在關聯(lián);Value最重要,它是大數(shù)據的最終意義:挖掘數(shù)據存在的價值。
2.相互聯(lián)系
大數(shù)據是數(shù)據挖掘的概念再升級。相比于興起只有2~3年的大數(shù)據概念,已有20多年發(fā)展的數(shù)據挖掘可稱得上大數(shù)據的開山鼻祖。因為大數(shù)據和數(shù)據挖掘的本質是相同的――對數(shù)據進行挖掘分析,以發(fā)現(xiàn)有價值的信息。而且大數(shù)據的興起,正是在人工智能、機器學習和數(shù)據挖掘等技術基礎之上發(fā)展起來的,而人工智能、機器學習又是在為數(shù)據挖掘服務。從表面上看,大數(shù)據與數(shù)據挖掘的顯著區(qū)別在于“大”上。然而深入分析就會發(fā)現(xiàn):一方面,數(shù)據挖掘的對象不僅可以用于少量的數(shù)據,而且同樣適用于海量數(shù)據,只是由于挖掘方法和技術工具的不斷升級換代,換了個新的名稱而已;另一方面,大數(shù)據的本質不在于“大”,而是以嶄新的思維和技術去分析海量數(shù)據,揭示其中隱藏的人類行為等模式,由此創(chuàng)造新產品和服務,或是預測未來趨勢。所以大數(shù)據和數(shù)據挖掘的概念在一定時期還會并存,因應于使用的時機、場合或使用人的習慣,真正的關鍵點是如何體現(xiàn)出數(shù)據的價值。
大數(shù)據是數(shù)據挖掘產業(yè)化的表現(xiàn)。長久以來,數(shù)據挖掘的經典案例――“啤酒與尿布”被廣為傳頌,然而這一傳奇故事顯然跟不上時代大發(fā)展的步伐,取而代之的是谷歌成功預測流感的案例。數(shù)據的價值在于信息,而技術的價值在于利潤,數(shù)據挖掘可以看作是專業(yè)技術領域的專業(yè)名詞,到了商業(yè)領域就需要進一步的包裝與升級。只有這樣,一系列的開放式平臺、技術解決方案才能迅速“火”起來。顯而易見,這種商業(yè)的運作模式已經非常成熟和成功。目前,大數(shù)據已被視為創(chuàng)新和生產力提升的下一個前沿,正成為國家競爭力的要素之一,在世界范圍內日益受到重視,多國政府加大了對大數(shù)據發(fā)展的扶持力度,甚至上升到國家戰(zhàn)略的高度。某咨詢公司研究顯示,全球對大數(shù)據項目投資總額2012年已達45億歐元(約60億美元),2013、2014兩年均會保持約40%的增長速度。
3.簡要小結
當前,數(shù)據挖掘在專業(yè)領域的地位已經非常牢固,但大數(shù)據還受到民眾和業(yè)界的諸多質疑,認為是一種商業(yè)噱頭和忽悠。其實很多爭論實質上并非在討論同一問題。比如,有人舉例說,《大數(shù)據時代》的作者維克托?邁爾―舍恩伯格認為 , “人們處理的數(shù)據從樣本數(shù)據變成全部數(shù)據”的結論至少從目前的數(shù)據收集和分析能力來說是不可能實現(xiàn)的。我們應該看到,沒有不變的真理,只有客觀規(guī)律。任何技術都不是萬能的,作為一種技術而言,它僅代表了一種發(fā)展方向,它因為能夠解決某一現(xiàn)實問題而具備存在的價值;至于技術的商業(yè)化運用成不成功,則還受制于運用推廣的方式等其它諸多因素。例如,對比上世紀末“互聯(lián)網經濟泡沫”破滅時的哀鴻遍野和前不久阿里巴巴在美國上市的一片贊歌,可以看出:互聯(lián)網技術的發(fā)展勢不可擋,互聯(lián)網產業(yè)發(fā)展一波三折,只能說產業(yè)和技術緊密相聯(lián),但終究不是一回事。
參考文獻
[1] 維克托?邁爾―舍恩伯格著,周濤譯.大數(shù)據時代:生活、工作與思維的大變革[M] .浙江:浙江人民出版社,2012.12
[2] 朱明.數(shù)據挖掘(第二版)[M] .合肥:中國科學技術大學出版社,2008.11
作者簡介
篇4
數(shù)據挖掘的英語名稱是Data Mining,又譯為資料探勘、數(shù)據采礦。所謂數(shù)據挖掘,是指從大量不完全、有噪聲、模糊、隨機的數(shù)據中,通過設置一定的學習算法,提取那些隱含在其中的,然而人們事先不知道卻有潛在用途信息的過程。它是根據數(shù)據的微觀特征,發(fā)現(xiàn)其表征的、帶有普遍性的、較高層次概念的知識,是信息優(yōu)勢成為知識優(yōu)勢的基礎工程。數(shù)據挖掘萌芽于“情報深加工”,其實質就是發(fā)現(xiàn)情報背后的情報。在大數(shù)據時代,數(shù)據挖掘就是從海量數(shù)據中尋找到自己需要的信息,我們常用的百度、谷歌等搜索引擎完成的工作也屬于數(shù)據挖掘的范疇。
隨著計算機和互聯(lián)網技術的迅速崛起與普及,人們(當然包括犯罪分子和)已經離不開手機、電腦、智能電視等智能終端設備,不少日?;顒踊旧隙伎梢詳?shù)字化地表示。幾點幾分從家出門,坐什么車花了多長時間到了工作地點。這期間,無論是誰,每發(fā)一次微博和打一次電話,包括經緯度在內的精確地理位置信息都被記錄在案,而通話記錄在許多年之后仍可以被調閱查詢??傊?,在通信技術無孔不入的時代,人們的一舉一動都產生了大量的數(shù)據。而在很多時候,這些原始數(shù)據就會成為司法部門破案時所需要分析的材料。
數(shù)據挖掘是通過分析每個數(shù)據,從大量數(shù)據中尋找其規(guī)律的技術,主要有數(shù)據準備、規(guī)律尋找和規(guī)律表示三個步驟。數(shù)據準備是從相關的數(shù)據源中選取所需的數(shù)據并整合成用于數(shù)據挖掘的數(shù)據集;規(guī)律尋找是用某種方法將數(shù)據集所含的規(guī)律找出來;規(guī)律表示是盡可能以可理解的方式(如可視化)將找出的規(guī)律表示出來。由于人類從來沒有像今天這樣如此依賴網絡和電子設備,因此,信息時代眾多的電子蹤跡讓研究每個人、每個群體,甚至整個人類的習慣成為了可能。
目前,美國安全局已經開始利用數(shù)據挖掘技術追蹤和監(jiān)控社會情緒。比如,美國安全局和交通安全局曾經基于數(shù)據挖掘技術,開發(fā)出計算機輔助乘客篩選系統(tǒng)。該系統(tǒng)為美國本土各個機場提供接口,當乘客購買機票時,系統(tǒng)利用乘客提供的信息確定乘客是否是需要額外安全篩選的人員。該系統(tǒng)將乘客購買機票時提供的信息輸入到商用數(shù)據提供商提供的數(shù)據庫,這些信息包括全名、地址、電話號碼以及出生日期。商用數(shù)據庫然后將隱含特殊危險等級的數(shù)字分值傳送給交通安全局。帶有“綠色”分值的乘客將接受“正常篩選”,帶有“黃色”分值的乘客將接受“額外篩選”,而帶有“紅色”分值的乘客將被禁止登機而且還將接受“法律強制性的關照”。在利用商用數(shù)據庫信息時,交通安全局聲稱工作人員不會看到用于計算分值的實際信息,也不會保留乘客的信息,以此保障乘客的隱私。
篇5
[關鍵詞]數(shù)據挖掘數(shù)據挖掘方法
隨著信息技術迅速發(fā)展,數(shù)據庫的規(guī)模不斷擴大,產生了大量的數(shù)據。但大量的數(shù)據往往無法辨別隱藏在其中的能對決策提供支持的信息,而傳統(tǒng)的查詢、報表工具無法滿足挖掘這些信息的需求。因此,需要一種新的數(shù)據分析技術處理大量數(shù)據,并從中抽取有價值的潛在知識,數(shù)據挖掘(DataMining)技術由此應運而生。
一、數(shù)據挖掘的定義
數(shù)據挖掘是指從數(shù)據集合中自動抽取隱藏在數(shù)據中的那些有用信息的非平凡過程,這些信息的表現(xiàn)形式為:規(guī)則、概念、規(guī)律及模式等。它可幫助決策者分析歷史數(shù)據及當前數(shù)據,并從中發(fā)現(xiàn)隱藏的關系和模式,進而預測未來可能發(fā)生的行為。數(shù)據挖掘的過程也叫知識發(fā)現(xiàn)的過程。
二、數(shù)據挖掘的方法
1.統(tǒng)計方法。傳統(tǒng)的統(tǒng)計學為數(shù)據挖掘提供了許多判別和回歸分析方法,常用的有貝葉斯推理、回歸分析、方差分析等技術。貝葉斯推理是在知道新的信息后修正數(shù)據集概率分布的基本工具,處理數(shù)據挖掘中的分類問題,回歸分析用來找到一個輸入變量和輸出變量關系的最佳模型,在回歸分析中有用來描述一個變量的變化趨勢和別的變量值的關系的線性回歸,還有用來為某些事件發(fā)生的概率建模為預測變量集的對數(shù)回歸、統(tǒng)計方法中的方差分析一般用于分析估計回歸直線的性能和自變量對最終回歸的影響,是許多挖掘應用中有力的工具之一。
2.關聯(lián)規(guī)則。關聯(lián)規(guī)則是一種簡單,實用的分析規(guī)則,它描述了一個事物中某些屬性同時出現(xiàn)的規(guī)律和模式,是數(shù)據挖掘中最成熟的主要技術之一。關聯(lián)規(guī)則在數(shù)據挖掘領域應用很廣泛適合于在大型數(shù)據集中發(fā)現(xiàn)數(shù)據之間的有意義關系,原因之一是它不受只選擇一個因變量的限制。大多數(shù)關聯(lián)規(guī)則挖掘算法能夠無遺漏發(fā)現(xiàn)隱藏在所挖掘數(shù)據中的所有關聯(lián)關系,但是,并不是所有通過關聯(lián)得到的屬性之間的關系都有實際應用價值,要對這些規(guī)則要進行有效的評價,篩選有意義的關聯(lián)規(guī)則。
3.聚類分析。聚類分析是根據所選樣本間關聯(lián)的標準將其劃分成幾個組,同組內的樣本具有較高的相似度,不同組的則相異,常用的技術有分裂算法,凝聚算法,劃分聚類和增量聚類。聚類方法適合于探討樣本間的內部關系,從而對樣本結構做出合理的評價,此外,聚類分析還用于對孤立點的檢測。并非由聚類分析算法得到的類對決策都有效,在運用某一個算法之前,一般要先對數(shù)據的聚類趨勢進行檢驗。
4.決策樹方法。決策樹學習是一種通過逼近離散值目標函數(shù)的方法,通過把實例從根結點排列到某個葉子結點來分類實例,葉子結點即為實例所屬的分類。樹上的每個結點說明了對實例的某個屬性的測試,該結點的每一個后繼分支對應于該屬性的一個可能值,分類實例的方法是從這棵樹的根結點開始,測試這個結點指定的屬性,然后按照給定實例的該屬性值對應的樹枝向下移動。決策樹方法是要應用于數(shù)據挖掘的分類方面。
5.神經網絡。神經網絡建立在自學習的數(shù)學模型基礎之上,能夠對大量復雜的數(shù)據進行分析,并可以完成對人腦或其他計算機來說極為復雜的模式抽取及趨勢分析,神經網絡既可以表現(xiàn)為有指導的學習也可以是無指導聚類,無論哪種,輸入到神經網絡中的值都是數(shù)值型的。人工神經元網絡模擬人腦神經元結構,建立三大類多種神經元網絡,具有非線形映射特性、信息的分布存儲、并行處理和全局集體的作用、高度的自學習、自組織和自適應能力的種種優(yōu)點。
6.遺傳算法。遺傳算法是一種受生物進化啟發(fā)的學習方法,通過變異和重組當前己知的最好假設來生成后續(xù)的假設。每一步,通過使用目前適應性最高的假設的后代替代群體的某個部分,來更新當前群體的一組假設,來實現(xiàn)各個個體的適應性的提高。遺傳算法由三個基本過程組成:繁殖(選擇)是從一個舊種群(父代)選出生命力強的個體,產生新種群(后代)的過程;交叉〔重組)選擇兩個不同個體〔染色體)的部分(基因)進行交換,形成新個體的過程;變異(突變)是對某些個體的某些基因進行變異的過程。在數(shù)據挖掘中,可以被用作評估其他算法的適合度。
7.粗糙集。粗糙集能夠在缺少關于數(shù)據先驗知識的情況下,只以考察數(shù)據的分類能力為基礎,解決模糊或不確定數(shù)據的分析和處理問題。粗糙集用于從數(shù)據庫中發(fā)現(xiàn)分類規(guī)則的基本思想是將數(shù)據庫中的屬性分為條件屬性和結論屬性,對數(shù)據庫中的元組根據各個屬性不同的屬性值分成相應的子集,然后對條件屬性劃分的子集與結論屬性劃分的子集之間上下近似關系生成判定規(guī)則。所有相似對象的集合稱為初等集合,形成知識的基本成分。任何初等集合的并集稱為精確集,否則,一個集合就是粗糙的(不精確的)。每個粗糙集都具有邊界元素,也就是那些既不能確定為集合元素,也不能確定為集合補集元素的元素。粗糙集理論可以應用于數(shù)據挖掘中的分類、發(fā)現(xiàn)不準確數(shù)據或噪聲數(shù)據內在的結構聯(lián)系。
8.支持向量機。支持向量機(SVM)是在統(tǒng)計學習理論的基礎上發(fā)展出來的一種新的機器學習方法。它基于結構風險最小化原則上的,盡量提高學習機的泛化能力,具有良好的推廣性能和較好的分類精確性,能有效的解決過學習問題,現(xiàn)已成為訓練多層感知器、RBF神經網絡和多項式神經元網絡的替代性方法。另外,支持向量機算法是一個凸優(yōu)化問題,局部最優(yōu)解一定是全局最優(yōu)解,這些特點都是包括神經元網絡在內的其他算法所不能及的。支持向量機可以應用于數(shù)據挖掘的分類、回歸、對未知事物的探索等方面。
事實上,任何一種挖掘工具往往是根據具體問題來選擇合適挖掘方法,很難說哪種方法好,那種方法劣,而是視具體問題而定。
三、結束語
目前,數(shù)據挖掘技術雖然得到了一定程度的應用,并取得了顯著成效,但仍存在著許多尚未解決的問題。隨著人們對數(shù)據挖掘技術的深人研究,數(shù)據挖掘技術必將在更加廣泛的領域得到應用,并取得更加顯著的效果。
篇6
系統(tǒng)采用C/S+B/S結構,主要由前端數(shù)據采集設備(位移及載荷傳感器)、站點客戶端、數(shù)據庫及Web服務器等組成。各部分采取分布式協(xié)同處理運行方式,站點客戶端利用前端采集的數(shù)據獨立分析計算,分析完成后上傳至數(shù)據庫服務器,并通過網頁服務器對外。
2系統(tǒng)數(shù)據
2.1系統(tǒng)數(shù)據結構系統(tǒng)采用MicrosoftSQLServer,創(chuàng)建了WPGUI與WPCHQ數(shù)據庫來管理3萬余口油井數(shù)據采集、處理及存儲等,建設數(shù)據表65張(見主要數(shù)據表的關系圖2),主要包括生產井的完井數(shù)據、靜態(tài)數(shù)據、動態(tài)數(shù)據、采集數(shù)據、原油物性數(shù)據、機桿管泵等技術數(shù)據,同時系統(tǒng)保存了油井近兩年功圖電參數(shù)據(每天每口井到少100張),以及根據這些數(shù)據分析計算出來的結果和匯總生成的數(shù)據。
3數(shù)據挖掘應用
數(shù)據挖掘是從大量數(shù)據集中發(fā)現(xiàn)可行信息的過程,是統(tǒng)計分析技術、數(shù)據庫技術及人工智能技術的綜合。面對油井工況實時分析及功圖計產系統(tǒng)大量的油井生產完備數(shù)據,長慶油田充分利用數(shù)據挖掘技術,對數(shù)據進一步清理、集成、轉換、挖掘應用,深化功圖系統(tǒng)數(shù)據分析,先后開展了動液面計算,系統(tǒng)效率在線實時監(jiān)測、區(qū)塊動態(tài)分析研究等,并應用于油田現(xiàn)場,取得了較好的效果,既節(jié)約了生產成本,又方便了現(xiàn)場管理應用,進一步提升系統(tǒng)在長慶油田數(shù)字化前端的核心地位。
3.1區(qū)塊動態(tài)分析
油井生產中,每天都會獲得大量的實時生產數(shù)據,目前系統(tǒng)主要對單井完成工況分析及產液量計算,如何通過分析和處理這些數(shù)據,及時全面了解油田區(qū)塊產油量、壓力、含水等變化規(guī)律是數(shù)據挖掘應用又一問題。長慶油田開展了基于油井工況診斷及功圖計產系統(tǒng)的區(qū)塊動態(tài)分析,從空間和歷史角度,對油井分類、分級、分層次進行統(tǒng)計分析,挖掘生產數(shù)據里有用的信息,提煉區(qū)塊共性問題,并按照設計的模板(區(qū)塊指標統(tǒng)計圖表、供液能力分析、產量分析、故障井分析等)每月30日自動生成全面及時的區(qū)塊油井生產動態(tài)分析,從而指導區(qū)塊生產管理,實現(xiàn)油田的精細管理,為油田開發(fā)決策提供依據。
4結束語
隨著長慶油田數(shù)字化建設的不斷深入,各種生產、研究、管理等數(shù)據庫不斷增加,如何深化數(shù)據應用,準確迅速從數(shù)據庫是提取有用信息,已成為是數(shù)字油田生產管理的迫切需求。在基于油井工況實時分析及功圖計產系統(tǒng)數(shù)據挖掘應用中我們積累了不少經驗,拓展了系統(tǒng)功能,提升系統(tǒng)在長慶油田數(shù)字化前端的核心地位。在今后應用中,油田數(shù)據挖掘應用注意幾個問題:
(1)數(shù)據是數(shù)字油田的血液,為了保證數(shù)據挖掘效率,在數(shù)據庫建設中要規(guī)范數(shù)據存儲格式,保證數(shù)據源及數(shù)據類型的統(tǒng)一,同時加強數(shù)據審核,注重數(shù)據入庫的質量;
(2)數(shù)據挖掘中盡可能使用可視化工具,一幅圖勝過千句話,數(shù)據挖掘可視化主要包括數(shù)據可視化、挖掘結果可視化、挖掘過程可視化等;
篇7
近年來,我國的部隊管理體系已經逐漸向著自動化方向發(fā)展,部隊中各個部門都建立了一定的管理體系,也逐漸脫離了人工管理模式,實現(xiàn)信息現(xiàn)代化模式,很大程度提高了部隊工作的效率,但是由于外界因素與經濟發(fā)展的多樣化以及人們的思維模式也在不斷改變,從而出現(xiàn)了一些新問題,使得部隊管理體系存在著一定問題:第一、關聯(lián)性小、系統(tǒng)比較獨立。現(xiàn)階段,部隊采購食品系統(tǒng)的作用以及目的比較簡單,思維面也比較窄,也就是說按照清單進行食品采購時,不能充分考慮到采購人員的健康、效率等問題,不能達到最優(yōu)化采購方式,因此就變得比較獨立;第二,數(shù)據功能簡單,可靠性不高?,F(xiàn)階段,部隊食品采購數(shù)據只是對采購的種類與過程進行簡單記錄,時間一久,就會被損壞或者丟失;第三,數(shù)據分散不集中?,F(xiàn)階段與部隊人員健康、起居飲食、訓練相關的數(shù)據分散在不同系統(tǒng)中,使得數(shù)據變得不一致、不完整,僅僅只能進行簡單查詢、匯總、統(tǒng)計等工作,不能對數(shù)據進行多角度分析、關聯(lián)等,不能為采購食品提供很好的政策支持。針對部隊采購存在的問題,可以利用數(shù)據倉庫以及數(shù)據挖掘技術建立多為數(shù)據庫,利用數(shù)據挖掘進技術對食品采購數(shù)據進行挖掘。依據現(xiàn)階段部隊的實際發(fā)展情況,建立一套新數(shù)據庫的成本代價比較高,因此,選用了目前社會上通用方法,對已經存在的數(shù)據進行一定改革與拓展,合理優(yōu)化系統(tǒng)數(shù)據,成為新的數(shù)據庫。并且選取對數(shù)據挖掘影響比較大的系統(tǒng)性分析,包括訓練系統(tǒng),食品采購系統(tǒng)、人員管理系統(tǒng)以及醫(yī)療衛(wèi)生系統(tǒng)。針對食品采購采購系統(tǒng)建立數(shù)據模型。
二、在部隊食品采購系統(tǒng)中的應用以及其價值評價
在部隊食品采購系統(tǒng)實際應用工程中,其實可以運用MicrosoftSQLServerAnalysisServices來對數(shù)據進行分析,并且在數(shù)據挖掘過程中對多維數(shù)據進行描述與查找起到一定作用。因為多維數(shù)據比較復雜,增長的也比較快,因此,進行手動查找是很困難的,數(shù)據挖掘技術提供的計算模式可以很好的對數(shù)據進行分析與查找。在建設部隊食品采購倉庫數(shù)據的時候,數(shù)據內容主要包括了人員的健康、兵員的飲食以及訓練等,進行數(shù)據挖掘主要包括以下內容:第一,把每個主題信息數(shù)據進行收集、匯總、分析等,對人員情況、健康、飲食、訓練等進行合理分析;第二,多維分析數(shù)據信息。根據部隊的實際情況,利用數(shù)據挖掘技術對部隊人員健康、飲食、訓練等數(shù)據信息進行多維分析,其中包含上鉆、切片、下鉆等;第三,挖掘健康與飲食之間的內在關系。根據數(shù)據庫中許多面向主題的歷史數(shù)據,采用數(shù)據挖掘技術進行分析與演算得到部隊人員的訓練和健康情況與部隊飲食之間內在關系,以便于為部隊食品采購提供合理的、有效的保障,從而提高部隊整體人員的健康水平、身體素質以及訓練質量,對提高我國部隊戰(zhàn)斗力有著深遠的意義。
三、結束語
篇8
(荊楚理工學院 計算機工程學院,湖北 荊門 448000)
摘 要:本文旨在研究數(shù)據挖掘中數(shù)據預處理技術,首先通過簡單介紹數(shù)據挖掘的基本概念以及數(shù)據挖掘的邏輯構成,介紹了數(shù)據預處理在整個數(shù)據挖掘過程中所處的階段,然后從數(shù)據預處理的數(shù)據清洗、數(shù)據變換、數(shù)據集成、數(shù)據簡化等數(shù)據預處理操作入手,詳細介紹了填充缺失值、弱化噪聲數(shù)據、數(shù)據集成等數(shù)據預處理技術,最后給予專門的數(shù)據預處理的流程來實現(xiàn)數(shù)據挖掘中的數(shù)據預處理的過程.
關鍵詞 :數(shù)據預處理;噪聲數(shù)據;數(shù)據冗余
中圖分類號:TP311 文獻標識碼:A 文章編號:1673-260X(2015)03-0005-02
1 引言
隨著科學技術不斷發(fā)展,計算機信息技術在各個領域中得到了廣泛應用,尤其是在原材料采購、金融、通信等方面,數(shù)據存儲和數(shù)據處理等技術更是被各個企業(yè)用來記錄企業(yè)運營過程中各種信息數(shù)據的記錄和處理,以方便日后的企業(yè)財務管理和信息核對等操作.隨著時間的推移,各個領域的不同企業(yè)的數(shù)據信息存儲量越來越大,過量信息的處理是各個信息處理行業(yè)不得不面對的問題.同時由于這些信息對于日后用戶信息分類、信息推送、企業(yè)的決策等方面起著非常重要的作用,不可能人為地刪減信息來減少數(shù)據處理工作量,所以如何從爆炸式的數(shù)據信息中及時地提取有用的數(shù)據進而為企業(yè)的各種信息分類和決策提供合理、科學的數(shù)據決策依據,已經成為了我們當前面臨的亟需解決的重要課題.為了能夠使海量數(shù)據成為寶貴的資源,必須采取數(shù)據挖掘技術手段,結合相關的業(yè)務決策和企業(yè)戰(zhàn)略發(fā)展計劃,才能使企業(yè)在經濟全球化的浪潮中在競爭日益激烈的環(huán)境下奪得先機而立于不敗之地.
2 數(shù)據挖掘及其過程介紹
數(shù)據挖掘的英文名稱為Data Mining(DM),是從企業(yè)的大型關系型數(shù)據庫中或數(shù)據倉庫中提取一些人們感興趣的潛在有用的信息數(shù)據處理過程,是一門從大型關系型數(shù)據庫或數(shù)據倉庫中提取隱含的預測性信息的新技術.
數(shù)據挖掘的數(shù)據來源是數(shù)據挖掘技術處理的大數(shù)據,常見數(shù)據挖掘的數(shù)據來源于有關系型數(shù)據庫、事務型數(shù)據庫等,然后經過一定的清理和集成的過程以數(shù)據倉庫的形式存儲起來,為數(shù)據挖掘提供數(shù)據源.數(shù)據挖掘的邏輯過程是利用人工智能的、機器學習的數(shù)據挖掘技術對源數(shù)據進行數(shù)據處理并提取對企業(yè)決策有用的數(shù)據過程.數(shù)據挖掘的過程是一個完整的系統(tǒng),是結合了多項技術完整的一個整體.從數(shù)據源開始,根據數(shù)據的挖掘對于大數(shù)據處理的邏輯過程大致可以分為以下:目標數(shù)據樣本的準備、數(shù)據挖掘過程以及挖掘結果分為三級,包含多個處理步驟,如圖1.所示,為數(shù)據挖掘的邏輯過程結構示意圖.
由圖1可知,整個數(shù)據挖掘的過程包括從最原始的數(shù)據開始數(shù)據選取的過程,這里的原始數(shù)據一般指的是存在企業(yè)各種信息管理數(shù)據庫中的海量數(shù)據,是雜亂無章的、不能以專業(yè)的良好的形式展現(xiàn)出來的原始數(shù)據.通數(shù)據選取的過程,主要是選擇能夠參與數(shù)據挖掘過程的數(shù)據,從而生成目標數(shù)據.得到目標數(shù)據之后,就需要對其進行數(shù)據預處理的過程,囊括了數(shù)據清洗(Data Cleaning)、數(shù)據變換(Data Transformation)、數(shù)據集成(Data Integration)、數(shù)據簡化(Data Reduction)等數(shù)據處理過程,主要包括了消除噪聲數(shù)據、推導計算缺值數(shù)據、消除重復記錄、按成數(shù)據類型轉換等數(shù)據操作.得到預處理數(shù)據之后,就可以利用數(shù)據挖掘的技術,對這些數(shù)據進行智能挖掘和分類的過程,主要是基于某種思想,設計相應的算法,最后通過對預處理之后的數(shù)據進行數(shù)據挖掘算法的處理,最終是生成而分類的數(shù)據.當然,這時數(shù)據挖掘的過程并沒有結束,這些數(shù)據只是以某種數(shù)據挖掘的思想進行分類存儲,并沒有以具有現(xiàn)實意義的形式展現(xiàn)出來,所以此時還需要開發(fā)人員,基于自己的業(yè)務邏輯和需求,開發(fā)相應的分析或評估功能,對數(shù)據挖掘之后的數(shù)據進行形象顯示,從而形成對企業(yè)有用的知識.
3 數(shù)據挖掘中的數(shù)據預處理
數(shù)據預處理是數(shù)據挖掘過程中必不可少的一部分,進行數(shù)據預處理過程的主要原因是因為從原始數(shù)據選取的目標數(shù)據,是以原有的數(shù)據庫初始定義的格式和結構進行存儲的數(shù)據,存在很多空白數(shù)據、重復數(shù)據、復雜數(shù)據、不可用數(shù)據等,這些數(shù)據對于數(shù)據挖掘來說非常不適用,而且會增加數(shù)據挖掘的復雜度,所以需要數(shù)據預處理的過程來對目標數(shù)據進行預處理,從而生成預處理之后的數(shù)據.由圖1.可以看出,數(shù)據預處理的過程對于數(shù)據挖掘來說是非常重要的,是為后期數(shù)據挖掘過程奠定堅實基礎的過程.常見的數(shù)據預處理的過程包括,數(shù)據清洗(Data Cleaning)、數(shù)據變換(Data Transformation)、數(shù)據集成(Data Integration)、數(shù)據簡化(Data Reduction)等內容.其中數(shù)據清洗(Data Cleaning)的主要操作就是在根據一定的原則和規(guī)定對目標數(shù)據樣本進行消除無關數(shù)據或者噪聲數(shù)據的操作,包括處理數(shù)據樣本內的重復數(shù)據以及缺省數(shù)據等.數(shù)據變換(Data Transformation)的操作主要是對處理后的數(shù)據進行降維處理,從而消除原始特征力度無效屬性,找到真正有用的特征,以方便后期數(shù)據挖掘的處理和計算.數(shù)據集成(Data Integration)的操作主要是合并目標數(shù)據樣本內存在的異構數(shù)據,主要包括數(shù)據的選擇、不同數(shù)據庫文件之間的數(shù)據沖突以及不一致等問題的處理操作.數(shù)據簡化(Data Reduction)的過程是在挖掘目標的有用特征以及對數(shù)據自身內容理解的基礎上,盡量保持目標數(shù)據樣本原有的數(shù)據特性的基礎上,最大限度地對目標數(shù)據樣本進行精簡處理的過程,主要包括數(shù)據樣本的參考屬性選擇以及數(shù)據抽樣的數(shù)據處理.
3.1數(shù)據預處理主要方法
數(shù)據預處理的主要方法是填充目標數(shù)據缺失值、消弱噪聲數(shù)據、數(shù)據集成等.
在我們設計信息管理系統(tǒng)伊始,會考慮到各種各樣的問題,所以在設計數(shù)據存儲表時會牽涉到各方面的信息,而在實際的應用過程中,之前設計的數(shù)據表的內容有很多時候并未有實際的數(shù)據,而是使用了缺失值存儲,如果這些數(shù)據作為數(shù)據挖掘處理,會帶來諸多不便,所以對于這些缺失值的處理,可以直接使用人工填寫的方法來彌補缺失值,或者用該字段的所有屬性值的均值,其他同類的屬性值,利用回歸或貝葉形式化的推理工具得出的最有可能值或最鄰近的值的來代替,從而對缺失值進行填充彌補,形成完成的數(shù)據.
此外,在目標數(shù)據中,統(tǒng)一類的屬性值可能有某些偏離正常數(shù)據,這些數(shù)據我們稱之為噪聲數(shù)據,對于噪聲數(shù)據的數(shù)據預處理也需要專門的方法或技術來對其進行噪聲消除.常見的方法有分箱法,即對某一個區(qū)域內的近鄰數(shù)據進行觀察,從而形成局部噪聲消除;回歸法則是利用回歸函數(shù)找出某兩個屬性值的回歸線,通過一個屬性來對另外一個屬性進行預測;中心點距離法就是計算目標數(shù)據的該屬性值的平均值,然后計算所有數(shù)據對象與中心點的歐氏距離,并對其進行排序,而后根據數(shù)據性質和背景知識確定一個距離閾值,而與中心點距離大于該閾值的數(shù)據對象則為孤立點.
在我們設計信息系統(tǒng)數(shù)據表時,各個表格之間需要存在一些冗余來提高各個表之間的關聯(lián)性,方便信息系統(tǒng)的數(shù)據表的關聯(lián)查詢.這也就導致了在得到的目標數(shù)據中,可能是因為數(shù)據信息的相同或者業(yè)務邏輯數(shù)據信息的類似,會有一部分的數(shù)據信息冗余,這些冗余對于數(shù)據挖掘來說也是沒有必要的,或者最后需要數(shù)據挖掘的對象是來自不通數(shù)據庫內容的信息,所以要通過數(shù)據集成的方法來對冗余數(shù)據或者不同數(shù)據結構的數(shù)據進行集成.在使用數(shù)據集成的方法來對數(shù)據信息進行預處理時,需要考慮到以下問題,第一就是集成的模式與原數(shù)據對象之間的匹配度的問題,現(xiàn)實生活中的很多數(shù)據存儲的形式多種多樣,在數(shù)據庫存儲的格式、類型、形式也不盡相同,而統(tǒng)一業(yè)務數(shù)據在不同的數(shù)據庫之間存儲后,能否最終以一種統(tǒng)一的數(shù)據格式來存儲;第二個問題就是不同屬性之間的冗余度的問題,不同的屬性值之間是否冗余,是否需要刪除某個屬性值來使最終得到的數(shù)據最大化精簡.關于不同屬性之間的相關度,可以通過專門的公式進行計算,假如判斷A屬性和B屬性兩者之間是否是相互冗余的,可以通過以下公式來計算.
3.2數(shù)據預處理過程
數(shù)據預處理是數(shù)據挖掘的一個前期過程,是一個完整的數(shù)據操作階段,上述的數(shù)據預處理的操作步驟和預處理方法都是在數(shù)據預處理過程中應用到的.在整個數(shù)據預處理的過程中,首先需要得到目標數(shù)據,然后利用數(shù)據清洗、數(shù)據變換、數(shù)據集成、數(shù)據簡化等數(shù)據挖掘的操作,利用填充缺失值、弱化噪聲數(shù)據、數(shù)據集成等數(shù)據預處理方法,來完成數(shù)據預處理的過程.整個過程的實施,可以通過人工檢查的方式來實現(xiàn),也可以通過編寫專門的數(shù)據預處理軟件來實現(xiàn),或針對某個特定區(qū)域或接近某一類應用于的數(shù)據預處理問題等來實現(xiàn)數(shù)據預處理的前期操作.然后要遵循某種模式或者基于某種統(tǒng)計方法、識別方法等發(fā)現(xiàn)目標數(shù)據中的異常數(shù)據,同時對這些異常數(shù)據進行處理,例如通過校驗的方法來識別元素的一致性以及內容上的錯誤,通過觀察記錄來找出數(shù)據中的重復或異常的數(shù)據等.最后要對這些數(shù)據進行記錄,并以檔案化的形式存儲起來,從而使用戶對數(shù)據有更加深刻的認識.
4 總結
數(shù)據挖掘的過程是一個復雜的過程,數(shù)據預處理是數(shù)據挖掘中對目標數(shù)據進行預先處理的過程,為后期的數(shù)據挖掘過程奠定基礎.主要的數(shù)據預處理操作包括數(shù)據清洗、數(shù)據變換、數(shù)據集成、數(shù)據簡化等,并通過填充缺失值、弱化噪聲數(shù)據、數(shù)據集成等技術并給予專門的數(shù)據預處理的流程來實現(xiàn)數(shù)據挖掘中的數(shù)據預處理的過程.
參考文獻:
〔1〕白鳳偉.數(shù)據預處理系統(tǒng)的幾個關鍵技術研究與實現(xiàn)[D].北京交通大學,2012.
篇9
[關鍵詞] 數(shù)據流 數(shù)據流挖掘 模型 算法
近年來,隨著計算機技術和通信網絡技術的蓬勃發(fā)展,由于眾多應用領域的需求,數(shù)據流處理問題,特別是基于數(shù)據流的挖掘問題已受到越來越多的研究人員關注。
一、數(shù)據流以及數(shù)據流挖掘
1.數(shù)據流。數(shù)據流由一系列按序到達的數(shù)據組成,也可看作是信息傳輸過程中經編碼處理的數(shù)字信號串。若令t表示任一時間戳,at表示在t時刻到達的數(shù)據元素,則數(shù)據流可以表示為無限集合{…,at-1,,at,at+1,…}。
2.數(shù)據流挖掘。數(shù)據流挖掘就是在數(shù)據流上發(fā)現(xiàn)提取隱含在其中的。人們事先不知道的,但又潛在有用的信息和知識的過程。流數(shù)據挖掘方面的研究主要包括多數(shù)據流挖掘和單數(shù)據流挖掘,挖掘多條數(shù)據流的主要目的是分析多條并行到達的數(shù)據流之間的關聯(lián),對單數(shù)據流的挖掘則涵蓋了分類、頻繁模式挖掘、聚類等多項傳統(tǒng)數(shù)據挖掘中的主要任務,挖掘變化的數(shù)據流是一項特殊的任務,目前主要是以單數(shù)據流為對象進行研究的。
二、數(shù)據流挖掘的模型
按算法處理數(shù)據流時所選取的時序范圍,數(shù)據流模型可分為以下幾類。
1.快照模型:處理數(shù)據的范圍限制在兩個預定義的時間戳之間。
2.界標模型:處理數(shù)據的范圍從某一個已知的初始時間點到當前時間點為止。
3.滑動窗口模型:處理數(shù)據的范圍由某個固定大小的滑動窗口確定,此滑動窗口的終點永遠為當前時刻,其中,滑動窗口的大小可以由一個時間區(qū)間定義,也可以由窗口所包含的數(shù)據項數(shù)目定義。
典型的數(shù)據流挖掘模型如圖所示。
三、數(shù)據流挖掘算法
目前數(shù)據流挖掘方面的研究成果主要集中在數(shù)據流的聚類、分類和頻繁模式挖掘方面。
1.數(shù)據流分類算法。數(shù)據流分類就是提出一個分類模型(或函數(shù)),并通過單遍掃描數(shù)據流,持續(xù)地利用分類模型將數(shù)據對象(數(shù)據流的數(shù)據點或元組等)映射到某一個給定的類別中。P.Domingos 和 G..Hulten他們提出了一種Hoeffding決策樹分類算法VFDT(Very Fast Decision Tree),使用恒定的內存大小和時間處理每個樣本,有效地解決了時間、內存和樣本對數(shù)據挖掘,特別是高速數(shù)據流上的數(shù)據挖掘的限制。VFDT使用信息熵選擇屬性,通過建立Hoeffding樹來進行決策支持,并使用 Hoeffding 約束來保證高精度地處理高速數(shù)據流。
由于VFDT算法假設數(shù)據是從靜態(tài)分布中隨機獲取的,所以不能反映數(shù)據隨時間變化的趨勢。因此,P.Domingos和G..Hulten引入了滑動窗口技術,對VFDT算法進行改進,提出了CVFDT (Concept-adapting Very Fast Decision Tree)算法,除了保留VFDT算法在速度和精度方面的優(yōu)點外,增加了對數(shù)據產生過程中變化趨勢的檢測和響應,使得算法更好地適應對高速時變流數(shù)據的分類。
2.數(shù)據流聚類算法。流數(shù)據本身所具有的特征使得傳統(tǒng)的聚類算法不可能直接應用于(甚至不能應用于)流數(shù)據聚類, 數(shù)據流聚類算法就是通過單遍掃描數(shù)據流,持續(xù)地將數(shù)據流數(shù)據對象(數(shù)據點、元組等)分組成多個類或簇,在同一個簇中的數(shù)據對象之間具有較高的相似度,而不同簇間的數(shù)據對象的相似度很小。近年來,學者們提出的應用于大規(guī)模數(shù)據集的一趟聚類算法,如Squeezer算法和BIRCH算法,也可以應用于某些數(shù)據流問題,也有學者提出了針對流數(shù)據的聚類算法,典型的有STREAM算法和CluStream算法。
3.數(shù)據流頻繁模式挖掘算法。數(shù)據流頻繁模式挖掘就是單遍掃描數(shù)據流,來連續(xù)地發(fā)現(xiàn)其中的頻繁項集。頻繁項集是滿足最小支持度的項集(Itemset)。對于數(shù)據流上的頻繁項集挖掘的研究方法大多數(shù)都采用ε-算法和基于FP-tree模型的有效算法FP-stream。FP-stream算法采用傾斜時間窗口技術來維護頻繁模式以解決時間敏感問題,研究了在數(shù)據流中構造、維護和更新 FP-stream 結構的有效算法,提出了計算和維護所有頻率模式并動態(tài)更新它們。建立一個框架來挖掘帶近似支持度的時間敏感模式,為每個模式在多時間粒度上增量維護一個傾斜時間窗口,在這種框架下可以構建和回答感興趣的查詢。
四、結語
由于數(shù)據流具有獨特的性質,對其進行挖掘是一個挑戰(zhàn)性的問題,當前的有關算法的研究有很多是在傳統(tǒng)的增量式挖掘技術基礎之上發(fā)展而來的,探索數(shù)據流挖掘技術與傳統(tǒng)的靜態(tài)數(shù)據挖掘技術之間的本質區(qū)別,提出更有效、新穎、快速挖掘算法是當前研究面臨的重要問題。
參考文獻:
[1]Gibbons P B,Matias Y:New sampling based summary statistic for improving approximate query answers[A].Proc of the ACM SIGMOD Int’l Confon Management of Data [C].Seattle:ACMPress,1998.331~342
[2]金澈清 錢衛(wèi)寧 周傲英:流數(shù)據分析與管理綜述.軟件學報,2004,15(8):1172~1181
篇10
關聯(lián)規(guī)則最初是針對購物籃分析問題提出的,目的是發(fā)現(xiàn)事務數(shù)據庫(TransactionDatabase)中不同商品之間的聯(lián)系。關聯(lián)規(guī)則是形如A=》B的蘊涵式,其中A稱為該關聯(lián)規(guī)則的前項,B稱為該關聯(lián)規(guī)則的后項。事務,是一個明確定義的商業(yè)行為,如顧客在商店購物就是一次典型的事務。由用戶設定的支持度和置信度的門檻值,當sup-port(A=>B)、confidence(A=>B)分別大于等于各自的門檻值時,認為A=>B是有趣的,此兩值稱為最小支持度(minsupport)和最小置信度(minconfidence)。同時滿足minsupport和minconfidence的這種關聯(lián)規(guī)則就叫做強的關聯(lián)規(guī)則。設任務相關的數(shù)據D是數(shù)據庫事物的集合,當項集的支持計數(shù)≥D中事務總數(shù)|D|與minsup-port的乘積時,就叫做頻繁項集,當項集的支持計數(shù)可能≥D中事務總數(shù)|D|與minsupport的乘積時,就叫做侯選項集。所有侯選項集K-項集的集合記作Ck,所有頻繁項集K-項集的集合常記作Lk,很明顯Lk奐Ck。如果僅依賴最小支持度和最小置信度這兩個參數(shù)的限制,所挖掘出的強關聯(lián)規(guī)則不一定是用戶感興趣的,因此,用戶可以根據實際應用的需求,再結合自身的領域知識,通過選擇與實際分析任務有關的數(shù)據集,設置不同的參數(shù),限定前項和后項的個數(shù),選擇前項和后項包含的屬性等操作,對關聯(lián)規(guī)則的挖掘進行約束。
2模糊集理論的引入
在討論實際問題的時候,需要判定模糊概念涵義,如判斷某個數(shù)據在模糊集的定義和歸屬,這時就需要普通集合與模糊集合可依某種法則相互轉換。模糊理論中的截集是模糊集合和普通集合之間相互轉換的一座橋梁。
3基于事務間數(shù)值型關聯(lián)規(guī)則的數(shù)據挖掘算法
假設有一就業(yè)數(shù)據庫,先通過數(shù)據整理,將原始數(shù)據記錄值區(qū)間[0,10]偏置10個單位。由此就得到了經過偏置后的數(shù)據庫記錄。再依滑動窗口方法,設maxspan=1(該值可以依實際情況的需要來定),就可將偏置后的數(shù)據庫數(shù)據整理轉化為擴展事務數(shù)據庫。再把擴展事務數(shù)據庫記錄通過隸屬度函數(shù)轉化為對應的隸屬度。
4結語