數(shù)據(jù)挖掘技術(shù)研究范文
時(shí)間:2023-03-29 17:20:31
導(dǎo)語(yǔ):如何才能寫(xiě)好一篇數(shù)據(jù)挖掘技術(shù)研究,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公文云整理的十篇范文,供你借鑒。
篇1
1 空間數(shù)據(jù)挖掘研究概述
空間數(shù)據(jù)挖掘(spatial Data Mining,簡(jiǎn)稱(chēng)SDM),是指從空間數(shù)據(jù)庫(kù)中提取用戶(hù)感興趣的空間模式、普遍關(guān)系、數(shù)據(jù)特征的過(guò)程。空間數(shù)據(jù)挖掘技術(shù)綜合數(shù)據(jù)挖掘技術(shù)與空間數(shù)據(jù)庫(kù)技術(shù),可用于對(duì)空間數(shù)據(jù)的理解、空間關(guān)系和空間與非空間關(guān)系的發(fā)現(xiàn)、空間知識(shí)庫(kù)的構(gòu)造以及空間數(shù)據(jù)庫(kù)的重組和查詢(xún)的優(yōu)化等,其根本目標(biāo)是把大量的原始數(shù)據(jù)轉(zhuǎn)換成有價(jià)值的知識(shí),發(fā)現(xiàn)大量的地學(xué)信息中所隱含的規(guī)則。
空間數(shù)據(jù)挖掘是計(jì)算機(jī)技術(shù)、數(shù)據(jù)庫(kù)應(yīng)用技術(shù)和管理決策支持技術(shù)等多學(xué)科交叉發(fā)展的新興邊緣學(xué)科,一般來(lái)說(shuō),空間數(shù)據(jù)挖掘可分成空間分類(lèi)、空間聚類(lèi)、空間趨勢(shì)分析和空間關(guān)聯(lián)規(guī)則四類(lèi)。空間分類(lèi)的目的是在空間數(shù)據(jù)庫(kù)對(duì)象的空間屬性和非空間屬性之間發(fā)現(xiàn)分類(lèi)規(guī)則,是近年來(lái)空間數(shù)據(jù)挖掘領(lǐng)域中比較活躍的一個(gè)方向,常用的方法是決策樹(shù)。空間聚類(lèi)是在一個(gè)比較大的多維數(shù)據(jù)集中根據(jù)距離的度量找出簇或稠密區(qū)域,目前提出的空間聚類(lèi)方法有基于分割的方法、基于層次的方法、基于密度的方法和基于棚格的方法??臻g趨勢(shì)分析指離開(kāi)一個(gè)給定的起始對(duì)象時(shí)非空間屬性的變化情況,例如,當(dāng)離城市中心越來(lái)越遠(yuǎn)時(shí)經(jīng)濟(jì)形勢(shì)的變化趨勢(shì),空間趨勢(shì)分析需要使用回歸和相關(guān)的分析方法??臻g關(guān)聯(lián)規(guī)則是指空間鄰接圖中對(duì)象之間的關(guān)聯(lián),空間關(guān)聯(lián)挖掘多采用逐步求精的優(yōu)化思想,即首先用一種快速的算法粗略地對(duì)初始空間數(shù)據(jù)庫(kù)進(jìn)行一次挖掘,然后再在裁剪過(guò)的數(shù)據(jù)庫(kù)上用代價(jià)高的算法進(jìn)行進(jìn)一步精化挖掘。
空間數(shù)據(jù)挖掘過(guò)程一般可分為數(shù)據(jù)篩選(消除原始數(shù)據(jù)的噪聲或不一致數(shù)據(jù))、數(shù)據(jù)集成(將多種數(shù)據(jù)源組合在一起)、數(shù)據(jù)選擇(根據(jù)用戶(hù)的要求從空間數(shù)據(jù)庫(kù)中提取與空間數(shù)據(jù)挖掘相關(guān)的數(shù)據(jù))、數(shù)據(jù)變換(將數(shù)據(jù)統(tǒng)一成適合挖掘的形式)、空間數(shù)據(jù)挖掘(運(yùn)用選定的知識(shí)發(fā)現(xiàn)算法,從數(shù)據(jù)中提取用戶(hù)所需的知識(shí))、模式評(píng)估(根據(jù)某種興趣度度量并識(shí)別表示知識(shí)的真正有趣的模式),知識(shí)表示(使用可視化技術(shù)和知識(shí)表示技術(shù),向用戶(hù)提供挖掘的知識(shí))等階段(見(jiàn)圖1)??臻g數(shù)據(jù)挖掘?qū)嶋H上是一個(gè)“人引導(dǎo)機(jī)器,機(jī)器幫助人”的交互理解數(shù)據(jù)的過(guò)程。
2 空間數(shù)據(jù)挖掘在GIS中的應(yīng)用
空間數(shù)據(jù)挖掘技術(shù)與地理信息系統(tǒng)(GIS)的結(jié)合具有非常廣泛的應(yīng)用空間。數(shù)據(jù)挖掘與GIs集成具有三種模式:其一為松散耦合式,也稱(chēng)外部空間數(shù)據(jù)挖掘模式,這種模式基本上將GIS當(dāng)作一個(gè)空間數(shù)據(jù)庫(kù)看待,在G IS環(huán)境外部借助其它軟件或計(jì)算機(jī)語(yǔ)言進(jìn)行空間數(shù)據(jù)挖掘,與GIS之間采用數(shù)據(jù)通訊的方式聯(lián)系。其二為嵌入式,又稱(chēng)內(nèi)部空間數(shù)據(jù)挖掘模式,即在GIs中將空間數(shù)據(jù)挖掘技術(shù)融合到空間分析功能中去。第三為混合型空間模型法,是前兩種方法的結(jié)合,即盡可能利用GIS提供的功能,最大限度的減少用戶(hù)自行開(kāi)發(fā)的工作量和難度,又可以保持外部空間數(shù)據(jù)挖掘模式的靈活性。
利用空間數(shù)據(jù)挖掘技術(shù)可以從空間數(shù)據(jù)庫(kù)中發(fā)現(xiàn)如下幾種主要類(lèi)型的知識(shí):普遍的幾何知識(shí)、空間分布規(guī)律、空間關(guān)聯(lián)規(guī)律、空間聚類(lèi)規(guī)則、空間特征規(guī)則、空間區(qū)分規(guī)則,空間演變規(guī)則、面向?qū)ο蟮闹R(shí)。目前,這些知識(shí)已比較成熟地應(yīng)用于軍事、土地、電力、電信、石油和天然氣、城市規(guī)劃、交通運(yùn)輸、環(huán)境監(jiān)測(cè)和保護(hù)、110和1 20快速反應(yīng)系統(tǒng)等資源管理和城市管理領(lǐng)域。在市場(chǎng)分析、企業(yè)客戶(hù)關(guān)系管理、銀行保險(xiǎn)、人口統(tǒng)計(jì)、房地產(chǎn)開(kāi)發(fā)、個(gè)人位置服務(wù)等領(lǐng)域也正得到廣泛關(guān)注與應(yīng)用,實(shí)際上,它正在深入到人們工作和生活的各個(gè)方面。
3 空間數(shù)據(jù)挖掘面臨的問(wèn)題
(1) 多數(shù)空間數(shù)據(jù)挖掘算法是由一般的數(shù)據(jù)挖掘算法移植而來(lái),并沒(méi)有考慮空間數(shù)據(jù)存儲(chǔ)、處理及空間數(shù)據(jù)本身的特點(diǎn)??臻g數(shù)據(jù)不同于關(guān)系數(shù)據(jù)庫(kù)中的數(shù)據(jù),它有其特有的空間數(shù)據(jù)訪問(wèn)方法,因而傳統(tǒng)的數(shù)據(jù)挖掘技術(shù)往往不能很好地分析復(fù)雜的空間現(xiàn)象和空間對(duì)象。
(2) 空間數(shù)據(jù)挖掘算法的效率不高,發(fā)現(xiàn)模式不精練。面對(duì)海量的數(shù)據(jù)庫(kù)系統(tǒng),在空間數(shù)據(jù)挖掘過(guò)程中出現(xiàn)不確定性、錯(cuò)誤模式的可能性和待解決問(wèn)題的維數(shù)都很大,不僅增大了算法的搜索空間,也增加了盲目搜索的可能性。因而必須利用領(lǐng)域知識(shí)發(fā)現(xiàn)、去除與任務(wù)無(wú)關(guān)的數(shù)據(jù),有效地降低問(wèn)題的維數(shù),設(shè)計(jì)出更有效的知識(shí)發(fā)現(xiàn)算法。
(3) 沒(méi)有公認(rèn)的標(biāo)準(zhǔn)化空間數(shù)據(jù)挖掘查詢(xún)語(yǔ)言。數(shù)據(jù)庫(kù)技術(shù)飛速發(fā)展的原因之一就是數(shù)據(jù)庫(kù)查詢(xún)語(yǔ)言的不斷完善和發(fā)展,因此,要不斷完善和發(fā)展空間數(shù)據(jù)挖掘就必須發(fā)展空間數(shù)據(jù)挖掘查詢(xún)語(yǔ)言。為高效的空間數(shù)據(jù)挖掘奠定基礎(chǔ)。
(4) 空間數(shù)據(jù)挖掘知識(shí)發(fā)現(xiàn)系統(tǒng)交互性不強(qiáng),在知識(shí)發(fā)現(xiàn)過(guò)程中很難充分有效地利用領(lǐng)域?qū)<抑R(shí),用戶(hù)不能很好掌控空間數(shù)據(jù)挖掘過(guò)程。
(5) 空間數(shù)據(jù)挖掘方法和任務(wù)單一,基本上都是針對(duì)某個(gè)特定的問(wèn)題,因而能夠發(fā)現(xiàn)的知識(shí)有限。
(6) 空間數(shù)據(jù)挖掘與其他系統(tǒng)的集成不夠,忽視了GIS在空間知識(shí)發(fā)現(xiàn)過(guò)程中的作用。一個(gè)方法和功能單一的空間數(shù)據(jù)挖掘系統(tǒng)的適用范圍必然受到很多限制,目前開(kāi)發(fā)的知識(shí)系統(tǒng)僅局限于數(shù)據(jù)庫(kù)領(lǐng)域,如果要在更廣闊的領(lǐng)域發(fā)現(xiàn)知識(shí),知識(shí)發(fā)現(xiàn)系統(tǒng)就應(yīng)該是數(shù)據(jù)庫(kù)、知識(shí)庫(kù)、專(zhuān)家系統(tǒng)、決策支持系統(tǒng)、可視化工具、網(wǎng)絡(luò)等多項(xiàng)技術(shù)集成的系統(tǒng)。
上述問(wèn)題使得從空間數(shù)據(jù)庫(kù)中提取知識(shí)比從傳統(tǒng)的關(guān)系數(shù)據(jù)庫(kù)中提取知識(shí)更為困難,這給空間數(shù)據(jù)挖掘研究帶來(lái)了挑戰(zhàn)。因此,空間數(shù)據(jù)挖掘在未來(lái)的發(fā)展中,還有很多理論和方法有待深入研究。
4 空間數(shù)據(jù)挖掘的發(fā)展趨勢(shì)
(1)空間數(shù)據(jù)挖掘算法和技術(shù)的研究??臻g關(guān)聯(lián)規(guī)則挖掘算法、時(shí)間序列挖掘技術(shù)、空間同位算法、空間分類(lèi)技術(shù)、空間離群算法等是空間數(shù)據(jù)挖掘研究的熱點(diǎn),同時(shí)提高空間數(shù)據(jù)挖掘算法的效率也很重要。
(2) 多源空間數(shù)據(jù)的預(yù)處理??臻g數(shù)據(jù)內(nèi)容包括數(shù)字線劃數(shù)據(jù)、影像數(shù)據(jù)、數(shù)字高程模型和地物的屬性數(shù)據(jù),由于其本身的復(fù)雜性與數(shù)據(jù)采集的困難,空間數(shù)據(jù)中不可避免地存在著空缺值、噪聲數(shù)據(jù)及不一致數(shù)據(jù),多源空間數(shù)據(jù)的預(yù)處理就顯得格外重要。
(3)其他各種空間數(shù)據(jù)挖掘及其相關(guān)技術(shù)研究。如網(wǎng)絡(luò)環(huán)境下的空間數(shù)據(jù)挖掘、可視化數(shù)據(jù)挖掘、柵格矢量-體化空間數(shù)據(jù)挖掘、背景知識(shí)概念樹(shù)的自動(dòng)生成、基于空間不確定性(位置、屬性、時(shí)問(wèn)等) 的數(shù)據(jù)挖掘、遞增式數(shù)據(jù)挖掘、多分辨率及多層次數(shù)據(jù)挖掘、并行數(shù)據(jù)挖掘、遙感圖像數(shù)據(jù)庫(kù)的數(shù)據(jù)挖掘、多媒體空間數(shù)據(jù)庫(kù)的知識(shí)發(fā)現(xiàn)等。
篇2
【關(guān)鍵詞】數(shù)據(jù)挖掘 數(shù)據(jù)分類(lèi)算法
在當(dāng)前的時(shí)代背景下,很多的行業(yè)都引入了大數(shù)據(jù)挖掘的理念,這既給計(jì)算機(jī)產(chǎn)業(yè)帶來(lái)了發(fā)展機(jī)遇,也帶來(lái)了挑戰(zhàn)。因?yàn)橄胍龊么髷?shù)據(jù)挖掘的相關(guān)工作,就一定要掌握數(shù)據(jù)分類(lèi)算法,而數(shù)據(jù)分類(lèi)算法可稱(chēng)得上是數(shù)據(jù)挖掘中的一道難關(guān)。隨著數(shù)據(jù)分析的研究不斷深入,人們開(kāi)發(fā)了多種多樣的分類(lèi)算法,用以不斷減輕其難度。通常都是以數(shù)據(jù)分類(lèi)器為基準(zhǔn),進(jìn)行相應(yīng)的數(shù)據(jù)分類(lèi),包括決策樹(shù)類(lèi)、Bayes類(lèi)、基于關(guān)聯(lián)規(guī)則類(lèi)以及利用數(shù)據(jù)庫(kù)技術(shù)類(lèi),本文將對(duì)它們進(jìn)行簡(jiǎn)單的闡述。
1 決策樹(shù)分類(lèi)算法
1.1 傳統(tǒng)算法
C4.5算法作為傳統(tǒng)的數(shù)據(jù)分類(lèi)算法,有著很明顯的優(yōu)點(diǎn),如規(guī)則簡(jiǎn)單易懂,實(shí)際操作易于上手。但是隨著計(jì)算機(jī)的不斷普及,數(shù)據(jù)的規(guī)模變的越來(lái)越龐大,其復(fù)雜程度也是日漸增長(zhǎng)。C4.5已經(jīng)逐漸無(wú)法滿(mǎn)足新時(shí)期的數(shù)據(jù)分類(lèi)處理工作了。并且由于決策樹(shù)分類(lèi)算法的規(guī)則,決定了在數(shù)據(jù)分類(lèi)的過(guò)程中,要對(duì)數(shù)據(jù)進(jìn)行多次重復(fù)的掃描和排序。特別是在構(gòu)造樹(shù)的時(shí)候,這種缺點(diǎn)更加明顯。這不僅會(huì)影響數(shù)據(jù)分析的速度,也浪費(fèi)了更多的系統(tǒng)資源。對(duì)于大數(shù)據(jù)挖掘來(lái)說(shuō),C4.5更加無(wú)法勝任,因?yàn)镃4.5算法的適用范圍十分有限,只能夠處理小于系統(tǒng)內(nèi)存數(shù)量的數(shù)據(jù),對(duì)于內(nèi)存無(wú)法保留的過(guò)于龐大的數(shù)據(jù)集,C4.5甚至?xí)霈F(xiàn)無(wú)法運(yùn)行的情況。
1.2 衍生算法
(1)SLIQ算法和SPRINT算法都是由C4.5算法改良而來(lái),在其基礎(chǔ)上做了一些技術(shù)性的完善,例如增強(qiáng)了數(shù)據(jù)的排序技術(shù),并采取了廣度優(yōu)先的處理策略。這使得SLIQ算法能夠很好地記錄數(shù)據(jù)處理的個(gè)數(shù),并具有相當(dāng)優(yōu)秀的可擴(kuò)展性,為處理大數(shù)據(jù)提供了基礎(chǔ)條件。但是SLIQ算法也存在一些缺點(diǎn),由于它是以C4.5算法為基礎(chǔ)的,因此在進(jìn)行數(shù)據(jù)處理時(shí),仍需要將數(shù)據(jù)集保留在內(nèi)存中,這就導(dǎo)致SLIQ算法的可處理數(shù)據(jù)集的大小受到了限制。即數(shù)據(jù)記錄的長(zhǎng)度一旦超過(guò)了排序的預(yù)定長(zhǎng)度,SLIQ算法就很難完成數(shù)據(jù)處理和排序的工作。
(2)SPRINT 算法是為了解決SLIQ算法中數(shù)據(jù)集大小受到內(nèi)存限制的問(wèn)題而開(kāi)發(fā)出來(lái)的。SPRINT 算法重新定義了決策樹(shù)算法的數(shù)據(jù)分析結(jié)構(gòu),改變了傳統(tǒng)算法將數(shù)據(jù)集停留在內(nèi)存中的做法。值得一提的是,它沒(méi)有像SLIQ 算法那樣講數(shù)據(jù)列表存儲(chǔ)在內(nèi)存當(dāng)中,而是將其融合到了每個(gè)數(shù)據(jù)集的屬性列表中,這樣既避免了數(shù)據(jù)查詢(xún)時(shí)重復(fù)掃描造成的速度緩慢,又釋放了內(nèi)存的壓力。特別是在進(jìn)行大數(shù)據(jù)挖掘時(shí),由于數(shù)據(jù)的基數(shù)過(guò)大,在每個(gè)數(shù)據(jù)集的屬性列表內(nèi)尋找所需數(shù)據(jù)能夠大大節(jié)省分析的時(shí)間,對(duì)數(shù)據(jù)進(jìn)行分類(lèi)的工作也變得更加便捷。但是SPRIT算法同樣存在一些缺點(diǎn),對(duì)于不具有可分裂屬性的數(shù)據(jù)列表,由于它只能在數(shù)據(jù)集內(nèi)進(jìn)行分析,結(jié)果可能不是十分準(zhǔn)確,導(dǎo)致其拓展性受到了限制。
2 其他分類(lèi)算法
2.1 Bayes分類(lèi)算法
Bayes分類(lèi)算法是利用概率統(tǒng)計(jì)學(xué)而開(kāi)發(fā)出來(lái)的一種算法,在目前數(shù)據(jù)分類(lèi)中應(yīng)用比較廣泛。但是其缺點(diǎn)也比較明顯,由于Bayes分類(lèi)算法需要在分析之前對(duì)數(shù)據(jù)的特性做出一定的假設(shè),而這種假設(shè)往往缺少實(shí)際數(shù)據(jù)的理論支持,因此在數(shù)據(jù)分析過(guò)程中就很難做到準(zhǔn)確有效。在此之上,TAN算法又被開(kāi)發(fā)出來(lái),它是為了提高Bayes分類(lèi)算法的假設(shè)命題的準(zhǔn)確率,也就是降低了NB任意屬性之間獨(dú)立的假設(shè)。
2.2 CBA分類(lèi)數(shù)據(jù)算法
基于關(guān)聯(lián)規(guī)則的分類(lèi)算法就是CBA分類(lèi)數(shù)據(jù)算法。這種算法一般需要用到數(shù)據(jù)構(gòu)造分類(lèi)器,在數(shù)據(jù)分析的過(guò)程中,先搜索到所有的右部為類(lèi)別的類(lèi)別關(guān)聯(lián)規(guī)則,這被稱(chēng)為CAR;然后再?gòu)腃AR中選擇合適的數(shù)據(jù)集。CBA算法中主要用到的是Apriori算法技術(shù),它能夠使?jié)撛诘臄?shù)據(jù)關(guān)聯(lián)規(guī)則呈現(xiàn)到表面,方便進(jìn)行歸納整理。但是由于其在進(jìn)行數(shù)據(jù)分類(lèi)時(shí)容易出現(xiàn)疏漏,因此經(jīng)常采用設(shè)置最小支持度為0的辦法來(lái)減少遺漏的數(shù)據(jù),這就造成了算法的優(yōu)化作用不能完全發(fā)揮,降低了運(yùn)行效率。
2.3 MIND和GAC-RDB算法分類(lèi)算法
在大數(shù)據(jù)挖掘的背景下,未來(lái)數(shù)據(jù)分類(lèi)算法的發(fā)展方向應(yīng)當(dāng)是以數(shù)據(jù)庫(kù)技術(shù)為基礎(chǔ)的的分類(lèi)算法。盡管很久之前就已經(jīng)有一些專(zhuān)門(mén)研究數(shù)據(jù)庫(kù)的人員發(fā)現(xiàn)并提出了基于數(shù)據(jù)庫(kù)技術(shù)的分類(lèi)算法,但是并沒(méi)有得到實(shí)際運(yùn)用。因?yàn)樵谶M(jìn)行數(shù)據(jù)挖掘和數(shù)據(jù)分析的時(shí)候,很難將其與數(shù)據(jù)庫(kù)的系統(tǒng)集成,目前來(lái)說(shuō),MIND和GAC-RDB算法還能夠較好地解決這個(gè)問(wèn)題。
2.3.1 MIND算法
MIND算法與決策樹(shù)算法有些相似,都是通過(guò)構(gòu)造數(shù)據(jù)分類(lèi)器來(lái)進(jìn)行數(shù)據(jù)分析。但是MIND算法采用了UDF方法和SQL語(yǔ)句來(lái)與數(shù)據(jù)庫(kù)系統(tǒng)實(shí)現(xiàn)關(guān)聯(lián)。在進(jìn)行數(shù)據(jù)分析時(shí),UDF方法能夠大大縮短對(duì)每個(gè)節(jié)點(diǎn)的數(shù)據(jù)特性進(jìn)行分析的時(shí)間,這樣就在為數(shù)據(jù)庫(kù)的集成提供了理論基礎(chǔ)。SQL語(yǔ)句是通過(guò)對(duì)數(shù)據(jù)集的屬性進(jìn)行分析,以便從中選擇出最合適的分裂屬性,然后給數(shù)據(jù)排序,這樣就節(jié)省了數(shù)據(jù)分類(lèi)的時(shí)間。但是MIND算法還不能直接在數(shù)據(jù)庫(kù)系統(tǒng)中實(shí)現(xiàn)查詢(xún)功能,更重要的是,該算法的維護(hù)成本過(guò)高,不利于普及。
2.3.2 GAR-RDB算法
GAR-RDB算法在MIND算法的基礎(chǔ)上進(jìn)行了更多的改進(jìn),能夠充分利用數(shù)據(jù)庫(kù)系統(tǒng)進(jìn)行聚集運(yùn)算,也就是實(shí)現(xiàn)了數(shù)據(jù)庫(kù)系統(tǒng)的集成。該算法擁有分類(lèi)準(zhǔn)確,分析迅速,執(zhí)行更快的優(yōu)點(diǎn),同時(shí)可拓展性也比較出色。更重要的是,它可以充分利用數(shù)據(jù)庫(kù)提供的查詢(xún)功能,從而避免了重復(fù)掃描數(shù)據(jù)集的現(xiàn)象,縮短了分析的時(shí)間,節(jié)約了系統(tǒng)資源。只要在自動(dòng)確定參數(shù)取值的技術(shù)上進(jìn)行一些改進(jìn),該算法就能很好地勝任大數(shù)據(jù)挖掘的數(shù)據(jù)處理工作。
3 總結(jié)
大數(shù)據(jù)挖掘是時(shí)展的潮流,因此數(shù)據(jù)分類(lèi)算法的重要性也將隨著顯現(xiàn)。通過(guò)分析幾種不同的算法,能夠在數(shù)據(jù)分析速度、可擴(kuò)展性和結(jié)果的準(zhǔn)確性上進(jìn)行比較,從而選擇最適合的數(shù)據(jù)分類(lèi)算法。它們都在不同程度上有著各自的優(yōu)缺點(diǎn),因此要繼續(xù)深入研究以開(kāi)發(fā)出更好的分類(lèi)算法。
參考文獻(xiàn)
[1]錢(qián)雙艷.關(guān)于數(shù)據(jù)挖掘中的數(shù)據(jù)分類(lèi)算法的綜述,2014(13).
[2]劉紅巖.數(shù)據(jù)挖掘中的數(shù)據(jù)分類(lèi)算法綜述,2002(06).
篇3
【關(guān)鍵詞】Web挖掘、網(wǎng)絡(luò)輿情、分析處理
0 引言
網(wǎng)絡(luò)輿情作為一種十分重要的輿情表現(xiàn)形式,是公眾在互聯(lián)網(wǎng)上對(duì)某種社會(huì)現(xiàn)象或社會(huì)問(wèn)題公開(kāi)表達(dá)的具有一定影響力和傾向性的共同意見(jiàn)。要加強(qiáng)對(duì)網(wǎng)絡(luò)輿情信息的分析,及時(shí)發(fā)現(xiàn)輿情熱點(diǎn),及時(shí)對(duì)民意走勢(shì)做出正確引導(dǎo)。在此情況下,我們引入Web數(shù)據(jù)挖掘技術(shù)來(lái)提高對(duì)輿情的處理和分析的效率以及質(zhì)量,實(shí)現(xiàn)網(wǎng)絡(luò)輿情的分析。
1 Web挖掘
Web挖掘是數(shù)據(jù)挖掘在Web上的應(yīng)用,它是一種綜合使用自然語(yǔ)言處理、數(shù)據(jù)挖掘、人工智能、機(jī)器學(xué)習(xí)等技術(shù)的智能分析方法。根據(jù)挖掘?qū)ο蟮牟煌?,Web挖掘可以分為Web內(nèi)容挖掘、Web結(jié)構(gòu)挖掘和Web使用挖掘三個(gè)方面。相比于傳統(tǒng)的網(wǎng)絡(luò)輿情分析方法,Web挖掘可以用更短的時(shí)間了解網(wǎng)絡(luò)輿情的狀況和走向以及與之相關(guān)聯(lián)的熱點(diǎn)問(wèn)題,為網(wǎng)絡(luò)輿情的深入分析提供了技術(shù)支持。
1.1Web內(nèi)容挖掘。Web內(nèi)容挖掘是指從Web文檔的內(nèi)容或者Web搜索的結(jié)果中獲取知識(shí)的過(guò)程。由于網(wǎng)頁(yè)的內(nèi)容錯(cuò)綜復(fù)雜不易于計(jì)算機(jī)理解,Web內(nèi)容挖掘可以有效的對(duì)大量的Web文本集合進(jìn)行總結(jié)、分類(lèi)、聚類(lèi)、關(guān)聯(lián)分析,以及利用Web文本進(jìn)行趨勢(shì)預(yù)測(cè)。在網(wǎng)絡(luò)輿情分析中,Web內(nèi)容挖掘可以發(fā)現(xiàn)與事件主題相關(guān)的知識(shí)內(nèi)容和語(yǔ)義關(guān)聯(lián)模式。
1.2Web結(jié)構(gòu)挖掘。Web結(jié)構(gòu)挖掘是指對(duì)Web組織結(jié)構(gòu)、Web頁(yè)面的鏈接關(guān)系等進(jìn)行挖掘并從中提取出潛在的有用的知識(shí)的過(guò)程。Web鏈接信息包括了大量的關(guān)于Web內(nèi)容相關(guān)性、質(zhì)量和結(jié)構(gòu)方面的信息,為網(wǎng)絡(luò)輿情的分析的提供了重要資源。通過(guò)Web結(jié)構(gòu)挖掘,可以獲得與輿情主題高度相關(guān)的鏈接以及鏈接邏輯結(jié)構(gòu)的語(yǔ)義知識(shí),從而幫助輿情分析人員確定重要輿情源和中心頁(yè)面,有助于深入挖掘輿情信息。
1.3Web使用挖掘。Web使用挖掘是指通過(guò)挖掘Web服務(wù)器上的日志信息來(lái)提取瀏覽者的訪問(wèn)記錄,獲取有價(jià)值的信息的過(guò)程。這些信息包括網(wǎng)絡(luò)服務(wù)器訪問(wèn)記錄、服務(wù)器日志記錄、瀏覽器日志記錄、用戶(hù)信息、注冊(cè)記錄、用戶(hù)對(duì)話或交易信息、用戶(hù)提問(wèn)等。通過(guò)上述信息可以發(fā)現(xiàn)用戶(hù)的訪問(wèn)模式以及行為偏好,可以更好地理解用戶(hù)行為從而提供智能化的服務(wù)。通過(guò)Web使用挖掘,可以確定輿情熱點(diǎn)和焦點(diǎn),從而更準(zhǔn)確地預(yù)測(cè)網(wǎng)民行為。
2 基于Web數(shù)據(jù)挖掘的網(wǎng)絡(luò)輿情分析
2.1數(shù)據(jù)層。輿情信息采集的主要任務(wù)是提取與熱點(diǎn)相關(guān)度高的信息,為下面的輿情挖掘和分析做好準(zhǔn)備工作。輿情信息采集由以下5步完成。
(1)確定主題和選擇采集地點(diǎn)。為了使采集效果更好,必須以主題的形式對(duì)信息需求進(jìn)行描述。
(2)利用自動(dòng)采集軟件采集數(shù)據(jù)。數(shù)據(jù)采集軟件可以自動(dòng)采集相關(guān)信息,并下載到本地進(jìn)行分析。
(3)頁(yè)面分析。采集完頁(yè)面之后,對(duì)頁(yè)面進(jìn)行分析,提取重要信息,以便進(jìn)行后續(xù)的過(guò)濾和處理。
(4)URL與主題的相關(guān)性判斷。在采集過(guò)程中增加過(guò)濾機(jī)制以便提高采集數(shù)據(jù)的質(zhì)量。
(5)頁(yè)面過(guò)濾。對(duì)采集頁(yè)面進(jìn)行主題相關(guān)性評(píng)價(jià),去除相關(guān)性低的頁(yè)面,從而提高采集頁(yè)面的準(zhǔn)確性。
2.2 挖掘?qū)?。挖掘?qū)又饕烧Z(yǔ)義信息集成和Web挖掘引擎兩部分組成,而且語(yǔ)義信息集成為Web挖掘引擎提供經(jīng)預(yù)處理后的結(jié)構(gòu)化信息,簡(jiǎn)化并加速 了Web挖掘處理。
(1)語(yǔ)義信息集成。由于數(shù)據(jù)層的數(shù)據(jù)來(lái)自于不同的媒介,因而在結(jié)構(gòu)和語(yǔ)義上都存在很多的不同,需要對(duì)其進(jìn)行統(tǒng)一處理,并根據(jù)需要利用智能信息處理技術(shù)進(jìn)行深入的預(yù)分析,從而提高挖掘引擎的效能和健壯性。
(2)Web挖掘引擎。Web挖掘引擎是網(wǎng)絡(luò)輿情分析的動(dòng)力部分,執(zhí)行Web挖掘任務(wù)。它定義了Web挖掘模型語(yǔ)言,選取了合適的挖掘算法和工具。其主要目的是從大量的網(wǎng)絡(luò)輿情信息中提取規(guī)律,并預(yù)測(cè)事件的發(fā)展趨勢(shì)??筛鶕?jù)網(wǎng)絡(luò)輿情信息源的特點(diǎn),從多個(gè)方面更加深入的進(jìn)行挖掘處理。
2.3分析層。分析層是核心部分,其主要技術(shù)應(yīng)用于對(duì)網(wǎng)絡(luò)輿情信息的智能分析,該分析從六個(gè)層面進(jìn)行,分別是:主體類(lèi)聚分析、語(yǔ)義關(guān)聯(lián)分析、概念描述、趨勢(shì)預(yù)測(cè)分析、主題識(shí)別探測(cè)和傾向性分析。其功能主要是將經(jīng)過(guò)挖掘處理后的知識(shí)進(jìn)行描述,并生成網(wǎng)絡(luò)輿情分析報(bào)告來(lái)輔助決策機(jī)構(gòu)。
2.4應(yīng)用層。應(yīng)用層的出現(xiàn)首先方便了與用戶(hù)之間的交互。用戶(hù)可以通過(guò)軟件來(lái)指導(dǎo)網(wǎng)絡(luò)輿情信息的采集、挖掘和分析處理,從而發(fā)現(xiàn)隱藏的規(guī)律和發(fā)展趨勢(shì),同時(shí)也更易于輿情信息的理解和分析結(jié)果的應(yīng)用。其次,為后續(xù)工作提供接口。由于計(jì)算機(jī)不能對(duì)隨機(jī)出現(xiàn)的各種警情進(jìn)行判斷,因此需要提供系統(tǒng)交互接口,可以讓專(zhuān)家進(jìn)行分析,實(shí)現(xiàn)人機(jī)互動(dòng),從而提高輿情分析的準(zhǔn)確性。
3 基于Web挖掘的網(wǎng)絡(luò)輿情分析系統(tǒng)實(shí)例分析
本文以方正智思輿情預(yù)警輔助決策支持系統(tǒng)為例,討論Web挖掘技術(shù)在網(wǎng)絡(luò)輿情分析中的應(yīng)用。正智思輿情預(yù)警輔助決策支持系統(tǒng)是一款由北大方正技術(shù)研究院研發(fā)而成的中文智能信息挖掘與處理的平臺(tái)軟件。其核心技術(shù)為中文信息處理技術(shù)與Web挖掘技術(shù),采用B/S結(jié)構(gòu),利用J2EE技術(shù)框架,實(shí)現(xiàn)基于瀏覽器的瘦客戶(hù)、服務(wù)器模式。它不僅能對(duì)輿情信息進(jìn)行全方位采集,還能對(duì)輿情信息進(jìn)行智能分析處理。其實(shí)時(shí)響應(yīng)、智能分析、輔助傾向性判斷等特點(diǎn)為相關(guān)職能部門(mén)全面掌握網(wǎng)絡(luò)輿論動(dòng)態(tài),作出正確引導(dǎo),提供分析依據(jù),從而提高各級(jí)政府應(yīng)對(duì)突發(fā)事件的能力。
4 結(jié)語(yǔ)
Web挖掘是一種綜合使用自然語(yǔ)言處理、數(shù)據(jù)挖掘、人工智能、機(jī)器學(xué)習(xí)等技術(shù)的智能分析方法。實(shí)踐表明,將Web挖掘融入網(wǎng)絡(luò)輿情分析中,可以充分發(fā)揮Web挖掘技術(shù)從海量信息中發(fā)現(xiàn)隱藏的規(guī)律,實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)輿情信息全方面深入的分析,從而輔助相關(guān)職能部門(mén)正確引導(dǎo)民意。在網(wǎng)絡(luò)輿情中應(yīng)用Web挖掘技術(shù),可以有效地提高網(wǎng)絡(luò)輿情分析結(jié)果的正確性,也是其未來(lái)的發(fā)展方向。
參考文獻(xiàn):
[1]付業(yè)勤,鄭向敏. 國(guó)內(nèi)外網(wǎng)絡(luò)輿情研究的回顧與展望[J]. 編輯之友,2013,12:56-58.
[2]張玉峰,何超. 基于Web挖掘的網(wǎng)絡(luò)輿情智能分析研究[J]. 情報(bào)理論與實(shí)踐,2011,04:64-68.
篇4
關(guān)鍵詞:數(shù)據(jù)挖掘;信息系統(tǒng)集成;K均值算法;聚類(lèi)算法;BOM系統(tǒng)
中圖分類(lèi)號(hào):TP391
文獻(xiàn)標(biāo)識(shí)碼:A
文章編號(hào):16727800(2017)004018503
0引言
充分利用企I信息系統(tǒng)集成中所產(chǎn)生的生產(chǎn)業(yè)務(wù)信息數(shù)據(jù)成為企業(yè)的關(guān)鍵技術(shù),數(shù)據(jù)挖掘技術(shù)則是企業(yè)系統(tǒng)中使用的技術(shù)之一。數(shù)據(jù)挖掘指對(duì)數(shù)據(jù)庫(kù)中的海量數(shù)據(jù)進(jìn)行過(guò)程復(fù)雜的數(shù)據(jù)分析,從而獲得其中隱含信息的過(guò)程。根據(jù)用戶(hù)需求,選擇比較切合的數(shù)據(jù)挖掘算法,成為挖掘技術(shù)成功的關(guān)鍵。通過(guò)研究各種數(shù)據(jù)挖掘算法,筆者在眾多算法中選擇了K均值算法作為本文數(shù)據(jù)挖掘的基礎(chǔ)算法。
1K均值算法概述
1.1K均值算法概念
聚類(lèi)問(wèn)題是將給定的數(shù)據(jù)集合D劃分成一組聚類(lèi):{C1,C2,…},Ci∈D,使不同種類(lèi)中的數(shù)據(jù)盡可能不相似(或距離較遠(yuǎn)),同一種類(lèi)中的數(shù)據(jù)盡可能相似(或距離較近)。聚類(lèi)是一種無(wú)監(jiān)督的學(xué)習(xí),所謂無(wú)監(jiān)督學(xué)習(xí)指事先并不知道要找的內(nèi)容,即沒(méi)有目標(biāo)變量,它將相似的對(duì)象歸到同一個(gè)簇中[13]。K均值(Kmeans)算法在聚類(lèi)算法中使用最為廣泛。首先根據(jù)分類(lèi)的個(gè)數(shù)k,隨機(jī)地選取k個(gè)初始的聚類(lèi)中心,當(dāng)然這個(gè)k值是難以確定的,并把每個(gè)對(duì)象分配給離它最近的中心,分別得到起始的聚類(lèi)點(diǎn)。然后,將當(dāng)前每個(gè)聚類(lèi)的中心作為新的聚類(lèi)中心,并把每個(gè)對(duì)象重新分配到最近的中心。不斷地循環(huán)迭代,直到目標(biāo)函數(shù)的最小值,即最終的聚類(lèi)中心點(diǎn)沒(méi)有移動(dòng)。其中,目標(biāo)函數(shù)通常采用平方誤差準(zhǔn)則,即:其中,E表示所有聚類(lèi)對(duì)象的平方誤差和,S是聚類(lèi)對(duì)象,Mi是類(lèi)Ci的各聚類(lèi)對(duì)象的平均值,即:
其中,|Ci|表示類(lèi)Ci的聚類(lèi)對(duì)象數(shù)目。每一次迭代時(shí),每一個(gè)點(diǎn)都要計(jì)算一遍它和各聚類(lèi)中心的距離,并取最短距離的類(lèi)作為該點(diǎn)所屬的類(lèi)。直到E獲取最小值,最終表現(xiàn)為最后的聚類(lèi)中心無(wú)法移動(dòng)。一般k的典型取值為2~10。
1.2K均值算法計(jì)算模型
假設(shè)在一片小區(qū)域中有若干數(shù)據(jù)點(diǎn),如圖1所示。先假設(shè)k=2,即最終這些數(shù)據(jù)點(diǎn)會(huì)聚類(lèi)成兩個(gè)類(lèi)。K均值算法具體解釋如下: (1)由于k=2,任意的兩個(gè)數(shù)據(jù)點(diǎn)被選作初始類(lèi)的聚類(lèi)中心(圖中用點(diǎn)F、G表示),如圖1(a)所示。 (2)將其余的各個(gè)點(diǎn)分配到距離最近的聚類(lèi)中心點(diǎn)(本例中為F點(diǎn)、G點(diǎn))所代表的類(lèi)中,即求圖中所有點(diǎn)到各個(gè)聚類(lèi)中心的距離。如果Si距離Ci近, 則Si屬于Ci聚類(lèi)。如圖1(b)所示,A、B點(diǎn)與F點(diǎn)的距離相對(duì)G點(diǎn)更近,所以屬于F點(diǎn)聚類(lèi),C、D、E點(diǎn)與G點(diǎn)相對(duì)F點(diǎn)距離更近,所以屬于G點(diǎn)聚類(lèi)。 (3)將聚類(lèi)中心點(diǎn)F點(diǎn)、G點(diǎn)移動(dòng)到“自己”的聚類(lèi)中心,如圖1(c)、圖1(d)所示。 (4)重復(fù)步驟(2)、(3),直到每個(gè)類(lèi)中的聚類(lèi)對(duì)象(如圖1(e)中的點(diǎn))不再重新分布為止,第一個(gè)點(diǎn)聚合了A、B、C,第二個(gè)點(diǎn)聚合了D、E,此時(shí)重復(fù)循環(huán)的迭代過(guò)程結(jié)束。
2.1系統(tǒng)概述
通過(guò)對(duì)K均值算法的介紹及其算法處理模型,筆者結(jié)合某制造型企業(yè)的信息化系統(tǒng)平臺(tái)用戶(hù)實(shí)際需求建立數(shù)據(jù)倉(cāng)庫(kù),在數(shù)據(jù)倉(cāng)庫(kù)的基礎(chǔ)上使用數(shù)據(jù)挖掘中的K均值算法對(duì)大量數(shù)據(jù)進(jìn)行潛在信息的挖掘,并開(kāi)發(fā)出基于K均值算法的挖掘器,輔助決策者進(jìn)行決策。假如數(shù)據(jù)庫(kù)中的數(shù)據(jù)關(guān)于產(chǎn)品信息生成了k個(gè)聚類(lèi)中心,即k個(gè)中心點(diǎn)point,將其余的各個(gè)點(diǎn)分配到距離最近的聚類(lèi)中心點(diǎn)所代表的類(lèi)中,距離為distance,并獲取距聚類(lèi)中心距離最小的距離min2,將該元素歸類(lèi)于距離聚類(lèi)中心點(diǎn)最近的那個(gè)聚類(lèi)中,核心代碼如下:
private void clusterSet() { float[] distance = new float[m]; for (int l = 0; l < length; l++) { for (int e = 0; e < m; e++) { distance[e] = distance(data.get(l), point.get(e)); } int min2 = min1(distance); cluster.get(min2).add(data.get(l)); } } //將聚類(lèi)中心點(diǎn)移動(dòng)到自己的聚類(lèi)中心,求兩點(diǎn)誤差平方 private float result(float[] point1, float[] point) { float x = point1[0] - point[0]; float y = point1[1] - point[1]; float result1 = x * x + y * y; return result1; } //利用上述“求兩點(diǎn)誤差平方”的方法,計(jì)算誤差平方和準(zhǔn)則 private void result2() { float a1 = 0; for (int r = 0; r < cluster.size(); r++) { for (int j = 0; j < cluster.get(r).size(); j++) { a1 += result(cluster.get(r).get(j), point.get(r)); } } sum.add(a1); } //設(shè)置新的聚類(lèi)中心 private void setNewPoint() { for (int h = 0; h < m; h++) { int n = cluster.get(h).size(); if (n != 0) { float[] newpoint = { 0, 0 }; for (int k = 0; k < n; k++) { newpoint[0] += cluster.get(h).get(k)[0]; newpoint[1] += cluster.get(h).get(k)[1]; } newpoint[0] = newpoint[0] / n; newpoint[1] = newpoint[1] / n; point.set(h, newpoint); } } } //對(duì)第2、3步進(jìn)行重復(fù)迭代,直至得到算法最終結(jié)果 private void kmeans() { init(); while (true) { clusterSet(); result2(); if (n != 0) { if (sum.get(n) - sum.get(n - 1) == 0) { break; } } setNewPoint(); n++; cluster.clear(); cluster = cluster1(); } }
2.2零部件市場(chǎng)需求分析
在銷(xiāo)售系統(tǒng)“零部件市場(chǎng)需求分析”模塊,主要針對(duì)銷(xiāo)售信息以及產(chǎn)品信息所建立的數(shù)據(jù)倉(cāng)庫(kù)中的信息進(jìn)行數(shù)據(jù)挖掘。合同中記載了所銷(xiāo)售的產(chǎn)品圖號(hào)、數(shù)量、客戶(hù)相關(guān)信息等,同時(shí)根據(jù)產(chǎn)品圖號(hào)可以得到產(chǎn)品BOM信息。 產(chǎn)品BOM信息即該產(chǎn)品的設(shè)計(jì)信息,包括零件信息、物料進(jìn)貨方式及加工作業(yè)方式、工藝信息、圖紙信息、層次碼、總數(shù)量等。其中零件信息主要有:零件圖號(hào)、零件名稱(chēng)、材料、牌號(hào)、外形尺寸等;物料進(jìn)貨方式及加工作業(yè)方式主要包括:物料類(lèi)別(如:配套件、緊固件)、物料進(jìn)場(chǎng)狀態(tài)(如:成品、半成品、毛胚)、加工方式(如:自加工、外加工)、加工內(nèi)容(如:金工、電工);工藝信息即零部件加工的工藝信息;圖紙信息包括圖紙幅面等;層次碼主要用來(lái)標(biāo)注該零部件在產(chǎn)品中的所處位置;總數(shù)量即表明該零部件在產(chǎn)品中該層次碼下的個(gè)數(shù)。 相同產(chǎn)品可能會(huì)有處于不同層次的相同零部件,不同產(chǎn)品可能會(huì)有相同零部件。因此,在所建立的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上,使用數(shù)據(jù)挖掘技術(shù)挖掘出查詢(xún)條件,從銷(xiāo)售的產(chǎn)品中具體細(xì)化到銷(xiāo)售需求較多的零部件,從而在企業(yè)決策時(shí)察覺(jué)出該情況。通過(guò)針對(duì)性地制定預(yù)投生產(chǎn)計(jì)劃、增加庫(kù)存,能夠幫助企業(yè)提高生產(chǎn)效率,對(duì)于市場(chǎng)快速反應(yīng),以提高市場(chǎng)占有率。 對(duì)于該部分功能,首先可以進(jìn)行條件查詢(xún)。查詢(xún)屬性有:產(chǎn)品圖號(hào)、產(chǎn)品型號(hào)、代號(hào)、名稱(chēng)、規(guī)格尺寸、長(zhǎng)度寬度、材料、牌號(hào)、年份和客戶(hù)編號(hào)。 從查詢(xún)屬性看,這是多種搜索條件的組合;從數(shù)據(jù)挖掘角度看,這是在K-均值聚類(lèi)算法設(shè)計(jì)的數(shù)據(jù)倉(cāng)庫(kù)基礎(chǔ)上開(kāi)發(fā)出來(lái)的一個(gè)數(shù)據(jù)挖掘工具。此項(xiàng)功能設(shè)計(jì)時(shí)是從月份出發(fā),將每年的銷(xiāo)量按照月份呈現(xiàn),因此“年份”是必選項(xiàng),其余條件用戶(hù)可以自由組合。例如:選擇“2012年”,查詢(xún)結(jié)果如圖2所示。
該圖表示在2012年的銷(xiāo)售產(chǎn)品里對(duì)零部件數(shù)量進(jìn)行匯總的結(jié)果。通過(guò)該數(shù)據(jù)挖掘器,提出了銷(xiāo)量最領(lǐng)先的4個(gè)零部件。曲線代表其在各月的銷(xiāo)售總數(shù)及市場(chǎng)需求總數(shù),單位以“百”計(jì)。每條曲線代表的零部件圖號(hào)在圖右側(cè)進(jìn)行了說(shuō)明。該表示方法直觀、清晰,可以給決策者提供明確的零部件市場(chǎng)需求變化曲線圖。通過(guò)聚類(lèi)結(jié)果可知,“零件圖號(hào)”為“8UE.016.0211”的零件,從八月開(kāi)始銷(xiāo)量減少,并且其它3種零件在六月開(kāi)始需求量變大,從而可使決策者在來(lái)年制定更合理的方案,以提高企業(yè)競(jìng)爭(zhēng)力。
2.3廢料統(tǒng)計(jì)情況分析
廢料統(tǒng)計(jì)情況分析主要是針對(duì)生產(chǎn)中由于工人誤操作、材料劣質(zhì)、機(jī)器故障等各種原因造成所領(lǐng)物料報(bào)廢,需要重新領(lǐng)料進(jìn)行加工的情況進(jìn)行統(tǒng)計(jì)分析。 物料是一個(gè)統(tǒng)稱(chēng),它包括可以直接領(lǐng)的成品、需要再加工的半成品,以及需要加工的原材料。因此,對(duì)于物料有一個(gè)物料編碼,專(zhuān)門(mén)對(duì)所有可領(lǐng)的成品、半成品、原材料進(jìn)行唯一標(biāo)示。物料編碼根據(jù)零件圖號(hào)、零件名稱(chēng)、材料、牌號(hào)、外形尺寸、物料進(jìn)場(chǎng)狀態(tài)、物料類(lèi)別、加工方式8個(gè)字段進(jìn)行唯一性區(qū)分。根據(jù)編碼方式,產(chǎn)生唯一的物料碼,例如“A00B021”。該企業(yè)的物料有“定額”和“非定額”兩種情況?!岸~”即可以用個(gè)數(shù)來(lái)統(tǒng)計(jì)的零部件物料;“非定額”指無(wú)法用個(gè)數(shù)來(lái)統(tǒng)計(jì)的物料,如:5米長(zhǎng)的銅線等。具體而言,本文主要研究針對(duì)某個(gè)工作令從生產(chǎn)開(kāi)始到生產(chǎn)結(jié)束,所有定額物料的生產(chǎn)料廢情況。在工作令系統(tǒng)和領(lǐng)料單系統(tǒng)的基礎(chǔ)數(shù)據(jù)庫(kù)上建立數(shù)據(jù)倉(cāng)庫(kù)。工作令系統(tǒng)的數(shù)據(jù)庫(kù)中存有工作令號(hào)、起始生產(chǎn)日期、結(jié)束生產(chǎn)日期及其它工作令的基本信息。領(lǐng)料單系統(tǒng)數(shù)據(jù)庫(kù)中的廢料表中存有料廢的物料編碼、材料、數(shù)量等信息。查詢(xún)屬性有:工作令號(hào)、合同號(hào)、起始時(shí)間和終止時(shí)間。 填入工作令號(hào)“2B7-1D044205”,點(diǎn)擊“查詢(xún)”按鈕,會(huì)通過(guò)數(shù)據(jù)挖掘方法統(tǒng)計(jì)該工作令下的所有零件材料料廢情況,如表1所示。
表1清晰表明了該工作令號(hào)“2B7-1D044205”中各個(gè)物料損失的比重。從表中可以看出,以廢料“A03B004”、
“D03E334”和“E17B231”為聚類(lèi)中心的廢料占多數(shù),從而可以使企業(yè)決策者從這些材料損失中發(fā)現(xiàn)問(wèn)題,分析物料損耗原因,如:采購(gòu)質(zhì)量問(wèn)題、工人操作失誤,還是其它可避免的各類(lèi)原因。因此,該基于數(shù)據(jù)倉(cāng)庫(kù)的數(shù)掘挖掘器,有利于輔助企業(yè)決策者從實(shí)際生產(chǎn)中找出各類(lèi)潛在問(wèn)題,從而制定合理的政策,降低生產(chǎn)損失,提高企業(yè)競(jìng)爭(zhēng)力。
3結(jié)語(yǔ)
本文采用數(shù)據(jù)挖掘技術(shù)對(duì)數(shù)據(jù)庫(kù)中積累的大量數(shù)據(jù)進(jìn)行了分析處理,系統(tǒng)雖然實(shí)現(xiàn)了將基于K均值算法的數(shù)據(jù)挖掘技術(shù)應(yīng)用于信息化系統(tǒng)集成平臺(tái)中,但也只是實(shí)現(xiàn)了部分輔助決策功能。根據(jù)企業(yè)的具體使用情況,決策者肯定不會(huì)滿(mǎn)足于系統(tǒng)中已經(jīng)提供的決策支持功能,如何更近一步地發(fā)揮系統(tǒng)集成能力,開(kāi)發(fā)更多決策支持功能,提高數(shù)據(jù)倉(cāng)庫(kù)查詢(xún)速度,以滿(mǎn)足企業(yè)決策者更多需求,是下一階段研究的主要方向。
參考文獻(xiàn):
[1]王欣,徐騰飛,唐連章,等.SQL Server2005數(shù)據(jù)挖掘?qū)嵗治鯷M].北京:中國(guó)水利水電出版社,2008:15.
[2]李銳,,曲亞?wèn)|,等.機(jī)器學(xué)習(xí)實(shí)踐[M].北京:人民郵電出社,2013:184199.
[3]彭木根.數(shù)據(jù)倉(cāng)庫(kù)技術(shù)與實(shí)現(xiàn)[M].北京:電子工業(yè)出版社,2002:321.
[4]陳文偉.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘教程[M].第2版.北京:清華大學(xué)出版社,2011:190.
[5]孫水華,趙釗林,劉建華.數(shù)據(jù)倉(cāng)庫(kù)與數(shù)據(jù)挖掘技術(shù)[M].北京:清華大學(xué)出版社,2012:122.
[6]李晶,陳驥.數(shù)據(jù)挖掘技術(shù)對(duì)ERP實(shí)施的重要性[J].福建電腦,2008(8):6061.
篇5
在當(dāng)今信息高速發(fā)展的科技時(shí)代,數(shù)據(jù)挖掘技術(shù)的發(fā)展也進(jìn)入了一個(gè)新的高峰期。所謂的數(shù)據(jù)挖掘技術(shù),已經(jīng)逐漸的成為了我們當(dāng)前的數(shù)據(jù)庫(kù)與相關(guān)人工的智能領(lǐng)域所要研究的焦點(diǎn)。該篇文章主要是針對(duì)國(guó)內(nèi)外一些數(shù)據(jù)挖掘技術(shù)方面的整體的狀況進(jìn)行比較籠統(tǒng)的介紹,這其中主要包括了其數(shù)據(jù)挖掘技術(shù)所產(chǎn)生的背景及其相關(guān)的應(yīng)用領(lǐng)域等等。當(dāng)然,還包括了數(shù)據(jù)挖掘技術(shù)的分類(lèi),并且還在一定的程度之上對(duì)目前數(shù)據(jù)挖掘技術(shù)一些相關(guān)的算法做出了詳細(xì)的說(shuō)明,然后列出一些數(shù)據(jù)挖掘技術(shù)在我們實(shí)際領(lǐng)域當(dāng)中的簡(jiǎn)單的應(yīng)用,當(dāng)然,對(duì)其未來(lái)的發(fā)展方向也做出了美好的展望。我們相信,在不久的未來(lái),數(shù)據(jù)挖掘技術(shù)定當(dāng)滲透到我們生活的各個(gè)領(lǐng)域。
關(guān)鍵詞:
數(shù)據(jù)挖掘的技術(shù);發(fā)展現(xiàn)狀;發(fā)展方向;趨勢(shì);分析與探討
1、引言
在當(dāng)今信息高速發(fā)展的科技時(shí)代,各個(gè)方面的發(fā)展都非常的迅速。且其數(shù)據(jù)庫(kù)的應(yīng)用規(guī)模和范圍以及深度已經(jīng)從點(diǎn)逐漸發(fā)展到一個(gè)面了,例如,從單臺(tái)的機(jī)器發(fā)展到如今全面的網(wǎng)絡(luò),甚至是到我們?nèi)缃竦挠⑻鼐W(wǎng)全球性的信息系統(tǒng)。這使得一些商業(yè)和企業(yè)以及政府或者是相關(guān)的科研機(jī)構(gòu),都相應(yīng)程度的積累了各種各樣的數(shù)據(jù)資料。當(dāng)然,這些資料是十分的復(fù)雜和散亂的,單單去依靠數(shù)據(jù)庫(kù)進(jìn)行查詢(xún)是絕對(duì)不能夠滿(mǎn)足我們實(shí)際的需要的,所以,它非常迫切的要求自動(dòng)和智能的去將一些有待進(jìn)一步處理的數(shù)據(jù),在一定的程度之上轉(zhuǎn)換為有價(jià)值的信息與知識(shí),從而達(dá)到相關(guān)的目的。
2、什么是數(shù)據(jù)挖掘技術(shù)
數(shù)據(jù)挖掘技術(shù),通常又可稱(chēng)為數(shù)據(jù)庫(kù)當(dāng)中知識(shí)的發(fā)現(xiàn),可以方便或者是自動(dòng)的進(jìn)行模式化的提取。數(shù)據(jù)挖掘在一定的程度之上是一個(gè)多學(xué)科的領(lǐng)域,因?yàn)樗饕菑亩鄠€(gè)學(xué)科當(dāng)中去提取相關(guān)的知識(shí),這其中主要涉及到了人工智能、數(shù)據(jù)庫(kù)技術(shù)和機(jī)器學(xué)習(xí)以及信息檢索等等多個(gè)方面的領(lǐng)域。總之,數(shù)據(jù)挖掘技術(shù)的研究有著非常廣泛的運(yùn)用前景,這主要是因?yàn)槠鋽?shù)據(jù)挖掘所產(chǎn)生的一些知識(shí)可以去用于信息管理和決策支持以及科學(xué)研究等等多個(gè)領(lǐng)域。
3、數(shù)據(jù)挖掘分類(lèi)
既然我們知道了什么是數(shù)據(jù)挖掘技術(shù),那么又是如何對(duì)數(shù)據(jù)挖掘進(jìn)行分類(lèi)的呢?還有具體可以分為幾類(lèi)呢?以下我們主要就技術(shù)方面的分類(lèi)進(jìn)行詳細(xì)的探討;
3.1 決策樹(shù) 決策樹(shù)的歸納法是一種非常經(jīng)典的分類(lèi)的算法。它主要是運(yùn)用了從頂向下各個(gè)擊破的方式去建造決策樹(shù)。其樹(shù)的每一個(gè)結(jié)點(diǎn)之上所運(yùn)用的信息增加的度量可以選擇測(cè)試的屬性。
3.2 神經(jīng)網(wǎng)絡(luò)的方法 什么是神經(jīng)網(wǎng)絡(luò)的分類(lèi)算法呢?神經(jīng)網(wǎng)絡(luò)分類(lèi)的算法重點(diǎn)主要是去構(gòu)造相應(yīng)閾值的單元,它可以相應(yīng)的輸入一組加權(quán)系數(shù),然后對(duì)它們進(jìn)行求和,如果超過(guò)閾值,就相應(yīng)的輸出一個(gè)量,可以在一定的程度之上完成分類(lèi)、特征挖掘和聚集等等多種的數(shù)據(jù)挖掘的任務(wù)。
3.3 可視化的技術(shù) 主要是指通過(guò)一些比較直觀的圖去將相關(guān)的數(shù)據(jù)和關(guān)聯(lián)的關(guān)系等呈現(xiàn)給相關(guān)的決策者,在這些圖形當(dāng)中,我們運(yùn)用最多的便是直方圖、散點(diǎn)圖和數(shù)據(jù)立方體了。
3.4 遺傳的算法 遺傳的算法主要是指模擬生物進(jìn)化的一種算法。它主要是基于一些群體的、同時(shí)還具有隨機(jī)與定向搜索的相關(guān)特征的一個(gè)迭代的過(guò)程。這其中主要包括了四種比較突出的算子:遺傳、交叉、自然選擇和變異。
3.5 統(tǒng)計(jì)學(xué) 在我們數(shù)據(jù)庫(kù)的字段項(xiàng)之間存在著不同的關(guān)系。我們對(duì)這些數(shù)據(jù)的分析主要是根據(jù)這不同的關(guān)系,并且采取一些統(tǒng)計(jì)學(xué)的方法進(jìn)行分析,例如回歸分析、相關(guān)分析和主成份分析等。
4、數(shù)據(jù)挖掘技術(shù)的研究現(xiàn)狀及發(fā)展方向分析
4.1 針對(duì)其相關(guān)的生物醫(yī)學(xué)與其DNA的數(shù)據(jù)所分析的數(shù)據(jù)進(jìn)行挖掘 在當(dāng)今,數(shù)據(jù)的信息量是非常的龐大的,因?yàn)槲覀兯@得的大量的實(shí)驗(yàn)數(shù)據(jù)的觀測(cè)如果僅僅是去依靠一些比較傳統(tǒng)的分析數(shù)據(jù)的工具,是非常的不靠譜的。所以,對(duì)一些具有強(qiáng)大功能且具有自動(dòng)化的工具的需要就越來(lái)越迫切了,這很顯然的推動(dòng)了數(shù)據(jù)挖掘技術(shù)的發(fā)展,并且還在一定的程度之上取得了重要的成果。
4.2 針對(duì)其金融的分析 因?yàn)橐恍┙鹑诘耐顿Y一般都存在著很大的風(fēng)險(xiǎn),所以我們?cè)谶M(jìn)行投資和決策的時(shí)候,就需要去對(duì)各種各樣的投資方向相關(guān)的數(shù)據(jù)進(jìn)行分析。那么數(shù)據(jù)挖掘技術(shù)在此刻就起到了巨大的作用了。它不但可以對(duì)我們現(xiàn)在所獲取的一些信息進(jìn)行加工和處理,還可以對(duì)市場(chǎng)進(jìn)行預(yù)測(cè)。
4.3 零售業(yè)當(dāng)中數(shù)據(jù)挖掘的應(yīng)用 在零售業(yè)當(dāng)中,運(yùn)用數(shù)據(jù)挖掘技術(shù)不但可以在一定的程度之上了解相關(guān)消費(fèi)者的消費(fèi)傾向,從而迎合消費(fèi)者的口味,制定出更加接地氣的市場(chǎng)政策,以提高銷(xiāo)售額。當(dāng)然,還可以適當(dāng)?shù)念A(yù)測(cè)行業(yè)狀況。
4.4 保險(xiǎn)業(yè)當(dāng)中數(shù)據(jù)挖掘的應(yīng)用 我們知道,保險(xiǎn)業(yè)是一種風(fēng)險(xiǎn)性十分巨大的業(yè)務(wù)。相關(guān)的研究表明,數(shù)據(jù)挖掘技術(shù)的運(yùn)用不但可以預(yù)測(cè)相關(guān)風(fēng)險(xiǎn)性,還可以在一定的程度之上為保險(xiǎn)業(yè)務(wù)工作者提供正確的方向。很明顯,這是非常的有利于保險(xiǎn)業(yè)的持續(xù)性發(fā)展的。
5、結(jié)束語(yǔ)
綜上所述,伴隨著信息時(shí)代的到來(lái),及其數(shù)據(jù)的挖掘和數(shù)據(jù)相關(guān)倉(cāng)庫(kù)集成進(jìn)一步的優(yōu)化與深入,勢(shì)必會(huì)給我們廣大的用戶(hù)帶來(lái)十分廣泛的利益。當(dāng)然,其數(shù)據(jù)挖掘技術(shù)的發(fā)展前景也是更加的廣闊的,將會(huì)使我們更多的人獲益。我們堅(jiān)信,在不久的將來(lái),數(shù)據(jù)挖掘技術(shù)將會(huì)使得我們的生活變得更加的美好與豐富。
參考文獻(xiàn):
[1]高麗,王麗偉. 數(shù)據(jù)挖掘技術(shù)在國(guó)內(nèi)圖書(shū)館應(yīng)用領(lǐng)域的研究[J]. 數(shù)字技術(shù)與應(yīng)用. 2015(12)
[2]梁雪霆. 數(shù)據(jù)挖掘技術(shù)的計(jì)算機(jī)網(wǎng)絡(luò)病毒防御技術(shù)研究[J]. 科技經(jīng)濟(jì)市場(chǎng). 2016(01)
篇6
關(guān)鍵詞:數(shù)據(jù)挖掘; 關(guān)聯(lián)規(guī)則; 學(xué)生成績(jī); Apriori算法
中圖分類(lèi)號(hào):TP392文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào)文章編號(hào):1672-7800(2013)012-0133-03
作者簡(jiǎn)介:岳超(1986-),男,西南科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院碩士研究生,研究方向?yàn)榻逃夹g(shù)與知識(shí)工程;范太華(1962-),男,西南科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院副教授、碩士生導(dǎo)師,研究方向?yàn)閿?shù)據(jù)挖掘和系統(tǒng)結(jié)構(gòu);姬亞利(1988-),女,西南科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院碩士研究生,研究方向?yàn)榫W(wǎng)絡(luò)教育教學(xué)設(shè)計(jì);衣峰(1987-),男,西南科技大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)學(xué)院碩士研究生,研究方向?yàn)榫W(wǎng)絡(luò)教育與移動(dòng)學(xué)習(xí)。
0引言
隨著招生規(guī)模的不斷擴(kuò)大,教務(wù)管理系統(tǒng)中的數(shù)據(jù)急劇增加,普遍存在的問(wèn)題是學(xué)生成績(jī)數(shù)據(jù)量過(guò)于龐大,但目前對(duì)這些數(shù)據(jù)的處理還停留在初級(jí)的數(shù)據(jù)備份、查詢(xún)及簡(jiǎn)單統(tǒng)計(jì)階段,如何利用這些數(shù)據(jù)理性地分析教學(xué)中的成效得失以及找到有關(guān)影響學(xué)生學(xué)習(xí)成績(jī)的因素是廣大教師共同關(guān)心的問(wèn)題[1]。 本文著重討論了數(shù)據(jù)挖掘技術(shù)在學(xué)生成績(jī)這一海量數(shù)據(jù)中的應(yīng)用,發(fā)現(xiàn)成績(jī)數(shù)據(jù)中隱藏的課程相關(guān)規(guī)則或模式,力圖通過(guò)關(guān)聯(lián)與分類(lèi),得出一些有用的知識(shí),對(duì)教學(xué)質(zhì)量的提高起到積極的促進(jìn)作用。
1數(shù)據(jù)挖掘及關(guān)聯(lián)規(guī)則
數(shù)據(jù)挖掘 (Data Mining)就是從大量的、不完全的、有噪聲的、模糊的、隨機(jī)的實(shí)際應(yīng)用數(shù)據(jù)中,提取隱含在其中的、人們事先不知道的但又是潛在有用的信息和知識(shí)的過(guò)程。數(shù)據(jù)挖掘是一個(gè)循環(huán)往復(fù)的知識(shí)發(fā)現(xiàn)過(guò)程,通過(guò)對(duì)挖掘結(jié)果的描述、分析與評(píng)價(jià),不斷優(yōu)化數(shù)據(jù)挖掘模型和挖掘算法,最終獲得最優(yōu)化數(shù)據(jù)挖掘解決方案[2]。
1.1數(shù)據(jù)挖掘流程
(1)確定業(yè)務(wù)對(duì)象。清晰地定義出業(yè)務(wù)問(wèn)題,認(rèn)清數(shù)據(jù)挖掘的目的是數(shù)據(jù)挖掘的重要一步。挖掘的最后結(jié)構(gòu)是不可預(yù)測(cè)的,但要探索的問(wèn)題應(yīng)是有預(yù)見(jiàn)的,為了數(shù)據(jù)挖掘而數(shù)據(jù)挖掘則帶有盲目性,是不會(huì)成功的。
(2)數(shù)據(jù)準(zhǔn)備。①數(shù)據(jù)的選擇:搜索所有與業(yè)務(wù)對(duì)象有關(guān)的內(nèi)部和外部數(shù)據(jù)信息,并從中選擇出適用于數(shù)據(jù)挖掘應(yīng)用的數(shù)據(jù);②數(shù)據(jù)的預(yù)處理:研究數(shù)據(jù)的質(zhì)量,為進(jìn)一步的分析作準(zhǔn)備,并確定將要進(jìn)行挖掘操作的類(lèi)型;③數(shù)據(jù)轉(zhuǎn)換:將數(shù)據(jù)轉(zhuǎn)換成一個(gè)分析模型,這個(gè)分析模型是針對(duì)挖掘算法建立的。建立一個(gè)真正適合挖掘算法的分析模型是數(shù)據(jù)挖掘成功的關(guān)鍵。
(3)數(shù)據(jù)挖掘。對(duì)所得到的經(jīng)過(guò)轉(zhuǎn)換的數(shù)據(jù)進(jìn)行挖掘。除了完善和選擇合適的挖掘算法外,其余一切工作都能自動(dòng)地完成。
(4)分析和同化。①結(jié)果分析:解釋并評(píng)估結(jié)果,其使用的分析方法一般應(yīng)視數(shù)據(jù)挖掘操作而定,通常會(huì)用到可視化技術(shù);②知識(shí)的同化:將分析所得到的知識(shí)集成到業(yè)務(wù)信息系統(tǒng)的組織結(jié)構(gòu)中去。數(shù)據(jù)挖掘的過(guò)程如圖 1 所示。
1.2關(guān)聯(lián)規(guī)則簡(jiǎn)述
關(guān)聯(lián)規(guī)則挖掘就是在海量的數(shù)據(jù)中發(fā)現(xiàn)數(shù)據(jù)項(xiàng)之間的關(guān)系,關(guān)聯(lián)規(guī)則的支持度(support)和置信度(confidence)是規(guī)則興趣度的兩種度量。他們分別反映了所發(fā)現(xiàn)規(guī)則的有用性和確定性。 一般地,用戶(hù)可以定義兩個(gè)閾值,分別為最小支持度閾值(minsup)和最小置信度閾值(minconf)。 當(dāng)挖掘出的關(guān)聯(lián)規(guī)則支持度和置信度都滿(mǎn)足這兩個(gè)閾值時(shí),就認(rèn)為這個(gè)規(guī)則是有效的,否則,就是無(wú)效的。 這些閾值一般可由領(lǐng)域?qū)<以O(shè)定,也可以進(jìn)行其它分析,揭示關(guān)聯(lián)項(xiàng)之間的聯(lián)系。
2基于數(shù)據(jù)挖掘的高校學(xué)生成績(jī)分析
對(duì)學(xué)生成績(jī)的正確分析,是保證教學(xué)工作順利進(jìn)行的關(guān)鍵,揭示一些“教”與“學(xué)”的現(xiàn)象和規(guī)則,能更好地指導(dǎo)教師的“教”與學(xué)生的“學(xué)”,為教育教學(xué)的計(jì)劃和決策提供依據(jù), 提高教學(xué)的效果和成果。
2.1數(shù)據(jù)采集
高質(zhì)量的數(shù)據(jù),是保證數(shù)據(jù)挖掘成功的前提保證。本研究所需數(shù)據(jù)取自計(jì)算機(jī)專(zhuān)業(yè)學(xué)生的期末考試成績(jī)數(shù)據(jù)庫(kù)文件,確定某門(mén)課程和其它課程之間的關(guān)聯(lián)性。為減少不必要的影響因素,影響關(guān)聯(lián)規(guī)則的產(chǎn)生,刪除了英語(yǔ)類(lèi)、思政類(lèi)、體育類(lèi)的課程,將數(shù)學(xué)類(lèi)和計(jì)算機(jī)課程進(jìn)行分析,最終隨機(jī)抽取 385 名學(xué)生的《C&C++ 語(yǔ)言程序設(shè)計(jì)》、《線性代數(shù)》、《離散數(shù)學(xué)》、《計(jì)算機(jī)系統(tǒng)原理》、《計(jì)算機(jī)網(wǎng)絡(luò)》、《計(jì)算機(jī)組成原理》、《軟件工程》、《數(shù)據(jù)庫(kù)原理》、《數(shù)據(jù)結(jié)構(gòu)》等課程的期末考試成績(jī)。
2.2數(shù)據(jù)預(yù)處理
數(shù)據(jù)預(yù)處理是數(shù)據(jù)挖掘的關(guān)鍵階段,原始數(shù)據(jù)往往存在不完整的、含噪聲的和不一致的數(shù)據(jù),不能直接運(yùn)用于數(shù)據(jù)的挖掘,需要對(duì)其進(jìn)行數(shù)據(jù)預(yù)處理,包括數(shù)據(jù)清理、數(shù)據(jù)集成、數(shù)據(jù)變換等內(nèi)容。
(1)數(shù)據(jù)清理。通過(guò)填充缺失值,光滑噪聲并識(shí)別離群點(diǎn),糾正數(shù)據(jù)中的不一致。從數(shù)據(jù)庫(kù)中導(dǎo)出字段包括學(xué)號(hào)、課程名、成績(jī)、備注等信息。對(duì)備注中顯示補(bǔ)考、重修的成績(jī)填充為50分。對(duì)缺失值的填充,我們運(yùn)用了決策樹(shù)歸納的方法,填寫(xiě)最可能的值進(jìn)行填寫(xiě),以便數(shù)據(jù)挖掘結(jié)果更準(zhǔn)確。經(jīng)數(shù)據(jù)清理的數(shù)據(jù)如表1所示。
(2)數(shù)據(jù)集成。將多個(gè)數(shù)據(jù)源合并到一致的數(shù)據(jù)存儲(chǔ),依據(jù)以往經(jīng)驗(yàn)思政類(lèi)和體育類(lèi)課程對(duì)本研究的結(jié)果影響不大,予以刪除。根據(jù)此類(lèi)思想整理數(shù)據(jù),并將所有數(shù)據(jù)集成到一個(gè)Excel中,最終數(shù)據(jù)包含4 065條271名學(xué)生的15門(mén)數(shù)據(jù)。
(3)數(shù)據(jù)變換。將數(shù)據(jù)轉(zhuǎn)化成適合于挖掘的形式,如將屬性數(shù)據(jù)按比例縮放,使之落入一個(gè)比較小的區(qū)間內(nèi)。由于成績(jī)是按照數(shù)值形式存儲(chǔ)的,不利于數(shù)據(jù)的挖掘,需要對(duì)各科成績(jī)進(jìn)行離散化處理,將成績(jī)分為優(yōu)秀、良、一般、差4個(gè)等級(jí),分別用A、B、C、D進(jìn)行標(biāo)識(shí),規(guī)定85~100為A,75~85為B,60~75為C,60分以下為D。筆者運(yùn)用Apriori算法對(duì)表1數(shù)據(jù)進(jìn)行關(guān)聯(lián)規(guī)則的挖掘,進(jìn)行數(shù)據(jù)轉(zhuǎn)化后如表2所示。
2.3Apriori算法的運(yùn)用
采用SPSS Clementine工具進(jìn)行數(shù)據(jù)挖掘,預(yù)處理的數(shù)據(jù)已滿(mǎn)足Apriori算法對(duì)數(shù)據(jù)的要求,導(dǎo)入數(shù)據(jù)可直接使用Apriori模型進(jìn)行分析。為了得到更有效的數(shù)據(jù),筆者進(jìn)行了反復(fù)的驗(yàn)證。設(shè)置條件支持度為0.15,最小規(guī)則置信度為0.75,挖掘結(jié)果如圖2所示。
2.4結(jié)果分析
上面挖掘的關(guān)聯(lián)規(guī)則并非每條都有現(xiàn)實(shí)意義,我們進(jìn)一步進(jìn)行處理,將關(guān)聯(lián)規(guī)則模型導(dǎo)出,分析這些關(guān)聯(lián)規(guī)則,得到主要知識(shí)如下:
(1) 學(xué)好計(jì)算機(jī)應(yīng)用基礎(chǔ)、C&C++程序設(shè)計(jì)、數(shù)據(jù)結(jié)構(gòu)是學(xué)好數(shù)據(jù)庫(kù)的基礎(chǔ),數(shù)據(jù)結(jié)構(gòu)又是學(xué)好軟件工程的基礎(chǔ)。
知識(shí)發(fā)現(xiàn)過(guò)程如下:計(jì)算機(jī)應(yīng)用基礎(chǔ)=A =>數(shù)據(jù)庫(kù)=A,支持度為32.32%,置信度為85.3%。計(jì)算機(jī)應(yīng)用基礎(chǔ)和數(shù)據(jù)庫(kù)同時(shí)是A的人數(shù)占總?cè)藬?shù)的32.32%,計(jì)算機(jī)應(yīng)用基礎(chǔ)為A中85.3%的人數(shù)據(jù)庫(kù)原理也為A,所以說(shuō)要學(xué)好數(shù)據(jù)庫(kù)原理先要學(xué)好計(jì)算機(jī)應(yīng)用基礎(chǔ),C&C++程序設(shè)計(jì)=A =>數(shù)據(jù)庫(kù)原理=A,支持度為42.35%,置信度為86.56%,同上解釋?zhuān)珻&C++程序設(shè)計(jì)也是數(shù)據(jù)庫(kù)原理的基礎(chǔ)。數(shù)據(jù)庫(kù)原理=A =>軟件工程=A,支持度45.36%,置信度為81.02%,數(shù)據(jù)庫(kù)原理也是軟件工程的基礎(chǔ)。
(2) 學(xué)好離散數(shù)學(xué)是學(xué)好數(shù)據(jù)結(jié)構(gòu)的基礎(chǔ)。
(3) 要把計(jì)算機(jī)操作系統(tǒng)學(xué)好,計(jì)算機(jī)組成原理、C&C++程序設(shè)計(jì)、數(shù)據(jù)結(jié)構(gòu)、離散數(shù)學(xué)是基礎(chǔ)。
(4) 計(jì)算機(jī)操作系統(tǒng)取得好成績(jī)的人數(shù)中76%的人計(jì)算機(jī)網(wǎng)絡(luò)也學(xué)的好。
(5)C&C++程序設(shè)計(jì)、數(shù)據(jù)結(jié)構(gòu)和數(shù)據(jù)庫(kù)原理又是學(xué)好軟件工程的基礎(chǔ)。
此處只列出了部分知識(shí)發(fā)現(xiàn),管理者可以以此為參考,結(jié)合實(shí)際情況對(duì)所學(xué)的課程進(jìn)行調(diào)整,并通過(guò)預(yù)警對(duì)學(xué)生的學(xué)習(xí)進(jìn)行提醒和幫扶。學(xué)生可以結(jié)合自己的成績(jī)及時(shí)預(yù)測(cè)某門(mén)課程的成績(jī),及時(shí)補(bǔ)救,加大課程的學(xué)習(xí)力度。
3結(jié)語(yǔ)
利用關(guān)聯(lián)規(guī)則中的Apriori算法對(duì)計(jì)算機(jī)科學(xué)與技術(shù)專(zhuān)業(yè)的課程進(jìn)行了挖掘,找出了隱藏在課程背后有趣的規(guī)律,發(fā)現(xiàn)偏離正常學(xué)習(xí)軌道的學(xué)生,及時(shí)進(jìn)行預(yù)警和干預(yù),幫助學(xué)生順利完成學(xué)業(yè),對(duì)學(xué)生課程的學(xué)習(xí)和管理者的決策提供參考,也為關(guān)聯(lián)規(guī)則在其它學(xué)科的應(yīng)用提供了思路。
參考文獻(xiàn)參考文獻(xiàn):
[1]朱艷麗,高國(guó).Apriori算法研究及其在學(xué)生成績(jī)分析的應(yīng)用[J].福建電腦,2010(1):47.
[2]韓家煒.數(shù)據(jù)挖掘概念與技術(shù)[M].北京:機(jī)械工業(yè)出版社,2010:41-43.
[3]王海容.數(shù)據(jù)挖掘在學(xué)生成績(jī)分析的應(yīng)用[J].電子設(shè)計(jì)工程,2013,21(4):54-56.
篇7
理客戶(hù)信息的難題,為銀行的經(jīng)營(yíng)決策帶來(lái)了很多幫助。本文首先分析了銀行客戶(hù)關(guān)系管理的內(nèi)涵,分析了目前銀行客戶(hù)關(guān)系管理存在的問(wèn)題。然后,分析了數(shù)據(jù)挖掘技術(shù)在銀行客戶(hù)關(guān)系管理中的應(yīng)用和實(shí)施,進(jìn)而幫助提高銀行客戶(hù)關(guān)系管理的質(zhì)量。
關(guān)鍵詞:客戶(hù)關(guān)系管理;客戶(hù)數(shù)據(jù);數(shù)據(jù)挖掘
中圖分類(lèi)號(hào):F832 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-7712 (2012) 14-0060-01
隨著計(jì)算機(jī)技術(shù)、數(shù)據(jù)庫(kù)技術(shù)和網(wǎng)絡(luò)技術(shù)的發(fā)展以及中國(guó)銀行業(yè)全面開(kāi)放,金融市場(chǎng)的聯(lián)系更加緊密、競(jìng)爭(zhēng)日趨激烈,要想應(yīng)對(duì)國(guó)內(nèi)國(guó)外銀行的挑戰(zhàn),在競(jìng)爭(zhēng)中脫穎而出,就必須加快銀行的信息化建設(shè)步伐。銀行客戶(hù)關(guān)系管理(CRM)是銀行通過(guò)對(duì)其客戶(hù)的管理來(lái)提升企業(yè)市場(chǎng)競(jìng)爭(zhēng)力的一種電子商務(wù)解決方案,其核心技術(shù)就是數(shù)據(jù)倉(cāng)庫(kù)和數(shù)據(jù)挖掘技術(shù)。銀行客戶(hù)關(guān)系管理結(jié)合數(shù)據(jù)挖掘可以分析客戶(hù)群體、客戶(hù)行為、客戶(hù)價(jià)值觀、客戶(hù)流失等主題,準(zhǔn)確的發(fā)現(xiàn)和保持優(yōu)質(zhì)客戶(hù),為客戶(hù)提供個(gè)性化產(chǎn)品和服務(wù),有效預(yù)測(cè)和防范各類(lèi)風(fēng)險(xiǎn),真正做到以客戶(hù)為中心。
一、銀行客戶(hù)關(guān)系管理的內(nèi)涵
1995年,全球最著名的IT分析公司Gartner Group提出了客戶(hù)關(guān)系管理(Customer Relationship Management,簡(jiǎn)稱(chēng)CRM)的概念:客戶(hù)關(guān)系管理為企業(yè)提供全方位的管理視角;賦予企業(yè)更完善的客戶(hù)交流能力,最大化客戶(hù)的收益率。其宗旨一方面是為了加強(qiáng)企業(yè)與客戶(hù)之間的聯(lián)系,被用于市場(chǎng)營(yíng)銷(xiāo)、服務(wù)、技術(shù)支持等各個(gè)與客戶(hù)有關(guān)的領(lǐng)域,銀行CRM也是一個(gè)典型的應(yīng)用,另一方面,為了降低企業(yè)的管理成本??梢哉f(shuō)CRM的出現(xiàn)是企業(yè)從以產(chǎn)品為中心的模式向以客戶(hù)為中心的模式轉(zhuǎn)移的重要體現(xiàn)。
CRM按其實(shí)施步驟分為三個(gè)部分:首先獲取客戶(hù)信息。收集當(dāng)前客戶(hù)信息,充分利用歷史客戶(hù)信息。與客戶(hù)相關(guān)的數(shù)據(jù)可以存儲(chǔ)在數(shù)據(jù)倉(cāng)庫(kù)中。其次是信息挖掘。通過(guò)傳統(tǒng)統(tǒng)計(jì)方法、數(shù)據(jù)倉(cāng)庫(kù)技術(shù)、數(shù)據(jù)挖掘技術(shù)和聯(lián)機(jī)分析處理系統(tǒng)(OLAP)分析海量客戶(hù)數(shù)據(jù),發(fā)現(xiàn)潛在的規(guī)律和隱藏的信息。最后,信息的利用。信息的作用是為了發(fā)現(xiàn)問(wèn)題和解決問(wèn)題。這些信息可以輔助管理者對(duì)市場(chǎng)進(jìn)行準(zhǔn)確的預(yù)測(cè),從而做出正確的決策。
二、銀行客戶(hù)關(guān)系管理面臨的問(wèn)題
目前銀行實(shí)施客戶(hù)關(guān)系管理面臨的問(wèn)題主要有:
客戶(hù)識(shí)別和分類(lèi)。銀行業(yè)的客戶(hù)面特別廣、客戶(hù)數(shù)量特別多、客戶(hù)種類(lèi)特別繁雜。如何把客戶(hù)分成不同特征的客戶(hù)群,如何識(shí)別這些不同特征,從而針對(duì)不同客戶(hù)群提供差異化、個(gè)性化服務(wù),提高客戶(hù)滿(mǎn)意度,是CRM首要解決的問(wèn)題。目前,銀行的客戶(hù)信息采集不完全,采集過(guò)程分散,客戶(hù)流動(dòng)性大導(dǎo)致客戶(hù)資料系統(tǒng)化程度不高。
客戶(hù)保持。即要充分滿(mǎn)足客戶(hù)現(xiàn)在的意愿,預(yù)測(cè)客戶(hù)未來(lái)的潛在需求,提高客戶(hù)忠誠(chéng)度,長(zhǎng)期與客戶(hù)保持聯(lián)系。
客戶(hù)流失。由于一些客觀原因和主觀原因,銀行的優(yōu)質(zhì)客戶(hù)流失嚴(yán)重。因此,銀行需要建立預(yù)警機(jī)制,對(duì)客戶(hù)的最近交易進(jìn)行追蹤,一旦異常,銀行可以預(yù)測(cè),并作出相應(yīng)的應(yīng)對(duì)措施。
目前,銀行CRM存在很多問(wèn)題,數(shù)據(jù)挖掘技術(shù)正好可以解決這些問(wèn)題,提高銀行的競(jìng)爭(zhēng)實(shí)力。
三、數(shù)據(jù)挖掘的定義
數(shù)據(jù)挖掘定義從技術(shù)上來(lái)說(shuō)是一個(gè)利用各種分析工具,如統(tǒng)計(jì)方法、關(guān)聯(lián)分析、聚類(lèi)、可視化、歸納、神經(jīng)網(wǎng)絡(luò)、決策樹(shù)等在海量數(shù)據(jù)中發(fā)現(xiàn)模型和數(shù)據(jù)關(guān)系的過(guò)程,這些模型和關(guān)系可以用來(lái)做出預(yù)測(cè)。數(shù)據(jù)挖掘是一個(gè)完整的過(guò)程,該過(guò)程從大型數(shù)據(jù)庫(kù)中挖掘先前未知的、有效的、可實(shí)用的信息,并使用這些信息做出決策。
四、數(shù)據(jù)挖掘與客戶(hù)關(guān)系管理的關(guān)系
可以說(shuō),銀行客戶(hù)關(guān)系管理(CRM)應(yīng)用水平的發(fā)展是伴隨著數(shù)據(jù)倉(cāng)庫(kù)技術(shù)的應(yīng)用和發(fā)展而逐漸成熟起來(lái)的。在國(guó)外,數(shù)據(jù)挖掘技術(shù)已在銀行業(yè)CRM廣泛運(yùn)用。通過(guò)搜集和處理大量客戶(hù)數(shù)據(jù),并對(duì)這些數(shù)據(jù)進(jìn)行分析,發(fā)現(xiàn)其數(shù)據(jù)模式及特征,然后可能發(fā)現(xiàn)某個(gè)客戶(hù)、消費(fèi)群體或組織的金融和商業(yè)興趣,并可觀察金融市場(chǎng)的變化趨勢(shì)。在國(guó)內(nèi),中國(guó)銀行業(yè)信息化有很大的發(fā)展,但是普遍現(xiàn)狀是集中了大量數(shù)據(jù),卻缺乏挖掘數(shù)據(jù)底層隱藏的知識(shí)的技術(shù),往往導(dǎo)致了“數(shù)據(jù)爆炸”。國(guó)內(nèi)銀行業(yè)CRM還處于報(bào)表和部分分析應(yīng)用階段,并不能進(jìn)行智能預(yù)測(cè),未來(lái)我國(guó)的商業(yè)銀行必須朝著預(yù)測(cè)應(yīng)用的階段不斷的努力,才能使得我國(guó)的商業(yè)銀行在未來(lái)的競(jìng)爭(zhēng)中 處于領(lǐng)先的地位。 五、數(shù)據(jù)挖掘在銀行CRM中的實(shí)施 隨著CRM軟件的成熟.將來(lái)的CRM軟件不僅能幫助商業(yè)流程的自動(dòng)化,還能幫助管理者做決策的分析工具。如利用決策樹(shù)技術(shù)研究客戶(hù)流失狀況,可以找出客戶(hù)流失原因,提前尋找方法應(yīng)對(duì),防止客戶(hù)流失;利用數(shù)據(jù)挖掘中的模糊聚類(lèi)分析方法可以對(duì)廣大的客戶(hù)群進(jìn)行快速細(xì)分,分析客
戶(hù)類(lèi)型特征,實(shí)現(xiàn)個(gè)性化服務(wù);利用數(shù)據(jù)挖掘中的關(guān)聯(lián)分析可以加強(qiáng)各業(yè)務(wù)部分之間和各營(yíng)業(yè)網(wǎng)點(diǎn)之間CRM的互通性,跨平臺(tái)銷(xiāo)售,提高客戶(hù)價(jià)值。
在數(shù)據(jù)挖掘?qū)嵤┻^(guò)程中,首先要明確我們需要解決的問(wèn)題,知道問(wèn)題所屬的應(yīng)用類(lèi)型,從而判斷能否使用數(shù)據(jù)挖掘技術(shù)找到解決方案;其次要選擇適合的數(shù)據(jù)挖掘技術(shù)和工具,如上述舉例所言,不同的處理方法能達(dá)到不同的目的,因此正確的選擇才能達(dá)到事半功倍的效果。第三,準(zhǔn)備數(shù)據(jù)。我們應(yīng)從數(shù)據(jù)倉(cāng)庫(kù)中大量的銀行客戶(hù)數(shù)據(jù)中找到與分析問(wèn)題有關(guān)的樣本數(shù)據(jù)子集。然后對(duì)數(shù)據(jù)進(jìn)行預(yù)處理、分析、加工,保證數(shù)據(jù)有效性。第四,模型建立。這是數(shù)據(jù)挖掘的核心,不同的數(shù)據(jù)挖掘技術(shù)會(huì)有不同的模型,然后,根據(jù)模型對(duì)結(jié)果進(jìn)行分析和描述。最后,進(jìn)行評(píng)價(jià)和總結(jié)。
六、總結(jié)
數(shù)據(jù)挖掘是CRM的靈魂。隨著技術(shù)更加成熟,它與銀行業(yè)客戶(hù)信息會(huì)更加緊密地結(jié)合,能自動(dòng)預(yù)測(cè)個(gè)人客戶(hù)的消費(fèi)趨勢(shì)、整個(gè)市場(chǎng)走向,指導(dǎo)銀行建設(shè)個(gè)性化智能網(wǎng)站,帶來(lái)巨大的商業(yè)利潤(rùn),提高銀行的核心競(jìng)爭(zhēng)力。
參考文獻(xiàn):
[1]李嘉明.數(shù)據(jù)挖掘在商業(yè)銀行CRM中的應(yīng)用研究[D].東南大學(xué)碩士學(xué)位論文,2010.
篇8
關(guān)鍵詞:大數(shù)據(jù)時(shí)代;數(shù)據(jù)挖掘技術(shù);應(yīng)用
大數(shù)據(jù)是對(duì)全球的數(shù)據(jù)量較大的一個(gè)概括,且每年的數(shù)據(jù)增長(zhǎng)速度較快。而數(shù)據(jù)挖掘,主要是從多種模糊而又隨機(jī)、大量而又復(fù)雜且不規(guī)則的數(shù)據(jù)中,獲得有用的信息知識(shí),從數(shù)據(jù)庫(kù)中抽絲剝繭、轉(zhuǎn)換分析,從而掌握其潛在價(jià)值與規(guī)律。所以大數(shù)據(jù)時(shí)代下的數(shù)據(jù)處理技術(shù)要求更高,要想確保數(shù)據(jù)處理成效得到提升,就必須切實(shí)加強(qiáng)數(shù)據(jù)挖掘技術(shù)教學(xué)工作的開(kāi)展,才能更好地促進(jìn)數(shù)據(jù)處理職能的轉(zhuǎn)變,提高數(shù)據(jù)處理效率,優(yōu)化學(xué)生的學(xué)習(xí)成效。以下就大數(shù)據(jù)時(shí)代下的數(shù)據(jù)挖掘技術(shù)教學(xué)做出如下分析。
1大數(shù)據(jù)時(shí)代下數(shù)據(jù)挖掘技術(shù)的基礎(chǔ)教學(xué)方法分析
數(shù)據(jù)挖掘的過(guò)程實(shí)際就是對(duì)數(shù)據(jù)進(jìn)行分析和處理,所以其基礎(chǔ)就在于數(shù)據(jù)的分析方法。要想確保分析方法的科學(xué)性,就必須確保所采用算法的科學(xué)性和可靠性,獲取數(shù)據(jù)潛在規(guī)律,并采取多元化的分析方法促進(jìn)問(wèn)題的解決和優(yōu)化。以下就幾種常見(jiàn)的數(shù)據(jù)分析教學(xué)方法做出簡(jiǎn)要的說(shuō)明。一是歸類(lèi)法,主要是將沒(méi)有指向和不確定且抽象的數(shù)據(jù)信息予以集中,并對(duì)集中后的數(shù)據(jù)實(shí)施分類(lèi)整理和編輯處理,從而確保所形成的數(shù)據(jù)源具有特征一致、表現(xiàn)相同的特點(diǎn),從而為加強(qiáng)對(duì)其的研究提供便利。所以這一分析方法能有效的滿(mǎn)足各種數(shù)據(jù)信息處理。二是關(guān)聯(lián)法,由于不同數(shù)據(jù)間存在的關(guān)聯(lián)性較為隱蔽,采取人力往往難以找出其信息特征,所以需要預(yù)先結(jié)合信息關(guān)聯(lián)的表現(xiàn),對(duì)數(shù)據(jù)關(guān)聯(lián)管理方案進(jìn)行制定,從而完成基于某種目的的前提下對(duì)信息進(jìn)行處理,所以其主要是在一些信息處理要求高和任務(wù)較為復(fù)雜的信息處理工作之中。三是特征法,由于數(shù)據(jù)資源的應(yīng)用范圍較廣,所以需要對(duì)其特征進(jìn)行挖掘。也就是采用某一種技術(shù),將具有相同特征的數(shù)據(jù)進(jìn)行集中。例如采用人工神經(jīng)網(wǎng)絡(luò)技術(shù)時(shí),主要是對(duì)大批量復(fù)雜的數(shù)據(jù)分析,對(duì)非常復(fù)雜的模式進(jìn)行抽取或者對(duì)其趨勢(shì)進(jìn)行分析。而采取遺傳算法,則主要是對(duì)其他評(píng)估算法的適合度進(jìn)行評(píng)估,并結(jié)合生物進(jìn)化的原理,對(duì)信息數(shù)據(jù)的成長(zhǎng)過(guò)程進(jìn)行虛擬和假設(shè),從而組建出半虛擬、半真實(shí)的信息資源。再如可視化技術(shù)則是為數(shù)據(jù)挖掘提供輔助,采取多種方式對(duì)數(shù)據(jù)的挖掘進(jìn)行指導(dǎo)和表達(dá)[1]。
2大數(shù)據(jù)時(shí)代數(shù)據(jù)挖掘技術(shù)教學(xué)要點(diǎn)的分析
2.1數(shù)據(jù)挖掘技術(shù)流程分析
在數(shù)據(jù)挖掘教學(xué)過(guò)程中,其流程主要是以下幾點(diǎn):首先做好數(shù)據(jù)準(zhǔn)備工作,主要是在挖掘數(shù)據(jù)之前,就引導(dǎo)學(xué)生對(duì)目標(biāo)數(shù)據(jù)進(jìn)行準(zhǔn)確的定位,在尋找和挖掘數(shù)據(jù)之前,必須知道所需數(shù)據(jù)類(lèi)型,才能避免數(shù)據(jù)挖掘的盲目性。在數(shù)據(jù)準(zhǔn)備時(shí),應(yīng)根據(jù)系統(tǒng)的提示進(jìn)行操作,在數(shù)據(jù)庫(kù)中輸入檢索條件和目標(biāo),對(duì)數(shù)據(jù)信息資源進(jìn)行分類(lèi)和清理,以及編輯和預(yù)處理。其次是在數(shù)據(jù)挖掘過(guò)程中,由于目標(biāo)數(shù)據(jù)信息已經(jīng)被預(yù)處理,所以就需要在挖掘處理過(guò)程中將其高效正確的應(yīng)用到管理機(jī)制之中,因而數(shù)據(jù)挖掘的過(guò)程十分重要,所以必須加強(qiáng)對(duì)其的處理。例如在數(shù)據(jù)挖掘中,引導(dǎo)學(xué)生結(jié)合數(shù)據(jù)挖掘目標(biāo)要求,針對(duì)性的選取科學(xué)而又合適的計(jì)算和分析方法,對(duì)數(shù)據(jù)信息特征與應(yīng)用價(jià)值等進(jìn)行尋找和歸納。當(dāng)然,也可以結(jié)合程序應(yīng)用的需要,對(duì)數(shù)據(jù)區(qū)域進(jìn)行固定,并在固定的數(shù)據(jù)區(qū)域內(nèi)分類(lèi)的挖掘數(shù)據(jù),從而得到更具深度和內(nèi)涵以及價(jià)值的數(shù)據(jù)信息資源,并就挖掘到的數(shù)據(jù)結(jié)果進(jìn)行分析和解釋?zhuān)瑥慕Y(jié)果中將具有使用價(jià)值和意義的規(guī)律進(jìn)行提取,并還原成便于理解的數(shù)據(jù)語(yǔ)言。最后是切實(shí)加強(qiáng)管理和計(jì)算等專(zhuān)業(yè)知識(shí)的應(yīng)用,將數(shù)據(jù)挖掘技術(shù)實(shí)施中進(jìn)行的總結(jié)和提取所獲得的數(shù)據(jù)信息與評(píng)估結(jié)果在現(xiàn)實(shí)之中應(yīng)用,從而對(duì)某個(gè)思想、決策是否正確和科學(xué)進(jìn)行判斷,最終體現(xiàn)出數(shù)據(jù)挖掘及時(shí)的應(yīng)用價(jià)值,在激發(fā)學(xué)生學(xué)習(xí)興趣的同時(shí)促進(jìn)教學(xué)成效的提升。
2.2挖掘后的數(shù)據(jù)信息資源分析
數(shù)據(jù)信息資源在挖掘后,其自身的職能作用將變得更加豐富,所以在信息技術(shù)環(huán)節(jié)下的數(shù)據(jù)挖掘技術(shù)隨著限定條件的變化,而將數(shù)據(jù)挖掘信息應(yīng)用于技術(shù)管理和決策管理之中,從而更好地彰顯數(shù)據(jù)在經(jīng)濟(jì)活動(dòng)中的物質(zhì)性質(zhì)與價(jià)值變化趨勢(shì),并結(jié)合數(shù)據(jù)變化特點(diǎn)和具體的表現(xiàn)規(guī)律,從而將數(shù)據(jù)信息的基本要素、質(zhì)量特點(diǎn)、管理要求等展示出來(lái),所以其表現(xiàn)的形式十分豐富。因而在數(shù)據(jù)挖掘之后的信息在職能范圍和表現(xiàn)形式方式均得到了豐富和拓展,而這也在一定程度上體現(xiàn)了網(wǎng)絡(luò)擬定目標(biāo)服務(wù)具有較強(qiáng)的完整性,且屬于特殊的個(gè)體物品,同時(shí)也是對(duì)傳統(tǒng)數(shù)據(jù)挖掘技術(shù)的創(chuàng)新和發(fā)展,從而更好地滿(mǎn)足當(dāng)前大數(shù)據(jù)時(shí)代對(duì)信息進(jìn)行數(shù)據(jù)化的處理,并對(duì)不同種類(lèi)業(yè)務(wù)進(jìn)行整合和優(yōu)化,從而促進(jìn)數(shù)據(jù)挖掘技術(shù)服務(wù)的一體化水平。
2.3大數(shù)據(jù)背景下的數(shù)據(jù)挖掘技術(shù)的應(yīng)用必須注重信息失真的控制
數(shù)據(jù)挖掘技術(shù)的信息主要是源于大數(shù)據(jù)和社會(huì),所以在當(dāng)前數(shù)據(jù)挖掘技術(shù)需求不斷加大的今天,為了更好地促進(jìn)所挖掘數(shù)據(jù)信息的真實(shí)性,促進(jìn)其個(gè)性化職能的發(fā)揮,必須在大數(shù)據(jù)背景下注重信息失真的控制,切實(shí)做好數(shù)據(jù)挖掘技術(shù)管理的各項(xiàng)工作。這就需要引導(dǎo)學(xué)生考慮如何確保數(shù)據(jù)挖掘技術(shù)在大數(shù)據(jù)背景下的職能得到有效的發(fā)揮,盡可能地促進(jìn)數(shù)據(jù)挖掘技術(shù)信息資源的升級(jí)和轉(zhuǎn)型,以大數(shù)據(jù)背景為載體,促進(jìn)整個(gè)業(yè)務(wù)和技術(shù)操作流程的一體化,從而更好地將所有數(shù)據(jù)資源的消耗和變化以及管理的科學(xué)性和有效性,這樣我們就能及時(shí)的找到資源的消耗源頭,從而更好地對(duì)數(shù)據(jù)資源的消耗效益進(jìn)行評(píng)價(jià),最終促進(jìn)業(yè)務(wù)流程的優(yōu)化,并結(jié)合大數(shù)據(jù)背景對(duì)數(shù)據(jù)挖掘技術(shù)的職能進(jìn)行拓展,促進(jìn)其外部信息與內(nèi)部信息的合作,對(duì)數(shù)據(jù)挖掘技術(shù)信息的職能進(jìn)行有效的控制,才能更好地促進(jìn)信息失真的控制[2]。
3數(shù)據(jù)挖掘技術(shù)在不同行業(yè)中的應(yīng)用實(shí)踐
學(xué)習(xí)的最終目的是為了更好的應(yīng)用,隨著時(shí)代的發(fā)展,數(shù)據(jù)挖掘技術(shù)將在越來(lái)越多的行業(yè)中得以應(yīng)用。這就需要高校教師引導(dǎo)學(xué)生結(jié)合實(shí)際需要強(qiáng)化對(duì)其的應(yīng)用。例如在市場(chǎng)營(yíng)銷(xiāo)行業(yè)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用這主要是因?yàn)閿?shù)據(jù)挖掘能有效的解析消費(fèi)者的消費(fèi)行為和消費(fèi)習(xí)慣,從而利用其將銷(xiāo)售方式改進(jìn)和優(yōu)化,最終促進(jìn)產(chǎn)品銷(xiāo)量的提升。與此同時(shí),通過(guò)對(duì)購(gòu)物消費(fèi)行為的分析,掌握客戶(hù)的忠誠(chéng)度和消費(fèi)意識(shí)等,從而針對(duì)性的改變營(yíng)銷(xiāo)策略,同時(shí)還能找到更多潛在的客戶(hù)。再如在制造業(yè)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用,其目的就在于對(duì)產(chǎn)品質(zhì)量進(jìn)行檢驗(yàn)。引導(dǎo)學(xué)生深入某企業(yè)實(shí)際,對(duì)所制造產(chǎn)品的數(shù)據(jù)進(jìn)行研究,從而找出其存在的規(guī)則,并對(duì)其生產(chǎn)流程進(jìn)行分析之后,對(duì)其生產(chǎn)的過(guò)程進(jìn)行分析,從而更好地對(duì)生產(chǎn)質(zhì)量的影響因素進(jìn)行分析,并促進(jìn)其效率的提升。換言之,主要就是對(duì)各種生產(chǎn)數(shù)據(jù)進(jìn)行篩選,從而得出有用的數(shù)據(jù)和知識(shí),再采取決策樹(shù)算法進(jìn)行統(tǒng)計(jì)決策,并從中選取正確決策,從而更好地對(duì)產(chǎn)品在市場(chǎng)中的流行程度,決定生產(chǎn)和轉(zhuǎn)型的方向。再如在教育行業(yè)中數(shù)據(jù)挖掘技術(shù)的應(yīng)用,主要是為了更好地對(duì)學(xué)習(xí)情況、教學(xué)評(píng)估和心里動(dòng)向等數(shù)據(jù)進(jìn)行分類(lèi)和篩選,從而為學(xué)校的教學(xué)改革提供參考和支持。比如為了更好地對(duì)教學(xué)質(zhì)量進(jìn)行評(píng)估,就需要對(duì)教學(xué)質(zhì)量有關(guān)項(xiàng)目進(jìn)行整合與存儲(chǔ),從而更好地促進(jìn)其對(duì)教學(xué)質(zhì)量的評(píng)估,而這一過(guò)程中,就需要采取數(shù)據(jù)挖掘技術(shù)對(duì)有關(guān)教學(xué)項(xiàng)目中的數(shù)據(jù)進(jìn)行挖掘和處理,促進(jìn)其應(yīng)用成效的提升[3]。
4結(jié)語(yǔ)
綜上所述,在大數(shù)據(jù)背景下,數(shù)據(jù)挖掘技術(shù)已經(jīng)在各行各業(yè)中得到了廣泛的應(yīng)用,所以為了更好地滿(mǎn)足應(yīng)用的需要,在實(shí)際教學(xué)工作中,我們必須引導(dǎo)學(xué)生切實(shí)加強(qiáng)對(duì)其特點(diǎn)的分析,并結(jié)合實(shí)際需要,切實(shí)注重?cái)?shù)據(jù)挖掘技術(shù)的應(yīng)用,才能促進(jìn)其應(yīng)用成效的提升,最終達(dá)到學(xué)以致用的目的。
作者:何智文 鄧倫丹 單位:南昌大學(xué)科學(xué)技術(shù)學(xué)院
參考文獻(xiàn):
[1]李平榮.大數(shù)據(jù)時(shí)代的數(shù)據(jù)挖掘技術(shù)與應(yīng)用[J].重慶三峽學(xué)院學(xué)報(bào),2014,03:45-47.
篇9
關(guān)鍵詞:信息 挖掘 設(shè)計(jì) 計(jì)算機(jī)
中圖分類(lèi)號(hào):TP311.13 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1007-9416(2013)02-0081-01
網(wǎng)絡(luò)就是一個(gè)龐大的博物館,人漫步在網(wǎng)絡(luò)世界尋找著他們所需要的信息。由于萬(wàn)維網(wǎng)信息量龐大和不斷增加的特性,人們研制了檢索服務(wù)系統(tǒng),以幫助用戶(hù)將他們所需要的信息歸集起來(lái),方便他們查找信息。為了進(jìn)一步提高信息質(zhì)量,使網(wǎng)絡(luò)對(duì)于信息的挖掘更加智能化和個(gè)性化,人們?cè)谛畔⑼诰蜻^(guò)程中引入了人工智能(Agent)技術(shù)過(guò)程中。其中,Multi-Agent是這方面最具有優(yōu)勢(shì)的代表技術(shù)。
1 Multi-Agent協(xié)作系統(tǒng)
MultiAgent協(xié)作系統(tǒng)將多個(gè)智能Agent結(jié)合在一起,通過(guò)幾個(gè)技術(shù)的綜合應(yīng)用來(lái)完成任務(wù)或達(dá)到某些目標(biāo)。Multi-Agent協(xié)作系統(tǒng)就像現(xiàn)實(shí)生活中人們相互分工協(xié)作一樣地工作,顯現(xiàn)出社會(huì)性、自治性、協(xié)作性的特性,而且顯現(xiàn)出智能化的特征,能夠進(jìn)行自主學(xué)習(xí)促進(jìn)自身的增長(zhǎng),還能與其它系統(tǒng)磋商,分工協(xié)作完成預(yù)定任務(wù)。任務(wù)共擔(dān)和結(jié)果共享是MultiAgent系統(tǒng)實(shí)現(xiàn)協(xié)作的關(guān)鍵。系統(tǒng)結(jié)構(gòu)的運(yùn)行可分為集中式和分布式兩大類(lèi)。應(yīng)用該技術(shù)的最典型的信息挖掘系統(tǒng)是“網(wǎng)燈”。
2 “網(wǎng)燈”Weblight
“網(wǎng)燈”weblight是基于Multi-Agent技術(shù)的信息挖掘系統(tǒng),是由我國(guó)的上海同濟(jì)大學(xué)經(jīng)濟(jì)與管理學(xué)院課題研究組自主研發(fā)完成,是我國(guó)科技領(lǐng)域的杰出創(chuàng)新。網(wǎng)燈系統(tǒng)主要針對(duì)PC機(jī)上的個(gè)人用戶(hù)習(xí)慣來(lái)開(kāi)發(fā)的,但對(duì)于科研、商業(yè)、咨詢(xún)等領(lǐng)域的信息搜索需求也有一定的滿(mǎn)足能力。它依托于萬(wàn)維網(wǎng)上現(xiàn)有的四大著名搜索引擎,再加上MultiAgent對(duì)信息搜索的協(xié)助功能,相較于以往,提升了用戶(hù)對(duì)網(wǎng)絡(luò)信息搜索的體驗(yàn),是一個(gè)具有建立用戶(hù)個(gè)性化信息庫(kù)能力的交互式系統(tǒng)。
3 網(wǎng)燈Weblight結(jié)構(gòu)
圖1是“網(wǎng)燈”Weblight的結(jié)構(gòu)圖,網(wǎng)燈有5個(gè)類(lèi)型的Agent共同協(xié)助工作。
(1)交互Agent:是用戶(hù)和計(jì)算機(jī)之間進(jìn)行對(duì)話的接口,負(fù)責(zé)接收用戶(hù)的需求信息,形成一個(gè)和用戶(hù)需求對(duì)應(yīng)的界面,并將最終結(jié)果呈遞給對(duì)應(yīng)的用戶(hù)。
(2)問(wèn)題分解Agent:將由交互Agent分配傳遞來(lái)的用戶(hù)問(wèn)題分解為多個(gè)相關(guān)子問(wèn)題,并將這些分解后的子問(wèn)題提交給檢索Agent。
(3)控制Agent:Agent控制需要對(duì)各Agent的處理結(jié)果綜合并進(jìn)行評(píng)價(jià),并負(fù)責(zé)其他Agent的同步與通訊,從中得出問(wèn)題的解。為了確保問(wèn)題的解是用戶(hù)所需的,控制Agent會(huì)根據(jù)情況自動(dòng)決定是否返回前面的Agent對(duì)問(wèn)題進(jìn)行反復(fù)提取。
(4)需求分析Agent:負(fù)責(zé)分析用戶(hù)的來(lái)源和可能的偏好,得出結(jié)果后會(huì)提交到用戶(hù)信息庫(kù),同時(shí)能夠根據(jù)用戶(hù)信息庫(kù)中的信息,對(duì)用戶(hù)需求進(jìn)行解釋。需求分析Agent還受到用戶(hù)交互Agent的反饋指令控制。
(5)信息挖掘Agent:將檢索各個(gè)Agent獲得的部分信息,通過(guò)用戶(hù)交互和信息智能挖掘處理,并反復(fù)核對(duì),制作出可直接理解的歸整信息,并將其提交到知識(shí)歸整資源庫(kù)內(nèi)。
4 Multi-Agent系統(tǒng)的主要工作過(guò)程
在Multi-Agent系統(tǒng)中,任務(wù)共享和結(jié)果共享是最大特色。在weblight中,具體的工作過(guò)程是,獲得用戶(hù)提交的信息需求后,各個(gè)Agent系統(tǒng)會(huì)自動(dòng)進(jìn)行問(wèn)題分解,檢索Agent則同時(shí)向四個(gè)搜索引擎發(fā)出了任務(wù)請(qǐng)求,四個(gè)引擎共同承擔(dān)任務(wù),并先后對(duì)檢索Agent的請(qǐng)求作出響應(yīng),不斷地返回結(jié)果,并對(duì)中間結(jié)果進(jìn)行集中和篩選。
5 數(shù)據(jù)挖掘Agent探析
檢索Agent的查詢(xún)結(jié)果是數(shù)據(jù)挖掘Agent的處理對(duì)象。其功能的實(shí)現(xiàn)不是單獨(dú)的結(jié)果,是各個(gè)Agent共同協(xié)作的結(jié)果。具體過(guò)程是,首先,Agent需對(duì)用戶(hù)需求進(jìn)行分解,將其分解為各個(gè)子問(wèn)題,然后,針對(duì)性地尋找出匹配的信息挖掘?qū)ο箢?lèi)。對(duì)信息資源進(jìn)行分類(lèi),使這些信息能夠和用戶(hù)個(gè)性化定義對(duì)象類(lèi)相匹配。最后,通過(guò)挖掘Agent所特有的特殊數(shù)據(jù)挖掘算法對(duì)找到的數(shù)據(jù)進(jìn)行歸集和篩選,從中尋找出真正有效的知識(shí)并提取出來(lái),經(jīng)過(guò)系統(tǒng)工具的評(píng)測(cè)和用戶(hù)交互檢驗(yàn)后,將最終提取到的有效知識(shí)提交到知識(shí)歸整資源庫(kù)里。數(shù)據(jù)挖掘Agent同時(shí)允許用戶(hù)對(duì)歸整出的知識(shí)庫(kù)內(nèi)的資源進(jìn)行任意的瀏覽、重新組織、添加、刪除、檢索、下載、上傳、打印等多項(xiàng)服務(wù)。
6 結(jié)語(yǔ)
Multi-Agent系統(tǒng)的開(kāi)發(fā)成功是在系統(tǒng)的設(shè)計(jì)中融入社會(huì)學(xué)、經(jīng)濟(jì)學(xué)、生態(tài)學(xué)思想精髓的結(jié)果?;贛ultiAgent系統(tǒng)的網(wǎng)絡(luò)信息搜索工具“網(wǎng)燈”Weblight,是開(kāi)發(fā)者嘗試將綜合智能思想運(yùn)用到信息檢索中的一次大膽試驗(yàn),實(shí)踐證明,這個(gè)嘗試是極其成功的,也是人工智能研究起步階段中跨出的最重要一步。目前看來(lái),Weblight的用戶(hù)個(gè)性化功能集成方面的自適應(yīng)能力還比較薄弱,這限制了搜索功能面向科研、商家、高級(jí)信息咨詢(xún)提供有效信息的能力。但是隨著數(shù)據(jù)挖掘技術(shù)和綜合智能Agent技術(shù)研究的進(jìn)一步深化,未來(lái)的新誕生的搜索服務(wù)是用戶(hù)獲得更大的利益強(qiáng)大輔助。目前的信息高速公路給各行各業(yè)的人們帶來(lái)的便利優(yōu)勢(shì)是大家有目共睹的,甚至給人們的生活面貌帶來(lái)了革命性的改變。但是,在信息時(shí)代,如何做到更有效地利用資源是當(dāng)代信息工作者面臨的下一個(gè)重大課題。若能在這個(gè)問(wèn)題上取得重大突破,那么計(jì)算機(jī)科學(xué)和社會(huì)科學(xué)的新革命也將隨之來(lái)臨。
參考文獻(xiàn)
篇10
關(guān)鍵詞:數(shù)據(jù)挖掘技術(shù);Web;應(yīng)用;
中圖分類(lèi)號(hào):TP319文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1674-098X(2015)05(a)-0000-00
所謂數(shù)據(jù)挖掘,就是在大量的、隨機(jī)的、無(wú)關(guān)的、不完全的數(shù)據(jù)中找出共同點(diǎn),提煉有價(jià)值的規(guī)律,從而有利于企業(yè)利用這些規(guī)律進(jìn)行決策,獲得超額利潤(rùn)。而基于Web的數(shù)據(jù)挖掘技術(shù),是指在HTML文檔中或相關(guān)的服務(wù)中借助數(shù)據(jù)挖掘技術(shù)提取對(duì)用戶(hù)有價(jià)值的信息。
1 基于Web數(shù)據(jù)挖掘技術(shù)的原理和分類(lèi)
1.1 基于Web數(shù)據(jù)挖掘技術(shù)的原理
基于Web數(shù)據(jù)挖掘技術(shù)主要利用統(tǒng)計(jì)學(xué)原理把Web頁(yè)面中用戶(hù)訪問(wèn)的信息內(nèi)容和超鏈接結(jié)構(gòu)等進(jìn)行統(tǒng)計(jì)分類(lèi),然后總結(jié)出這些數(shù)據(jù)的規(guī)律和特征,并把這些大量的數(shù)據(jù)進(jìn)行篩選和過(guò)濾,從中挖掘出這些數(shù)據(jù)的潛在聯(lián)系,讓企業(yè)獲得用戶(hù)在訪問(wèn)網(wǎng)頁(yè)時(shí)深層次的規(guī)律。
1.2 基于Web數(shù)據(jù)挖掘技術(shù)的分類(lèi)
基于Web數(shù)據(jù)挖掘技術(shù)按照其技術(shù)原理可以分為三類(lèi):(1)、內(nèi)容挖掘。這里的“內(nèi)容挖掘”是指把Web網(wǎng)頁(yè)中數(shù)字,文字,表格,文檔等顯示的數(shù)據(jù)信息和其它隱示的數(shù)據(jù)信息整理并挖掘出來(lái)。(2)、使用挖掘。當(dāng)用戶(hù)通過(guò)瀏覽器訪問(wèn)網(wǎng)頁(yè)內(nèi)容后,該網(wǎng)頁(yè)所在的服務(wù)器會(huì)自動(dòng)把這些訪問(wèn)的行為記錄在訪問(wèn)日志上,而通過(guò)分析這些訪問(wèn)日志就可以掌握用戶(hù)在該網(wǎng)頁(yè)中的一些需求和動(dòng)向,這就是“使用挖掘”的作用。所以通過(guò)使用挖掘可以掌握用戶(hù)的行為動(dòng)向,有利于提高網(wǎng)站的收益或網(wǎng)站的點(diǎn)擊率。(3)、結(jié)構(gòu)挖掘。數(shù)據(jù)挖掘中的結(jié)構(gòu)挖掘是指分析Web頁(yè)面之間的超鏈接結(jié)構(gòu)關(guān)系,從中找到Web頁(yè)面結(jié)構(gòu)的有用模式及權(quán)威網(wǎng)頁(yè)。
2 基于Web數(shù)據(jù)挖掘技術(shù)分析
2.1 路徑分析技術(shù)
網(wǎng)絡(luò)中的信息是巨大的,因此人們不可能一下子就找到自己需要的內(nèi)容,總是要從一個(gè)頁(yè)面鏈接到另一個(gè)頁(yè)面,再?gòu)倪@個(gè)頁(yè)面鏈接到其它頁(yè)面。人們的這種訪問(wèn)路徑會(huì)被記錄在服務(wù)器的日志文件中。路徑分析技術(shù)就是分析這些存有路徑信息的日志文件,分析后的結(jié)果有利于幫助網(wǎng)站管理員根據(jù)大多數(shù)用戶(hù)的需求改善網(wǎng)站的結(jié)構(gòu)。
2.2 分類(lèi)分析技術(shù)
分類(lèi)分析技術(shù)借助對(duì)示例數(shù)據(jù)的詳細(xì)分析建立一個(gè)分析的模型,再使用這個(gè)模型對(duì)網(wǎng)上的眾多數(shù)據(jù)進(jìn)行分類(lèi)描述。使用分類(lèi)分析技術(shù)可以在網(wǎng)絡(luò)銷(xiāo)售中向一個(gè)用戶(hù)推薦他可能喜愛(ài)的相關(guān)產(chǎn)品。
2.3 聚類(lèi)技術(shù)
聚類(lèi)技術(shù),就是把大量的用戶(hù)訪問(wèn)數(shù)據(jù),如用戶(hù)喜歡的商品,以及訪問(wèn)網(wǎng)頁(yè)的用戶(hù)本身的信息等進(jìn)行分析整理,然后按照一定的規(guī)則對(duì)它們進(jìn)行分類(lèi),并給出該類(lèi)別的特征描述。例如在網(wǎng)絡(luò)營(yíng)銷(xiāo)中聚類(lèi)技術(shù)幫助企業(yè)把客戶(hù)分成不同的群體,并給出這些群體的喜好和需求,以便企業(yè)根據(jù)這些需求調(diào)整業(yè)務(wù)內(nèi)容以滿(mǎn)足不同的客戶(hù)群體。
2.4 關(guān)聯(lián)規(guī)則技術(shù)
關(guān)聯(lián)規(guī)則技術(shù)通過(guò)分析用戶(hù)在網(wǎng)站上的訪問(wèn)記錄建立關(guān)聯(lián)模型,可以根據(jù)用戶(hù)的習(xí)慣和喜好為用戶(hù)提供方便快捷的訪問(wèn)方式,也可以為用戶(hù)推薦喜愛(ài)的商品或服務(wù)。
3 基于Web數(shù)據(jù)挖掘技術(shù)的應(yīng)用
3.1 在遠(yuǎn)程教育中的應(yīng)用
傳統(tǒng)的教育方式?jīng)]有注重學(xué)生的個(gè)體差異性,也不可能給每一個(gè)學(xué)生制定一套教學(xué)方案。但是在應(yīng)用了數(shù)據(jù)挖掘技術(shù)的遠(yuǎn)程教育方式中,利用學(xué)生在網(wǎng)站的學(xué)習(xí)情況,通過(guò)數(shù)據(jù)挖掘技術(shù)可以為學(xué)生推薦適合他的教學(xué)方案,真正做到了“因材施教”,“以學(xué)生為中心”。而且利用分類(lèi)分析數(shù)據(jù)挖掘技術(shù)、聚類(lèi)數(shù)據(jù)挖掘技術(shù)和關(guān)聯(lián)規(guī)則數(shù)據(jù)挖掘技術(shù)還可以對(duì)學(xué)生和教師進(jìn)行分類(lèi)和關(guān)聯(lián),這樣可以為學(xué)生推薦適合他,同時(shí)也是學(xué)生喜歡的教師。數(shù)據(jù)挖掘技術(shù)在學(xué)生的學(xué)習(xí)過(guò)程中有利于學(xué)生快速的檢索需要的課件資源和學(xué)習(xí)內(nèi)容。
3.2 在電子商務(wù)中的應(yīng)用
隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,電子商務(wù)已經(jīng)與人們的生活密不可分。將基于Web數(shù)據(jù)挖掘技術(shù)應(yīng)用在電子商務(wù)中,可以幫助企業(yè)獲得及時(shí)、準(zhǔn)確的商業(yè)信息和客戶(hù)信息,幫助企業(yè)制定正確的商業(yè)發(fā)展目標(biāo),從而獲得豐富的利潤(rùn)。
(1)、為企業(yè)定制正確的商業(yè)發(fā)展目標(biāo)。在企業(yè)制定自己的商業(yè)發(fā)展目標(biāo)之前需要先考察市場(chǎng),掌握商品的市場(chǎng)動(dòng)向,了解企業(yè)自身在同行業(yè)中的市場(chǎng)地位。采用基于Web數(shù)據(jù)挖掘技術(shù)幫助企業(yè)快速、準(zhǔn)確地完成了上述工作,有利于企業(yè)定制商業(yè)發(fā)展目標(biāo)。
(2)、提高了客戶(hù)的滿(mǎn)意度?;赪eb的數(shù)據(jù)挖掘技術(shù)可以幫助企業(yè)分析客戶(hù)信息和客戶(hù)行為,掌握客戶(hù)喜愛(ài)的商品類(lèi)別,挖掘客戶(hù)潛在的消費(fèi)意向,為客戶(hù)提供滿(mǎn)意的服務(wù)。
(3)、提高了企業(yè)的資金使用效率?;赪eb數(shù)據(jù)挖掘技術(shù)可以對(duì)企業(yè)的庫(kù)存,商品交易情況,財(cái)務(wù)報(bào)表等信息進(jìn)行分析后,為企業(yè)提供一份資金分配策劃單,從而保證企業(yè)購(gòu)買(mǎi)的都是暢銷(xiāo)商品不會(huì)造成大量的庫(kù)存,提高了企業(yè)的資金使用效率。
(4)、延長(zhǎng)用戶(hù)訪問(wèn)網(wǎng)頁(yè)的時(shí)間。人們?cè)诰W(wǎng)上購(gòu)物時(shí)會(huì)感覺(jué)所有的商品都是一樣的,沒(méi)有區(qū)別,因?yàn)樗鼈兌际且跃W(wǎng)頁(yè)的形式存在的。所以如果企業(yè)希望有良好的銷(xiāo)售業(yè)績(jī),就需要用戶(hù)在企業(yè)的網(wǎng)頁(yè)上停留更多的時(shí)間,因?yàn)橛脩?hù)停留的時(shí)間越長(zhǎng),越有可能購(gòu)買(mǎi)商品。企業(yè)可以利用數(shù)據(jù)挖掘技術(shù)掌握用戶(hù)的習(xí)慣和喜好,為用戶(hù)提供方便快捷的訪問(wèn)方式,這些快捷方式都是根據(jù)用戶(hù)的喜好推薦的商品,因此用戶(hù)愿意花費(fèi)更多的時(shí)間在這個(gè)Web頁(yè)面里。
(5)、挖掘潛在的商機(jī)。企業(yè)利用基于Web數(shù)據(jù)挖掘技術(shù)對(duì)服務(wù)器的日志文件進(jìn)行分析和處理,可以將用戶(hù)分類(lèi),并給出相應(yīng)的描述。如果一個(gè)新的用戶(hù)來(lái)到企業(yè)的網(wǎng)站時(shí),可以利用前面的分類(lèi)結(jié)果對(duì)這個(gè)新用戶(hù)提供個(gè)性化的服務(wù),投其所好,挖掘潛在的商機(jī)。
除此之外,基于Web數(shù)據(jù)挖掘技術(shù)在醫(yī)療、金融、通訊等領(lǐng)域也得到了比較廣泛的應(yīng)用,而且比較成熟,但是在電子商務(wù)領(lǐng)域中Web數(shù)據(jù)挖掘技術(shù)還處于起步階段,有很多問(wèn)題需要人們進(jìn)一步去探索,相信隨著網(wǎng)絡(luò)技術(shù)的迅速發(fā)展,基于Web數(shù)據(jù)挖掘技術(shù)在電子商務(wù)領(lǐng)域中會(huì)有更大的發(fā)展空間。
參考文獻(xiàn)
熱門(mén)標(biāo)簽
數(shù)據(jù)分析論文 數(shù)據(jù)挖掘論文 數(shù)據(jù)安全論文 數(shù)據(jù)管理論文 數(shù)據(jù)庫(kù)論文 數(shù)據(jù)挖掘總結(jié) 數(shù)據(jù)誤差 數(shù)據(jù)采集 數(shù)據(jù) 數(shù)據(jù)通信論文 批判學(xué)派 批判性 匹配 批評(píng)
相關(guān)文章
1政務(wù)數(shù)據(jù)協(xié)同治理的分析
3建筑業(yè)統(tǒng)計(jì)數(shù)據(jù)質(zhì)量探討