小議電子商務(wù)中準(zhǔn)確利用數(shù)據(jù)挖掘科技
時間:2022-10-30 02:46:00
導(dǎo)語:小議電子商務(wù)中準(zhǔn)確利用數(shù)據(jù)挖掘科技一文來源于網(wǎng)友上傳,不代表本站觀點,若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。
1電子商務(wù)介紹
隨著網(wǎng)絡(luò)技術(shù)和數(shù)據(jù)庫技術(shù)的成熟,全球傳統(tǒng)商務(wù)正經(jīng)歷一次重大變革,向電子商務(wù)全速挺進(jìn)。這種商業(yè)電子化的趨勢不僅為客戶提供了便利的交易方式和廣泛的選擇,同時也為商家提供了更加深入地了解客戶需求信息和購物行為特征的可能性。數(shù)據(jù)挖掘技術(shù)作為電子商務(wù)的重要應(yīng)用技術(shù)之一,將為正確的商業(yè)決策提供強有力的支持和可靠的保證,是電子商務(wù)不可缺少的重要工具。
電子商務(wù)的發(fā)展促使公司內(nèi)部收集了大量的數(shù)據(jù),并且迫切需要將這些數(shù)據(jù)轉(zhuǎn)換成有用的信息和知識,為公司創(chuàng)造更多潛在的利潤,數(shù)據(jù)挖掘概念就是從這樣的商業(yè)角度開發(fā)出來的。數(shù)據(jù)挖掘涉及的學(xué)科領(lǐng)域和方法很多,其核心技術(shù)歷經(jīng)了數(shù)十年的發(fā)展,其中包括統(tǒng)計、近鄰、聚類、決策樹、神經(jīng)網(wǎng)絡(luò)和規(guī)則等。今天,這些成熟的技術(shù)在電子商務(wù)中已進(jìn)入了實用階段,并取得了良好的效果。但數(shù)據(jù)挖掘作為一個新興領(lǐng)域,在實際應(yīng)用當(dāng)中仍存在許多尚未解決的問題。其中最困難的往往在于決定什么時候采用哪種數(shù)據(jù)挖掘技術(shù)。為了對數(shù)據(jù)挖掘技術(shù)進(jìn)行明智的選擇,本文結(jié)合數(shù)據(jù)挖掘技術(shù)在電子商務(wù)中的應(yīng)用,從挖掘任務(wù)和數(shù)據(jù)信息兩個角度進(jìn)行分析,指出各種數(shù)據(jù)挖掘技術(shù)適用的場合,以便開發(fā)出切實可用的數(shù)據(jù)挖掘系統(tǒng)。
2數(shù)據(jù)挖掘的概念及其在電子商務(wù)中的應(yīng)用
2.1數(shù)據(jù)挖掘的概念
數(shù)據(jù)挖掘是通過挖掘數(shù)據(jù)倉庫中存儲的大量數(shù)據(jù),從中發(fā)現(xiàn)有意義的新的關(guān)聯(lián)模式和趨勢的過程。從商業(yè)的角度定義,數(shù)據(jù)挖掘是一種新的商業(yè)信息處理技術(shù),其主要特點是對商業(yè)數(shù)據(jù)庫中的大量業(yè)務(wù)數(shù)據(jù)進(jìn)行抽取、轉(zhuǎn)換、分析和其它模型化處理,從中提取輔助商業(yè)決策的關(guān)鍵性數(shù)據(jù)。數(shù)據(jù)挖掘最吸引人的地方是它能建立預(yù)測模型而不是回顧型的模型。利用功能強大的數(shù)據(jù)挖掘技術(shù),可以使企業(yè)把數(shù)據(jù)轉(zhuǎn)化為有用的信息幫助決策,從而在市場競爭中獲得優(yōu)勢地位。
2.2數(shù)據(jù)挖掘在電子商務(wù)中的應(yīng)用
由于數(shù)據(jù)挖掘能帶來顯著的經(jīng)濟效益,它在電子商務(wù)中(特別是金融業(yè)、零售業(yè)和電信業(yè))應(yīng)用也越來越廣泛。
在金融領(lǐng)域,管理者可以通過對客戶償還能力以及信用的分析,進(jìn)行分類,評出等級。從而可減少放貸的麻木性,提高資金的使用效率。同時還可發(fā)現(xiàn)在償還中起決定作用的主導(dǎo)因素,從而制定相應(yīng)的金融政策。更值得一提的是通過對數(shù)據(jù)的分析還可發(fā)現(xiàn)洗黑錢以及其它的犯罪活動。
在零售業(yè),數(shù)據(jù)挖掘可有助于識別顧客購買行為,發(fā)現(xiàn)顧客購買模式和趨勢,改進(jìn)服務(wù)質(zhì)量,取得更好的顧客保持力和滿意程度,提高貨品銷量比率,設(shè)計更好的貨品運輸與分銷策略,減少商業(yè)成本。
電信業(yè)已經(jīng)迅速地從單純的提供市話和長話服務(wù)演變?yōu)榫C合電信服務(wù),如語音、傳真、尋呼、移動電話、圖像、電子郵件、計算機和WEB數(shù)據(jù)傳輸以及其它的數(shù)據(jù)通信服務(wù)。電信、計算機網(wǎng)絡(luò)、因特網(wǎng)和各種其它方式的通信和計算的融合是目前的大勢所趨。而且隨著許多國家對電信業(yè)的開放和新型計算與通信技術(shù)的發(fā)展,電信市場正在迅速擴張并越發(fā)競爭激烈。因此,利用數(shù)據(jù)挖掘技術(shù)來幫助理解商業(yè)行為、確定電信模式、捕捉盜用行為、更好的利用資源和提高服務(wù)質(zhì)量是非常有必要的。分析人員可以對呼叫源、呼叫目標(biāo)、呼叫量和每天使用模式等信息進(jìn)行分析,還可以通過挖掘進(jìn)行盜用模式分析和異常模式識別,從而可盡早發(fā)現(xiàn)盜用,為公司減少損失。
3選擇數(shù)據(jù)挖掘技術(shù)的兩個重要依據(jù)
數(shù)據(jù)挖掘使用的技術(shù)很多,其中主要包括統(tǒng)計方法、機器學(xué)習(xí)方法、和神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。統(tǒng)計方法可細(xì)分為回歸分析、判別分析、聚類分析、探索性分析等。機器學(xué)習(xí)方法可細(xì)分為歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納)、基于范例學(xué)習(xí)、遺傳算法等。神經(jīng)網(wǎng)絡(luò)方法可細(xì)分為錢箱神經(jīng)網(wǎng)絡(luò)(BP算法)、自組織神經(jīng)網(wǎng)絡(luò)等。數(shù)據(jù)庫方法主要是多維數(shù)據(jù)分析或OLAP方法,另外還有面向?qū)傩缘臍w納方法。由于每一種數(shù)據(jù)挖掘技術(shù)都有其自身的特點和實現(xiàn)的步驟,對數(shù)據(jù)的形式有具體的要求,并且與具體的應(yīng)用問題密切相關(guān),因此成功的應(yīng)用數(shù)據(jù)挖掘技術(shù)以達(dá)到目標(biāo)過程本身就是一件很復(fù)雜的事情,本文主要從挖掘任務(wù)和可獲得的數(shù)據(jù)兩個角度來討論對數(shù)據(jù)挖掘技術(shù)的選擇。
3.1不同的挖掘任務(wù)使用不同的挖掘技術(shù)
數(shù)據(jù)挖掘的任務(wù)是從數(shù)據(jù)中發(fā)現(xiàn)模式。根據(jù)挖掘任務(wù),數(shù)據(jù)挖掘可分為概念描述、聚集發(fā)現(xiàn)、關(guān)聯(lián)規(guī)則發(fā)現(xiàn)、分類發(fā)現(xiàn)、回歸發(fā)現(xiàn)和序列模式發(fā)現(xiàn)等。在選擇使用某種數(shù)據(jù)挖掘技術(shù)之前,首先要將待解決的商業(yè)問題轉(zhuǎn)化成正確的數(shù)據(jù)挖掘的任務(wù),然后根據(jù)挖掘的任務(wù)來選擇具體使用某一種或幾種挖掘技術(shù)。下面具體的分析每一種挖掘任務(wù)應(yīng)使用哪些挖掘技術(shù)。
概念描述
概念描述是描述式數(shù)據(jù)挖掘的最基本形式。它以簡潔匯總的形式描述給定的任務(wù)相關(guān)數(shù)據(jù)集,提供數(shù)據(jù)的有趣的一般特性。概念描述由特征化和比較組成。數(shù)據(jù)特征化是目標(biāo)類數(shù)據(jù)的一般特征或特性的匯總。通常,用戶指定類的數(shù)據(jù)通過數(shù)據(jù)庫查詢收集。例如,為研究上一年銷售增加10%的軟件產(chǎn)品的特征,可以通過執(zhí)行一個SQL查詢收集關(guān)于這些產(chǎn)品的數(shù)據(jù)。概念的特征化有兩種一般方法:基于數(shù)據(jù)立方體OLAP的方法和面向?qū)傩詺w納的方法。二者都是基于屬性或維的概化方法.?dāng)?shù)據(jù)特征的輸出可以用多種形式提供。包括餅圖、條圖、曲線、多維數(shù)據(jù)立方體和包括交叉表在內(nèi)的多維表。數(shù)據(jù)區(qū)分是將目標(biāo)類對象的一般特征與一個或多個對比類對象的一般特征比較。例如,將上一年銷售增加10%的軟件產(chǎn)品與同一時期銷售至少下降30%的那些產(chǎn)品進(jìn)行比較。用于數(shù)據(jù)區(qū)分的方法與用于數(shù)據(jù)特征化的方法類似??傊M(jìn)行概念描述挖掘時一般采用面向數(shù)據(jù)庫的方法,另外還可以采用機器學(xué)習(xí)方法的基于范例學(xué)習(xí)技術(shù)。與機器學(xué)習(xí)方法相比,面向數(shù)據(jù)庫的概念描述導(dǎo)致在大型數(shù)據(jù)庫和數(shù)據(jù)倉庫中的有效性和可伸縮性。
聚集發(fā)現(xiàn)
聚集是把整個數(shù)據(jù)庫分成不同的群組。它的目的是要群與群之間差別很明顯,而同一個群之間的數(shù)據(jù)盡量相似。聚集在電子商務(wù)上的典型應(yīng)用是幫助市場分析人員從客戶基本庫中發(fā)現(xiàn)不同的客戶群,并且用購買模式來刻畫不同客戶群的特征。此外聚類分析可以作為其它算法(如特征和分類等)的預(yù)處理步驟,這些算法再在生成的簇上進(jìn)行處理。與分類不同,在開始聚集之前你不知道要把數(shù)據(jù)分成幾組,也不知道怎么分(依照哪幾個變量)。因此在聚集之后要有一個對業(yè)務(wù)很熟悉的人來解釋這樣分群的意義。很多情況下一次聚集你得到的分群對你的業(yè)務(wù)來說可能并不好,這時你需要刪除或增加變量以影響分群的方式,經(jīng)過幾次反復(fù)之后才能最終得到一個理想的結(jié)果。聚類方法主要有兩類,包括統(tǒng)計方法和神經(jīng)網(wǎng)絡(luò)方法。自組織神經(jīng)網(wǎng)絡(luò)方法和K-均值是比較常用的聚集算法。
關(guān)聯(lián)規(guī)則發(fā)現(xiàn)
關(guān)聯(lián)分析是尋找在同一個事件中出現(xiàn)的不同項的相關(guān)性,比如在一次購買活動中所買不同商品的相關(guān)性。序列模式與此類似,它尋找的是事件之間時間上的相關(guān)性,如對股票漲跌的分析。以市場貨籃這個典型例子分析關(guān)聯(lián)規(guī)則?!霸谫徺I面包和黃油的顧客中,有90%的人同時也買了牛奶”(面包+黃油牛奶)。用于規(guī)則發(fā)現(xiàn)的對象主要是事務(wù)型數(shù)據(jù)庫,分析的是售貨數(shù)據(jù),也稱貨籃數(shù)據(jù)。以下給出的數(shù)學(xué)模型用來描述關(guān)聯(lián)規(guī)則的發(fā)現(xiàn)問題。
設(shè)I={I1,I2,...,Im}是一組物品集,其中每一個事務(wù)T是一組物品,顯然TI。設(shè)X為一組物品,當(dāng)且僅當(dāng)XT時,稱事務(wù)T包含X。一個關(guān)聯(lián)規(guī)則是如下形式的一種蘊涵:XY,其中XI,YI且X∩Y=。如果D中s%的事務(wù)包含X∪Y,則稱規(guī)則XY在事務(wù)集D上的支持度support(X∪Y)=s??尚哦葹閏,如果c=support(X∪Y)*100/support(X),則說明D中包含X的事務(wù)中有c%的事務(wù)同時也包含了Y??尚哦日f明了蘊涵的強度,而支持度說明了規(guī)則中所出現(xiàn)模式的頻率。具有高可信度和強支持度的規(guī)則稱為“強規(guī)則”(strongrules)。關(guān)聯(lián)規(guī)則發(fā)現(xiàn)任務(wù)的本質(zhì)是要在數(shù)據(jù)庫中發(fā)現(xiàn)強關(guān)聯(lián)規(guī)則。利用這些關(guān)聯(lián)規(guī)則可以了解客戶的行為,這對于改進(jìn)零售業(yè)等商業(yè)活動的決策很有幫助。例如,可以幫助改進(jìn)商品的擺放(把顧客經(jīng)常同時買的商品擺放在一起),幫助如何規(guī)劃市場(互相搭配進(jìn)貨)等。在數(shù)據(jù)挖掘研究領(lǐng)域,對于關(guān)聯(lián)分析的研究開展的比較深入,人們提出了多種關(guān)聯(lián)規(guī)則的挖掘算法,如APRIORI、FP增長、STEM、AIS、DHP等算法分類發(fā)現(xiàn)分類要解決的問題是為一個事件或?qū)ο髿w類。設(shè)有一個數(shù)據(jù)庫和一組具有不同特征的類別(標(biāo)記),該數(shù)據(jù)庫中的每一個記錄都賦予一個類別的標(biāo)記,這樣的數(shù)據(jù)庫稱為示例數(shù)據(jù)庫或訓(xùn)練集。分類分析就是通過分析示例數(shù)據(jù)庫中的數(shù)據(jù),為每個類別做出準(zhǔn)確的描述或建立分析模型或挖掘出分類規(guī)則,然后用這個分類規(guī)則對其它數(shù)據(jù)庫中的記錄進(jìn)行分類。在電子商務(wù)中分類分析可以預(yù)測客戶響應(yīng),如哪些客戶最傾向于對直接郵件推銷做出回應(yīng),又有哪些客戶可能會換他的手機服務(wù)提供商,或進(jìn)行商店定位,如按成功的商店、一般商店和失敗商店排列得出這3類商店各自具有的屬性。然后選擇包含位置屬性的地理數(shù)據(jù)庫,分析每一預(yù)期的商店位置屬性,以確定預(yù)期的商店定位屬于哪一類。只有那些符合成功一類要求的商店位置才作為商店定位的候選。用于分類分析的技術(shù)有很多,典型方法有統(tǒng)計方法的貝葉斯分類、機器學(xué)習(xí)的判定樹歸納分類、神經(jīng)網(wǎng)絡(luò)的后向傳播分類等。最近數(shù)據(jù)挖掘技術(shù)也將關(guān)聯(lián)規(guī)則用于分類問題。另外還有一些其它分類方法,包括k-最臨近分類、MBR、遺傳算法、粗糙集和模糊集方法。目前,尚未發(fā)現(xiàn)有一種方法對所有數(shù)據(jù)都優(yōu)于其它方法。實驗研究表明,許多算法的準(zhǔn)確性非常相似,其差別是統(tǒng)計不明顯,而訓(xùn)練時間可能顯著不同。一般的,大部分神經(jīng)網(wǎng)絡(luò)和涉及樣條的統(tǒng)計分類與大部分判定樹方法相比,趨向于計算量大。
回歸發(fā)現(xiàn)
回歸是通過具有已知值的變量來預(yù)測其他變量的值。它與分類類似,差別在于前者的預(yù)測值是連續(xù)的,而后者是離散的。在最簡單的情況下,回歸采用的是象線性回歸這樣的標(biāo)準(zhǔn)統(tǒng)計技術(shù)。但在大多數(shù)現(xiàn)實世界中的問題是不能用簡單的線性回歸所能預(yù)測的。如商品的銷售量、股票價格、產(chǎn)品合格率、利潤的大小等,很難找到簡單有效的方法來預(yù)測,因為要描述這些事件的變化所需的變量以上百計,且這些變量本身往往都是非線性的。為此人們又發(fā)明了許多新的手段來試圖解決這個問題,如邏輯回歸、決策樹、神經(jīng)網(wǎng)絡(luò)等。一般同一個模型既可用于回歸也可用于分類,如CART決策樹算法既可以用于建立分類樹,也可建立回歸樹。神經(jīng)網(wǎng)絡(luò)也一樣。
序列模式發(fā)現(xiàn)
序列模式分析和關(guān)聯(lián)分析類似,其目的也是為了挖掘數(shù)據(jù)之間的聯(lián)系,但序列模式分析的側(cè)重點在于分析數(shù)據(jù)間的前后序列關(guān)系。它能發(fā)現(xiàn)數(shù)據(jù)庫中形如“在某一段時間內(nèi),顧客購買商品A,接著購買商品B,而后購買商品C,即序列ABC出現(xiàn)的頻率較高”之類的知識。序列模式分析描述的問題是:在給定交易序列數(shù)據(jù)庫中,每個序列是按照交易時間排列的一組交易集,挖掘序列函數(shù)作用在這個交易序列數(shù)據(jù)庫上,返回該數(shù)據(jù)庫中出現(xiàn)的高頻序列。在進(jìn)行序列模式分析時,同樣也需要有用戶輸入最小值信度C和最小支持度S。另外序列關(guān)聯(lián)規(guī)則挖掘中采用的Apriori特性可以用于序列模式的挖掘,另一類挖掘此類模式的方法是基于數(shù)據(jù)庫投影的序列模式生長技術(shù)。
3.2理解可以獲得的數(shù)據(jù)的信息。
對可以挖掘的數(shù)據(jù)進(jìn)行分析,理解可以獲得的數(shù)據(jù)的信息:內(nèi)容、字段類型、記錄之間的關(guān)系。可能影響數(shù)據(jù)挖掘技術(shù)選擇的數(shù)據(jù)性質(zhì)主要有:
1)種類字段:關(guān)聯(lián)分析和連接分析只適用于種類字段。決策樹也可以很容易的用于種類字段。但是有一個忠告:就是當(dāng)種類的值較多的時候,效果可能就會比較差,當(dāng)然如果限制分支的個數(shù)的時候,決策樹的效果還是不錯的。神經(jīng)元網(wǎng)絡(luò),可以將種類字段轉(zhuǎn)化成數(shù)值字段,但是這樣就給種類字段強加了一個先后次序。也可以將種類字段作為多個輸入,但是當(dāng)值很多時,這種方法就成問題了。
2)數(shù)值字段:神經(jīng)元網(wǎng)絡(luò)將所有輸入轉(zhuǎn)化到0—1之間。MBR和聚集檢測通過距離函數(shù)來處理數(shù)值字段。決策樹可以通過splitter數(shù)值來處理數(shù)值字段。對于關(guān)聯(lián)分析,則必須將數(shù)值變量區(qū)間化成種類變量,但是區(qū)間的選擇是一個很困難的問題。
3)每條記錄都有大量的字段(獨立):記錄中的字段很多,神經(jīng)元網(wǎng)絡(luò)和MBR技術(shù)會受其影響,關(guān)聯(lián)規(guī)則挖掘也會受影響。而決策樹受其影響的程度就比較的小。
4)多個目標(biāo)字段(非獨立):對于存在多個依賴變量的情況,神經(jīng)元網(wǎng)絡(luò)是最佳的選擇。
5)記錄是變長的:只有關(guān)聯(lián)規(guī)則和連接分析可以直接處理變長記錄。對于其他的技術(shù),數(shù)據(jù)需要一些預(yù)處理:可以生成一些統(tǒng)計字段;將一條記錄拆分成幾條記錄,每個含有記錄號。
6)有時間順序的數(shù)據(jù):神經(jīng)元網(wǎng)絡(luò),關(guān)聯(lián)規(guī)則對時間順序的數(shù)據(jù)的處理能力比較的好。決策樹也能處理時間順序,但是需要的數(shù)據(jù)準(zhǔn)備就相對較多一點。
7)自由文本數(shù)據(jù):MBR技術(shù)最適合。
4結(jié)論
總之在選擇一種數(shù)據(jù)挖掘技術(shù)我們應(yīng)根據(jù)商業(yè)問題的特點來決定采用哪種數(shù)據(jù)挖掘形式比較合適。應(yīng)選擇符合數(shù)據(jù)的模型的算法,確定合適的模型和參數(shù)。只有選擇好正確的數(shù)據(jù)挖掘工具,才能真正發(fā)揮數(shù)據(jù)挖掘的作用,使企業(yè)在激烈的市場競爭中做出正確的決策,保持有力的競爭優(yōu)勢。