數(shù)學(xué)建模聚類算法范文
時間:2024-01-02 17:43:02
導(dǎo)語:如何才能寫好一篇數(shù)學(xué)建模聚類算法,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公務(wù)員之家整理的十篇范文,供你借鑒。
篇1
【關(guān)鍵詞】物流配送;雙向物流;物流路徑優(yōu)化;蟻群算法;減法聚類
Two-way Logistics Path Optimization Problems Based on Clustering Analysis Research
LIU Yan-qiu YANG Yong
(Shenyang University of Technology, Shenyang Liaoning 110000, China)
【Abstract】According to the characteristics of two-way logistics, this paper focus on analysis and research the vehicles distribution. In order to better coordinate the vehicle path selection and the relationship between transport costs, and better conditions for considering comprehensive factors and the choice between nodes, study of two-way logistics path problem method, established the mathematical model of optimal path minimization. Finally based on path optimization method and the research situation, adopted the cluster analysis and the ant colony algorithm, and it has been verified by the simulation, the results reasonable and effective.
【Key words】Logistics distribution; Two-way logistics; Logistics path optimization; Ant colony algorithm; Subtraction clustering
0 引言
物流配送在物流管理中占有重要地位,它是指按照客戶的訂貨需求,在配送中心進(jìn)行分貨、配貨,并調(diào)度車輛及時為客戶配送貨物[1]。車輛路徑問題(vehicle routing problem,VRP)是車輛配送研究中最核心的問題,一直是組合優(yōu)化領(lǐng)域的熱點和前沿問題[2],而雙向物流路徑優(yōu)化問題(vehicle routing problem with simultaneous delivery and pickup,VRPSDP)是VRP問題中的一個典型,它是指同時帶送貨取貨的物流車輛路徑優(yōu)化問題,既考慮了客戶需要的貨物從配送中心送到各個客戶,又需要把客戶需要回送的貨物運回到配送中心,要求取貨送貨同時進(jìn)行,因此比單向物流問題還要復(fù)雜,也是一種NP-hard難題,所以求解復(fù)雜度較高,計算量較大。本文在前人研究的基礎(chǔ)上通過聚類分析方法和蟻群算法對雙向物流路徑優(yōu)化問題進(jìn)行了求解。
1 雙向物流配送的數(shù)學(xué)模型
1.1 問題描述
雙向物流路徑優(yōu)化問題可以這樣描述:
已知有C個客戶點,給定每個客戶的坐標(biāo)點和需求量,貨車從配送中心出發(fā),將貨物送到各個客戶,并同時把客戶供應(yīng)的貨物帶回到配送中心。車輛應(yīng)在條件允許下進(jìn)行服務(wù),當(dāng)完成任務(wù)或者不存在能滿足約束條件的情況下,返回配送中心,直到所有的客戶的送取貨任務(wù)完成,整個流程結(jié)束。物流路徑優(yōu)化要求在滿足約束的條件下,合理安排貨車的配送路線,使得運輸成本最小。由于運輸成本很大程度上是由貨車的路徑長度決定的,因此本文求解VRPSDP問題的目標(biāo)函數(shù)的最優(yōu)解就是要求路徑最短。
1.2 數(shù)學(xué)模型的建立
1.2.1 參數(shù)說明
1.2.2 數(shù)學(xué)模型
根據(jù)上面對VRPSDP問題的描述和已設(shè)定的數(shù)學(xué)參數(shù),加之針對該問題所需要考慮的約束條件,對此問題進(jìn)行了建模,將服務(wù)完所有客戶點后所有車輛的行駛總路程定義為目標(biāo)函
2 VRPSDP模型的求解
本文中求解模型的方法,首先是通過FCM聚類,把需要提供服務(wù)的城市進(jìn)行分類,然后再用蟻群算法在滿足約束的情況下對每個分類進(jìn)行求解最優(yōu)路徑,具體做法如圖1所示。
圖1 求解流程圖
3 實例仿真
為了檢驗上述雙向物流路徑優(yōu)化方法的有效性,本文采用實例數(shù)據(jù)對其進(jìn)行性能分析。設(shè)車輛從配送中心出發(fā),為各個客戶提供服務(wù),配送中心坐標(biāo)位置是(0km,0km),車輛在滿足約束的情況下向 30 個客戶配送貨物。
首先經(jīng)matlab仿真得到的30個城市的聚類圖如圖2所示。
圖2 經(jīng)FCM聚類的城市坐標(biāo)圖
然后經(jīng)過蟻群算法對每個聚類進(jìn)行路徑優(yōu)化,得到的車輛配送路徑圖如圖3所示。
圖3 車輛配送路線圖
4 結(jié)論
本文針對雙向物流的特點,首先給出了問題的相關(guān)描述,然后通過抽象建模,給出了帶路程和負(fù)載量約束的雙向物流路徑優(yōu)化模型。根據(jù)給出的VRPSDP問題模型,用基于FCM聚類和蟻群算法的混合算法對模型進(jìn)行求解。最后通過仿真實驗,證明了本文混合算法求解雙向物流路徑優(yōu)化問題的的正確性和有效性。
【參考文獻(xiàn)】
[1]楊燕霞,伍岳慶,姚宇,等.帶時間窗車輛調(diào)度問題的啟發(fā)式算法研究與應(yīng)用[J].計算機應(yīng)用,2013,33(S1):59-61.
篇2
鋰離子寬的電壓平臺和嚴(yán)重的兩端極化不利于SOH的估算,但電池的健康狀態(tài)對電池壽命有著重要的影響。為了解決鋰離子電池壽命預(yù)測困難的問題,通過對鋰離子電池外特性進(jìn)行的分析,在安時積分法的基礎(chǔ)上,采用BP神經(jīng)網(wǎng)絡(luò)算法對鋰離子電池進(jìn)行建模,并將此模型帶入K-均值算法中。系統(tǒng)的實現(xiàn)功能是對電池健康狀況進(jìn)行準(zhǔn)確的評估。經(jīng)過實驗數(shù)據(jù)的驗證,證明了這種算法的準(zhǔn)確度,為電池管理系統(tǒng)穩(wěn)定工作提供保證。
關(guān)鍵詞:
電動汽車;鋰離子電池;健康狀態(tài);K-均值算法
隨著世界汽車人均持有量的不斷攀升,能源危機越來越威脅著人類,巨大的環(huán)境問題和能源問題已成為世界關(guān)注的焦點。為了解決這些問題,世界各國特別是汽車工業(yè)發(fā)達(dá)的國家,正致力于“零污染交通工具”的開發(fā),最終電動汽車被推向了歷史的舞臺。然而電動汽車能否得到大力的推廣,很大程度上受到了動力電池的限制[1]。SOH(state-of-health)是用來描述電池壽命的重要參數(shù)之一,進(jìn)而,電池健康狀態(tài)的預(yù)測則是其中一個非常重要的部分。為了在使用安全性的基礎(chǔ)上,充分發(fā)揮出動力電池的動力性能[2],因此研究鋰離子電池的健康狀態(tài)具有十分重要的意義。近年來,我國也在積極開展汽車鋰離子電池的研究,且在電池研制和電池評估方面取得了一定的成果。本文將分為5個章節(jié)來闡述對電池健康狀態(tài)的預(yù)測。
1K-均值算法
將物理或抽象對象的集合分成由類似的對象組成的多個類的過程被稱為聚類。由聚類生成的一組數(shù)據(jù)對象的結(jié)合被稱為簇[3]。這些對象不同于其他簇中的對象,但是和同一個簇中的對象彼此相似。K-均值(K-Means)聚類算法是著名的劃分聚類分割方法[4]。劃分的原理是:隨機從數(shù)據(jù)集中選取K個點,每個點初始的代表每個簇的中心,然后計算剩余各個樣本到聚類中心的距離,將它賦給最近的簇,隨后重新計算每一個簇的平均值,不斷重復(fù),直到相鄰兩次調(diào)整沒有明顯變化,此時聚類形成的簇已經(jīng)收斂。算法終止條件:①沒有對象被重新分配給不同的聚類。②聚類中心不在變化。③誤差平方和局部最小如式。
2建立電池的BP人工神經(jīng)網(wǎng)絡(luò)模型
國內(nèi)外對鋰離子電池的阻抗?fàn)顟B(tài)也有相關(guān)研究。電池的老化過程伴隨著電池內(nèi)阻的變化,一般認(rèn)為電池由于在充放電的過程中發(fā)生不可逆的化學(xué)變化導(dǎo)致反應(yīng)的鋰離子損失,再加上內(nèi)部結(jié)構(gòu)的鈍化,比如說SEI膜的形成并且增厚,正極和負(fù)極的變換等等。因此本文可以通過預(yù)測內(nèi)阻來估算電池的健康狀況如式。
2.1神經(jīng)網(wǎng)絡(luò)模型的建立人腦中有1000億個神經(jīng)元,結(jié)構(gòu)異常復(fù)雜。正因為人腦結(jié)構(gòu)錯綜復(fù)雜才使得被抽象出來的人工神經(jīng)網(wǎng)絡(luò)具有信息并行處理的能力,自學(xué)能力和推理能力。人工神經(jīng)網(wǎng)絡(luò)由大量的神經(jīng)元連接而成,通過模擬人的大腦神經(jīng)處理信息的方式,進(jìn)行信息平行處理和非線性轉(zhuǎn)換的網(wǎng)絡(luò)系統(tǒng)。在其多重分類當(dāng)中,BP人工神經(jīng)網(wǎng)絡(luò)(BPArtificialNeuralNetworkAlgorithm)是一種多層前饋神經(jīng)網(wǎng)絡(luò),它的名字源于網(wǎng)絡(luò)訓(xùn)練中,通過調(diào)整網(wǎng)絡(luò)訓(xùn)練權(quán)值的訓(xùn)練算法是反向傳播算法(BP神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法)。神經(jīng)網(wǎng)絡(luò)模型的結(jié)構(gòu)一般分為輸入層(輸出實驗數(shù)據(jù))、輸出層(輸出預(yù)測數(shù)據(jù))以及隱含層(對實驗數(shù)據(jù)的加權(quán)處理)。上下層之間實現(xiàn)全連接,在相同層直接無連接,介于輸入層于隱含層神經(jīng)元之間為網(wǎng)絡(luò)的權(quán)值,表現(xiàn)為兩個神經(jīng)元的鏈接強度。通常還在整合信息的過程中添加一個閥值,主要模仿生物必須達(dá)到一定的閥值才能被觸發(fā)的原理,然后將整合過的信息作為該神經(jīng)元的輸入。當(dāng)樣本被提供給神經(jīng)元后,神經(jīng)元的輸出值從輸入層經(jīng)過中間層(隱含層)向輸出層傳播,在輸出層各個神經(jīng)元獲得輸入響應(yīng),遵照減少網(wǎng)絡(luò)輸出與實際輸出樣本之間的誤差的方向,從輸出層反向經(jīng)過各個中間層回到輸入層,逐步修正各個鏈接權(quán)值,這種算法被稱為“誤差反向傳播算法”,也叫做BP神經(jīng)網(wǎng)絡(luò)算法[7]。通過以上介紹,本文建立一個典型的3輸入2輸出的人工神經(jīng)網(wǎng)絡(luò)。如果利用電池的外特性參數(shù)來充當(dāng)輸入層,則可以得到基于人工神經(jīng)網(wǎng)絡(luò)的鋰離子電池BP神經(jīng)網(wǎng)絡(luò)模型。如圖1所示為建立的BP神經(jīng)網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)[8]。
2.2BP人工神經(jīng)網(wǎng)絡(luò)模型的特點BP人工神經(jīng)網(wǎng)絡(luò)充分利用了神經(jīng)網(wǎng)絡(luò)的非線性,自學(xué)習(xí)性等特點,結(jié)合實驗數(shù)據(jù)來建立各種參數(shù)之間的關(guān)系。BP神經(jīng)網(wǎng)絡(luò)的訓(xùn)練機制,不僅適用于機器學(xué)習(xí)的算法方面,在眾多其他領(lǐng)域也有重要應(yīng)用,比如用BP網(wǎng)絡(luò)解析個人成才歷程,有利于多角度思考問題,避免思維狹隘和定勢,在知識點交叉的十字路口,甚至有意想不到的收獲。
3鋰離子電池的健康評估
根據(jù)對鋰離子電池所做的實驗數(shù)據(jù),再根據(jù)安時積分法算出SOC值,導(dǎo)入到算法中去得到輸出值。然而任何方法得到的結(jié)果都會與實際健康狀態(tài)結(jié)果存在的差距就是預(yù)測誤差,預(yù)測誤差應(yīng)該反應(yīng)出結(jié)果的準(zhǔn)確性。
3.1鋰離子電池輸入?yún)?shù)的確定對鋰離子電池進(jìn)行如圖2放電實驗,以5A左右的電流進(jìn)行放電試驗。利用安時積分法如式(3),算出電池的SOC如圖3。得到電池外特性數(shù)據(jù)后進(jìn)行建模。其中,SOC0為充放電起始狀態(tài);CN為電池的額定容量;I為電池電流;η為充放電效率,根據(jù)經(jīng)驗公式,此處取1。
3.2BP人工神經(jīng)網(wǎng)絡(luò)建模結(jié)果將電流(I)、SOC、放電深度(DOD)輸入建好的神經(jīng)網(wǎng)絡(luò)模型中預(yù)測出開路電壓(OCV)和電池電阻r如圖5-圖10所示??梢杂^測到預(yù)測輸出和期望輸出的開路電壓(OCV)和內(nèi)阻誤差都很小。當(dāng)電池老化以后,安時積分法的試用范圍沒有變化,但是對于BP神經(jīng)網(wǎng)絡(luò)算法的影響較大,因為所建立的電池模型參數(shù)隨著電池老化的改變而改變,尤其是成組的實驗電池模型產(chǎn)生的累積誤差會使得實驗準(zhǔn)確性下降。
3.3利用K-均值算法進(jìn)行預(yù)測將建模以后的輸出開路電壓值和內(nèi)阻阻值帶進(jìn)已經(jīng)編好的K-均值算法里得到如圖11。得到兩個聚類點ctrs1(0.006246,3.2293)和ctrs2(0.006278,3.2343)。
4檢驗預(yù)測精度
取100組實驗獲得的內(nèi)阻數(shù)據(jù),利用得到的聚類點放入實驗數(shù)據(jù)中。觀察聚類的準(zhǔn)確度,結(jié)果如圖12所示。通過放入的實驗數(shù)據(jù)和預(yù)測的聚類點的組合,發(fā)現(xiàn)聚類點可以精確聚類出所要得到的兩個簇。
5結(jié)論
針對電池的健康狀態(tài)難以評估這個問題,本文設(shè)計開發(fā)了電動汽車健康評估系統(tǒng)。運用神經(jīng)網(wǎng)絡(luò)建立電池模型,K-均值進(jìn)行預(yù)測??蔀槟壳半妱悠嚮谕馓匦詠碓u估健康狀況提供更為準(zhǔn)確的條件,從而有效的解決了健康狀態(tài)難以評估的問題,同時提供了準(zhǔn)確快速的預(yù)測方法。①隨著電池不斷地放電實驗,內(nèi)阻不斷的增大,SOH不斷增大。為了得到準(zhǔn)確的SOH值,可以通過預(yù)測內(nèi)阻的變化來預(yù)測SOH。②我們觀察到神經(jīng)網(wǎng)絡(luò)建立電池模型誤差能達(dá)到0.2%,所以運用神經(jīng)網(wǎng)絡(luò)可以很準(zhǔn)確的建立電池模型。③通過實驗數(shù)據(jù)對得出聚類值的檢驗可以得出,運用K-均值算法可以對電池SOH進(jìn)行準(zhǔn)確預(yù)測。
參考文獻(xiàn):
[1]陳三省.基于動態(tài)貝葉斯網(wǎng)絡(luò)的鋰離子電池SOH估計[D].杭州電子科技大學(xué),2014.
[2]Zou,Zhongyue,Xu,Jun,Mi,Chris,Cao,Binggang,Chen,Zheng,“EvaluationofModelBasedStateofChargeEstimationMethodsforLithium-IonBatteries”,ENERGIES,5065-5082,Aug2014.
[3]陶新民,徐晶,楊立標(biāo),劉玉.一種改進(jìn)的粒子群和K均值混合聚類算法[J].電子與信息學(xué)報,2010,01:92-97.
[4]劉靖明,韓麗川,侯立文.基于粒子群的K均值聚類算法[J].系統(tǒng)工程理論與實踐,2005,06:54-58.
[5]卓金武MATLAB在數(shù)學(xué)建模中的應(yīng)用[M].二版.北京:北京航天航空大學(xué)出版社,2014.
[6]ZhengChen,BingXia,ChrisMi,andRuiXiong,“LossMinimizationBasedChargingStrategyResearchforLithium-ionBattery”,IEEETransactionsonIndustryApplications,Mar.2015.
[7]譚曉軍電動汽車動力電池管理系統(tǒng)設(shè)計[M].廣州:中山大學(xué)出版社,2011.
篇3
關(guān)鍵詞:灰色理論;灰色預(yù)測;灰色建模
中圖分類號: O369 文獻(xiàn)標(biāo)識碼:A
1 灰色理論及實現(xiàn)方法
1.1 灰關(guān)聯(lián)度分析
關(guān)聯(lián)度分析是灰色系統(tǒng)最主要也是目前在地球物理勘探開發(fā)領(lǐng)域應(yīng)用最廣泛的方法之一。它主要用于分析不同數(shù)據(jù)項之間相互影響、相互依賴的關(guān)系,根據(jù)事物序列(母序列和子序列)曲線幾何形狀的相似程度,定量的評判事物(因素)間的關(guān)聯(lián)程度.兩條曲線的形狀彼此越相似,關(guān)聯(lián)度就越大,反之,則關(guān)聯(lián)度越小。其中的關(guān)鍵是對灰關(guān)聯(lián)矩陣進(jìn)行分析,找出其中起主導(dǎo)作用的因素.
1.2灰色聚類
灰色聚類是以灰色關(guān)聯(lián)度為基礎(chǔ)的聚類方法,實質(zhì)上是將聚類對象歸納成若干個灰色系統(tǒng)類型,以判斷該聚類對象屬于哪一類灰色類型.它能給出定量的評價,比定性的地質(zhì)分析更具客觀性。
1.3灰色預(yù)測和灰色建模
灰色預(yù)測通過原始數(shù)據(jù)的處理和灰色模型的建立,發(fā)現(xiàn)和掌握系統(tǒng)發(fā)展的規(guī)律,對系統(tǒng)的未來狀態(tài)做出科學(xué)的定量預(yù)測.灰色理論認(rèn)為,原始地震數(shù)據(jù)本身就是一種多因素的組合作用的結(jié)果。與其進(jìn)行因素的多層剖析,不如就以原始依據(jù)進(jìn)行預(yù)測.在地震資料的預(yù)測處理中這是一種新的思想、新的角度。
2灰色理論的發(fā)展歷程及研究現(xiàn)狀
灰色理論把一般系統(tǒng)論、信息論、控制論的觀點和方法延伸到社會、經(jīng)濟、生態(tài)等抽象系統(tǒng),結(jié)合運用數(shù)學(xué)方法形成了一套解決信息不完備系統(tǒng)的理論和方法。從思維邏輯的發(fā)展來看,灰色理論是從“黑箱”、“灰箱”概念演進(jìn)而來的。1953年英國科學(xué)家艾什比首先使用黑箱一詞,用來定義那些內(nèi)部結(jié)構(gòu)、特性、參數(shù)全部未知,只好從對象外部信息來研究的一類事物.然而在現(xiàn)實中,面對的常常是對其有了部分了解的“系統(tǒng)”,艾什比稱之為“部分可察黑箱”或“灰箱”。1982年鄧聚龍在灰箱概念的基礎(chǔ)上首次提出了灰色系統(tǒng)的概念,主張從事物內(nèi)部去研究系統(tǒng)。鄧聚龍在提出灰色系統(tǒng)概念以后,對其經(jīng)過逐步的完善和發(fā)展,漸漸形成了灰色系統(tǒng)理論。1992年召開的灰色系統(tǒng)學(xué)術(shù)會議引起了廣大學(xué)者重視,由此將灰色理論和實際應(yīng)用推向了一個。灰色理論從上世紀(jì)80年代問世,經(jīng)90年代的迅速發(fā)展,到21世紀(jì)的廣泛應(yīng)用,雖然只有20多年的發(fā)展歷程,但卻引起了人們的高度重視和極大關(guān)注。目前灰色理論已基本建立起灰色朦朧集為基礎(chǔ)的理論體系,灰色關(guān)聯(lián)空間為依托的分析體系,灰色序列生成為基礎(chǔ)的方法體系,灰色模型(GM)為核心的模型體系。它作為一門新興學(xué)科廣泛的應(yīng)用于地球物理勘探開發(fā)的各個方面。
3灰色理論在地球物理勘探開發(fā)中的應(yīng)用
3.1地震解釋
灰色理論在地震資料解釋中的應(yīng)用主要包括層位標(biāo)定、巖性分析以及地震剖面的異常值提取等。其中層位標(biāo)定和巖性分析作為地震解釋的基礎(chǔ)環(huán)節(jié)和描述地層地質(zhì)情況的重要信息,一直倍受關(guān)注。當(dāng)然也是灰色理論在地震資料解釋中應(yīng)用的重點.其典型的方法是從測井資料中提取與層位、巖相有關(guān)的信息,將地層剖面、巖性分成若干個測井評價參數(shù)范圍,然后采用這些測井地質(zhì)評價參數(shù)與巖心錄井剖面進(jìn)行詳細(xì)對比,統(tǒng)計確定出地質(zhì)評價參數(shù)的標(biāo)準(zhǔn),最后用參數(shù)特征值白化灰色系統(tǒng),以達(dá)到精細(xì)劃分地層層位和巖性的目的。這種做法最大優(yōu)點就是使測井資料得到了充分的利用,同時這也是灰色理論在地震資料解釋中應(yīng)用的最顯著的一個特點。
3.2儲層評價
儲層評價所涉及的內(nèi)容很多,應(yīng)用范圍也相當(dāng)廣泛,但目前儲層評價還沒有一套公認(rèn)的評價標(biāo)準(zhǔn)和工作規(guī)范,各家的評價方法都不盡一致如模糊判別法和專家打分法等。這些方法往往要求數(shù)據(jù)量較大,而且還要求數(shù)據(jù)間存在典型的統(tǒng)計規(guī)律,實際計算是很困難的?;疑碚撛趦釉u價中的應(yīng)用則有效的克服了上述方法的不足。它的基本思路是通過選取儲層的各評價參數(shù)特征值,利用灰色理論的基本方法去白化儲層系統(tǒng)發(fā)展的態(tài)勢,確定評價指標(biāo)和實際數(shù)據(jù)之間的關(guān)聯(lián)度,據(jù)此定量描述儲層的特征,具有數(shù)據(jù)量小、模型簡單等優(yōu)點,很好地滿足了實際生產(chǎn)的需要.另外,灰色理論是一個動態(tài)的預(yù)測過程,對于油氣井的儲量、儲層產(chǎn)能等這樣每時每刻都在發(fā)生變化的預(yù)測目標(biāo),不僅能夠很好的預(yù)測出油氣井以及儲層儲量長期的情況,而且還能進(jìn)行時時的監(jiān)控預(yù)測。
4灰色理論的發(fā)展方向
4.1加強基礎(chǔ)理論的研究
灰色理論基本方法的研究深度不足,數(shù)學(xué)證明不夠完善。比如灰關(guān)聯(lián)分析不適用于負(fù)相關(guān)序列的分析和計算;由灰色關(guān)聯(lián)系數(shù)構(gòu)成的灰色關(guān)聯(lián)度不滿足灰色關(guān)聯(lián)公理中的整體性和偶對對稱性原則;灰色建模方法的累加生成不能減弱原始數(shù)列的隨機性時,用一階微分方程作為預(yù)測模型必然存在原理性誤差等問題,都是灰色理論基本方法中存在的問題,都直接間接地影響了最終的預(yù)測結(jié)果.特別是灰色理論的一些核心內(nèi)容,如累加生成數(shù)列能夠提高預(yù)測精度等結(jié)論,在現(xiàn)有的灰理論專著中均末經(jīng)予嚴(yán)格的數(shù)學(xué)證明.而這些結(jié)論作為灰色理論的核心內(nèi)容正廣泛地應(yīng)用于地球物理勘探開發(fā)的各個方面,對最終的預(yù)測結(jié)果和精度的影響很大。
4.2拓寬應(yīng)用范圍
從目前的研究成果來看,灰色理論在地球物理勘探開發(fā)中的應(yīng)用主要集中在地震資料解釋、地質(zhì)評價和測井解釋三個方面,歸根到底還是主要應(yīng)用在解釋方面,應(yīng)用領(lǐng)域過于單一,解決實際問題的能力還不足,且灰色理論在儲層預(yù)測中的應(yīng)用目前尚限于單系列預(yù)測,存在著一定的風(fēng)險。另外,灰色理論主要研究方法的應(yīng)用范圍也還十分有限。如:利用灰色建模、灰色關(guān)聯(lián)分析作為研究工具的例子較為普遍,其它方法的應(yīng)用則相對較少。
4.3與其它方法相結(jié)合
由于灰色理論自身的理論基礎(chǔ)這不夠完善,解決勘探開發(fā)中出現(xiàn)的各種問題的能力稍顯不足。近年來雖然出現(xiàn)了將灰色理論與分形、神經(jīng)網(wǎng)絡(luò)、模糊理論等方法聯(lián)合應(yīng)用的實例,但應(yīng)用的范圍和深度都還遠(yuǎn)不能滿足實際需要??梢試L試將其與其他優(yōu)化、仿真方法相結(jié)合,如遺傳算法、混合離散變量多目標(biāo)尋優(yōu)算法以及小波變換、最小二乘方法等。
參考文獻(xiàn)
[1]劉思峰,郭天榜.黨耀國等.灰色系統(tǒng)理論及其應(yīng)用[M].北京:科學(xué)出版社,2000.
篇4
關(guān)鍵詞: 公共自行車;聚類分析;綜合評價
0 引言
隨著城市汽車數(shù)量的迅猛發(fā)展,許多城市出現(xiàn)了交通擁堵、汽車尾氣排放、霧霾等一系列的“城市病”。在國家提倡“低碳”、“環(huán)?!笨沙掷m(xù)的發(fā)展理念下,公共自行車在解決城市交通“兩難”,公交“最后一公里”和緩解大氣污染和全民健身方面起著不可或缺的作用。
而在我國,越來越多的城市開始重視自行車在城市交通中的作用,積極發(fā)展城市公共自行車租賃系統(tǒng)。公共自行車租賃系統(tǒng)的發(fā)展對減輕交通擁堵、減少尾氣排放有著重要意義。
公共自行車服務(wù)系統(tǒng)在車輛數(shù)量、鎖樁數(shù)量、借還時間等方面的設(shè)置上是否還存在問題,本文通過對某城市公共自行車服務(wù)系統(tǒng)所產(chǎn)生的具體數(shù)據(jù)進(jìn)行收集整理分析來評價該系統(tǒng)并提出合理化建議。
1 聚類分析
我們首先對原始數(shù)據(jù)中相同借車站不同還車站的數(shù)據(jù)進(jìn)行聚類,將相同借出車站歸為一類。
1.1 定義站點間距離模型 首先,用平均時間來進(jìn)行度量距離。平均時間越小,則說明兩個站點距離越?。黄骄鶗r間越大,則說明兩站點的距離越大。在算平均時間時,時長里幾個數(shù)據(jù),會有一個與其它幾個數(shù)據(jù)有很大的差別。從實際情況來看,從a辦事處到b住宅區(qū)的距離是1.2公里,一般借車者使用的時間是3-4分鐘,但數(shù)據(jù)里出現(xiàn)了40分鐘,因此與實際情況不符,便把它們進(jìn)行了剔除。并且算出時長的極差和方差,極差越大,則就會有一個較大的與實際情況不相符的數(shù)據(jù)。說明這兩個站點之間距離數(shù)據(jù)越不可靠,而方差越小,數(shù)據(jù)越穩(wěn)定,則說明兩站點的距離也就越小。
根據(jù)公式,可以求出從第i個借車站點到第j個還車站點的均方差。
可以求出從a街道辦事處到c大廈和b住宅區(qū)的時長平均、方差、平均數(shù)、眾數(shù)(表1)。
從這些數(shù)據(jù)中進(jìn)行比較,這樣可以得到一個從不同的借車站到不同的歸還車站的最短距離比較表和最長距離比較表。
經(jīng)過分析比較,我們得到從不同的借車站到不同的還車站的最短距離和最長距離。
2 綜合評價模型
2.2 借還平衡度模型 用借車數(shù)量減去還車數(shù)量得出一個數(shù)值,把平衡度分為-20%,-40%,-60%,-80%,90%,80%,60%,40%,20%,9個級別(正負(fù)號在平衡度中不表示大?。?。用數(shù)據(jù)中借自行車次數(shù)最多的的一天,進(jìn)行處理規(guī)定出“借還平衡度的范圍表”(表2)。
由表2我們可以看出當(dāng)度數(shù)為負(fù)數(shù)時,借車的數(shù)量小于還車的數(shù)量,說明鎖樁數(shù)不足;當(dāng)度數(shù)為正數(shù)時,借車數(shù)量大于還車的數(shù)量,說明站點的車數(shù)太少。而且度數(shù)越小這種情況越嚴(yán)重。
對自行車服務(wù)系統(tǒng)的評價需要看使用者對該系統(tǒng)的使用態(tài)度。把數(shù)據(jù)進(jìn)行進(jìn)一步的滿意度分析,即用后一天的不同借車卡數(shù)(借車人數(shù))ci比上前一天的不同借車卡數(shù)(借車人數(shù))ci-1來表示前一天的滿意度,表示如果借車人對該系統(tǒng)滿意下次還會借車否則不會借車,然后把滿意度累加,最后再比上總天數(shù)i+1來表示總滿意度C,因此得到借車人滿意度模型C:C=×100%。
2.3 站點分布與鎖樁數(shù)量平衡度模型 站點的分布和鎖樁的數(shù)量是否合理,建立平衡度模型進(jìn)行分析。當(dāng)各站點的使用度與借車人的滿意度相近時,站點的分布和鎖樁的數(shù)量越合理,否則就不合理。以此用站點的使用度C比上借車人的滿意度A得到合理度D:C=×100%。
2.4 綜合評價指數(shù)模型 根據(jù)以上定義,對自行車服務(wù)系統(tǒng)站點設(shè)置和鎖樁的數(shù)量的配置重要程度的不同,通過給ω進(jìn)行賦值如表3。
最后根據(jù)總公式得出對自行車服務(wù)系統(tǒng)站點設(shè)置的綜合評價指數(shù):W=AωA+BωB+CωC+DωD,得出W=83.037%。
3 模型的分析與結(jié)論
對城市公共自行車模型的建立與求解,其實就是進(jìn)行大量數(shù)據(jù)處理的過程,并把海量的數(shù)據(jù)進(jìn)行聚類分析。時間在很大程度上決定了借還兩個站點的距離,時間越長,借還站點距離越遠(yuǎn)。而綜合評價模型需要對四項指標(biāo)進(jìn)行計算,每一項指標(biāo)都對綜合評價指數(shù)起著至關(guān)重要的作用。模型建立充分利用自行車租賃系統(tǒng)的數(shù)據(jù),并結(jié)合當(dāng)?shù)貙嶋H交通情況進(jìn)行分析,為發(fā)展公共租賃交通提供了實際意義。
參考文獻(xiàn):
[1]韓中庚.數(shù)學(xué)建模競賽-獲獎?wù)撐木x與點評[M].科學(xué)出版社,2008.
[2]韓中庚.數(shù)學(xué)建模競賽方法及其應(yīng)用[M].二版.高等教育出版社,2009.
[3]溫州市鹿城公共自行車[DB/OL].溫州市鹿城區(qū)公共自行車管理中心網(wǎng)站:http:// 2013-9-15.
[4]劉登濤,方文道,章堅民,郭明澤.公共自行車交通系統(tǒng)調(diào)度算法[J].計算機應(yīng)用系統(tǒng),2011(9).
篇5
【關(guān)鍵詞】 數(shù)據(jù)挖掘;數(shù)據(jù)庫;中醫(yī)學(xué)
數(shù)據(jù)收集和數(shù)據(jù)存儲技術(shù)的快速進(jìn)步使得各組織機構(gòu)可以積累海量數(shù)據(jù)。然而,提取有用的信息已經(jīng)成為巨大的挑戰(zhàn)。通常,由于數(shù)據(jù)量太大,無法使用傳統(tǒng)的數(shù)據(jù)分析工具和技術(shù)處理它們。有時,即使數(shù)據(jù)集相對較小,由于數(shù)據(jù)本身的非傳統(tǒng)特點,例如像中醫(yī)的證候信息,也不能使用傳統(tǒng)的方法處理。在另外一些情況下,需要回答的問題不能使用已有的數(shù)據(jù)分析技術(shù)來解決。因此,就需要開發(fā)新的方法。數(shù)據(jù)挖掘是一種技術(shù),它將傳統(tǒng)的數(shù)據(jù)分析方法與處理大量數(shù)據(jù)的復(fù)雜算法相結(jié)合。數(shù)據(jù)挖掘為探查和分析新的數(shù)據(jù)類型以及用新方法分析舊的數(shù)據(jù)類型提供了令人振奮的機會[1]。中醫(yī)學(xué)界的研究者正在快速積累大量數(shù)據(jù),這些數(shù)據(jù)對獲得有價值的新發(fā)現(xiàn)至關(guān)重要。然而,由于這些數(shù)據(jù)的規(guī)模、噪聲和高維性,傳統(tǒng)的方法常常不適合分析這些數(shù)據(jù)集,需要新的數(shù)據(jù)分析方法。數(shù)據(jù)挖掘開發(fā)的技術(shù)可以幫助中醫(yī)研究人員解決這些問題。
1 數(shù)據(jù)挖掘概念
數(shù)據(jù)挖掘是在大型數(shù)據(jù)存儲庫中,自動地發(fā)現(xiàn)有用信息的過程。數(shù)據(jù)挖掘技術(shù)用來探查大型數(shù)據(jù)庫,發(fā)現(xiàn)先前未知的有用模式。數(shù)據(jù)挖掘還具有預(yù)測未來貫徹結(jié)果的能力,例如,預(yù)測一位向心性肥胖的人出現(xiàn)乏力、多飲,但目前測量血糖、血脂、血壓都正常,在未來半年內(nèi)是否發(fā)生2型糖尿病。數(shù)據(jù)挖掘是數(shù)據(jù)庫中知識發(fā)現(xiàn)(knowledge discovery in database,KDD)不可缺少的一部分,而KDD是將未加工的數(shù)據(jù)轉(zhuǎn)換為有用信息的整個過程,如圖1所示[2]。該過程包括一系列轉(zhuǎn)換步驟,從數(shù)據(jù)的預(yù)處理到數(shù)據(jù)挖掘結(jié)果的后處理。
圖1 數(shù)據(jù)庫知識發(fā)展(KDD)過程(略)
數(shù)據(jù)挖掘利用了來自如下一些領(lǐng)域的思想:(1)來自統(tǒng)計學(xué)的抽樣、估計和假設(shè)檢驗。(2)人工智能、模式識別和機器學(xué)習(xí)的搜索算法、建模技術(shù)和學(xué)習(xí)理論。數(shù)據(jù)挖掘也迅速地接納了來自其他領(lǐng)域的思想,這些領(lǐng)域包括最優(yōu)化、進(jìn)化計算,信息論、信號處理、可視化和信息檢索[2]。通常,數(shù)據(jù)挖掘任務(wù)分為兩大類:一類是預(yù)測任務(wù),這些任務(wù)的目標(biāo)是根據(jù)其他屬性的值,預(yù)測特定屬性的值;另一類是描述任務(wù),這類任務(wù)的目標(biāo)是導(dǎo)出概括數(shù)據(jù)中潛在聯(lián)系的模式(相關(guān)、趨勢、聚類、軌跡和異常)。描述性數(shù)據(jù)挖掘任務(wù)通常是探查性的,并且常常需要后處理技術(shù)驗證和解釋結(jié)果。
2 在中醫(yī)研究中的探索
(1)預(yù)測建模,涉及以說明變量函數(shù)的方式為目標(biāo)變量建立模型。有兩類預(yù)測建模任務(wù):分類,用于預(yù)測離散的目標(biāo)變量;回歸,用于預(yù)測連續(xù)的目標(biāo)變量。預(yù)測建??梢杂脕斫鉀Q中醫(yī)脈診的客觀化指標(biāo)確定問題。為進(jìn)行這一任務(wù),我們需要一個數(shù)據(jù)集(脈名,相對客觀指標(biāo)1,相對客觀指標(biāo)2,……)。客觀指標(biāo)相對化是指因測量者的體質(zhì)不同而進(jìn)行的修正,脈名的確定應(yīng)該有權(quán)威的中醫(yī)專家確定。由此可以確定不同脈的客觀化指標(biāo)的范圍,但需要后處理技術(shù)檢驗。(2)關(guān)聯(lián)分析,用來發(fā)現(xiàn)描述數(shù)據(jù)中強關(guān)聯(lián)特征的模式。關(guān)聯(lián)分析在中醫(yī)中的應(yīng)用包括找出某一疾病患者出現(xiàn)的各種癥狀和體征之間的聯(lián)系,方劑的配伍規(guī)則。對中醫(yī)古代文獻(xiàn)中復(fù)雜的定性描述進(jìn)行關(guān)聯(lián)分析,揭示其規(guī)律實現(xiàn)標(biāo)準(zhǔn)化[3]。(3)聚類分析,旨在發(fā)現(xiàn)緊密相關(guān)的觀測值組群,使得與屬于不同簇的觀測值相比,屬于同一簇的觀測值相互之間盡可能類似。中醫(yī)標(biāo)準(zhǔn)化診斷和治療是現(xiàn)今研究的熱點,而標(biāo)準(zhǔn)化要解決的第一個問題就是經(jīng)西醫(yī)確診后的疾病的中醫(yī)證候分類問題[4]。例如,代謝綜合征到底有哪些證型,要解決這個問題需要的觀測值特別多,而且具有高維性,聚類分析可以進(jìn)行初步的篩選和分類。(4)異常檢測的任務(wù)是識別其特征顯著不同于其他數(shù)據(jù)的觀測值,目標(biāo)是發(fā)現(xiàn)真正的異常點,而避免錯誤地將正常的對象標(biāo)注為異常點。換言之,一個好的異常檢測器必須具有高檢測率和低誤報率。異常檢測的應(yīng)用包括疾病的不尋常模式,藥物的不典型副作用。由此可見,對中醫(yī)觀測數(shù)據(jù)的挖掘應(yīng)采用多種方法分批、多層次的挖掘,對結(jié)果應(yīng)該綜合分析,并且得到專家的一致共識,才有參照意義。
3 適合中醫(yī)的數(shù)據(jù)挖掘算法的研究設(shè)想
以上所論及的挖掘算法都并非專為中醫(yī)開發(fā)的,它們的適應(yīng)范圍廣,中醫(yī)研究是可以借鑒的[5]。如果根據(jù)中醫(yī)自身特點而研發(fā)的挖掘算法,則可以更好解決中醫(yī)研究中遇到的問題。筆者認(rèn)為在這方面醫(yī)圣張仲景已經(jīng)樹立了榜樣,他的《傷寒論》就應(yīng)用了數(shù)據(jù)挖掘技術(shù)。他分析的數(shù)據(jù)就是大量臨床病例,分析數(shù)據(jù)所使用的方法來源有三,其一是他精通中國古代數(shù)學(xué);其二是他鉆研《素問》、《九卷》、《八十一難》、《陰陽大論》、《胎臚藥錄》等典籍,從中得出的術(shù)數(shù)模型;其三是一些統(tǒng)計學(xué)方法。他得出的模式是六經(jīng)辨證模式,此模式成為中醫(yī)臨床最重要的辨證模式。六經(jīng)辨證模式解決了中醫(yī)外感病的分類與治療問題,外感病傳變、轉(zhuǎn)屬等諸多問題。以上雖有杜撰之嫌,但也的確能給研究者一些啟示。
參考文獻(xiàn)
[1]ZhangHui Tang,著.高 升,譯.數(shù)據(jù)挖掘原理與應(yīng)用[M].北京:清華大學(xué)出版社,2007:24.
[2]PangNing Tan,著.范 明,譯.數(shù)據(jù)挖掘?qū)д摚跰].北京:人民郵電出版社,2006:14.
[3]秦雪君,施 誠.數(shù)據(jù)挖掘技術(shù)在中醫(yī)藥領(lǐng)域的應(yīng)用[J].醫(yī)學(xué)信息,2006,19(5):945947.
[4]張 琴,劉 平,張文彤.數(shù)據(jù)挖掘技術(shù)在中醫(yī)證候?qū)W研究中的應(yīng)用[J].上海中醫(yī)藥雜志,2006,40(3):35.
篇6
關(guān)鍵詞:數(shù)據(jù)挖掘;數(shù)據(jù)庫;遺傳算法;神經(jīng)網(wǎng)絡(luò)
中圖分類號:TP392文獻(xiàn)標(biāo)識碼:A文章編號文章編號:1672-7800(2013)012-0129-02
基金項目:佛山科學(xué)技術(shù)學(xué)院重點項目(2010)
作者簡介:劉曉莉(1961-),女,佛山科學(xué)技術(shù)學(xué)院副教授,研究方向為應(yīng)用數(shù)學(xué)。
1遺傳算法基本特征
遺傳算法是模擬達(dá)爾文的遺傳選擇和自然淘汰的生物進(jìn)化過程的計算模型,是一種具有廣泛適用性的通用優(yōu)化搜索方法。遺傳算法主要借用了生物遺傳學(xué)的觀點,通過自然選擇、遺傳和變異等作用機制來產(chǎn)生下一代種群,如此逐代進(jìn)化,直至得到滿足要求的后代即問題的解,是一種公認(rèn)的全局搜索能力較強的算法。
遺傳算法有良好智能性,易于并行,減少了陷于局部最優(yōu)解的風(fēng)險。遺傳算法的處理對象不是參數(shù)本身,而是對參數(shù)集進(jìn)行了編碼的個體,可以直接對集合、隊列、矩陣、圖表等結(jié)構(gòu)進(jìn)行操作。同時,在標(biāo)準(zhǔn)的遺傳算法中,基本上不用搜索空間的知識或其它輔助信息,而僅用適應(yīng)度函數(shù)值來評估個體,并在此基礎(chǔ)上進(jìn)行遺傳操作; 遺傳算法不是采用確定性規(guī)則,而是采用概率的變遷規(guī)則來指導(dǎo)它的搜尋方向。正是這些特征和優(yōu)點,使得遺傳算法在數(shù)據(jù)挖掘技術(shù)中占有很重要的地位,既可以用來挖掘分類模式、聚類模式、依賴模式、層次模式,也可用于評估其它算法的適合度。
2神經(jīng)網(wǎng)絡(luò)基本特征
神經(jīng)網(wǎng)絡(luò)是人腦或自然神經(jīng)網(wǎng)絡(luò)若干基本特征的抽象和模擬,是以大量的、同時也是很簡單的處理單元(神經(jīng)元)廣泛地互相連接形成的復(fù)雜非線性系統(tǒng)。人工神經(jīng)網(wǎng)絡(luò)本質(zhì)上是一個分布式矩陣結(jié)構(gòu),它根據(jù)樣本的輸入輸出對加權(quán)法進(jìn)行自我調(diào)整,從而近似模擬出輸入、輸出內(nèi)在隱含的映射關(guān)系。建模時,不必考慮各個因素之間的相互作用及各個因素對輸出結(jié)果的影響機制,這恰好彌補了人們對各個因素及對輸出結(jié)果的機制不清楚的缺陷,從而解決眾多用以往方法很難解決的問題。
神經(jīng)網(wǎng)絡(luò)具有大規(guī)模的并行處理和分布式的信息存儲,有良好的自適應(yīng)、自組織性,學(xué)習(xí)能力很強,有較強的聯(lián)想功能和容錯功能,在解決機理比較復(fù)雜、無法用數(shù)學(xué)模型來刻畫的問題,甚至對其機理一無所知的問題等,神經(jīng)網(wǎng)絡(luò)方法特別適用,是一種用于預(yù)測、評價、分類、模式識別、過程控制等各種數(shù)據(jù)處理場合的計算方法,其應(yīng)用已經(jīng)滲透到多個領(lǐng)域,在計算機視覺、模式識別、智能控制、非線性優(yōu)化、信號處理、經(jīng)濟和機器人等方面取得了可喜的進(jìn)展。
3遺傳算法與神經(jīng)網(wǎng)絡(luò)混合算法在數(shù)據(jù)挖掘中的應(yīng)用
作為一種有效的優(yōu)化方法,遺傳算法可以應(yīng)用于規(guī)則挖掘,可以單獨用于數(shù)據(jù)倉庫中關(guān)聯(lián)規(guī)則的挖掘,還可以和神經(jīng)網(wǎng)絡(luò)技術(shù)相結(jié)合,建立基于神經(jīng)網(wǎng)絡(luò)與遺傳算法的數(shù)據(jù)挖掘體系,用于數(shù)據(jù)挖掘中的分類問題。
學(xué)習(xí)能力是神經(jīng)網(wǎng)絡(luò)中最引人矚目的特征,學(xué)習(xí)算法的研究一直占據(jù)重要地位。可以將遺傳算法應(yīng)用于神經(jīng)網(wǎng)絡(luò)的學(xué)習(xí)過程中,這樣可以避免傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)算法容易陷入局部極小的問題。有研究者提出了一種基于遺傳算法的神經(jīng)網(wǎng)絡(luò)二次訓(xùn)練方法,可以提高神經(jīng)網(wǎng)絡(luò)的模糊處理能力,有效解決神經(jīng)網(wǎng)絡(luò)陷入局部極小的缺點,加快收斂速率,提高學(xué)習(xí)效率。也有研究者探究了基于基因重組的遺傳算法優(yōu)化神經(jīng)網(wǎng)絡(luò)的方法,通過訓(xùn)練權(quán)值來實現(xiàn)分類,可以提高神經(jīng)網(wǎng)絡(luò)數(shù)據(jù)分類的準(zhǔn)確性。因此,采用遺傳算法與神經(jīng)網(wǎng)絡(luò)模型相結(jié)合方法,可以解決多維非線性系統(tǒng)及模型未知系統(tǒng)的預(yù)測、評價與優(yōu)化等問題,其成功案例有很多,下面是其中的幾例。
一些研究者針對當(dāng)前專家系統(tǒng)知識獲取瓶頸的難題,提出了基于神經(jīng)網(wǎng)絡(luò)與遺傳算法的汽輪機組數(shù)據(jù)挖掘方法。該方法首先將汽輪機組歷史故障數(shù)據(jù)進(jìn)行模糊化及離散化處理后,建立神經(jīng)網(wǎng)絡(luò)模型,然后再利用遺傳算法對神經(jīng)網(wǎng)絡(luò)進(jìn)行優(yōu)化,實現(xiàn)了基于神經(jīng)網(wǎng)絡(luò)與遺傳算法相結(jié)合的汽輪機組數(shù)據(jù)挖掘和故障診斷仿真系統(tǒng),其診斷正確率達(dá)到了84%。
綜合運用人工智能、計算智能(人工神經(jīng)網(wǎng)、遺傳算法) 、模式識別、數(shù)理統(tǒng)計等先進(jìn)技術(shù)作為數(shù)據(jù)挖掘工具,可以建立可靠、高效的數(shù)據(jù)挖掘軟件平臺,已在很多工業(yè)控制和優(yōu)化中得到應(yīng)用和實驗驗證,并取得了滿意的應(yīng)用效果。例如,某鋁廠根據(jù)以往不同原料成分和原料的不同配比與產(chǎn)品質(zhì)量關(guān)系記錄的數(shù)據(jù)庫,應(yīng)用數(shù)據(jù)挖掘軟件平臺,可以挖掘出適應(yīng)不同原料成分的最佳配比規(guī)律,從而提高產(chǎn)品質(zhì)量的穩(wěn)定性。又如,以往在化工產(chǎn)品優(yōu)化配方、催化劑配方優(yōu)化或材料工藝優(yōu)化等研究中,基本上都是采用試驗改進(jìn)的方式,需經(jīng)過多次試驗才能達(dá)到預(yù)期目的,但也有可能失敗。為降低消耗, 少做試驗就能達(dá)到預(yù)期目的,可采用神經(jīng)網(wǎng)絡(luò)對產(chǎn)品配方實驗數(shù)據(jù)建模,在此基礎(chǔ)上,再應(yīng)用遺傳算法對配方模型進(jìn)行優(yōu)化,得到優(yōu)化配方。
正是遺傳算法與神經(jīng)網(wǎng)絡(luò)等算法的支撐以及計算機技術(shù)的發(fā)展,目前,數(shù)據(jù)挖掘廣泛地應(yīng)用于天文、地理、生物信息學(xué)、金融、保險、商業(yè)、電信、網(wǎng)絡(luò)、交通等眾多領(lǐng)域。例如,應(yīng)用在地理數(shù)據(jù)庫上,主要挖掘地質(zhì)、地貌特征,為尋找礦產(chǎn)或進(jìn)行城市規(guī)劃等提供參考依據(jù);在電信Web服務(wù)器方面,可以挖掘Web日志,根據(jù)用戶興趣動態(tài)鏈接Web頁面,統(tǒng)計頁面鏈接及權(quán)威主頁等,對檢索頁面進(jìn)行聚類,方便用戶找到需要的信息;在生物醫(yī)學(xué)信息和DNA數(shù)據(jù)分析方面,進(jìn)行遺傳、疾病等數(shù)據(jù)特征的挖掘,為疾病診斷、治療和預(yù)防研究提供科學(xué)依據(jù);對金融數(shù)據(jù)進(jìn)行挖掘,可以分析客戶信用度;在CRM(客戶關(guān)系模型)上使用數(shù)據(jù)挖掘,獲得客戶群體分類信息、交叉銷售安排及開發(fā)新客戶和保留老客戶的策略;在電信業(yè)中使用挖掘技術(shù),以預(yù)防網(wǎng)絡(luò)欺詐等;應(yīng)用在商業(yè)問題的研究包括:進(jìn)行客戶群體劃分、背景分析、交叉銷售等市場行為分析,以及客戶流失性、信用度分析與欺詐發(fā)現(xiàn);在電子商務(wù)方面,從服務(wù)器以及瀏覽器端的日志記錄中發(fā)現(xiàn)隱藏在數(shù)據(jù)中的模式信息,了解系統(tǒng)的訪問模式以及用戶的行為模式,作出預(yù)測性分析等等。
4結(jié)語
神經(jīng)網(wǎng)絡(luò)和遺傳算法作為數(shù)據(jù)挖掘技術(shù),也有一些不足和缺陷。遺傳算法除了要進(jìn)一步改進(jìn)基本理論和方法外,還要采用和神經(jīng)網(wǎng)絡(luò)、模擬退火、最近臨規(guī)則等其它方法相結(jié)合的策略,提高遺傳算法的局部搜索能力,從而進(jìn)一步改善其收斂速度和解的品質(zhì),提高數(shù)據(jù)挖掘技術(shù)。特別是對于單調(diào)函數(shù)或單峰函數(shù),遺傳算法在初始時很快向最優(yōu)值逼近,但是在最優(yōu)值附近收斂較慢;而對于多峰函數(shù)的優(yōu)化問題,它往往會出現(xiàn)“早熟”,即收斂于局部極值。因此,研究如何改進(jìn)遺傳算法,采用合適的算法加快尋優(yōu)速度和改善尋優(yōu)質(zhì)量,無論在理論上還是在實踐上都有重要意義。神經(jīng)網(wǎng)絡(luò)的神經(jīng)計算基礎(chǔ)理論框架以及生理層面的研究仍需深入與加強,如何提高神經(jīng)網(wǎng)絡(luò)的可理解性問題,以及研究遺傳算法、神經(jīng)網(wǎng)絡(luò)技術(shù)與其它人工智能技術(shù)更好地結(jié)合,從而獲得比單一方法更好的效果等問題,值得進(jìn)一步探索。
雖然數(shù)據(jù)挖掘技術(shù)已得到了廣泛應(yīng)用,但現(xiàn)有的數(shù)據(jù)挖掘方法并不能完全適應(yīng)所面臨的具有多樣性的海量數(shù)據(jù)分析的現(xiàn)實,急需解決的問題是:如何研究并行處理和抽樣的方法,來處理大規(guī)模的數(shù)據(jù)以獲得較高的計算效率;如何利用統(tǒng)計、模糊數(shù)學(xué)來確定隱含變量及依賴關(guān)系,開發(fā)容噪的挖掘方法,以解決異質(zhì)數(shù)據(jù)集的數(shù)據(jù)挖掘問題;如何更好地進(jìn)行文本數(shù)據(jù)挖掘、Web數(shù)據(jù)挖掘、分類系統(tǒng)、可視化系統(tǒng)、空間數(shù)據(jù)系統(tǒng)和分布式數(shù)據(jù)挖掘等新技術(shù)的應(yīng)用。因此,未來數(shù)據(jù)挖掘的研究表現(xiàn)在數(shù)據(jù)挖掘功能、工具、方法(算法) 的拓展與理論創(chuàng)新,其應(yīng)用的范圍和深度會進(jìn)一步加強。
參考文獻(xiàn)參考文獻(xiàn):
[1]孟曉明.淺談數(shù)據(jù)挖掘技術(shù)[J].計算機應(yīng)用與軟件,2004 (8).
[2]李慧芳,姚躍華,陳一棟.改進(jìn)的遺傳算法對神經(jīng)網(wǎng)絡(luò)優(yōu)化的分類[J].微計算機信息,2008(15).
[3]王東龍,李茂青.基于遺傳算法的數(shù)據(jù)挖掘技術(shù)應(yīng)用[J].南昌大學(xué)學(xué)報, 2005(1).
[4]宋仁國.鋁合金工藝優(yōu)化的遺傳算法[J].材料科學(xué)與工程,1998(1).
[5]韓力群.催化劑配方的神經(jīng)網(wǎng)絡(luò)建模與遺傳算法優(yōu)化[J].化工學(xué)報,1999(4).
[6]郭崇慧,陸玉昌.預(yù)測型數(shù)據(jù)挖掘中的優(yōu)化方法[J].工程數(shù)學(xué)學(xué)報,2005(1).
[7]楊杰.用于建模、優(yōu)化、故障診斷的數(shù)據(jù)挖掘技術(shù)[J].計算機集成制造系統(tǒng),2000(10).
篇7
關(guān)鍵詞: 數(shù)據(jù)挖掘;建模;SQL Server2008;樸素貝葉斯
0 引言
圖書館作為高校的一個重要組成部分,其管理方式的信息化亦是高校管理信息化的重要體現(xiàn)。圖書館圖書借閱資料繁多,很多的數(shù)據(jù)需要管理。若采取手工方式對圖書資料和圖書借閱情況進(jìn)行管理,由于資料繁多,手工處理的工作量大,整體管理效率低下,也不方便讀者對圖書資料的查閱。如今,雖然大多數(shù)的圖書館都采用了數(shù)據(jù)庫管理系統(tǒng),但是數(shù)據(jù)挖掘功能還沒有被充分利用。SQL Server2008是一款非常重要數(shù)據(jù)庫管理系統(tǒng),其中的數(shù)據(jù)挖掘功能,可以挖掘出圖書管理系統(tǒng)中大量有價值的信息,為管理者提供參考,為讀者提供更加個性化的服務(wù)。
1 數(shù)據(jù)挖掘的概念
簡單地說,數(shù)據(jù)挖掘就是從數(shù)據(jù)集中識別出有效的、新穎的、潛在有用的以及最終可理解的模式的非平凡過程。數(shù)據(jù)挖掘通過對查詢內(nèi)容進(jìn)行模式的總結(jié)和內(nèi)在規(guī)律的搜索,幫助管理者分析歷史數(shù)據(jù)及當(dāng)前數(shù)據(jù),并從中發(fā)現(xiàn)隱藏的關(guān)系和模式,進(jìn)而預(yù)測未來可能發(fā)生的行為,從而為決策行為提供有利的支持。數(shù)據(jù)挖掘技術(shù)還能夠用于信息管理、查詢處理和過程控制等。它與傳統(tǒng)的數(shù)據(jù)分析(查詢、報表、聯(lián)機應(yīng)用分析)的本質(zhì)區(qū)別是數(shù)據(jù)挖掘是在沒有明確假設(shè)的前提下去挖掘信息、發(fā)現(xiàn)知識。
2 數(shù)據(jù)挖掘的方法[1]
數(shù)據(jù)挖掘方法分為統(tǒng)計方法、機器學(xué)習(xí)方法、神經(jīng)網(wǎng)絡(luò)方法和數(shù)據(jù)庫方法。統(tǒng)計學(xué)的方法是數(shù)據(jù)挖掘的經(jīng)典方法。統(tǒng)計方法中包括回歸分析(多元回歸、自回歸等)、判別分析(貝葉斯判別、費歇爾判別、非參數(shù)判別等)、聚類分析(系統(tǒng)聚類、動態(tài)聚類等)、探索性分析(主元分析法、相關(guān)分析法)等;機器學(xué)習(xí)方法中包括歸納學(xué)習(xí)方法(決策樹、規(guī)則歸納等)、基于范例學(xué)習(xí)、遺傳算法、粗糙集等。
3 數(shù)據(jù)挖掘建模應(yīng)用圖書構(gòu)建中
3.1 挖掘工具的選擇
SQL Server2008中的數(shù)據(jù)挖掘組件是數(shù)據(jù)挖掘工具的典型代表,系統(tǒng)中引入了多個新的數(shù)據(jù)挖掘算法,與傳統(tǒng)的數(shù)據(jù)挖掘工具相比,SQL Server2008數(shù)據(jù)挖掘功能具備很多優(yōu)勢,因為它與所有SQL Server產(chǎn)品實現(xiàn)了集成,包括SQL Server、SQL Server Integration Services和Analysis Services。SQL Server2008數(shù)據(jù)挖掘功能具有實用性、可伸縮性和可擴展性等特點,同時它包含簡單而豐富的API?;赟QL Server2008有著非常實用的數(shù)據(jù)挖掘功能,所以選擇完整表達(dá)出圖書類別的信息作為數(shù)據(jù)挖掘的工具。[2]
3.2 數(shù)據(jù)的收集及整理
本學(xué)校采用計算機管理圖書的時間還不長,系統(tǒng)功能還較簡單,相關(guān)數(shù)據(jù)整理起來也相對比較雜:
1)在服務(wù)器端導(dǎo)出Excel格式的圖書信息表、借書記錄表。因為系統(tǒng)功能比較簡單,圖書信息表格中只有類別編號,沒有類別名稱,不能完整表達(dá)出圖書類別的信息,所以需要人工將數(shù)據(jù)導(dǎo)出來之后,進(jìn)行數(shù)據(jù)匯總。
2)啟動SQL Server2008 Management Studio,在對象資源管理器中新建一個數(shù)據(jù)庫“l(fā)ibrary”數(shù)據(jù)庫,然后建立“l(fā)ib”表,將數(shù)據(jù)填寫在表中,如圖1。ID:編號,yxzy:是否是醫(yī)學(xué)專業(yè),sjlx:書籍類型,js:借書情況,xj:是否續(xù)借,jdrs:接待人數(shù)。
3.3 對library數(shù)據(jù)庫進(jìn)行數(shù)據(jù)挖掘,建立模型
1)啟動SQL Server Business Intelligence Development
Studio,新建一個商業(yè)智能項目。
2)新建數(shù)據(jù)源(DS),把library數(shù)據(jù)庫添加進(jìn)來。
3)新建一個數(shù)據(jù)庫數(shù)據(jù)源視圖(DSV)。
4)使用數(shù)據(jù)挖掘向?qū)Ы?shù)據(jù)挖掘結(jié)構(gòu)和挖掘模型。
5)處理挖掘模型。
6)使用挖掘模型進(jìn)行分析、預(yù)測。
3.4 對挖掘的信息進(jìn)行分析匯總
1)該表通過數(shù)據(jù)匯總之后,摘錄了18條有代表性的記錄,進(jìn)行分析。按是否是醫(yī)學(xué)專業(yè)類別分書籍,共為兩類:是和否;借書情況分為三類:好、一般、差。是否續(xù)借,分為兩類:是和否;接待人數(shù)分為三類:200。以100和200為基準(zhǔn)的原則是按照各個系別的人數(shù)劃分,有些醫(yī)學(xué)專業(yè)的人數(shù)比較多,例如臨床醫(yī)學(xué),有些則適中如解剖,有些則是非醫(yī)學(xué)專業(yè)的人數(shù)比較少,如:計算機。
2)采用Microsoft Naive Bayes數(shù)據(jù)挖掘技術(shù)繼續(xù)分析。Naive Bayes是數(shù)據(jù)挖掘十大經(jīng)典算法之一,在眾多分類方法中,應(yīng)用最廣泛的有決策樹模型和樸素貝葉斯(Naive Bayes)。本表分析則采用的是樸素貝葉斯,樸素貝葉斯分類器(Naive Bayes Classifier,后NBC)發(fā)源于古典數(shù)學(xué)理論,有著堅實的數(shù)學(xué)基礎(chǔ),以及穩(wěn)定的分類效率。同時,NBC模型所需估計的參數(shù)很少,對缺失數(shù)據(jù)不太敏感,算法也比較簡單。Microsoft Naive Bayes算法對dbo.lib,得出如下結(jié)果,如圖2和圖3。
圖2和圖3直接給圖書館管理人員提供了決策依據(jù),為以后的工作提供了理論依據(jù)。比如根據(jù)圖2依懶關(guān)系網(wǎng)絡(luò)圖,可以發(fā)現(xiàn),書籍的是否續(xù)借直接和該書籍接待人數(shù)和是否借書的情況有關(guān)系。根據(jù)圖3發(fā)現(xiàn),接待人數(shù)多的則是醫(yī)學(xué)專業(yè)的人比較多,而非醫(yī)學(xué)專業(yè)的人則少,可能是因為這方面的圖書太少,相關(guān)書目更新速度太慢,沒有新的書籍,還有就是這些專業(yè)是學(xué)校新興的學(xué)科,沒有及時的購買書籍。但是非醫(yī)學(xué)專業(yè)的書籍,如文學(xué)類的圖書被借閱的次數(shù)最多,這也是讓非醫(yī)學(xué)專業(yè)接待人數(shù)在其中占一個大比例的原因,應(yīng)該把該類圖書置于易于存放的位置,以便為讀者提供更人性化的服務(wù)等。同時也應(yīng)該增加一些圖書館中,書籍的種類。
4 結(jié)語
圖書館管理引進(jìn)數(shù)據(jù)庫系統(tǒng)以后,節(jié)約了大量的人力、物力,提高了圖書管理員的辦事效率,使用數(shù)據(jù)挖掘技術(shù)可以挖掘出大量讀者借閱記錄中存在的隱含的信息,通過這些信息可以為管理者提供更直觀的決策依據(jù),采取更及時有效的措施,為讀者提供更加人性化的服務(wù)。
參考文獻(xiàn):
篇8
其次使用編網(wǎng)法[23],如下圖所示,可將輸入變量分為兩類,從而可以確定模糊規(guī)則數(shù)。 圖1 編網(wǎng)法 模糊規(guī)則如下: 規(guī)則1:if x高 and x低, 則y1=c10+c11x高+c12x低 規(guī)則2: if x中, 則y2=c20+c21x中 ①前件參數(shù)辨識 模型前件參數(shù)辨識即是確定前件中隸屬度函數(shù),這里使用高斯函數(shù),即令 (5)
這里ρ為均值,σ為方差 可分別獲得x高、x中、x低的隸屬度函數(shù):
由這些隸屬度函數(shù)可以根據(jù)公式(3)得到各條規(guī)則的權(quán)重,分別為: ②后件參數(shù)辨識 模型的后件參數(shù)辨識使用最小二乘法,我們知道最小二乘法可以用來處理一組數(shù)據(jù), 可以從一組測定的數(shù)據(jù)中尋求變量之間的依賴關(guān)系, 這種函數(shù)關(guān)系稱為經(jīng)驗公式。這里我們假定在正常情況下的輸出曲線為拋物線型。假定為y=x2。利用最小二乘法,每次只計算一條規(guī)則后件參數(shù)。最后使用極值原理令總偏差最小獲得方程組,解得各規(guī)則的系數(shù),得到各規(guī)則后件的線性表達(dá)式: y1=-0.4491+1.3561x高+3.2343x低 y2=0.0322+0.025x中 則最終根據(jù)公式(2)得出軸承故障的t-s模型的總輸出: 3.2 基于故障模型的計算機仿真 matlab軟件maths works公司1984年推出的一套高性能的數(shù)值計算和可視化軟件,它集數(shù)學(xué)計算、圖形計算、語言設(shè)計和模糊邏輯等30多個工具為一體,具有極高的編程效率,由于它是一個開放環(huán)境,已經(jīng)成為國際控制界廣泛使用的語言之一。本文采用t-s模型動態(tài)逼近非線性系統(tǒng),利用matlab軟件中的模糊控制工具箱,以異步電機軸承的故障模型的仿真實驗,驗證了該方法的有效性。
(a)正常數(shù)據(jù)仿真對比曲線
篇9
Abstract: Exchange rate forecasting is an important subject in financial market. This article applies both parametric (group method of data handling, GMDH) and nonparametric (analog complexing, AC) self-organising modelling methods for exchange rate forecasting. The AC method used the data themselves to identify patterns with similar characteristics. The GMDH algorithm is used to combine the analog patterns and identify an optimum ensemble which has similar characteristics with the modelling object. The empirical results show that the combined method can well forecast exchange rate.
關(guān)鍵詞: 自組織建模;相似體合成算法;分組數(shù)據(jù)處理;預(yù)測
Key words: self-organising modelling;analog complexing;GMDH;forecasting
中圖分類號:F830.91 文獻(xiàn)標(biāo)識碼:A 文章編號:1006-4311(2013)23-0148-02
0 引言
20世紀(jì)70年代布雷頓森林體系解體后,國際貨幣體制發(fā)生了根本改變,浮動匯率制取代固定匯率制成為了世界上主要的匯率制度,匯率變化顯現(xiàn)出了復(fù)雜化和動態(tài)化的特征。匯率的波動使國際經(jīng)濟秩序和金融市場的穩(wěn)定性受到影響,國際經(jīng)濟交易中的不確定性和風(fēng)險大大增加。2005年中國人民銀行宣布人民幣實行有管理的浮動匯率制度,這使得人民幣匯率更能有效的反映市場供求狀況,但同時也導(dǎo)致人民幣匯率的波動。因此匯率研究日益成為經(jīng)濟學(xué)的一個重要課題。
傳統(tǒng)的匯率預(yù)測方法以現(xiàn)有的匯率決定理論(如購買力平價假說、國際收支學(xué)說、利率平價假說、資產(chǎn)市場假說等)為基礎(chǔ),在匯率與影響匯率的各種經(jīng)濟變量之間建立線性模型[1]-[3]。但是基于線性研究模式的傳統(tǒng)匯率決定模型無法解釋現(xiàn)實中的很多異像,如統(tǒng)計分布的“尖峰厚尾”性、波動的集群性等[4]-[5]。越來越多的研究表明匯率系統(tǒng)具有復(fù)雜的非線性特征,因此,近年來越來越多的非參數(shù)、非線性方法被應(yīng)用到匯率預(yù)測的研究中,比如神經(jīng)網(wǎng)絡(luò)(Artificial Neural Network,ANN)、支持向量機(Support Vector Machine,SVM)、最小二乘支持向量機(Least squares support vector machine,LSSVM)、分組數(shù)據(jù)處理(Group Method of Data Handling,GMDH)、小波分析、遺傳算法、混沌時序預(yù)測方法等等[6]-[9]。
本文提出一種結(jié)合參數(shù)自組織建模與非參數(shù)自組織建模的混合模型來預(yù)測匯率。參數(shù)自組織建模即多層迭代的GMDH算法,非參數(shù)自組織建模即相似體合成算法(Analog complexing,AC),用AC算法選擇與當(dāng)前時期有相同特征的相似體,再用GMDH算法將相似體進(jìn)行加權(quán)組合,選擇最優(yōu)模式,用于預(yù)測當(dāng)前時期的發(fā)展趨勢。以上兩種算法按照順序組合起來,利用各自的優(yōu)勢,可以提高預(yù)測的精度,優(yōu)于單一模式。將該混合模型用于實證分析外匯市場上的人民幣(RMB)兌美元(USD)、人民幣兌港幣(HKD)兩種匯率,并與單一的ANN模型和GMDH模型對比,結(jié)果表明該模型較具有較好的預(yù)測效果。
1 預(yù)測模型
1.1 GMDH算法原理
GMDH算法由Ivakhnenko于1967年提出,利用多層神經(jīng)網(wǎng)絡(luò),借助自組織原理,由計算機利用數(shù)據(jù)相對客觀地選擇變量之間的關(guān)系,用外準(zhǔn)則選取最優(yōu)模型,實現(xiàn)對研究對象內(nèi)部結(jié)構(gòu)的模擬[10]-[12]。GMDH算法是神經(jīng)網(wǎng)絡(luò)的一種改進(jìn),將黑箱思想、生物神經(jīng)元方法、歸納法、概率論等方法有機地結(jié)合起來,實現(xiàn)了自動控制與模式識別理論的統(tǒng)一,減少了認(rèn)識過程中的人為參與行為,更具有客觀性與公正性。GMDH算法對有噪聲的小數(shù)據(jù)樣本有較強的預(yù)測能力,可以避免神經(jīng)網(wǎng)絡(luò)過擬合的缺點,同時神經(jīng)網(wǎng)絡(luò)不能給出顯示模型,而GMDH算法則可以建立顯示模型,便于結(jié)構(gòu)分析。
GMDH算法首先將樣本集 W 分為學(xué)習(xí)集 A(training set) 和檢測集 B(testing set)(W=A+B)。建立參考函數(shù)表示輸入變量和輸出變量之間的一般函數(shù)關(guān)系y=f(xi,xj),通常采用二元二次Kolmogorov-Gabor(簡稱K-G多項式)作為參考函數(shù),建立初始模型,其表達(dá)式為
y=a0+a1xi+a2xj+a3xixj+a4x■■+a5x■■ (1)
其中,y為輸出向量,x1,x2,…,xn為輸入向量,a是系數(shù)。選擇一個外準(zhǔn)則(如最小偏差準(zhǔn)則)作為中間模型的判斷標(biāo)準(zhǔn)。
具體步驟如下:
將自變量x1,x2,…,xn作為輸入變量,兩兩組合,根據(jù)參考函數(shù)(1),在第一層產(chǎn)生C■■個輸出變量,經(jīng)外準(zhǔn)則判斷,選擇n1?燮C■■個變量再兩兩組合進(jìn)入第二層……重復(fù)以上步驟,直到最后外準(zhǔn)則值達(dá)到最優(yōu),模型結(jié)構(gòu)不能再改善,此時沿最后一層的輸出變量逐層回推就可以得到最優(yōu)模型的參數(shù)及模型結(jié)構(gòu)。
1.2 AC算法原理
AC算法是對復(fù)雜對象的預(yù)測、聚類和分類的一種序列模式識別方法,該方法假定時間序列在一段時期的情形會以某種形式重復(fù),即當(dāng)前的發(fā)展?fàn)顟B(tài)在歷史上存在一個或多個相似時期。這樣就可以將歷史上相似時期的發(fā)展趨勢通過變換組合,用來推斷和預(yù)測當(dāng)前狀態(tài)的發(fā)展趨勢。AC算法假設(shè)被研究的對象滿足以下四個假設(shè):①系統(tǒng)是多維過程;②過程的長期觀測值是有效的;③多維過程的數(shù)據(jù)集由系統(tǒng)的基本變量生成;④過程的行為一般將在一段時間內(nèi)相似地重復(fù)。
具體的算法步驟為:
①產(chǎn)生待選模式;
②轉(zhuǎn)換相似體;
③根據(jù)模式的相似度選擇最相似的模式;
④將相似模式的延拓進(jìn)行組合用于預(yù)測。
1.3 結(jié)合AC算法與GMDH算法的混合模型
在AC算法中,GMDH算法通過數(shù)據(jù)挖掘發(fā)現(xiàn),在歷史上與建模的當(dāng)前狀態(tài)具有相同特征的相似體一定存在,并識別出最佳的相似體。盡管金融市場存在進(jìn)化現(xiàn)象,但仍然認(rèn)為相似體的延拓與建模對象的延拓有類似的特征。另外,在預(yù)測時,訓(xùn)練集的質(zhì)量會影響神經(jīng)網(wǎng)絡(luò)的泛化能力,而GMDH算法在系統(tǒng)的輸入維數(shù)和歷史數(shù)據(jù)的長度之間的比例是相對較小的,因此是待定系統(tǒng)建模最好的算法。使用GMDH算法,將已經(jīng)選出來的相似模式的延拓加權(quán)組合起來,同時給出組合時的最優(yōu)權(quán)重,用線性的輸入輸出GMDH模型,可求出當(dāng)前狀態(tài)的發(fā)展趨勢。AC算法不需要預(yù)先對輸入變量的發(fā)展趨勢進(jìn)行估價或作假設(shè),完全由已知的數(shù)據(jù)給出預(yù)測,是真正意義上的預(yù)測。GMDH算法則由數(shù)據(jù)根據(jù)最優(yōu)復(fù)雜度原則客觀地選擇最優(yōu)模式,避免人為干預(yù),符合數(shù)據(jù)特征。這樣,將非參數(shù)的自組織方法AC算法和參數(shù)的自組織方法GMDH算法結(jié)合起來,使各個方法的優(yōu)點充分利用,提高預(yù)測精度。
2 實證分析
本文實證分析外匯市場上的人民幣(RMB)兌美元(USD)、人民幣兌日元(JPY)兩種匯率,取當(dāng)日收盤價,數(shù)據(jù)來自CCER中國經(jīng)濟金融數(shù)據(jù)庫??紤]到中國于2005年7月21日才開始實行浮動匯率,選擇2005年7月25日至2011年12月30日匯率數(shù)據(jù),剔除無效數(shù)據(jù),共1590個數(shù)據(jù)。其中2005年7月21日到2010年6月18日共1200個樣本作為訓(xùn)練集,其余作測試集。
將混合參數(shù)與非參數(shù)的自組織方法與單一的GMDH算法和神經(jīng)網(wǎng)絡(luò)ANN模型作一比較,用均方誤差MSE作為評判標(biāo)準(zhǔn),MSE=■,預(yù)測結(jié)果如表1。
由上述結(jié)果可見,根據(jù)MSE的值,結(jié)合參數(shù)與非參數(shù)的自組織方法預(yù)測效果最好,GMDH算法的預(yù)測效果次之,神經(jīng)網(wǎng)絡(luò)ANN的效果最差。
3 結(jié)論
由于金融模型能夠較準(zhǔn)確地進(jìn)行預(yù)測,因而吸引了眾多投資者的注意,但是匯率市場的多變性和復(fù)雜性使得預(yù)測工作變得非常困難。由于金融市場的快速發(fā)展和其具有的非參數(shù)的特性,非參數(shù)建模方法逐步替代參數(shù)方法成為一個更好的預(yù)測方法。因此,非參數(shù)自組織方法如AC算法被用于匯率預(yù)測。進(jìn)一步的工作表明,非參數(shù)和參數(shù)方法結(jié)合使用時,預(yù)測的結(jié)果相比單一的方法更有效更一致,能使模型的預(yù)測性能顯著改善。因此,結(jié)合參數(shù)與非參數(shù)的自組織方法可以作為匯率預(yù)測的一個有效工具。
參考文獻(xiàn):
[1]姜波克,陸前進(jìn),匯率理論和政策研究[M].上海:復(fù)旦大學(xué)出版社,2000.
[2]姜波克,楊長江.國際金融學(xué)(第二版)[M].北京:高等教育出版社,2004,
[3]施建淮.匯率經(jīng)濟學(xué)研究[M].北京 : 中國社會科學(xué)出版社,2010.
[4]D.A. Hsieh, “Testing for Nonlinear Dependence in Daily Foreign Exchange Rates,” Journal of Business, Vol. 62, No. 3, 1989, pp. 329-368.
[5]J. A. Frankel, “Monetary and Portfolio Balance Models of the Determination of Exchange Rates,” In: J. A. Frankel, Ed., On Exchange Rates, MIT Press, Cambridge, 1993, pp. 95-116.
[6]M. Alvarez-Diaz and A. Alvarez, “Forecasting Exchange Rates Using an Evolutionary Neural Network,” Applied Financial Economics Letters, Vol. 3, No. 1, 2007, pp. 5-9.
[7]Shan-Chang Huang, Pei-Ju Chuang, Cheng-Feng Wu. Chaos-based support vector regressions for exchange rate forecasting [J]. Expert Systems with Applications. Vol. 37, Issue 12, December 2010,pages 8590-8598.
[8]Jussi Nikkinen, Seppo Pynnonen, Mikko Ranta, Sami Vahamaa, Cross-dynamics of exchange rate expectations: a wavelet analysis[J]. International Journal of Finance & Economics. Vol 16, Issue 3, pages 205-217, July 2011.
[9]Bahram Adrangi, Mary Allender, Arjun Chatrath and Kambiz Raffiee. Nonlinearities and Chaos: Evidence from Exchange Rates[J].Atlantic Economic Journal, 2010, vol. 38, issue 2, pages 247-248.
[10]Ivakhnenko A.G. Heuristic self-organization on problems of engineering cybernetics [J].Automatic.1970, 6(3):207-219.
篇10
Abstract: Laser scanning point cloud data can be projected using a specific intuitive program to help understand the structure of the data in the building. Such procedures have been widely used in automated building modeling. The method derives a building orientation from the analysis of a high-degree histogram bin and uses the azimuth to generate an orthogonally two-dimensional projection of the point cloud, where the roof plane is the line of the point cloud. The line segments representing these planes are extracted by a line tracking algorithm. In the subsequent processing steps, the line segments are stretched and the plane is used to analyze deviations from the rectangular shape. Two or more adjacent planes are grouped to generate a three-dimensional building model. Existing 2D GIS data can be used in this process to provide reliable partitioning of the onboard laser scan dataset and generate hypotheses that support realistic building modeling.
關(guān)鍵詞: LiDAR;點云數(shù)據(jù);分割;建筑模型建模
Key words: LiDAR; point cloud data;segmentation;building model reconstruction
中圖分類號:TP391.4 文獻(xiàn)標(biāo)識碼:A 文章編號:1006-4311(2017)14-0147-03
0 引言
激光雷達(dá)Lidar在最近十年間嶄露頭角并逐漸進(jìn)入主流的一種遙感技術(shù),它實用性強,比如用于DEM提取和三維建模等。甚至國外已經(jīng)用Lidar實現(xiàn)了城市三維模型建立。Lidar直接測得帶有地理坐標(biāo)的密集點云,并不能直觀地給人們描述其所需要認(rèn)識的研究對象,為此往往需要對點云進(jìn)行一系列的處理,然后方能提取出人們想要得到的信息。
目前,關(guān)于點云的處理已經(jīng)有多種的流程和框架,其中點云分割技術(shù)就是期間重要的一步。通常只有在完成點云分割技術(shù)處理之后才能再進(jìn)行建模、三維建模。本研究中涉及的點云數(shù)據(jù)的建筑物重建技術(shù),從高度直方圖面元的分析中導(dǎo)出建筑物方位,并利用該方位產(chǎn)生點云的正交二維投影,其中屋頂平面作為點云的線。通過線跟蹤算法提取表示這些平面的線段。最后矯正偏差,重建模型[1]。
1 基于二維GIS數(shù)據(jù)的分割
良好的機載激光掃描點云數(shù)據(jù)集分割是應(yīng)用3D建筑模型生成方法的關(guān)鍵前提?;旧?,激光掃描點云數(shù)據(jù)的分割可以基于數(shù)據(jù)本身進(jìn)行,或者結(jié)合其他信息源,例如現(xiàn)有的2D GIS數(shù)據(jù)或高分辨率航空影像。
在理想條件下,可以在激光點云數(shù)據(jù)中檢測建筑物,執(zhí)行簡單的高度閾值處理,結(jié)合對數(shù)據(jù)集的每個點的第一個和最后一個的間隔差進(jìn)行分析。假設(shè)建筑物和樹木有著顯著大于地形的高度,第一個和最后一個點的間隔差在高植被覆蓋區(qū)域?qū)⒋嬖诿黠@差異[1]。如果應(yīng)用于原始數(shù)據(jù),則可通過TIN結(jié)構(gòu)中的連續(xù)性分析來檢測和分割建筑物。如果應(yīng)用于被壓縮到規(guī)則格網(wǎng)下的激光掃描儀的高度數(shù)據(jù),則該過程可以生成掩模用于數(shù)據(jù)中表示各個建筑物的切割點云。在具有非平坦地形的區(qū)域總,閾值處理的首位間隔差分法可以應(yīng)用于歸化數(shù)字表面模型,該模型基于濾波數(shù)字表面模型[2]。
如果只基于激光掃描儀數(shù)據(jù)獲得的分割質(zhì)量會受到數(shù)據(jù)集的復(fù)雜性限制。在具有相當(dāng)復(fù)雜地形的地區(qū),靠近建筑物的密集植被覆蓋區(qū)域或內(nèi)城區(qū),這類方法的成功率較低,從而限制了3D建筑模型自動生成方案的適用性。用于分割處理的信息主要來自于2D GIS數(shù)據(jù)。在大多數(shù)地區(qū),這類數(shù)據(jù)可以通過地籍?dāng)?shù)據(jù)或從數(shù)字化地圖獲得。該類型數(shù)據(jù)交互操作時已將注視加入原始數(shù)據(jù)源中,可靠性較高。另一方面,這種技術(shù)受限于地區(qū)二維GIS數(shù)據(jù)的完整性、精確性和可靠性以及更新頻率。此外,大部分基于此類數(shù)據(jù)的分割過程將不能用恢復(fù),并且多數(shù)不考慮房屋的突出部分。
在瑞士,分米級精度的數(shù)字二維地類數(shù)據(jù)可以在大多數(shù)地區(qū)使用。該數(shù)據(jù)用于研究區(qū)域內(nèi)機載激光掃描數(shù)據(jù)的分割。通過單獨處理每棟建筑物地平面多邊形并在多邊形中測試其包含的數(shù)據(jù)點來實現(xiàn)分割。由于研究區(qū)域的特點是建筑物具有大的屋頂懸垂,在每個多邊形周圍定義一個5米的緩沖區(qū),以便懸掛區(qū)域的屋頂點不被處理成噪音點(圖1)。同時,緩沖^域允許建模程序從包含地面在內(nèi)的泛化效應(yīng)恢復(fù)。該過程可通過ArcMap插件實現(xiàn)。在實際建筑物建模時消除包括緩沖區(qū)在內(nèi)的附加地面或植被點。接地點可以在建模時用于定義地形級別。連接的區(qū)段需要切斷緩沖區(qū),只有鄰近建筑物附近地面點可以在兩個區(qū)段之間共享。
2 基于二維GIS數(shù)據(jù)的方位分析
除了區(qū)域數(shù)據(jù)對點云數(shù)據(jù)進(jìn)行分割之外,還可以從實驗區(qū)域數(shù)據(jù)中到處支持建筑物建模過程的附加信息[3]。以及使用一種分割復(fù)雜實驗區(qū)域并使用這些部分來限制搜索區(qū)域并進(jìn)行三維霍夫變換以提取屋頂平面的技術(shù)[4]。
屋頂平面通過分割點云的特定正交二維投影和隨后的線檢測過程來檢測。這種方法需要建筑物方向的信息,其可以通過對高度直方圖元中的線搜索的結(jié)果分析,從激光掃描儀數(shù)據(jù)本身導(dǎo)出[5]。(圖2)。
在具有許多上部結(jié)構(gòu)的屋頂情況下,該過程可能產(chǎn)生不理想的結(jié)果。在這些情況下,從建筑物實驗區(qū)域?qū)С龅慕ㄖ锶∠蚩梢灾С治蓓斀?。為此,?zhí)行長度加權(quán)的方位角聚類分析,產(chǎn)生由地平面圖(圖3)中的最長線定義的建筑物的主方向。
從地平面導(dǎo)出的該建筑物方位角可以僅用于進(jìn)一步建模處理,或者可以用于驗證從高度直方圖面元分析導(dǎo)出的方位。由于上述過程在復(fù)雜地面計劃的情況下不會總是檢測到正確的主方向,因此后一種方法將產(chǎn)生更可靠的結(jié)果。在高度直方圖單元方向分析中的清晰最大值的情況下,最接近從高度單元導(dǎo)出的定向角的地平面取向被選擇為主要建筑物取向,而在高度直方圖單元方向分析的不理想結(jié)果的情況下,主要建筑方向是從實驗區(qū)域方向分析。
3 特定正交點云投影的建筑物建模
本文提出的三維建筑物模型自動建模的方法基本思想來源于注釋表示建筑物點云時,操作者的基本操作方式:用戶旋轉(zhuǎn)點云,正交投影平行于屋脊,來識別房屋結(jié)構(gòu)。屋頂平面在該投影中投影成線,從而允許識別平面的寬度和傾斜。這種面向用戶的交互過程在相應(yīng)的建筑建模方案中有細(xì)節(jié)描述[6]。
消除地面點噪音:
通過局部高度直方圖分析,利用在建筑物墻的高度范圍內(nèi)的直方圖最小值來消除來自分割過程的缺陷或從建筑物地平面周圍限定的緩沖器剩余的接地點,以導(dǎo)出高度閾值。
確定屋頂方向:
對于點云的特定正交2D投影所需的主要屋頂取向可以從高度直方圖面元分析或從如第3章中描述的地面平面的分析獲得。點云由建筑物旋轉(zhuǎn)方位并投影到XZ平面(圖4)。
通過與建筑物方位角相加90°來執(zhí)行進(jìn)入YZ平面的第二正交投影。 當(dāng)假定具有一個或兩個正交的屋脊方向的建筑物時,這兩個突起將以投影線顯示所有屋頂平面。可選擇性添加多個45°的投影以覆蓋更復(fù)雜的屋頂形狀。
2D投影中線的檢測:
在點云的2D投影中執(zhí)行線檢索,以便檢測表示屋頂面的線(圖5)。線檢索從接地點消除后的局部點云的最低點開始。如果在該點上方居中的框中,點的數(shù)量超過特定閾值,則使用魯棒性估計將線擬合到這些點中。 在下一步中,該線被外推以收集對該線有貢獻(xiàn)的附加點。如果最低點無法產(chǎn)生線,則返回并從下一點重新開始。
線的梯度和長度定義屋頂平面的傾斜度和寬度(圖6)。表示相鄰屋頂平面的線在點上相交。交叉點代表屋頂?shù)募?。在屋脊附近結(jié)束的提取線長度被縮短或延長到交點。
屋頂平面的生成:
屬于線的所有點旋轉(zhuǎn)屋頂傾角D,并投影到Y(jié)-Z平面中,在那里它們形成水平線。 該線的長度表示屋頂表面的長度。 圖7示出了從單個投影導(dǎo)出的屋頂面提取的3D多邊形。
非四邊形屋頂平面:
考慮到數(shù)據(jù)集的平均點密度(圖8),通過該過程產(chǎn)生的矩形屋頂面投影到X-Y平面內(nèi)點的條帶分析來檢查切除。
建筑模型生成:
在下一步驟中,各個平面可以結(jié)合屋頂結(jié)構(gòu)。此時會有,共享脊線的相鄰屋頂平面相交(圖7)。此外,源自兩個正交投影的平面必須相交。這就是屋頂?shù)慕!?/p>
在下一步驟中,通過將屋頂邊緣投影到地形模型上來重建建筑物的墻壁。為了簡單起見,選擇建筑物附近的最低點來表示建筑物足點高度。為了視覺目的,可以在墻壁的重建中考慮屋頂突出。如果有土地規(guī)劃信息可用,屋頂懸垂的大小可以從屋頂輪廓和土地規(guī)劃之間的差異導(dǎo)出?;蛘撸梢詮牡仄矫姹旧碇亟▔Ρ?。如果沒有可用的土地規(guī)劃信息,則可以假定為平均屋頂突出。
多邊形被分組到多面體建筑模型并被可視化(圖9)。
4 適用性檢測
第1-3部分所示的方法已在瑞士盧塞恩地形圖的激光掃描儀數(shù)據(jù)集上進(jìn)行了實際測試。 數(shù)據(jù)集特征為每1.5平方米一點的平均點密度和高度20cm的標(biāo)準(zhǔn)偏差。該數(shù)據(jù)集中,選擇了六個探測器,總共250個建筑物代表不同類型的建筑類型和建筑布置。 2D數(shù)字地籍?dāng)?shù)據(jù)可用于整個測試區(qū)域并且用于如上所述的分割和建筑物取向確定。
5 結(jié)果分析
在分段激光咼璧閽頻奶囟ㄕ交投影中,2D線檢索的方法已被證明是用于從機載激光掃描器數(shù)據(jù)生成3D建筑模型的通用且強大的途徑?,F(xiàn)有的2D GIS數(shù)據(jù)可以用作將激光掃描器數(shù)據(jù)分割成要通過該方法建模的單個建筑物局部點云的可靠工具。 2D GIS數(shù)據(jù)也可以用于通過定向假設(shè)生成來支持3D建筑重建過程。
成功重建的建筑物成功率在具有復(fù)雜建筑物的地區(qū)中為40-50%,在新建住宅區(qū)中接近100%。未來將擴展2D GIS數(shù)據(jù)的使用,以確定屋頂懸垂,改進(jìn)非四邊形屋頂平面的形狀確定和平面分組假設(shè)的生成。
參考文獻(xiàn):
[1]鐘良.LiDAR同機影像輔助點云分類相關(guān)技術(shù)研究[J].武漢大學(xué),2010,24(5).
[2]惠振陽.胡友健.基于LiDAR數(shù)字高程模型構(gòu)建的數(shù)學(xué)形態(tài)學(xué)濾波方法綜述[J].激光與光電子學(xué)進(jìn)展,2016(08).
[3]管海燕.LiDAR與影像結(jié)合的地物分類及房屋重建研究[D].武漢大學(xué),2009.
[4]楊斌.機載LiDAR點元數(shù)據(jù)建筑物半自動提取方法研究[J].遼寧工程技術(shù)大學(xué),2011.
[5]趙明波,何峻,田軍生,付強.基于改進(jìn)的漸進(jìn)多尺度數(shù)學(xué)形態(tài)學(xué)的激光雷達(dá)數(shù)據(jù)濾波方法[J].光學(xué)學(xué)報,2013(03).
[6]孫美玲,李永樹,陳強,蔡國林.基于迭代多尺度形態(tài)學(xué)開重建的城區(qū)LiDAR濾波方法[J].紅外與激光工程,2015(01).
[7]歐新良,匡小蘭,倪問尹.三維散亂點云分割技術(shù)綜述[J].湖南工業(yè)大學(xué)學(xué)報,2010,24(5).
[8]Shapiro L G,Sthockman G C,et puter Vision[M].Prentice Hall,2008.
熱門標(biāo)簽
數(shù)學(xué)論文 數(shù)學(xué)建模論文 數(shù)學(xué)論文 數(shù)學(xué)畢業(yè)論文 數(shù)學(xué)教學(xué)論文 數(shù)學(xué)教學(xué)案例 數(shù)學(xué)教育論文 數(shù)學(xué)文化論文 數(shù)學(xué)初二論文 數(shù)學(xué)教案 心理培訓(xùn) 人文科學(xué)概論
相關(guān)文章
2初中數(shù)學(xué)導(dǎo)學(xué)互動教學(xué)模式探討
3初中數(shù)學(xué)導(dǎo)學(xué)案教學(xué)研究