神經(jīng)網(wǎng)絡卷積層的作用范文
時間:2024-03-27 16:41:02
導語:如何才能寫好一篇神經(jīng)網(wǎng)絡卷積層的作用,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。
篇1
【關(guān)鍵詞】圖像分類深度 卷積神經(jīng)網(wǎng)絡 加權(quán)壓縮近鄰
1 研究背景
手寫數(shù)字識別是一個經(jīng)典的模式識別問題。從0 到9這10 個阿拉伯數(shù)字組成。由于其類別數(shù)比較小,它在些運算量很大或者比較復雜的算法中比較容易實現(xiàn)。所以,在模式識別中數(shù)字識別一直都是熱門的實驗對象。卷積神經(jīng)網(wǎng)絡 (Convolutional Neural Networks,CNN),在手寫體識別中有著良好的性能。卷積神經(jīng)網(wǎng)絡的神經(jīng)元是局部連接,神經(jīng)元之間能夠共享權(quán)值。深度卷積神經(jīng)網(wǎng)絡不但可以解決淺層學習結(jié)構(gòu)無法自動提取圖像特征的問題,并且提高了分類的泛化能力和準確度。
2 深度卷積神經(jīng)網(wǎng)絡
深度卷積神經(jīng)網(wǎng)絡是一種具有多層監(jiān)督的神經(jīng)網(wǎng)絡,隱含層中的卷積層和池采樣層是實現(xiàn)深度卷積神經(jīng)網(wǎng)絡提取特征的核心模塊,并通過使用梯度下降算法最小化損失函數(shù)來進行權(quán)重參數(shù)逐層反向調(diào)節(jié),再經(jīng)過迭代訓練提高分類精確度。
深度卷積神經(jīng)網(wǎng)絡的首層是輸入層,之后是若干個卷積層和若干個子采樣層和分類器。分類器一般采用Softmax,再由分類器去輸出相應的分類結(jié)果。正常情況下,一個卷積后面都跟一個子采樣層?;诰矸e層里權(quán)值共享和局部連接的特性,可以簡化網(wǎng)絡的樣本訓練參數(shù)。運算之后,獲得的結(jié)果通過激活函數(shù)輸出得到特征圖像,再將輸出值作為子采樣層的輸入數(shù)據(jù)。為了實現(xiàn)縮放、平移和扭曲保持不變,在子采樣層中將之前一層對應的特征圖中相鄰特征通過池化操作合并成一個特征,減少特征分辨率。這樣,輸入的數(shù)據(jù)就可以立即傳送到第一個卷積層,反復進行特征學習。將被標記的樣本輸入到Softmax分類器中。
CNN 能夠簡化網(wǎng)絡的樣本訓練參數(shù),降低計算難度。這些良好的性能是網(wǎng)絡在有監(jiān)督方式下學會的,網(wǎng)絡的結(jié)構(gòu)主要有局部連接和權(quán)值共享兩個特點:
2.1 局部連接
深度卷積神經(jīng)網(wǎng)絡中,層與層之間的神經(jīng)元節(jié)點是局部連接,不像BP 神經(jīng)網(wǎng)絡中的連接為全連接。深度卷積神經(jīng)網(wǎng)絡利用局部空間的相關(guān)性將相鄰層的神經(jīng)元節(jié)點連接相鄰的上一層神經(jīng)元節(jié)點。
2.2 權(quán)重共享
在深度卷積神經(jīng)網(wǎng)絡中,卷積層中每一個卷積濾波器共享相同參數(shù)并重復作用,卷積輸入的圖像,再將卷積的結(jié)果變?yōu)檩斎雸D像的特征圖。之后提取出圖像的部分特征。
在得到圖像的卷積特征之后,需要用最大池采樣方法對卷積特征進行降維。用若干個n×n 的不相交區(qū)域來劃分卷積特征,降維后的卷積特征會被這些區(qū)域中最大的或平均特征來表示。降維后的特征更方便進行分類。
3 實驗結(jié)果
為了驗證卷積神經(jīng)網(wǎng)絡的有效性,本實驗中使用以最經(jīng)典的MNIST 和USPS 庫這兩個識別庫作為評測標準。手寫數(shù)字MNIST數(shù)據(jù)庫有集60000 個訓練樣本集,和10000 個測試,每個樣本向量為28×28=784維表示。手寫數(shù)字USPS 數(shù)據(jù)庫含有7291 個訓練樣本和2007 個測試樣本,每個樣本向量為16×16=256 維。
表1給出了卷積神經(jīng)網(wǎng)絡在MNIST 和USPS 庫上的識別結(jié)果。從表1中可知,深度卷積神經(jīng)網(wǎng)絡對MNSIT 庫識別率能夠達到97.89%,與用BP 算法得到的識別率94.26%相比,提高了兩個多百分點。對USPS 庫識別率能夠達到94.34%,與用BP 算法得到的識別率91.28%相比,也提高了三個多百分點。
因此,使用深度卷積神經(jīng)網(wǎng)絡算法訓練在圖像識別中獲得更高識別率。因此,深度卷積神經(jīng)網(wǎng)絡在識別手寫體字符時有著較好的分類效果。
4 總結(jié)
本文介紹深度卷積神經(jīng)網(wǎng)絡的理論知識、算法技術(shù)和算法的結(jié)構(gòu)包括局部連接、權(quán)重共享、最大池采樣以及分類器Softmax。本文通過深度卷積神經(jīng)網(wǎng)絡對兩組手寫識別庫實驗來驗證CNN 有著較低的出錯率。
參考文獻
[1]趙元慶,吳華.多尺度特征和神經(jīng)網(wǎng)絡相融合的手寫體數(shù)字識別簡介[J].計算機科學,2013,40(08):316-318.
[2]王強.基于CNN的字符識別方法研究[D].天津師范大學,2014.
[3]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012,25(02),1097-1105.
[4]郝紅衛(wèi), 蔣蓉蓉.基于最近鄰規(guī)則的神經(jīng)網(wǎng)絡訓練樣本選擇方法[J].自動化學報,2007,33(12):1247-1251.
作者簡介
關(guān)鑫(1982-),男,黑龍江省佳木斯市人。碩士研究生學歷?,F(xiàn)為中國電子科技集團公司第五十四研究所工程師。研究方向為計算機軟件工程。
篇2
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡;語言模型;分析
1 卷積神經(jīng)網(wǎng)絡語言模型
CNN語言模型基本結(jié)構(gòu)包括輸入層、卷積層、池化層及后續(xù)的分類層。輸入層是表示語言的矩陣,該矩陣可以是通過Google word2vec或GloVe預訓練得到的詞嵌入表示,也可以是從原始數(shù)據(jù)重新訓練的語言的向量表示。輸入層之后是通過線性濾波器對輸入矩陣進行卷積操作的卷積層。在NLP問題中,輸入矩陣總是帶有固定順序的結(jié)構(gòu),因為矩陣的每一行都表示離散的符號,例如單詞或者詞組等。因此,使用等寬的濾波器是非常合理的設(shè)置。在這種設(shè)置下,僅需要考慮濾波器的高度既可以實現(xiàn)不同尺寸的濾波器做卷積操作。由此可知,在處理NLP問題時,卷積神經(jīng)網(wǎng)絡的濾波器尺寸一般都是指濾波器的高度。
然后,將卷積層輸出的特征映射輸入池化層,通過池化函數(shù)為特征映射進行降維并且減少了待估計參數(shù)規(guī)模。一般的,CNN池化操作采用1-max池化函數(shù)。該函數(shù)能夠?qū)⑤斎氲奶卣饔成浣y(tǒng)一生成維度相同的新映射。通過池化操作,可以將卷積層生成的特征連接成更抽象的高級特征,所得到的高級特征尺寸與輸入的句子不再存在直接關(guān)系。
最后,將得到的高級特征輸入softmax分類層進行分類操作。在softmax層,可以選擇應用dropout策略作為正則化手段,該方法是隨機地將向量中的一些值設(shè)置為0。另外還可以選擇增加l2范數(shù)約束,l2范數(shù)約束是指當它超過該值時,將向量的l2范數(shù)縮放到指定閾值。在訓練期間,要最小化的目標是分類的交叉熵損失,要估計的參數(shù)包括濾波器的權(quán)重向量,激活函數(shù)中的偏置項以及softmax函數(shù)的權(quán)重向量。
2 卷積神經(jīng)網(wǎng)絡語言模型應用分析
CNN語言模型已經(jīng)廣泛應用于諸如文本分類,關(guān)系挖掘以及個性化推薦等NLP任務,下面將對這些應用進行具體的介紹與分析。
2.1 CNN在文本分類中的應用分析
kim提出了利用CNN進行句子分類的方法。該方法涉及了較小規(guī)模的參數(shù),并采用靜態(tài)通道的CNN實現(xiàn)了效果很優(yōu)異的句子分類方法。通過對輸入向量的調(diào)整,進一步提高了性能實現(xiàn)了包括情感極性分析以及話題分類的任務。在其基礎(chǔ)上為輸入的詞嵌入設(shè)計了兩種通道,一種是靜態(tài)通道,另一種是動態(tài)通道。在卷積層每一個濾波器都通過靜態(tài)與動態(tài)兩種通道進行計算,然后將計算結(jié)果進行拼接。在池化層采用dropout正則化策略,并對權(quán)值向量進行l(wèi)2約束。最后將該算法應用于MR、SST-1與SST-2、Subj、TREC、CR以及MPQA等數(shù)據(jù)集。MR數(shù)據(jù)集為電影評論數(shù)據(jù)集,內(nèi)容為一句話的電影評論,其分類包括積極情感極性與消極情感極性兩類。SST-1與SST-2數(shù)據(jù)集為斯坦福情感樹庫是MR數(shù)據(jù)集的擴展,但該數(shù)據(jù)集已經(jīng)劃分好了訓練集、驗證集及測試集并給出了細粒度的標記,標記包括非常積極、積極、中性、消極、非常消極等情感極性。Subj數(shù)據(jù)集為主觀性數(shù)據(jù)集,其分類任務是將句子分為主觀句與客觀句兩類。TREC數(shù)據(jù)集為問題數(shù)據(jù)集,其分類任務是將所有問題分為六類,例如關(guān)于數(shù)字、人物或位置等信息的問題。CR數(shù)據(jù)集為評論數(shù)據(jù)集,包括客戶對MP3、照相機等數(shù)碼產(chǎn)品的評論,其分類任務是將其分為積極評價與消極評價兩類。MPQA數(shù)據(jù)集是意見極性檢測任務數(shù)據(jù)集。通過實驗證明,該方法在這幾個典型數(shù)據(jù)集上都能取得非常優(yōu)異的效果。
2.2 CNN在關(guān)系挖掘中的應用分析
Shen等人提出了一種新的潛在語義模型,以詞序列作為輸入,利用卷積-池化結(jié)構(gòu)為搜索查詢和Web文檔學習低維語義向量表示。為了在網(wǎng)絡查詢或網(wǎng)絡文本中捕捉上下文結(jié)構(gòu),通過輸入單詞序列上下文時間窗口中的每個單詞來獲取詞匯級的n-gram語法特征,將這些特征聚合成句子級特征向量。最后,應用非線性變換來提取高級語義信息以生成用于全文字符串的連續(xù)向量表示。該模型的不同之處在于,輸入層與卷積層之間加入了word-n-gram層與letter-trigram層,它們能夠?qū)⑤斎氲脑~序列轉(zhuǎn)變?yōu)閘etter-trigram表示向量。在卷積層通過上下文特征窗口發(fā)現(xiàn)相鄰單詞的位置特征,并變現(xiàn)為n-gram形式。然后通過max池化將word-n-gram特征合并為句子級的高級特征。在池化層之后增加了語義層來提取更高級的語義表示向量。
2.3 CNN在個性化推薦中的應用分析
Weston等人提出了一種能夠利用標簽(hashtag)有監(jiān)督的學習網(wǎng)絡帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。該方法利用提出的CNN模型在55億詞的大數(shù)據(jù)文本上通過預標注的100,000標簽進行訓練。該方法除了標簽預測任務本身能取得好的效果外,學習到的特征對于其它的文本表示任務也能起到非常有效的作用。該模型與其它的詞嵌入模型類似,輸入層為表示文本的矩陣,但是,在用查找表表示輸入文本的同時將標簽也使用查找表來表示。對于給定的文檔利用10萬條最頻繁出現(xiàn)的標簽通過評分函數(shù)對任何給定的主題標簽進行排序。
其中,econv(w)表示CNN的輸入文檔,elt(t)是候選標簽t的詞嵌入表示。因此,通過對分數(shù)f(w,t)進行排序可以獲取所有候選主題標簽中排序第一的話題進行推薦。實驗數(shù)據(jù)集采用了兩個大規(guī)模語料集,均來自流行的社交網(wǎng)絡文本并帶有標簽。第一個數(shù)據(jù)集稱作people數(shù)據(jù)集,包括搜集自社交網(wǎng)絡的2億1000萬條文本,共含有55億單詞。第二個數(shù)據(jù)集被稱作pages,包括3530萬條社交網(wǎng)絡文本,共含有16億單詞,內(nèi)容包括企業(yè)、名人、品牌或產(chǎn)品。
3 結(jié)束語
卷積神經(jīng)網(wǎng)絡應用于語言模型已經(jīng)取得了非常大的發(fā)展,對于自然語言處理中的各項任務均取得了優(yōu)異的結(jié)果。本文通過對幾項典型工作的分析,探討了不同卷積神經(jīng)網(wǎng)絡模型結(jié)構(gòu)在不同任務中的表現(xiàn)。通過綜合分析可以得出以下結(jié)論。首先,CNN的輸入采用原始數(shù)據(jù)訓練的向量表示一般效果會優(yōu)于預訓練的詞嵌入表示;其次,在卷積層濾波器的尺寸一般采用寬度與輸入矩陣寬度相等的設(shè)置;最后,為了優(yōu)化結(jié)果可以采用dropout正則化處理。
篇3
(廣東外語外貿(mào)大學 金融學院,廣東 廣州 510006)
摘 要:作為一個具有巨大應用前景研究方向,深度學習無論是在算法研究,還是在實際應用(如語音識別,自然語言處理、計算機視覺)中都表現(xiàn)出其強大的潛力和功能.本文主要介紹這種深度學習算法,并介紹其在金融領(lǐng)域的領(lǐng)用.
關(guān)鍵詞 :深度學習;受限波茲曼機;堆棧自編碼神經(jīng)網(wǎng)絡;稀疏編碼;特征學習
中圖分類號:TP181 文獻標識碼:A 文章編號:1673-260X(2015)01-0037-03
1 深度學習的研究意義
深度學習是一類新興的多層神經(jīng)網(wǎng)絡學習算法,因其緩解了傳統(tǒng)訓練算法的局部最小性,引起機器學習領(lǐng)域的廣泛關(guān)注.深度學習的特點是,通過一系列邏輯回歸的堆棧作為運算單元,對低層數(shù)據(jù)特征進行無監(jiān)督的再表示(該過程稱為預學習),形成更加抽象的高層表示(屬性類別或特征),以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示.深度學習的這種特性由于與腦神經(jīng)科學理論相一致,因此被廣泛應用于語音識別、自然語言處理和計算機視覺等領(lǐng)域.
生物學研究表明[1]:在生物神經(jīng)元突觸的輸出變化與輸入脈沖的持續(xù)時間有關(guān),即依賴于持續(xù)一定時間的輸入過程,輸出信號既依賴于輸入信號的空間效應和閾值作用,也依賴于時間總和效應.
傳統(tǒng)的深度學習方法雖然較好地模擬了生物神經(jīng)元的一個重要特性——空間總和效應上的深度,卻忽視了生物神經(jīng)元的另一個重要特性——時間總和效應上的寬度[2].因此,對于連續(xù)的時間變量問題(如語音識別),傳統(tǒng)深度學習方法只能將連續(xù)的時間函數(shù)關(guān)系轉(zhuǎn)化為空間關(guān)系,即離散化為時間序列進行處理.這樣做有幾個弊端:
(1)可能造成深度學習算法對時間采樣頻率的十分敏感,魯棒性較差.這使得,不同時間尺度下,需要使用不同的數(shù)據(jù)和算法.這無疑是十分不方便的;
(2)導致深度網(wǎng)絡規(guī)模過大,使得計算開銷增大、學習效果變差、泛化性能降低;
(3)難以滿足實際應用對算法的實時性的要求,更難以體現(xiàn)連續(xù)輸入信息的累積效應,大大降低深度學習算法的實用性.
因此,對傳統(tǒng)的深度學習算法進行改進,使其不但具有“深度”,亦能具有“寬度”,能夠?qū)B續(xù)時變數(shù)據(jù)進行更好的特征提取、提高算法效率和實用性,顯得勢在必行.基于這個切入點,本項目借鑒時頻分析與小波分析中的方法,結(jié)合數(shù)學分析領(lǐng)域中的泛函分析技術(shù),與堆棧自編碼神經(jīng)網(wǎng)絡相結(jié)合,提出一種新的深度學習算法——深度泛函網(wǎng)絡.為了驗證算法的有效性及優(yōu)越性,本項目將把新算法應用于金融時間序列的領(lǐng)域.
在目前國內(nèi)外對于深度學習的研究中,幾乎沒有任何將深度學習技術(shù)運用于金融數(shù)據(jù)的研究.通過提出并運用得當?shù)纳疃刃蛄袑W習方法,我們期望從金融數(shù)據(jù)中抽取更高級的、具有經(jīng)濟學意義或預測性意義的高級特征(與人工設(shè)計的“技術(shù)指標”相對應),并開發(fā)相應的量化交易策略,并與其它傳統(tǒng)算法進行對比,以說明所提算法的可行性和優(yōu)越性.
2 國內(nèi)外研究現(xiàn)狀
人類感知系統(tǒng)具有的層次結(jié)構(gòu),能夠提取高級感官特征來識別物體(聲音),因而大大降低了視覺系統(tǒng)處理的數(shù)據(jù)量,并保留了物體有用的結(jié)構(gòu)信息.對于要提取具有潛在復雜結(jié)構(gòu)規(guī)則的自然圖像、視頻、語音和音樂等結(jié)構(gòu)豐富數(shù)據(jù),人腦獨有的結(jié)構(gòu)能夠獲取其本質(zhì)特征[3].受大腦結(jié)構(gòu)分層次啟發(fā),神經(jīng)網(wǎng)絡研究人員一直致力于多層神經(jīng)網(wǎng)絡的研究.訓練多層網(wǎng)絡的算法以BP算法為代表,其由于局部極值、權(quán)重衰減等問題,對于多于2個隱含層的網(wǎng)絡的訓練就已較為困難[4],這使得實際應用中多以使用單隱含層神經(jīng)網(wǎng)絡居多.
該問題由Hinton[5]所引入的逐層無監(jiān)督訓練方法所解決.具體地,該法對深度神經(jīng)網(wǎng)絡中的每一層貪婪地分別進行訓練:當前一層被訓練完畢后,下一層網(wǎng)絡的權(quán)值通過對該層的輸入(即前一層的輸出)進行編碼(Encoding,詳見下文)而得到.當所有隱含層都訓練完畢后,最后將使用有監(jiān)督的方法對整個神經(jīng)網(wǎng)絡的權(quán)值再進行精確微調(diào).在Hinton的原始論文中,逐層貪婪訓練是通過受限波茲曼機(Restricted Boltzmann Machine,RBM)以及相對應的對比散度方法(Contrastive Divergence)完成的.與通常的神經(jīng)元不同,RBM是一種概率生成模型,通常被設(shè)計為具有二元輸入-輸出(稱為Bernoulli-Bernoulli RBM).通過對每一層的受限波茲曼機進行自底向上的堆棧(如圖1),可以得到深度信念網(wǎng)(Deep Belief Network,DBN).
除了生成式的RBM,還有其他的深度學習結(jié)構(gòu)被廣泛使用和研究.如堆棧自編碼神經(jīng)網(wǎng)絡(Stacked Auto-Encoder Network,SAEN)[6],以及深度卷積神經(jīng)網(wǎng)絡(Deep Convolutional Network)[7]等.前者的優(yōu)勢在于可以簡單地采用通常的BP算法進行逐層預訓練,并且引入隨機化過程的抗噪聲自編碼網(wǎng)絡(Denoising SAEN)泛化性能甚至超過DBN[8];而后者則通過權(quán)值共享結(jié)構(gòu)減少了權(quán)值的數(shù)量,使圖像可以直接作為輸入,對平移、伸縮、傾斜等的變形具有高度不變性,因此在圖像識別領(lǐng)域有著廣泛應用.
近年來,稀疏編碼(Sparse Encoding)和特征學習(Feature Learning)成為了深度學習領(lǐng)域較為熱門的研究方向.B.A.Olshausen[9]等針對人腦的視覺感知特性,提出稀疏編碼的概念.稀疏編碼算法是一種無監(jiān)督學習方法,它用來尋找一組“過完備”的基向量來更高效地表示輸入數(shù)據(jù)的特征,更有效地挖掘隱含在輸入數(shù)據(jù)內(nèi)部的特征與模式.針對稀疏編碼的求解問題,H.Lee等在2007年提出了一種高效的求解算法[10],該算法通過迭代地求解兩個不同的凸規(guī)劃問題以提高效率.同年,H.Lee等發(fā)現(xiàn),當訓練樣本為圖像時,對DBN的訓練進行稀疏性的約束有利于算法學習到更高級的特征[11].例如,對手寫識別數(shù)據(jù)集進行訓練時,稀疏性約束下的DBN算法自主學習到了“筆畫”的概念.
基于[10,11]的研究成果,R.Raina等[12]提出了“自導師學習(Self-Taught Learning)”的概念.與無監(jiān)督學習(Unsupervised Learning)和半監(jiān)督學習(Semi-supervised Learning)不同,自導師學習利用大量易獲得的無標簽數(shù)據(jù)(可以來自不同類別甚至是未知類別),通過稀疏編碼算法來構(gòu)建特征的高級結(jié)構(gòu),并通過支持向量機(Support Vector Machine,SVM)作為最終層分類器對少數(shù)有標簽數(shù)據(jù)進行分類.這種更接近人類學習方式的模式極大提高了有標簽數(shù)據(jù)的分類準確度.與之類似,H.Lee,R.Grosse等[13]提出了一種具有層次結(jié)構(gòu)的特征學習算法.該算法將卷積神經(jīng)網(wǎng)絡與DBN結(jié)合,并通過稀疏正則化(Sparsity Regularization)的手段無監(jiān)督地學習層次化的特征表征.圖像識別實驗表明,該算法能夠自主學習得出“物體(Object Parts)”的概念,較好體現(xiàn)了人腦視覺感知的層次性和抽象性.
3 發(fā)展趨勢
由于信號處理、語音識別、金融時間序列分析、視頻分析等領(lǐng)域的實時應用需求,研究能夠處理連續(xù)時變變量、自然體現(xiàn)時間聯(lián)系結(jié)構(gòu)的深度學習算法(即深度序列學習,Deep Sequence Learning)成為了新的研究熱點.G.W.Taylor,G.E.Hinton等[14]提出時間受限波茲曼機(Temporal RBM,TRBM).該模型使用二值隱含元和實值可視元,并且其隱含元和可視元可以與過去一段歷史的可視元之間可以有向地被相連.同時,該模型被用于人類動作識別,并展現(xiàn)出了優(yōu)秀的性能.針對TRBM的一些不足,一些改進算法也不斷涌現(xiàn),如[15,16].然而,該類深度學習模型雖然考慮了動態(tài)的時間變量之間的聯(lián)系,但依然只能處理離散時間問題,本質(zhì)上還是屬于轉(zhuǎn)化為空間變量的化歸法.同時,在自編碼網(wǎng)絡框架下,依然缺乏較好解決時間過程(序列)問題的方案.
4 金融時序數(shù)據(jù)中的應用
傳統(tǒng)金融理論認為,金融市場中的證券價格滿足伊藤過程,投資者無法通過對歷史數(shù)據(jù)的分析獲得超額利潤.然而,大量實證研究卻表明,中國股票價格波動具有長期記憶性,拒絕隨機性假設(shè),在各種時間尺度上都存在的可以預測的空間.因此,如何建立預測模型,對于揭示金融市場的內(nèi)在規(guī)律,這無論是對于理論研究,還是對于國家的經(jīng)濟發(fā)展和廣大投資者,都具有重要的意義.
股票市場是一個高度復雜的非線性系統(tǒng),其變化既有內(nèi)在的規(guī)律性,同時也受到市場,宏觀經(jīng)濟環(huán)境,以及非經(jīng)濟原因等諸多因素的影響.目前國內(nèi)外對證券價格進行預測的模型大致分為兩類:一是以時間序列為代表的統(tǒng)計預測模型;該類方法具有堅實的統(tǒng)計學基礎(chǔ),但由于金融價格數(shù)據(jù)存在高噪聲、波動大、高度非線性等特征,使得該類傳統(tǒng)方法無法提供有效的工具.另一類是以神經(jīng)網(wǎng)絡、支持向量機等模型為代表的數(shù)據(jù)挖掘模型.該類模型能夠處理高度非線性的數(shù)據(jù),基本上從擬合的角度建模.雖然擬合精度較高,但擬合精度的微小誤差往往和市場波動互相抵消,導致無法捕捉獲利空間甚至導致?lián)p失,外推預測效果無法令人滿意.因此,建立即能夠處理非線性價格數(shù)據(jù),又有良好泛化能力的預測模型勢在必行.
——————————
參考文獻:
〔1〕Zhang L I, Tao H W, Holt C E, et al. A critical window for cooperation and competition among developing retinotectal synapses[J]. Nature, 1998, 395(6697).
〔2〕37-44.歐陽楷,鄒睿.基于生物的神經(jīng)網(wǎng)絡的理論框架——神經(jīng)元模型[J].北京生物醫(yī)學工程,1997,16(2):93-101.
〔3〕Rossi A F, Desimone R, Ungerleider L G. Contextual modulation in primary visual cortex of macaques[J]. the Journal of Neuroscience, 2001, 21(5): 1698-1709.
〔4〕Bengio Y. Learning deep architectures for AI[J]. Foundations and trends? in Machine Learning, 2009, 2(1):1-127.
〔5〕Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.
〔6〕Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 1096-1103.
〔7〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.
〔8〕Vincent P, Larochelle H, Lajoie I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. The Journal of Machine Learning Research, 2010, 9999: 3371-3408.
〔9〕Olshausen B A, Field D J. Sparse coding with an overcomplete basis set: A strategy employed by V1?[J]. Vision research, 1997, 37(23): 3311-3325.
〔10〕Lee H, Battle A, Raina R, et al. Efficient sparse coding algorithms[J]. Advances in neural information processing systems, 2007, 19: 801.
〔11〕Lee H, Ekanadham C, Ng A Y. Sparse deep belief net model for visual area V2[C]//NIPS. 2007, 7: 873-880.
〔12〕Raina R, Battle A, Lee H, et al. Self-taught learning: transfer learning from unlabeled data[C]//Proceedings of the 24th international conference on Machine learning. ACM, 2007: 759-766.
〔13〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.
〔14〕Taylor G W, Hinton G E, Roweis S T. Modeling human motion using binary latent variables[J]. Advances in neural information processing systems, 2007, 19: 1345.
篇4
【摘要】 目的建立了一種無損的、可在線快速測定斯普林注射液中核糖和多肽含量的新方法。方法采用光譜儀掃描不同批次的斯普林注射液樣品的紫外光譜,然后采用經(jīng)典的分析方法測定對應樣品中核糖和多肽的含量,應用徑向基神經(jīng)網(wǎng)絡(RBFNN)建立了斯普林注射液樣品的紫外光譜與其中核糖和多肽含量間的定量關(guān)系模型。通過選擇最有效的光譜預處理方法、網(wǎng)絡的最優(yōu)拓撲結(jié)構(gòu)參數(shù)和最佳擴展常數(shù)對模型進行最優(yōu)化。結(jié)果應用最優(yōu)模型對斯普林注射液預測集樣品中核糖和多肽含量,預測均方根誤差(RMSEP)分別為0.013 2和0.013 8。結(jié)論 紫外光譜方法測定斯普林注射液中核糖和多肽含量,預測精度高,方法簡便可行,且多組分可同時測定,為測定中藥組分含量提供了一條新途徑。
【關(guān)鍵詞】 紫外光譜 徑向基神經(jīng)網(wǎng)絡 斯普林注射液
斯普林注射液(小牛脾提取物注射液)是用于提高機體免疫力的藥物。從健康小牛健康脾臟中提取的高活性的分子多肽物能刺激骨髓肝細胞增殖,升高外周血白細胞,促進造血功能的恢復,有效地緩解化療藥物所導致的血細胞減少、出血等副作用,而且能激活機體免疫系統(tǒng),明顯地減輕患者疼痛,有效緩解化療所導致的惡心、嘔吐,恢復患者體力,改善睡眠,穩(wěn)定情緒,增加食欲,提高患者生活質(zhì)量[1]。李霞等[2]對貴州少數(shù)民族地區(qū)的住院治療的88例晚期腫瘤病人進行了斯普林與參麥注射液對照治療觀察,結(jié)果顯示斯普林對晚期癌癥病人全身狀況改善方面有較好的輔助治療。斯普林注射液主要有效成分為核糖和多肽,而這些主成分常規(guī)分析方法主要為Folin酚法、高效液相色譜法[3]、凱氏定氮法[4],分光光度法[5]等,這些方法均需要對樣品進行預處理,需要很多有機試劑,操作繁瑣,本文采用紫外光譜結(jié)合徑向基神經(jīng)網(wǎng)絡[6](RBFNN)建立快速無損定量分析斯普林注射液中核糖和多肽含量的新方法。
1 器材
1.1 儀器 紫外可見近紅外分光光度計(UV-3150,日本島津公司)。
1.2 試劑與材料 斯普林注射液(吉林馬應龍制藥有限公司,中國);D-核糖;三氯醋酸;牛血清白蛋白。
2 方法與結(jié)果
2.1 紫外光譜的采集 采用紫外可見近紅外分光光度計對不同批次的斯普林注射液40個樣品進行紫外光譜掃描,光譜波長范圍設(shè)為200~400 nm,光譜通帶寬度設(shè)置為2 nm,每個樣品掃描3次,取平均光譜作為該樣品的光譜。斯普林注射液紫外光譜如圖 1,本文采用RBFNN建立斯普林注射液樣品紫外光譜與其中的核糖和多肽含量間的定量分析模型,應用所建立的模型可同時測定斯普林注射液樣品中核糖和多肽的含量,該方法具有簡單、快捷、無污染和無預處理等優(yōu)點。
圖1 斯普林注射液樣品紫外光譜
2.2 核糖含量的測定 精密稱取D-核糖適量,用5%三氯醋酸溶液溶解制成20 μg/ml的標準溶液。分別精密移取0.5,1.0,1.5,2.0和2.5 ml的標準溶液于具塞試管中,用5%三氯醋酸溶液定容至2 ml各加入3,5-二羥基甲苯溶液2.0 ml,搖勻,水浴中準確加熱30 min,迅速冷卻,于650 nm波長處測定吸光度,標準曲線回歸方程為Y=22.080X-0.008,R2=0.997。精密移取2 ml供試品液,按照標準曲線制備的方法測定不同批次斯普林注射液樣品中核糖含量。表1 各樣品集中核糖和多肽含量的統(tǒng)計
2.3 多肽含量的測定 采用Folin酚法測定斯普林注射液中多肽含量,以牛血清白蛋白為標準品繪制標準曲線,曲線回歸方程為Y=1.369 9X-0.013 3,R2=0.996,線性范圍為0.025~0.250 mg/ml。
斯普林注射液樣品中核糖和多肽含量統(tǒng)計見表1。
2.4 徑向基神經(jīng)網(wǎng)絡定量分析模型的建立采用卷積平滑、一階導數(shù)、二階導數(shù)和標準正態(tài)變量轉(zhuǎn)換(SNV)分別對所有斯普林注射液樣品的紫外光譜進行預處理,然后采用主成分析方法對原始光譜和預處理后光譜矩陣進行主成分分析(PCA),根據(jù)第一主成分與第二主成分得分作圖,將樣品分為校正集、預測集和驗證集樣品,以主成分得分作為RBFNN網(wǎng)絡的輸入節(jié)點,以“2.2”項和“2.3”項所測得的核糖和多肽含量為輸出節(jié)點,建立測定斯普林注射液中核糖和多肽含量的定量分析模型,為了避免模型出現(xiàn)過擬和,本實驗引進逼近度(Da)為模型優(yōu)化參數(shù),對模型輸入節(jié)點數(shù)、隱含節(jié)點數(shù)和擴展常數(shù)進行優(yōu)化,逼近度(Da)的計算方法如式(1)和(2):
ea=[ncn]ec+[nvn]ev+│ec-ev│ (1)
Da=cea(2)
式中ea,ec,ev分別是逼近誤差、校正集均方根誤差(RMSEC)和驗證均方根誤差(RMSEV),n, nc, nv,分別為樣品總數(shù)、校正集樣品數(shù)和驗證集樣品數(shù)。C是常數(shù)(本文中C取0.000 1),主要以調(diào)整Da大小方便于作圖,模型的預測能力以預測均方根誤差(RMSEP)來評價,RMSEC,RMSEV和RMSEP的算法可參考文獻[7]。
2.5 徑向基神經(jīng)網(wǎng)絡模型的優(yōu)化
2.5.1 光譜預處理方法的選擇 分別采用一階導數(shù)、二階導數(shù)、卷積平滑光譜和SNV光譜預處理方法對斯普林注射液樣品的原光譜進行預處理,然后應用PCA的方法對原始光譜和各預處理后的光譜進行主成分提取,以主成分得分作為輸入節(jié)點建立測定斯普林注射液樣品中核糖和多肽含量的定量分析模型,各光譜所建立的最優(yōu)模型的性能參數(shù)列于(表2),由表 2而可以看出,在測定核糖含量時,采用一階導數(shù)光譜所建立的模型的RMSEC,RMSEP和RMSEV最小,同時它具有最大的Da值,而在測定多肽含量時,采用SNV光譜所建立的模型的RMSEC,RMSEP和RMSEV最小,Da值也為最大值,因此確定測定核糖和多肽含量時,最有效的光譜預處理方法分別為一階導數(shù)光譜法和SNV方法。表2 原始光譜及不同預處理后光譜所建立的測定核糖和多肽含量最優(yōu)模型的性能參數(shù)
2.5.2 光譜輸入節(jié)點數(shù)的選擇 采用PCA方法對光譜進行分析,提取光譜前20主成分,分別以前3~20主成分的得分作為RBFNN的輸入節(jié)點,為了避免模型出現(xiàn)過擬合的現(xiàn)象,以逼近度(Da)為評價標準,考察輸入節(jié)點數(shù)對模型性能的影響見圖2,由圖 2可以看出,在測定核糖合多肽含量時候,最佳的輸入節(jié)點數(shù)分別為10和13。
圖2 輸入節(jié)點數(shù)對測定斯普林注射液中核糖與多肽
含量的定量分析模型的RMSEC,RMSEV和Da的影響
2.5.3 隱含節(jié)點數(shù)的選擇 RBFNN是從0個神經(jīng)元開始訓練,通過檢查輸出誤差使網(wǎng)絡自動增加神經(jīng)元,直到誤差達到要求或是最大隱含層神經(jīng)元數(shù)為止。隱含節(jié)點太少,擬合不充分;隱含節(jié)點增加得過多會過擬合。所以本文以Da為模型優(yōu)化的標準,選出最合適的隱含層節(jié)點數(shù)。圖 3是在最不同隱含節(jié)點數(shù)對Da的影響,由圖 3可以看出測定核糖和多肽模型的最佳隱含節(jié)點數(shù)均為19。
圖3 隱含節(jié)點數(shù)對測定斯普林注射液中核糖
與多肽含量的定量分析模型的RMSEC,RMSEV和Da的影響
2.5.4 擴展常數(shù)的選擇 擴展常數(shù)的大小關(guān)系到擬合函數(shù)變化的快慢,從而影響模型的擬合程度,以Da為標準,考察擴展常數(shù)在0.3~9范圍內(nèi)對模型的影響,以選擇合適的擴展常數(shù),結(jié)果如圖 4所示,由圖 4可以看出,在測定斯普林注射液樣品中的核糖和多肽含量時模型最適的擴展常數(shù)分別為0.6和1.2。
2.6 最優(yōu)模型的建立 采用RBFNN結(jié)合紫外光譜建立測定斯普林注射液樣品中核糖和多肽含量的定量分析模型,模型經(jīng)過選擇最有效的光譜預處理方法、最適的輸入節(jié)點數(shù)、隱含節(jié)點數(shù)和擴展常數(shù),得到最優(yōu)的模型,應用最優(yōu)的模型預測各樣品集的核糖和多肽含量,預測值與化學測量值間的相關(guān)性如圖 5,由圖 5可以看出預測值與化學測量值吻合的很好,說明該方法可行。
2.7 最優(yōu)模型對預測集樣品的預測 采用“2.6”項中所建立的最優(yōu)模型對預測集樣品中的核糖和多肽含量進行預測,預測均方根誤差(RMSEP)分別為0.013 2和0.013 8,預測值和真實值列于表 3,計算預測值與真實值間的絕對誤差和樣品回收率,由表 3可以看出,核糖含量的預測值與真實值間絕對誤差不大于0.023,平均回收率為101.224%,而多肽預測值間的絕對誤差不大于0.033,平均回收率為101.651%,說明預測值與真實值吻合的比較好,模型預測能滿足要求。表3 最優(yōu)模型對預測集樣品中核糖和多肽含量預測值與真實值統(tǒng)計結(jié)果
3 討論
本實驗應用徑向基神經(jīng)網(wǎng)絡結(jié)合紫外光譜建立了測定斯普林注射液中核糖和多肽含量的定量分析模型,文中引進逼近度作為模型優(yōu)化的參數(shù),可有效地避免模型發(fā)生過擬合現(xiàn)象。模型經(jīng)過優(yōu)化后,對預測集樣品中的多肽和核糖含量進行預測,預測均方根誤差(RMSEP)達到0.0132和0.0138,說明模型具有很高的預測精度,可應用于斯普林注射液質(zhì)量監(jiān)測。
本實驗方便快捷,不需有機試劑,無污染,操作簡單,并可兩組分同時檢測,質(zhì)量準確,可應用于斯普林注射液生產(chǎn)的質(zhì)量檢測和在線監(jiān)控。
【參考文獻】
[1] 張吉鳳, 趙 雷, 夏大文. 斯普林對小鼠免疫功能影響的研究[J].中華腫瘤防治雜志, 2005, 12(7):519.
[2] 李 霞, 張 萍, 杜迎春, 等. 斯普林改善晚期惡性腫瘤全身狀況的療效觀察[J].腫瘤, 2005, 25(6):633.
[3] 張津楓, 王健剛, 鄧國才, 等. 葡萄糖發(fā)酵液D-核糖含量的高效液相色譜分析[J].高等學?;瘜W學報, 2001, 22(1):43.
[4] 呂偉仙, 葛 瀅, 吳健之, 等. 植物中硝態(tài)氮、氨態(tài)氮、總氮測定方法的比較研究[J].光譜學與光譜分析, 2004, 24(2):204.
[5] 陳蓮惠, 劉紹璞, 劉忠芳, 等. 堿性二苯基萘基甲烷染料褪色光度法測定透明質(zhì)酸鈉[J].分析化學, 2004, 32(5):698.
[6] 毛利鋒, 沈 明, 程翼宇. 毛細管電泳徑向基神經(jīng)網(wǎng)絡校正法定量分析核苷[J].化學學報, 2004, 62(19):1917.
篇5
關(guān)鍵詞: 受限玻爾茲曼機; 深度模型; 隱藏單元; 學習方法
中圖分類號:TP391 文獻標志碼:A 文章編號:1006-8228(2014)11-10-04
RBM learning method comparison
Lu Ping, Chen Zhifeng, Shi Lianmin
(Dept. of Information, Suzhou Institute of Trade & Commerce, Suzhou, Jiangsu 215009, China)
Abstract: With the deep learning on the breakthrough of models, algorithms and theory studies, models based on Boltzmann machine have been used in many areas in recent years, such as target recognition and natural language processing. The concept of Boltzmann machine is presented. The restricted Boltzmann machine's advantage is also pointed out. In this paper, the learning method of RBM is described in detail and some typical learning algorithms widely used are compared. The study on learning algorithms will still be a core issue in deep learning area.
Key words: RBM; depth model; hidden units; learning method
0 引言
當前深度學習(deep learning)作為機器學習中新興的代表,由于其具有能夠處理大規(guī)模的數(shù)據(jù)、自動提取有意義的特征、完成數(shù)以百萬計的自由參數(shù)的學習等諸多淺層模型所無法匹敵的能力,而受到各領(lǐng)域的廣泛關(guān)注。目前深度學習模型已經(jīng)被逐漸應用于圖像分類、目標識別、自然語言處理、數(shù)據(jù)挖掘等各類應用中。當前的深度模型,如深度信念網(wǎng)絡(deep belief net,DBN)、深度玻爾茲曼機(deep Boltzmann machine, DBM)等均采用的是由受限玻爾茲曼機(restricted Boltzmann machine,RBM)堆疊而成。在RBM中,可見層各單元之間與隱藏層各單元之間無連接的拓樸結(jié)構(gòu)使得其模型相對簡單,參數(shù)學習相對容易,因此使用RBM作為構(gòu)建深度模型的基礎(chǔ)結(jié)構(gòu)單元成為研究人員的最佳選擇。雖然深度學習模型還有堆疊自動編碼器(stacked auto encoders)、卷積神經(jīng)網(wǎng)絡(convolutional neural net,CNN)等,但由于以RBM為核心的結(jié)構(gòu)在深度模型中占據(jù)著核心的地位,因此本文主要關(guān)注于RBM的模型結(jié)構(gòu)與其中的學習方法。
1 玻爾茲曼機概述
1.1 玻爾茲曼機
玻爾茲曼機(Boltzmann machine, BM)是源于物理學的一種基于能量函數(shù)的建模方法,能夠描述變量的高層相互作用。雖然BM中學習算法復雜,但其模型與算法有完備的物理解釋與數(shù)理統(tǒng)計理論基礎(chǔ)。Hinton與Sejnowski最早將BM模型引入人工神經(jīng)網(wǎng)絡中,用于自動提取數(shù)據(jù)的內(nèi)在特征表示。將BM作為單層反饋網(wǎng)絡時,具有與Hopfield網(wǎng)絡類似的對稱權(quán)值,且每個單元與自已無連接。網(wǎng)絡由可見層與隱藏層組成,對應的網(wǎng)絡節(jié)點也可以分為可見單元(visible unit)與隱藏單元(hidden unit),每個單元不存在自回路,圖1給出了BM的示意圖。
圖1 BM模型結(jié)構(gòu)示意圖
由于其中樣本分布服從玻爾茲曼分布故命名為BM ,BM由二值單元構(gòu)成,各單元的狀態(tài)隨機,且只可取0或1兩種狀態(tài),1指代單元處于激活(on)狀態(tài),0則指代此單元處于斷開(off)狀態(tài)。由于每個單元僅有2種狀態(tài)si={0,1},因此網(wǎng)絡的總的能量函數(shù)為:
⑴
其中wij為神經(jīng)元i與j之間的連接權(quán)重,θi為神經(jīng)元i的閾值。神經(jīng)元i狀態(tài)為0與1所產(chǎn)生的能量的差值則可表示為:
⑵
si=1的概率為:
⑶
其中T為系統(tǒng)的溫度。相應的,si=0的概率則為:
⑷
由式(3)/式(4)可得:
⑸
進一步將上式推廣到網(wǎng)絡中任意兩個全局狀態(tài)α與β,有:
⑹
此即為玻爾茲曼分布的表達式。
1.2 受限玻爾茲曼機
由于BM的模型結(jié)構(gòu)復雜,學習時間很長,而且無法確切地計算BM所表示的分布,甚至獲得BM表示分布的隨機樣本也非常困難。為此,Smolensky提出了受限玻爾茲曼機(restricted Boltzmann machine, RBM)模型,其結(jié)構(gòu)如圖2所示。與一般BM相比,RBM具有更優(yōu)的性質(zhì):在給定可見層單元輸入時,各隱藏層單元的激活條件獨立;反之亦然。這樣盡管RBM所表示的分布仍無法有效計算,但卻可以通過Gibbs采樣獲得服從RBM分布的隨機樣本。
圖2 RBM模型結(jié)構(gòu)示意圖
RBM也可以被看作為一個無向圖(undirected graph)模型,其中v為可見層,用于表示輸入數(shù)據(jù),h為隱藏層,可以看作為特征提取器,W為兩層間對稱的連接權(quán)重。若一個RBM中可見層單元數(shù)為n,隱藏層單元數(shù)為m,用向量V與h分別表示可見層與隱藏層的狀態(tài),當狀態(tài)(v,h)給定時,與BM類似,則RBM中的能量定義為:
⑺
其中wij為可見單元i與隱藏單元j之間的連接權(quán)重,ai為可見單元i的偏置,bj為隱藏單元j的偏置。θ={wij,ai,bj}指代RBM中所有參數(shù)集。當θ確定時,則可根據(jù)式⑺的能量函數(shù)獲得(v,h)的聯(lián)合概率為:
⑻
其中z(θ)為保證P(v,h|θ)成為概率分布的歸一化項,也稱為劃分函數(shù)。若可見單元服從某種概率分布,根據(jù)RBM的給定可見單元時各隱藏單元激活狀態(tài)獨立的條件,可獲得隱藏單元為1的條件概率為:
⑼
同理,若令隱藏單元服從某種概率分布,可見單元向量v為1的條件概率分布為:
(10)
因此可以獲得在給定可見單元向量v時隱藏單元j的條件概率及給定隱藏單元向量h時可見單元i為1的條件概率分布為:
(11)
其中,為sigmoid激活函數(shù)。
2 RBM中的學習
為了學習RBM中的參數(shù)集θ,以擬合給定的訓練數(shù)據(jù),可以通過最大化RBM在訓練集上的對數(shù)似然函數(shù)而獲得,假設(shè)訓練集中樣本數(shù)為T,有:
(12)
這樣獲得最優(yōu)的參數(shù)θ*則可以采用隨機梯度上升法求得使的最大值,為此,對logP(v(t)|θ)求參數(shù)θ的偏導數(shù)有:
(13)
其中為求關(guān)于分布P的數(shù)學期望。由于訓練樣本已知,所以上式中前一項期望易求得,但對于P(h,v|θ)需要求得隱藏單元與可見單元的聯(lián)合分布,由于劃分函數(shù)Z(θ)的存在,無法直接計算,而只能采用一些采樣方法獲得其近似值。若分別用與指代P(h|v(t),θ)和P(h,v|θ)分布,則對式(13)中關(guān)于連接權(quán)重Wij,可見單元偏置ai和隱藏單元偏置bj的偏導數(shù)分別為:
(14)
RBM的學習過程可以分為正階段與負階段兩個步驟。在正階段,可見單元狀態(tài)取訓練輸入樣本值,經(jīng)采樣得到隱藏單元。在負階段中,從當前模型采樣得到可見單元與隱藏單元狀態(tài),重建可見單元狀態(tài)。BM的學習即通過調(diào)節(jié)連接權(quán)重,使得模型定義的概率分布P-(va)與訓練樣本集定義的概率P+(va)一致,如果采用K-L散度度量兩個概率的近似程度:
(15)
當且僅當P+(va)=P-(va)時,G=0,即兩個分布完全一致。這樣可以通過不斷調(diào)節(jié)連接權(quán)重來使模型確定的概率分布與數(shù)據(jù)概率分布的K-L散度盡可能接近。RBM的學習步驟如下:
⑴ 隨機設(shè)定網(wǎng)絡的初始連接權(quán)重wij(0)與初始高溫;
⑵ 按照已知概率P(va)依次給定訓練樣本,在訓練樣本的約束下按照SA算法運行網(wǎng)絡到平衡狀態(tài),統(tǒng)計,同樣在無約束條件下按同樣的步驟運行網(wǎng)絡相同次數(shù),統(tǒng)計;
⑶ 修改各個連接權(quán)重:wij(k+1)=wij(k)+Δwij。
重復上面的步驟,直到-小于某個閾值,獲得合適的權(quán)重。
3 RBM學習方法對比
當前在對RBM的研究中,典型的學習方法有Gibbs采樣(Gibbs sampling)算法,變分近似方法(variational approach),對比散度 (contrastive divergence,CD)算法,模擬退火 (simulate annealing) 算法等。下面對這些方法進行對比。
3.1 Gibbs采樣算法
Gibbs采樣(Gibbs sampling)算法是一種基于馬爾可夫鏈蒙特卡羅(Markov Chain Monte Carlo, MCMC)策略的采樣方法。給定一個N維的隨機向量X=(X1,X2,…,XN),若直接求取X的聯(lián)合分布P(X1,X2,…,XN)非常困難,但如果可以在給定其他分量時,求得第k個分量的條件分布P(Xk|Xk-),其中Xk-=(X1,X2,…,Xk-1,Xk+1,…,XN)指代排除Xk的其他N-1維的隨機向量,則可以從X的一個任意狀態(tài)[x1(0),x2(0),…,xk(0)]開始,利用條件分布,對各分量依次迭代采樣。隨著采樣次數(shù)增加,隨機變量[x1(n),x2(n),…,xk(n)]將會以幾何級數(shù)的速度收斂于聯(lián)合分布P(X1,X2,…,XN)。在訓練RBM的迭代過程中,可以設(shè)置一個收斂到模型分布的馬爾可夫鏈,將其運行到平衡狀態(tài)時,用馬爾可夫鏈近似期望值。
使用Gibbs采樣算法具有通用性好的優(yōu)點,但是由于每次迭代中都需要馬爾可夫鏈達到極限分布,而Gibbs采樣收斂度緩慢,需要很長的時間,因此也限制了其應用。
3.2 變分方法
變分方法(variational approach)的基本思想是通過變分變換將概率推理問題轉(zhuǎn)換為一個變分優(yōu)化問題。對于比較困難的概率推理問題,對應的變分優(yōu)化問題通常也缺乏有效的精確解法,但此時可以對變分優(yōu)化問題進行適當?shù)乃沙?,借助于迭代的方法,獲得高效的近似解。在變分學習中,對每個訓練樣本可見單元向量v,用近似后驗分布q(h|v,μ)替換隱藏單元向量上的真實后驗分布p(h|v,θ),則RBM模型的對數(shù)似然函數(shù)有下面形式的變分下界:
(16)
其中H(?)為熵函數(shù)。
使用變分法的優(yōu)勢在于,它能夠在實現(xiàn)最大化樣本對數(shù)似然函數(shù)的同時,最小化近似后驗分布與真實后驗分布之間的K-L距離。若采用樸素平均場方法,選擇完全可因式分解化的分布來近似真實后驗分布:,其中q(hj=1)=μj,訓練樣本的對數(shù)似然函數(shù)的下界有如下的形式:
(17)
采用交替優(yōu)化的方式,首先固定參數(shù)θ,最大化上式學習變分參數(shù)μ,得到不平均場不動點方程:
(18)
接下來,再給定變分參數(shù)μ,采用Gibbs采樣法與模擬退火方法等其他方法更新模型參數(shù)θ。在實際使用中,使用變分方法能夠很好地估計數(shù)據(jù)期望,但由于式(17)中的負號會改變變分參數(shù),使得近似后驗分布與真實后驗分布的K-L距離增大,因此將其用來近似模型期望時不適用。
3.3 對比散度算法
對比散度(contrastive divergence, CD)學習方法由Hinton提出,能夠有效地進行RBM學習,而且能夠避免求取對數(shù)似然函數(shù)梯度的麻煩,因此在基于RBM構(gòu)建的深度模型中廣泛使用。CD算法使用估計的概率分布與真實概率分布之間K-L距離作為度量準則。在近似的概率分布差異度量函數(shù)上求解最小化。執(zhí)行CD學習算法時,對每個批次的各訓練樣本運行n步Gibbs采樣,使用得到的樣本計算。則連接權(quán)重的CD梯度近似為:
(19)
其中pn為n步Gibbs采樣后獲得的概率分布。通常在使用中只需要取n=1即可以進行有效的學習,因此在使用中較為方便。但CD算法隨著訓練過程的進行與參數(shù)的增加,馬爾可夫鏈的遍歷性將會下降,此時算法對梯度的近似質(zhì)量也會退化。
3.4 模擬退火算法(Simulated Annealing)
模擬退火算法是對Gibbs采樣算法的改進,由于Gibbs采樣收斂速度緩慢,因此模擬退火算法采用有索引溫度參數(shù)的目標分布進行采樣,其核心思想是模擬多個不同的溫度并行運行多個MCMC鏈,每個MCMC鏈在一個有序序列溫度ti上,且t0=1
4 結(jié)束語
隨機深度神經(jīng)網(wǎng)絡的興起,借助RBM來學習深層網(wǎng)絡逐漸成為了研究的主流,作為深度網(wǎng)絡的基礎(chǔ)單元結(jié)構(gòu)―RBM,也成為深度學習領(lǐng)域中的核心,它為人們解決各類問題提供了一種強有力的工具。本文對RBM的基本模型進行簡要介紹,并對RBM的各種學習方法進行對比分析。目前RBM的各種學習算法仍各有利弊,尚未有滿足各種場合要求的學習方法。因此,進一步研究如何有效減少計算復雜性,簡化網(wǎng)絡拓撲結(jié)構(gòu),以及快速有效的RBM學習方法仍將在深度學習模型中占據(jù)重要的地位。
參考文獻:
[1] 李海峰,李純果.深度學習結(jié)構(gòu)和算法比較分析[J].河北大學學報(自
然科學版),2012.32(5):538-544
[2] Salakhutdinov R, Hinton G E. An efficient learning procedure for
deep Boltzmann machines[J]. Neural Computation,2012.24(8):1967-2006
[3] 孫志軍,薛磊,許陽明,王正.深度學習研究綜述[J].計算機應用研究,
2012.29(8):2806-2810.
[4] 鄭胤,陳權(quán)峰,章毓晉.深度學習及其在目標和行為識別中的新進展[J].
中國圖象圖形學報,2014.19(2):175-184
[5] 程強,陳峰,董建武,徐文立.概率圖模型中的變分近似推理方法[J].自
動化學報,2012.38(11):1721-1734
[6] Geoffrey E. Hinton,Simon Osindero,Yee-Whye T eh. A fast
learning algorithm for deep belief nets[J]. Neural Computation,2006.18(7):1527-1554
[7] Ruslan Salakhutdinov,Geoffrey Hinton. Deep Boltzmann Machines[J].
JMLR W&CP,2009.5:448-455
篇6
1.人臉識別管理的優(yōu)劣勢分析
人臉識別技術(shù)是通過生物特征進行識別的技術(shù),通過識別每個人的臉部特征,將采集的圖像與系統(tǒng)的圖像庫信息進行比對,實現(xiàn)識別的目的。其有3個優(yōu)點,一是非接觸性,被考勤人員不需要和相關(guān)設(shè)備直接接觸,而指紋采集和一卡通刷卡則必須接觸設(shè)備;二是非強制性,只要出現(xiàn)在人臉采集的特定區(qū)域時,設(shè)備便會主動采集信息;三是并發(fā)性,若在特定區(qū)域同時出現(xiàn)多人時,可以將全部人臉信息記錄。人臉識別技術(shù)也有缺點,一是容易受到光線環(huán)境的影響,若光線過強或嚴重不足都會影響人臉信息的采集;二是易受到頭發(fā)、飾物遮擋的影響,有可能造成采集人像的不完整,導致比對信息失敗。這些確定會在一定程度上影響數(shù)據(jù)采集的準確性,會造成比對結(jié)果的判斷不準確,但隨著人臉識別技術(shù)算法的不斷更新,精確度也會得以提升。
2.人臉識別的關(guān)鍵技術(shù)
1)人臉關(guān)鍵點檢測
人臉關(guān)鍵點檢測是在人臉檢測的基礎(chǔ)上,自動確定人臉各關(guān)鍵點的位置,如眼角、瞳孔、鼻尖、嘴角等。不能忽視了初始狀態(tài)對關(guān)鍵點檢測的影響。采用基于深度初始化網(wǎng)絡的人臉關(guān)鍵點檢測算法,能夠有效克服初始位置、人臉姿態(tài)、表情等因素對關(guān)鍵點檢測精度的影響,從而得到人臉各關(guān)鍵點的準確位置。
2)人臉紋理正規(guī)化
將不同光照、姿態(tài)或表情的人臉,還原至良好光照、正面和無表情的人臉,減小待匹配人臉圖片與信息庫中人臉圖片的差異,從而降低特征提取和識別的難度。在光照嚴重不足或太過強烈、角度過大、表情夸張的情況下,如果強行改變光照強度、旋轉(zhuǎn)至正面人臉、還原至正常表情,必然會引入大量“非自然”信息,使得正規(guī)化的人臉產(chǎn)生畸變、扭曲和紋理缺失。這樣不僅不會對人臉識別產(chǎn)生幫助,反而會降低其性能。可以借鑒人臉合成和生成對抗網(wǎng)絡的方法,通過初始數(shù)據(jù)庫的搭建、紋理正規(guī)化網(wǎng)絡的構(gòu)建以及網(wǎng)絡的融合訓練,實現(xiàn)一個端到端的、由數(shù)據(jù)驅(qū)動的紋理正規(guī)化網(wǎng)絡和特征識別網(wǎng)絡。它能夠在提取深度特征的過程中,自適應地根據(jù)人臉識別的任務對人臉的紋理進行光照、姿態(tài)和表情的正規(guī)化,從而達到提高人臉識別性能的目的。
3)人臉特征提取
基于深層卷積神經(jīng)網(wǎng)絡,通過融合人臉多尺度特征信息,獲取高層語義特征表達,提升人臉特征的區(qū)分性。促使同一個人的人臉特征表達具有更高的相似性,不同人臉的特征表達相似度更低。
4)人臉特征比對
針對人臉識別中經(jīng)常遇見的跨場景人臉識別問題,如待驗證照片與現(xiàn)場照片非同源、年齡跨度大、分辨率和角度差異明顯等問題,采取自適應學習方法。通過算法縮小不同場景圖像之間的數(shù)據(jù)分布差異,將不同場景的人臉圖像映射到同一個具有更好表達能力的特征空間進行比較,從而保證同一個人的人臉特征表達具有更高的相似性分數(shù),不同人臉的特征相似性分數(shù)更低。
3.人臉識別管理系統(tǒng)的功能模塊
1)基礎(chǔ)數(shù)據(jù)的獲取
初始化數(shù)據(jù)是整個系統(tǒng)運行的基礎(chǔ),可以將學生的基本信息整體導入系統(tǒng),特別是身份證的完整信息,包含證件照。給學生管理人員開放權(quán)限,可供查詢、修改、刪除數(shù)據(jù)等維護功能?;拘畔⒅薪Y(jié)構(gòu)和屬性字段比較簡單的部分直接導入,對于哪個時間段是正常簽到、遲到、早退、曠課、晚歸等,需要進行單獨標明。同時也需要將人臉識別設(shè)備和教室信息進行綁定,條件允許的情況下,各教室配備一臺識別設(shè)備。若成本過高,則可考慮每層樓配備一臺設(shè)備,將每層樓的教室信息與設(shè)備綁定。
2)教務系統(tǒng)的接入
考勤數(shù)據(jù)是基于每學期的課程安排和作息時間安排,在此之上增加學生的出勤狀態(tài)。通過教務系統(tǒng)的接入,直接獲取班級的排課情況,并將作息時間安排一并導入,則可通過數(shù)據(jù)的對接,實現(xiàn)考勤情況的記錄。
3)識別數(shù)據(jù)日志
數(shù)據(jù)日志用于記錄學生到教師或者宿舍樓的時間點,與基礎(chǔ)數(shù)據(jù)中的導入的身份證照片、學號、班級等信息建立對應關(guān)系。因此,當人臉識別設(shè)備識別到信息是,便會登記采集數(shù)據(jù)的時間,通過與基礎(chǔ)數(shù)據(jù)庫的信息之間的綁定關(guān)系,記錄下采集數(shù)據(jù)時的圖像、學號、日期、時間、識別設(shè)備、教室等信息。
熱門標簽
神經(jīng)內(nèi)科論文 神經(jīng)外科 神經(jīng)網(wǎng)絡論文 神經(jīng)內(nèi)科 神經(jīng)科護理室 神經(jīng) 神經(jīng)科學 神經(jīng)元 神經(jīng)病學 神經(jīng)疾病 心理培訓 人文科學概論