神經(jīng)網(wǎng)絡(luò)卷積層的作用范文

時(shí)間:2024-03-27 16:41:02

導(dǎo)語:如何才能寫好一篇神經(jīng)網(wǎng)絡(luò)卷積層的作用,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公文云整理的十篇范文,供你借鑒。

神經(jīng)網(wǎng)絡(luò)卷積層的作用

篇1

【關(guān)鍵詞】圖像分類深度 卷積神經(jīng)網(wǎng)絡(luò) 加權(quán)壓縮近鄰

1 研究背景

手寫數(shù)字識別是一個(gè)經(jīng)典的模式識別問題。從0 到9這10 個(gè)阿拉伯?dāng)?shù)字組成。由于其類別數(shù)比較小,它在些運(yùn)算量很大或者比較復(fù)雜的算法中比較容易實(shí)現(xiàn)。所以,在模式識別中數(shù)字識別一直都是熱門的實(shí)驗(yàn)對象。卷積神經(jīng)網(wǎng)絡(luò) (Convolutional Neural Networks,CNN),在手寫體識別中有著良好的性能。卷積神經(jīng)網(wǎng)絡(luò)的神經(jīng)元是局部連接,神經(jīng)元之間能夠共享權(quán)值。深度卷積神經(jīng)網(wǎng)絡(luò)不但可以解決淺層學(xué)習(xí)結(jié)構(gòu)無法自動(dòng)提取圖像特征的問題,并且提高了分類的泛化能力和準(zhǔn)確度。

2 深度卷積神經(jīng)網(wǎng)絡(luò)

深度卷積神經(jīng)網(wǎng)絡(luò)是一種具有多層監(jiān)督的神經(jīng)網(wǎng)絡(luò),隱含層中的卷積層和池采樣層是實(shí)現(xiàn)深度卷積神經(jīng)網(wǎng)絡(luò)提取特征的核心模塊,并通過使用梯度下降算法最小化損失函數(shù)來進(jìn)行權(quán)重參數(shù)逐層反向調(diào)節(jié),再經(jīng)過迭代訓(xùn)練提高分類精確度。

深度卷積神經(jīng)網(wǎng)絡(luò)的首層是輸入層,之后是若干個(gè)卷積層和若干個(gè)子采樣層和分類器。分類器一般采用Softmax,再由分類器去輸出相應(yīng)的分類結(jié)果。正常情況下,一個(gè)卷積后面都跟一個(gè)子采樣層。基于卷積層里權(quán)值共享和局部連接的特性,可以簡化網(wǎng)絡(luò)的樣本訓(xùn)練參數(shù)。運(yùn)算之后,獲得的結(jié)果通過激活函數(shù)輸出得到特征圖像,再將輸出值作為子采樣層的輸入數(shù)據(jù)。為了實(shí)現(xiàn)縮放、平移和扭曲保持不變,在子采樣層中將之前一層對應(yīng)的特征圖中相鄰特征通過池化操作合并成一個(gè)特征,減少特征分辨率。這樣,輸入的數(shù)據(jù)就可以立即傳送到第一個(gè)卷積層,反復(fù)進(jìn)行特征學(xué)習(xí)。將被標(biāo)記的樣本輸入到Softmax分類器中。

CNN 能夠簡化網(wǎng)絡(luò)的樣本訓(xùn)練參數(shù),降低計(jì)算難度。這些良好的性能是網(wǎng)絡(luò)在有監(jiān)督方式下學(xué)會(huì)的,網(wǎng)絡(luò)的結(jié)構(gòu)主要有局部連接和權(quán)值共享兩個(gè)特點(diǎn):

2.1 局部連接

深度卷積神經(jīng)網(wǎng)絡(luò)中,層與層之間的神經(jīng)元節(jié)點(diǎn)是局部連接,不像BP 神經(jīng)網(wǎng)絡(luò)中的連接為全連接。深度卷積神經(jīng)網(wǎng)絡(luò)利用局部空間的相關(guān)性將相鄰層的神經(jīng)元節(jié)點(diǎn)連接相鄰的上一層神經(jīng)元節(jié)點(diǎn)。

2.2 權(quán)重共享

在深度卷積神經(jīng)網(wǎng)絡(luò)中,卷積層中每一個(gè)卷積濾波器共享相同參數(shù)并重復(fù)作用,卷積輸入的圖像,再將卷積的結(jié)果變?yōu)檩斎雸D像的特征圖。之后提取出圖像的部分特征。

在得到圖像的卷積特征之后,需要用最大池采樣方法對卷積特征進(jìn)行降維。用若干個(gè)n×n 的不相交區(qū)域來劃分卷積特征,降維后的卷積特征會(huì)被這些區(qū)域中最大的或平均特征來表示。降維后的特征更方便進(jìn)行分類。

3 實(shí)驗(yàn)結(jié)果

為了驗(yàn)證卷積神經(jīng)網(wǎng)絡(luò)的有效性,本實(shí)驗(yàn)中使用以最經(jīng)典的MNIST 和USPS 庫這兩個(gè)識別庫作為評測標(biāo)準(zhǔn)。手寫數(shù)字MNIST數(shù)據(jù)庫有集60000 個(gè)訓(xùn)練樣本集,和10000 個(gè)測試,每個(gè)樣本向量為28×28=784維表示。手寫數(shù)字USPS 數(shù)據(jù)庫含有7291 個(gè)訓(xùn)練樣本和2007 個(gè)測試樣本,每個(gè)樣本向量為16×16=256 維。

表1給出了卷積神經(jīng)網(wǎng)絡(luò)在MNIST 和USPS 庫上的識別結(jié)果。從表1中可知,深度卷積神經(jīng)網(wǎng)絡(luò)對MNSIT 庫識別率能夠達(dá)到97.89%,與用BP 算法得到的識別率94.26%相比,提高了兩個(gè)多百分點(diǎn)。對USPS 庫識別率能夠達(dá)到94.34%,與用BP 算法得到的識別率91.28%相比,也提高了三個(gè)多百分點(diǎn)。

因此,使用深度卷積神經(jīng)網(wǎng)絡(luò)算法訓(xùn)練在圖像識別中獲得更高識別率。因此,深度卷積神經(jīng)網(wǎng)絡(luò)在識別手寫體字符時(shí)有著較好的分類效果。

4 總結(jié)

本文介紹深度卷積神經(jīng)網(wǎng)絡(luò)的理論知識、算法技術(shù)和算法的結(jié)構(gòu)包括局部連接、權(quán)重共享、最大池采樣以及分類器Softmax。本文通過深度卷積神經(jīng)網(wǎng)絡(luò)對兩組手寫識別庫實(shí)驗(yàn)來驗(yàn)證CNN 有著較低的出錯(cuò)率。

參考文獻(xiàn)

[1]趙元慶,吳華.多尺度特征和神經(jīng)網(wǎng)絡(luò)相融合的手寫體數(shù)字識別簡介[J].計(jì)算機(jī)科學(xué),2013,40(08):316-318.

[2]王強(qiáng).基于CNN的字符識別方法研究[D].天津師范大學(xué),2014.

[3]Krizhevsky A,Sutskever I,Hinton G E.ImageNet Classification with Deep Convolutional Neural Networks.Advances in Neural Information Processing Systems,2012,25(02),1097-1105.

[4]郝紅衛(wèi), 蔣蓉蓉.基于最近鄰規(guī)則的神經(jīng)網(wǎng)絡(luò)訓(xùn)練樣本選擇方法[J].自動(dòng)化學(xué)報(bào),2007,33(12):1247-1251.

作者簡介

關(guān)鑫(1982-),男,黑龍江省佳木斯市人。碩士研究生學(xué)歷?,F(xiàn)為中國電子科技集團(tuán)公司第五十四研究所工程師。研究方向?yàn)橛?jì)算機(jī)軟件工程。

篇2

關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);語言模型;分析

1 卷積神經(jīng)網(wǎng)絡(luò)語言模型

CNN語言模型基本結(jié)構(gòu)包括輸入層、卷積層、池化層及后續(xù)的分類層。輸入層是表示語言的矩陣,該矩陣可以是通過Google word2vec或GloVe預(yù)訓(xùn)練得到的詞嵌入表示,也可以是從原始數(shù)據(jù)重新訓(xùn)練的語言的向量表示。輸入層之后是通過線性濾波器對輸入矩陣進(jìn)行卷積操作的卷積層。在NLP問題中,輸入矩陣總是帶有固定順序的結(jié)構(gòu),因?yàn)榫仃嚨拿恳恍卸急硎倦x散的符號,例如單詞或者詞組等。因此,使用等寬的濾波器是非常合理的設(shè)置。在這種設(shè)置下,僅需要考慮濾波器的高度既可以實(shí)現(xiàn)不同尺寸的濾波器做卷積操作。由此可知,在處理NLP問題時(shí),卷積神經(jīng)網(wǎng)絡(luò)的濾波器尺寸一般都是指濾波器的高度。

然后,將卷積層輸出的特征映射輸入池化層,通過池化函數(shù)為特征映射進(jìn)行降維并且減少了待估計(jì)參數(shù)規(guī)模。一般的,CNN池化操作采用1-max池化函數(shù)。該函數(shù)能夠?qū)⑤斎氲奶卣饔成浣y(tǒng)一生成維度相同的新映射。通過池化操作,可以將卷積層生成的特征連接成更抽象的高級特征,所得到的高級特征尺寸與輸入的句子不再存在直接關(guān)系。

最后,將得到的高級特征輸入softmax分類層進(jìn)行分類操作。在softmax層,可以選擇應(yīng)用dropout策略作為正則化手段,該方法是隨機(jī)地將向量中的一些值設(shè)置為0。另外還可以選擇增加l2范數(shù)約束,l2范數(shù)約束是指當(dāng)它超過該值時(shí),將向量的l2范數(shù)縮放到指定閾值。在訓(xùn)練期間,要最小化的目標(biāo)是分類的交叉熵?fù)p失,要估計(jì)的參數(shù)包括濾波器的權(quán)重向量,激活函數(shù)中的偏置項(xiàng)以及softmax函數(shù)的權(quán)重向量。

2 卷積神經(jīng)網(wǎng)絡(luò)語言模型應(yīng)用分析

CNN語言模型已經(jīng)廣泛應(yīng)用于諸如文本分類,關(guān)系挖掘以及個(gè)性化推薦等NLP任務(wù),下面將對這些應(yīng)用進(jìn)行具體的介紹與分析。

2.1 CNN在文本分類中的應(yīng)用分析

kim提出了利用CNN進(jìn)行句子分類的方法。該方法涉及了較小規(guī)模的參數(shù),并采用靜態(tài)通道的CNN實(shí)現(xiàn)了效果很優(yōu)異的句子分類方法。通過對輸入向量的調(diào)整,進(jìn)一步提高了性能實(shí)現(xiàn)了包括情感極性分析以及話題分類的任務(wù)。在其基礎(chǔ)上為輸入的詞嵌入設(shè)計(jì)了兩種通道,一種是靜態(tài)通道,另一種是動(dòng)態(tài)通道。在卷積層每一個(gè)濾波器都通過靜態(tài)與動(dòng)態(tài)兩種通道進(jìn)行計(jì)算,然后將計(jì)算結(jié)果進(jìn)行拼接。在池化層采用dropout正則化策略,并對權(quán)值向量進(jìn)行l(wèi)2約束。最后將該算法應(yīng)用于MR、SST-1與SST-2、Subj、TREC、CR以及MPQA等數(shù)據(jù)集。MR數(shù)據(jù)集為電影評論數(shù)據(jù)集,內(nèi)容為一句話的電影評論,其分類包括積極情感極性與消極情感極性兩類。SST-1與SST-2數(shù)據(jù)集為斯坦福情感樹庫是MR數(shù)據(jù)集的擴(kuò)展,但該數(shù)據(jù)集已經(jīng)劃分好了訓(xùn)練集、驗(yàn)證集及測試集并給出了細(xì)粒度的標(biāo)記,標(biāo)記包括非常積極、積極、中性、消極、非常消極等情感極性。Subj數(shù)據(jù)集為主觀性數(shù)據(jù)集,其分類任務(wù)是將句子分為主觀句與客觀句兩類。TREC數(shù)據(jù)集為問題數(shù)據(jù)集,其分類任務(wù)是將所有問題分為六類,例如關(guān)于數(shù)字、人物或位置等信息的問題。CR數(shù)據(jù)集為評論數(shù)據(jù)集,包括客戶對MP3、照相機(jī)等數(shù)碼產(chǎn)品的評論,其分類任務(wù)是將其分為積極評價(jià)與消極評價(jià)兩類。MPQA數(shù)據(jù)集是意見極性檢測任務(wù)數(shù)據(jù)集。通過實(shí)驗(yàn)證明,該方法在這幾個(gè)典型數(shù)據(jù)集上都能取得非常優(yōu)異的效果。

2.2 CNN在關(guān)系挖掘中的應(yīng)用分析

Shen等人提出了一種新的潛在語義模型,以詞序列作為輸入,利用卷積-池化結(jié)構(gòu)為搜索查詢和Web文檔學(xué)習(xí)低維語義向量表示。為了在網(wǎng)絡(luò)查詢或網(wǎng)絡(luò)文本中捕捉上下文結(jié)構(gòu),通過輸入單詞序列上下文時(shí)間窗口中的每個(gè)單詞來獲取詞匯級的n-gram語法特征,將這些特征聚合成句子級特征向量。最后,應(yīng)用非線性變換來提取高級語義信息以生成用于全文字符串的連續(xù)向量表示。該模型的不同之處在于,輸入層與卷積層之間加入了word-n-gram層與letter-trigram層,它們能夠?qū)⑤斎氲脑~序列轉(zhuǎn)變?yōu)閘etter-trigram表示向量。在卷積層通過上下文特征窗口發(fā)現(xiàn)相鄰單詞的位置特征,并變現(xiàn)為n-gram形式。然后通過max池化將word-n-gram特征合并為句子級的高級特征。在池化層之后增加了語義層來提取更高級的語義表示向量。

2.3 CNN在個(gè)性化推薦中的應(yīng)用分析

Weston等人提出了一種能夠利用標(biāo)簽(hashtag)有監(jiān)督的學(xué)習(xí)網(wǎng)絡(luò)帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。該方法利用提出的CNN模型在55億詞的大數(shù)據(jù)文本上通過預(yù)標(biāo)注的100,000標(biāo)簽進(jìn)行訓(xùn)練。該方法除了標(biāo)簽預(yù)測任務(wù)本身能取得好的效果外,學(xué)習(xí)到的特征對于其它的文本表示任務(wù)也能起到非常有效的作用。該模型與其它的詞嵌入模型類似,輸入層為表示文本的矩陣,但是,在用查找表表示輸入文本的同時(shí)將標(biāo)簽也使用查找表來表示。對于給定的文檔利用10萬條最頻繁出現(xiàn)的標(biāo)簽通過評分函數(shù)對任何給定的主題標(biāo)簽進(jìn)行排序。

其中,econv(w)表示CNN的輸入文檔,elt(t)是候選標(biāo)簽t的詞嵌入表示。因此,通過對分?jǐn)?shù)f(w,t)進(jìn)行排序可以獲取所有候選主題標(biāo)簽中排序第一的話題進(jìn)行推薦。實(shí)驗(yàn)數(shù)據(jù)集采用了兩個(gè)大規(guī)模語料集,均來自流行的社交網(wǎng)絡(luò)文本并帶有標(biāo)簽。第一個(gè)數(shù)據(jù)集稱作people數(shù)據(jù)集,包括搜集自社交網(wǎng)絡(luò)的2億1000萬條文本,共含有55億單詞。第二個(gè)數(shù)據(jù)集被稱作pages,包括3530萬條社交網(wǎng)絡(luò)文本,共含有16億單詞,內(nèi)容包括企業(yè)、名人、品牌或產(chǎn)品。

3 結(jié)束語

卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于語言模型已經(jīng)取得了非常大的發(fā)展,對于自然語言處理中的各項(xiàng)任務(wù)均取得了優(yōu)異的結(jié)果。本文通過對幾項(xiàng)典型工作的分析,探討了不同卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)在不同任務(wù)中的表現(xiàn)。通過綜合分析可以得出以下結(jié)論。首先,CNN的輸入采用原始數(shù)據(jù)訓(xùn)練的向量表示一般效果會(huì)優(yōu)于預(yù)訓(xùn)練的詞嵌入表示;其次,在卷積層濾波器的尺寸一般采用寬度與輸入矩陣寬度相等的設(shè)置;最后,為了優(yōu)化結(jié)果可以采用dropout正則化處理。

篇3

(廣東外語外貿(mào)大學(xué) 金融學(xué)院,廣東 廣州 510006)

摘 要:作為一個(gè)具有巨大應(yīng)用前景研究方向,深度學(xué)習(xí)無論是在算法研究,還是在實(shí)際應(yīng)用(如語音識別,自然語言處理、計(jì)算機(jī)視覺)中都表現(xiàn)出其強(qiáng)大的潛力和功能.本文主要介紹這種深度學(xué)習(xí)算法,并介紹其在金融領(lǐng)域的領(lǐng)用.

關(guān)鍵詞 :深度學(xué)習(xí);受限波茲曼機(jī);堆棧自編碼神經(jīng)網(wǎng)絡(luò);稀疏編碼;特征學(xué)習(xí)

中圖分類號:TP181 文獻(xiàn)標(biāo)識碼:A 文章編號:1673-260X(2015)01-0037-03

1 深度學(xué)習(xí)的研究意義

深度學(xué)習(xí)是一類新興的多層神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)算法,因其緩解了傳統(tǒng)訓(xùn)練算法的局部最小性,引起機(jī)器學(xué)習(xí)領(lǐng)域的廣泛關(guān)注.深度學(xué)習(xí)的特點(diǎn)是,通過一系列邏輯回歸的堆棧作為運(yùn)算單元,對低層數(shù)據(jù)特征進(jìn)行無監(jiān)督的再表示(該過程稱為預(yù)學(xué)習(xí)),形成更加抽象的高層表示(屬性類別或特征),以發(fā)現(xiàn)數(shù)據(jù)的分布式特征表示.深度學(xué)習(xí)的這種特性由于與腦神經(jīng)科學(xué)理論相一致,因此被廣泛應(yīng)用于語音識別、自然語言處理和計(jì)算機(jī)視覺等領(lǐng)域.

生物學(xué)研究表明[1]:在生物神經(jīng)元突觸的輸出變化與輸入脈沖的持續(xù)時(shí)間有關(guān),即依賴于持續(xù)一定時(shí)間的輸入過程,輸出信號既依賴于輸入信號的空間效應(yīng)和閾值作用,也依賴于時(shí)間總和效應(yīng).

傳統(tǒng)的深度學(xué)習(xí)方法雖然較好地模擬了生物神經(jīng)元的一個(gè)重要特性——空間總和效應(yīng)上的深度,卻忽視了生物神經(jīng)元的另一個(gè)重要特性——時(shí)間總和效應(yīng)上的寬度[2].因此,對于連續(xù)的時(shí)間變量問題(如語音識別),傳統(tǒng)深度學(xué)習(xí)方法只能將連續(xù)的時(shí)間函數(shù)關(guān)系轉(zhuǎn)化為空間關(guān)系,即離散化為時(shí)間序列進(jìn)行處理.這樣做有幾個(gè)弊端:

(1)可能造成深度學(xué)習(xí)算法對時(shí)間采樣頻率的十分敏感,魯棒性較差.這使得,不同時(shí)間尺度下,需要使用不同的數(shù)據(jù)和算法.這無疑是十分不方便的;

(2)導(dǎo)致深度網(wǎng)絡(luò)規(guī)模過大,使得計(jì)算開銷增大、學(xué)習(xí)效果變差、泛化性能降低;

(3)難以滿足實(shí)際應(yīng)用對算法的實(shí)時(shí)性的要求,更難以體現(xiàn)連續(xù)輸入信息的累積效應(yīng),大大降低深度學(xué)習(xí)算法的實(shí)用性.

因此,對傳統(tǒng)的深度學(xué)習(xí)算法進(jìn)行改進(jìn),使其不但具有“深度”,亦能具有“寬度”,能夠?qū)B續(xù)時(shí)變數(shù)據(jù)進(jìn)行更好的特征提取、提高算法效率和實(shí)用性,顯得勢在必行.基于這個(gè)切入點(diǎn),本項(xiàng)目借鑒時(shí)頻分析與小波分析中的方法,結(jié)合數(shù)學(xué)分析領(lǐng)域中的泛函分析技術(shù),與堆棧自編碼神經(jīng)網(wǎng)絡(luò)相結(jié)合,提出一種新的深度學(xué)習(xí)算法——深度泛函網(wǎng)絡(luò).為了驗(yàn)證算法的有效性及優(yōu)越性,本項(xiàng)目將把新算法應(yīng)用于金融時(shí)間序列的領(lǐng)域.

在目前國內(nèi)外對于深度學(xué)習(xí)的研究中,幾乎沒有任何將深度學(xué)習(xí)技術(shù)運(yùn)用于金融數(shù)據(jù)的研究.通過提出并運(yùn)用得當(dāng)?shù)纳疃刃蛄袑W(xué)習(xí)方法,我們期望從金融數(shù)據(jù)中抽取更高級的、具有經(jīng)濟(jì)學(xué)意義或預(yù)測性意義的高級特征(與人工設(shè)計(jì)的“技術(shù)指標(biāo)”相對應(yīng)),并開發(fā)相應(yīng)的量化交易策略,并與其它傳統(tǒng)算法進(jìn)行對比,以說明所提算法的可行性和優(yōu)越性.

2 國內(nèi)外研究現(xiàn)狀

人類感知系統(tǒng)具有的層次結(jié)構(gòu),能夠提取高級感官特征來識別物體(聲音),因而大大降低了視覺系統(tǒng)處理的數(shù)據(jù)量,并保留了物體有用的結(jié)構(gòu)信息.對于要提取具有潛在復(fù)雜結(jié)構(gòu)規(guī)則的自然圖像、視頻、語音和音樂等結(jié)構(gòu)豐富數(shù)據(jù),人腦獨(dú)有的結(jié)構(gòu)能夠獲取其本質(zhì)特征[3].受大腦結(jié)構(gòu)分層次啟發(fā),神經(jīng)網(wǎng)絡(luò)研究人員一直致力于多層神經(jīng)網(wǎng)絡(luò)的研究.訓(xùn)練多層網(wǎng)絡(luò)的算法以BP算法為代表,其由于局部極值、權(quán)重衰減等問題,對于多于2個(gè)隱含層的網(wǎng)絡(luò)的訓(xùn)練就已較為困難[4],這使得實(shí)際應(yīng)用中多以使用單隱含層神經(jīng)網(wǎng)絡(luò)居多.

該問題由Hinton[5]所引入的逐層無監(jiān)督訓(xùn)練方法所解決.具體地,該法對深度神經(jīng)網(wǎng)絡(luò)中的每一層貪婪地分別進(jìn)行訓(xùn)練:當(dāng)前一層被訓(xùn)練完畢后,下一層網(wǎng)絡(luò)的權(quán)值通過對該層的輸入(即前一層的輸出)進(jìn)行編碼(Encoding,詳見下文)而得到.當(dāng)所有隱含層都訓(xùn)練完畢后,最后將使用有監(jiān)督的方法對整個(gè)神經(jīng)網(wǎng)絡(luò)的權(quán)值再進(jìn)行精確微調(diào).在Hinton的原始論文中,逐層貪婪訓(xùn)練是通過受限波茲曼機(jī)(Restricted Boltzmann Machine,RBM)以及相對應(yīng)的對比散度方法(Contrastive Divergence)完成的.與通常的神經(jīng)元不同,RBM是一種概率生成模型,通常被設(shè)計(jì)為具有二元輸入-輸出(稱為Bernoulli-Bernoulli RBM).通過對每一層的受限波茲曼機(jī)進(jìn)行自底向上的堆棧(如圖1),可以得到深度信念網(wǎng)(Deep Belief Network,DBN).

除了生成式的RBM,還有其他的深度學(xué)習(xí)結(jié)構(gòu)被廣泛使用和研究.如堆棧自編碼神經(jīng)網(wǎng)絡(luò)(Stacked Auto-Encoder Network,SAEN)[6],以及深度卷積神經(jīng)網(wǎng)絡(luò)(Deep Convolutional Network)[7]等.前者的優(yōu)勢在于可以簡單地采用通常的BP算法進(jìn)行逐層預(yù)訓(xùn)練,并且引入隨機(jī)化過程的抗噪聲自編碼網(wǎng)絡(luò)(Denoising SAEN)泛化性能甚至超過DBN[8];而后者則通過權(quán)值共享結(jié)構(gòu)減少了權(quán)值的數(shù)量,使圖像可以直接作為輸入,對平移、伸縮、傾斜等的變形具有高度不變性,因此在圖像識別領(lǐng)域有著廣泛應(yīng)用.

近年來,稀疏編碼(Sparse Encoding)和特征學(xué)習(xí)(Feature Learning)成為了深度學(xué)習(xí)領(lǐng)域較為熱門的研究方向.B.A.Olshausen[9]等針對人腦的視覺感知特性,提出稀疏編碼的概念.稀疏編碼算法是一種無監(jiān)督學(xué)習(xí)方法,它用來尋找一組“過完備”的基向量來更高效地表示輸入數(shù)據(jù)的特征,更有效地挖掘隱含在輸入數(shù)據(jù)內(nèi)部的特征與模式.針對稀疏編碼的求解問題,H.Lee等在2007年提出了一種高效的求解算法[10],該算法通過迭代地求解兩個(gè)不同的凸規(guī)劃問題以提高效率.同年,H.Lee等發(fā)現(xiàn),當(dāng)訓(xùn)練樣本為圖像時(shí),對DBN的訓(xùn)練進(jìn)行稀疏性的約束有利于算法學(xué)習(xí)到更高級的特征[11].例如,對手寫識別數(shù)據(jù)集進(jìn)行訓(xùn)練時(shí),稀疏性約束下的DBN算法自主學(xué)習(xí)到了“筆畫”的概念.

基于[10,11]的研究成果,R.Raina等[12]提出了“自導(dǎo)師學(xué)習(xí)(Self-Taught Learning)”的概念.與無監(jiān)督學(xué)習(xí)(Unsupervised Learning)和半監(jiān)督學(xué)習(xí)(Semi-supervised Learning)不同,自導(dǎo)師學(xué)習(xí)利用大量易獲得的無標(biāo)簽數(shù)據(jù)(可以來自不同類別甚至是未知類別),通過稀疏編碼算法來構(gòu)建特征的高級結(jié)構(gòu),并通過支持向量機(jī)(Support Vector Machine,SVM)作為最終層分類器對少數(shù)有標(biāo)簽數(shù)據(jù)進(jìn)行分類.這種更接近人類學(xué)習(xí)方式的模式極大提高了有標(biāo)簽數(shù)據(jù)的分類準(zhǔn)確度.與之類似,H.Lee,R.Grosse等[13]提出了一種具有層次結(jié)構(gòu)的特征學(xué)習(xí)算法.該算法將卷積神經(jīng)網(wǎng)絡(luò)與DBN結(jié)合,并通過稀疏正則化(Sparsity Regularization)的手段無監(jiān)督地學(xué)習(xí)層次化的特征表征.圖像識別實(shí)驗(yàn)表明,該算法能夠自主學(xué)習(xí)得出“物體(Object Parts)”的概念,較好體現(xiàn)了人腦視覺感知的層次性和抽象性.

3 發(fā)展趨勢

由于信號處理、語音識別、金融時(shí)間序列分析、視頻分析等領(lǐng)域的實(shí)時(shí)應(yīng)用需求,研究能夠處理連續(xù)時(shí)變變量、自然體現(xiàn)時(shí)間聯(lián)系結(jié)構(gòu)的深度學(xué)習(xí)算法(即深度序列學(xué)習(xí),Deep Sequence Learning)成為了新的研究熱點(diǎn).G.W.Taylor,G.E.Hinton等[14]提出時(shí)間受限波茲曼機(jī)(Temporal RBM,TRBM).該模型使用二值隱含元和實(shí)值可視元,并且其隱含元和可視元可以與過去一段歷史的可視元之間可以有向地被相連.同時(shí),該模型被用于人類動(dòng)作識別,并展現(xiàn)出了優(yōu)秀的性能.針對TRBM的一些不足,一些改進(jìn)算法也不斷涌現(xiàn),如[15,16].然而,該類深度學(xué)習(xí)模型雖然考慮了動(dòng)態(tài)的時(shí)間變量之間的聯(lián)系,但依然只能處理離散時(shí)間問題,本質(zhì)上還是屬于轉(zhuǎn)化為空間變量的化歸法.同時(shí),在自編碼網(wǎng)絡(luò)框架下,依然缺乏較好解決時(shí)間過程(序列)問題的方案.

4 金融時(shí)序數(shù)據(jù)中的應(yīng)用

傳統(tǒng)金融理論認(rèn)為,金融市場中的證券價(jià)格滿足伊藤過程,投資者無法通過對歷史數(shù)據(jù)的分析獲得超額利潤.然而,大量實(shí)證研究卻表明,中國股票價(jià)格波動(dòng)具有長期記憶性,拒絕隨機(jī)性假設(shè),在各種時(shí)間尺度上都存在的可以預(yù)測的空間.因此,如何建立預(yù)測模型,對于揭示金融市場的內(nèi)在規(guī)律,這無論是對于理論研究,還是對于國家的經(jīng)濟(jì)發(fā)展和廣大投資者,都具有重要的意義.

股票市場是一個(gè)高度復(fù)雜的非線性系統(tǒng),其變化既有內(nèi)在的規(guī)律性,同時(shí)也受到市場,宏觀經(jīng)濟(jì)環(huán)境,以及非經(jīng)濟(jì)原因等諸多因素的影響.目前國內(nèi)外對證券價(jià)格進(jìn)行預(yù)測的模型大致分為兩類:一是以時(shí)間序列為代表的統(tǒng)計(jì)預(yù)測模型;該類方法具有堅(jiān)實(shí)的統(tǒng)計(jì)學(xué)基礎(chǔ),但由于金融價(jià)格數(shù)據(jù)存在高噪聲、波動(dòng)大、高度非線性等特征,使得該類傳統(tǒng)方法無法提供有效的工具.另一類是以神經(jīng)網(wǎng)絡(luò)、支持向量機(jī)等模型為代表的數(shù)據(jù)挖掘模型.該類模型能夠處理高度非線性的數(shù)據(jù),基本上從擬合的角度建模.雖然擬合精度較高,但擬合精度的微小誤差往往和市場波動(dòng)互相抵消,導(dǎo)致無法捕捉獲利空間甚至導(dǎo)致?lián)p失,外推預(yù)測效果無法令人滿意.因此,建立即能夠處理非線性價(jià)格數(shù)據(jù),又有良好泛化能力的預(yù)測模型勢在必行.

——————————

參考文獻(xiàn):

〔1〕Zhang L I, Tao H W, Holt C E, et al. A critical window for cooperation and competition among developing retinotectal synapses[J]. Nature, 1998, 395(6697).

〔2〕37-44.歐陽楷,鄒睿.基于生物的神經(jīng)網(wǎng)絡(luò)的理論框架——神經(jīng)元模型[J].北京生物醫(yī)學(xué)工程,1997,16(2):93-101.

〔3〕Rossi A F, Desimone R, Ungerleider L G. Contextual modulation in primary visual cortex of macaques[J]. the Journal of Neuroscience, 2001, 21(5): 1698-1709.

〔4〕Bengio Y. Learning deep architectures for AI[J]. Foundations and trends? in Machine Learning, 2009, 2(1):1-127.

〔5〕Hinton G E, Osindero S, Teh Y W. A fast learning algorithm for deep belief nets[J]. Neural computation, 2006, 18(7): 1527-1554.

〔6〕Vincent P, Larochelle H, Bengio Y, et al. Extracting and composing robust features with denoising autoencoders[C]//Proceedings of the 25th international conference on Machine learning. ACM, 2008: 1096-1103.

〔7〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.

〔8〕Vincent P, Larochelle H, Lajoie I, et al. Stacked denoising autoencoders: Learning useful representations in a deep network with a local denoising criterion[J]. The Journal of Machine Learning Research, 2010, 9999: 3371-3408.

〔9〕Olshausen B A, Field D J. Sparse coding with an overcomplete basis set: A strategy employed by V1?[J]. Vision research, 1997, 37(23): 3311-3325.

〔10〕Lee H, Battle A, Raina R, et al. Efficient sparse coding algorithms[J]. Advances in neural information processing systems, 2007, 19: 801.

〔11〕Lee H, Ekanadham C, Ng A Y. Sparse deep belief net model for visual area V2[C]//NIPS. 2007, 7: 873-880.

〔12〕Raina R, Battle A, Lee H, et al. Self-taught learning: transfer learning from unlabeled data[C]//Proceedings of the 24th international conference on Machine learning. ACM, 2007: 759-766.

〔13〕Lee H, Grosse R, Ranganath R, et al. Convolutional deep belief networks for scalable unsupervised learning of hierarchical representations[C]//Proceedings of the 26th Annual International Conference on Machine Learning. ACM, 2009: 609-616.

〔14〕Taylor G W, Hinton G E, Roweis S T. Modeling human motion using binary latent variables[J]. Advances in neural information processing systems, 2007, 19: 1345.

篇4

【摘要】 目的建立了一種無損的、可在線快速測定斯普林注射液中核糖和多肽含量的新方法。方法采用光譜儀掃描不同批次的斯普林注射液樣品的紫外光譜,然后采用經(jīng)典的分析方法測定對應(yīng)樣品中核糖和多肽的含量,應(yīng)用徑向基神經(jīng)網(wǎng)絡(luò)(RBFNN)建立了斯普林注射液樣品的紫外光譜與其中核糖和多肽含量間的定量關(guān)系模型。通過選擇最有效的光譜預(yù)處理方法、網(wǎng)絡(luò)的最優(yōu)拓?fù)浣Y(jié)構(gòu)參數(shù)和最佳擴(kuò)展常數(shù)對模型進(jìn)行最優(yōu)化。結(jié)果應(yīng)用最優(yōu)模型對斯普林注射液預(yù)測集樣品中核糖和多肽含量,預(yù)測均方根誤差(RMSEP)分別為0.013 2和0.013 8。結(jié)論 紫外光譜方法測定斯普林注射液中核糖和多肽含量,預(yù)測精度高,方法簡便可行,且多組分可同時(shí)測定,為測定中藥組分含量提供了一條新途徑。

【關(guān)鍵詞】 紫外光譜 徑向基神經(jīng)網(wǎng)絡(luò) 斯普林注射液

斯普林注射液(小牛脾提取物注射液)是用于提高機(jī)體免疫力的藥物。從健康小牛健康脾臟中提取的高活性的分子多肽物能刺激骨髓肝細(xì)胞增殖,升高外周血白細(xì)胞,促進(jìn)造血功能的恢復(fù),有效地緩解化療藥物所導(dǎo)致的血細(xì)胞減少、出血等副作用,而且能激活機(jī)體免疫系統(tǒng),明顯地減輕患者疼痛,有效緩解化療所導(dǎo)致的惡心、嘔吐,恢復(fù)患者體力,改善睡眠,穩(wěn)定情緒,增加食欲,提高患者生活質(zhì)量[1]。李霞等[2]對貴州少數(shù)民族地區(qū)的住院治療的88例晚期腫瘤病人進(jìn)行了斯普林與參麥注射液對照治療觀察,結(jié)果顯示斯普林對晚期癌癥病人全身狀況改善方面有較好的輔助治療。斯普林注射液主要有效成分為核糖和多肽,而這些主成分常規(guī)分析方法主要為Folin酚法、高效液相色譜法[3]、凱氏定氮法[4],分光光度法[5]等,這些方法均需要對樣品進(jìn)行預(yù)處理,需要很多有機(jī)試劑,操作繁瑣,本文采用紫外光譜結(jié)合徑向基神經(jīng)網(wǎng)絡(luò)[6](RBFNN)建立快速無損定量分析斯普林注射液中核糖和多肽含量的新方法。

1 器材

1.1 儀器 紫外可見近紅外分光光度計(jì)(UV-3150,日本島津公司)。

1.2 試劑與材料 斯普林注射液(吉林馬應(yīng)龍制藥有限公司,中國);D-核糖;三氯醋酸;牛血清白蛋白。

2 方法與結(jié)果

2.1 紫外光譜的采集 采用紫外可見近紅外分光光度計(jì)對不同批次的斯普林注射液40個(gè)樣品進(jìn)行紫外光譜掃描,光譜波長范圍設(shè)為200~400 nm,光譜通帶寬度設(shè)置為2 nm,每個(gè)樣品掃描3次,取平均光譜作為該樣品的光譜。斯普林注射液紫外光譜如圖 1,本文采用RBFNN建立斯普林注射液樣品紫外光譜與其中的核糖和多肽含量間的定量分析模型,應(yīng)用所建立的模型可同時(shí)測定斯普林注射液樣品中核糖和多肽的含量,該方法具有簡單、快捷、無污染和無預(yù)處理等優(yōu)點(diǎn)。

圖1 斯普林注射液樣品紫外光譜

2.2 核糖含量的測定 精密稱取D-核糖適量,用5%三氯醋酸溶液溶解制成20 μg/ml的標(biāo)準(zhǔn)溶液。分別精密移取0.5,1.0,1.5,2.0和2.5 ml的標(biāo)準(zhǔn)溶液于具塞試管中,用5%三氯醋酸溶液定容至2 ml各加入3,5-二羥基甲苯溶液2.0 ml,搖勻,水浴中準(zhǔn)確加熱30 min,迅速冷卻,于650 nm波長處測定吸光度,標(biāo)準(zhǔn)曲線回歸方程為Y=22.080X-0.008,R2=0.997。精密移取2 ml供試品液,按照標(biāo)準(zhǔn)曲線制備的方法測定不同批次斯普林注射液樣品中核糖含量。表1 各樣品集中核糖和多肽含量的統(tǒng)計(jì)

2.3 多肽含量的測定 采用Folin酚法測定斯普林注射液中多肽含量,以牛血清白蛋白為標(biāo)準(zhǔn)品繪制標(biāo)準(zhǔn)曲線,曲線回歸方程為Y=1.369 9X-0.013 3,R2=0.996,線性范圍為0.025~0.250 mg/ml。

斯普林注射液樣品中核糖和多肽含量統(tǒng)計(jì)見表1。

2.4 徑向基神經(jīng)網(wǎng)絡(luò)定量分析模型的建立采用卷積平滑、一階導(dǎo)數(shù)、二階導(dǎo)數(shù)和標(biāo)準(zhǔn)正態(tài)變量轉(zhuǎn)換(SNV)分別對所有斯普林注射液樣品的紫外光譜進(jìn)行預(yù)處理,然后采用主成分析方法對原始光譜和預(yù)處理后光譜矩陣進(jìn)行主成分分析(PCA),根據(jù)第一主成分與第二主成分得分作圖,將樣品分為校正集、預(yù)測集和驗(yàn)證集樣品,以主成分得分作為RBFNN網(wǎng)絡(luò)的輸入節(jié)點(diǎn),以“2.2”項(xiàng)和“2.3”項(xiàng)所測得的核糖和多肽含量為輸出節(jié)點(diǎn),建立測定斯普林注射液中核糖和多肽含量的定量分析模型,為了避免模型出現(xiàn)過擬和,本實(shí)驗(yàn)引進(jìn)逼近度(Da)為模型優(yōu)化參數(shù),對模型輸入節(jié)點(diǎn)數(shù)、隱含節(jié)點(diǎn)數(shù)和擴(kuò)展常數(shù)進(jìn)行優(yōu)化,逼近度(Da)的計(jì)算方法如式(1)和(2):

ea=[ncn]ec+[nvn]ev+│ec-ev│ (1)

Da=cea(2)

式中ea,ec,ev分別是逼近誤差、校正集均方根誤差(RMSEC)和驗(yàn)證均方根誤差(RMSEV),n, nc, nv,分別為樣品總數(shù)、校正集樣品數(shù)和驗(yàn)證集樣品數(shù)。C是常數(shù)(本文中C取0.000 1),主要以調(diào)整Da大小方便于作圖,模型的預(yù)測能力以預(yù)測均方根誤差(RMSEP)來評價(jià),RMSEC,RMSEV和RMSEP的算法可參考文獻(xiàn)[7]。

2.5 徑向基神經(jīng)網(wǎng)絡(luò)模型的優(yōu)化

2.5.1 光譜預(yù)處理方法的選擇 分別采用一階導(dǎo)數(shù)、二階導(dǎo)數(shù)、卷積平滑光譜和SNV光譜預(yù)處理方法對斯普林注射液樣品的原光譜進(jìn)行預(yù)處理,然后應(yīng)用PCA的方法對原始光譜和各預(yù)處理后的光譜進(jìn)行主成分提取,以主成分得分作為輸入節(jié)點(diǎn)建立測定斯普林注射液樣品中核糖和多肽含量的定量分析模型,各光譜所建立的最優(yōu)模型的性能參數(shù)列于(表2),由表 2而可以看出,在測定核糖含量時(shí),采用一階導(dǎo)數(shù)光譜所建立的模型的RMSEC,RMSEP和RMSEV最小,同時(shí)它具有最大的Da值,而在測定多肽含量時(shí),采用SNV光譜所建立的模型的RMSEC,RMSEP和RMSEV最小,Da值也為最大值,因此確定測定核糖和多肽含量時(shí),最有效的光譜預(yù)處理方法分別為一階導(dǎo)數(shù)光譜法和SNV方法。表2 原始光譜及不同預(yù)處理后光譜所建立的測定核糖和多肽含量最優(yōu)模型的性能參數(shù)

2.5.2 光譜輸入節(jié)點(diǎn)數(shù)的選擇 采用PCA方法對光譜進(jìn)行分析,提取光譜前20主成分,分別以前3~20主成分的得分作為RBFNN的輸入節(jié)點(diǎn),為了避免模型出現(xiàn)過擬合的現(xiàn)象,以逼近度(Da)為評價(jià)標(biāo)準(zhǔn),考察輸入節(jié)點(diǎn)數(shù)對模型性能的影響見圖2,由圖 2可以看出,在測定核糖合多肽含量時(shí)候,最佳的輸入節(jié)點(diǎn)數(shù)分別為10和13。

圖2 輸入節(jié)點(diǎn)數(shù)對測定斯普林注射液中核糖與多肽

含量的定量分析模型的RMSEC,RMSEV和Da的影響

2.5.3 隱含節(jié)點(diǎn)數(shù)的選擇 RBFNN是從0個(gè)神經(jīng)元開始訓(xùn)練,通過檢查輸出誤差使網(wǎng)絡(luò)自動(dòng)增加神經(jīng)元,直到誤差達(dá)到要求或是最大隱含層神經(jīng)元數(shù)為止。隱含節(jié)點(diǎn)太少,擬合不充分;隱含節(jié)點(diǎn)增加得過多會(huì)過擬合。所以本文以Da為模型優(yōu)化的標(biāo)準(zhǔn),選出最合適的隱含層節(jié)點(diǎn)數(shù)。圖 3是在最不同隱含節(jié)點(diǎn)數(shù)對Da的影響,由圖 3可以看出測定核糖和多肽模型的最佳隱含節(jié)點(diǎn)數(shù)均為19。

圖3 隱含節(jié)點(diǎn)數(shù)對測定斯普林注射液中核糖

與多肽含量的定量分析模型的RMSEC,RMSEV和Da的影響

2.5.4 擴(kuò)展常數(shù)的選擇 擴(kuò)展常數(shù)的大小關(guān)系到擬合函數(shù)變化的快慢,從而影響模型的擬合程度,以Da為標(biāo)準(zhǔn),考察擴(kuò)展常數(shù)在0.3~9范圍內(nèi)對模型的影響,以選擇合適的擴(kuò)展常數(shù),結(jié)果如圖 4所示,由圖 4可以看出,在測定斯普林注射液樣品中的核糖和多肽含量時(shí)模型最適的擴(kuò)展常數(shù)分別為0.6和1.2。

2.6 最優(yōu)模型的建立 采用RBFNN結(jié)合紫外光譜建立測定斯普林注射液樣品中核糖和多肽含量的定量分析模型,模型經(jīng)過選擇最有效的光譜預(yù)處理方法、最適的輸入節(jié)點(diǎn)數(shù)、隱含節(jié)點(diǎn)數(shù)和擴(kuò)展常數(shù),得到最優(yōu)的模型,應(yīng)用最優(yōu)的模型預(yù)測各樣品集的核糖和多肽含量,預(yù)測值與化學(xué)測量值間的相關(guān)性如圖 5,由圖 5可以看出預(yù)測值與化學(xué)測量值吻合的很好,說明該方法可行。

2.7 最優(yōu)模型對預(yù)測集樣品的預(yù)測 采用“2.6”項(xiàng)中所建立的最優(yōu)模型對預(yù)測集樣品中的核糖和多肽含量進(jìn)行預(yù)測,預(yù)測均方根誤差(RMSEP)分別為0.013 2和0.013 8,預(yù)測值和真實(shí)值列于表 3,計(jì)算預(yù)測值與真實(shí)值間的絕對誤差和樣品回收率,由表 3可以看出,核糖含量的預(yù)測值與真實(shí)值間絕對誤差不大于0.023,平均回收率為101.224%,而多肽預(yù)測值間的絕對誤差不大于0.033,平均回收率為101.651%,說明預(yù)測值與真實(shí)值吻合的比較好,模型預(yù)測能滿足要求。表3 最優(yōu)模型對預(yù)測集樣品中核糖和多肽含量預(yù)測值與真實(shí)值統(tǒng)計(jì)結(jié)果

3 討論

本實(shí)驗(yàn)應(yīng)用徑向基神經(jīng)網(wǎng)絡(luò)結(jié)合紫外光譜建立了測定斯普林注射液中核糖和多肽含量的定量分析模型,文中引進(jìn)逼近度作為模型優(yōu)化的參數(shù),可有效地避免模型發(fā)生過擬合現(xiàn)象。模型經(jīng)過優(yōu)化后,對預(yù)測集樣品中的多肽和核糖含量進(jìn)行預(yù)測,預(yù)測均方根誤差(RMSEP)達(dá)到0.0132和0.0138,說明模型具有很高的預(yù)測精度,可應(yīng)用于斯普林注射液質(zhì)量監(jiān)測。

本實(shí)驗(yàn)方便快捷,不需有機(jī)試劑,無污染,操作簡單,并可兩組分同時(shí)檢測,質(zhì)量準(zhǔn)確,可應(yīng)用于斯普林注射液生產(chǎn)的質(zhì)量檢測和在線監(jiān)控。

【參考文獻(xiàn)】

[1] 張吉鳳, 趙 雷, 夏大文. 斯普林對小鼠免疫功能影響的研究[J].中華腫瘤防治雜志, 2005, 12(7):519.

[2] 李 霞, 張 萍, 杜迎春, 等. 斯普林改善晚期惡性腫瘤全身狀況的療效觀察[J].腫瘤, 2005, 25(6):633.

[3] 張津楓, 王健剛, 鄧國才, 等. 葡萄糖發(fā)酵液D-核糖含量的高效液相色譜分析[J].高等學(xué)?;瘜W(xué)學(xué)報(bào), 2001, 22(1):43.

[4] 呂偉仙, 葛 瀅, 吳健之, 等. 植物中硝態(tài)氮、氨態(tài)氮、總氮測定方法的比較研究[J].光譜學(xué)與光譜分析, 2004, 24(2):204.

[5] 陳蓮惠, 劉紹璞, 劉忠芳, 等. 堿性二苯基萘基甲烷染料褪色光度法測定透明質(zhì)酸鈉[J].分析化學(xué), 2004, 32(5):698.

[6] 毛利鋒, 沈 明, 程翼宇. 毛細(xì)管電泳徑向基神經(jīng)網(wǎng)絡(luò)校正法定量分析核苷[J].化學(xué)學(xué)報(bào), 2004, 62(19):1917.

篇5

關(guān)鍵詞: 受限玻爾茲曼機(jī); 深度模型; 隱藏單元; 學(xué)習(xí)方法

中圖分類號:TP391 文獻(xiàn)標(biāo)志碼:A 文章編號:1006-8228(2014)11-10-04

RBM learning method comparison

Lu Ping, Chen Zhifeng, Shi Lianmin

(Dept. of Information, Suzhou Institute of Trade & Commerce, Suzhou, Jiangsu 215009, China)

Abstract: With the deep learning on the breakthrough of models, algorithms and theory studies, models based on Boltzmann machine have been used in many areas in recent years, such as target recognition and natural language processing. The concept of Boltzmann machine is presented. The restricted Boltzmann machine's advantage is also pointed out. In this paper, the learning method of RBM is described in detail and some typical learning algorithms widely used are compared. The study on learning algorithms will still be a core issue in deep learning area.

Key words: RBM; depth model; hidden units; learning method

0 引言

當(dāng)前深度學(xué)習(xí)(deep learning)作為機(jī)器學(xué)習(xí)中新興的代表,由于其具有能夠處理大規(guī)模的數(shù)據(jù)、自動(dòng)提取有意義的特征、完成數(shù)以百萬計(jì)的自由參數(shù)的學(xué)習(xí)等諸多淺層模型所無法匹敵的能力,而受到各領(lǐng)域的廣泛關(guān)注。目前深度學(xué)習(xí)模型已經(jīng)被逐漸應(yīng)用于圖像分類、目標(biāo)識別、自然語言處理、數(shù)據(jù)挖掘等各類應(yīng)用中。當(dāng)前的深度模型,如深度信念網(wǎng)絡(luò)(deep belief net,DBN)、深度玻爾茲曼機(jī)(deep Boltzmann machine, DBM)等均采用的是由受限玻爾茲曼機(jī)(restricted Boltzmann machine,RBM)堆疊而成。在RBM中,可見層各單元之間與隱藏層各單元之間無連接的拓樸結(jié)構(gòu)使得其模型相對簡單,參數(shù)學(xué)習(xí)相對容易,因此使用RBM作為構(gòu)建深度模型的基礎(chǔ)結(jié)構(gòu)單元成為研究人員的最佳選擇。雖然深度學(xué)習(xí)模型還有堆疊自動(dòng)編碼器(stacked auto encoders)、卷積神經(jīng)網(wǎng)絡(luò)(convolutional neural net,CNN)等,但由于以RBM為核心的結(jié)構(gòu)在深度模型中占據(jù)著核心的地位,因此本文主要關(guān)注于RBM的模型結(jié)構(gòu)與其中的學(xué)習(xí)方法。

1 玻爾茲曼機(jī)概述

1.1 玻爾茲曼機(jī)

玻爾茲曼機(jī)(Boltzmann machine, BM)是源于物理學(xué)的一種基于能量函數(shù)的建模方法,能夠描述變量的高層相互作用。雖然BM中學(xué)習(xí)算法復(fù)雜,但其模型與算法有完備的物理解釋與數(shù)理統(tǒng)計(jì)理論基礎(chǔ)。Hinton與Sejnowski最早將BM模型引入人工神經(jīng)網(wǎng)絡(luò)中,用于自動(dòng)提取數(shù)據(jù)的內(nèi)在特征表示。將BM作為單層反饋網(wǎng)絡(luò)時(shí),具有與Hopfield網(wǎng)絡(luò)類似的對稱權(quán)值,且每個(gè)單元與自已無連接。網(wǎng)絡(luò)由可見層與隱藏層組成,對應(yīng)的網(wǎng)絡(luò)節(jié)點(diǎn)也可以分為可見單元(visible unit)與隱藏單元(hidden unit),每個(gè)單元不存在自回路,圖1給出了BM的示意圖。

圖1 BM模型結(jié)構(gòu)示意圖

由于其中樣本分布服從玻爾茲曼分布故命名為BM ,BM由二值單元構(gòu)成,各單元的狀態(tài)隨機(jī),且只可取0或1兩種狀態(tài),1指代單元處于激活(on)狀態(tài),0則指代此單元處于斷開(off)狀態(tài)。由于每個(gè)單元僅有2種狀態(tài)si={0,1},因此網(wǎng)絡(luò)的總的能量函數(shù)為:

其中wij為神經(jīng)元i與j之間的連接權(quán)重,θi為神經(jīng)元i的閾值。神經(jīng)元i狀態(tài)為0與1所產(chǎn)生的能量的差值則可表示為:

si=1的概率為:

其中T為系統(tǒng)的溫度。相應(yīng)的,si=0的概率則為:

由式(3)/式(4)可得:

進(jìn)一步將上式推廣到網(wǎng)絡(luò)中任意兩個(gè)全局狀態(tài)α與β,有:

此即為玻爾茲曼分布的表達(dá)式。

1.2 受限玻爾茲曼機(jī)

由于BM的模型結(jié)構(gòu)復(fù)雜,學(xué)習(xí)時(shí)間很長,而且無法確切地計(jì)算BM所表示的分布,甚至獲得BM表示分布的隨機(jī)樣本也非常困難。為此,Smolensky提出了受限玻爾茲曼機(jī)(restricted Boltzmann machine, RBM)模型,其結(jié)構(gòu)如圖2所示。與一般BM相比,RBM具有更優(yōu)的性質(zhì):在給定可見層單元輸入時(shí),各隱藏層單元的激活條件獨(dú)立;反之亦然。這樣盡管RBM所表示的分布仍無法有效計(jì)算,但卻可以通過Gibbs采樣獲得服從RBM分布的隨機(jī)樣本。

圖2 RBM模型結(jié)構(gòu)示意圖

RBM也可以被看作為一個(gè)無向圖(undirected graph)模型,其中v為可見層,用于表示輸入數(shù)據(jù),h為隱藏層,可以看作為特征提取器,W為兩層間對稱的連接權(quán)重。若一個(gè)RBM中可見層單元數(shù)為n,隱藏層單元數(shù)為m,用向量V與h分別表示可見層與隱藏層的狀態(tài),當(dāng)狀態(tài)(v,h)給定時(shí),與BM類似,則RBM中的能量定義為:

其中wij為可見單元i與隱藏單元j之間的連接權(quán)重,ai為可見單元i的偏置,bj為隱藏單元j的偏置。θ={wij,ai,bj}指代RBM中所有參數(shù)集。當(dāng)θ確定時(shí),則可根據(jù)式⑺的能量函數(shù)獲得(v,h)的聯(lián)合概率為:

其中z(θ)為保證P(v,h|θ)成為概率分布的歸一化項(xiàng),也稱為劃分函數(shù)。若可見單元服從某種概率分布,根據(jù)RBM的給定可見單元時(shí)各隱藏單元激活狀態(tài)獨(dú)立的條件,可獲得隱藏單元為1的條件概率為:

同理,若令隱藏單元服從某種概率分布,可見單元向量v為1的條件概率分布為:

(10)

因此可以獲得在給定可見單元向量v時(shí)隱藏單元j的條件概率及給定隱藏單元向量h時(shí)可見單元i為1的條件概率分布為:

(11)

其中,為sigmoid激活函數(shù)。

2 RBM中的學(xué)習(xí)

為了學(xué)習(xí)RBM中的參數(shù)集θ,以擬合給定的訓(xùn)練數(shù)據(jù),可以通過最大化RBM在訓(xùn)練集上的對數(shù)似然函數(shù)而獲得,假設(shè)訓(xùn)練集中樣本數(shù)為T,有:

(12)

這樣獲得最優(yōu)的參數(shù)θ*則可以采用隨機(jī)梯度上升法求得使的最大值,為此,對logP(v(t)|θ)求參數(shù)θ的偏導(dǎo)數(shù)有:

(13)

其中為求關(guān)于分布P的數(shù)學(xué)期望。由于訓(xùn)練樣本已知,所以上式中前一項(xiàng)期望易求得,但對于P(h,v|θ)需要求得隱藏單元與可見單元的聯(lián)合分布,由于劃分函數(shù)Z(θ)的存在,無法直接計(jì)算,而只能采用一些采樣方法獲得其近似值。若分別用與指代P(h|v(t),θ)和P(h,v|θ)分布,則對式(13)中關(guān)于連接權(quán)重Wij,可見單元偏置ai和隱藏單元偏置bj的偏導(dǎo)數(shù)分別為:

(14)

RBM的學(xué)習(xí)過程可以分為正階段與負(fù)階段兩個(gè)步驟。在正階段,可見單元狀態(tài)取訓(xùn)練輸入樣本值,經(jīng)采樣得到隱藏單元。在負(fù)階段中,從當(dāng)前模型采樣得到可見單元與隱藏單元狀態(tài),重建可見單元狀態(tài)。BM的學(xué)習(xí)即通過調(diào)節(jié)連接權(quán)重,使得模型定義的概率分布P-(va)與訓(xùn)練樣本集定義的概率P+(va)一致,如果采用K-L散度度量兩個(gè)概率的近似程度:

(15)

當(dāng)且僅當(dāng)P+(va)=P-(va)時(shí),G=0,即兩個(gè)分布完全一致。這樣可以通過不斷調(diào)節(jié)連接權(quán)重來使模型確定的概率分布與數(shù)據(jù)概率分布的K-L散度盡可能接近。RBM的學(xué)習(xí)步驟如下:

⑴ 隨機(jī)設(shè)定網(wǎng)絡(luò)的初始連接權(quán)重wij(0)與初始高溫;

⑵ 按照已知概率P(va)依次給定訓(xùn)練樣本,在訓(xùn)練樣本的約束下按照SA算法運(yùn)行網(wǎng)絡(luò)到平衡狀態(tài),統(tǒng)計(jì),同樣在無約束條件下按同樣的步驟運(yùn)行網(wǎng)絡(luò)相同次數(shù),統(tǒng)計(jì);

⑶ 修改各個(gè)連接權(quán)重:wij(k+1)=wij(k)+Δwij。

重復(fù)上面的步驟,直到-小于某個(gè)閾值,獲得合適的權(quán)重。

3 RBM學(xué)習(xí)方法對比

當(dāng)前在對RBM的研究中,典型的學(xué)習(xí)方法有Gibbs采樣(Gibbs sampling)算法,變分近似方法(variational approach),對比散度 (contrastive divergence,CD)算法,模擬退火 (simulate annealing) 算法等。下面對這些方法進(jìn)行對比。

3.1 Gibbs采樣算法

Gibbs采樣(Gibbs sampling)算法是一種基于馬爾可夫鏈蒙特卡羅(Markov Chain Monte Carlo, MCMC)策略的采樣方法。給定一個(gè)N維的隨機(jī)向量X=(X1,X2,…,XN),若直接求取X的聯(lián)合分布P(X1,X2,…,XN)非常困難,但如果可以在給定其他分量時(shí),求得第k個(gè)分量的條件分布P(Xk|Xk-),其中Xk-=(X1,X2,…,Xk-1,Xk+1,…,XN)指代排除Xk的其他N-1維的隨機(jī)向量,則可以從X的一個(gè)任意狀態(tài)[x1(0),x2(0),…,xk(0)]開始,利用條件分布,對各分量依次迭代采樣。隨著采樣次數(shù)增加,隨機(jī)變量[x1(n),x2(n),…,xk(n)]將會(huì)以幾何級數(shù)的速度收斂于聯(lián)合分布P(X1,X2,…,XN)。在訓(xùn)練RBM的迭代過程中,可以設(shè)置一個(gè)收斂到模型分布的馬爾可夫鏈,將其運(yùn)行到平衡狀態(tài)時(shí),用馬爾可夫鏈近似期望值。

使用Gibbs采樣算法具有通用性好的優(yōu)點(diǎn),但是由于每次迭代中都需要馬爾可夫鏈達(dá)到極限分布,而Gibbs采樣收斂度緩慢,需要很長的時(shí)間,因此也限制了其應(yīng)用。

3.2 變分方法

變分方法(variational approach)的基本思想是通過變分變換將概率推理問題轉(zhuǎn)換為一個(gè)變分優(yōu)化問題。對于比較困難的概率推理問題,對應(yīng)的變分優(yōu)化問題通常也缺乏有效的精確解法,但此時(shí)可以對變分優(yōu)化問題進(jìn)行適當(dāng)?shù)乃沙?,借助于迭代的方法,獲得高效的近似解。在變分學(xué)習(xí)中,對每個(gè)訓(xùn)練樣本可見單元向量v,用近似后驗(yàn)分布q(h|v,μ)替換隱藏單元向量上的真實(shí)后驗(yàn)分布p(h|v,θ),則RBM模型的對數(shù)似然函數(shù)有下面形式的變分下界:

(16)

其中H(?)為熵函數(shù)。

使用變分法的優(yōu)勢在于,它能夠在實(shí)現(xiàn)最大化樣本對數(shù)似然函數(shù)的同時(shí),最小化近似后驗(yàn)分布與真實(shí)后驗(yàn)分布之間的K-L距離。若采用樸素平均場方法,選擇完全可因式分解化的分布來近似真實(shí)后驗(yàn)分布:,其中q(hj=1)=μj,訓(xùn)練樣本的對數(shù)似然函數(shù)的下界有如下的形式:

(17)

采用交替優(yōu)化的方式,首先固定參數(shù)θ,最大化上式學(xué)習(xí)變分參數(shù)μ,得到不平均場不動(dòng)點(diǎn)方程:

(18)

接下來,再給定變分參數(shù)μ,采用Gibbs采樣法與模擬退火方法等其他方法更新模型參數(shù)θ。在實(shí)際使用中,使用變分方法能夠很好地估計(jì)數(shù)據(jù)期望,但由于式(17)中的負(fù)號會(huì)改變變分參數(shù),使得近似后驗(yàn)分布與真實(shí)后驗(yàn)分布的K-L距離增大,因此將其用來近似模型期望時(shí)不適用。

3.3 對比散度算法

對比散度(contrastive divergence, CD)學(xué)習(xí)方法由Hinton提出,能夠有效地進(jìn)行RBM學(xué)習(xí),而且能夠避免求取對數(shù)似然函數(shù)梯度的麻煩,因此在基于RBM構(gòu)建的深度模型中廣泛使用。CD算法使用估計(jì)的概率分布與真實(shí)概率分布之間K-L距離作為度量準(zhǔn)則。在近似的概率分布差異度量函數(shù)上求解最小化。執(zhí)行CD學(xué)習(xí)算法時(shí),對每個(gè)批次的各訓(xùn)練樣本運(yùn)行n步Gibbs采樣,使用得到的樣本計(jì)算。則連接權(quán)重的CD梯度近似為:

(19)

其中pn為n步Gibbs采樣后獲得的概率分布。通常在使用中只需要取n=1即可以進(jìn)行有效的學(xué)習(xí),因此在使用中較為方便。但CD算法隨著訓(xùn)練過程的進(jìn)行與參數(shù)的增加,馬爾可夫鏈的遍歷性將會(huì)下降,此時(shí)算法對梯度的近似質(zhì)量也會(huì)退化。

3.4 模擬退火算法(Simulated Annealing)

模擬退火算法是對Gibbs采樣算法的改進(jìn),由于Gibbs采樣收斂速度緩慢,因此模擬退火算法采用有索引溫度參數(shù)的目標(biāo)分布進(jìn)行采樣,其核心思想是模擬多個(gè)不同的溫度并行運(yùn)行多個(gè)MCMC鏈,每個(gè)MCMC鏈在一個(gè)有序序列溫度ti上,且t0=1

4 結(jié)束語

隨機(jī)深度神經(jīng)網(wǎng)絡(luò)的興起,借助RBM來學(xué)習(xí)深層網(wǎng)絡(luò)逐漸成為了研究的主流,作為深度網(wǎng)絡(luò)的基礎(chǔ)單元結(jié)構(gòu)―RBM,也成為深度學(xué)習(xí)領(lǐng)域中的核心,它為人們解決各類問題提供了一種強(qiáng)有力的工具。本文對RBM的基本模型進(jìn)行簡要介紹,并對RBM的各種學(xué)習(xí)方法進(jìn)行對比分析。目前RBM的各種學(xué)習(xí)算法仍各有利弊,尚未有滿足各種場合要求的學(xué)習(xí)方法。因此,進(jìn)一步研究如何有效減少計(jì)算復(fù)雜性,簡化網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu),以及快速有效的RBM學(xué)習(xí)方法仍將在深度學(xué)習(xí)模型中占據(jù)重要的地位。

參考文獻(xiàn):

[1] 李海峰,李純果.深度學(xué)習(xí)結(jié)構(gòu)和算法比較分析[J].河北大學(xué)學(xué)報(bào)(自

然科學(xué)版),2012.32(5):538-544

[2] Salakhutdinov R, Hinton G E. An efficient learning procedure for

deep Boltzmann machines[J]. Neural Computation,2012.24(8):1967-2006

[3] 孫志軍,薛磊,許陽明,王正.深度學(xué)習(xí)研究綜述[J].計(jì)算機(jī)應(yīng)用研究,

2012.29(8):2806-2810.

[4] 鄭胤,陳權(quán)峰,章毓晉.深度學(xué)習(xí)及其在目標(biāo)和行為識別中的新進(jìn)展[J].

中國圖象圖形學(xué)報(bào),2014.19(2):175-184

[5] 程強(qiáng),陳峰,董建武,徐文立.概率圖模型中的變分近似推理方法[J].自

動(dòng)化學(xué)報(bào),2012.38(11):1721-1734

[6] Geoffrey E. Hinton,Simon Osindero,Yee-Whye T eh. A fast

learning algorithm for deep belief nets[J]. Neural Computation,2006.18(7):1527-1554

[7] Ruslan Salakhutdinov,Geoffrey Hinton. Deep Boltzmann Machines[J].

JMLR W&CP,2009.5:448-455

篇6

1.人臉識別管理的優(yōu)劣勢分析

人臉識別技術(shù)是通過生物特征進(jìn)行識別的技術(shù),通過識別每個(gè)人的臉部特征,將采集的圖像與系統(tǒng)的圖像庫信息進(jìn)行比對,實(shí)現(xiàn)識別的目的。其有3個(gè)優(yōu)點(diǎn),一是非接觸性,被考勤人員不需要和相關(guān)設(shè)備直接接觸,而指紋采集和一卡通刷卡則必須接觸設(shè)備;二是非強(qiáng)制性,只要出現(xiàn)在人臉采集的特定區(qū)域時(shí),設(shè)備便會(huì)主動(dòng)采集信息;三是并發(fā)性,若在特定區(qū)域同時(shí)出現(xiàn)多人時(shí),可以將全部人臉信息記錄。人臉識別技術(shù)也有缺點(diǎn),一是容易受到光線環(huán)境的影響,若光線過強(qiáng)或嚴(yán)重不足都會(huì)影響人臉信息的采集;二是易受到頭發(fā)、飾物遮擋的影響,有可能造成采集人像的不完整,導(dǎo)致比對信息失敗。這些確定會(huì)在一定程度上影響數(shù)據(jù)采集的準(zhǔn)確性,會(huì)造成比對結(jié)果的判斷不準(zhǔn)確,但隨著人臉識別技術(shù)算法的不斷更新,精確度也會(huì)得以提升。

2.人臉識別的關(guān)鍵技術(shù)

1)人臉關(guān)鍵點(diǎn)檢測

人臉關(guān)鍵點(diǎn)檢測是在人臉檢測的基礎(chǔ)上,自動(dòng)確定人臉各關(guān)鍵點(diǎn)的位置,如眼角、瞳孔、鼻尖、嘴角等。不能忽視了初始狀態(tài)對關(guān)鍵點(diǎn)檢測的影響。采用基于深度初始化網(wǎng)絡(luò)的人臉關(guān)鍵點(diǎn)檢測算法,能夠有效克服初始位置、人臉姿態(tài)、表情等因素對關(guān)鍵點(diǎn)檢測精度的影響,從而得到人臉各關(guān)鍵點(diǎn)的準(zhǔn)確位置。

2)人臉紋理正規(guī)化

將不同光照、姿態(tài)或表情的人臉,還原至良好光照、正面和無表情的人臉,減小待匹配人臉圖片與信息庫中人臉圖片的差異,從而降低特征提取和識別的難度。在光照嚴(yán)重不足或太過強(qiáng)烈、角度過大、表情夸張的情況下,如果強(qiáng)行改變光照強(qiáng)度、旋轉(zhuǎn)至正面人臉、還原至正常表情,必然會(huì)引入大量“非自然”信息,使得正規(guī)化的人臉產(chǎn)生畸變、扭曲和紋理缺失。這樣不僅不會(huì)對人臉識別產(chǎn)生幫助,反而會(huì)降低其性能??梢越梃b人臉合成和生成對抗網(wǎng)絡(luò)的方法,通過初始數(shù)據(jù)庫的搭建、紋理正規(guī)化網(wǎng)絡(luò)的構(gòu)建以及網(wǎng)絡(luò)的融合訓(xùn)練,實(shí)現(xiàn)一個(gè)端到端的、由數(shù)據(jù)驅(qū)動(dòng)的紋理正規(guī)化網(wǎng)絡(luò)和特征識別網(wǎng)絡(luò)。它能夠在提取深度特征的過程中,自適應(yīng)地根據(jù)人臉識別的任務(wù)對人臉的紋理進(jìn)行光照、姿態(tài)和表情的正規(guī)化,從而達(dá)到提高人臉識別性能的目的。

3)人臉特征提取

基于深層卷積神經(jīng)網(wǎng)絡(luò),通過融合人臉多尺度特征信息,獲取高層語義特征表達(dá),提升人臉特征的區(qū)分性。促使同一個(gè)人的人臉特征表達(dá)具有更高的相似性,不同人臉的特征表達(dá)相似度更低。

4)人臉特征比對

針對人臉識別中經(jīng)常遇見的跨場景人臉識別問題,如待驗(yàn)證照片與現(xiàn)場照片非同源、年齡跨度大、分辨率和角度差異明顯等問題,采取自適應(yīng)學(xué)習(xí)方法。通過算法縮小不同場景圖像之間的數(shù)據(jù)分布差異,將不同場景的人臉圖像映射到同一個(gè)具有更好表達(dá)能力的特征空間進(jìn)行比較,從而保證同一個(gè)人的人臉特征表達(dá)具有更高的相似性分?jǐn)?shù),不同人臉的特征相似性分?jǐn)?shù)更低。

3.人臉識別管理系統(tǒng)的功能模塊

1)基礎(chǔ)數(shù)據(jù)的獲取

初始化數(shù)據(jù)是整個(gè)系統(tǒng)運(yùn)行的基礎(chǔ),可以將學(xué)生的基本信息整體導(dǎo)入系統(tǒng),特別是身份證的完整信息,包含證件照。給學(xué)生管理人員開放權(quán)限,可供查詢、修改、刪除數(shù)據(jù)等維護(hù)功能?;拘畔⒅薪Y(jié)構(gòu)和屬性字段比較簡單的部分直接導(dǎo)入,對于哪個(gè)時(shí)間段是正常簽到、遲到、早退、曠課、晚歸等,需要進(jìn)行單獨(dú)標(biāo)明。同時(shí)也需要將人臉識別設(shè)備和教室信息進(jìn)行綁定,條件允許的情況下,各教室配備一臺(tái)識別設(shè)備。若成本過高,則可考慮每層樓配備一臺(tái)設(shè)備,將每層樓的教室信息與設(shè)備綁定。

2)教務(wù)系統(tǒng)的接入

考勤數(shù)據(jù)是基于每學(xué)期的課程安排和作息時(shí)間安排,在此之上增加學(xué)生的出勤狀態(tài)。通過教務(wù)系統(tǒng)的接入,直接獲取班級的排課情況,并將作息時(shí)間安排一并導(dǎo)入,則可通過數(shù)據(jù)的對接,實(shí)現(xiàn)考勤情況的記錄。

3)識別數(shù)據(jù)日志

數(shù)據(jù)日志用于記錄學(xué)生到教師或者宿舍樓的時(shí)間點(diǎn),與基礎(chǔ)數(shù)據(jù)中的導(dǎo)入的身份證照片、學(xué)號、班級等信息建立對應(yīng)關(guān)系。因此,當(dāng)人臉識別設(shè)備識別到信息是,便會(huì)登記采集數(shù)據(jù)的時(shí)間,通過與基礎(chǔ)數(shù)據(jù)庫的信息之間的綁定關(guān)系,記錄下采集數(shù)據(jù)時(shí)的圖像、學(xué)號、日期、時(shí)間、識別設(shè)備、教室等信息。