卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展范文
時間:2024-04-02 18:03:34
導(dǎo)語:如何才能寫好一篇卷積神經(jīng)網(wǎng)絡(luò)的發(fā)展,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公文云整理的十篇范文,供你借鑒。

篇1
關(guān)鍵詞:深度學(xué)習(xí);機器學(xué)習(xí);卷積神經(jīng)網(wǎng)絡(luò)
1概述
深度學(xué)習(xí)(Deep Learning)是人工智能、圖像建模、模式識別、神經(jīng)網(wǎng)絡(luò)、最優(yōu)化理論和信號處理等領(lǐng)域的交叉學(xué)科,主要構(gòu)建和模擬人腦進行分析學(xué)習(xí),它屬于機器學(xué)習(xí)的新興領(lǐng)域。
2大數(shù)據(jù)與深度學(xué)習(xí)
目前,光學(xué)檢測、互聯(lián)網(wǎng)、用戶數(shù)據(jù)、互聯(lián)網(wǎng)、金融公司等許多領(lǐng)域都出現(xiàn)了海量數(shù)據(jù),采用BP算法對于訓(xùn)練神經(jīng)網(wǎng)絡(luò)出現(xiàn)了梯度越來越稀疏、收斂到局部最小值只能用有標(biāo)簽的數(shù)據(jù)來訓(xùn)練等缺點。Hinton于2006年提出了深度學(xué)習(xí)的概念,Lecun等人提出了卷積神經(jīng)網(wǎng)絡(luò),卷積神經(jīng)網(wǎng)絡(luò)利用空間關(guān)系減少參數(shù)數(shù)目以提高訓(xùn)練性能。
CPU和GPU計算能力大幅提升,為深度學(xué)習(xí)提供了硬件平臺和技術(shù)手段,在海量大數(shù)據(jù)處理技術(shù)上解決了早期神經(jīng)網(wǎng)絡(luò)訓(xùn)練不足出現(xiàn)的過擬合、泛化能力差等問題。
大數(shù)據(jù)和深度學(xué)習(xí)必將互相支撐,推動科技發(fā)展。
3深度學(xué)習(xí)模型
深度學(xué)習(xí)模型實際上是一個包含多個隱藏層的神經(jīng)網(wǎng)絡(luò),目前主要有卷積神經(jīng)網(wǎng)絡(luò),深深度置信神經(jīng)網(wǎng)絡(luò),循環(huán)神經(jīng)網(wǎng)絡(luò)。
1)卷積神經(jīng)網(wǎng)絡(luò)
在機器學(xué)習(xí)領(lǐng)域,卷積神經(jīng)網(wǎng)絡(luò)屬于前饋神經(jīng)網(wǎng)絡(luò)的一種,神經(jīng)元不再是全連接的模式,而是應(yīng)用了局部感受區(qū)域的策略。然而傳統(tǒng)的神經(jīng)網(wǎng)絡(luò)使用神經(jīng)元間全連接的網(wǎng)絡(luò)結(jié)構(gòu)來處理圖像任務(wù),因此,出現(xiàn)了很多缺陷,導(dǎo)致模型⑹急劇增加,及其容易過擬合。
在卷積神經(jīng)網(wǎng)絡(luò)中,網(wǎng)絡(luò)中的神經(jīng)元只與前一層的部分神經(jīng)元連接,利用圖像數(shù)據(jù)的空間結(jié)構(gòu),鄰近像素間具有更強的相關(guān)性,單個神經(jīng)元僅對局部信息進行響應(yīng),相鄰神經(jīng)元感受區(qū)域存在重疊,因此,綜合所有神經(jīng)元可以得到全局信息的感知。
另外,一個卷積層中的所有神經(jīng)元均由同一個卷積核對不同區(qū)域數(shù)據(jù)響應(yīng)而得到,即共享同一個卷積核,使得卷積層訓(xùn)練參數(shù)的數(shù)量急劇減少,提高了網(wǎng)絡(luò)的泛化能力。
一般在卷積層后面會進行降采樣操作,對卷積層提取的特征進行聚合統(tǒng)計。降采樣區(qū)域一般不存在重疊現(xiàn)象。降采樣簡化了卷積層的輸出信息,進一步減少了訓(xùn)練參數(shù)的數(shù)量,增強了網(wǎng)絡(luò)的泛化能力。
卷積神經(jīng)網(wǎng)絡(luò)實現(xiàn)了局部特征的自動提取,使得特征提取與模式分類同步進行,適用于處理高分辨率的圖像數(shù)據(jù)。目前,卷積神經(jīng)網(wǎng)絡(luò)在圖像分類、自然語言處理等領(lǐng)域得到廣泛應(yīng)用。
2)深度置信網(wǎng)絡(luò)
深度置信網(wǎng)絡(luò)是一種生成模型,網(wǎng)絡(luò)中有若干隱藏層,同一隱藏層內(nèi)的神經(jīng)元沒有連接,隱藏層間的神經(jīng)元全連接。神經(jīng)網(wǎng)絡(luò)經(jīng)過“反向運行”得到輸入數(shù)據(jù)。
深度置信網(wǎng)絡(luò)可以用做生成模型,通過前期的逐層無監(jiān)督學(xué)習(xí),神經(jīng)網(wǎng)絡(luò)可以較好的對輸入數(shù)據(jù)進行描述,然后把訓(xùn)練好的神經(jīng)網(wǎng)絡(luò)看作深度神經(jīng)網(wǎng)絡(luò),最后得到分類任務(wù)的深度神經(jīng)網(wǎng)絡(luò)。
深度置信網(wǎng)絡(luò)可以用于圖像識別、圖像生成等領(lǐng)域,深度置信網(wǎng)絡(luò)可以進行無監(jiān)督或半監(jiān)督的學(xué)習(xí),利用無標(biāo)記數(shù)據(jù)進行預(yù)訓(xùn)練,提高神經(jīng)網(wǎng)絡(luò)性能。但近幾年由于卷積神經(jīng)網(wǎng)絡(luò)的飛速發(fā)展,深度置信網(wǎng)絡(luò)已經(jīng)很少被提及。
3)循環(huán)神經(jīng)網(wǎng)絡(luò)
循環(huán)神經(jīng)網(wǎng)絡(luò)是一種專門用于處理時序數(shù)據(jù)的神經(jīng)網(wǎng)絡(luò),它與典型的前饋型神經(jīng)網(wǎng)絡(luò)最大區(qū)別在于網(wǎng)絡(luò)中存在環(huán)形結(jié)構(gòu),隱藏層內(nèi)部的神經(jīng)元是互相連接的,可以存儲網(wǎng)絡(luò)的內(nèi)部狀態(tài),其中包含序列輸入的歷史信息,實現(xiàn)了對時序動態(tài)行為的描述。這里的時序并非僅僅指代時間概念上的順序,也可以理解為序列化數(shù)據(jù)間的相對位置。如語音中的發(fā)音順序,某個英語單詞的拼寫順序等。序列化輸入的任務(wù)都可以用循環(huán)神經(jīng)網(wǎng)絡(luò)來處理。如語音、視頻、文本等。對于序列化數(shù)據(jù),每次處理時輸入為序列中的一個元素,比如單個字符、單詞、音節(jié),期望輸出為該輸入在序列數(shù)據(jù)中的后續(xù)元素。循環(huán)神經(jīng)網(wǎng)絡(luò)可以處理任意長度的序列化數(shù)據(jù)。
循環(huán)神經(jīng)網(wǎng)絡(luò)可以用于機器翻譯、連寫字識別、語音識別等。循環(huán)神經(jīng)網(wǎng)絡(luò)和卷積網(wǎng)絡(luò)結(jié)合,將卷積神經(jīng)網(wǎng)絡(luò)用于檢測并識別圖像中的物體,循環(huán)神經(jīng)網(wǎng)絡(luò)用于識別出物體的名稱為輸入,生成合理的語句,從而實現(xiàn)對圖像內(nèi)容的描述。
4深度學(xué)習(xí)應(yīng)用
1)語音識別
語音識別技術(shù)主要包括特征提取技術(shù)、模式匹配準(zhǔn)則及模型訓(xùn)練技術(shù)三個方面。其應(yīng)用領(lǐng)域主要有語音輸入系統(tǒng)、語音控制系統(tǒng)和智能對話查詢系統(tǒng),語音識別極大地推動了人工智能的快速發(fā)展。1952年Davis等人研究了世界上第一個能識別10個英文數(shù)字發(fā)音的實驗系統(tǒng)。大規(guī)模的語音識別研究是在20世紀(jì)70年代以后,在小詞匯量、孤立詞的識別方面取得了實質(zhì)性的進展。2012年,微軟研究院使用深度神經(jīng)網(wǎng)絡(luò)應(yīng)用在語音識別上將識別錯誤率降低了20%,取得了突破性的進展。2015年11月17日,浪潮集團聯(lián)合全球可編程芯片巨頭Altera,以及中國最大的智能語音技術(shù)提供商科大訊飛,共同了一套DNN語音識別方案。
2)圖像分析
圖像是深度學(xué)習(xí)最早嘗試的應(yīng)用領(lǐng)域。1989年,LeCun和他的同事們就發(fā)表了卷積神經(jīng)網(wǎng)絡(luò)的工作。2012年10月,Hinton和他的兩個學(xué)生用更深的CNN在ImageNet挑戰(zhàn)上獲得了第一名,使圖像識別向前躍進了一大步。
自2012年以來,深度學(xué)習(xí)應(yīng)用于圖像識別使得準(zhǔn)確率大大上升,避免了消耗人工特征抽取的時間,極大地提升了效率,目前逐漸成為主流的圖像識別與檢測方法。
篇2
關(guān)鍵詞:機器學(xué)習(xí);深度學(xué)習(xí);推薦算法;遠(yuǎn)程教育
深度學(xué)習(xí)(DeepLearning),也叫階層學(xué)習(xí),是機器學(xué)習(xí)領(lǐng)域研究的分支,它是學(xué)習(xí)樣本數(shù)據(jù)的表示層次和內(nèi)在規(guī)律,在學(xué)習(xí)的過程中獲取某些信息,對于數(shù)據(jù)的解釋有巨大幫助。比如對文字?jǐn)?shù)據(jù)的學(xué)習(xí),在網(wǎng)絡(luò)上獲取關(guān)鍵字,對圖像數(shù)據(jù)的學(xué)習(xí),進行人臉識別等等。
一、深度學(xué)習(xí)發(fā)展概述
深度學(xué)習(xí)是機器學(xué)習(xí)領(lǐng)域里一種對數(shù)據(jù)進行表征學(xué)習(xí)的方法。一句話總結(jié)三者之間的關(guān)系就是:“機器學(xué)習(xí),實現(xiàn)人工智能的方法;深度學(xué)習(xí),實現(xiàn)機器學(xué)習(xí)的技術(shù)。深度學(xué)習(xí)目前是機器學(xué)習(xí)和人工智能領(lǐng)域研究的主要方向,為計算機圖形學(xué)、計算機視覺等領(lǐng)域帶來了革命性的進步。機器學(xué)習(xí)最早在1980年被提出,1984年分類與回歸樹出現(xiàn),直到1986年,Rumelhart等人反向傳播(BackPropaga-tion,BP)算法的提出,解決了感知模型只能處理線性分類的問題,1989年出現(xiàn)的卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNet-works,CNN)也因此得到了一定的發(fā)展。在1990年至2012年,機器學(xué)習(xí)逐漸成熟并施以應(yīng)用,GeoffreyHinton在2006年設(shè)計出了深度信念網(wǎng)絡(luò),解決了反向傳播算法神經(jīng)網(wǎng)絡(luò)中梯度消失的問題,正式提出了深度學(xué)習(xí)的概念,逐漸走向深度學(xué)習(xí)飛速發(fā)展的時期。隨后,各種具有獨特神經(jīng)處理單元和復(fù)雜層次結(jié)構(gòu)的神經(jīng)網(wǎng)絡(luò)不斷涌現(xiàn),深度學(xué)習(xí)技術(shù)不斷提高人工智能領(lǐng)域應(yīng)用方面的極限。
二、深度學(xué)習(xí)主要模型
1、卷積神經(jīng)網(wǎng)絡(luò)卷積神經(jīng)網(wǎng)絡(luò)(ConvolutionalNeuralNetworks,CNN)是指有著深度結(jié)構(gòu)又包含著卷積計算的前饋神經(jīng)網(wǎng)絡(luò)。卷積物理上理解為系統(tǒng)某一時刻的輸出是有多個輸入共同疊加的結(jié)果,就是相當(dāng)于對一個原圖像的二次轉(zhuǎn)化,提取特點的過程。卷積神經(jīng)網(wǎng)絡(luò)實際上就是一個不斷提取特征,進行特征選擇,然后進行分類的過程,卷積在CNN里,首先對原始圖像進行特征提取。所以卷積神經(jīng)網(wǎng)絡(luò)能夠得到數(shù)據(jù)的特征,在模式識別、圖像處理等方面應(yīng)用廣泛。一個卷積神經(jīng)網(wǎng)絡(luò)主要由三層組成,即卷積層(convolutionlayer)、池化層(poolinglayer)、全連接層(fullyconnectedlayer)。卷積層是卷積神經(jīng)網(wǎng)絡(luò)的核心部分,通過一系列對圖像像素值進行的卷積運算,得到圖像的特征信息,同時不斷地加深節(jié)點矩陣的深度,從而獲得圖像的深層特征;池化層的本質(zhì)是對特征圖像進行采樣,除去冗雜信息,增加運算效率,不改變特征矩陣的深度;全連接將層間所有神經(jīng)元兩兩連接在一起,對之前兩層的數(shù)據(jù)進行分類處理。CNN的訓(xùn)練過程是有監(jiān)督的,各種參數(shù)在訓(xùn)練的過程中不斷優(yōu)化,直到得到最好的結(jié)果。目前,卷積神經(jīng)網(wǎng)絡(luò)的改進模型也被廣泛研究,如全卷積神經(jīng)網(wǎng)絡(luò)(FullyConvolutionalNeuralNetworks,F(xiàn)CN)和深度卷積神經(jīng)網(wǎng)絡(luò)(DeepConvolutionalNeuralNetworks,DCNN)等等。2、循環(huán)神經(jīng)網(wǎng)絡(luò)區(qū)別于卷積神經(jīng)網(wǎng)絡(luò)在圖片處理領(lǐng)域的應(yīng)用,循環(huán)神經(jīng)網(wǎng)絡(luò)(RecurrentNeuralNetwork,RNN)主要應(yīng)用在自然語言處理領(lǐng)域。RNN最大的特點就是神經(jīng)元的輸出可以繼續(xù)作為輸入,再次利用到神經(jīng)元中循環(huán)使用。RNN是以序列的方式對數(shù)據(jù)進行讀取,這也是RNN最為獨特的特征。RNN的串聯(lián)式結(jié)構(gòu)適用于時間序列的數(shù)據(jù),可以完好保持?jǐn)?shù)據(jù)中的依賴關(guān)系。循環(huán)神經(jīng)網(wǎng)絡(luò)主要有三層結(jié)構(gòu),輸入層,隱藏層和輸出層。隱藏層的作用是對輸入層傳遞進來的數(shù)據(jù)進行一系列的運算,并將結(jié)果傳遞給輸出層進行輸出。RNN可用于許多不同的地方。下面是RNN應(yīng)用最多的領(lǐng)域:1.語言建模和文本生成,給出一個詞語序列,試著預(yù)測下一個詞語的可能性。這在翻譯任務(wù)中是很有用的,因為最有可能的句子將是可能性最高的單詞組成的句子;2.語音識別;3.生成圖像描述,RNN一個非常廣泛的應(yīng)用是理解圖像中發(fā)生了什么,從而做出合理的描述。這是CNN和RNN相結(jié)合的作用。CNN做圖像分割,RNN用分割后的數(shù)據(jù)重建描述。這種應(yīng)用雖然基本,但可能性是無窮的;4.視頻標(biāo)記,可以通過一幀一幀地標(biāo)記視頻進行視頻搜索。3、深度神經(jīng)網(wǎng)絡(luò)深度神經(jīng)網(wǎng)絡(luò)(deepneuralnetworks,DNN)可以理解為有很多隱藏層的神經(jīng)網(wǎng)絡(luò)。多層神經(jīng)網(wǎng)絡(luò)和深度神經(jīng)網(wǎng)絡(luò)DNN其實也是指的一個東西,DNN有時也叫做多層感知機(Mul-ti-Layerperceptron,MLP)。DNN內(nèi)部的神經(jīng)網(wǎng)絡(luò)層也是分為三類,輸入層,隱藏層和輸出層,一般來說第一層是輸入層,最后一層是輸出層,而中間的層數(shù)都是隱藏層。深度神經(jīng)網(wǎng)絡(luò)(DNN)目前作為許多人工智能應(yīng)用的基礎(chǔ),并且在語音識別和圖像識別上有突破性應(yīng)用。DNN的發(fā)展也非常迅猛,被應(yīng)用到工業(yè)自動駕駛汽車、醫(yī)療癌癥檢測等領(lǐng)域。在這許多領(lǐng)域中,深度神經(jīng)網(wǎng)絡(luò)技術(shù)能夠超越人類的準(zhǔn)確率,但同時也存在著計算復(fù)雜度高的問題。因此,那些能夠解決深度神經(jīng)網(wǎng)絡(luò)表現(xiàn)準(zhǔn)確度或不會增加硬件成本高效處理的同時,又能提升效率和吞吐量的技術(shù)是現(xiàn)在人工智能領(lǐng)域能夠廣泛應(yīng)用DNN技術(shù)的關(guān)鍵。
三、深度學(xué)習(xí)在教育領(lǐng)域的影響
1、學(xué)生學(xué)習(xí)方面通過網(wǎng)上學(xué)習(xí)的實時反饋數(shù)據(jù)對學(xué)生的學(xué)習(xí)模式進行研究,并修正現(xiàn)有教學(xué)模式存在的不足。分析網(wǎng)絡(luò)大數(shù)據(jù),相對于傳統(tǒng)在線學(xué)習(xí)本質(zhì)區(qū)別在于捕捉學(xué)生學(xué)習(xí)過程,有針對性,實現(xiàn)學(xué)生個性化學(xué)習(xí)。舉個例子,在學(xué)習(xí)過程中,可以通過學(xué)習(xí)平臺對學(xué)生學(xué)習(xí)課程所花費的時間,參與的程度,知識的偏好等等數(shù)據(jù)加以分析。也可以通過學(xué)生學(xué)習(xí)某門課程的次數(shù),鼠標(biāo)點擊次數(shù)、停留的時間等,來推斷學(xué)生學(xué)習(xí)情況。通過以上或類似數(shù)據(jù)匯總分析,可以正向引導(dǎo)學(xué)生學(xué)習(xí),并給予積極的學(xué)習(xí)評價。這種利用計算機收集分析出來的客觀數(shù)據(jù),很好展示了學(xué)生學(xué)習(xí)行為的結(jié)果,總結(jié)學(xué)習(xí)規(guī)律,而不需要教師多年的教學(xué)經(jīng)驗來判斷。對于教育研究者而言,利用深度學(xué)習(xí)技術(shù)可以更客觀準(zhǔn)確地了解學(xué)生,使教學(xué)工作良好發(fā)展更進一步。2、教學(xué)方面學(xué)習(xí)平臺的數(shù)據(jù)能夠?qū)虒W(xué)模式的適應(yīng)度進行預(yù)測,通過學(xué)生的考試成績和對教師的線上評價等加以分析,能夠預(yù)測出某一階段的教學(xué)方式發(fā)發(fā)是否可行,影響如何。通過學(xué)生與教師的在線互動,學(xué)生測驗時完成的時間與完成的結(jié)果,都會產(chǎn)生大量的有效的數(shù)據(jù),都可以為教師教學(xué)支持服務(wù)的更好開展提供幫助,從而避免低效率的教學(xué)模式造成教學(xué)資源的浪費。
四、成人遠(yuǎn)程教育中深度學(xué)習(xí)技術(shù)的可應(yīng)用性
深度學(xué)習(xí)方面的應(yīng)用在眾多領(lǐng)域都取得了成功,比如電商商品推薦、圖像識別、自然語言處理、棋類博弈等等。在遠(yuǎn)程教育方面,深度學(xué)習(xí)的技術(shù)還有很大的發(fā)揮空間,智能網(wǎng)絡(luò)教育的實現(xiàn)是人們的眾望所盼。若要將深度學(xué)習(xí)技術(shù)應(yīng)用到遠(yuǎn)程教育平臺,首先要清楚學(xué)生的需求和教學(xué)資源如何分配。1、針對學(xué)生的學(xué)習(xí)需求與學(xué)習(xí)特征進行分析美國斯坦福大學(xué)克里斯皮希研究團隊的研究成果顯示,通過對學(xué)生知識學(xué)習(xí)進行時間建模,可以精確預(yù)測出學(xué)生對知識點的掌握情況,以及學(xué)生在下一次學(xué)習(xí)中的表現(xiàn)。深度學(xué)習(xí)的應(yīng)用可以幫助教師推測出學(xué)生的學(xué)習(xí)能力發(fā)展水平。通過學(xué)生與教學(xué)環(huán)境的交互行為,分析其學(xué)習(xí)風(fēng)格,避免教師用經(jīng)驗進行推斷而產(chǎn)生的誤差。2、教學(xué)資源的利用與分配深度學(xué)習(xí)技術(shù)能夠形成智能的分析結(jié)論。計算機實時采集數(shù)據(jù)集,對學(xué)生的學(xué)習(xí)情況加以分析,使教師對學(xué)生的學(xué)習(xí)狀態(tài)、情緒狀態(tài)等有更加清晰、準(zhǔn)確的了解。有了上面良好的教學(xué)模式,教師對學(xué)生的學(xué)習(xí)狀態(tài)有了更準(zhǔn)確的掌握,對學(xué)生的學(xué)習(xí)結(jié)果就有了更科學(xué)的教學(xué)評價?;谏疃葘W(xué)習(xí)的人工智能技術(shù),還可以輔助教師實現(xiàn)智能閱卷,通過智能閱卷自動總結(jié)出學(xué)習(xí)中出現(xiàn)的問題,幫助教師減少重復(fù)性勞動,減輕教師負(fù)擔(dān)。作為成人高校,遠(yuǎn)程教育是我們的主要教學(xué)手段,也是核心教學(xué)方式,學(xué)校的教學(xué)必定是在學(xué)生方便學(xué)習(xí)的同時,以學(xué)生的學(xué)習(xí)效果為重。通過深度學(xué)習(xí)技術(shù),可以科學(xué)地分析出學(xué)生的學(xué)習(xí)效果,對后續(xù)教與學(xué)給予科學(xué)、可靠的數(shù)據(jù)支撐。我們可以在平臺上為每位同學(xué)建立學(xué)習(xí)模型,根據(jù)學(xué)生的學(xué)習(xí)習(xí)慣為其定制個性化方案,按他們的興趣進行培養(yǎng),發(fā)揮他們專業(yè)的潛能。同時,可以將學(xué)生正式在線參加學(xué)習(xí)和考試的學(xué)習(xí)行為和非學(xué)習(xí)時間瀏覽網(wǎng)站的行為結(jié)合到一起,更加科學(xué)地分析出學(xué)生在學(xué)習(xí)網(wǎng)站上感興趣的地方。采用深度學(xué)習(xí)算法,根據(jù)學(xué)生學(xué)習(xí)行為產(chǎn)生的海量數(shù)據(jù)推算出學(xué)生當(dāng)前狀態(tài)與目標(biāo)狀態(tài)之間的差距,做到精準(zhǔn)及時的學(xué)習(xí)需求反饋。有助于幫助學(xué)生明確學(xué)習(xí)目標(biāo),教師確立教學(xué)目標(biāo),真正做好因材施教。基于深度學(xué)習(xí)各種智能識別技術(shù),可以為教師的線上教學(xué)活動增光添彩,在反饋學(xué)生學(xué)習(xí)狀態(tài)的同時,采用多種形式的教學(xué)方法吸引學(xué)生的注意力,增強教學(xué)活動的互動性,達到良好的教學(xué)效果。
篇3
關(guān)鍵詞:卷積神經(jīng)網(wǎng)絡(luò);語言模型;分析
1 卷積神經(jīng)網(wǎng)絡(luò)語言模型
CNN語言模型基本結(jié)構(gòu)包括輸入層、卷積層、池化層及后續(xù)的分類層。輸入層是表示語言的矩陣,該矩陣可以是通過Google word2vec或GloVe預(yù)訓(xùn)練得到的詞嵌入表示,也可以是從原始數(shù)據(jù)重新訓(xùn)練的語言的向量表示。輸入層之后是通過線性濾波器對輸入矩陣進行卷積操作的卷積層。在NLP問題中,輸入矩陣總是帶有固定順序的結(jié)構(gòu),因為矩陣的每一行都表示離散的符號,例如單詞或者詞組等。因此,使用等寬的濾波器是非常合理的設(shè)置。在這種設(shè)置下,僅需要考慮濾波器的高度既可以實現(xiàn)不同尺寸的濾波器做卷積操作。由此可知,在處理NLP問題時,卷積神經(jīng)網(wǎng)絡(luò)的濾波器尺寸一般都是指濾波器的高度。
然后,將卷積層輸出的特征映射輸入池化層,通過池化函數(shù)為特征映射進行降維并且減少了待估計參數(shù)規(guī)模。一般的,CNN池化操作采用1-max池化函數(shù)。該函數(shù)能夠?qū)⑤斎氲奶卣饔成浣y(tǒng)一生成維度相同的新映射。通過池化操作,可以將卷積層生成的特征連接成更抽象的高級特征,所得到的高級特征尺寸與輸入的句子不再存在直接關(guān)系。
最后,將得到的高級特征輸入softmax分類層進行分類操作。在softmax層,可以選擇應(yīng)用dropout策略作為正則化手段,該方法是隨機地將向量中的一些值設(shè)置為0。另外還可以選擇增加l2范數(shù)約束,l2范數(shù)約束是指當(dāng)它超過該值時,將向量的l2范數(shù)縮放到指定閾值。在訓(xùn)練期間,要最小化的目標(biāo)是分類的交叉熵?fù)p失,要估計的參數(shù)包括濾波器的權(quán)重向量,激活函數(shù)中的偏置項以及softmax函數(shù)的權(quán)重向量。
2 卷積神經(jīng)網(wǎng)絡(luò)語言模型應(yīng)用分析
CNN語言模型已經(jīng)廣泛應(yīng)用于諸如文本分類,關(guān)系挖掘以及個性化推薦等NLP任務(wù),下面將對這些應(yīng)用進行具體的介紹與分析。
2.1 CNN在文本分類中的應(yīng)用分析
kim提出了利用CNN進行句子分類的方法。該方法涉及了較小規(guī)模的參數(shù),并采用靜態(tài)通道的CNN實現(xiàn)了效果很優(yōu)異的句子分類方法。通過對輸入向量的調(diào)整,進一步提高了性能實現(xiàn)了包括情感極性分析以及話題分類的任務(wù)。在其基礎(chǔ)上為輸入的詞嵌入設(shè)計了兩種通道,一種是靜態(tài)通道,另一種是動態(tài)通道。在卷積層每一個濾波器都通過靜態(tài)與動態(tài)兩種通道進行計算,然后將計算結(jié)果進行拼接。在池化層采用dropout正則化策略,并對權(quán)值向量進行l(wèi)2約束。最后將該算法應(yīng)用于MR、SST-1與SST-2、Subj、TREC、CR以及MPQA等數(shù)據(jù)集。MR數(shù)據(jù)集為電影評論數(shù)據(jù)集,內(nèi)容為一句話的電影評論,其分類包括積極情感極性與消極情感極性兩類。SST-1與SST-2數(shù)據(jù)集為斯坦福情感樹庫是MR數(shù)據(jù)集的擴展,但該數(shù)據(jù)集已經(jīng)劃分好了訓(xùn)練集、驗證集及測試集并給出了細(xì)粒度的標(biāo)記,標(biāo)記包括非常積極、積極、中性、消極、非常消極等情感極性。Subj數(shù)據(jù)集為主觀性數(shù)據(jù)集,其分類任務(wù)是將句子分為主觀句與客觀句兩類。TREC數(shù)據(jù)集為問題數(shù)據(jù)集,其分類任務(wù)是將所有問題分為六類,例如關(guān)于數(shù)字、人物或位置等信息的問題。CR數(shù)據(jù)集為評論數(shù)據(jù)集,包括客戶對MP3、照相機等數(shù)碼產(chǎn)品的評論,其分類任務(wù)是將其分為積極評價與消極評價兩類。MPQA數(shù)據(jù)集是意見極性檢測任務(wù)數(shù)據(jù)集。通過實驗證明,該方法在這幾個典型數(shù)據(jù)集上都能取得非常優(yōu)異的效果。
2.2 CNN在關(guān)系挖掘中的應(yīng)用分析
Shen等人提出了一種新的潛在語義模型,以詞序列作為輸入,利用卷積-池化結(jié)構(gòu)為搜索查詢和Web文檔學(xué)習(xí)低維語義向量表示。為了在網(wǎng)絡(luò)查詢或網(wǎng)絡(luò)文本中捕捉上下文結(jié)構(gòu),通過輸入單詞序列上下文時間窗口中的每個單詞來獲取詞匯級的n-gram語法特征,將這些特征聚合成句子級特征向量。最后,應(yīng)用非線性變換來提取高級語義信息以生成用于全文字符串的連續(xù)向量表示。該模型的不同之處在于,輸入層與卷積層之間加入了word-n-gram層與letter-trigram層,它們能夠?qū)⑤斎氲脑~序列轉(zhuǎn)變?yōu)閘etter-trigram表示向量。在卷積層通過上下文特征窗口發(fā)現(xiàn)相鄰單詞的位置特征,并變現(xiàn)為n-gram形式。然后通過max池化將word-n-gram特征合并為句子級的高級特征。在池化層之后增加了語義層來提取更高級的語義表示向量。
2.3 CNN在個性化推薦中的應(yīng)用分析
Weston等人提出了一種能夠利用標(biāo)簽(hashtag)有監(jiān)督的學(xué)習(xí)網(wǎng)絡(luò)帖子短文本特征表示的卷e嵌入模型(Convolutional Embedding Model)。該方法利用提出的CNN模型在55億詞的大數(shù)據(jù)文本上通過預(yù)標(biāo)注的100,000標(biāo)簽進行訓(xùn)練。該方法除了標(biāo)簽預(yù)測任務(wù)本身能取得好的效果外,學(xué)習(xí)到的特征對于其它的文本表示任務(wù)也能起到非常有效的作用。該模型與其它的詞嵌入模型類似,輸入層為表示文本的矩陣,但是,在用查找表表示輸入文本的同時將標(biāo)簽也使用查找表來表示。對于給定的文檔利用10萬條最頻繁出現(xiàn)的標(biāo)簽通過評分函數(shù)對任何給定的主題標(biāo)簽進行排序。
其中,econv(w)表示CNN的輸入文檔,elt(t)是候選標(biāo)簽t的詞嵌入表示。因此,通過對分?jǐn)?shù)f(w,t)進行排序可以獲取所有候選主題標(biāo)簽中排序第一的話題進行推薦。實驗數(shù)據(jù)集采用了兩個大規(guī)模語料集,均來自流行的社交網(wǎng)絡(luò)文本并帶有標(biāo)簽。第一個數(shù)據(jù)集稱作people數(shù)據(jù)集,包括搜集自社交網(wǎng)絡(luò)的2億1000萬條文本,共含有55億單詞。第二個數(shù)據(jù)集被稱作pages,包括3530萬條社交網(wǎng)絡(luò)文本,共含有16億單詞,內(nèi)容包括企業(yè)、名人、品牌或產(chǎn)品。
3 結(jié)束語
卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于語言模型已經(jīng)取得了非常大的發(fā)展,對于自然語言處理中的各項任務(wù)均取得了優(yōu)異的結(jié)果。本文通過對幾項典型工作的分析,探討了不同卷積神經(jīng)網(wǎng)絡(luò)模型結(jié)構(gòu)在不同任務(wù)中的表現(xiàn)。通過綜合分析可以得出以下結(jié)論。首先,CNN的輸入采用原始數(shù)據(jù)訓(xùn)練的向量表示一般效果會優(yōu)于預(yù)訓(xùn)練的詞嵌入表示;其次,在卷積層濾波器的尺寸一般采用寬度與輸入矩陣寬度相等的設(shè)置;最后,為了優(yōu)化結(jié)果可以采用dropout正則化處理。
篇4
【關(guān)鍵詞】圖像識別;數(shù)學(xué)建模;分類算法;深度學(xué)習(xí)
引言
隨著微電子技術(shù)及計算機技術(shù)的蓬勃發(fā)展,圖像識別應(yīng)運而生,圖像識別是研究用計算機代替人們自動地去處理大量的物理信息,從而代替人的腦力勞動。隨著計算機處理能力的不斷強大,圖像識別從最早的文字識別、數(shù)字識別逐漸發(fā)展到人臉識別、物體識別、場景識別、精細(xì)目標(biāo)識別等,所采用的技術(shù)也從最早的模板匹配、線性分類到廣泛使用的深層神經(jīng)網(wǎng)絡(luò)與支持向量機分類等方法。
1.圖像識別中的數(shù)學(xué)問題建模
1.1飛行器降落圖像智能識別建模
在復(fù)雜地形環(huán)境下,飛行器進行下降過程,需要采集圖像并且判斷是否符合降落要求。在對飛行器進行最終落地點的選擇時,如果降落點復(fù)雜程度較高,采集的圖像中將會產(chǎn)生大量的訓(xùn)練樣本數(shù)目,圖像配準(zhǔn)過程中,極大地增加了運算量,造成最佳降落點選擇的準(zhǔn)確率降低。提出了利用圖像智能識別進行最佳降落點的建模。利用偽Zemike矩能夠?qū)德潼c的圖像形狀進行準(zhǔn)確的描述,利用Procrustes形狀分析法提取最佳降落點的特征,利用Rank的融合決策法最終實現(xiàn)最佳降落點選擇的目的。
1.2人臉面部表情圖像識別的隱馬爾科夫建模
人有喜怒哀樂,目前有一種利用隱馬爾科夫模型的建模方法,可以實現(xiàn)對人臉表情中的情感進行識別。具體的是:首先,采用子窗口對人臉面部表情圖像進行采樣,然后利用離散余弦變換提取所需要的特征向量,通過對人臉面部圖像進行隱馬爾科夫建模,使用獲得的特征向量作為觀測向量對人臉面部圖像的隱馬爾科夫模型進行訓(xùn)練,再使用訓(xùn)練后的隱馬爾科夫模型對JAFFE人臉圖像測試集中地人臉表情圖像進行情感識別。
2.典型的圖像識別算法
2.1 基于Gabor變換和極限學(xué)習(xí)機的貝類圖像種類識別
對貝類圖像進行Gabor變換,提取其圖像特征,確定了圖像特征維數(shù);采用2DPCA方法,對變換后的特征進行降維,并利用極限學(xué)習(xí)機(ELM)進行貝類圖像的分類識別。與BP神經(jīng)網(wǎng)絡(luò)和支持向量機(SVM)實驗對比發(fā)現(xiàn),極限學(xué)習(xí)機分類器用于貝類識別不僅速度極快而且泛化性良好,算法具有較高的精度。其特點對高維圖像識別精確度高,但算法的復(fù)雜度和設(shè)計一個精確的分類器都顯得難以把握。因此該類圖像識別算法很難普遍推廣使用,識別對象必須是貝類圖像。
2.2 利用公開的全極化SAR數(shù)據(jù),研究基于SAR圖像的檢測、極化分解和識別算法
首先根據(jù)四個線極化通道合成偽彩色圖像,從而對場景進行初步認(rèn)知。利用一維距離像分析全極化各通道的信噪比強度,通過對目標(biāo)進行Pauli分解得到目標(biāo)的奇次散射分量和偶次散射分量,從而完成對海雜波、建筑物和艦船的相干分量的研究。其特點過程簡單易掌握,但識別對象有限。
2.3 基于SVM的離線圖像目標(biāo)分類算法
基于SVM的離線圖像目標(biāo)分類算法,先對訓(xùn)練集預(yù)處理,然后將處理后的圖像進行梯度直方圖提取最后對圖像目標(biāo)的分離器進行檢測,但是這種圖像識別算法只是有效,實用性不強。
3.深度學(xué)習(xí)在圖像識別的應(yīng)用
3.1 Deep learning的原理
深度學(xué)習(xí)是一種模擬人腦的思考方式,通過建立類似人腦的神經(jīng)網(wǎng)絡(luò),實現(xiàn)對數(shù)據(jù)的分析,即按照人類的思維做出先關(guān)解釋,形成方便人們理解的圖像、文字或者聲音。深度學(xué)習(xí)的重點是對模型的運用,模型中需要的參數(shù)是通過對大量數(shù)據(jù)的學(xué)習(xí)和分析中得到的。
深度學(xué)習(xí)有兩種類型:有監(jiān)督學(xué)習(xí)和無監(jiān)督學(xué)習(xí)。學(xué)習(xí)模型根據(jù)學(xué)習(xí)框架的類型來確定。比如,卷積神經(jīng)網(wǎng)絡(luò)就是一種深度的監(jiān)督學(xué)習(xí)下的機器學(xué)習(xí)模型,而深度置信網(wǎng)就是一種無監(jiān)督學(xué)習(xí)下的機器學(xué)習(xí)模型。
3.2 深度學(xué)習(xí)的典型應(yīng)用
深度學(xué)習(xí)是如今計算機領(lǐng)域中的一個奪人眼球的技術(shù)。而在深度學(xué)習(xí)的模型中研究熱度最高的是卷積神經(jīng)網(wǎng)絡(luò),它是一種能夠?qū)崿F(xiàn)大量圖像識別任務(wù)的技術(shù)。卷積神經(jīng)網(wǎng)絡(luò)的核心思想是局部感受野、權(quán)值共享以及時間或空間亞采集。通常卷及神經(jīng)網(wǎng)絡(luò)使用最后一層全連接隱層的值作為對輸入樣本所提出的特征,通過外部數(shù)據(jù)進行的有監(jiān)督學(xué)習(xí),從而可以保證所得的特征具有較好的對類內(nèi)變化的不變性。
3.2.1基于深度學(xué)習(xí)特征的人臉識別方法。
卷積神經(jīng)網(wǎng)絡(luò)在人臉識別領(lǐng)域取得了較大突破,為了更加有效的解決復(fù)雜類內(nèi)變化條件下的小樣本人臉識別問題,使用深度學(xué)習(xí)的方法來提取特征,與基于稀疏表示的方法結(jié)合起來,實驗證明了深度學(xué)習(xí)所得的人臉特征具有很好的子空間特性,而且具有可遷移性以及對類內(nèi)變化的不變性。
3.2.2基于深度學(xué)習(xí)的盲文識別方法。
目前盲文識別系統(tǒng)存在識別率不高、圖片預(yù)處理較為復(fù)雜等問題。針對這些問題,利用深度模型堆疊去噪編碼器自動、全面學(xué)習(xí)樣本深層次特征,避免人為手工選取特征存在的多種弊端,并用學(xué)習(xí)的特征作為神經(jīng)網(wǎng)絡(luò)的輸入,更大程度地避免了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)由于隨機選取初值而導(dǎo)致結(jié)果陷入局部極值的問題。
3.2.3基于深度學(xué)習(xí)的手繪草圖識別。
目前的手繪草圖識別方法存在費時費力,較依賴于手工特征提取等問題?;谏疃葘W(xué)習(xí)的手繪草圖識別方法根據(jù)手繪草圖時缺失顏色、紋理信息等特點,使用大尺寸的首層卷積核獲得更多的空間結(jié)構(gòu)信息,利用訓(xùn)練淺層模型獲得的模型參數(shù)來初始化深度模型對應(yīng)層的模型參數(shù),以加快收斂,減少訓(xùn)練時長,加入不改變特征大小的卷基層來加深網(wǎng)絡(luò)深度等方法實現(xiàn)減小錯誤率。
4.結(jié)論
圖像識別是當(dāng)代人工智能的熱門研究方向,其應(yīng)用領(lǐng)域也是超乎人類想象的,相信通過技術(shù)的不斷創(chuàng)新,圖像識別技術(shù)會給人們的生活帶來智能化、個性化、全面化的服務(wù)。
參考文獻:
[1]穆靜,陳芳,王長元.人臉面部表情圖像的隱馬爾科夫建模及情感識別[J].西安:西安工業(yè)大學(xué)學(xué)報,2015(09).
[2]楊靖堯,里紅杰,陶學(xué)恒.基于Gabor變換和極限學(xué)習(xí)機的貝類圖像種類識別[J].大連工業(yè)大學(xué)學(xué)報,2013(04).
[3]馬曉,張番棟,封舉富.基于深度學(xué)習(xí)特征的稀疏表示的人臉識別方法[J].智能系統(tǒng)學(xué)報,2016(11).
篇5
關(guān)鍵詞:人機大戰(zhàn);人工智能;發(fā)展前景
中圖分類號:TP391 文獻標(biāo)識碼:A
0.引言
2016年3月15日,備受矚目的“人機大戰(zhàn)”終于落下帷幕,最終Google公司開發(fā)的“AlphaGo”以4∶1戰(zhàn)勝了韓國九段棋手李世h。毫無疑問,這是人工智能歷史上一個具有里程碑式的大事件。大家一致認(rèn)為,人工智能已經(jīng)上升到了一個新的高度。
這次勝利與1997年IBM公司的“深藍(lán)”戰(zhàn)勝國際象棋世界冠軍卡斯帕羅不同。主要表現(xiàn)在兩個方面:
(1)AlphaGo的勝利并非僅僅依賴強悍的計算能力和龐大的棋譜數(shù)據(jù)庫取勝,而是AlphaGo已經(jīng)擁有了深度學(xué)習(xí)的能力,能夠?qū)W習(xí)已經(jīng)對弈過的棋盤,并在練習(xí)和實戰(zhàn)中不斷學(xué)習(xí)和積累經(jīng)驗。
(2)圍棋比國際象棋更加復(fù)雜,圍棋棋盤有361個點,其分支因子無窮無盡,19×19格圍棋的合法棋局?jǐn)?shù)的所有可能性是冪為171的指數(shù),這樣的計算量相當(dāng)巨大。英國圍棋聯(lián)盟裁判托比表示:“圍棋是世界上最為復(fù)雜的智力游戲,它簡單的規(guī)則加深了棋局的復(fù)雜性”。因此,進入圍棋領(lǐng)域一直被認(rèn)為是目前人工智能的最大挑戰(zhàn)。
簡而言之,AlphaGo取得勝利的一個很重要的方面就是它擁有強大的“學(xué)習(xí)”能力。深度學(xué)習(xí)是源于人工神經(jīng)網(wǎng)絡(luò)的研究,得益于大數(shù)據(jù)和互聯(lián)網(wǎng)技術(shù)。本文就從人工智能的發(fā)展歷程與現(xiàn)狀入手,在此基礎(chǔ)上分析了人工智能的未來發(fā)展前景。
1.人工智能的發(fā)展歷程
AlphaGo的勝利表明,人工智能發(fā)展到今天,已經(jīng)取得了很多卓越的成果。但是,其發(fā)展不是一帆風(fēng)順的,人工智能是一個不斷進步,并且至今仍在取得不斷突破的學(xué)科?;仡櫲斯ぶ悄艿陌l(fā)展歷程,可大致分為孕育、形成、暗淡、知識應(yīng)用和集成發(fā)展五大時期。
孕育期:1956年以前,數(shù)學(xué)、邏輯、計算機等理論和技術(shù)方面的研究為人工智能的出現(xiàn)奠定了基礎(chǔ)。德國數(shù)學(xué)家和哲學(xué)家萊布尼茨把形式邏輯符號化,奠定了數(shù)理邏輯的基礎(chǔ)。英國數(shù)學(xué)家圖靈在1936年創(chuàng)立了自動機理論(亦稱圖靈機),1950年在其著作《計算機與智能》中首次提出“機器也能思維”,被譽為“人工智能之父”??傊?,這些人為人工智能的孕育和產(chǎn)生做出了巨大的貢獻。
形成期:1956年夏季,在美國達特茅斯大學(xué)舉辦了長達2個多月的研討會,熱烈地討論用機器模擬人類智能的問題。該次會議首次使用了“人工智能”這一術(shù)語。這是人類歷史上第一次人工智能研討會,標(biāo)志著人工智能學(xué)科的誕生。其后的十幾年是人工智能的黃金時期。在接下來的幾年中,在眾多科學(xué)家的努力下,人工智能取得了矚目的突破,也在當(dāng)時形成了廣泛的樂觀思潮。
暗淡期:20世紀(jì)70年代初,即使最杰出的AI程序也只能解決問題中最簡單的部分,發(fā)展遇到瓶頸也就是說所有的AI程序都只是“玩具”,無法解決更為復(fù)雜的問題。隨著AI遭遇批評,對AI提供資助的機構(gòu)也逐漸停止了部分AI的資助。資金上的困難使得AI的研究方向縮窄,缺少了以往的自由探索。
知識應(yīng)用期:在80年代,“專家系統(tǒng)”(Expect System)成為了人工智能中一個非常主流的分支?!皩<蚁到y(tǒng)”是一種程序,為計算機提供特定領(lǐng)域的專門知識和經(jīng)驗,計算機就能夠依據(jù)一組從專門知識中推演出的邏輯規(guī)則在某一特定領(lǐng)域回答或解決問題。不同領(lǐng)域的專家系統(tǒng)基本都是由知識庫、數(shù)據(jù)庫、推理機、解釋機制、知識獲取等部分組成。
集成發(fā)展期:得益于互聯(lián)網(wǎng)的蓬勃發(fā)展、計算機性能的突飛猛進、分布式系統(tǒng)的廣泛應(yīng)用以及人工智能多分支的協(xié)同發(fā)展,人工智能在這一階段飛速發(fā)展。尤其是隨著深度學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)研究的不斷深入,人工智能在近幾十年中取得了長足的進步,取得了令人矚目的成就。
人工智能發(fā)展到今天,出現(xiàn)了很多令人矚目的研究成果。AlphaGo的勝利就是基于這些研究成果的一個里程碑。當(dāng)前人工智能的研究熱點主要集中在自然語言處理、機器學(xué)習(xí)、人工神經(jīng)網(wǎng)絡(luò)等領(lǐng)域。
2.人工智能l展現(xiàn)狀與前景
人工智能當(dāng)前有很多重要的研究領(lǐng)域和分支。目前,越來越多的AI項目依賴于分布式系統(tǒng),而當(dāng)前研究的普遍熱點則集中于自然語言處理、機器學(xué)習(xí)和人工神經(jīng)網(wǎng)絡(luò)等領(lǐng)域。
自然語言處理:自然語言處理(Natural Language Processing,簡稱NLP),是語言學(xué)與人工智能的交叉學(xué)科,其主要功能就是實現(xiàn)讓機器明白人類的語言,這需要將人類的自然語言轉(zhuǎn)化為計算機能夠處理的機器語言。
自然語言處理主要包括詞法分析、句法分析和語義分析三大部分。詞法分析的核心就是分詞處理,即單詞的邊界處理。句法分析就是對自然語言中句子的結(jié)構(gòu)、語法進行分析如辨別疑問句和感嘆句等。而語義分析則注重情感分析和整個段落的上下文分析,辨別一些字詞在不同的上下文定的語義和情感態(tài)度。
當(dāng)前自然語言的處理主要有兩大方向。一種是基于句法-語義規(guī)則的理性主義理論,該理論認(rèn)為需要為計算機制定一系列的規(guī)則,計算機在規(guī)則下進行推理與判斷。因此其技術(shù)路線是一系列的人為的語料建設(shè)與規(guī)則制定。第二種是基于統(tǒng)計學(xué)習(xí)的經(jīng)驗主義理論,這種理論在最近受到普遍推崇。該理論讓計算機自己通過學(xué)習(xí)并進行統(tǒng)計推斷的方式不停地從數(shù)據(jù)中“學(xué)習(xí)”語言,試圖刻畫真實世界的語言現(xiàn)象,從數(shù)據(jù)中統(tǒng)計語言的規(guī)律。
機器學(xué)習(xí):機器學(xué)習(xí)(Machine Learning)是近20年來興起的人工智能一大重要領(lǐng)域。其主要是指通過讓計算機在數(shù)據(jù)中自動分析獲得規(guī)律,從而獲取“自我學(xué)習(xí)”的能力,并利用規(guī)律對未知數(shù)據(jù)進行判斷和預(yù)測的方法。
機器學(xué)致可以分為有監(jiān)督的學(xué)習(xí)和無監(jiān)督的學(xué)習(xí)。有監(jiān)督的學(xué)習(xí)是從給定的訓(xùn)練數(shù)據(jù)集中練出一個函數(shù)和目標(biāo),當(dāng)有新的數(shù)據(jù)到來時,可以由訓(xùn)練得到函數(shù)預(yù)測目標(biāo)。有監(jiān)督的學(xué)習(xí)要求訓(xùn)練集同時有輸入和輸出,也就是所謂的特征和目標(biāo)。而依據(jù)預(yù)測的結(jié)果是離散的還是連續(xù)的,將有監(jiān)督的學(xué)習(xí)分為兩大問題,即統(tǒng)計分類問題和回歸分析問題。統(tǒng)計分類的預(yù)測結(jié)果是離散的,如腫瘤是良性還是惡性等;而回歸分析問題目標(biāo)是連續(xù)的,如天氣、股價等的預(yù)測。
無監(jiān)督學(xué)習(xí)的訓(xùn)練集則沒有人為標(biāo)注的結(jié)果,這就需要計算機去發(fā)現(xiàn)數(shù)據(jù)間的聯(lián)系并用來分類等。一種常見的無監(jiān)督學(xué)習(xí)是聚類分析(Cluster Analysis),它是將相似的對象通過靜態(tài)分類的方法分成不同的組別或者是特定的子集,讓同一個子集中的數(shù)據(jù)對象都有一些相似的屬性,比較常用的聚類方法是簡潔并快速的“K-均值”聚類算法。它基于K個中心并對距離這些中心最近的數(shù)據(jù)對象進行分類。
機器學(xué)習(xí)還包括如半監(jiān)督學(xué)習(xí)和增強學(xué)習(xí)等類別??偠灾瑱C器學(xué)習(xí)是研究如何使用機器來模擬人類學(xué)習(xí)活動的一門學(xué)科,而其應(yīng)用隨著人工智能研究領(lǐng)域的深入也變得越來越廣泛,如模式識別、計算機視覺、語音識別、推薦算法等領(lǐng)域越來越廣泛地應(yīng)用到了機器學(xué)習(xí)中。
人工神經(jīng)網(wǎng)絡(luò):在腦神經(jīng)科學(xué)領(lǐng)域,人們認(rèn)為人類的意識及智能行為,都是通過巨大的神經(jīng)網(wǎng)絡(luò)傳遞的,每個神經(jīng)細(xì)胞通過突出與其他神經(jīng)細(xì)胞連接,當(dāng)通過突觸的信號強度超過某個閾值時,神經(jīng)細(xì)胞便會進入激活狀態(tài),向所連接的神經(jīng)細(xì)胞一層層傳遞信號。于1943年提出的基于生物神經(jīng)元的M-P模型的主要思想就是將神經(jīng)元抽象為一個多輸入單輸出的信息處理單元,并通過傳遞函數(shù)f對輸入x1,x2…,xn進行處理并模擬神經(jīng)細(xì)胞的激活模式。主要的傳遞函數(shù)有階躍型、線性型和S型。
在此基礎(chǔ)上,對神經(jīng)網(wǎng)絡(luò)算法的研究又有諸多進展。日本的福島教授于1983年基于視覺認(rèn)知模型提出了卷積神經(jīng)網(wǎng)絡(luò)計算模型。通過學(xué)習(xí)訓(xùn)練獲取到卷積運算中所使用的卷積系數(shù),并通過不同層次與自由度的變化,可以得到較為優(yōu)化的計算結(jié)果。而AlphaGo也正是采用了這種深度卷積神經(jīng)網(wǎng)絡(luò)(DCNN)模型,提高了AlphaGo的視覺分類能力,也就是所謂的“棋感”,增強了其對全盤決策和把握的能力。
3.人工智能的發(fā)展前景
總體來看,人工智能的應(yīng)用經(jīng)歷了博弈、感知、決策和反饋這幾個里程碑。在以上4個領(lǐng)域中,既是縱向發(fā)展的過程,也是橫向不斷改進的過程。
人工智能在博弈階段,主要是實現(xiàn)邏輯推理等功能,隨著計算機處理能力的進步以及深度學(xué)習(xí)等算法的改進,機器擁有了越來越強的邏輯與對弈能力。在感知領(lǐng)域,隨著自然語言處理的進步,機器已經(jīng)基本能對人類的語音與語言進行感知,并且能夠已經(jīng)對現(xiàn)實世界進行視覺上的感知?;诖髷?shù)據(jù)的處理和機器學(xué)習(xí)的發(fā)展,機器已經(jīng)能夠?qū)χ車沫h(huán)境進行認(rèn)知,例如微軟的Kinect就能夠準(zhǔn)確的對人的肢體動作進行判斷。該領(lǐng)域的主要實現(xiàn)還包括蘋果的Siri,谷歌大腦以及無人駕駛汽車中的各種傳感器等。在以上兩個階段的基礎(chǔ)上,機器擁有了一定的決策和反饋的能力。無人駕駛汽車的蓬勃發(fā)展就是這兩個里程碑很好的例證。Google的無人駕駛汽車通過各種傳感器對周圍的環(huán)境進行感知并處理人類的語言等指令,利用所收集的信息進行最后的決策,比如操作方向盤、剎車等。
人工智能已經(jīng)滲透到生活中的各個領(lǐng)域。機器已經(jīng)能識別語音、人臉以及視頻內(nèi)容等,從而實現(xiàn)各種人際交互的場景。在醫(yī)學(xué)領(lǐng)域,人工智能可以實現(xiàn)自動讀片和輔助診斷以及個性化t療和基因排序等功能。在教育領(lǐng)域,機器也承擔(dān)了越來越多的輔助教育,智能交互的功能。在交通領(lǐng)域,一方面無人車的發(fā)展表明無人駕駛是一個可以期待的未來,另一方面人工智能能夠帶來更加通暢和智能的交通。另外人工智能在安防、金融等領(lǐng)域也有非常廣闊的發(fā)展前景??傊?,人工智能在一些具有重復(fù)性的和具備簡單決策的領(lǐng)域已經(jīng)是一種非常重要的工具,用來幫助人們解決問題,創(chuàng)造價值。
參考文獻
[1]阮曉東.從AlphaGo的勝利看人工智能的未來[J].新經(jīng)濟導(dǎo)刊,2016 (6):69-74.
篇6
關(guān)鍵詞:人臉識別技術(shù);病毒管控;人工智能;神經(jīng)網(wǎng)絡(luò)
互聯(lián)網(wǎng)在今天的社會中發(fā)揮著舉足輕重的作用。如今社會,隨著許多人工智能技術(shù)、網(wǎng)絡(luò)技術(shù)、云計算等互聯(lián)網(wǎng)技術(shù)不斷發(fā)展,像人臉識別等技術(shù)的應(yīng)用越來越廣泛,在控制病毒傳播途徑等場合發(fā)揮了巨大作用,不斷地提高著社會的安全性和便利性,不僅提高了防控中病毒檢測效率,也為病毒的控制提供了可靠的技術(shù)方法,能夠及時發(fā)現(xiàn)和控制公共場所的安全隱患因素,避免對社會經(jīng)濟、居民生活造成破壞,。但目前的人臉識別等技術(shù)還存在許多缺陷,需要完善和革新,充滿著巨大的潛力和進步空間。
1人臉識別技術(shù)研究意義
人臉識別技術(shù)是一種生物特征識別技術(shù),最早產(chǎn)生于上世紀(jì)60年代,基于生理學(xué)、圖像處理、人機交互及認(rèn)知學(xué)等方面的一種識別技術(shù)。相比于其他人類特征像指紋識別、聲紋識別、虹膜識別等技術(shù),人臉識別雖然存在人臉識別單一性低,且區(qū)分度難度高、易受環(huán)境影響等不足。但是人臉識別技術(shù)擁有速度快、大范圍群體識別及非接觸、遠(yuǎn)距離可識別等優(yōu)勢,都是其他生物識別識別技術(shù)所不具備的,而在傳播性強、感染風(fēng)險大的病毒傳播過程中,這些顯然是必須要考慮的重要影響因素。通過將人臉識別等人工智能技術(shù)引入信息管理系統(tǒng),綜合集成視頻監(jiān)控、圖像處理、深度學(xué)習(xí)和大數(shù)據(jù)等技術(shù),結(jié)合非接觸測溫、定位等技術(shù),助力病情防控,在一定程度上推動病毒病情防控信息化、智能化發(fā)展進程??勺鳛榧訌姽矆鏊娜藛T的體溫實時監(jiān)測、地址信息定位的監(jiān)控管理,規(guī)范公共場所針對病毒傳播的預(yù)防行為。
2人臉識別技術(shù)
2.1人臉檢測技術(shù)
人臉檢測是自動人臉識別系統(tǒng)中的一個關(guān)鍵環(huán)節(jié)。早期的人臉識別研究主要針對具有較強約束條件的人臉圖象(如無背景的圖象),往往假設(shè)人臉位置靜止或者容易獲取。人臉檢測分為前深度學(xué)習(xí)時期,AdaBoost框架時期以及深度學(xué)習(xí)時期。前深度學(xué)習(xí)時期,人們將傳統(tǒng)的計算機視覺算法運用于人臉檢測,使用了模板匹配技術(shù),依賴于人工提取特征,然后用這些人工特征訓(xùn)練一個檢測器;后來技術(shù)發(fā)展,在2001年Viola和Jones設(shè)計了一種人臉檢測算法,它使用簡單的Haar-like特征和級聯(lián)的AdaBoost分類器構(gòu)造檢測器,檢測速度較之前的方法有2個數(shù)量級的提高,并且保持了很好的精度,稱這種方法為VJ框架。VJ框架是人臉檢測歷史上第一個最具有里程碑意義的一個成果,奠定了基于AdaBoost目標(biāo)檢測框架的基礎(chǔ),使用級聯(lián)AdaBoost分類器進行目標(biāo)檢測的思想是:用多個AdaBoost分類器合作實現(xiàn)對候選框的分類,這些分類器組成一個流水線,對滑動窗口中的候選框圖像進行判定,確定檢測目標(biāo)是人臉還是非人臉。Adaboost框架技術(shù)的精髓在于用簡單的強分類器在初期快速排除掉大量的非人臉窗口,同時保證高的召回率,使得最終能通過所有級強分類器的樣本數(shù)數(shù)量較少。在深度學(xué)習(xí)時期,開始將卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于人臉檢測領(lǐng)域。研究方向有兩種:一是將適用于多任務(wù)的目標(biāo)檢測網(wǎng)絡(luò)應(yīng)用于人臉檢測中;另一種是研究特定的的人臉檢測網(wǎng)絡(luò)。人臉檢測技術(shù)具有特殊唯一性和穩(wěn)定性,在現(xiàn)今社會對于構(gòu)建居民身份識別系統(tǒng),病毒傳播防控系統(tǒng),以及計算機視覺交互模型的構(gòu)建具有廣泛的應(yīng)用。人臉檢測技術(shù)不僅作為人臉識別的首要步驟,也在許多其他領(lǐng)域發(fā)揮巨大影響,如人臉關(guān)鍵點提取、人臉追蹤、基于內(nèi)容的檢索、數(shù)字視頻處理、視頻檢測、安防監(jiān)控、人證比對、社交等領(lǐng)域都有重要的應(yīng)用價值。數(shù)碼相機、手機等移動端上的設(shè)備已經(jīng)大量使用人臉檢測技術(shù)實現(xiàn)成像時對人臉的對焦、圖集整理分類等功能,各種虛擬美顏相機也需要人臉檢測技術(shù)定位人臉。評價一個人臉檢測算法好壞的指標(biāo)是檢測率和誤報率,我們定義檢測率為:算法要求在檢測率和誤報率之間盡量平衡,理想的情況是達到高檢測率,低誤報率。
2.2人臉識別技術(shù)
目前主要流行的人臉識別技術(shù)包括幾何特征識別,模型識別,特征臉識別和基于深度學(xué)習(xí)/神經(jīng)網(wǎng)絡(luò)的的人臉識別技術(shù)等。人臉特征識別主要通過對人臉面部結(jié)構(gòu)特征如眼睛、鼻子等五官幾何特點及其相對位置分布等,生成圖像,并計算各個面部特征之間的歐式距離、分布、大小等關(guān)系該方法比較簡單,反應(yīng)速度快,并且具有魯棒性強等優(yōu)點,但是在實際環(huán)境下使用容易受檢測的環(huán)境的變化、人臉部表情變化等影響,精度通常不高,細(xì)節(jié)處理上不夠完善。模型識別技術(shù)主要包括隱馬爾可夫模型、主動表象模型、主動形狀模型等,識別率較高,并且對表情等變化影響較小。特征臉識別來源于主成分描述人臉照片技術(shù)(PCA技術(shù)),從數(shù)學(xué)上來講,特征臉就是人臉的圖像集協(xié)方差矩陣的特征向量。該技術(shù)能有效的顯示人臉信息,效率較高。基于深度學(xué)習(xí)的人臉識別是獲取人臉圖像特征,并將包含人臉信息的特征進行線性組合等,提取人臉圖像的特征,學(xué)習(xí)人臉樣本數(shù)據(jù)的內(nèi)在規(guī)律和表示層次??梢圆捎萌缛龑忧梆丅P神經(jīng)網(wǎng)絡(luò)。BP神經(jīng)網(wǎng)絡(luò)是1986年由Rumelhart和McClelland為首的科學(xué)家提出的概念,是一種按照誤差逆向傳播算法訓(xùn)練的多層前饋神經(jīng)網(wǎng)絡(luò),是應(yīng)用最廣泛的神經(jīng)網(wǎng)絡(luò)模型之一。BP網(wǎng)絡(luò)本質(zhì)上是一種能夠?qū)W量的輸入與輸出之間的映射關(guān)系的輸入到輸出的映射,從結(jié)構(gòu)上講,BP網(wǎng)絡(luò)具有輸入層、隱藏層和輸出層;從本質(zhì)上講,BP算法就是以網(wǎng)絡(luò)誤差平方為目標(biāo)函數(shù)、采用梯度下降法來計算目標(biāo)函數(shù)的最小值。BP神經(jīng)網(wǎng)路輸入層有n個神經(jīng)元節(jié)點,輸出層具有m個神經(jīng)元,隱含層具有k個神經(jīng)元,采用BP學(xué)習(xí)算法訓(xùn)練神經(jīng)網(wǎng)絡(luò)。BP算法主要包括兩個階段:向前傳播階段和向后傳播階段。在向前傳播階段,信息從輸入層經(jīng)過逐級的變換,傳送到輸出層。這個過程也是在網(wǎng)絡(luò)完成訓(xùn)練后正常運行時執(zhí)行。將Xp作為輸入向量,Yp為期望輸出向量則BP神經(jīng)網(wǎng)絡(luò)向前傳播階段的運算,得到實際輸出表達式為向后傳播階段主要包括兩大步驟:①計算實際輸出Op與對應(yīng)理想輸出Yp之差;②按極小化誤差方法調(diào)整帶權(quán)矩陣。之所以將此階段稱為向后傳播階段,是對應(yīng)于輸入信號的正常傳播而言的,因為該階段都需要收到精度要求進行誤差處理,所以也可以稱之為誤差傳播階段。(1)確定訓(xùn)練集。由訓(xùn)練策略選擇樣本圖像作為訓(xùn)練集。(2)規(guī)定各權(quán)值Vij,Wjk和閾值Φj,θk參數(shù),并初始化學(xué)習(xí)率α及精度控制參數(shù)ε。(3)從訓(xùn)練集中取輸入向量X到神經(jīng)網(wǎng)絡(luò),并確定其目標(biāo)輸出向量D。(4)利用上式計算出一個中間層輸出H,再用本式計算出網(wǎng)絡(luò)的實際輸出Y。(5)將輸出矢量中yk與目標(biāo)矢量中dk進行比較,計算輸出誤差項,對中間層的隱單元計算出L個誤差項。(6)最后計算出各權(quán)值和閾值的調(diào)整量。所以,卷積神經(jīng)網(wǎng)絡(luò)算法是通過訓(xùn)練人臉特征庫的方式進行學(xué)習(xí)生成,對不同環(huán)境下不同表現(xiàn)情況的人臉圖像識別有更高的精確性。
2.3人臉識別軟件實現(xiàn)方式
(1)采集人臉數(shù)據(jù)集,然后對數(shù)據(jù)集進行標(biāo)注,對數(shù)據(jù)進行預(yù)處理變成訓(xùn)練格式。(2)部署訓(xùn)練模型,根據(jù)訓(xùn)練算法所需依賴部署電腦環(huán)境。(3)訓(xùn)練過程,下載預(yù)訓(xùn)練模型,將人臉數(shù)據(jù)集分批次作為輸入開始訓(xùn)練,最終輸出為訓(xùn)練好的模型。(4)部署訓(xùn)練好的模型,捕獲畫面即可對畫面中的人臉進行實時檢測。
3人臉識別在病毒傳播防控中的應(yīng)用
通過人臉識別技術(shù),可以實現(xiàn)無接觸、高效率的對流動人員進行信息的收集、身份識別、定位地址信息等操作,大大減少了傳染的可能性,切斷了病毒傳播途徑,大大提高了工作效率。通過提前收錄人臉信息,采用深度學(xué)習(xí)對人臉特征模型的訓(xùn)練學(xué)習(xí),即可獲取人臉識別特征模型,再次驗證時即可實現(xiàn)人臉識別和個人信息快速匹配。AI人工智能幫助人們更好的解放雙手,為人們的生活和工作提供了重要的幫助。本文還提出了在人臉識別的系統(tǒng)基礎(chǔ)上,可以加入定位系統(tǒng)、測溫系統(tǒng)等,依托物聯(lián)網(wǎng)技術(shù)和云計算大數(shù)據(jù),更加優(yōu)化管控系統(tǒng)的效率。病毒傳播防控中人臉識別系統(tǒng)流程可以概括為圖2。
4結(jié)語
本文研究了一種人臉識別技術(shù)在病毒傳播管控系統(tǒng)中的應(yīng)用,并分析設(shè)計了人臉識別實時監(jiān)測及病毒管控系統(tǒng)的流程,大大提高了信息管理的效率,減弱了傳播風(fēng)險。作為一門新興技術(shù),目前的人臉識別技術(shù)還存在著諸多不足之處,像存在環(huán)境光的影響、人臉表情變化、妝容變化、佩戴口罩等都會影響到系統(tǒng)識別精度;另外安全問題也引人深思:現(xiàn)今人臉支付方式迅猛發(fā)展,錄入的人臉模型信息數(shù)據(jù)庫存在有一定的安全風(fēng)險,一旦被不法分子盜取信息后果不堪設(shè)想,所以模型數(shù)據(jù)庫安全、網(wǎng)絡(luò)安全,也是系統(tǒng)開發(fā)中必須重視的問題。人臉識別為代表的人工智能技術(shù)的研究,在病毒傳播管控作出重大貢獻,依托我國領(lǐng)先的計算機網(wǎng)絡(luò)技術(shù)和5G等技術(shù),加強人工智能技術(shù)與5G通信技術(shù)的結(jié)合,優(yōu)勢互補,以此來加快大數(shù)據(jù)、人工智能和物聯(lián)網(wǎng)技術(shù)發(fā)展進程,對我國社會進步,促進城市建設(shè)和管理朝著高效、秩序、和諧穩(wěn)定的方向不斷發(fā)展,增強我國的經(jīng)濟實力有著重大價值和研究意義。
參考文獻
[1]王彥秋,馮英偉.基于大數(shù)據(jù)的人臉識別方法[J].現(xiàn)代電子技術(shù),2021,44(7):87-90.
[2]李剛,高政.人臉自動識別方法綜述[J].計算機應(yīng)用研究,2003,20(8):4-9,40.
[3]馬玉琨,徐姚文.ReviewofPresentationAttackDetectioninFaceRecognitionSystem[J].計算機科學(xué)與探索,2021,7(15):1195-1206.
[4]余璀璨,李慧斌.基于深度學(xué)習(xí)的人臉識別方法綜述[J].工程數(shù)學(xué)學(xué)報,2021,38.
[5]王紅星,胡永陽,鄧超.基于LBP和ELM的人臉識別算法研究與實現(xiàn)[J].河南理工大學(xué)學(xué)報(自然科學(xué)版),2005.
[6]鐘陳,王思翔,王文峰.面向疫情防控的人臉識別系統(tǒng)與標(biāo)準(zhǔn)研究[J].信息技術(shù)與標(biāo)準(zhǔn)化,2020,6,11-13,1671-539X.
[6]彭駿,吉綱,張艷紅,占濤.精準(zhǔn)人臉識別及測溫技術(shù)在疫情防控中的應(yīng)用[J].軟件導(dǎo)刊,2020,10,1672-7800.
篇7
關(guān)鍵詞:智能科學(xué)與技術(shù);興趣導(dǎo)向;逆向教學(xué)
0引言
智能科學(xué)與技術(shù)是信息科學(xué)與技術(shù)的核心、前沿與制高點,也是整個現(xiàn)代科學(xué)技術(shù)體系的頭腦中樞,是現(xiàn)代科學(xué)技術(shù)創(chuàng)新的引領(lǐng)和示范,是現(xiàn)代社會(包括經(jīng)濟、社會、文化、民生、國防等)走向智能化的主導(dǎo)技術(shù)支柱。在越來越激烈尖銳的國際競爭環(huán)境中,智能科學(xué)與技術(shù)水平已經(jīng)成為一個國家綜合國力與科技實力的標(biāo)志。智能科學(xué)與技術(shù)的發(fā)展和智能科學(xué)與技術(shù)學(xué)科的人才培養(yǎng),不僅僅是智能科學(xué)與技術(shù)研究與教育本身的事情,更是關(guān)系到整個社會智能化發(fā)展優(yōu)劣的大事情,也是關(guān)系到整個國家強弱興衰的大事情。
科技發(fā)展,關(guān)鍵在于人才。在新的發(fā)展機遇下,國家對智能科學(xué)與技術(shù)專門人才的需求更加旺盛。因此,如何促進智能科學(xué)與技術(shù)教學(xué)方式的改革是培養(yǎng)厚基礎(chǔ)、高層次的智能科學(xué)與技術(shù)人才的基本途徑。智能科學(xué)與技術(shù)教學(xué)方式的改革,不僅發(fā)展智能科學(xué)與技術(shù)本身,而且對受教育者創(chuàng)新能力的提高也至關(guān)重要。
目前,網(wǎng)絡(luò)的普及與全社會信息化程度的提高,對我國人才培養(yǎng)提出了更高的要求,特別是高校在課堂教學(xué)方面,部分原有教材及培養(yǎng)模式亟待調(diào)整。以智能科學(xué)與技術(shù)為代表的前沿新興學(xué)科,在學(xué)科發(fā)展途徑、應(yīng)用技術(shù)轉(zhuǎn)化及從業(yè)人員年齡、成長環(huán)境等方面,均與很多傳統(tǒng)學(xué)科存在較大的差異,而使用傳統(tǒng)教學(xué)方式進行人才培養(yǎng),也出現(xiàn)了一些水土不服的現(xiàn)象。
1教學(xué)理念的改變
相對于傳統(tǒng)學(xué)科,智能科學(xué)與技術(shù)從業(yè)人員平均年齡顯現(xiàn)出年輕化的特點,且由于從業(yè)人員及學(xué)生普遍年齡較輕,在他們的成長過程中,外在環(huán)境相對寬松,自由、平等的理念在他們的成長過程中不斷被提及和強化。傳統(tǒng)“教師講、學(xué)生聽”的演講式講授方式雖然能夠在一定時間內(nèi)讓學(xué)生了解大量信息,但學(xué)生接收到的大部分信息只停留在記憶層面,很難上升到理解層面,導(dǎo)致學(xué)生只是被動的“填鴨式”接受。
在科技發(fā)達、網(wǎng)絡(luò)互聯(lián)的今天,人們不是自投羅網(wǎng)就是被網(wǎng)羅其中,知識獲取的渠道不再局限于紙質(zhì)媒介和言傳身教,更多來自于電子資源及網(wǎng)絡(luò)媒介,教師和學(xué)生獲取知識的途徑及資源差異越來越小,在知識量、閱歷等方面縮小了師生間的差距,師生之間傳統(tǒng)的信息不對稱差距逐步縮小,導(dǎo)致教師在知識積淀上沒有了絕對優(yōu)勢。
與此同時,逐步深入青年學(xué)生內(nèi)心的自由、平等觀念對中國傳統(tǒng)的尊師重道思想帶來了不小的沖擊。在當(dāng)今開放的網(wǎng)絡(luò)環(huán)境下,針對新興時代的學(xué)生,傳統(tǒng)習(xí)俗中的師長觀念由于知識獲取渠道的平等化而缺乏強有力的現(xiàn)實支撐,教師的身份權(quán)威性和知識權(quán)威性都受到了不同程度的質(zhì)疑,繼續(xù)使用“填鴨式”“訓(xùn)導(dǎo)式”教學(xué)方式,將會事倍功半。
因此,針對新興學(xué)科,一線教師需要進行教學(xué)理念上的修正,特別是教師應(yīng)順應(yīng)培養(yǎng)對象的整體特點,基于自由和平等的觀念進行自我定位,以交流討論式代替居高臨下布施式的教學(xué)觀念,充分與學(xué)生打成一片,以便更好地調(diào)動學(xué)生的思維,引導(dǎo)學(xué)生進行主動思考和主動學(xué)習(xí)。
2教學(xué)素材的改進與提高
當(dāng)今時代是知識爆炸的時代,科學(xué)技術(shù)日新月異,新知識、新成果層出不窮,特別是智能科學(xué)與技術(shù)這一前沿學(xué)科,正在向理論創(chuàng)新和大規(guī)模實際應(yīng)用發(fā)展,新理論、新方法不斷被提出并驗證,新模型、新實例、新應(yīng)用不斷產(chǎn)出。
“教學(xué)素材對教育理念的滲透發(fā)揮著重要作用,它已經(jīng)成為促進或阻礙教學(xué)模式轉(zhuǎn)變的活躍而關(guān)鍵的要素。隨著新時代知識的快速更新?lián)Q代和知識面的不斷拓寬,教學(xué)素材是否優(yōu)秀的標(biāo)準(zhǔn)不僅僅是包含多少知識,更重要的是包含多少最新的知識;不僅僅是傳遞解決問題的方法,更重要的是傳遞超前、新穎的解決問題的方法。
當(dāng)今學(xué)生知識涉獵面廣,現(xiàn)有的網(wǎng)絡(luò)環(huán)境也為他們提供了很好的平臺,如果他們已經(jīng)獲取的知識及應(yīng)用的先進程度遠(yuǎn)遠(yuǎn)超過課本素材羅列的知識,將會極大地削弱他們對本學(xué)科的興趣,進而影響課堂教學(xué)效果。
此外,作為智能科學(xué)與技術(shù)這一前沿學(xué)科的教學(xué)素材,必須體現(xiàn)出時代性、開放性、多元性與全面性。因此,教學(xué)過程中所采用素材的改進和提高,應(yīng)該向著不斷更新、與時俱進的方向靠攏,教師應(yīng)該不斷將最新理論、最新方法、最新應(yīng)用融合于一線基礎(chǔ)教學(xué)過程中,使學(xué)生在學(xué)習(xí)過程中始終緊跟前沿技術(shù)的發(fā)展,在未來工作中能更快、更好地融入行業(yè)中。
3教學(xué)方式的轉(zhuǎn)變
目前,學(xué)生群體主要為90后,高校即將迎來00后,他們成長過程中的家庭環(huán)境和社會環(huán)境與早期學(xué)生相比更為平等和寬松,他們的學(xué)習(xí)需求也由目標(biāo)導(dǎo)向型逐步演化為興趣導(dǎo)向型。因此,如何激發(fā)學(xué)生的興趣,進而以興趣為基礎(chǔ)激發(fā)學(xué)生自主學(xué)習(xí)的動力,將是教學(xué)效果事半功倍的途徑。
青年學(xué)生正處于思維高度活躍的階段,他們往往對新興成果和前沿?zé)狳c有著超過常人的關(guān)注,如何巧妙而有效地將這種關(guān)注轉(zhuǎn)化為針對本學(xué)科的興趣,進而反向推導(dǎo)出基礎(chǔ)理論并讓學(xué)生消化、吸收,就成為一線教師面臨的重要問題。
從1997年國際象棋大師卡斯帕羅夫和電腦“深藍(lán)”第一次人機大戰(zhàn)開始,智能科學(xué)與技術(shù)迅速躋身科技前沿?zé)狳c,且經(jīng)久不衰。2016年3月,Alpha Go再次燃起人工智能之火,經(jīng)過媒體的推波助瀾,成為社會關(guān)注的焦點,大大增強了智能科學(xué)與技術(shù)的關(guān)注度。而青年學(xué)生作為最容易追趕潮流的群體,自然對此類熱點趨之若鶩。
作為智能科學(xué)與技術(shù)學(xué)科的一線教師,應(yīng)把握和利用社會輿論的潮流以及學(xué)生心理的律動,及時以此熱點為突破口,吸引學(xué)生的興趣,引起共鳴,進而進行反向推導(dǎo)相關(guān)基礎(chǔ)理論并加以詳解。
例如,教師以Alpha Go為課堂開篇討論,引導(dǎo)學(xué)生思考,并說明Alpha Go的核心原理是深度學(xué)習(xí)。在這個實例中,Alpha Go模擬人類下棋的推理與思考過程,其中推理過程通過搜索樹來搜索可能的棋局,思考過程通過兩個深度神經(jīng)網(wǎng)絡(luò)確定可能的搜索方向和評估棋局,這兩個神經(jīng)網(wǎng)絡(luò)包括:
(1)落子選擇器(policy network),這是一種深度卷積神經(jīng)網(wǎng)絡(luò),主要通過當(dāng)前棋盤布局預(yù)測下一步走棋位置的概率。
(2)棋局評估器(value network),與落子選擇器具有相似的結(jié)構(gòu),主要在給定棋子位置的情況下,輸出雙方棋手獲勝的可能性,從而對棋局進行評估。
如此,教師可以帶領(lǐng)學(xué)生了解搜索樹及搜索算法,也可以從深度卷積神經(jīng)網(wǎng)絡(luò)到普通神經(jīng)網(wǎng)絡(luò),講解神經(jīng)網(wǎng)絡(luò)的基礎(chǔ)知識,分析神經(jīng)網(wǎng)絡(luò)到深度學(xué)習(xí)的發(fā)展過程。這樣就可以將學(xué)生對Alpha Go本身的興趣,巧妙地引導(dǎo)到對神經(jīng)網(wǎng)絡(luò)等基礎(chǔ)概念和原理方面,以此強化學(xué)生對基礎(chǔ)知識的掌握。
同時,開放式的考核方式也是促進學(xué)生創(chuàng)新、使教學(xué)方法適應(yīng)新時代的一種有效途徑。對于本學(xué)科感興趣的話題,教師應(yīng)鼓勵學(xué)生多談自己的思路和想法;對于開放式課題,應(yīng)給學(xué)生提供展示的舞臺,鼓勵學(xué)生分享自己在查找資料、解決難點、編程過程中的心得體會,充分調(diào)動學(xué)生的積極性和主動性;將這些考核成績按比例計入學(xué)生課業(yè)總成績中,充分肯定學(xué)生的創(chuàng)新能力。
4結(jié)語
教學(xué)成效是設(shè)計和構(gòu)建教學(xué)方式的基本出發(fā)點,教師應(yīng)該結(jié)合學(xué)生需求從學(xué)習(xí)成效、教學(xué)技巧、教學(xué)內(nèi)容上總體把握教學(xué)方式閣,采用不同于傳統(tǒng)講授方式的逆向教學(xué)(如圖1所示),使其滿足和順應(yīng)新一代青年學(xué)生的心理認(rèn)同需求和學(xué)習(xí)需求,將新理論、新應(yīng)用不斷融入基礎(chǔ)教學(xué)中,達到更好的教學(xué)效果。
篇8
關(guān)鍵詞:車牌;識別;專利;分析
引言
車牌識別技術(shù)[1-2]是指自動提取受監(jiān)控區(qū)域車輛的車牌信息并進行處理的技術(shù),其通過運用圖像處理、計算機視覺、模式識別等技術(shù),對攝像頭捕獲的車輛照片或視頻進行分析,進而自動識別車輛的車牌號碼。車牌識別技術(shù)可應(yīng)用于停車場自動收費管理、道路監(jiān)控等領(lǐng)域,在城市交通管理中發(fā)揮了重要作用。
1 中國專利申請情況分析
以CNABS專利數(shù)據(jù)庫中的檢索結(jié)果為分析樣本,介紹車牌識別技術(shù)的中國專利申請量趨勢以及重要申請人的狀況。
1.1 第一階段(2005年及之前)
在這階段,申請量極少且申請人也極少,且針對的環(huán)境較為簡單,處于技術(shù)的萌芽階段,其中,專利CN1529276,通過車牌定位、字符分割和分類識別完成機動車牌號自動識別,其實現(xiàn)過程較為簡單,具體細(xì)節(jié)描述較少。
1.2 第二階段(2006年-2010年)
在這階段的申請量比上一階段有所增加,而且申請人數(shù)量相較之前也有增長,其中來自高校的申請量明顯增加,反映出了高校研究者開始更加注重對研究成果的保護,這一階段的專利所針對的環(huán)境場景更為復(fù)雜,識別準(zhǔn)確率得到提高,對車牌定位、字符分割、字符識別等關(guān)鍵技術(shù)的研究更為深入。
1.3 第三階段(2011年及以后)
在2011年之后車牌識別技術(shù)的專利申請量呈現(xiàn)快速增長,這一階段車牌識別技術(shù)得到了更進一步的豐富,涉及的關(guān)鍵技術(shù)的解決途徑也呈現(xiàn)出多樣性,檢測效率和精度也得到進一步提高,其中,專利CN104035954A,涉及一種基于Hadoop的套牌車識別方法,將云計算應(yīng)用于車牌識別,使得與傳統(tǒng)環(huán)境下不經(jīng)過優(yōu)化的方法相比具有^高的運行效率和加速比,可以有效地識別套牌車。
圖2示出了中國重要申請人分布情況,申請量分布前十的申請人包括:電子科技大學(xué)、深圳市捷順科技實業(yè)股份有限公司(捷順科技)、浙江宇視科技有限公司(宇視科技)、信幀電子技術(shù)(北京)有限公司(信幀電子)、中國科學(xué)院自動化研究所(自動化研究所)、安徽清新互聯(lián)信息科技有限公司(清新互聯(lián))、青島海信網(wǎng)絡(luò)科技股份有限公司(海信網(wǎng)絡(luò))、浙江工業(yè)大學(xué)、四川川大智勝軟件股份有限公司(川大智勝)、上海高德威智能交通系統(tǒng)有限公司(高德威智能交通),從圖2中可以看出,不同申請人的申請量差距不是很大,幾乎保持在一個比較持平的狀態(tài)。
電子科技大學(xué)在車牌識別技術(shù)的專利申請中,CN 101064011A提出一種基于小波變換的復(fù)雜背景中的車牌提取方法,可大大提高對晴天、雨天、霧天、白天及夜晚等環(huán)境的通用性和適用性,實現(xiàn)車牌的精確定位并提高車牌提取的準(zhǔn)確度;CN 103455815A提出一種復(fù)雜場景下的自適應(yīng)車牌字符分割方法,能快速、準(zhǔn)確地搜索2、3字符間隔位置,實現(xiàn)自適應(yīng)調(diào)整分割參數(shù),使車牌字符分割穩(wěn)定可靠,在復(fù)雜的環(huán)境中魯棒性強,防止噪聲干擾;CN 105005757A提出一種基于Grassmann流行的車牌字符識別方法,最大限度地利用了已獲得的車牌字符信息以及同類字符之間的相互關(guān)系,對于車牌字符的成像質(zhì)量要求更低,應(yīng)用于復(fù)雜的環(huán)境中具有很好的魯棒性和準(zhǔn)確性。
2 關(guān)鍵技術(shù)分析
一個完整的車牌定位與識別系統(tǒng),其前端包括圖像采集和傳輸系統(tǒng),末端還需要與數(shù)據(jù)庫相連接。從定位到識別的核心算法上,主要包括圖像預(yù)處理、車牌定位、字符分割和字符識別四大部分[3]。
圖像預(yù)處理,是指通過對攝像頭捕獲的彩色圖像進行預(yù)處理。常用的預(yù)處理方法包括圖像灰度化、圖像二值化、邊緣檢測等。
車牌定位,是指在經(jīng)預(yù)處理后的車輛圖像中,定位出車輛的車牌所在位置。常用的車牌定位方法包括基于紋理分析的方法、基于數(shù)學(xué)形態(tài)學(xué)的方法、基于邊緣檢測的方法、基于小波變換的方法和基于神經(jīng)網(wǎng)絡(luò)的方法等。CN 104298976A提出一種基于卷積神經(jīng)網(wǎng)絡(luò)的車牌檢測方法,利用卷積神經(jīng)網(wǎng)絡(luò)完整車牌識別模型對車牌粗選區(qū)域進行篩選,獲取車牌最終候選區(qū)域。
字符分割,是指將定位出的車牌區(qū)域圖像分割成單個的字符圖像。常用的字符分割方法包括基于輪廓的方法、基于投影的方法、基于模板匹配的方法和基于連通區(qū)域的方法等。CN 104408454A提出一種基于彈性模板匹配算法的車牌字符分割方法,基于彈性模板,通過插空進行模板序列形狀的彈性調(diào)整,將車牌圖片與理想模板進行匹配,獲得全局最優(yōu)匹配,確定字符位置,將分割算法作用于投影序列,實現(xiàn)對車牌字符的分割。
字符識別,是指對字符分割之后的單個字符圖像進行識別,進而得到車輛的車牌號碼。常用的車牌字符識別方法包括基于字符結(jié)構(gòu)特征的識別方法、基于模板匹配的識別方法、基于神經(jīng)網(wǎng)絡(luò)的識別方法、基于模糊理論的模式識別方法和基于支持向量機分類識別方法等。CN 105975968A提出一種基于Caffe框架的深度學(xué)習(xí)車牌字符識別方法,以基于Caffe架構(gòu)的深度學(xué)習(xí)為基礎(chǔ),解決了現(xiàn)有的車牌字符識別方法中對傾斜、斷裂、相近字符識別精度不高的問題,大大提高了對于車牌字符的識別精度。
3 結(jié)束語
本文以車牌識別相關(guān)專利文獻為樣本,分析統(tǒng)計了該技術(shù)中國專利申請現(xiàn)狀,并對車牌識別技術(shù)的關(guān)鍵技術(shù)進行簡單分析。在經(jīng)歷了從無到有、從萌芽到飛速發(fā)展的階段之后,車牌識別技術(shù)慢慢走向成熟,越來越多的企業(yè)和高校在車牌識別的研究上投入了大量的精力,也獲得了豐碩的研究成果。
參考文獻
[1]尹旭.汽車牌照定位研究綜述[J].電腦知識與技術(shù),2010,6(14):3729-3730.
篇9
雖然目前公眾媒體將無線通信炒的很熱,但這個領(lǐng)域從1897年馬可尼成功演示無線電波開始,已經(jīng)有超過一百年的。到1901年就實現(xiàn)了跨大西洋的無線接收,表明無線通信技術(shù)曾經(jīng)有過一段快速發(fā)展時期。在之后的幾十年中,眾多的無線通信系統(tǒng)生生滅滅。
20世紀(jì)80年代以來,全球范圍內(nèi)移動無線通信得到了前所未有的發(fā)展,與第三代移動通信系統(tǒng)(3g)相比,未來移動通信系統(tǒng)的目標(biāo)是,能在任何時間、任何地點、向任何人提供快速可靠的通信服務(wù)。因此,未來無線移動通信系統(tǒng)應(yīng)具有高的數(shù)據(jù)傳輸速度、高的頻譜利用率、低功耗、靈活的業(yè)務(wù)支撐能力等。但無線通信是基于電磁波在自由空間的傳播來實現(xiàn)傳輸?shù)?。信號在無線信道中傳輸時,無線頻率資源受限、傳輸衰減、多徑傳播引起的頻域選擇性衰落、多普勒頻移引起的時間選擇性衰落以及角度擴展引起的空間選擇性衰落等都使得無線鏈路的傳輸性能差。和有線通信相比,無線通信主要由兩個新的問題。一是通信行道經(jīng)常是隨時間變化的,二是多個用戶之間常常存在干擾。無線通信技術(shù)還需要克服時變性和干擾。由于這個原因,無線通信中的信道建模以及調(diào)制編碼方式都有所不同。
1.無線數(shù)字通信中盲源分離技術(shù)分析
盲源分離(bss:blind source separation),是信號處理中一個傳統(tǒng)而又極具挑戰(zhàn)性的問題,bss指僅從若干觀測到的混合信號中恢復(fù)出無法直接觀測的各個原始信號的過程,這里的“盲”,指源信號不可測,混合系統(tǒng)特性事先未知這兩個方面。在研究和工程應(yīng)用中,很多觀測信號都可以看成是多個源信號的混合,所謂“雞尾酒會”問題就是個典型的例子。其中獨立分量分析ica(independent component analysis)是一種盲源信號分離方法,它已成為陣列信號處理和數(shù)據(jù)分析的有力工具,而bss比ica適用范圍更寬。目前國內(nèi)對盲信號分離問題的研究,在理論和應(yīng)用方面取得了很大的進步,但是還有很多的問題有待進一步研究和解決。盲源分離是指在信號的理論模型和源信號無法精確獲知的情況下,如何從混迭信號(觀測信號)中分離出各源信號的過程。盲源分離和盲辨識是盲信號處理的兩大類型。盲源分離的目的是求得源信號的最佳估計,盲辨識的目的是求得傳輸通道混合矩陣。盲源信號分離是一種功能強大的信號處理方法,在醫(yī)學(xué)信號處理,陣列信號處理,語音信號識別,圖像處理及移動通信等領(lǐng)域得到了廣泛的應(yīng)用。
根據(jù)源信號在傳輸信道中的混合方式不同,盲源分離算法分為以下三種模型:線性瞬時混合模型、線性卷積混合模型以及非線性混合模型。
1.1 線性瞬時混合盲源分離
線性瞬時混合盲源分離技術(shù)是一項產(chǎn)生、研究最早,最為簡單,理論較為完善,算法種類多的一種盲源分離技術(shù),該技術(shù)的分離效果、分離性能會受到信噪比的影響。盲源分離理論是由雞尾酒會效應(yīng)而被人們提出的,雞尾酒會效應(yīng)指的是雞尾酒會上,有聲、談話聲、腳步 聲、酒杯餐具的碰撞聲等,當(dāng)某人的注意集中于欣賞音樂或別人的談話,對周圍的嘈雜聲音充耳不聞時,若在另一處有人提到他的名字,他會立即有所反應(yīng),或者朝 說話人望去,或者注意說話人下面說的話等。該效應(yīng)實際上是聽覺系統(tǒng)的一種適應(yīng)能力。當(dāng)盲源分離理論提出后很快就形成了線性瞬時混合模型。線性瞬時混合盲源分離技術(shù)是對線性無記憶系統(tǒng)的反應(yīng),它是將n個源信號在線性瞬時取值混合后,由多個傳感器進行接收的分離模型。
20世紀(jì)八、九十年代是盲源技術(shù)迅猛發(fā)展的時期,在1986年由法國和美國學(xué)者共同完了將兩個相互獨立的源信號進行混合后實現(xiàn)盲源分離的工作,這一工作的成功開啟了盲源分離技術(shù)的發(fā)展和完善。在隨后的數(shù)十年里對盲源技術(shù)的研究和創(chuàng)新不斷加深,在基礎(chǔ)理論的下不斷有新的算法被提出和運用,但先前的算法不能夠完成對兩個以上源信號的分離;之后在1991年,法國學(xué)者首次將神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用到盲源分離問題當(dāng)中,為盲源分離提出了一個比較完整的框架。到了1995年在神經(jīng)網(wǎng)絡(luò)技術(shù)基礎(chǔ)上盲源分離技術(shù)有了突破性的進展,一種最大化的隨機梯度學(xué)習(xí)算法可以做到同時分辨出10人的語音,大大推動了盲源分離技術(shù)的發(fā)展進程。
1.2 線性卷積混合盲源分離
相比瞬時混合盲源分離模型來說,卷積混合盲源分離模型更加復(fù)雜。在線性瞬時混合盲源分離技術(shù)不斷發(fā)展應(yīng)用的同時,應(yīng)用中也有無法準(zhǔn)確估計源信號的問題出現(xiàn)。常見的是在通信系統(tǒng)中的問題,通信系統(tǒng)中由于移動客戶在使用過程中具有移動性,移動用戶周圍散射體會發(fā)生相對運動,或是交通工具發(fā)生的運動都會使得源信號在通信環(huán)境中出現(xiàn)時間延遲的現(xiàn)象,同時還造成信號疊加,產(chǎn)生多徑傳輸。正是因為這樣問題的出現(xiàn),使得觀測信號成為源信號與系統(tǒng)沖激響應(yīng)的卷積,所以研究學(xué)者將信道環(huán)境抽象成為線性卷積混合盲源分離模型。線性卷積混合盲源分離模型按照其信號處理空間域的不同可分為時域、頻域和子空間方法。
1.3 非線性混合盲源分離
非線性混合盲源分離技術(shù)是盲源分離技術(shù)中發(fā)展、研究最晚的一項,許多理論和算法都還不算成熟和完善。在衛(wèi)星移動通信系統(tǒng)中或是麥克風(fēng)錄音時,都會由于乘性噪聲、放大器飽和等因素的影響造成非線性失真。為此,就要考慮非線性混合盲源分離模型。非線性混合模型按照混合形式的不同可分為交叉非線性混合、卷積后非線性混合和線性后非線性混合模型三種類型。在最近幾年里非線性混合盲源分離技術(shù)受到社會各界的廣泛關(guān)注,特別是后非線性混合模型。目前后非線性混合盲源分離算法中主要有參數(shù)化方法、非參數(shù)化方法、高斯化方法來抵消和補償非線性特征。
2.無線通信技術(shù)中的盲源分離技術(shù)
在無線通信系統(tǒng)中通信信號的信號特性參數(shù)復(fù)雜多變,實現(xiàn)盲源分離算法主要要依據(jù)高階累積量和峭度兩類參數(shù)。如圖一所示,這是幾個常見的通信信號高階累積量。
在所有的通信系統(tǒng)中,接收設(shè)備處總是會出現(xiàn)白色或是有色的高斯噪聲,以高階累積量為準(zhǔn)則的盲源分離技術(shù)在處理這一問題時穩(wěn)定性較強,更重要的是對不可忽略的加性高斯白噪聲分離算法同時適用。因此,由高階累積量為準(zhǔn)則的盲源分離算法在通信系統(tǒng)中優(yōu)勢明顯。
分離的另一個判據(jù)就是峭度,它是反映某個信號概率密度函數(shù)分布情況與高斯分布的偏離程度的函數(shù)。峭度是由信號的高階累積量定義而來的,是度量信號概率密度分布非高斯性大小的量值。
篇10
【關(guān)鍵詞】照相軟件 人臉識別技術(shù) 計算機
人臉識別作為一項現(xiàn)代化科技技術(shù),具有極大的發(fā)展空間。1964年,人臉識別(AFR)這一領(lǐng)域逐漸出現(xiàn)在人們的視野里,至于1991年至1997年,若干具有代表性的人臉識別算法誕生于世,到如今,以支持向量機為代表的統(tǒng)計學(xué)習(xí)理論被應(yīng)用到了人臉識別中來。前人的側(cè)重點在于對其算法的延伸探究,但就筆者而言,存在一定程度上專業(yè)知識的限制,因而根據(jù)自身的知識儲備與探究能力,將人臉識別技術(shù)這一寬泛概念的探討縮小至相對更貼近生活,且較為容易理解與研究的一個主題――對于照相機軟件中人臉識別技術(shù)的探究,并由此展開對計算機人臉識別的部分性探究。
1 對于人臉識別技術(shù)的初步了解
科幻性質(zhì)的故事往往以其并不符合實際的奇幻情節(jié),模糊得描繪了現(xiàn)實世界未來的發(fā)展藍(lán)圖。這里不得不提及一部具有啟發(fā)意義的電影――《生化危機》,電影中追蹤主角行蹤的衛(wèi)星定位人臉識別技術(shù),是否未來也將存在于我們的現(xiàn)實社會當(dāng)中?由此,便聯(lián)想到生活中照相軟件的人臉識別是否也是通過相似的原理而執(zhí)行的。
關(guān)于人臉識別,其本質(zhì)上隸屬于生物特征識別的一支。其余包含指紋識別,虹膜識別,DNA識別等技術(shù)。當(dāng)今最為廣泛運用的是指紋識別,但隨之而來產(chǎn)生的是一定的安全性問題。例如去年熱門的高考替考話題,指紋貼的出現(xiàn)使指紋識別的安全性受到質(zhì)疑。而人臉識別仍處于一個不完全成熟的發(fā)展階段,就目前現(xiàn)狀來說,其所具有的不可復(fù)制性、自然性、不可察覺性,使其安全性與實用性都處于相對較高的水平。但同樣,其技術(shù)難度也呈正比例增長。
通過對與計算機信息科技的學(xué)習(xí),能夠得出這樣一個總結(jié)性結(jié)論:“人臉識別是通過計算機視覺的一些算法所實現(xiàn)的?!?/p>
前人對從不斷更新的研究中得出,人臉識別的基本算法有四種:
(1)基于人臉特征點的識別算法(Feature-based recognition algorithms)。
(2)基于整幅人臉圖像的識別算法(Appearance-based recognition algorithms)。
(3)基于模板的識別算法(Template-based recognition algorithms)。
(4)利用神經(jīng)網(wǎng)絡(luò)進行識別的算法(Recognition algorithms using neural network)。
當(dāng)然,如今也早已存在許多其他的的算法能夠支持人臉識別技術(shù)的實現(xiàn)。而對于該項技術(shù)的應(yīng)用的范圍也在逐漸擴大,門禁考勤系統(tǒng)、住宅安全管理、電子身份等等,都將在很大程度上的得益于其的不斷發(fā)展。
讓我們回到主題:照相機的人臉跟蹤究竟是如何實現(xiàn)的呢?圍繞這一問題,由淺及深,筆者將本文中的探究內(nèi)容主要分為以下三個部分:
(1)圖像在計算機內(nèi)部的存儲方式。
(2)計算機如何區(qū)分出物體與其所在背景。
(3)計算機如何定位人臉并從而實現(xiàn)識別功能。(注:由于照相軟件只是作為一個對于人臉識別問題的切入點,單單深究照相軟件會帶來一定的局限性,因此二、三兩點將跳過作為載體的照相軟件,直接對于照相機功能背后的原理作進一步探究。)
1.1 圖像在計算機內(nèi)部的儲存方式
計算機通過往往通過bitmap的形式來儲存圖像,也就是像素矩陣。
從結(jié)構(gòu)上講,計算機中儲存的圖像一把可以分為兩大類,即矢量圖和位圖。矢量圖通過數(shù)學(xué)公式計算獲得,優(yōu)點在于不會失真,但其最大的缺點是難以表現(xiàn)色彩層次豐富的逼真圖像效果。而位圖的基本思想,則是把一幅圖像按照行列進行分割,所獲得的點成為像素。相機所拍攝獲得的照片便是以位圖的形式儲存的。每一幅圖像均是由無數(shù)像素組成,而每一個像素對應(yīng)顯存中1、8、16或24位二進制數(shù)來表示顏色信息。位數(shù)決定了圖像所含的最大顏色數(shù),位數(shù)越多,圖像的色彩就越豐富。
1.2 計算機如何區(qū)分出物體與其所在背景
大致的過程可以由圖1所知,用相對容易理解的話來解釋,計算機對于區(qū)分物體與其所在背景,首先是通過對要是別的物體提取表面特征,然后再對真實的照片提取表面特征,最終在進行匹配,配合相應(yīng)的算法,這樣,計算機便可以區(qū)分出物體與其所在背景。
由此所延伸的科目是計算機視覺。
正如定義所提到:計算機視覺是一門關(guān)于如何運用照相機和計算機來獲取我們所需的,被拍攝對象的數(shù)據(jù)與信息的學(xué)問。
通過這門科目,我們能夠做到使用計算機來處理圖像,并區(qū)分出目的對象。形象地說,在這門科目的輔助之下,計算機能夠成為人類的第二雙眼睛,對目標(biāo)進行識別、跟蹤和測量。
“One picture is worth ten thousand words.”圖像的處理,將為人類提供巨大的便捷。
大致羅列出其處理所進行的步驟,分別是:圖像獲取、特征提取、檢測分割、高級處理。
1.3 計算機如何定位人臉并從而實現(xiàn)識別功能
關(guān)于人臉的定位與識別,在很大一定程度上與區(qū)別物體與背景的技術(shù)存在著相似之處。但是人臉的定位與識別,又是更高于目標(biāo)對象的識別的。這正是算法的不停更新與發(fā)展所帶來的科技發(fā)展的結(jié)果。
目前比較流行的Cascade Classifier(Opencv中做人臉檢測的時候的一個級聯(lián)分類器)效果還是比較好的,正臉檢測到的成功率能達到90%以上。
此外,在人臉局部區(qū)域特征提取時,一種叫做CNN(Convolutional Neural Network)卷積神經(jīng)網(wǎng)絡(luò)技術(shù)的運用――使用提取特征的filter對像素點進行幾層處理,也為識別帶來一定的便利。CNN運用到了深度學(xué)習(xí),因此這里將拓展以下有關(guān)deep learning的概念:
deep learning的概念源于人工神經(jīng)網(wǎng)絡(luò)的研究。其三大框架為:CNN(Convolutional Neural Network,卷積神經(jīng)網(wǎng)絡(luò)),DBN(Deep Belief Network,深度置信網(wǎng)絡(luò)),AE(AutoEncoder,自動編碼機)。而目前在CV(Computer Vision的縮寫,指計算機視覺)領(lǐng)域應(yīng)用最廣的是CNN。到近來也有很多人嘗試用deep learning的方法來實現(xiàn)人臉識別,其與先前所提到的計算機區(qū)分物體和背景的原理也是相似的。
2 結(jié)論
回到最初的問題:照相機的人臉跟蹤是如何實現(xiàn)的?綜上所述,可以獲得的結(jié)論是:照相機的人臉跟蹤是通過計算機視覺的一些算法實現(xiàn)的。但這些算法在技術(shù)方面人仍然面臨著一些難點,例如,在特征識別時,外界客觀因素,有如,光線、著裝遮擋、目標(biāo)對象的姿態(tài)、臉型、樣本缺乏等等尚未解決的問題。這些都使人臉識別技術(shù)尚有巨大的可發(fā)展空間。就像前段時間由推出的How Old do I Look線上臉部偵測服務(wù),曾一度掀起熱潮,可見,人們對于人臉識別技術(shù)的期望也是很高的。
那么,未來的人臉識別技術(shù)到底能夠發(fā)展到何種程度呢?香港中文大學(xué)教授湯曉鷗、王曉剛及其研究團隊曾在2014年6月宣布,他們研發(fā)的DeepID人臉識別技術(shù)的準(zhǔn)確率超過99%,比肉眼識別更加精準(zhǔn)。相信未來,計算機人臉識別技術(shù)將與我們共同成長,逐漸成熟與完善。畢業(yè)于UC Berkeley的博士賈揚清,創(chuàng)造了Caffe――全稱Convolutional Architecture for Fast Feature Embedding,一個清晰而高效的深度學(xué)習(xí)框架,具有上手快、速度快、模塊化、開放性、社區(qū)好等優(yōu)點。如此不斷迅捷發(fā)展的計算機技術(shù),在這個數(shù)字化的時代,正是對未來發(fā)展很好的導(dǎo)向。
參考文獻
[1]韋鳳年.怎樣寫科技論文[J].河南水利,2006(09).
[2]董琳,趙懷勛.人臉識別技術(shù)的研究現(xiàn)狀與展望[J].China Academic Journal Electronic Publishing House,2011,10.
作者簡介
孫文倩(1998-),上海市人。現(xiàn)在上海市洋涇中學(xué)高中在讀。