卷積神經(jīng)網(wǎng)絡(luò)的定義范文

時間:2024-03-29 11:12:47

導(dǎo)語:如何才能寫好一篇卷積神經(jīng)網(wǎng)絡(luò)的定義,這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公文云整理的十篇范文,供你借鑒。

卷積神經(jīng)網(wǎng)絡(luò)的定義

篇1

關(guān)鍵詞: 模式識別; 神經(jīng)網(wǎng)絡(luò); 卷積; 文字識別

中圖分類號: TN711?34; TP391.4 文獻(xiàn)標(biāo)識碼: A 文章編號: 1004?373X(2014)20?0019?03

Large pattern online handwriting character recognition based on multi?convolution neural network

GE Ming?tao1, WANG Xiao?li1, PAN Li?wu2

(1. SIAS International School, Zhengzhou University, Zhengzhou 451150, China;

2. Henan University of Animal Husbandry and Economy, Zhengzhou 450011, China)

Abstract: Online handwriting character recognition is an important field in the research of pattern recognition. The traditional recognition method is based on the common convolutional neural networks (CNNs) technology. It has an efficient recognition rate for the small pattern character set online handwriting characters, but has low recognition rate for the large pattern character set recognition. A recognition method based on multi?convolutional neural networks (MCNNs) is presented in this paper to overcome the situation that the previous methods have the low recognition rate for large pattern character set and improve the recognition rate for the large pattern handwriting character set recognition. The stochastic diagonal Levenbert?Marquardt method is used in the system for training optimization. The experimental results show that the proposed method has the recognition rate of 89% and has a good prospect for online handwriting character recognition for large scale pattern.

Keywords: pattern recognition; neural network; convolution; character recognition

0 引 言

隨著全球信息化的飛速發(fā)展和對自動化程度要求的不斷提高 ,手寫文字識別技術(shù)被廣泛地應(yīng)用到許多方面。特別是近幾年擁有手寫功能的手機(jī)、平板電腦等智能電子產(chǎn)品的普及,聯(lián)機(jī)手寫文字識別研究已經(jīng)成為一個備受關(guān)注的主題。聯(lián)機(jī)手寫字符識別要求實(shí)時性較高,識別過程中要求特征空間的維數(shù)比較高,在進(jìn)行特征樣本訓(xùn)練時要求訓(xùn)練的數(shù)目很大,要匹配的特征值或特征對象比較多 [1?2]。

卷積神經(jīng)網(wǎng)絡(luò)(Convolutional Neural Networks,CNNs)的優(yōu)點(diǎn)在于圖像的識別過程中對視覺模式的獲得是直接從原始圖像中獲得的,所以在設(shè)計系統(tǒng)時圖像的預(yù)處理工作很少,與一般神經(jīng)網(wǎng)絡(luò)相比是一種高效的識別方法。卷積神經(jīng)網(wǎng)絡(luò)在模式識別的一些領(lǐng)域具有很好的魯棒性,如在識別有變化的模式和對幾何變形的識別方面。利用卷積神經(jīng)網(wǎng)絡(luò)的手寫識別方法具有如下一些優(yōu)點(diǎn):對于要檢測的圖像可以與事先制定網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)之間有較高的匹配率;特征提取和模式分類同時進(jìn)行;訓(xùn)練參數(shù)往往是系統(tǒng)計算量的重要參數(shù),而卷積神經(jīng)網(wǎng)絡(luò)中利用權(quán)值共享技術(shù),這樣就可以大大降低該參數(shù),在設(shè)計系統(tǒng)結(jié)構(gòu)時使得結(jié)構(gòu)變得更簡單,從而使得整個系統(tǒng)具有更好的適應(yīng)性[3?5]。

目前,人機(jī)交互系統(tǒng)的手寫字符識別、汽車車牌號識別和信息安全中常用的人臉識別等領(lǐng)域都有卷積神經(jīng)網(wǎng)絡(luò)的成功應(yīng)用。文獻(xiàn)[6]用一個4層的卷積神經(jīng)網(wǎng)絡(luò)LeNet?5對Mnist庫進(jìn)行識別實(shí)驗(yàn),獲得了98.4%的識別率,用2層的BP網(wǎng)絡(luò)的識別率[4,6]是87%。許多學(xué)者對卷積神經(jīng)網(wǎng)絡(luò)在聯(lián)機(jī)手寫文字識別方面做了多方位的研究。 但是,這些成功的聯(lián)機(jī)手寫文字識別主要是針對小模式字符集,利用以往的這些方法對大規(guī)模模式分類的聯(lián)機(jī)手寫文字的識別依然有識別率不高的問題。本文介紹了卷積神經(jīng)網(wǎng)絡(luò)的基本概念和一種典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu),給出了基于多重卷積神經(jīng)網(wǎng)絡(luò)的字符識別和詞語識別模型。通過使用大字符集的UNIPEN數(shù)據(jù)庫進(jìn)行訓(xùn)練和測試,本文提出的方法在大模式聯(lián)機(jī)手寫識別上,取得了較高的識別速度和滿意的識別率。

1 卷積神經(jīng)網(wǎng)絡(luò)

文獻(xiàn)[6?7]中詳細(xì)地描述了卷積神經(jīng)網(wǎng)絡(luò)如何保證圖像對位移、縮放、扭曲魯棒性能。典型的手寫字符卷積神經(jīng)網(wǎng)絡(luò)LeNET 5的結(jié)構(gòu)圖如圖1所示[6?7]。

圖1 典型的卷積神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)

在圖1中,輸入層接收要識別32×32的手寫字符圖像,經(jīng)過簡單的大小歸一化和圖像灰度處理,之后的結(jié)果作為一個采樣層的圖像;然后用一個可學(xué)習(xí)核進(jìn)行卷積操作,卷積結(jié)果經(jīng)過激活函數(shù)的輸出形成這一層的神經(jīng)元,每個神經(jīng)元與輸入圖像的一個5×5的鄰域相連接,從而得到由6幅特征圖組成的第一個隱層(C1層)。每個特征圖有25個權(quán)值(如方向線段,端點(diǎn)、角點(diǎn)等),考慮到邊界效果,得到的特征圖的大小是28×28,小于輸入圖層[3?9]。卷積層的數(shù)學(xué)計算過程可表示為:

[xlj=fi∈Mjxl-1j*kernellij+blj] (1)

式中:[l] 代表層數(shù);kernel是卷積核;[Mj]代表輸入特征圖的一個選擇。每個輸出圖有一個偏置[b]。

每個卷積層的結(jié)果作為下一個次采樣層的輸入,次采樣層的作用是對輸入信息進(jìn)行抽樣操作。如果輸入的特征圖為n個,則經(jīng)過次采樣層后特征圖的個數(shù)仍然為n,但是輸出的特征圖要變?。ɡ纾骶S變?yōu)樵瓉淼?0%)。因此隱層S2是由6個大小為14×14的特征圖組成的次采樣層。次采樣層計算公式可以用式(2)表示:

[xlj=fβl-1jdown(xl-1j)+blj] (2)

式中down(?) 表示次采樣函數(shù)。次采樣函數(shù)一般是對該層輸入圖像的一個n×n大小的區(qū)域求和,因此,輸出圖像的大小是輸入圖像大小的[1n]。每一個輸出的特征圖有自己的β和b。

類似的,C3層有16個10×10的特征圖組成的卷積層,特征圖的每個神經(jīng)元與S2網(wǎng)絡(luò)層的若干個特征圖的5×5的鄰域連接。網(wǎng)絡(luò)層S4是由16個大小為5×5的特征圖組成的次采樣層。特征圖的每個神經(jīng)元與C3層的一個2×2大小的鄰域相連接。網(wǎng)絡(luò)層C5是由120個特征圖組成的卷積層。每個神經(jīng)元與S4網(wǎng)絡(luò)層的所有特征圖的5×5大小的鄰域相連接。網(wǎng)絡(luò)層F6,包括84個神經(jīng)元,與網(wǎng)絡(luò)層C5進(jìn)行全連接。最后,輸出層有10個神經(jīng)元,是由徑向基函數(shù)單元(RBF)組成,輸出層的每個神經(jīng)元對應(yīng)一個字符類別。RBF單元的輸出yi的計算方法如式(3)所示:

[yi=j(xj-wij)2] (3)

很多研究人員通過對字符集作彈性訓(xùn)練,經(jīng)測試發(fā)現(xiàn)在MNIST字符集上的識別率可以高達(dá)99%以上[6?7] 。卷積神經(jīng)網(wǎng)絡(luò)的優(yōu)勢主要是對小模式集上,如對數(shù)字或26個英文字母組成的集合都有著較高的識別率。然而,對大模式集的識別仍然是一個挑戰(zhàn),因?yàn)樵O(shè)計一個優(yōu)化的并足夠大的單一網(wǎng)絡(luò)是比較困難的,且訓(xùn)練時間也較長。因此,本文的目的旨在通過組合多個對某一字符集有高識別率的卷積神經(jīng)網(wǎng)絡(luò),從而構(gòu)成多重卷積神經(jīng)網(wǎng)絡(luò),進(jìn)而提高卷積神經(jīng)網(wǎng)絡(luò)對大模式集手寫字符的識別率。

2 多重卷積神經(jīng)網(wǎng)絡(luò)

2.1 多重卷積神經(jīng)網(wǎng)絡(luò)字符識別

根據(jù)傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)的運(yùn)算過程以及其在處理大模式集手寫字符時存在的不足,本文提出一種多重卷積神經(jīng)網(wǎng)絡(luò)來改進(jìn)傳統(tǒng)的卷積神經(jīng)網(wǎng)絡(luò)模型,用多個擁有高識別率的小卷積神經(jīng)網(wǎng)絡(luò)組成一個多重卷積神經(jīng)網(wǎng)絡(luò)。每一重小卷積神經(jīng)網(wǎng)絡(luò)對某一具體字符集有較高的識別率,另外,單重卷積神經(jīng)網(wǎng)絡(luò)除了有一個正式的輸出集之外,還產(chǎn)生一個未知的輸出(即難以識別的字符),即如果一個輸入字符沒有被正確識別,它將被輸出為一個未知字符,然后輸入模式轉(zhuǎn)到下一重卷積神經(jīng)網(wǎng)絡(luò)進(jìn)行識別。最后,通過一個拼寫檢查模塊進(jìn)行判斷,選擇最好的結(jié)果輸出。系統(tǒng)的流程如圖2所示。

其中CNN 1是識別手寫數(shù)字的卷積神經(jīng)網(wǎng)絡(luò),CNN 2是識別手寫小寫英文字母的卷積神經(jīng)網(wǎng)絡(luò),該模型具有極強(qiáng)的擴(kuò)展性,可以添加多任意模式的卷積神經(jīng)網(wǎng)絡(luò)(如中文,日文等)。

圖2 多重卷積神經(jīng)網(wǎng)絡(luò)字符識別示意圖

2.2 隨機(jī)對角Levenberg?Marquardt訓(xùn)練方法

傳統(tǒng)的結(jié)構(gòu)比較簡單、單一的卷積神經(jīng)網(wǎng)絡(luò)多采用基本的Back Propagation(BP)規(guī)則訓(xùn)練網(wǎng)絡(luò),往往需要幾百次迭代,網(wǎng)絡(luò)的收斂速度較慢。本文采用LeCun博士提出的隨機(jī)對角Levenberg?Marquardt 算法對網(wǎng)絡(luò)作訓(xùn)練,該算法需要的迭代次數(shù)明顯比基本的BP 算法少[4,9]。隨機(jī)對角Levenberg?Marquardt算法的公式為:

[ηki=ε?2E?w2ij+μ] (4)

式中[ε]是全局的學(xué)習(xí)率,一般取初始值0.01,太大會使網(wǎng)絡(luò)無法收斂,太小則會降低收斂速度,且使網(wǎng)絡(luò)更容易陷入局部極小值,訓(xùn)練過程中可以用啟發(fā)式規(guī)則改變[ε]的值,本文取最下值為5e-005; [?2E?w2ij]是一個估計值,根據(jù)訓(xùn)練集的大小可以調(diào)整樣本數(shù)量,文中隨機(jī)選取200個樣本估算它的值;[μ]用來避免[?2E?w2ij] 太小時[ηki]的變化過大 。

2.3 多重卷積神經(jīng)網(wǎng)絡(luò)詞句識別

本文提出的多重卷積神經(jīng)網(wǎng)絡(luò)對手寫詞語的識別方法可以簡單地描述為:首先對輸入的手寫圖像進(jìn)行預(yù)處理和分割,然后通過多重卷積神經(jīng)網(wǎng)絡(luò)模塊分別進(jìn)行識別,最后采用單詞識別模塊對識別結(jié)果進(jìn)行判斷,選擇最好的結(jié)果輸出。其過程如圖3所示。

圖3 多重卷積神經(jīng)網(wǎng)絡(luò)聯(lián)機(jī)手寫詞句識別過程

本文提出的多重卷積神經(jīng)網(wǎng)絡(luò)聯(lián)機(jī)手寫文字識別方法克服了傳統(tǒng)卷積神經(jīng)網(wǎng)絡(luò)文字識別的對字符集的限制,每一重卷積神經(jīng)網(wǎng)絡(luò)是一個針對小模式的卷積神經(jīng)網(wǎng)絡(luò),易于訓(xùn)練和優(yōu)化,更重要的是此方案的靈活性非常好易于調(diào)節(jié)參數(shù),可擴(kuò)展性強(qiáng)。每一重卷積神經(jīng)網(wǎng)絡(luò)都具有可重用能力,可以根據(jù)需要加載一個或多個網(wǎng)絡(luò),可以根據(jù)新的模式添加新的網(wǎng)絡(luò)而不需改變或重建原來的網(wǎng)絡(luò)。

3 訓(xùn)練和實(shí)驗(yàn)

為了評估多重卷積神經(jīng)網(wǎng)絡(luò)對基于大模式字符集的聯(lián)機(jī)手寫文字識別的性能,本系統(tǒng)采用MNIST和UNIPEN兩種不同的手寫字符訓(xùn)練集進(jìn)行測試。UNIPEN數(shù)據(jù)庫是在1992年舉行的IEEE IAPR會議上提出并建立的,其目的是創(chuàng)建一個大型的手寫體數(shù)據(jù)庫用于為在線手寫識別提供研究和開發(fā)的基礎(chǔ),得到了多個知名公司或研究所的支持并完成了UNIPEN的規(guī)范設(shè)計。在進(jìn)行數(shù)據(jù)比對實(shí)驗(yàn)中,本文采用許多研究使用的MNIST手寫數(shù)字?jǐn)?shù)據(jù)庫,該數(shù)據(jù)庫是NEC 研究中心設(shè)計的,是NIST(The National Institute of Standards and Technology)數(shù)據(jù)庫的一個子集,該訓(xùn)練集中有大量訓(xùn)練樣本和測試用例。本文默認(rèn)用以下定義

[識別率=正確識別數(shù)樣本總數(shù)×100%]

[失誤率誤識率=錯誤識別數(shù)樣本總數(shù)×100%]

實(shí)驗(yàn)測試是在通用的臺式電腦上進(jìn)行的。整個識別原型系統(tǒng)采用C#編寫,運(yùn)行在.NetFrame 4.5平臺上。經(jīng)測試對MNIST訓(xùn)練集識別正確率可達(dá)[9]99%,對UNIPEN數(shù)字識別正確率可達(dá)97%,對UNIPEN數(shù)字和大寫字母識別正確率可達(dá)89%(1a,1b) ,對UNIPEN小寫字母識別正確率可達(dá)89%(1c) 。圖4是對UNIPEN小寫字母3次訓(xùn)練的均方誤差比較。

圖4 訓(xùn)練的誤差數(shù)據(jù)

從圖4中可以看出,在開始的幾個訓(xùn)練周期內(nèi),均方誤差(MSE)下降得很快,然后在第13個周期后神經(jīng)網(wǎng)絡(luò)達(dá)到一個穩(wěn)定的值,約為0.148 5。也就是說,網(wǎng)絡(luò)在第13個周期后,改善程度就很小。所以修改訓(xùn)練錯誤率的值為0.000 45后重新進(jìn)行18代的第二次訓(xùn)練,均方誤差有所降低。經(jīng)過第三次的訓(xùn)練后趨于穩(wěn)定,對UNIPEN小寫字母識別正確率可達(dá)89%。經(jīng)測試,通過使用隨機(jī)對角Levenberg?Marquardt方法,收斂速度比基本BP算法快了許多,經(jīng)過68代訓(xùn)練后識別正確率可達(dá)89%。

4 結(jié) 語

本文提出了基于多重卷積神經(jīng)網(wǎng)絡(luò)的聯(lián)機(jī)手寫字符的識別方法,通過使用多個識別率高的卷積神經(jīng)網(wǎng)絡(luò)和隨機(jī)對角 Levenberg? Marquardt方法,可以適用于大模式聯(lián)機(jī)手寫識別。經(jīng)過實(shí)驗(yàn)數(shù)據(jù)比較,該方法在大模式聯(lián)機(jī)手寫識別過程中具有很高的識別率,與此同時識別速度也很快,有很好的實(shí)時性,總體效果很好。在當(dāng)今觸摸屏應(yīng)用遍及生產(chǎn)生活的各個方面的趨勢下,該方法有著廣闊的應(yīng)用前景。同時此方法為今后多手寫漢字識別的研究提供了很好的借鑒。

注:本文通訊作者為潘立武。

參考文獻(xiàn)

[1] 吳鳴銳,張鈸.一種用于大規(guī)模模式識別問題的神經(jīng)網(wǎng)絡(luò)算法[J].軟件學(xué)報,2001,12(6):851?855.

[2] 張輝.大規(guī)模聯(lián)機(jī)手寫漢字識別數(shù)據(jù)庫整理、統(tǒng)計與實(shí)驗(yàn)分析[D].廣州:華南理工大學(xué),2012.

[3] 徐姍姍,劉應(yīng)安,徐,等.基于卷積神經(jīng)網(wǎng)絡(luò)的木材缺陷識別[J].山東大學(xué)學(xué)報:工學(xué)版,2013,43(2):23?28.

[4] 呂剛.基于卷積神經(jīng)網(wǎng)絡(luò)的多字體字符識別[J].浙江師范大學(xué)學(xué)報:自然科學(xué)版,2011,34(4):425?428.

[5] PHAM D V. Online handwriting recognition using multi convolution neural networks [M]. Berlin Heidelberg: Springer, 2012: 310?319.

[6] LECUN Y, BOTTOU L, BENGIO Y, et al. Gradient?based learning applied to document recognition [C]// Proceeding of IEEE. USA: IEEE, 1998: 2278?2324.

[7] SIMARD P Y, STEINKRAUS Dave, PLATT John. Best practices for convolutional neural networks applied to visual document analysis [C]// International Conference on Document Analysis and Recognition (ICDAR). Los Alamitos: IEEE Computer Society, 2003: 958?962.

篇2

關(guān)鍵詞:BP神經(jīng)網(wǎng)絡(luò);Morlet小波;決策理論;Hilbert變換

中圖分類號:TP18文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2009)32-9050-02

Wireless Signal Simulation Algorithm for Automatic Identification

ZHANG Meng

(Purchasing, China Railway Communication Co., Ltd., Beijing 100140, China)

Abstract: We have firstly discussed the modulation distinguishing method based on rational budgeting theory through the method of comparing Tine-Frequency analysis of the analysis signals formed by Hibert Transform . And on the basic of analyzing the fault of this method ,we put forward the distinguishing method based on NN. When NN is distinguishing signals, it mainly depends on the different positions of peak. Wavelet Transform here equals a mathematic microscope .it reflects the inexorable links between the signal categories and the positions of peak. Taking advantage Wavelet Transform and the simple three-layer BP NN, the more accurate Time-Frequency characteristics of signals to be distinguishing can be drawn.

Keywords: BP ANN; Morlet Wavelet; BudgetingTheory; Hibert Transform

在軍事電子對抗等多方面的重要應(yīng)用,通信信號調(diào)制的自動識別分類問題也相繼發(fā)展起來。無線電信號調(diào)制實(shí)識別就是要判斷截獲信號的調(diào)制種類。為此,需要事先對其特征進(jìn)行選定,并確定它們與相應(yīng)調(diào)制種類相聯(lián)系的取值范圍,然后再對信號進(jìn)行特征測量,并根據(jù)測量結(jié)果對信號的調(diào)制進(jìn)行分類判決。

如果把無線電信號的調(diào)制識別與分類視為一種模式識別問題,那末,從模式識別理論來看,模式分類是模式識別的一個子系統(tǒng)。因此,在模式識別理論框架下,無線電信號的調(diào)制識別是一個總體概念。而調(diào)制分類則只是調(diào)制識別的一個分支[1]。

1 基于決策理論的模擬調(diào)制方式識別方法

此算法主要實(shí)現(xiàn)區(qū)分AM、FM、DSB、LSB、USB、VSB、AM-FM等七種調(diào)制樣式,所分析的對象序列s(n)是由接收機(jī)中頻輸出并經(jīng)過采樣得到的,這樣s(n)的采樣頻率和載頻都已知,分別記做Fs和Fc。算法分兩個步驟:

第一步,根據(jù)信號的包絡(luò)特征將AM、USB、LSB與FM區(qū)分開,因?yàn)榍叭N信號的包絡(luò)不為恒定值,而FM的包絡(luò)理論上是恒定值(實(shí)際中接近恒定)。因而可以從中提取一個特征參數(shù)R。參數(shù)R反映了零中心歸一化包絡(luò)的功率譜特征,FM的零中心歸一化包絡(luò)接近零,因其參數(shù)R應(yīng)遠(yuǎn)遠(yuǎn)小于前三種信號。實(shí)際中若R

第二步,根據(jù)信號頻譜的對稱性,將AM與USB與LSB區(qū)分開,因?yàn)锳M的單邊頻譜關(guān)于載頻是近似對稱的,USB和LSB的單邊頻譜對于載頻來說分別只有上邊頻和下邊頻。因而可以從中提取另一個特征參數(shù) 。理論上,由于AM的上下邊頻對稱,所以AM的P接近零,而LSB和USB的P分別接近1和-1。實(shí)際中若|P|< 0.5,判為AM信號,若P>0.5,判為LSB,P

第三步,零中心非弱信號段瞬時相位非線性分量絕對值的標(biāo)準(zhǔn)偏差:σap 。

σap由下式定義:

(1)

式中,at是判斷弱信號段的一個幅度判決門限電平,c是在全部取樣數(shù)據(jù)Ns中屬于非弱信號值的個數(shù),?準(zhǔn)NL(i)是經(jīng)零中心化處理后瞬時相位的非線性分量,在載波完全同步時,有:?準(zhǔn)NL(i)= φ(i)-φ0

式中:,φ(i)為瞬時相位。用σap來區(qū)分是DSB信號還是AM-FM信號。

第四步,零中心非弱信號段瞬時相位非線性分量的標(biāo)準(zhǔn)偏差:σdp。

σdp由下式定義:

(2)

σdp主要用來區(qū)別不含直接相位信息的AM、VSB信號類和含直接相位信息的DSB、LSB、USB、AM-FM信號類,其判決門限設(shè)為t(σdp) 。

2 決策論方法的改進(jìn)

前面介紹的基于決策理論的模擬調(diào)制方式識別方法存在缺陷針對上述問題,人們又提出了基于神經(jīng)網(wǎng)絡(luò)(NN)的識別方法。

2.1 BP網(wǎng)絡(luò)作為分類器的模擬調(diào)制方式識別方法

該算法用基于有監(jiān)督訓(xùn)練的神經(jīng)網(wǎng)絡(luò)模型BP網(wǎng)絡(luò)作為分類器,用BP模型多層感知網(wǎng)絡(luò)與反向傳播學(xué)習(xí)算法相結(jié)合,通過不斷比較網(wǎng)絡(luò)的實(shí)際輸出與指定期望輸出間的差異來不斷的調(diào)整權(quán)值,直到全局(或局部)輸出差異極小值,不難想象該神經(jīng)網(wǎng)絡(luò)對模型細(xì)節(jié)中的諸多問題均有良好效果。

基于NN的模擬信號調(diào)制識別框圖[2]如圖1所示,該NN采用三層結(jié)構(gòu)即,1個輸入層,1個輸出層,1個中間層。中間層可采用多層。但由于受到計算復(fù)雜性的限制,目前采用單層或雙層中間層的NN比較多見。本圖中間層采用單層25個節(jié)點(diǎn),輸入層和輸出層的節(jié)點(diǎn)數(shù)取決于信號特征參數(shù)的個數(shù)和信號的分類數(shù),因而分別為4和7。

神經(jīng)網(wǎng)絡(luò)具有信息分布式存儲、大規(guī)模自適應(yīng)并行處理和高度容錯特性,適用于模式識別的基礎(chǔ)。其學(xué)習(xí)能力和容錯特性對不確定性模式識別具有獨(dú)到之處[3]。通信信號在傳播過程中受到信道噪聲的污染,接受到的信號是時變的、非穩(wěn)定的,而小波變換特別適用于非穩(wěn)定信號的分析,其作為一種信息提取的工具已得到較廣泛的應(yīng)用。小波變換具有時頻局部性和變焦特性,而神經(jīng)網(wǎng)絡(luò)具有自學(xué)習(xí)、自適應(yīng)、魯棒性、容錯性和推廣能力,兩者優(yōu)勢的結(jié)合可以得到良好的信號模式自動識別特性,從而形成各種處理方法。

2.2 基于小波的特征提取和識別方法

小波特別適用于非穩(wěn)定信號的分析,作為一種特征提取的工具已得到較為廣泛的應(yīng)用。小波的重要特點(diǎn)是它能夠提供一個信號局部化的頻域信息。小波變換能夠?qū)⒏鞣N交織在一起的不同頻率組成的混合信號分解成不同頻率的塊信號,它對不同的時間和頻率有不同的解釋,因此,對調(diào)制信號進(jìn)行小波分解,得到不同水平下的細(xì)節(jié)信息,這些信息對于不同類別的調(diào)制信號來說是有差別的[4]。

在實(shí)際應(yīng)用中,小波變換常用的定義有下列兩種:

(3)

(4)

式中,星號*表示共軛。式(3)表示小波變換是輸入信號想x(t)和小波函數(shù)φα, τ(t)的相關(guān)積分;式(4)用卷積代替了相關(guān)積分。兩種定義在本質(zhì)上是一致的。本為采用后者。

將式(4)中的τ和t離散化,即令τ=kTs,及t=iTs,得連續(xù)小波變換公式(4)的離散形式,又稱小波系數(shù):

(5)

Morlet小波是一種單頻復(fù)正弦調(diào)制高斯波,也是最常用的復(fù)值小波。其實(shí)、頻兩域都具有很好的局部性,它的時域形式如下:

(6)

雖然信號特征有很多種,神經(jīng)網(wǎng)絡(luò)在進(jìn)行信號識別時,主要是依據(jù)譜峰位置的不同,因此提取信號特征主要任務(wù)就是尋找信號類別與譜峰位置間的必然聯(lián)系。而小波變換在這里則相當(dāng)于一個數(shù)學(xué)顯微鏡,通過它,可以詳細(xì)了解各類信號在不同低頻段上的頻譜構(gòu)成。

整個系統(tǒng)在PC機(jī)上進(jìn)行仿真,采用Windows2000操作系統(tǒng)和Matlab6.1和Cool Edit2.0進(jìn)行聲音錄制。

在仿真中,采用44K的采樣率,錄制了一段歌聲和一段笑聲,用Matlab生成22K的正弦載波,并根據(jù)第二章的各調(diào)制樣式的定義,生成了各個仿真的調(diào)制波形。并轉(zhuǎn)化成.wav文件錄在電腦中。

3 結(jié)束語

本文僅限于理論理論研究,用MatLab仿真實(shí)現(xiàn),沒有用DSP芯片等物理電路實(shí)現(xiàn),僅為實(shí)際實(shí)現(xiàn)提供理論指導(dǎo)。

參考文獻(xiàn):

[1] 羅利春.無線電偵察信號分析與處理[M].北京:國防工業(yè)出版社,2003.

[2] 楊小牛,樓才義,徐建良.軟件無線電原理與應(yīng)用[M].北京:電子工業(yè)出版社,2001.

篇3

2. 應(yīng)用領(lǐng)域安防

實(shí)時從視頻中檢測出行人和車輛。

自動找到視頻中異常的行為(比如,醉酒的行人或者逆行的車輛),并及時發(fā)出帶有具體地點(diǎn)方位信息的警報。

自動判斷人群的密度和人流的方向,提前發(fā)現(xiàn)過密人群帶來的潛在危險,幫助工作人員引導(dǎo)和管理人流。

醫(yī)療

對醫(yī)學(xué)影像進(jìn)行自動分析的技術(shù)。這些技術(shù)可以自動找到醫(yī)學(xué)影像中的重點(diǎn)部位,并進(jìn)行對比比分析。

通過多張醫(yī)療影像重建出人體內(nèi)器官的三維模型,幫助醫(yī)生設(shè)計手術(shù),確保手術(shù)

為我們每個人提供康建議和疾病風(fēng)險預(yù)警,從而讓我們生活得更加健康。

智能客服

智能客服可以像人一樣和客戶交流溝通。它可以聽懂客戶的問題,對問題的意義進(jìn)行分析(比如客戶是詢問價格呢還是咨詢產(chǎn)品的功能呢),進(jìn)行準(zhǔn)確得體并且個性化的回應(yīng)。

自動駕駛

現(xiàn)在的自動駕駛汽車通過多種傳感器,包括視頻攝像頭、激光雷達(dá)、衛(wèi)星定位系統(tǒng)(北斗衛(wèi)星導(dǎo)航系統(tǒng)BDS、全球定位系統(tǒng)GPS等)等,來對行駛環(huán)境進(jìn)行實(shí)時感知。智能駕駛系統(tǒng)可以對多種感知信號進(jìn)行綜合分析,通過結(jié)合地圖和指示標(biāo)志(比如交通燈和路牌),實(shí)時規(guī)劃駕駛路線,并發(fā)出指令,控制車子的運(yùn)行。

工業(yè)制造

幫助工廠自動檢測出形態(tài)各異的缺陷

3. 概念什么是人工智能?

人工智能是通過機(jī)器來模擬人類認(rèn)知能力的技術(shù)。

人工智能的三種訓(xùn)練方式分別是監(jiān)督學(xué)習(xí)、非監(jiān)督學(xué)習(xí)、強(qiáng)化學(xué)習(xí)。下文會一一介紹。

二、這是不是鸞尾花(分類器)1. 特征提取人類感官特征

花瓣數(shù)量、顏色

人工設(shè)計特征

先確定哪些特征,再通過測量轉(zhuǎn)化為具體數(shù)值

深度學(xué)習(xí)特征

這里先不提及,文章后面會說

2. 感知器

老師給了一道題:

要區(qū)分兩種鸞尾花,得畫出一條直線區(qū)分兩類花,你可以畫出無數(shù)條直線,但是哪條才是最好的呢?

怎么辦呢?我可是學(xué)渣啊,靠蒙!

隨便找三個數(shù)a=0.5、b=1.0、c=-2 帶入 y = ax[1] + bx[2] + c,

每朵花的兩個特征也代入x[1]、x[2],比如帶入(4, 1) 得出 y[預(yù)測] = 1,此時 y[實(shí)際] = 1 (樣本設(shè)定變色鸞尾花為 1,山鸞尾為 -1 ),所以y[實(shí)際] – y[預(yù)測] = 0.

重復(fù)以上兩步,得出所有的『實(shí)際值和預(yù)測值的差距的綜合,記為 Loss1

可怎么知道是不是最優(yōu)的直線呢?繼續(xù)猜??!繼續(xù)懵!像猜世界杯一樣猜就好了。

通過沿 y = ax[1] + bx[2] + c 梯度(梯度就是求導(dǎo)數(shù),高中有學(xué)的?。┫陆档姆较蚶^續(xù)猜數(shù)字,具體過程大概是這樣子的:

上述所屬的實(shí)際值和預(yù)測值的差距 實(shí)際上是一種損失函數(shù),還有其他的損失函數(shù),比如兩點(diǎn)間直線距離公式,余弦相似度公式等等可以計算預(yù)測結(jié)果和實(shí)際結(jié)果之間的差距。

劃重點(diǎn):損失函數(shù)就是現(xiàn)實(shí)和理想的差距(很殘酷)

3. 支持向量機(jī)

*判斷依據(jù)的區(qū)別也導(dǎo)致了損失函數(shù)的不同(但依舊是猜)

直觀的說,縫隙(上圖的分類間隔)越大越好

4. 多分類

如果有多種花怎么辦?

一趟植物課上,老師請來了牡丹鑒別專家、荷花鑒別專家、梅花鑒別專家。老師拿出了一盤花給各個專家鑒定,牡丹角色這是牡丹的概率是0.013、荷花專家角色這是荷花的概率是0.265、梅花專家角色這是梅花的概率是0.722。

老師綜合了各位專家的意見后,告訴同學(xué)們,這是一盤梅花。

小明:這老師是不是傻,一朵花是啥都不知道,還要請三個專家

老師:你給我滾出去

實(shí)際計算過程就是通過用 2.2 和 2.3 等方法訓(xùn)練的二分類器,分別輸出對應(yīng)的分類值(比如三種花的分類器分別輸出-1,2,3),那怎么把這些分類值轉(zhuǎn)化成概率呢?這就要用到歸一化指數(shù)化函數(shù) Softmax(如果是二分類就用 Sigmoid函數(shù)),這里就不拿公式來說,可以直觀的看看書中這個表格就懂了:

5. 非監(jiān)督學(xué)習(xí)第 2.2 能從預(yù)測值和實(shí)際值的差別判斷”是否猜對了”,是因?yàn)樯锢蠋煾嬖V了學(xué)渣,哪些樣本是山鸞尾花,哪些變色鸞尾花。但如果老師連樣本實(shí)際的類別也不告訴學(xué)渣(非監(jiān)督式學(xué)習(xí)),學(xué)渣不知道樣本分別是什么花。

那該怎么辦呢?

機(jī)器學(xué)習(xí)的入門課程總是在講鸞尾花,也是夠煩的。

這里我們換個場景:

假如你是某直播老板,要找一堆小主播,這時候你有一堆應(yīng)聘者,然而你只有她們的胸圍和臀圍數(shù)據(jù)。一堆8份簡歷擺在你面前,你是不知道哪些更加能干( capable啊 ! ) 的,更能吸引粉絲。你也沒空全部面試,那應(yīng)該怎么挑選呢?

這時候你把她們的胸圍和臀圍都標(biāo)準(zhǔn)在一張二維坐標(biāo)圖上:

這是你隨手一劃,把她們分成兩組,可以說“聚成兩類了”。

用某種計算方式(比如平均值)找到這個聚類的中心。點(diǎn)離聚類中心越近,代表越相似。

求出每個聚類中的點(diǎn)到藍(lán)色聚類中心點(diǎn)和黃色聚類中心的距離

如果一個點(diǎn)離黃色聚類中心更近卻被你隨手劃到了藍(lán)色分組(上圖用紅色邊框標(biāo)出的小方塊),那么就把它劃入黃色分組。

這時因?yàn)榉纸M范圍和分組內(nèi)包含哪些小姐姐都發(fā)生了變化。這時候你需要以 步驟3 的方法重新計算聚類的中心

重復(fù)步驟 4 (算點(diǎn)中心距離)-> 重復(fù)步驟 5 (調(diào)整黃色小姐姐們和藍(lán)色小姐姐們)-> 重復(fù)步驟 3 (算中心),一直循環(huán)這個過程直到藍(lán)色和黃色聚類下所包含的小姐姐不再發(fā)生變化。那么就停止這一循環(huán)。

至此,小姐姐們已經(jīng)被分為兩大類。你可以得出兩類小姐姐:

計算機(jī)在沒有監(jiān)督的情況下,成功把小姐姐們分成兩類,接下來就可以在把兩種主播各投放2個到平臺看看誰更能干。效果更好的,以后就以那個聚類的樣本特征擴(kuò)充更多能干的主播。

小明:有什么了不起的,我一眼就能看出黃色小姐姐更能干

老師:你給我滾出去

上面聚類小姐姐的算法就叫做 K 鄰近算法,K 為要聚類的數(shù)量(這需要人工指定),上述例子 K=2.那么如果分成三類就是 K=3,訓(xùn)練過程可以看下圖,有個直觀的了解:

三、這是什么物品(圖像識別)1. 特征提取人類感官特征

花瓣顏色、花瓣長度、有沒有翅膀(區(qū)分貓和小鳥)、有沒有嘴巴和眼睛(飛機(jī)和小鳥)

感官的特征通過量化得到顏色(RGB值)、邊緣(圓角、直角、三角)、紋理(波浪、直線、網(wǎng)格)數(shù)值特征

人工設(shè)計特征

深度學(xué)習(xí)特征

通過卷積提取圖像特征

劃重點(diǎn):卷積的作用就是提取圖像有用信息,好比微信把你發(fā)出的圖片壓縮了,大小變小了,但是你依舊能分辨出圖像的主要內(nèi)容。

1維卷積 1*5+2*4+3*3=22、1*4+2*3+3*2=16、1*3+2*2+3*1=10

2維卷積 1*2+3*0+2*4+4*2=28…

通過卷積就可以得到圖像的特征信息,比如邊緣

垂直邊緣檢測

水平邊緣檢測

方向梯度直方圖

2. 深度學(xué)習(xí)和傳統(tǒng)模式分類的區(qū)別既然有傳統(tǒng)模式分類,為什么還要神經(jīng)網(wǎng)絡(luò)呢?

區(qū)別就在于傳統(tǒng)的模式分類需要人為設(shè)置特征,比如花瓣長度、顏色等等。而深度學(xué)習(xí)省略掉人工設(shè)計特征的步驟,交由卷積操作去自動提取,分類器的訓(xùn)練也同時融入到神經(jīng)網(wǎng)絡(luò)當(dāng)中,實(shí)現(xiàn)了端對端的學(xué)習(xí)

劃重點(diǎn):端對端學(xué)習(xí)(End to End)就是從輸入直接得出輸出,沒有中間商,自己賺差價。

3. 深(多)層神經(jīng)網(wǎng)絡(luò)存在的問題一般來說,神經(jīng)網(wǎng)絡(luò)層數(shù)增多,會提高準(zhǔn)確率。但是,網(wǎng)絡(luò)層數(shù)加深導(dǎo)致:

過擬合學(xué)渣把高考預(yù)測試題的答案都背一遍而不理解,考試的時候,如果試題是考生背過的,那么考生就能答對;如果沒背過那么考生就不會回答了。我們就可以說,學(xué)渣『過擬合了預(yù)測試題。

與之對應(yīng)的是:欠擬合渣得不能再渣的人,連預(yù)測試題都背不下來,即使考試試題和預(yù)測試題一模一樣,他也只能答對30%。那么就可以說這種人~~欠揍~~欠擬合。

有興趣的還可以了解一下梯度彌散和梯度爆炸下面是網(wǎng)上很火很勵志的一個公式,權(quán)重在多層網(wǎng)絡(luò)中相乘,比如每一層的權(quán)重都是0.01,傳遞100層 就是 0.01 的100 次方,變得非常小,在梯度下降 Gradient Descent 的學(xué)習(xí)過程中,學(xué)習(xí)將變得非常慢。(好比從一個碗頂部放下一個小球,在底部徘徊的速度會越來越慢)

非凸優(yōu)化學(xué)習(xí)過程可能在局部最小值(極小值)就停止了,因?yàn)樘荻龋ㄐ甭剩榱?。在局部最低停止而不是全局最低停止,學(xué)習(xí)到的模型就不夠準(zhǔn)確了。

看圖感受一下

你說的底不是底,你說的頂是什么頂

解決的辦法

均勻初始化權(quán)重值(Uniform Initialization)、批歸一化(Batch Normalization)、跳遠(yuǎn)鏈接(Shortcut)涉及到比較多數(shù)學(xué)邏輯,這里就不展開說明了。

4. 應(yīng)用人臉識別

自動駕駛把汽車頂部拍攝到的圖片切分層一個個小方塊,每個小方塊檢測物體是車還是行人還是狗,是紅燈還是綠燈,識別各種交通標(biāo)識等等。再配合雷達(dá)等判斷物體距離。

四、這是什么歌(語音識別)1. 特征提取人類感官特征音量、音調(diào)、音色

通過采樣、量化、編碼。實(shí)現(xiàn)聲波數(shù)字化(聲波轉(zhuǎn)電信號)

人工設(shè)計特征梅爾頻率在低頻部分分辨率高,高頻部分分辨率低(這與人耳的聽覺感受是相似的,即在一定頻率范圍內(nèi)人對低頻聲音比較敏感而對高頻聲音不敏感)。

關(guān)系為:

在每一個頻率區(qū)間對頻譜求均值,它代表了每個頻率范圍內(nèi)聲音能量的大小。一共有26個頻率范圍,從而得到26維的特征。倒譜操作后,得到 13 維的梅爾頻率倒譜系數(shù)(Mel-FrequencyCepstralCoefficients,MFCCs)

深度學(xué)習(xí)特征通過 3.1 所介紹的 1維卷積進(jìn)行特征提取

2. 應(yīng)用音樂風(fēng)格分類

輸入:音頻文件特征:聲音特征輸出:音樂種類

語音轉(zhuǎn)文字

輸入:音頻文件特征:聲音特征輸出:聲學(xué)模型(比如26個英文字母)

再把聲學(xué)模型送入另外的學(xué)習(xí)器

輸入:聲學(xué)模型特征:語義和詞匯輸出:通順的語句(可以查看第6點(diǎn),如何讓計算機(jī)輸出通順的語句)

聽歌識曲通過窗口掃描(把音樂分割成一小段一小段的),然后通過4.1說的方法提取這一段的特征,就得到一個特征向量。對數(shù)據(jù)庫的歌和用戶錄音的歌做同樣的操作得到特征向量,然后兩兩之間計算相似度(兩個向量的距離可以用余弦公式算夾角大小或者兩點(diǎn)間距離公式來算)

五、視頻里的人在做什么(視頻理解,動作識別)1. 介紹視頻,本質(zhì)是由一幀幀圖片連續(xù)組成的,因?yàn)槿艘曈X的暫留效應(yīng)(Persistence of vision,人眼在觀察景物時,光信號傳入大腦神經(jīng),并不立即消失,讓人產(chǎn)生畫面連續(xù)的印象),看上去是連續(xù)的,也就是視頻。識別視頻里面有什么物體,可以用上文說過的圖像識別和分類方法去實(shí)時分析單幀圖像,比如:

但是視頻相對于圖像有一個更重要的屬性:動作(行為)。

怎么從一個連續(xù)的視頻分析動作呢?

舉個例子,像上圖那只二哈,腿部的像素點(diǎn)相對于黃色的方框(框和狗相對靜止)在左右”移動”,這里的”移動”我們引入一個概念——光流(一個像素點(diǎn)從一個位置移動到另一個位置),通過像素點(diǎn)移動形成的光流作為神經(jīng)網(wǎng)絡(luò)的訓(xùn)練特征(X),『奔跑作為訓(xùn)練目標(biāo)值(Y),經(jīng)過多次的迭代訓(xùn)練,機(jī)器就可以擬合得出一個 Y = f(X) 用于判斷視頻中的物體(Object)是否在奔跑。

2. 光流假設(shè),1)相鄰兩幀中物體運(yùn)動很小2)相鄰兩幀中物體顏色基本不變

至于神經(jīng)網(wǎng)絡(luò)是怎么跟蹤某個像素點(diǎn)的,這里不展開說明。

第 t 時刻的點(diǎn)指向第 t+1 時刻該點(diǎn)的位置,就是該點(diǎn)的光流,是一個二維的向量。

整個畫面的光流就是這樣:

整個視頻的光流(軌跡)是這樣的

不同的虛線代表圖像上某個點(diǎn)移動的軌跡

假設(shè)視頻寬width、高 height、一共有 m 幀,那么該視頻可以用 width * height * m * 2 的張量(就是立體的矩陣)來表示,把向量喂到神經(jīng)網(wǎng)絡(luò)即可進(jìn)行分類訓(xùn)練。

進(jìn)一步優(yōu)化,可以把光流簡化為8個方向上的,把視頻某一幀的所有光流累加到這八個方向上得出某一幀的光流直方圖,進(jìn)一步得出 8 維的特征向量。

六、一段文字在表達(dá)什么(自然語言處理)1. 特征提取

這里有4個句子,首先進(jìn)行分詞:

去掉停用詞(副詞、介詞、標(biāo)點(diǎn)符合等等,一般在文本處理上都有一個停用詞表)

編碼詞表

句子向量化

這樣就得到一個句子19 維 的 特征向量,再把這19維的特征向量用普通卷積網(wǎng)絡(luò)或者 LSTM 循環(huán)神經(jīng)網(wǎng)絡(luò)作為 X 讀入(喂它吃東西),文本的分類(比如積極、消極)作為訓(xùn)練標(biāo)簽值 Y,迭代訓(xùn)練得到的模型可以用于情感分析或文本分類等任務(wù)。

2. 進(jìn)階詞向量化厲害-牛逼、計算機(jī)-電腦是同義詞。光從上面的步驟,我們可能認(rèn)為厲害和牛逼是兩個完全不一樣的詞語,但其實(shí)他們是近似的意思,怎么才能 AI 學(xué)習(xí)知道這點(diǎn)呢?需要從多個維度去進(jìn)一步給詞語更豐富的內(nèi)涵,比如:

舉例來說,男性用1表示,女性用0表示,不帶性別傾向就是0.5。多個維度擴(kuò)展之后,就得到“男人”這個詞的特征向量(1,0, 0.5,0,1)

逆向文檔頻率一個詞在一類文章出現(xiàn)的多,而在另外分類的文章出現(xiàn)的少,越能說明這個次能代表這篇文章的分類。比如游泳在體育類的文章中出現(xiàn)的多(2次),而在工具類的文章出現(xiàn)的少(0次),相比其他詞語(1次)更能代表體育類的文章。

假設(shè)句子中有 N 個詞, 某個詞出現(xiàn)次數(shù)為 T,一共有 X 個句子,該詞語在 W 個句子出現(xiàn),則逆向文檔頻率 TF-IDF 為 T/N * log(X/W)

3. 應(yīng)用

七、讓計算機(jī)畫畫(生成對抗網(wǎng)絡(luò))從前有個人,以賣臨摹名家的畫來賺錢。他開始臨摹一副名畫:

第一次他畫成這樣子了:

鑒賞家一眼就看出來是假的,他不得不回去畫第二幅畫、第三幅畫…

經(jīng)過了10萬次”畫畫-鑒別”的過程,這個臨摹者畫出來的畫,鑒賞家居然認(rèn)為這是真的原作,以高價買入了這副畫。

這種生成(畫畫)- 鑒別(鑒偽)的模式正是生成對抗網(wǎng)絡(luò)(GAN)的核心。

通過生成器,把隨機(jī)像素點(diǎn)有序排列形成具有意義的畫面,再通過鑒別器得出生成的畫面的分類、和真實(shí)畫面之間的差距,并告訴生成器要往什么方向去優(yōu)化。多輪的訓(xùn)練之后,生成器就學(xué)會了畫『真畫了。

計算機(jī)是怎么把隨機(jī)像素點(diǎn)變成有意義的畫面的呢?我們通過一個簡化的例子來看看。

直線上一些均勻分布的點(diǎn),經(jīng)過 y=2x+1變換后變成了非均勻分布。一張隨機(jī)排布的像素點(diǎn)畫面,經(jīng)過某個f(x) 變換后就會變成具有某種意義的畫面,而生成器就是不停地去近似f(x), 就像 2.2 感知器擬合一條直線那樣。

下圖為計算機(jī)生成手寫數(shù)字的過程

劃重點(diǎn):函數(shù)可以變換數(shù)據(jù)分布(庫克說:可以把直的變成彎的)

八AlphaGo是怎么下棋的?(強(qiáng)化學(xué)習(xí))1. 粗略認(rèn)知監(jiān)督/無監(jiān)督訓(xùn)練:盡可能讓每一次任務(wù)正確強(qiáng)化學(xué)習(xí):多次任務(wù)是否達(dá)成最終目標(biāo)

每一次任務(wù)都準(zhǔn)確,不就是能達(dá)成最終目標(biāo)嗎?我們來看一個例子:

一家批發(fā)商店的老板愛麗絲要求她的經(jīng)理比爾增加銷售額,比爾指導(dǎo)他的銷售員多賣一些收音機(jī),其中一個銷售員查爾斯弄到了一個可以獲利的大單,但是之后公司因?yàn)楣?yīng)緊缺無法交付這些收音機(jī)。

應(yīng)該責(zé)怪誰呢?

從愛麗絲的角度來看,查爾斯的行為讓公司蒙羞了(最終任務(wù)沒完成)。

但是從比爾的角度,查爾斯成功地完成了他的銷售任務(wù),而比爾也增加了銷量(子任務(wù)達(dá)成)。——《心智社會》第7.7章

2. AlphaGo下圍棋,最古老的辦法是決策樹,從左上角的位置開始到右下角的位置遍歷,每一個空的位置就是一個分支,然后預(yù)測每種棋局贏的概率,找出最大概率的走法玩。這就是落子預(yù)測器。

但是由于圍棋19X19的超大棋盤,空間復(fù)雜度高達(dá)10的360次方,要窮盡所有的走法幾乎是不可能的,如大海撈針。

要降低復(fù)雜度,關(guān)鍵是要降低搜索的廣度和深度。

我們栽培一顆小盆栽的時候,如果不對枝葉進(jìn)行修剪,那么養(yǎng)分就會浪費(fèi)在沒長好的枝條上。需要及時對枯萎或者異常的枝條進(jìn)行修剪以保證養(yǎng)分往正常(或者說我們希望它生長的方向)枝條上輸送。

同樣的道理,有限的計算機(jī)算力如果浪費(fèi)在窮盡所有圍棋走法上,將導(dǎo)致棋局推演非常慢,而且耗費(fèi)大量的時間也難以找到最優(yōu)的方案。

是否可以通過 “修剪” 落子選擇器這顆龐大的決策樹,加快較優(yōu)落子方案的選擇呢?怎么判斷哪些是好的”枝條”,哪些是壞的”枝條”呢?這就需要棋局價值評估器(哪個棋盤的贏的概率更大),把沒有價值的棋局先去掉不再往下遍歷,這就同時減少了搜索的廣度和深度。

其中,落子預(yù)測器有個名稱,叫做政策網(wǎng)絡(luò)(policy network)價值評估器有個名稱,叫做價值網(wǎng)絡(luò)(value network)政策網(wǎng)絡(luò)(policy network)利用蒙特卡洛搜索樹從當(dāng)前棋局推演(隨機(jī)下棋)到最終的棋局,最終勝則回報為正,反之回報為負(fù)。之后該算法會反向沿著該對弈過程的落子方案步步回溯,將路徑上勝者所選擇的落子方案分?jǐn)?shù)提高,與此對應(yīng)將敗者的落子方案分?jǐn)?shù)降低,所以之后遇到相同局面時選擇勝者方案的概率就會增加。因此可以加速落子選擇,稱為快速走子網(wǎng)絡(luò)。

通過 政策網(wǎng)絡(luò) + 價值網(wǎng)絡(luò) + 蒙特卡洛搜索樹 實(shí)現(xiàn)最優(yōu)落子方案的選擇,同時兩個機(jī)器人互相對弈,這樣就不停地訓(xùn)練網(wǎng)絡(luò),學(xué)習(xí)落子方案。

3. 定義接下來說一下枯燥的定義

什么是強(qiáng)化學(xué)習(xí)?

當(dāng)我們關(guān)注的不是某個判斷是否準(zhǔn)確,而是行動過程能否帶來最大的收益時使用強(qiáng)化學(xué)習(xí)(reinforeement learning)。比如在下棋、股票交易或商業(yè)決策等場景中。

強(qiáng)化學(xué)習(xí)的目標(biāo)是要獲得一個策略(poliey)去指導(dǎo)行動。比如在圍棋博弈中,這個策略可以根據(jù)盤面形勢指導(dǎo)每一步應(yīng)該在哪里落子;在股票交易中,這個策略會告訴我們在什么時候買入、什么時候賣出。

一個強(qiáng)化學(xué)習(xí)模型一般包含如下幾個部分:

一組可以動態(tài)變化的狀態(tài)(sute)

對于圍棋棋盤上黑白子的分布位置對于股票交易來說,就是股票的價格

一組可以選取的動作(metion)

對于圍棋來說,就是可以落子的位置;對于股票交易來說,就是每個時間點(diǎn),買入或者賣出的股票以及數(shù)量。

一個可以和決策主體(agent)進(jìn)行交互的環(huán)境(environment)這個環(huán)境會決定每個動作后狀態(tài)如何變化。

棋手(主體)的落子會影響棋局(環(huán)境),環(huán)境給主體獎勵(贏)或懲罰(輸)操盤手(主體)的買入或賣出會影響股票價格(環(huán)境,供求關(guān)系決定價格),環(huán)境給主體獎勵(賺錢)或懲罰(虧錢)

篇4

    雖然目前公眾媒體將無線通信炒的很熱,但這個領(lǐng)域從1897年馬可尼成功演示無線電波開始,已經(jīng)有超過一百年的。到1901年就實(shí)現(xiàn)了跨大西洋的無線接收,表明無線通信技術(shù)曾經(jīng)有過一段快速發(fā)展時期。在之后的幾十年中,眾多的無線通信系統(tǒng)生生滅滅。

    20世紀(jì)80年代以來,全球范圍內(nèi)移動無線通信得到了前所未有的發(fā)展,與第三代移動通信系統(tǒng)(3g)相比,未來移動通信系統(tǒng)的目標(biāo)是,能在任何時間、任何地點(diǎn)、向任何人提供快速可靠的通信服務(wù)。因此,未來無線移動通信系統(tǒng)應(yīng)具有高的數(shù)據(jù)傳輸速度、高的頻譜利用率、低功耗、靈活的業(yè)務(wù)支撐能力等。但無線通信是基于電磁波在自由空間的傳播來實(shí)現(xiàn)傳輸?shù)?。信號在無線信道中傳輸時,無線頻率資源受限、傳輸衰減、多徑傳播引起的頻域選擇性衰落、多普勒頻移引起的時間選擇性衰落以及角度擴(kuò)展引起的空間選擇性衰落等都使得無線鏈路的傳輸性能差。和有線通信相比,無線通信主要由兩個新的問題。一是通信行道經(jīng)常是隨時間變化的,二是多個用戶之間常常存在干擾。無線通信技術(shù)還需要克服時變性和干擾。由于這個原因,無線通信中的信道建模以及調(diào)制編碼方式都有所不同。

    1.無線數(shù)字通信中盲源分離技術(shù)分析

    盲源分離(bss:blind source separation),是信號處理中一個傳統(tǒng)而又極具挑戰(zhàn)性的問題,bss指僅從若干觀測到的混合信號中恢復(fù)出無法直接觀測的各個原始信號的過程,這里的“盲”,指源信號不可測,混合系統(tǒng)特性事先未知這兩個方面。在研究和工程應(yīng)用中,很多觀測信號都可以看成是多個源信號的混合,所謂“雞尾酒會”問題就是個典型的例子。其中獨(dú)立分量分析ica(independent component analysis)是一種盲源信號分離方法,它已成為陣列信號處理和數(shù)據(jù)分析的有力工具,而bss比ica適用范圍更寬。目前國內(nèi)對盲信號分離問題的研究,在理論和應(yīng)用方面取得了很大的進(jìn)步,但是還有很多的問題有待進(jìn)一步研究和解決。盲源分離是指在信號的理論模型和源信號無法精確獲知的情況下,如何從混迭信號(觀測信號)中分離出各源信號的過程。盲源分離和盲辨識是盲信號處理的兩大類型。盲源分離的目的是求得源信號的最佳估計,盲辨識的目的是求得傳輸通道混合矩陣。盲源信號分離是一種功能強(qiáng)大的信號處理方法,在醫(yī)學(xué)信號處理,陣列信號處理,語音信號識別,圖像處理及移動通信等領(lǐng)域得到了廣泛的應(yīng)用。

    根據(jù)源信號在傳輸信道中的混合方式不同,盲源分離算法分為以下三種模型:線性瞬時混合模型、線性卷積混合模型以及非線性混合模型。

    1.1 線性瞬時混合盲源分離

    線性瞬時混合盲源分離技術(shù)是一項產(chǎn)生、研究最早,最為簡單,理論較為完善,算法種類多的一種盲源分離技術(shù),該技術(shù)的分離效果、分離性能會受到信噪比的影響。盲源分離理論是由雞尾酒會效應(yīng)而被人們提出的,雞尾酒會效應(yīng)指的是雞尾酒會上,有聲、談話聲、腳步 聲、酒杯餐具的碰撞聲等,當(dāng)某人的注意集中于欣賞音樂或別人的談話,對周圍的嘈雜聲音充耳不聞時,若在另一處有人提到他的名字,他會立即有所反應(yīng),或者朝 說話人望去,或者注意說話人下面說的話等。該效應(yīng)實(shí)際上是聽覺系統(tǒng)的一種適應(yīng)能力。當(dāng)盲源分離理論提出后很快就形成了線性瞬時混合模型。線性瞬時混合盲源分離技術(shù)是對線性無記憶系統(tǒng)的反應(yīng),它是將n個源信號在線性瞬時取值混合后,由多個傳感器進(jìn)行接收的分離模型。

    20世紀(jì)八、九十年代是盲源技術(shù)迅猛發(fā)展的時期,在1986年由法國和美國學(xué)者共同完了將兩個相互獨(dú)立的源信號進(jìn)行混合后實(shí)現(xiàn)盲源分離的工作,這一工作的成功開啟了盲源分離技術(shù)的發(fā)展和完善。在隨后的數(shù)十年里對盲源技術(shù)的研究和創(chuàng)新不斷加深,在基礎(chǔ)理論的下不斷有新的算法被提出和運(yùn)用,但先前的算法不能夠完成對兩個以上源信號的分離;之后在1991年,法國學(xué)者首次將神經(jīng)網(wǎng)絡(luò)技術(shù)應(yīng)用到盲源分離問題當(dāng)中,為盲源分離提出了一個比較完整的框架。到了1995年在神經(jīng)網(wǎng)絡(luò)技術(shù)基礎(chǔ)上盲源分離技術(shù)有了突破性的進(jìn)展,一種最大化的隨機(jī)梯度學(xué)習(xí)算法可以做到同時分辨出10人的語音,大大推動了盲源分離技術(shù)的發(fā)展進(jìn)程。

    1.2 線性卷積混合盲源分離

    相比瞬時混合盲源分離模型來說,卷積混合盲源分離模型更加復(fù)雜。在線性瞬時混合盲源分離技術(shù)不斷發(fā)展應(yīng)用的同時,應(yīng)用中也有無法準(zhǔn)確估計源信號的問題出現(xiàn)。常見的是在通信系統(tǒng)中的問題,通信系統(tǒng)中由于移動客戶在使用過程中具有移動性,移動用戶周圍散射體會發(fā)生相對運(yùn)動,或是交通工具發(fā)生的運(yùn)動都會使得源信號在通信環(huán)境中出現(xiàn)時間延遲的現(xiàn)象,同時還造成信號疊加,產(chǎn)生多徑傳輸。正是因?yàn)檫@樣問題的出現(xiàn),使得觀測信號成為源信號與系統(tǒng)沖激響應(yīng)的卷積,所以研究學(xué)者將信道環(huán)境抽象成為線性卷積混合盲源分離模型。線性卷積混合盲源分離模型按照其信號處理空間域的不同可分為時域、頻域和子空間方法。

    1.3 非線性混合盲源分離

    非線性混合盲源分離技術(shù)是盲源分離技術(shù)中發(fā)展、研究最晚的一項,許多理論和算法都還不算成熟和完善。在衛(wèi)星移動通信系統(tǒng)中或是麥克風(fēng)錄音時,都會由于乘性噪聲、放大器飽和等因素的影響造成非線性失真。為此,就要考慮非線性混合盲源分離模型。非線性混合模型按照混合形式的不同可分為交叉非線性混合、卷積后非線性混合和線性后非線性混合模型三種類型。在最近幾年里非線性混合盲源分離技術(shù)受到社會各界的廣泛關(guān)注,特別是后非線性混合模型。目前后非線性混合盲源分離算法中主要有參數(shù)化方法、非參數(shù)化方法、高斯化方法來抵消和補(bǔ)償非線性特征。

    2.無線通信技術(shù)中的盲源分離技術(shù)

    在無線通信系統(tǒng)中通信信號的信號特性參數(shù)復(fù)雜多變,實(shí)現(xiàn)盲源分離算法主要要依據(jù)高階累積量和峭度兩類參數(shù)。如圖一所示,這是幾個常見的通信信號高階累積量。

    在所有的通信系統(tǒng)中,接收設(shè)備處總是會出現(xiàn)白色或是有色的高斯噪聲,以高階累積量為準(zhǔn)則的盲源分離技術(shù)在處理這一問題時穩(wěn)定性較強(qiáng),更重要的是對不可忽略的加性高斯白噪聲分離算法同時適用。因此,由高階累積量為準(zhǔn)則的盲源分離算法在通信系統(tǒng)中優(yōu)勢明顯。

    分離的另一個判據(jù)就是峭度,它是反映某個信號概率密度函數(shù)分布情況與高斯分布的偏離程度的函數(shù)。峭度是由信號的高階累積量定義而來的,是度量信號概率密度分布非高斯性大小的量值。

篇5

關(guān)鍵詞:水尺 檢測 圖像識別

中圖分類號:TP274 文獻(xiàn)標(biāo)識碼:A 文章編號:1007-9416(2013)01-0114-02

1 引言

隨著航運(yùn)技術(shù)的發(fā)展,船舶運(yùn)輸越來越受到人們的關(guān)注。船舶的水尺計重作為一種科學(xué)的計重方法,具有一定的準(zhǔn)確性,在國際上已廣泛應(yīng)用,其計算結(jié)果可作為商品交接結(jié)算、理賠、計算運(yùn)費(fèi)和通關(guān)計稅的依據(jù)。其適用于價值較低,衡重困難的大宗散裝固體商品,例如煤炭、鐵礦石、水泥、糧食等商品的重量計算。水尺計重的優(yōu)點(diǎn)是省時、省力、省費(fèi)用,能迅速計算出整船貨物的重量,但是計算過程較為復(fù)雜,影響計重結(jié)果的客觀因素較多,特別船舶刻度觀測水平是影響水尺準(zhǔn)確性最重要因素。船舶吃水線的檢測目前主要依靠經(jīng)過長期訓(xùn)練的觀察人員目測船舶的水尺標(biāo)志而獲得船舶的實(shí)際吃水值,為了獲得較為精確的數(shù)值,需要觀察人員多次查看,以求得平均值。這種人眼目測船舶吃水線數(shù)值的方式,往往帶有主觀性,存在較大的局限性,例如:觀測不方便,受環(huán)境影響大,并且觀測存在一定危險。因此,本文提出采用Matlab7.0作為仿真環(huán)境,利用圖像處理技術(shù),設(shè)計船舶吃水線自動檢測的算法來自動檢測船舶水尺刻度數(shù)值,可以克服人工目測所引起的一系列問題,完整的記錄整個觀測階段的吃水線位置,并使后續(xù)的數(shù)據(jù)處理成為可能。降低了系統(tǒng)復(fù)雜性,又提高了效率和準(zhǔn)確度。

2 圖像識別技術(shù)的原理

近年來,拍攝設(shè)備性能的不斷完善,設(shè)備的分辨率能夠達(dá)到很精確的程度,圖片質(zhì)量清晰度非常高,同時計算機(jī)體系結(jié)構(gòu)和算法的快速發(fā)展,使得圖像處理的性能和運(yùn)算速度得到了較大提高,這些都為吃水線的求取提供了可能。一幅圖像在計算機(jī)中可以定義為一個二維函數(shù)f(x,y),其中x和y是空間(平面)坐標(biāo),而在任何一對空間坐標(biāo)(x,y)處的幅值f稱為該點(diǎn)處的灰度,當(dāng)x,y和灰度值f是有限的離散數(shù)值時,我們稱該圖像為數(shù)值圖像,數(shù)字圖像處理就是借助計算機(jī)來處理上述這些數(shù)字圖像。數(shù)字圖像是由有限數(shù)量的元素組成的,每個元素都有一個特殊的位置和數(shù)值,要將一副圖像轉(zhuǎn)化為數(shù)字形式,就要求數(shù)字化x,y和灰度值f。在此基礎(chǔ)上,利用上述數(shù)值,設(shè)計相應(yīng)的算法即可得到船舶水尺精確的刻度值。

3 船舶吃水線刻度檢測算法的設(shè)計

3.1 總體結(jié)構(gòu)設(shè)計

本文利用Matlab7.0作為仿真環(huán)境,通過采集到的視頻圖像序列,首先設(shè)計計算法檢測出吃水線邊緣,找到吃水線的位置,然后對船幫上刻度字進(jìn)行分割,并求出水平面距離所在刻度上邊緣的距離,利用BP神經(jīng)網(wǎng)絡(luò)對水尺刻度線進(jìn)行識別,得到吃水線的數(shù)值。吃水線檢測算法的總流程圖如(圖1)所示:

3.2 船舶吃水線刻度檢測算法關(guān)鍵步驟的處理

3.2.1 圖像的灰度化和二值化處理

相比彩色圖像,灰度圖像的邊緣檢測較為方便和快捷,計算量小,所以先將獲取到的彩色圖像轉(zhuǎn)為灰度圖像。而圖像的二值化處理就是將圖像上的像素點(diǎn)的灰度值設(shè)置為0至255,將采樣后所得到的各像素的灰度值用矩陣表示,即灰度圖的量化。所有灰度值大于或者等于閥值的像素被判定為特殊物體,灰度值小于閥值的則表示為背景或者其他物體區(qū)域。通過將灰度值投影到曲線上,則可以獲得灰度值的分布特征。

3.2.2 選擇合適的邊緣檢測算法找到吃水線的邊緣

數(shù)字圖像的邊緣檢測是圖像分割,目標(biāo)區(qū)域識別,區(qū)域形狀提取等圖像領(lǐng)域中十分重要的基礎(chǔ),邊緣是圖像的最基本特征之一,它是利用周圍像素灰度有階躍變化或屋頂變化的像素的集合。邊緣檢測算法大致分為兩類:基于查找和基于零穿越的邊緣檢測。常用的邊緣檢測算法有:Roberts、Prewitt、Sobel、LOG、Canny算法等。

3.2.3 選擇合適的閥值對刻度字的分割

圖像分割是一種重要的圖像分析技術(shù),在對圖像的研究和應(yīng)用中,人們往往僅對圖像中的特定部分感興趣。為了識別和分析圖像中得目標(biāo),需要將它們從圖像中分離提取出來,在此基礎(chǔ)上才有可能進(jìn)一步對目標(biāo)進(jìn)行測量和對圖像進(jìn)行利用。而分割字符的思想就是利用刻度字區(qū)域黑色像素點(diǎn)比較多,比較集中,同時根據(jù)水尺標(biāo)志的特點(diǎn),每個字符之間有10cm的空隙間隔隔開,這樣得到的投影圖有幾個比較集中卻又有明顯分割的投影峰值群,通過設(shè)定特定的閥值來判定特定物體,通過這種方法將找出船幫上刻度字的左右邊界。

3.2.4 選擇BP神經(jīng)網(wǎng)絡(luò)對船幫處水尺字符進(jìn)行識別

字符識別的主流技術(shù)有:統(tǒng)計決策法、人工智能法、模板匹配法和人工神經(jīng)元網(wǎng)絡(luò)法等。同在字符識別領(lǐng)域相對比較成熟的光學(xué)字符(OCR)識別、車牌識別相比,船幫處水尺刻度字符由于表面凹凸、油漆掉色或攝像時水面反光等情況造成的字符畸變。為了提高系統(tǒng)的抗干擾性和自適應(yīng)性,本文計劃采用對噪聲干擾和形變有較好適應(yīng)性的BP神經(jīng)網(wǎng)絡(luò)模型方式來進(jìn)行識別。BP網(wǎng)絡(luò)是神經(jīng)網(wǎng)絡(luò)的一個分支,又稱誤差信號反饋網(wǎng)絡(luò),是神經(jīng)網(wǎng)絡(luò)中使用最廣泛的一類。并嘗試通過改善收斂性,神經(jīng)元的個數(shù),提高系統(tǒng)的識別率。

3.3 Matlab軟件的使用

Matlab由美國的MathWorks公司出品,它的指令表達(dá)式與數(shù)學(xué),工程中常用的形式十分相似。其典型的應(yīng)用包括:(1)數(shù)學(xué)和計算;(2)算法開發(fā);(3)數(shù)據(jù)獲取;(4)建模、模擬和原型設(shè)計;(5)數(shù)據(jù)分析、研究和可視化;(6)科學(xué)和工程圖形;(7)應(yīng)用開發(fā),包括圖像用戶界面的構(gòu)建。MATLAB中補(bǔ)充了許多針對特殊應(yīng)用的工具箱,圖像處理工具箱是一個MATLAB函數(shù)集合,能進(jìn)行圖像的和、差等線性運(yùn)算,以及卷積、相關(guān)、濾波等非線性運(yùn)算,幾乎包括了常用的圖像處理操作的各種函數(shù),只需了解這些函數(shù)的使用方法,正確調(diào)用函數(shù)就可以實(shí)現(xiàn)常用的各種圖像處理的操作。MATLAB能支持包括:TIFF、BMP、JPEG等的圖形文件的格式,用它來解決圖像問題比用C,F(xiàn)ortran等語言完成相同的事情簡捷的多。因此利用此工具,我們可以方便地從各個方面對圖像的性質(zhì)進(jìn)行深入的研究。

本文所研究的內(nèi)容是在靜態(tài)圖像上對吃水線進(jìn)行檢測,其技術(shù)路線包括圖像的預(yù)處理,利用邊緣檢測算子對吃水線邊緣進(jìn)行擬合,去除干擾,得到吃水線的位置。利用船舶刻度字的特點(diǎn),對其進(jìn)行分割,對分割出來的字符進(jìn)行識別后,得到吃水線的數(shù)值。以上都可以通過Matlab調(diào)用不同的工具箱和函數(shù)來實(shí)現(xiàn)。

4 結(jié)語

由于經(jīng)濟(jì)利益,發(fā)貨人、收貨方和承運(yùn)人都對貨物的重量非常重視,而且越來越精細(xì)、嚴(yán)格,如何準(zhǔn)確計算船舶載重量成為亟待解決的問題。作為近年來快速發(fā)展起來的一個計算機(jī)學(xué)科,通過使用圖像處理和分析的手段,獲得水平面在圖像中的準(zhǔn)確位置,既可以克服人工目測所引起的一系列問題,完整的記錄整個觀測階段的吃水線位置,使后續(xù)的數(shù)據(jù)處理成為可能,既降低了系統(tǒng)復(fù)雜性,又提高了效率和準(zhǔn)確度。圖像處理的對象是一幅幅拍攝下的照片,其中的吃水線位置是固定的,這樣就為后續(xù)的處理和計算奠定了一個靜態(tài)的基礎(chǔ),不會發(fā)生象人眼目測,由于景物晃動而產(chǎn)生的錯覺。同時,拍攝下的照片作為測量的記錄保存,可以滿足今后復(fù)核或是查對的要求。再次,利用圖像處理技術(shù),可以大幅度降低對有經(jīng)驗(yàn)觀測人員的依賴。因此利用圖像識別技術(shù)對船舶水尺測量具有廣泛的應(yīng)用價值。

參考文獻(xiàn)

[1]SN/T 0187-93 進(jìn)出口商品重量鑒定規(guī)程——水尺計重.

[2]陳德為,張培銘.轉(zhuǎn)動式交流接觸器動態(tài)過程分析與控制[J].福州大學(xué)學(xué)報:自然科學(xué)版,2008,36(1):95—99.

[3]陳德為,張培銘.采用高速攝像機(jī)的智能交流接觸器控制及其測試裝置的研制[M].電工電能新技術(shù):2009,28(3):58-61,72.

[4]周廣程.圖像處理技術(shù)在船舶吃水自動檢測系統(tǒng)中的應(yīng)用[D].南京:南京理工大學(xué),2006.

篇6

[關(guān)鍵詞]排水防澇;數(shù)據(jù)融合;澇情預(yù)警;數(shù)據(jù)可視化

1引言

近年來,暴雨等極端天氣給社會管理、城市運(yùn)行和人民群眾生產(chǎn)生活造成了巨大影響,加之部分城市排水防澇等基礎(chǔ)設(shè)施建設(shè)滯后、調(diào)蓄雨洪和應(yīng)急管理能力不足,出現(xiàn)了嚴(yán)重的暴雨內(nèi)澇災(zāi)害?!度珖鞘惺姓A(chǔ)設(shè)施規(guī)劃建設(shè)“十三五”規(guī)劃》提出“加快對城市易澇點(diǎn)整治”“建設(shè)暴雨內(nèi)澇監(jiān)測體系,提高內(nèi)澇預(yù)報預(yù)警能力?!比绾渭皶r、準(zhǔn)確、完整地掌握各個城市排水防澇工作進(jìn)展,對城市排水防澇工作進(jìn)行科學(xué)、有效的監(jiān)督指導(dǎo),成為住建部、省、市城建管理部門的迫切需求。大數(shù)據(jù)技術(shù)在海量異構(gòu)數(shù)據(jù)融合、分布式數(shù)據(jù)處理與計算、數(shù)據(jù)可視化等方面具有優(yōu)勢,[1]融合大數(shù)據(jù)技術(shù)與城市澇情監(jiān)管預(yù)警業(yè)務(wù),成為客觀分析排水防澇效果,科學(xué)指導(dǎo)城市安全度汛的有效方法。[2]

2應(yīng)用需求

基于大數(shù)據(jù)技術(shù),通過數(shù)據(jù)集成、互聯(lián)網(wǎng)信息爬取、傳感器采集等方式收集城市易澇點(diǎn)信息、城市降雨信息、城市澇情信息,為用戶提供綜合數(shù)據(jù)分析、可視化展現(xiàn)等服務(wù),為城建管理部門監(jiān)督、指導(dǎo)城市開展排水防澇工作提供支撐平臺。系統(tǒng)主要需求包括以下三方面:①準(zhǔn)確、及時掌握城市降雨及澇情信息。能夠從氣象網(wǎng)站獲取全國主要城市的逐小時降雨信息。從門戶網(wǎng)站、微博等渠道爬取城市澇情相關(guān)信息,及時掌握全國各地澇情程度和影響;②城市澇情信息預(yù)警預(yù)測。綜合降雨量、城市防澇標(biāo)準(zhǔn)、易澇點(diǎn)治理進(jìn)展、歷史澇情等信息,建立城市澇情預(yù)警分析模型,對全國城市未來澇情情況進(jìn)行預(yù)警,指導(dǎo)城市排水防澇工作;③對降雨、積水、澇情等信息進(jìn)行綜合利用,提供每日澇情情況匯總報告、澇情周報、澇情預(yù)警情況報告。輔助領(lǐng)導(dǎo)決策,滿足監(jiān)督、指導(dǎo)各地開展排水防澇工作的需要。

3系統(tǒng)建設(shè)方案

3.1數(shù)據(jù)架構(gòu)。排水防澇信息系統(tǒng)融合易澇點(diǎn)基礎(chǔ)信息、補(bǔ)短板項目進(jìn)展信息、易澇點(diǎn)實(shí)時監(jiān)測信息、城市澇情信息、城市降雨信息,形成排水防澇綜合數(shù)據(jù)庫,支撐排水防澇業(yè)務(wù)處理及科學(xué)決策需要。排水防澇數(shù)據(jù)體系包括:基礎(chǔ)數(shù)據(jù)、業(yè)務(wù)數(shù)據(jù)、決策分析數(shù)據(jù)三類:①排水防澇基礎(chǔ)數(shù)據(jù):基礎(chǔ)數(shù)據(jù)包括代碼數(shù)據(jù)、基礎(chǔ)數(shù)據(jù)、空間數(shù)據(jù)?;A(chǔ)數(shù)據(jù)在排水防澇系統(tǒng)各模塊共享使用;②排水防澇業(yè)務(wù)數(shù)據(jù):包括補(bǔ)短板項目業(yè)務(wù)進(jìn)展數(shù)據(jù)、易澇點(diǎn)實(shí)時監(jiān)控數(shù)據(jù)以及從互聯(lián)網(wǎng)、第三方采集的降雨數(shù)據(jù)、澇情數(shù)據(jù)、統(tǒng)計年鑒等排水防澇相關(guān)數(shù)據(jù),為排水防澇分析決策提供支撐;③排水防澇決策分析數(shù)據(jù):決策分析數(shù)據(jù)是依據(jù)數(shù)據(jù)分析與綜合決策要求,對排水防澇業(yè)務(wù)數(shù)據(jù)進(jìn)行加工處理形成的數(shù)據(jù),包括排水防澇統(tǒng)計數(shù)據(jù)、治理系統(tǒng)評價數(shù)據(jù)、澇情分析預(yù)測等數(shù)據(jù)。3.2技術(shù)架構(gòu)。排水防澇信息系統(tǒng)利用大數(shù)據(jù)平臺的數(shù)據(jù)采集、存儲、計算、分析能力構(gòu)建,由基礎(chǔ)設(shè)施層、綜合數(shù)據(jù)庫層、大數(shù)據(jù)技術(shù)支撐層、排水防澇應(yīng)用層以及信息安全體系、數(shù)據(jù)指標(biāo)體系組成,構(gòu)建科學(xué)合理的數(shù)據(jù)分析、澇情預(yù)測模型,通過豐富、形象、易用的數(shù)據(jù)可視化技術(shù),滿足排水防澇業(yè)務(wù)的數(shù)據(jù)應(yīng)用需求。①基礎(chǔ)設(shè)施層:通過云計算技術(shù),將網(wǎng)絡(luò)、計算、存儲、安全等基礎(chǔ)設(shè)施池化,為大數(shù)據(jù)支撐平臺、綜合數(shù)據(jù)庫、排水防澇應(yīng)用提供穩(wěn)定、可靠、高效的運(yùn)行環(huán)境;②綜合數(shù)據(jù)庫層:將易澇點(diǎn)數(shù)據(jù)、澇情數(shù)據(jù)、降雨數(shù)據(jù)、監(jiān)測數(shù)據(jù)等按照數(shù)據(jù)標(biāo)準(zhǔn)體系進(jìn)行清理、轉(zhuǎn)換、加載等處理,形成滿足業(yè)務(wù)處理與分析決策的綜合數(shù)據(jù)庫;③大數(shù)據(jù)技術(shù)支撐層:滿足分布式環(huán)境下海量異構(gòu)數(shù)據(jù)采集、存儲與資源管理、分布式計算框架、大數(shù)據(jù)分析與可視化展現(xiàn)等功能需求。主要的技術(shù)組件包括地理信息、信息爬取與搜索、數(shù)據(jù)挖掘、集成接入(ETL)、遙感遙測分析等;④信息安全體系:圍繞信息保密性、真實(shí)性、可用性(CAA)目標(biāo),參照信息系統(tǒng)安全機(jī)制構(gòu)建涵蓋物理安全、網(wǎng)絡(luò)安全、應(yīng)用安全、數(shù)據(jù)安全、管理安全的數(shù)據(jù)安全服務(wù)體系,為排水防澇信息管理提供安全的數(shù)據(jù)服務(wù);⑤數(shù)據(jù)指標(biāo)體系:建立排水防澇信息的數(shù)據(jù)標(biāo)準(zhǔn)、技術(shù)標(biāo)準(zhǔn)和管理標(biāo)準(zhǔn),確定數(shù)據(jù)采集、數(shù)據(jù)集成、數(shù)據(jù)共享的技術(shù)路線,推動數(shù)據(jù)互聯(lián)互通與信息共享,形成排水防澇頂層數(shù)據(jù)指標(biāo)體系;⑥排水防澇應(yīng)用層:梳理排水防澇信息管理業(yè)務(wù)流程,按照數(shù)據(jù)指標(biāo)體系要求,提供易澇點(diǎn)管理、澇情信息管理、降雨信息管理、綜合數(shù)據(jù)分析、業(yè)務(wù)一張圖、澇情預(yù)測等服務(wù),滿足排水防澇業(yè)務(wù)需求。3.3功能架構(gòu)。排水防澇系統(tǒng)主要功能包括:城市降雨信息管理、澇情報告生成、綜合展現(xiàn)一張圖、統(tǒng)計分析、基礎(chǔ)信息管理等模塊。①城市澇情預(yù)警。融合降雨數(shù)據(jù)、防澇標(biāo)準(zhǔn)、歷史澇情數(shù)據(jù),構(gòu)建澇情預(yù)警模型,提供城市澇情預(yù)警預(yù)測服務(wù);②澇情報告生成。利用網(wǎng)絡(luò)爬蟲及語義識別技術(shù),從微博、門戶網(wǎng)站等渠道采集城市澇情信息。提供城市澇情周報、日報等報告生成功能;③綜合展現(xiàn)一張圖。基于二維GIS地圖展現(xiàn)城市降雨、澇情以及易澇點(diǎn)位置、積水、視頻等數(shù)據(jù),實(shí)現(xiàn)相關(guān)數(shù)據(jù)的綜合展現(xiàn);④統(tǒng)計分析。從行政區(qū)域、時間等維度提供澇情分布、澇情趨勢對比分析等功能,通過統(tǒng)計圖表方式,實(shí)現(xiàn)數(shù)據(jù)的直觀展現(xiàn)和應(yīng)用;⑤基礎(chǔ)信息管理。對城市防澇標(biāo)準(zhǔn)、易澇點(diǎn)位置、監(jiān)測設(shè)備等基礎(chǔ)信息進(jìn)行管理,為規(guī)范城市澇情、降雨、積水等信息提供支持。

4關(guān)鍵技術(shù)

4.1澇情信息爬取與識別技術(shù)。4.1.1澇情信息爬取。通過爬蟲采集數(shù)據(jù)主要包括三種方式:定向采集、擴(kuò)展采集以及源搜索。定向采集是指限定站點(diǎn)或者頻道來搜索,實(shí)現(xiàn)精確的數(shù)據(jù)采集;擴(kuò)展采集是指通過設(shè)定采集的起始點(diǎn)和采集的深度來實(shí)現(xiàn)比較精確的數(shù)據(jù)采集;源搜索是指利用搜索引擎(如百度、搜狗、360等),通過設(shè)置關(guān)鍵詞組來實(shí)現(xiàn)數(shù)據(jù)的非精確采集。本項目采用定向采集方式。按照數(shù)據(jù)采集范圍、關(guān)鍵詞持續(xù)采集數(shù)據(jù),并對重復(fù)數(shù)據(jù)進(jìn)行去重,能夠根據(jù)語義過濾垃圾數(shù)據(jù)。分布式城市澇情信息爬蟲體系包括如下四部分:①系統(tǒng)管理控制臺:對爬蟲系統(tǒng)部署的軟硬件資源進(jìn)行監(jiān)控及動態(tài)管理,包括服務(wù)器資源及網(wǎng)絡(luò)狀況、爬蟲進(jìn)程運(yùn)行情況以及異常事件處理等;②爬取規(guī)則定義:能夠依據(jù)網(wǎng)絡(luò)爬蟲的運(yùn)行狀況和信息爬取效果對爬取規(guī)則進(jìn)行定義及優(yōu)化。主要定義的爬取規(guī)則包括:爬取范圍、優(yōu)先策略(深度、廣度)、分析詞策略(關(guān)鍵詞、剔除詞)、爬取頻率等;③功能中間件:主要包括爬取中間件、爬取防屏蔽中間件、數(shù)據(jù)存儲中間件等,提供數(shù)據(jù)采集、分析、避免反爬取策略、數(shù)據(jù)存儲及查詢服務(wù);④分布式基礎(chǔ)設(shè)施:采用“主從”模式構(gòu)建,主節(jié)點(diǎn)將爬取、分析任務(wù)在從服務(wù)器動態(tài)分配,并建立異常處理機(jī)制,實(shí)現(xiàn)爬蟲高效、穩(wěn)定運(yùn)行。4.1.2澇情信息識別。網(wǎng)絡(luò)爬蟲依據(jù)“大雨、內(nèi)澇”等關(guān)鍵字采集的輿情數(shù)據(jù)不都是有效澇情信息,存在大量噪聲。為了提高爬蟲獲取澇情數(shù)據(jù)的準(zhǔn)確率,構(gòu)建了“正則關(guān)聯(lián)”與機(jī)器學(xué)習(xí)算法結(jié)合的澇情信息識別模型。通過機(jī)器學(xué)習(xí)算法進(jìn)行語義理解,建立爬蟲抽取的數(shù)據(jù)類別庫,即判讀每一條數(shù)據(jù)是否與洪澇相關(guān),從而將樣本庫分為兩類。通過卷積神經(jīng)網(wǎng)絡(luò)(CNN)和循環(huán)神經(jīng)網(wǎng)絡(luò)(RNN)提取文本上下文語義特征信息,依據(jù)屬性特征對其進(jìn)行分類,判別爬取的內(nèi)容是否屬于澇情相關(guān)的數(shù)據(jù)。該模型進(jìn)一步提高了澇情數(shù)據(jù)的精準(zhǔn)度。4.2城市澇情預(yù)警預(yù)測技術(shù)。以降雨預(yù)報、歷史降雨信息、歷史澇情信息、排水防澇標(biāo)準(zhǔn)、易澇點(diǎn)治理進(jìn)展為主要因子構(gòu)建城市澇情預(yù)測模型,將風(fēng)險劃分為“最高”“高”“較高”“一般”“無”5種等級,并三天內(nèi)各城市的風(fēng)險預(yù)警,為指導(dǎo)城市內(nèi)澇工作提供決策依據(jù)。通過接入澇情城市、基于內(nèi)澇點(diǎn)的降水實(shí)況及預(yù)報、覆蓋內(nèi)澇城市的降水實(shí)況及預(yù)報等數(shù)據(jù),通過滾動計算方法,將其與城市防澇標(biāo)準(zhǔn)做對比,通過制定風(fēng)險預(yù)警策略,預(yù)判城市澇情風(fēng)險和易澇點(diǎn)澇情風(fēng)險,并實(shí)時澇情預(yù)警信息。4.3排水防澇數(shù)據(jù)可視化技術(shù)。通過大數(shù)據(jù)技術(shù)融合城市澇情輿情信息、城市降雨信息、城市澇情監(jiān)控實(shí)時信息,利用專題一張圖、報告生成等方式實(shí)現(xiàn)多維度疊加式數(shù)據(jù)可視化,更好地服務(wù)綜合管廊建設(shè)管理部門的規(guī)劃和決策。①排水防澇專題一張圖?;贕IS的業(yè)務(wù)多圖層綜合展現(xiàn),將全國易澇點(diǎn)、降雨和澇情信息集中在一張圖,關(guān)聯(lián)降雨對澇情的影響,科學(xué)評估易澇點(diǎn)治理效果;②排水防澇業(yè)務(wù)分析報告:面向不同用戶的業(yè)務(wù)需求,按照報告模板要求的格式、數(shù)據(jù)快速生成分析報告。報告采用文字、表格、統(tǒng)計圖等多種數(shù)據(jù)展現(xiàn)形式,內(nèi)容包括降雨分布情況、澇情分布情況、降雨與澇情關(guān)系分析等。

5結(jié)論

文章研究大數(shù)據(jù)在城市澇情監(jiān)管預(yù)警領(lǐng)域的應(yīng)用方案,充分發(fā)揮大數(shù)據(jù)在分布式、海量、異構(gòu)數(shù)據(jù)采集、存儲、處理、分析方面的優(yōu)勢,改變傳統(tǒng)信息采集方式,融合易澇點(diǎn)數(shù)據(jù)、降雨數(shù)據(jù)、澇情數(shù)據(jù)、補(bǔ)短板項目數(shù)據(jù),實(shí)現(xiàn)“填報型”到“監(jiān)控型”應(yīng)用的轉(zhuǎn)變,構(gòu)建城市排水防澇效果評價、澇情預(yù)測等數(shù)據(jù)分析應(yīng)用模型,為促進(jìn)排水防澇工作提供有力支撐。

參考文獻(xiàn):

[1]孫敏,王琳.大數(shù)據(jù)時代下的數(shù)據(jù)可視化方法分析[J].軟件,2019,40(9).

[2]張麗虹.大數(shù)據(jù)背景下城市排水防澇設(shè)施動態(tài)管理系統(tǒng)設(shè)計[J].工程管理與技術(shù),2018(4).

[3]薛祥光,蔣世峰,李萌,等.GIS在城市排水防澇中的應(yīng)用趨勢[J].科技視界,2016(1):71-72.

[4]侯圣巒,劉磊,曹存根.基于語義文法的網(wǎng)絡(luò)輿情精準(zhǔn)分析方法研究[J].計算機(jī)科學(xué),2014(10).

[5]郝瑩,陳靖,王元,等.基于高時空分辨率降水預(yù)報產(chǎn)品的城市內(nèi)澇預(yù)警研究[J].暴雨災(zāi)害,2019(3).

篇7

    可以看出,krisch算子的運(yùn)算量比較大。其次在邊緣檢測中邊緣定位能力和噪聲抑制能力方面,有的算子邊緣定位能力強(qiáng),有的抗噪聲能力比較好:roberts算子利用局部差分算子尋找邊緣,邊緣定位精度較高,但容易丟失一部分邊緣,同時由于沒經(jīng)過圖像平滑計算,不能抑制噪聲。該算子對具有陡峭的低噪聲圖像響應(yīng)最好;sobel算子和prewitt算子都是對圖像進(jìn)行差分和濾波運(yùn)算,差別只是平滑部分的權(quán)值有些差異,對噪聲具有一定的抑制能力,不能完全排除檢測結(jié)果中出現(xiàn)偽邊緣。這兩個算子的邊緣定位比較準(zhǔn)確和完整,但容易出現(xiàn)邊緣多像素寬。對灰度漸變和具有噪聲的圖像處理的較好;krisch算子對8個方向邊緣信息進(jìn)行檢測,因此有較好的邊緣定位能力,并且對噪聲有一定的抑制作用,該算子的邊緣定位能力和抗噪聲能力比較理想;laplacian算子是二階微分算子,對圖像中的階躍型邊緣點(diǎn)定位準(zhǔn)確且具有旋轉(zhuǎn)不變性即無方向性。但該算子容易丟失一部分邊緣的方向信息,造成不連續(xù)的檢測邊緣,同時抗噪聲能力比較差,比較適用于屋脊型邊緣檢測(將在第3節(jié)中討論)。 2.2  最優(yōu)算子     最優(yōu)算子又可以分為馬爾算子(log濾波算子)、坎尼(canny)邊緣檢測、曲面擬合法。 torre和poggio[5]提出高斯函數(shù)是接近最優(yōu)的平滑函數(shù),marr和hildreth應(yīng)用gaussian函數(shù)先對圖像進(jìn)行平滑,然后采用拉氏算子根據(jù)二階導(dǎo)數(shù)過零點(diǎn)來檢測圖像邊緣,稱為log算子。對于log算子數(shù)學(xué)上已經(jīng)證明[6],它是按照零交叉檢測階躍邊緣的最佳算子。但在實(shí)際圖像當(dāng)中,高斯濾波的零交叉點(diǎn)不一定全部是邊緣點(diǎn),還需要進(jìn)一步確定真?zhèn)蝃7];坎尼把邊緣檢測問題轉(zhuǎn)換為檢測單位函數(shù)極大值問題,根據(jù)邊緣檢測的有效性和定位的可靠性,研究了最優(yōu)邊緣檢測器所需的特性,推導(dǎo)出最優(yōu)邊緣檢測器的數(shù)學(xué)表達(dá)式。與坎尼密切相關(guān)的還有deriche算子和沈俊算子,它們在廣泛的意義下是統(tǒng)一的;曲面擬合的基本思想是用一個平滑的曲面與待測點(diǎn)周圍某鄰域內(nèi)像素的灰度值進(jìn)行擬合,然后計算此曲面的一階或二階導(dǎo)數(shù)。該方法依賴于基函數(shù)的選擇,實(shí)際應(yīng)用中往往采用低階多項式。 2.3  多尺度方法     早期邊緣檢測的主要目的是為了處理好尺度上的檢測和定位之間的矛盾,忽略了在實(shí)際圖像中存在的多種干擾邊緣,往往影響到邊緣的正確檢測和定位。     rosenfeld等[8]首先提出要把多個尺寸的算子檢測到的邊緣加以組合;marr倡導(dǎo)同時使用多個尺度不同的算子,并提出了一些啟發(fā)性的組合規(guī)則。這一思想后來經(jīng)witkin等發(fā)展成了尺度空間濾波理論,說明了不同尺度上的零交叉的因果性;lu jain對二維信號進(jìn)行了類似的研究;yuille和poggio證明了對于任意維信號,當(dāng)用高斯函數(shù)濾波時,尺度圖中包含了數(shù)目最小的零交叉,并且可以由粗到細(xì)地跟蹤這些零交叉。     多尺度信號處理不僅可以辨識出信號中的重要特征,而且能以不同細(xì)節(jié)程度來構(gòu)造信號的描述,在高層視覺處理中有重要的作用。     其中小波變換是近年得到廣泛應(yīng)用的數(shù)學(xué)工具。與傅立葉變換和窗口傅立葉變換相比,小波變換是時間和頻率的局域變換,因而能有效地從信號中提取信息,它通過伸縮和平移等運(yùn)算功能對函數(shù)或信號進(jìn)行多尺度細(xì)化分析,解決了傅立葉變換不能解決的很多困難問題,因而被譽(yù)為“數(shù)學(xué)顯微鏡”。信號突變點(diǎn)檢測及由邊緣點(diǎn)重建原始信號或圖像是小波變換應(yīng)用的一個很重要的方面。 從邊緣檢測的角度看,小波變換有以下幾個優(yōu)點(diǎn):     (1)小波分解提供了一個數(shù)學(xué)上完備的描述;     (2)小波變換通過選取合適的濾波器,可以極大地減小或去除所提取的不同特征之間的相關(guān)性;     (3)具有“變焦”特性:在低頻段可用高頻分辨率和低時間分辨率;在高頻段可用低頻分辨率和高時間分辨率;     (4)小波變換可通過快速算法來實(shí)現(xiàn)。     文獻(xiàn)[9]提出了一種基于層間相關(guān)性的小波邊緣檢測算法,依據(jù)的是信號主要分布在低頻部分或低尺度部分,而噪聲分布于高頻部分或高尺度部分的特點(diǎn)。另外小波變換具有較強(qiáng)的去相關(guān)性,變換后的小波系數(shù)之間仍然存在大量的相關(guān)性質(zhì),即小波系數(shù)在不同分辨率下的對應(yīng)系數(shù)之間具有較強(qiáng)的相關(guān)性或稱層間的相關(guān)性。通過對比該方法能夠較好多的防止噪聲干擾,又能有效地保留圖像邊緣。 2.4  自適應(yīng)平滑濾波方法     該方法是邊緣檢測的一個重要方法[10],無論是對于灰度圖象處理還是距離圖像和平面曲線處理都是非常有效的。它的優(yōu)點(diǎn)是:     (1)平滑濾波的迭代運(yùn)算使信號的邊緣得到銳化,此時再進(jìn)行邊緣檢測,可以得到很高的邊緣定位精度;     (2)通過自適應(yīng)迭代平滑,實(shí)現(xiàn)了將高斯平滑之后的階躍邊緣、屋頂狀邊緣和斜坡邊緣都轉(zhuǎn)化為理想的階躍邊緣,提高了圖像的信噪比;     (3)經(jīng)過多次迭代運(yùn)算,圖像按邊緣分塊實(shí)現(xiàn)自適應(yīng)平滑,但不會使邊緣模糊;     (4)應(yīng)用自適應(yīng)平滑濾波得到一種新的圖像尺度空間描述。 2.5  其他方法     近年來隨著模糊數(shù)學(xué)、神經(jīng)網(wǎng)絡(luò)的發(fā)展,人們不斷探索將其應(yīng)用于圖像的邊緣檢測中。文獻(xiàn)[11]和[12]依據(jù)模糊理論討論了邊緣檢測算法的抗噪性和檢測速度問題,并證明了模糊集合理論能較好地描述人類視覺中的模糊性和隨機(jī)性;應(yīng)用人工神經(jīng)網(wǎng)絡(luò)提取圖像邊緣成為新的研究分支,目前已提出了很多算法,具有計算簡單功能強(qiáng)的特點(diǎn),但是速度慢,穩(wěn)定性差。但是神經(jīng)網(wǎng)絡(luò)邊緣檢測可以避免自適應(yīng)確定閾值的問題,具有較好的容錯性和聯(lián)想功能。 2.6  邊緣檢測的步驟     邊緣檢測分為彩色圖像邊緣檢測和灰度圖像邊緣檢測兩種,由于彩色圖像有八種彩色基,在邊緣檢測時選用不同的彩色基將直接影響實(shí)時性、兼容性和檢測效果,因此本文只限于灰度圖像的邊緣檢測研究,其步驟如圖2.1所示。

   

其中邊緣定位是對邊緣圖像進(jìn)行處理,以得到單像素寬的二值邊緣圖像,通常使用的技術(shù)是閾值法和零交叉法。邊緣定位后往往存在一些小的邊緣片斷,通常是由于噪聲等因素引起的,為了形成有意義的邊緣需要對定位后的邊緣進(jìn)行鏈接。通常有兩種算法:局部邊緣鏈接和全局邊緣鏈接。 3  邊緣模型的分類及性能分析     本小節(jié)從邊緣檢測“兩難”問題出發(fā),總結(jié)了實(shí)際圖像中可能出現(xiàn)的七種邊緣類型,并分別給出了數(shù)學(xué)模型描述,最后分析比較了不同邊緣類型表現(xiàn)出的特性及不同類型的邊緣定位與平滑尺度的關(guān)系。 3.1  邊緣檢測的“兩難”問題     首先來了解一下邊緣檢測的常用定義[13]:邊緣檢測是根據(jù)引起圖像灰度變化的物理過程來描述圖像中灰度變化的過程。引起圖像灰度不連續(xù)性的物理過程可能是幾何方面的(深度的不連續(xù)性、表面取向、顏色和紋理的不同),也可能是光學(xué)方面的(表面反射、非目標(biāo)物體產(chǎn)生的陰影及內(nèi)部倒影等)。這些景物特征混在一起會使隨后的解釋變得非常困難,且實(shí)際場合中圖像數(shù)據(jù)往往被噪聲污染。信號的數(shù)值微分的病態(tài)問題:輸入信號的一個很小的變化就會引起輸出信號大的變化。令 f(x)為輸入信號,假設(shè)由于噪聲的影響,使 f(x)發(fā)生了一個很小的變動:               式(3.1)     其中 ε<<1。對式(3.1)兩邊求導(dǎo)數(shù)則:          式(3.2)     由式(3.2)可以看到,若w足夠大,即噪聲為高頻噪聲時,會嚴(yán)重影響信號  f(x)的微分輸出,進(jìn)而影響邊緣檢測的結(jié)果。為了使微分正則化,則需要先對圖像進(jìn)行平滑。然而圖像平滑會引起信息丟失,并且會使圖像平面的主要結(jié)構(gòu)發(fā)生移位。另外若使用的微分算子不同,則同一幅圖像會產(chǎn)生不同的邊緣,因此噪聲消除與邊緣定位是兩個相互矛盾的部分,這就是邊緣檢測中的“兩難”[14,15]。 3.2  邊緣分類及性能分析     圖像中的邊緣通常分為:階躍邊緣、斜坡邊緣、三角型屋脊邊緣、方波型屋脊邊緣、樓梯邊緣、雙階躍邊緣和雙屋脊邊緣[1]。     (1)階躍邊緣     模型為: f(x)=cl(x) ,其中 c>0為邊緣幅度, 為階躍函數(shù)。若存在噪聲,可以選用大尺度的模板平滑圖像,不會影響邊緣的定位。     (2)斜坡邊緣     理想的斜坡邊緣模型為:,其中s為邊緣幅度,d為邊緣寬度。斜坡邊緣的檢測不僅跟尺度有關(guān),還與邊緣本身的寬度有關(guān),若邊緣寬度比較小,則在小的平滑尺度下也能檢測到邊緣;無論是檢測極值點(diǎn)還是過零點(diǎn),邊緣的定位都沒有隨著尺度的變化而變化。因此,對于斜坡邊緣若存在噪聲,可以選用大尺度的模板平滑圖像。而不會影響到邊緣定位。     (3)三角型屋脊邊緣     模型為:,其中s為邊緣幅度,d為邊緣寬度。對于三角型屋脊邊緣若存在噪聲可以選用大尺度的平滑模板,而不會影響邊緣的定位。     (4)方波型屋脊邊緣     方波型屋脊邊緣的模型為:,其中s為邊緣幅度,d為邊緣寬度。對于方波型屋脊邊緣檢測,不僅與平滑尺度有關(guān),還與邊緣寬度有關(guān),若存在噪聲,可以選用大尺度的平滑模板,而不會影響邊緣的定位。     (5)樓梯邊緣     樓梯邊緣模型為:,其中c1、c2、l均為常數(shù)。這種檢測的特點(diǎn)是平滑后的樓梯邊緣不能準(zhǔn)確定位,必須對檢測到的邊緣位置進(jìn)行移位校正。     (6)雙階躍邊緣     雙階躍邊緣與方波型屋脊邊緣相同,不同之處為:雙階躍邊緣的邊緣點(diǎn)為x=-d/2與 x=d/2,而方波型屋脊邊緣的邊緣點(diǎn)為 x=0。雙階躍邊緣的兩個邊緣點(diǎn)通過檢測一階導(dǎo)數(shù)的兩個極值點(diǎn)和二階導(dǎo)數(shù)的兩個過零點(diǎn)獲得。因此對于雙階躍邊緣大尺度下不能準(zhǔn)確定位,必須對檢測到的邊緣位置進(jìn)行移位校正。     (7)雙屋脊邊緣     模型為:,     其中:

篇8

【摘要】 為了實(shí)現(xiàn)人體器官的三維重建,如何準(zhǔn)確、有效地提取二維醫(yī)學(xué)圖像的邊緣成了首要解決的問題。我們提出一種新的圖像邊緣提取方法,該方法先將原始CT圖像二值化,然后利用數(shù)學(xué)形態(tài)運(yùn)算對二值化圖像進(jìn)行預(yù)處理,最后利用Canny算子提取圖像邊緣。通過腎臟CT圖像邊緣提取結(jié)果表明,該方法簡單、高效、性能優(yōu)越。

【關(guān)鍵詞】 CT圖像;邊緣提??;數(shù)學(xué)形態(tài)學(xué);Canny算子

Research on the Edge Extraction of CT ImageZHANG Xiaoping,ZHU Zhisong,WANG Junze

(Nantong Univirsity, Nantong 226019, China)

Abstract:To reconstruct the body organs in 3-D, how to extract the edges from 2-D medical images accurately and effectively has benen the primarily problem. Therefore, a new method of edge extraction was introduced in this paper. The original CT image was binarized firstly and then preprocessed by mathematical morphology operating. Finally, the image edge was extracted by the Canny algorithm. The results of kidney CT image edge extraction show that the method is simple, efficient and superior performance.

Key words:CT image;Edge extraction;Mathematical morphology;Canny algorithm

1 引 言

隨著計算機(jī)技術(shù)、CT(計算機(jī)斷層掃描)、MRI(核磁共振)等醫(yī)學(xué)影像技術(shù)的不斷發(fā)展,虛擬現(xiàn)實(shí)技術(shù)也越來越多地應(yīng)用到現(xiàn)代醫(yī)療領(lǐng)域。利用計算機(jī)圖像處理和數(shù)據(jù)可視化技術(shù),根據(jù)醫(yī)學(xué)影像設(shè)備提供的二維斷層圖像,進(jìn)行人體器官的三維重建已是現(xiàn)代醫(yī)學(xué)重要發(fā)展方向之一。腎臟疾病的外科手術(shù)是泌尿外科中的一個重點(diǎn)和難點(diǎn),因此,根據(jù)CT二維圖像重構(gòu)腎臟及其周圍結(jié)構(gòu)的三維模型,有助于醫(yī)生選擇最佳手術(shù)路線、減少手術(shù)損傷、提高手術(shù)成功率[1]。CT二維圖像的邊緣提取作為器官三維重構(gòu)的第一步,一直受到國內(nèi)外學(xué)者的關(guān)注,提出了眾多的邊緣檢測算法,如小波變換法、神經(jīng)網(wǎng)絡(luò)法、模糊技術(shù)法等[2]。近幾年,隨著數(shù)學(xué)形態(tài)學(xué)理論的不斷完善與發(fā)展,數(shù)學(xué)形態(tài)學(xué)在圖像邊緣檢測中得到了廣泛的應(yīng)用[3-5]。本研究正是在數(shù)學(xué)形態(tài)學(xué)的基礎(chǔ)上,結(jié)合Canny算子,以腎臟為例,進(jìn)行了CT圖像的邊緣提取。

2 數(shù)學(xué)形態(tài)學(xué)在圖像預(yù)處理中的運(yùn)用

數(shù)學(xué)形態(tài)學(xué)是一門新興的、以形態(tài)為基礎(chǔ)對圖像進(jìn)行分析的學(xué)科。它利用具有一定結(jié)構(gòu)和特征的結(jié)構(gòu)元素對圖像進(jìn)行匹配,以實(shí)現(xiàn)對圖像的分析和識別,在去除噪聲、邊緣檢測等圖像預(yù)處理問題中有著明顯的優(yōu)勢[6]。數(shù)學(xué)形態(tài)學(xué)定義了兩種基本變換,即膨脹(Dilation)和腐蝕(Erision)。首先介紹其定義[7]:設(shè)F是原始圖像,B是結(jié)構(gòu)元素,膨脹運(yùn)算定義為:

D(F)=FB={(x,y)/Bxy∩F≠Φ}(1)

即B對F膨脹產(chǎn)生的二值圖像D(F)是由這樣的點(diǎn)(x,y)組成的集合,若圖B的原點(diǎn)位移至(x,y),那么它與F的交集非空。

腐蝕運(yùn)算定義為:

E(F)=FΘB={(x,y)/BxyF}(2)

即B對F腐蝕產(chǎn)生的二值圖像E(F)是由這樣的點(diǎn)(x,y)組成的集合,若圖B的原點(diǎn)位移至(x,y),那么B將完全包含于F。

由上述兩種基本運(yùn)算可以復(fù)合得到開啟、閉合變換。

開啟是對圖像先腐蝕后膨脹的過程,F(xiàn)用B來開啟,其數(shù)學(xué)表達(dá)式可記為:

F·B=(FΘB)B(3)

閉合是對圖像先膨脹后腐蝕的過程,F(xiàn)用B來閉合,其數(shù)學(xué)表達(dá)式可記為:

F·B=(FB)ΘB(4)

上述4種運(yùn)算中,膨脹可以填充圖像中的小孔及圖像邊緣上小的凹陷部分;腐蝕可以消除圖像中細(xì)小的成分;開啟則具有消除細(xì)小物體、在纖細(xì)處分離物體和平滑較大物體邊界的作用;閉合則具有填充物體內(nèi)細(xì)小孔洞、連接臨近物體和平滑邊界的作用。

利用數(shù)學(xué)形態(tài)學(xué)進(jìn)行圖像預(yù)處理時,選擇簡單、表現(xiàn)力強(qiáng)的結(jié)構(gòu)元素是關(guān)鍵,是形態(tài)變換中最重要的參數(shù);其次,還要綜合考慮目標(biāo)體的清晰度和噪聲的大小來選取結(jié)構(gòu)元素的大?。?]。一般目標(biāo)體輪廓不清晰時,選擇較小的結(jié)構(gòu)元素;噪聲顆粒較大時,選擇較大的結(jié)構(gòu)元素。

3 Canny算子的邊緣檢測原理

經(jīng)過數(shù)學(xué)形態(tài)變換之后,圖像的邊緣將變得清晰、突出,此時,圖像的邊界信息可以被方便地提取出來。傳統(tǒng)的算法有Sobel、 Prowitt 、Robert、Canny算子等[9]。在眾多的算子中,Canny算子因其具有高信噪比、高定位精度及單邊緣響應(yīng)等優(yōu)良性能[10],在許多圖像處理領(lǐng)域得到應(yīng)用。本研究也正是采用該算法提取腎臟CT圖像邊緣。

Canny算子的基本思想是采用二維高斯函數(shù)的任意方向上的一階方向?qū)?shù)為噪聲濾波器,通過與圖像卷積進(jìn)行濾波,然后對濾波后的圖像尋找局部梯度最大值,以此來確定圖像邊緣[11]。其數(shù)學(xué)描述如下:

3.1 用高斯濾波器平滑圖像

二維高斯濾波函數(shù)為:

G(x,y)=12πσ2exp(-x2+y2〖〗2σ2)(5)

在某一方向n上G(x, y)的一階導(dǎo)數(shù)為:

Gn=Gn=nG(6)

式6中n是方向矢量,n=cosθ

sinθ,

G是梯度矢量,G=Gx

Gy。

將圖像{F|f(x,y)}與Gn 作卷積,改變n的方向,Gn×f(x,y)取得最大值時的n,就是正交于檢測邊緣的方向。

3.2 梯度的幅值和方向計算

用一階偏導(dǎo)的有限差分來計算梯度的幅值和方向。

Ex=Gx×f(x,y) Ey=Gy×f(x,y)

A(x,y)=Ex2+Ey2 Φ=Arctan(ExEy)(7)

A(x,y)反映了圖像(x,y)點(diǎn)處的邊緣強(qiáng)度,Φ是圖像(x,y)點(diǎn)處的法向矢量。

3.3 對梯度幅值進(jìn)行非極大值抑制

為確定圖像邊緣,必須保留局部梯度最大的點(diǎn),而抑制非極大值。若圖像F上(x,y)點(diǎn)處的梯度幅值A(chǔ)(x,y)小于沿著梯度線方向上的相鄰像素點(diǎn)的邊緣強(qiáng)度,則認(rèn)為該點(diǎn)為非邊緣點(diǎn),將A(x,y)置為0。

3.4 用雙閾值法檢測和連接邊緣

設(shè)定兩個閾值t1和t2(t2>t1)。凡邊緣強(qiáng)度>t2者,則一定是邊緣點(diǎn);凡邊緣強(qiáng)度t2的點(diǎn),若有,則補(bǔ)為邊緣點(diǎn),若沒有,則不是邊緣點(diǎn)。用t1、t2兩個閾值對非極大值抑制圖像進(jìn)行雙閾值化,可得兩個檢測結(jié)果,分別記為T1和T2。圖像T2閾值較高,所以噪聲較少,但會造成邊緣信息的損失;圖像T1閾值較低,則保留了較多信息。于是以圖像T2為基礎(chǔ),以圖像T1為補(bǔ)充,連接圖像的邊緣。

由此可見,Canny算子是既能去除噪聲又能保留邊緣特性的邊緣檢測一階微分算法的最佳方法。

4 應(yīng)用實(shí)例

本研究在Matlab6.5軟件平臺上,以某醫(yī)院一患者的腎臟CT斷層圖像為例,提取了其中右腎的邊緣輪廓,具體實(shí)施步驟如下:

4.1 圖像二值化

CT圖像是灰度圖像,為了更好的形態(tài)運(yùn)算和邊緣檢測,首先進(jìn)行二值化處理,即把灰度圖像轉(zhuǎn)變成由0、1 組成的矩陣所表示的圖像。圖1為原始CT圖像,圖2是二值化圖像。在本次實(shí)驗(yàn)中,二值化閾值為0.8。實(shí)驗(yàn)過程中發(fā)現(xiàn),該方法簡單、高效,且丟失的信息也很少。

4.2 數(shù)學(xué)形態(tài)學(xué)處理

由圖2可見,圖像存在著一些空腔、毛刺、邊緣凹陷等現(xiàn)象,要進(jìn)行邊緣檢測,還需經(jīng)過進(jìn)一步處理,通過本研究介紹的數(shù)學(xué)形態(tài)運(yùn)算即可完成。

所求邊緣是腎臟外圍輪廓,首先需要填充圖像中的空腔和邊緣凹陷。對此,可采用imclose函數(shù)進(jìn)行閉合運(yùn)算,即進(jìn)行先膨脹后腐蝕,其中結(jié)構(gòu)元素為5×5圓形結(jié)構(gòu)元素,結(jié)果見圖3。由圖3可見,經(jīng)過閉合運(yùn)算后,圖像中還存在一些小短枝和孤立斑點(diǎn),這些也必須剔除,否則,將影響邊緣提取效果。對此,可采用imopen函數(shù)進(jìn)行開啟變換實(shí)現(xiàn),即先腐蝕后膨脹。針對小短枝和孤立斑點(diǎn),無法用同一種結(jié)構(gòu)元素去剔除,所以必須分兩步:首先選用3×3矩形結(jié)構(gòu)元素執(zhí)行開啟變換,去除小短枝像素,結(jié)果見圖4;然后用3×3菱形結(jié)構(gòu)元素再次執(zhí)行開啟變換,去除孤立斑點(diǎn),結(jié)果見圖5。

4.3 Canny算子提取邊緣

經(jīng)過上述處理,腎臟圖像邊緣已經(jīng)逐漸清晰、突出,此時利用Canny算子即可提取其邊界信息,如圖6所示,本次實(shí)驗(yàn)中,邊緣強(qiáng)度閾值t1為0.0063,t2為0.0156 。圖6基本無失真地描述了邊界信息。提取圖6中各邊界點(diǎn)的坐標(biāo),即可獲得重構(gòu)的邊界圖形,見圖7。對腎臟各層CT圖像進(jìn)行上述運(yùn)算后,經(jīng)過插值處理,即可進(jìn)行該器官的三維重構(gòu)。

5 結(jié)束語

本研究從實(shí)用性的角度出發(fā),闡述了利用數(shù)學(xué)形態(tài)學(xué)和Canny算子進(jìn)行腎臟CT斷層圖像邊緣提取的方法和步驟。實(shí)驗(yàn)證明該方法簡單、快速、精度高、適用性強(qiáng),為醫(yī)學(xué)圖像的三維重建和虛擬手術(shù)技術(shù)的研究奠定了良好的基礎(chǔ)。

參考文獻(xiàn)

[1]王洛夫, 張紹祥,江軍,等.腎臟及其周圍結(jié)構(gòu)的三維可視化研究[J].第三軍醫(yī)大學(xué)學(xué)報,2004,26 ( 6 ): 537-539.

[2]張小琳.圖像邊緣檢測技術(shù)綜述[J].高能量密度物理,2007,(1):37-40.

[3]Bai X Z, Zhou F. Edge detection based on mathematicalmorphology and iterative thresholding[A].International conference on computational intelligence and Security[C]. NY: IEEE, 2006.1849-1852.

[4]Serra J. Image analysis and mathematical morphology[M].New York: Academic Press,1982.

[5]Huang C-P,Wang R-Z.An intergrated edge detection method using mathematical morphology[J].Pattern Recgnition and Image Analysis,2006,16(3):406-412.

[6]陳虎,王守尊,周朝輝.基于數(shù)學(xué)形態(tài)學(xué)的圖像邊緣檢測方法研究[J].工程圖學(xué)學(xué)報,2004,(2):112-115.

[7]崔屹.圖像處理與分析-數(shù)學(xué)形態(tài)學(xué)方法及應(yīng)用 [M].北京:科學(xué)出版社,2000.

[8]Li Z H,Yang Y P,Jiang W.Multi-scale morphologictracking approach for edge detection[A].The 4th International conference on image and graphics[C]. NY: IEEE,2007.358-362.

[9]馬艷, 張治輝.幾種邊緣檢測算子的比較[J].工礦自動化,2004(2): 54-56.

篇9

關(guān)鍵詞:PCB;圖像處理;視覺檢測

中圖分類號:TP277文獻(xiàn)標(biāo)識碼:A文章編號:1009-3044(2012)07-1648-06

當(dāng)今世界科技發(fā)展日新月異,電子產(chǎn)業(yè)的發(fā)展直接制約著國民經(jīng)濟(jì)的騰飛與否,而PCB電路板制作工藝的提高對促進(jìn)電子產(chǎn)業(yè)的發(fā)展至關(guān)重要,能否有效精確地檢測PCB電路板的缺陷一直都是電子行業(yè)的研究熱點(diǎn)。國外的印刷電路板自動檢測技術(shù)一直領(lǐng)先于國內(nèi),國內(nèi)的很多廠家不得不采用昂貴的外國技術(shù),雖然近年國內(nèi)的印刷電路板自動檢測技術(shù)發(fā)展迅速,但大都沒有取得令人非常滿意的結(jié)果。加入研究這一領(lǐng)域的熱潮,趕超外國的先進(jìn)技技水平,打斷外國壟斷技術(shù),對于發(fā)展國民經(jīng)濟(jì)具有十分重要的意義。

1 PCB檢測系統(tǒng)的硬件設(shè)計

1.1 PCB檢測系統(tǒng)的硬件組成框圖

雖然本文所做的工作主要是軟件方面,但對于硬件系統(tǒng)的設(shè)計也是至關(guān)重要的,它對于建立有效的計算機(jī)視覺識別檢測系統(tǒng),起著決定性作用。因此,必須在綜合考慮系統(tǒng)性價比和系統(tǒng)性能的基礎(chǔ)上,設(shè)計出合理的硬件系統(tǒng)[9]。PCB檢測系統(tǒng)的硬件組成框圖如圖1所示:圖1 PCB檢測系統(tǒng)硬件組成框圖

1.2系統(tǒng)的硬件組成

系統(tǒng)的硬件組成[10]主要包括:計算機(jī)主機(jī)、CCD攝像機(jī)、圖像采集卡、照明系統(tǒng)及相關(guān)的設(shè)備。

2 PCB電路板缺陷檢測識別

PCB電路板在電子工業(yè)中的應(yīng)用越來越廣泛,如何降低電路板的故障率、提高電路板的質(zhì)量直接影響到整個產(chǎn)業(yè)的發(fā)展。因此,對于PCB電路板缺陷的識別技術(shù)的發(fā)展至關(guān)重要。PCB電路板的缺陷很多[16],主要有短路、斷路、劃痕、凸起、空洞、缺焊、過焊等等,由于實(shí)驗(yàn)室設(shè)備限制和個人水平所限,本文主要研究的內(nèi)容是PCB電路板短路與斷路的檢測識別

近年來出現(xiàn)了很多圖像檢測算法,這些算法大致可分為三大類:有參考算法、無參考算法以及混合型算法。有參考算法分為兩大類:圖像對比法和模型對比法。無參考算法是一種不需要標(biāo)準(zhǔn)圖像的檢測算法,它是基于一定的設(shè)計規(guī)則來進(jìn)行檢測的?;旌闲头椒ㄊ菍⒂袇⒖妓惴ㄅc無參考算法混合使用,從而發(fā)揮出各自的優(yōu)點(diǎn)。比如,模板匹配法與數(shù)學(xué)形態(tài)學(xué)方法結(jié)合使用,或者連接表方法與數(shù)學(xué)形態(tài)學(xué)方法結(jié)合使用等。本文中短路與斷路的檢測識別采取了圖像對比法,即將經(jīng)過一定處理后的圖像進(jìn)行相減,從而分析相應(yīng)的結(jié)果;而對焊點(diǎn)缺陷的識別主要采用模板匹配法與數(shù)學(xué)形態(tài)學(xué)方法結(jié)合使用。

2.1 PCB電路板缺陷檢測識別的主要流程圖

圖2為子程序流程圖;圖3為主程序流程圖。

2.2 PCB電路板短路與斷路的檢測識別

2.2.1邊緣檢測

在對圖像進(jìn)行基本的處理過后可以將圖像與背景分割開來。邊緣檢測是圖像處理和計算機(jī)視覺中的基本問題,邊緣檢測的目的是標(biāo)識數(shù)字圖像中亮度變化明顯的點(diǎn)。圖像屬性中的顯著變化通常反映了屬性的重要事件和變化。

這些包括:深度上的不連續(xù);表面方向不連續(xù);物質(zhì)屬性變化;場景照明變化。邊緣檢測是圖像處理和計算機(jī)視覺中,尤其是特征提取中的一個研究領(lǐng)域。

圖像邊緣檢測大幅度地減少了數(shù)據(jù)量,并且剔除了可以認(rèn)為不相關(guān)的信息,保留了圖像重要的結(jié)構(gòu)屬性。有許多方法用于邊緣檢測,它們的絕大部分可以劃分為兩類[17]:基于查找一類和基于零穿越的一類。基于查找的方法通過尋找圖像一階導(dǎo)數(shù)中的最大和最小值來檢測邊界,通常是將邊界定位在梯度最大的方向。基于零穿越的方法通過尋找圖像二階導(dǎo)數(shù)零穿越來尋找邊界,通常是Laplacian過零點(diǎn)或者非線性差分表示的過零點(diǎn)。

1)Roberts算子

邊緣,是指周圍像素灰度有階躍變化或屋頂?shù)茸兓哪切┫袼氐募?。圖像的邊緣對應(yīng)著圖像灰度的不連續(xù)性。顯然圖像的邊緣很少是從一個灰度跳到另一個灰度這樣的理想狀況。真實(shí)圖像的邊緣通常都具有有限的寬度呈現(xiàn)出陡峭的斜坡狀。邊緣的銳利程度由圖像灰度的梯度決定。梯度是一個向量,?f指出灰度變化的最快的方向和數(shù)量,如式2-1所示。

?f=(決定的。

因此最簡單的邊緣檢測算子是用圖像的垂直和水平差分來逼近梯度算子,式2-4所示。?f=(f(x,y)-f(x-1,y),f(x,y)-f(x,y-1))(式2-4)

因此當(dāng)我們想尋找邊緣的時候,最簡單的方法是對每一個像素計算出(2,4)的向量,然后求出他的絕對值,然后進(jìn)行閥值操作就可以了。利用這種思想就得到了Roberts算子,由式2-5所示。

R(i,j)=

(式2-5)

它是一個兩個2×2模板作用的結(jié)果。

2)Sobel算子

該算法通過2個3*3的模板,對選定的二維圖像中同樣大小窗口進(jìn)行卷積,通常是一個模板對一個邊緣響應(yīng)大,另一個模板對水平邊緣響應(yīng)大,兩個卷積值對最大值作為該點(diǎn)對輸出。對于圖像上的任意點(diǎn)(i,j)進(jìn)行卷積,可得其X方向上的差分由式2-6、式2-7所示。Δx=f(i-1,j+1)+2f(i,j+1)+f(i+1,j+1)-[f(i-1,j-1)+2f(i,j-1)+f(i+1,j-1)](式2-6)Δy=f(i-1,j-1)+2f(i-1,j)+f(i-1,j+1)-[f(i+1,j+1)+2f(i+1,j)+f(i+1,j+1)](式2-7)則輸出圖像公式如式2-8所示。

用sobel算子檢測階躍邊緣得到的邊緣寬度至少為兩個寬度。3)Laplacian邊緣檢測算子

Laplacian算子定義由式2-9所示。

Δ2f(x,y)=

(式2-9)它的差分形式由式2-10所示。

Δ2f(x,y)={[f(x+1,y)-f(x,y)]-[f(x,y)-f(x-1,y)]}+{[f(x,y+1)-f(x,y)]-[f(x,y)-f(x,y-1)]}

=f(x+1,y)+f(x-1,y)+f(x,y-1)+f(x,y+1)+f(x,y+1)+4f(x+1,y)(式2-10)

Laplacian算子是一種各向同性算子,在只關(guān)心邊緣的位置而不考慮其周圍的灰度象素差值時時比較合適,Laplacian算子對孤立象素的響應(yīng)要比對邊緣或線的響應(yīng)更要強(qiáng)烈,因此只適用于無噪聲圖像。

原圖像與用三種邊緣檢測算子處理后的圖像如下所示:圖6 Sobel邊緣檢測圖7 Laplacian邊緣檢測

從上面四幅圖分析比較可得出結(jié)論:用Roberts邊緣檢測得出的圖像較之其他方法更為清晰,噪點(diǎn)更少,圖像更為連續(xù),所以本文中采用Roberts算子來進(jìn)行邊緣檢測。

2.2.2閾值分割

閾值分割法是一種基于區(qū)域的圖像分割技術(shù),其基本原理是:通過設(shè)定不同的特征閾值,把圖像象素點(diǎn)分為若干類。常用的特征包括:直接來自原始圖像的灰度或彩色特征;由原始灰度或彩色值變換得到的特征。設(shè)原始圖像為f(x,y),按照一定的準(zhǔn)則f(x,y)中找到特征值T,將圖像分割為兩個部分,分割后的圖像為:

若?。篵0=0(黑),b1=1(白),即為我們通常所說的圖像二值化。

在數(shù)字化的圖像數(shù)據(jù)中,無用的背景數(shù)據(jù)和對象物的數(shù)據(jù)經(jīng)常放在一起,同時,圖像中還含有各種噪聲,因此可以根據(jù)圖像的統(tǒng)計性質(zhì),從概率的角度來選擇合適的閾值。

1)最大方差閾值法

把待處理圖像的直方圖在某一閾值處分割為兩組,當(dāng)被分割成的兩組間的方差最大時,便可以決定閾值了。

設(shè)灰度圖像f(x,y)的灰度級為0-L,灰度級I的像素為Ni,則圖中:

總象素數(shù)N=∑j=0 i=LNi(式2-11)灰度級i出現(xiàn)的概率Pi= 1-ω(K)(式2-16)則兩組間的數(shù)學(xué)期望為ω0μ0ω1μ1=μ(式2-17)兩組間的方差為ρ2(k)

ρ2(k)是K的函數(shù),計算k取從0,1,2…L時ρ2(k)的值,當(dāng)多的值為最大時,K即為閾值。

2)雙峰法

根據(jù)圖像的直方圖具有背景和對象物的兩個峰,分割兩個區(qū)域的閾值由兩個峰值之間的谷所對應(yīng)的灰度值決定。設(shè)灰度圖像f(x,y)的灰度級為0-L,灰度i的像素為Pi,分別計算

因?yàn)閷?shí)際PCB電路板有著許多的劃痕、污點(diǎn)等,使用最大方差閾值法時,會在處理后的圖像上產(chǎn)生許多誤點(diǎn),而影響實(shí)際結(jié)果的分析,而雙峰法能夠順利地濾除這些干擾,這個結(jié)論在分析對比以上圖像時也可得出。所以本文選用了雙峰法來進(jìn)行閾值分割。

2.2.3粒子分析與圖像對比

經(jīng)過邊緣檢測和閾值分割的圖像中會存在許多瑕點(diǎn),這些點(diǎn)會影響到最后的圖像識別與分析,有可能會增加多余的殘留圖像。本文中利用NI VISION ASSISTANT中的REMOVE SMALL OBJECTS功能進(jìn)行去除,如圖11和圖12所示。圖11原圖像圖12粒子分析

將標(biāo)準(zhǔn)PCB圖片減去缺陷缺陷PCB圖片,便可以得到缺陷板的斷路部分的圖像,再利用NI ASSISTANT中的PARTICLE ANALYSIS可以得到斷路部分的具體分析,如圖13示。

將缺陷PCB圖片減去標(biāo)準(zhǔn)PCB圖片,便可以得到缺陷板的短路部分的圖像,與上述相同的方法,便可以得到短路部分的具體分析,如圖14所示。

3結(jié)束語

利用LABVIEW來進(jìn)行PCB電路板缺陷的識別與檢測是一項非常好的課題,它在近些年已經(jīng)得到了一定的發(fā)展,并將得到更大的進(jìn)步。限于本人能力和時間,本文的研究還未涉及很深的領(lǐng)域,可以在以下方面加以改進(jìn):

1)本文中只利用到NI公司的LABVIEW和IMAQ VISION,更好的設(shè)計可以再利用其他語言如VISUAL BASIC,C++等編程語言加以輔助設(shè)計,相信可以取得更加令人滿意的結(jié)果。

2)由于實(shí)驗(yàn)設(shè)備等其他因素,本文中只重點(diǎn)研究了PCB電路板短路與斷路的檢測識別,PCB電路板的其他缺陷還有待于進(jìn)一步的分析研究、分類和總結(jié),并設(shè)計出更好的檢測方法,以真正滿足PCB電路板檢測的需求。

3)照明設(shè)備的限制在很大程度上影響到了圖像的檢測效果,為取得PCB缺陷檢測的進(jìn)一步進(jìn)展,在照明設(shè)備的選擇上必須重視,并且設(shè)計出更好的圖像采集系統(tǒng)。

4)在識別與檢測手段上,可以引入更新更好的方法,而不要局限于在傳統(tǒng)的方法中分析比較,例如基于BP神經(jīng)網(wǎng)絡(luò)的識別檢測,圖像的模糊決策等將有待于進(jìn)一步研究。

總之,基于LABVIEW的機(jī)器視覺檢測系統(tǒng)已經(jīng)取得了不錯的進(jìn)展,高速發(fā)展的PCB制造技術(shù)和計算機(jī)技術(shù)對于PCB缺陷的檢測提出了更高的要求,同時也大大地促進(jìn)了PCB缺陷檢測技術(shù)的發(fā)展。利用機(jī)器視覺檢測在未來的較長的一段時間內(nèi)將占據(jù)檢測行業(yè)的半壁江山,相信在未來會取得更大的發(fā)展。

參考文獻(xiàn):

[1]程學(xué)慶,房曉溪.LabVIEW圖形化編程與實(shí)例應(yīng)用[M].北京:中國鐵道出版社,2005.

[2]胡仲波.基于虛擬儀器技術(shù)的PCB視覺檢測系統(tǒng)[D].南京:南京理工大學(xué)碩士學(xué)位論文,2006.

[3]段峰,王耀南.機(jī)器視覺技術(shù)及其應(yīng)用綜述[J].自動化博覽,2002,19(3).

[4]周長發(fā).精通Visual C++圖像處理編程[M].北京:電子工業(yè)出版社,2004.

[5]陳錫輝,張銀鴻.LabVIEW 8.20程序設(shè)計從入門到精通[M].北京:清華大學(xué)出版社,2007.

[6]鄭偉.圖像法檢測印刷電路板缺陷[M].西安:西安理工大學(xué),2002.

[7] National Instruments,IMAQ User Manual Concepts[Z].1999.

[8]李強(qiáng).PCB板缺陷自動檢測技術(shù)的分析研究[D].合肥:合肥工業(yè)大學(xué),2002.

[9]傅茂名.基于形態(tài)邊緣檢測算法的一種改進(jìn)[J].電子科技大學(xué)學(xué)報,2005(2).

[10]王思華.計算機(jī)視覺新技術(shù)及其在IC標(biāo)記質(zhì)量檢驗(yàn)系統(tǒng)設(shè)計中的應(yīng)用[J].電子技術(shù)應(yīng)用,2000(9).

[11]岳永哲.圖像處理技術(shù)在閱卷系統(tǒng)中的應(yīng)用[D].北京:北京工業(yè)大學(xué),2006.

[12] Bruce sehneier.Applied Cryptography protocols,Algorithms,and SourceCode[M].C Jolm Wiley & Sons,Inc,1994.

[13] William work Security Essentials:Applications and Standard[M].Prentice Hall/Pearson,2002.

[14]高育鵬,楊俊,何廣軍.基于圖像識別的自動閱卷系統(tǒng)研究[J].現(xiàn)代電子期刊,2006(22).

[15]楊青燕,彭延軍.基于灰度圖像的答題卡識別技術(shù)[J].山東科技大學(xué)學(xué)報:自然科學(xué)版,2009(3).

[16]周海濤,韓曉軍.基于數(shù)字圖像處理的答題卡識別方法研究[J].電腦知識與技術(shù),2008(28).

[17]周萬珍,鄭廣,王建霞,等.數(shù)字圖像處理技術(shù)在客觀題閱卷中的應(yīng)用[J].數(shù)學(xué)的實(shí)踐與認(rèn)識,2006(8).

[18]王勝春.基于SVM的信息卡識別系統(tǒng)[D].長沙:湖南師范大學(xué),2008.

[19]吳志明.SMT系統(tǒng)中焊點(diǎn)位置的檢測[D].哈爾濱:哈爾濱工業(yè)大學(xué),2006.

[20]楊敏,王春青,鄒增大,等.表面組裝印刷電路板上焊點(diǎn)信息的自動獲取[J].焊接學(xué)報,2005,39(6).