計算機視覺的研究方向范文

時間:2023-12-20 17:56:39

導語:如何才能寫好一篇計算機視覺的研究方向,這就需要搜集整理更多的資料和文獻,歡迎閱讀由公務員之家整理的十篇范文,供你借鑒。

篇1

物體為什么會呈現(xiàn)出人們所看到的視覺效果?經(jīng)過多重反射后,光線將怎樣變化?如何讓計算機把真實世界里的物理原理數(shù)字化表現(xiàn)出來?這些都是松下康之在微軟亞洲研究院工作時要思考的問題,攝像機拍攝出的畫面抖動看不清怎么辦?松下康之也遇到過生活提出的小挑戰(zhàn)。

松下康之用研究員的“專屬語言”解釋道,“低層視覺研究”和“滿幀視頻穩(wěn)定技術”可以很好地回答和解決上面問題?!斑@也正是我所從事的兩個研究方向:一個是光度學,另一個是視頻分析,”微軟亞洲研究院視覺計算組主管研究員松下康之說,“兩者之間并沒有十分緊密的聯(lián)系,但這也正是有趣的地方?!?/p>

從東京大學的博士到微軟亞洲研究院實習生、從日本東京到北京的希格瑪大廈、從電氣工程學專業(yè)到以物理學為基礎的計算機視覺和視頻分析與合成。事實上,這種“毫無關系”所帶來的驚喜與巧合也貫穿于松下康之的經(jīng)歷之中。于是,松下康之給記者講述了一個充滿偶然與必然、選擇與堅持的故事。言語間,流露出日本文化的嚴謹、美國式的活潑和與在微軟亞洲研究院的中國研究員一樣的親切與隨和。

邂逅未來

微軟亞洲研究院院長洪小文曾說過:“創(chuàng)新更多的是意外”。而松下康之與微軟亞洲研究院的緣分,正是充滿著這種“必然的意外”。

在東京大學讀書的時候,松下康之本科、碩士、博士的專業(yè)方向都是電氣工程。那時,松下康之已經(jīng)研究了智能交通系統(tǒng)。“但是,我意識到自己想做一些更加基礎的研究,并且希望可以把這些研究應用到不同的事情上?!痹诓┦慨厴I(yè)前兩年,松下康之就發(fā)現(xiàn)了自己對計算機視覺領域的濃厚興趣。而電氣工程與計算機科學聯(lián)系緊密,計算機系統(tǒng)結構和軟件都有學習,所以對于松下康之來說,從電氣工程轉到計算機視覺并不是一個很大的跨越。

2002年,當時松下康之還在讀博,在一次國際性的計算機視覺大會上,他見到了時任微軟亞洲研究院副院長的沈向洋,“我之前就認識他,還知道他在計算機視覺領域非常有名。我希望能有機會與他一起工作,學到更多東西?!庇谑?,松下康之向沈向洋毛遂自薦,“意外地”成了一名微軟亞洲研究院的實習生,經(jīng)過4個月的實習生活之后,松下康之發(fā)現(xiàn)自己已經(jīng)喜歡上了這里的研究環(huán)境和生活,就這樣,在微軟亞洲研究院的工作開始了。

如何用科技來解決實際問題,從而改變更多人的生活,一直是微軟亞洲研究院的初衷。生活也不斷地給松下康之帶來靈感和意外的收獲。

其中,“滿幀視頻穩(wěn)定技術”的“誕生”就源于松下康之的婚禮――用手持的攝像機拍攝的婚禮畫面是搖晃的,看起來很不舒服,新婚妻子對婚禮錄像效果很不滿意,松下康之就想通過研究解決視頻顫抖的問題?!艾F(xiàn)有的數(shù)字影像鑲嵌技術可以對畫面進行穩(wěn)定性處理,但如果物體移動,這種在場景固定的情況下才能實現(xiàn)的方法就不可行了。而通過‘滿幀視頻穩(wěn)定技術’,丟失掉的像素被自然的補充上了?!蓖?,還可以去除覆蓋在視頻上的文字、鏡頭上的污點,來補上丟失的像素。

科技的光影魔術

“視頻分析在不久的將來將變得更加重要,因為圖像和視頻的界限已經(jīng)越來越模糊,我相信最后一切都將變成視頻?!彼上驴抵畬τ浾哒f。

微軟亞洲研究院的計算機視覺包括:高層視覺(如人臉識別技術)和低層視覺(如光度學,即研究光線與物體的相互作用),松下康之的研究方向屬于后者。

“光度學也非常重要,因為如果我們不明白‘低層’上發(fā)生了什么,就無法在‘高層視覺’研究上取得突破,所以‘低層視覺’研究是非?;A的。如果“低層視覺”發(fā)展了,那么“高層視覺”也會隨之發(fā)展。”

雖然是“肉眼”難以察覺的變化,但是松下康之卻給記者描述了光度學形象的應用――3D復原和現(xiàn)實物體數(shù)字化。而要實現(xiàn)上面的兩項應用,很明顯需要比普通人更特別的“視力”。

“計算機視覺里有一個傳統(tǒng)的方法,叫多視角立體視覺法(multi-view stereo),通過不同視角拍攝的圖片我們可以重現(xiàn)3D,但不能做細節(jié)的重現(xiàn);還有另一種方法,叫立體光學法(photometric stereo),攝像機和物體都是固定的,但是光線是變化的,如果移動光源就可以得到物體的不同觀察值,通過觀察值可以得到表面方向(surface orientation)?!?/p>

前者可以得到整體的形狀,但卻無法得到細節(jié),而后者不能給你整體的形狀,因為它只能給你表面方向。如何把兩個技術的優(yōu)點結合起來得到最真實的3D圖像呢?

“我們考慮如果把一個持續(xù)光源固定在攝像機上,這樣我們就可以同時移動光源和攝像機?!庇谑?,松下康之和他來自東京大學的實習生一起做出了看起來與普通家用數(shù)碼產(chǎn)品沒有太大差別的“3D攝像機”?!斑@個3D攝像機的相關的配件在市場上很容易就能買到,手持永遠是簡單的,人們不會想要拿著一個龐然大物?!彼上驴抵蛴浾呓榻B研發(fā)背后的原因。

文化熔爐

作為美國電氣電子工程師協(xié)會2009年計算機視覺與模式識別國際會議(CVPR)和2009年計算機視覺國際會議(ICCV)的區(qū)域主席、著名期刊International Journal of Computer Vision(IJCV)和Computer Vision Applications(CVA)的編委,松下康之坦言,微軟亞洲研究院對研究員在專業(yè)領域的自由交流的支持,使得研究員對自己的研究領域“看得更遠、更透徹”。

“通過這些職務,我對研究方向有了更高的認識,這種視野能夠幫助我決定今后什么樣的研究更有價值。此外,我能夠認識計算機視覺界的很多人,這是另一個收獲?!彼上驴抵χf。

篇2

關鍵詞:機器學習;模式識別;計算機視覺;機場管制;民航安全

引言

安全管理是我們民用航空管理中的一個非常重要的問題,一直以來都受到整個行業(yè)的高度重視。機器學習作為人工智能技術的分支,已經(jīng)在短短的幾年時間內滲透到我們身邊的各行各業(yè),為之提供了大量的便利并極大的節(jié)省了人力及物力資源。由此我們推測,將機器學習及其相關技術應用到民航安全管理體系中,也將起到卓越的成效。本文便是對機器學習在民航安全管理的應用領域進行探索和分析。

1 機器學習介紹

1.1 定義

利用計算機對給定的數(shù)據(jù)進行分析并從中獲取規(guī)律是機器學習的首要研究目標,這些數(shù)據(jù)我們稱作觀測樣本,所學習到的規(guī)律我們稱之為模型。通過這些規(guī)律模型,可以對未來將要出現(xiàn)的數(shù)據(jù)進行預測。

圖1即機器學習的簡單示例。機器學習的第一步即是選擇一個規(guī)律模型,定義為決策函數(shù)f(x,?茲),該函數(shù)中的參數(shù)?茲并不確定。第二步則是通過機器學習的算法尋找出一個最適合的參數(shù)?茲?鄢,這個過程叫做訓練過程。經(jīng)過以上兩個步驟,我們就可以使用f(x,?茲)模型對輸入的x進行結果預測。

1.2 應用場景

我們所描述的機器學習,不僅僅是針對一些已經(jīng)經(jīng)過結構化處理的信息,還應當包含圖像、音頻在內的數(shù)字化數(shù)據(jù)。從范圍上講,它類似于模式識別、統(tǒng)計學習、數(shù)據(jù)挖掘,正是由于機器學習與這些不同領域的結合,從而形成了它在計算機視覺、自然語言處理、語音識別這些交叉學科中的研究優(yōu)勢。

2 民航安全管理

2.1 安全管理系統(tǒng)簡介

民用航空中比較傳統(tǒng)的思想認為沒有危險就表示安全,然而現(xiàn)代的安全管理思想并不這樣認為?,F(xiàn)代的安全管理思想把安全當做一種狀態(tài),同時也是識別危險和管理風險的一個過程。由此可見,我們的安全管理系統(tǒng)(safety management system簡稱:SMS)必須是一個完整的、正規(guī)的、自頂向下的和有條不紊的綜合安全管理系統(tǒng)。

2.2 我國的民航安全管理系統(tǒng)現(xiàn)狀

分階段發(fā)展的策略是在改革開放以來我國的民航業(yè)實施的總方針[1],并且已取得顯著成效:第一階段,通過逐漸放松進入市場的時機,讓民航走上企業(yè)化發(fā)展的道路;第二階段,在民航業(yè)內部實施全面的制度改革,為進入市場化進行機制創(chuàng)造條件,同時大步跨入市場化經(jīng)營時期;第三階段,抓緊時機進行民航的行業(yè)重組,這一項改革已經(jīng)取得了重大突破。雖然分階段的策略成績斐然,然而就目前來看,我國民航業(yè)的安全管理信息化進程依舊相對落后。

3 機器學習在安全管理體系中的應用

3.1 模式識別與機場管制

模式識別是工業(yè)業(yè)界提出的概念,而機器學習主要來自于計算機學術領域,在本質上二者沒有區(qū)別。機場管制也稱航空管制,航空流控 航路流控 等,指的是由于起降航班班次集中,飛機按關門先后順序排隊起飛,或者由于天氣、軍事、目的地機場問題等原因,塔臺對飛機起飛時間進行管制。機場管制的目的是保證航空安全,以及保障飛機的飛行秩序。

通過機器學習的模式識別技術,安全管理系統(tǒng)可以對機場終端區(qū)域的所有飛行器進行實時監(jiān)控,分析處理一次雷達、二次雷達及自動相關監(jiān)視系統(tǒng)(ADS-B)等監(jiān)視設備傳回的包括飛行器高度、位置、運行狀態(tài)以及氣象信息在內的各種大規(guī)模數(shù)據(jù),并在異常情況出現(xiàn)時,或者在異常情況即將出現(xiàn)之前(取決于機器學習算法的數(shù)據(jù)預測功能),向塔臺管制員提供預警服務,避免各種特情的發(fā)生。

3.2 計算機視覺與機場安全

人臉識別[2]是計算機視覺領域的一個非常重要的研究方向。傳統(tǒng)的人臉識別技術在實際應用中已經(jīng)非常廣泛,但是從性能的角度來看,依然存在諸多問題,最重要的是,從安全的角度考慮亦存在諸多漏洞。現(xiàn)在已經(jīng)證明出現(xiàn)的針對傳統(tǒng)人臉識別的黑客技術,已經(jīng)屢見不鮮。而通過機器學習改進后的人臉識別技術[3],不僅可以解決安全問題,并且十分有利于人臉識別精度的改善和人臉識別速度的提高。將優(yōu)化后的人臉識別系統(tǒng)應用到機場的安檢流程中,可以大大提高安檢人員的工作效率,同樣降低人工工作的強度。

同樣的,計算機視覺及圖像處理技術還可應用于機場場面安全管理。比如,隨著通用航空的發(fā)展,無人機的數(shù)量快速增加,由于其制造成本低操作簡單等特性,越來越多的單位和個人開始使用無人機從事私人的業(yè)務。這些沒有規(guī)范管理的無人機,在缺乏地空空域管理的情況下,很容易就能夠飛行進入機場的管制區(qū),形成巨大的安全隱患。利用計算機視覺進行遠距離攝像實時監(jiān)控,有望很好的解決這個安全問題。

3.3 其他應用領域

除此之外,機器學習的各種算法模型,包括貝葉斯模型(Bayesian)、人工神經(jīng)網(wǎng)絡(Artificial Neural Networks)、深度學習(Deep Learning)、組合方法(Ensemble Methods)、回歸(Regression)等等,均可根據(jù)各自的特性,應用于民航安全系統(tǒng):數(shù)據(jù)預測特性可以應用于航空氣象數(shù)據(jù)的分析與預測中,用以提前為管制人員提供盡可能準確的氣象預報數(shù)據(jù);語音識別及文本分析特性,可以應用于管制員與飛行員的陸空通話過程中,不僅可以監(jiān)控陸空通話的內容,同時可以對參與人員的疲勞程度進行研判;大規(guī)模數(shù)據(jù)中的異常數(shù)據(jù)監(jiān)測,可以應用行器設備及地面設備的維修與保障中。

4 結束語

近年來,以機器學習技術推動的人工智能已滲透到幾乎所有的工業(yè)領域。而機器學習的應用場景,也就是它的應用領域,也恰好與我們信息化安全建設的方方面面都有諸多重合。對于我們民航,確切的說,對于我們民航的安全管理系統(tǒng),盡早引入并應用機器學習相關技術,將會極大的改善系統(tǒng)的工作效率并提高安全保障的成效。

參考文獻

[1]李洋.我國民航安全管理系統(tǒng)研究[D].中國海洋大學,2013.

篇3

關鍵詞:印制電路板;圖像處理;機器視覺;PCB裸板;自動光學檢測;缺陷檢測 文獻標識碼:A

中圖分類號:TP391 文章編號:1009-2374(2016)09-0010-05 DOI:10.13535/ki.11-4406/n.2016.09.005

我國是全球第一大PCB生產(chǎn)基地,作為電子產(chǎn)品承載體的電路板,其集成度和產(chǎn)量不斷在提高。為了保證電子產(chǎn)品的性能,電路板缺陷檢測技術已經(jīng)成為電子行業(yè)中非常關鍵的技術。建立在圖像處理算法基礎上的機器視覺檢測技術與傳統(tǒng)的人工檢測技術相比,提高了缺陷檢測的效率和準確度。因此,設計一種高效精準的機器視覺檢測電路板缺陷的系統(tǒng),具有非常重要的現(xiàn)實意義。評估印刷電路板質量的一個重要因素就是表觀檢測,PCB的表觀質量對產(chǎn)品性能及成品使用安全有著極大的重要性。而伴隨著近年來在工業(yè)生產(chǎn)領域崛起的計算機視覺,當前表觀缺陷檢測和分類識別的研究方向已經(jīng)轉向了利用計算機視覺技術來實現(xiàn)。計算機圖像處理識別技術這種基于計算機視覺的檢測技術成功取代了傳統(tǒng)的PCB缺陷檢測方法,在自動光學檢測系統(tǒng)眾多應用中占據(jù)了相對重要的地位,一躍成為PCB生產(chǎn)業(yè)表觀缺陷的主要檢測方法。

圖1 系統(tǒng)框圖

因此本文通過設計AOI自動光學檢測系統(tǒng),搭建較為簡單的PCB缺陷自動檢測系統(tǒng)的實驗平臺,對PCB中四類較為關鍵、常見的缺陷進行檢測、分析、識別、判定,為研究推廣PCB缺陷自動檢測系統(tǒng)開拓應用前景,如能實現(xiàn)工業(yè)上的產(chǎn)業(yè)化檢測,將有高額的經(jīng)濟收益。本文側重對PCB中的四類較為關鍵、常見的缺陷進行檢測、分析、識別、判定,并且僅搭建了較為簡單的PCB缺陷自動檢測系統(tǒng)的實驗平臺,即通過復雜算法對采集到的圖像進行處理、配準、對比,從而得出PCB缺陷類型及對其進行標識。如圖1所示。

1 硬件設計方案

PCB缺陷檢測的總體系統(tǒng)設計方案主要是基于自動光學檢測技術來搭建PCB缺陷檢測系統(tǒng),硬件設計是使用CNC-T程控光源高精度影像測試系統(tǒng)操作臺,對待測電路板進行圖像采集,再通過VS2010軟件所編寫程序處理,得出待測電路板的缺陷種類。整個系統(tǒng)主要分為運動控制、光源、圖像采集、圖像處理四個模塊,分模塊簡要闡述了實驗過程、所需設備以及軟件算法,搭建了一個相對完整的系統(tǒng)工作平臺。

圖2 CNC-T程控光源影像操作臺

該設備具有測量元素種類齊全、手動測量、自動對焦等多種功能,使用該設備采集圖像進行二維檢測,測量軟體為YR-CNC,將圖像儲存至電腦后便由VS軟件進行圖像處理。實驗組成如圖3所示:

圖3 實驗系統(tǒng)框圖

1.1 運動控制模塊

本系統(tǒng)運動流程為:被檢測的PCB在檢測臺上,通過步進電機XY軸運動到攝像機拍攝區(qū)域,CCD攝像機固定在工作臺上方(Z軸),通過Z軸的運動實現(xiàn)聚焦。如圖4所示:

圖4 平臺運動示意圖

設備工作臺臺面尺寸為746mm×506mm,承載玻璃面尺寸為452mm×354mm,有效測量行程為400×300×200。本裝置既可通過軟件驅動自動采集圖像,也可以通過手動控制,移動并聚焦采集待測PCB的圖像。

1.2 光源模塊

輔助光照――采用的是正向和背向光源這兩種輔助光照。其中正光源和攝像頭同側,均位于Z軸上,正光源主要用于檢測待測物體的表面特征。背光源位于檢測臺面下方,與正光源處于同軸反向關系,背光源能突出待測物體的輪廓特征,常用于檢測物體輪廓尺寸。

圖像采集:分別利用正光源突出PCB表面如走線、過孔和焊盤等主要特征,而下光源主要使PCB的輪廓尺寸和過孔產(chǎn)生強烈的輪廓對比。

光源:使用的是高度集中照明光源中心的LDR系列,由于該光源的傘狀結構緊密排列著LED且采用了CCS獨創(chuàng)的柔性板,使之成為LED照明系統(tǒng)的標準模式。照明系統(tǒng)如圖5所示:

圖5 照明系統(tǒng)

1.3 圖像采集模塊

圖像采集模塊是由圖像采集卡、相機和鏡頭組成的,該模塊是圖像配準階段的硬件基礎。計算機采集圖像的媒介就是相機,而相機按照不同原理又分為多種,常見的有CCD(Charge Coupled Device)和CMOS(Complementary Metal Oxide Semiconductor)兩類。本系統(tǒng)采用的是CCD 1/2英寸43萬像素彩色攝像頭和高清晰度0.7~4.5X變焦倍率鏡頭,顯示分辨率為0.001mm。

1.4 圖像處理模塊

通常獲得的圖像將受到工業(yè)現(xiàn)場環(huán)境、光照等條件的干擾,計算機所獲得的圖像質量多數(shù)參差不齊,圖像的清晰度不一致,大大增加了PCB缺陷檢測的難度,所以在利用復雜算法檢測、識別PCB缺陷前要先對圖像進行預處理。

本圖像處理模塊主要通過VS軟件在OpenCV計算機視覺庫的基礎上,通過一系列算法對圖像進行處理對比。

2 系統(tǒng)軟件設計

2.1 OpenCV

OpenCV(Open Source Computer Vision Library)是一個跨平臺的可以運行在Linux、Windows和Mac OS操作系統(tǒng)上的基于(開源)發(fā)行的計算機視覺庫。它重量輕而高效,開放了多種接口如MATLAB、Ruby和Python等,并且在計算機視覺和圖像處理中大多數(shù)通用的算法都是被允許的。OpenCV可用于開發(fā)實時圖像處理、計算機視覺和模式識別方案,它提供了多種函數(shù),實現(xiàn)了大量的計算機視覺算法,算法涵蓋了從最基礎的濾波至以高級的物體檢測。OpenCV實際上是一堆C和C++語言源代碼文件,許多常見的計算機視覺算法由這些源代碼文件實現(xiàn)。如C接口函數(shù)cvCanny()實現(xiàn)Canny邊緣檢測算法。它可直接加入到我們自己的軟件項目編程中,而無需去編寫自己的Canny算子代碼,就是沒有必要重復“造輪子”。

根據(jù)OpenCV中源代碼文件巨多的特點,以算法的功能為基準,將這些源文件分到多個模塊中,如core、imgproc、highgui等。將每個模塊中的源文件編譯成一個庫文件(如opencv_core.lib、opencv_imgproc.lib、opencv_highgui.lib等),用戶在使用時,僅需在自己的項目中添加要用的庫文件,與自己的源文件一起連接成可執(zhí)行程序即可。

OpenCV計算機視覺庫的出現(xiàn),是為了使人們利用方便快捷的計算機視覺框架,在計算機視覺領域可以更加輕松地設計出更為復雜的應用程序。OpenCV涵蓋了多種計算機視覺應用區(qū)域,如用戶界面、信息安全、醫(yī)學影像學、工廠產(chǎn)品檢驗、立體視覺、機器人和攝像機標定等,約有500多個函數(shù)。因為計算機視覺與機器學習是相輔相成的,所以OpenCV也開放了MLL(Machine Learning Library)機器學習庫。MLL除了在視覺任務相關中使用,也可以很容易地應用到其他機器學習中。

2.2 Microsoft Visual Studio2010

Visual Studio是微軟公司推出的開發(fā)環(huán)境,是同行業(yè)中目前最流行的Windows平臺應用程序開發(fā)環(huán)境。Visual Studio 2010于2010年4月12日,其集成開發(fā)環(huán)境(IDE)已被重新設計和組織,變得更簡單了。

Visual Studio 2010同時帶來了NET Framework 4.0、Microsoft Visual Studio 2010 CTP(Community Technology Preview――CTP),并且支持開發(fā)面向Windows 7的應用程序。除了Microsoft SQL Server外,它還支持IBM DB2和Oracle數(shù)據(jù)庫。目前有專業(yè)版、高級版、旗艦版、學習版和測試版五個版本。Visual Studio的用處十分廣泛,不僅可被用來基于Windows平臺創(chuàng)建Windows應用程序和Web應用程序,還可被用來創(chuàng)建智能設備、Office插件和Web服務等應用程序。微軟的Visual Studio 2010將成為一個版本的經(jīng)典,這是相當于6.0版本。該版本可以自定義開始頁,新功能還包括:(1)C# 4.0中的動態(tài)類型和動態(tài)編程;(2)多顯示器支持;(3)使用Visual Studio 2010的特性支持TDD;(4)支持Office;(5)Quick Search特性;(6)C++ 0x新特性;(7)IDE增強;(8)使用Visual C++ 2010創(chuàng)建Ribbon界面;(9)新增基于.NET平臺的語言F#。本課題將基于OpenCV計算機視覺庫使用Microsoft Visual Studio2010開發(fā)環(huán)境,通過編輯算法實現(xiàn)PCB缺陷檢測。

3 圖像預處理

要使用計算機對圖像進行處理,所得到的連續(xù)圖像就必須被轉換為離散的數(shù)據(jù)集,這是因為計算機只能處理離散度數(shù)據(jù),這一過程我們稱之為圖像采集。圖像采集由圖像采集系統(tǒng)實現(xiàn),如圖6所示。圖像采集系統(tǒng)的三個主要模塊是成像系統(tǒng)、采樣系統(tǒng)和量化器。

圖6

將整理出的字符圖像交予識別模塊來識別,被稱為圖像的預處理。PCB的圖像預處理包括灰度化、增強、濾波、二值化、配準等,處理后的PCB輸出的圖像質量將得到改善,在很大程度上使得該圖像特征更直觀,方便計算機分析和處理。PCB的圖像預處理為整個PCB缺陷檢測系統(tǒng)的核心部件,很大程度上決定了檢測的準確性。圖像預處理流程如圖7所示:

圖7 圖像預處理流程圖

4 PCB缺陷檢測

本文針對四種常見缺陷:斷路、短路、毛刺(凸起)、缺損(凹陷)進行檢測研究。在這四種缺陷中,最為嚴重的缺陷類型是斷路和短路,它們將會使整塊板子失去本來的功能;而凸起、凹陷也可能影響到PCB在使用過程中的穩(wěn)定性能。如圖8所示為幾種常見的缺陷:

圖8 常見電路板缺陷

4.1 PCB缺陷的檢測方法

常用的PCB缺陷檢測方法有參考法和非參考法兩種。要是從概念理解和電路難易程度看,參考法明顯更加具有概念直觀、電路簡單的優(yōu)勢;要是從檢測所需要的條件來看,非參考法則在不需要待測PCB與標準PCB進行準確對準這一點上優(yōu)于參考法。

本課題采用參考法進行PCB缺陷檢測。

使用參考法對PCB缺陷進行檢測的流程為:(1)確定標準的PCB圖像并放入?yún)⒖紟?;?)通過成像設備采集待測PCB圖像,進行圖像預處理之后,再二值化PCB待測圖像,并對其進行連通域提??;(3)然后將處理結果與標準圖像進行對比,利用圖像相減來判斷PCB可能存在的缺陷;(4)進行分類,確定缺陷類型。

4.2 圖像連通域

像素是圖像中最小的單位,每個像素周圍有8個鄰接像素,常見的鄰接關系有兩種:4鄰接與8鄰接。4鄰接一共4個點,即上下左右。包括對角線位置的點,8鄰接的點一共有8個,如圖9所示:

圖9 領域示圖

如果像素點A與B鄰接,我們稱A與B連通,即有如下的結論:

如果A與B連通、B與C連通,則A與C連通。在視覺上看來,點與點相互連通,形成一個區(qū)域,而不是連通的點形成不同的區(qū)域。這種相互立體的所有的點,我們稱為連通區(qū)域。連通區(qū)域標記常用的方法有Two-Pass(兩遍掃描法)和Seed Filling(種子填充法)兩種方法,本課題主要介紹第二種。

Seed Filling來源于計算機圖形學,通常應用在填充圖形上。思路:以一個前景像素當作種子,而后在處于同一像素值且位置相鄰的連通區(qū)域,把和種子相鄰的前景像素融合到同一組像素中,結果將是獲得一個像素集,即連通區(qū)域。接下來介紹使用種子填充法實現(xiàn)的連通區(qū)域分析法:

第一,重復掃描圖像,當?shù)玫疆斍跋袼攸cB(x,y)=1時停止:(1)賦予B(x,y)一個label,并將像素位置作為種子,接著將所有位于該種子周圍的前景像素都壓入棧中;(2)將棧頂像素賦以相同的label值并彈出,接著將全部位于棧頂像素周邊的前景像素都壓入棧中;(3)重復(2)步驟,直到棧為空。此時,圖像B中的一個像素值被標記為label的連通區(qū)域便被找到了。

第二,在掃描結束前,重復第一個步驟,由此可以獲得圖像B中所有的連通區(qū)域在掃描結束后。

掃描所得的連通域如圖10所示:

圖10 圖像連通域提取

4.3 缺陷識別

缺陷識別具體特征如表1所示:

表1 缺陷特征

缺陷種類 二值圖像面積 連通區(qū)域數(shù)

斷路 減少 增加

短路 增加 減少

凸起 增加 不變

凹陷 減少 不變

第一,短路和斷路。在出現(xiàn)短路缺陷時,待測圖像與標準圖像相比,其所包含的連通區(qū)域數(shù)將會減少。同理可得,在出現(xiàn)斷路缺陷時,待測圖像與標準圖像相比,其所包含的連通區(qū)域數(shù)將會增多。因此,斷路和短路缺陷便可利用比較連通區(qū)域數(shù)來判定和識別。

第二,凸起和凹陷。凸起缺陷將導致導線和導線、導線和其他導體間的間隙變小,而凹陷缺陷將導致導線和導線、導線和其他導體間的間隙變大,二者均會導致PCB使用過程中出現(xiàn)不穩(wěn)定狀態(tài)。而觀察可知,這兩種缺陷的連通區(qū)域相同,差別在于各自二值化面積的大小,所以可以通過計算該待測圖像的連通區(qū)域面積來識別凸起、凹陷缺陷。

識別過程:將經(jīng)過圖像預處理的待測PCB圖像與標準圖像進行對比后,通過算法找出缺陷。比較二者的連通區(qū)域數(shù),若前者大于后者,則標定該缺陷點為斷路,反之則為短路;若二者連通區(qū)域數(shù)相同,則比較二值化圖像面積,若前者大于后者,則標定該缺陷點為凸起,反之則為凹陷。檢測流程如圖11所示:

圖11 PCB缺陷檢測流程圖

5 系統(tǒng)實驗

本文使用CNC-T程控光源高精度影像測試系統(tǒng)操作臺,結合VS2010軟件基于OpenCV計算機視覺庫的算法編程來實現(xiàn)PCB的缺陷檢測。整體實驗過程為:手動控制操作臺捕捉、聚焦、采集待測PCB的圖像,采集到的圖像與標準圖像進行對比、識別,得出缺陷種類并顯示結果。

本課題一共就所研究缺陷類型,做了40組實驗,通過實驗結果計算正確率。如表2所示:

表2 實驗結果統(tǒng)計

缺陷類型 實驗次數(shù) 正確率

斷路 10 100%

短路 10 100%

凸起 10 100%

凹陷 10 100%

針對不同電路板圖中出現(xiàn)的同種斷路類型進行檢測,效果如圖12a、圖12b、圖12c所示,可準確檢測出缺陷存在。

圖12

針對不同電路板圖中出現(xiàn)的同種短路類型進行檢測,效果如圖13a、圖13b、圖13c所示,可準確檢測出缺陷存在。

圖13

針對不同電路板圖中出現(xiàn)的同種凸起類型進行檢測,效果如圖14a、圖14b、圖14c所示,可準確檢測出缺陷存在。

圖14

針對不同電路板圖中出現(xiàn)的同種凹陷類型進行檢測,效果如圖15a、圖15b、圖15c所示,可準確檢測出缺陷存在。

圖15

6 結語

PCB板面向體積越來越小、密度越來越高的方向發(fā)展。在檢測產(chǎn)品價格方面,國外AOI檢測產(chǎn)品價格普遍偏高,而由于經(jīng)濟原因,在國內PCB板生產(chǎn)制造商多數(shù)仍采用人工目測等傳統(tǒng)檢測方法檢測。隨著經(jīng)濟的發(fā)展,數(shù)字圖像處理研究的深入,自動光學檢測系統(tǒng)也開始頻繁活躍在人們視線中,但在PCB缺陷檢測方面的應用卻還有待完善。因此,本論文建立在深入掌握工控系統(tǒng)結構并從PCB板的質量標準、圖像特點、缺陷特征及檢測要求的分析基礎上,對以圖像處理為基礎的PCB缺陷檢測技術進行了深入研究。由于PCB缺陷自動檢測系統(tǒng)的研究涉及多個領域的知識,其研究過程十分耗時、繁瑣,由此,本論文僅僅對PCB缺陷檢測中較為常見的問題進行了較深入研究,并且僅搭建了較為簡單的PCB缺陷自動檢測系統(tǒng)的實驗平臺,對PCB中的四類較為關鍵、常見的缺陷進行檢測、分析、識別、判定。雖然還未實現(xiàn)真正實現(xiàn)工業(yè)上產(chǎn)業(yè)化檢測,但是在未來幾十年中,研究推廣的PCB缺陷自動檢測系統(tǒng)將有十分良好的應用前景,也將有高額的經(jīng)濟收益。

參考文獻

[1] 陳勝勇,劉盛,等.基于OpenCV的計算機視覺技術實現(xiàn)[M].北京:科學出版社,2008.

[2] Gary Bradski,Adrian Kaebler,于仕琪,等.學習OpenCV[M].北京:清華大學出版社,2009.

[3] 周長發(fā).精通Visual C++圖像處理編程(第3版)

[M].北京:電子工業(yè)出版社,2006.

[4] 黨振.中國大陸PCB產(chǎn)業(yè)的現(xiàn)狀與未來[J].印制電路信息,2006,32(1).

[5] 胡躍明,譚穎.自動光學檢測在中國的應用現(xiàn)狀和發(fā)展[J].微計算機信息,2006,(4).

[6] 李漢,何星,等.印刷電路板的自動光學檢測系統(tǒng)

[J].無損檢測,2004,26(6).

[7] 張利,高永英,等.PCB板檢測中的定位研究[J].中國圖像圖形學,1999,4(8).

[8] 姚立新,張武學,等.AOI系統(tǒng)在PCB中的應用[J].電子工業(yè)專用備,2004,(5).

[9] 范小濤,夏雨人.一種基于圖像處理的PCB檢測算法研究[J].計算機工程與應用,2004,(13).

[10] 傅莉.印制電路板的發(fā)展及前景[J].電腦與電信,2010,(5).

[11] 張明軒.基于視頻序列的人臉檢測與跟蹤算法研究[D].中北大學,2011.

[12] 張馳.基于機器視覺的智能控制與圖像識別問題研究[D].蘭州理工大學,2009.

[13] 謝飛.基于計算機視覺的自動光學檢測關鍵技術與應用研究[D].南京大學,2013.

[14] 張靜.PCB表觀缺陷的自動光學檢測理論與技術

[D].電子科技大學,2013.

[15] 俞瑋.AOI技術在PCB缺陷檢測中的應用研究[D].電子科技大學,2007.

篇4

在用常見的手勢進行交流時,人們很容易就能互相理解,在經(jīng)過學習之后,聾啞人或是正常人都可以運用手語進行交流。不過,想象一下,當你對計算機(或機器)做一個手勢,它就能領會你的意圖會是怎樣的情景呢?如果計算機(或機器)看得懂手語,又意味著什么呢?姑且不管實現(xiàn)這樣的人機交流有何深遠的意義,還是先讓我們來探究一下這樣的可行性吧,想想看得懂手語的計算機(或機器)能有什么用途。

人機交互:從呆板到員活

人類之間的交流往往聲情并茂,既采用自然語言(口語、書面語言),還廣泛采用人體語言(表情、體勢、手勢)。與人類之間的交流相比,人機交互就顯得呆板多了。以計算機的輸入方式為例,人要向計算機下達指令,最常見的方式還是通過鍵盤輸入。當然,手寫輸入也正為許多人所接受和喜愛,語音輸入的研究也進行得熱火朝天,最初單一而呆板的輸入方式已經(jīng)得到了擴展。然而,科學研究是永無止境的,人體語言這種簡單快捷的信息交流方式得到了很多研究者的關注,他們想,能不能把這種靈活的信息交流方式也引進人機交互中呢?

于是研究人員展開了對人體語言理解的研究。人體語言的感知、人體語言與自然語言的信息融合對提高計算機的人類語言理解水平,加強人機接口的可實用性有著積極的意義。手語(手勢)是人體語言的一個非常重要的組成部分,它是包含信息量最多的一種人體語言,它與語言、書面語等自然語言的表達能力相同。因而完全可以把手語作為人機交互的一種手段,它具有很強的視覺效果,生動、形象、直觀??梢?,將手勢運用于計算機能夠很好地改善人機交互的效率。

計算機怎樣識別手勢?

從不同的角度可以對手勢進行不同的分類。分為交互性手勢和操作性手勢,前者手的運動表示特定的信息(如樂隊指揮),靠視覺來感知,后者不表達任何信息(如彈琴);分為自主性手勢和非自主性手勢,后者需要與語音配合用來加強或補充某些信息(如演講者用手勢描述動作、空間結構等信息),分為離心手勢和向心手勢,前者直接針對說話人,有明確的交流意圖,后者只是反應說話人的情緒和內心的愿望。

手勢的各種組合、運動相當復雜,不過簡單來看,手勢主要有如下的特點:手是彈性物體,因此同一手勢之間差別很大,手有大量冗余信息,由于人識別手勢關鍵是識別手指特征,因此手掌特征是冗余的信息:手的位置是在三維空間,很難定位:手的表面是,非平滑的,容易產(chǎn)生陰影。

了解了手勢的這些特點,就可以在手勢研究中對手勢做適當?shù)姆指睢⒓僭O和約束。例如,可以給出如下約束:如果整個手處于運動狀態(tài),那么手指的運動和狀態(tài)就不重要,如果手勢主要由各手指之間的相對運動構成,那么手就應該處于靜止狀態(tài)。比如鼠標和筆式交互設備就是通過識別手的整體運動來完成人與計算機的交互,但它們不能識別手指的動作,其優(yōu)點是僅利用軟件算法就能實現(xiàn),適合于一般桌面系統(tǒng)。只有當用鼠標或筆式交互設備的運動或方向變化來傳達信息時,才可將鼠標或筆式交互設備看作手勢表達工具。筆式交互設備發(fā)展很快,它提供了充分的交互信息,如壓力、方向、旋轉和位置信息,但現(xiàn)有交互主要是簡單地替代鼠標。

計算機識別手勢的手段主要有兩種:

1.數(shù)據(jù)手套。數(shù)據(jù)手套是虛擬現(xiàn)實系統(tǒng)中廣泛使用的傳感設備,用戶通過數(shù)據(jù)手套,能做出各種手勢向系統(tǒng)發(fā)出命令,與虛擬世界進行各種交互操作:比如通過一只與數(shù)據(jù)手套對應的在計算機屏幕上顯示的虛擬手,使用戶成為虛擬世界中的一員:抓取物體,如果手套有力反饋,還能讓用戶感覺到物體的重量和材質等。美國在“洞穴”虛擬系統(tǒng)中就是利用數(shù)據(jù)手套來研制武器。數(shù)據(jù)手套的主要優(yōu)點是可以測定手指的姿勢和手勢,但是相對而言代價較為昂貴,并且有時會給用戶帶來不便(如出汗)。

2.計算機視覺。即利用攝像機輸人手勢,其優(yōu)點是不干擾用戶,這是一種很有前途的技術,目前有許多研究者致力于此項工作。但在技術上存在很多困難,目前的計算機視覺技術還難以勝任手勢識別和理解的任務。

目前較為實用的手勢識別是基于數(shù)據(jù)手套的,因為數(shù)據(jù)手套不僅可以輸入包括三維空間運動在內的較為全面的手勢信息,而且比基于計算機視覺的手勢在技術上要容易得多。

更好地為人服務

日本三菱電子研究實驗室的研究人員已經(jīng)使用低成本的視覺系統(tǒng),通過手勢就可以控制一臺電視機。由計算機控制的美國航空航天局虛擬太空站也是采用美國Cybernet公司開發(fā)的手語識別軟件,通過一部架設在頂部的攝像機來追蹤指揮者的手勢。當系統(tǒng)捕捉到揮手等手勢時,就會做出相應的反應,讓指揮者像航天員一樣在計算機虛擬的阿爾法國際太空站上移動(確切地說是飄動)。

Cybemet公司的軟件還能識別一系列的特定手勢,就像工地上的工人或交通警察經(jīng)常用的那種手語,通過這些手勢你能夠旋轉在虛擬旅行中看到的三維圖像,還可以向上或是向下改變你的視角。美國航空航天局正在考慮把這套系統(tǒng)用于真正的太空站,因為笨重的航天服和微重力環(huán)境使得鼠標和鍵盤都變得難以操縱。也許不久之后,航天員就能用簡單的手語來控制機器人在太空中抓取物體。

手語(手勢)識別系統(tǒng)的研究還有助于改善和提高聾啞人的生活學習和工作條件,為他們提供更好的服務。同時也可以應用于計算機輔助啞語教學、電視節(jié)目雙語播放、虛擬人的研究、電影制作中的特技處理、動畫的制作、醫(yī)療研究、游戲娛樂等諸多方面。另外,手語識別系統(tǒng)的研究涉及到教學、計算機圖形學、機器人運動學、醫(yī)學等多學科。因此,手語識別系統(tǒng)的研究非常有意義。

篇5

關鍵詞:SIFT;特征點匹配;圖像配準

中圖分類號:TP391.41

圖像匹配是數(shù)字圖像處理和計算機視覺中的重要組成部分,被應用到許多實際領域,如航空攝影測量、目標識別、三維系統(tǒng)重建等。由于受到天氣、遮擋、光線等的影響會導致圖像出現(xiàn)平移、縮放、旋轉等情況,這些均會為圖像匹配帶來一定的難度。

1999年Lowe提出了一種局部特征算法[1],此算法以尺度空間極值作為圖像的特征對圖像進行匹配處理,但該算法提取的SIFT特征點數(shù)量大,匹配時間較長,針對這些結合Harris角點檢測算法對SIFT算法進行改進,研究該方法在圖像匹配中的對匹配速率的影響。

1 SIFT算法

SIFT算法是一種基于尺度空間的局部特征描述算子,其對于圖像縮放、旋轉,仿射變換能夠保持不變性,2004年由David G.Lowe[2]總結提出。在某些情況下,對于任何視角拍攝的圖像也能夠保持較穩(wěn)定的配準力。

算法步驟:(1)不同的尺度空間生成和尺度空間極值檢測。(2)去除邊緣點和不穩(wěn)定極值點。(3)特征點主方向確定。(4)生成SIFT特征描述符。

圖像金字塔的構建[3]如圖1,利用尺度因子的高斯核對圖像進行卷積,獲得圖像的不同尺度空間,作為金字塔圖像的第1層;將該層2倍的尺度圖像,作為金字塔圖像第2層的第1幅圖像,并對第2層第1幅圖像采用不同尺度因子的高斯核進行卷積,從而得到金字塔圖像第2層其他圖像。重復以上步驟,即可得到高斯金字塔圖像。每層相鄰高斯圖像相減,即可獲得DoG圖像[4]。

因為SIFT算法可擴展性好,能夠與其他形式的特征向量較容易聯(lián)合,因此,本文試圖利用此特性改變SIFT算法的在應用中效用,并運用仿真實驗進行驗證。

2 Harris算法

1988年C.Harris和J.Stephens共同研究提出的,它是以Moravec算子為基礎。利用泰勒級數(shù)展開思路,Moravec算子衍生到Harris算子,可用圖直觀表示,計算不止水平、垂直、對角線方向的灰度變化,而且可以計算任意方向的灰度變化,進而利用數(shù)學公式來確定特征點。

3 本文算法思路及實驗

本算法主要是針對SIFT特征提取過程中,金字塔的構建占用了整個SIFT特征提取時間大半以上的問題,采用階層合理約束的方法來獲得特征點數(shù)目和時間消耗的折中。然后結合Harris角點檢測方法進行SIFT特征點數(shù)目控制的策略,減少匹配計算量,進而提高配準的效率。

分別采用傳統(tǒng)SIFT算法和本文改進算法進行實驗。原始圖像數(shù)據(jù)如圖2。

4 結束語

本文講述了SIFT特征檢測算法、Harris角點檢測算法,通過改變SIFT特征點檢測中金字塔圖像的不放大2倍的方法,減少特征點提取的耗時,結合Harris角點檢測減少待匹配特征點數(shù)量,提高圖像匹配的速率,實驗結果顯示,針對平移和微小視角變化的圖像匹配速率有所提高,但是對于圖像的配準率有微小的降低,這點有待進一步的研究。

參考文獻:

[1]陳志雄.基于圖像配準的SIFT算法研究與實現(xiàn)[J].計算機應用技術,2008(05).

[2]David G.Lowe”Distinctive image features from scale-invariant key points”,International Journal of Computer Vision,2004,91-110.

[3]邱建國,張建國,李凱.基于Harris與SIFT算法的圖像匹配算法[J].測試技術學報,2009(03):271-274.

[4]楊占龍.基于特征點的圖像配準與拼接技術研究[J].電路與系統(tǒng),2008(04).

篇6

【關鍵詞】人臉識別 視頻 JavaCV

1 引言

人臉識別技術是基于人的臉部特征,對輸入的人臉圖像或者視頻流。首先判斷其是否存在人臉,如果存在人臉,則進一步給出每個臉的位置、大小和各個主要面部器官的位置信息。并依據(jù)這些信息,進一步提取每個人臉中所蘊涵的身份特征,并將其與已知的人臉進行對比,從而識別每個人臉的身份。

JavaCV 是一款開源的視覺處理庫,基于GPLv2協(xié)議。JavaCV是對各種常用計算機視覺庫的封裝后的一組jar包,其中封裝了OpenCV、libdc1394、OpenKinect、videoInput和ARToolKitPlus等計算機視覺編程人員常用庫的接口,可以通過其中的utility類方便的在包括Android在內的Java平臺上調用這些接口。

2 視頻人臉識別的實現(xiàn)原理

視頻識別根據(jù)視頻的長度截取期中若干幀圖片,對每副圖片進行人臉識別、預處理、圖片學習。用目標人臉圖片跟視頻中的人臉進行比對,找到目標人物。

人臉識別主要采用主成分分析(PCA)方法,將人臉圖像區(qū)域處理成一種隨機向量,利用K-L變換得到正交變換基,對應較大特征值的基底具有與人臉相似的形狀。利用基底的線性組合來實現(xiàn)人臉圖像的特征提取和特征選擇。

將視頻中每N張人臉進行預處理和特征值計算,通過變換矩陣,投射到子空間,實現(xiàn)數(shù)據(jù)降維;學習文件輸出。再將目標圖片進行預處理后和學習文件進行對比,選出均方差之和最小的一個計算置信度,置信度高于判決門限則認定找到,返回原圖片和出現(xiàn)時間,否則認為找不到。

3 視頻人臉識別的實現(xiàn)過程

3.1 圖片預處理

程序首先對目標圖片中的人臉進行識別,如果存在多個人臉,保留最大的那個。截取到人臉后,對該圖片進行灰度化處理,將其大小調整成150*150,然后對圖片進行高斯平滑處理。

// 設置源圖像ROI

// 創(chuàng)建目標圖像,單通道8位

3.2 視頻加載

用戶選擇一個視頻文件,然后設置3個參數(shù):

(1) 視頻識別間隔:該參數(shù)用來決定多少毫秒對視頻進行一次采樣。

(2)置信度:該參數(shù)在0-1.0之間,如果該值設置的比較低,誤識率會比較高。如果值比較大,某些匹配的結果會被丟棄。

(3)人臉尺寸:視頻中小于該尺寸的臉將被忽略,不進行比對。

3.3 視頻識別

如圖1所示,從視頻開始的位置,每隔指定時間取一張視頻截圖,對這張圖進行人臉識別,截出每個人臉,對人臉進行灰度化、統(tǒng)一大小、高斯平滑等預處理。每到100個人臉進行一次學習和特征值計算,將處理后的目標圖片跟學習文件進行比對,找出置信度大于閾值的人臉,取最高置信度的人臉返回,作為備選圖片顯示在界面上,同時顯示其在視頻中出現(xiàn)的時間。如果沒有大于閾值的人臉,繼續(xù)從視頻中截取下100張人臉,重復上述動作,直至視頻掃描完畢。當找到了大于閾值的人臉后,用戶可以選擇繼續(xù)在視頻中尋找,或者停止尋找。

3.4 結果展示

如圖2所示,用戶可以查看識別的結果,即該人臉出現(xiàn)在視頻中的原圖和時間。如果有多個結果,用戶可以使用按鈕前后預覽。

4 總結

本文介紹了一種基于JavaCV的視頻人臉識別系統(tǒng)的設計與實現(xiàn),重點介紹了視頻識別的流程,展示了系統(tǒng)運行結果。

作者簡介

王(1981-),女,碩士研究生學歷?,F(xiàn)為南京信息職業(yè)技術學院計算機與軟件學院講師。研究方向為數(shù)據(jù)交換。

篇7

關鍵詞:圖像融合;圖像拼接

一、引言

    圖像拼接(Image Stitching)技術是由于攝像設備的視角限制,不可能一次拍出很大圖片而產(chǎn)生的。圖像拼接技術可以解決由于相機等成像儀器的視角和大小的局限,不可能一次拍出很大圖片而產(chǎn)生的問題。它利用計算機進行自動匹配,合成一幅寬角度圖片,因而在實際使用中具有很廣泛的用途,同時對它的研究也推動了圖像處理有關的算法研究。

 

圖1  圖像拼接流程圖

圖像拼接技術的基本流程如圖1-1所示,首先獲取待拼接的圖像,然后是圖像配準和圖像融合,最終得到拼接圖。圖像拼接技術主要包括兩個關鍵環(huán)節(jié),即圖像配準和圖像融合。

圖像配準主要指對參考圖像和待拼接圖像中的匹配信息進行提取,在提取出的信息后尋找圖像間的變換模型,然后由待拼接圖像經(jīng)變換模型向參考圖像進行對齊,變換后圖像的坐標將不再是整數(shù),這就涉及到重采樣與插值的技術。圖像拼接的成功與否主要是圖像的配準。

篇8

3月17日,阿里巴巴宣布成立VR實驗室,瞄準的是VR購物。同時,它會聯(lián)合旗下的阿里影業(yè)、阿里音樂、優(yōu)酷土豆,制作VR內容。而今年下半年,騰訊將基于PC端和移動端的兩款VR頭部顯示器。

根據(jù)美國風險投資數(shù)據(jù)公司CB Insights的數(shù)據(jù),2017年第一季度,AR/VR領域的投資項目超過80個,同比增長60%。報告還披露了Facebook和蘋果分別為其A/VR工作招聘了一千多名員工。

所謂VR,就是通過計算機技術為用戶模擬出逼近現(xiàn)實的虛擬環(huán)境。其沉浸式體驗和交互方式帶來的新的娛樂方式,吸引了從硬件技術到內容生產(chǎn)和分發(fā)的多個公司。除了阿里巴巴、騰訊、Facebook和蘋果,HTC、三星、索尼等公司都在這個領域展開業(yè)務。

目前,這個行業(yè)的人才供應遠低于需求。人力資源平臺領英去年的一份針對全球范圍內VR人才的報告顯示,在領英的人才庫里,有18%的人才需求來自VR行業(yè),僅次于美國,但合適的VR人才只有2%。

熬過資本的冬天并存活下來的公司變得更加務實,而且開發(fā)了更多樣化的應用場景―除了去年的影視、游戲產(chǎn)業(yè),今年它們還進入到了醫(yī)療行業(yè)、制造業(yè)、零售業(yè)等新領域。

如果你對VR行業(yè)感興趣或者看好它的前景,我們將告訴你這個領域正在找哪些人、薪水怎么樣,以及怎樣可以加入。

AVRO備的核心職位主要有3種

VR硬件的核心技術很復雜,涉及算法、光學、系統(tǒng)開發(fā)、交互、圖形圖像等多個領域,核心職位圍繞的都是這些方向。它們也多是HTC、三星等硬件公司的VR業(yè)務范圍。

算法工程師

這是VR領域最基礎的職位。VR的功能是通過一副眼鏡,讓人既看到人眼看不到的東西,又能在虛擬空間中移動,還能對虛擬景象形成真實感,因此需要一套算法把這些感官上的功能都實現(xiàn)。通常,算法工程師關注的是如何解決某一類特定問題或實現(xiàn)某一特定功能。在VR領域,這一職位主要需要懂計算機視覺、空間定位、交互技術、圖形圖像等算法。

計算機視覺主要是指以攝像頭代替人眼識別目標和提取特征,工程師需要探索最新的算法以及技術的可行性,負責視覺和圖像的處理;空間定位指的是通過VR設備使用者能確定自己在空間中的位置,高精度的空間定位可以為用戶帶來更好的沉浸感并降低眩暈程度;接下來,交互算法工程師負責手勢識別、視線估計、動作捕捉、追蹤等相關計算機視覺算法的研發(fā),研究實際空間中的動作如何延伸到虛擬空間中;然后是圖形圖像的處理,它要求在滿足性能的前提下提高畫質,用更快的速度和更少的資源去畫像。

光學和人體工學工程師

光學要解決的是讓VR設備的鏡片在保證沉浸感和清晰度的同時,盡可能加大視場角,讓人在佩戴VR設備時看得更清晰;人體工學關注的則是人在佩戴VR眼鏡時的舒適度,設備是否透氣、不漏光、足夠輕盈等。目前消費級的VR產(chǎn)品在這方面仍處于初級階段,如何讓人更舒適持久地使用VR設備,是行業(yè)發(fā)展的瓶頸之 一。系統(tǒng)架構師

與成熟的智能手機、智能手表的開發(fā)系統(tǒng)不同,VR的系統(tǒng)架構到目前為止并沒有行業(yè)標準,面對陌生的領域,系統(tǒng)架構師需要駕馭和設計整個系統(tǒng),負責VR頭部顯示器及整個主機設備的集成。

BVR產(chǎn)業(yè)鏈上的工作還有這些

要實現(xiàn)VR體驗,只有一部VR硬件設備可不夠,可以觀看的內容、節(jié)目效果,以及應用場景的開發(fā),這些需要硬件公司以外的公司參與,F(xiàn)acebook等公司涉及的主要是這部分內容。

3D引擎開發(fā)和3D美術

3D引擎開發(fā)人員主要負責VR場景的搭建―戴上VR眼鏡后你看到的“新世界”,就是所謂的VR場景。市場上主流的開發(fā)引擎有兩種,一種是可以快速開發(fā)的Unity3D引擎,一種是可以制作恢弘場景和細致光效的虛幻4引擎,這種引擎在游戲開發(fā)中常使用。

3D美術人員則需要制作3D美術素材,將素材置入場景后,再配合引擎程序員優(yōu)化游戲的性能。

內容制作

你知道,無論電影還是游戲,當你想要通過VR眼鏡獲得這些娛樂的時候,它們除了像一般的電影和游戲產(chǎn)品那樣需要腳本,還需要影視制作人員使用360度全景視頻的拍攝技術去拍攝和剪輯,這是二者在內容制作方法上的不同之處。

銷售運營、產(chǎn)品經(jīng)理

不同于剛起步的人工智能,VR已經(jīng)邁入產(chǎn)業(yè)化階段,公司除了需要尖端技術人員,對市場銷售、平臺運營方面的人才同樣有需求。要求與其他領域大同小異,都是負責開拓市場和客戶,增加產(chǎn)品的銷售范圍等。因VR企業(yè)希望快速打開市場,銷售人才目前高居中國VR領域人才需求的第二位,高于全球水平。

產(chǎn)品經(jīng)理的職責也很共通,負責其他VR公司與本公司部門的配合,制定和推進合作項目,把控整體合作項目的時間,并對最終合作質量負責。

常規(guī)開發(fā)

和任何智能硬件一樣,VR也需要內置一套系統(tǒng),其中包括App Store一樣的平臺以及應用軟件,這部分工作與傳統(tǒng)互聯(lián)網(wǎng)、手機行業(yè)的開發(fā)工作相似,即在實現(xiàn)VR設備的智能化的同時,保證軟件在不同平臺間能流暢交互。

C要進入這個行業(yè),需要你有這些能力和資歷

技術崗位碩博優(yōu)先

VR行業(yè)的崗位主要指向三個方面:硬件、軟件和內容制作。

硬件領域涉及到計算機、光學、電子、機械、生物學、自動化等方向。軟件需要計算機圖形學、程序設計、數(shù)據(jù)結構、操作系統(tǒng)、算法設計與分析等相關背景。這兩個方面對工科背景的人才需求更大。VR內容包括游戲、影視等,需要3D美術、拍攝方面的學術背景。

由于VR產(chǎn)業(yè)相對細分,產(chǎn)業(yè)上游硬件、軟件開發(fā)的崗位會以碩士、博士學歷優(yōu)先,因為碩士和博士在學術領域的研究方向更為明確,企業(yè)在篩選簡歷時更容易適配崗位。

“如果畢業(yè)論文方向是圖形圖像、計算機視覺,就會非常搶手,不僅是VR行業(yè),在人工智能領域也會受到歡迎?!笨其J國際高科技行業(yè)總監(jiān)田丹說。

VR行業(yè)的核心技術崗位中,招人要求最高的是算法工程師,這也是最難招聘的崗位。學歷必須是碩士以上,同時是模式識別、信號處理等科班出身。另外,對深度學習和機器學習有了解是加分項。

至于市場銷售、平臺運營甚至內容領域的人才,這個行業(yè)對學歷背景要求不高,更看中經(jīng)驗、人脈以及辦事的靈活度。畢竟,新興行業(yè)最需要資源嫁接能力。

應屆生也有機會,尤其是海歸

打開招聘網(wǎng)站,VR技術崗位的招聘一般以最少一年工作經(jīng)驗起步,往上的話,有的職位要求3到5年的工作經(jīng)驗,有的甚至要求10年以上的經(jīng)驗。這個門檻主要是因為VR技術雖然還不怎么成熟,但它是高集成性產(chǎn)品,需要在算法、架構、光學和人體工學等成熟技能的基礎上再提出應用上的高要求。

但應屆畢業(yè)生并非完全沒有機會。對國內的VR公司來說,開放應屆畢業(yè)生招募主要有兩種情況。一是已經(jīng)在行業(yè)里挖到技術領域的大牛,需要為其配備團隊,因此會招聘一定比例的應屆畢業(yè)生。二是產(chǎn)品經(jīng)理這類崗位入門門檻不高,公司也愿意花時間培養(yǎng)。

相較而言,海歸會比較受到這個行業(yè)的歡迎。微鯨VR人力資源總監(jiān)Tony在為3D場景交互崗位招聘時發(fā)現(xiàn),國內很少有這方面的專業(yè)人才,但德國的3D場景交互領域向硅谷輸送了不少人。他后來意識到,這是因為德國的高校有對口專業(yè),所以即使是剛畢業(yè)的應屆生,Tony也會第一時間把對方請到公司來。

再說到內容領域,VR內容領域要制作哪些內容并沒有明確標準。畢竟,還沒有人敢下結論說:VR只能用來做什么、不能做什么。這個行業(yè)眼下正是需要創(chuàng)意和研究拍攝方式的時候。

D這些領域,跨行到VR更容易

游戲

游戲是VR最早被應用的場景之一。雖然VR游戲一度遇冷,但從長遠角度看,從游戲行業(yè)跳到VR行業(yè)嘗試新的游戲形態(tài)未嘗不可。擅長技術的話,可以繼續(xù)走Unity3D開發(fā)、3D建模和3D美術的路。即使有大量游戲公司仍在觀望,但VR游戲帶來的體驗感確實是電腦、手機無法取代的。這也是HTC Vive、PS VR、Oculus等公司目前大量需求的產(chǎn)品。

互聯(lián)網(wǎng)和半導體

互聯(lián)網(wǎng)和半導體是VR行業(yè)人才來源的兩大核心區(qū)域。VR行業(yè)缺少的系統(tǒng)架構人才在微軟、IBM、AMD、英特爾或者高通都能找到。

工業(yè)設計

截至目前,用戶對于VR硬件設施的體驗普遍是抱怨“長久佩戴時頭顯過重,舒適感不夠”。這就需要人體工程學領域的人才來改進產(chǎn)品,他們一般會從設計領域找人,尤其是工業(yè)設計。

影視

影視行業(yè)從業(yè)者主動跳到VR行業(yè)的比例相對更高?!八麄儗φ麄€行業(yè)的理解和感知更多,當他們意識到有新的拍攝方式可以嘗試,主動投身的人就會更多。”Tony說。他以微鯨一位制片人為例,對方在電視臺累積了多年經(jīng)驗,有自己的工作室,同時還在高校任教,最終選擇進入VR領域就是想嘗試不一樣的東西。

E哪些公司在尋找人才?

初創(chuàng)公司

新技術面前,全球企業(yè)處于同一起跑線。以技術為核心的初創(chuàng)公司為了站穩(wěn)腳跟,同樣在該領域爭奪人才。暴風魔鏡、蟻視、大朋、微鯨等國內VR廠商熬過資本嚴冬,對招聘也有了更高需求。“初級崗位不難招,要招就招核心算法,特別是如果我們想超越海外同行,招人就更重要?!贝笈骎R合伙人兼首席戰(zhàn)略官章立說。

大公司

雖然無論是Facebook,還是HTC、索尼,都沒有將技術研發(fā)落地中國,但巨頭們?yōu)榱嗽靹?,頻頻聯(lián)合產(chǎn)業(yè)鏈上下游合作,發(fā)起各類聯(lián)盟,為開發(fā)者提供諸多便利,這從另一個角度為從業(yè)者帶來了更多機會。

Fa c e b o o k今年4月宣布建立首個增強現(xiàn)實(Augmented Reality,AR)平臺,同時VR社交平臺Facebook Spaces的Beta版;微軟于5月10日宣布將開放Windows Mixed Reality開發(fā)者套件預購。5月18日,Google也宣布要在今年年底推出Daydream VR一體機,其首批合作伙伴是HTC和聯(lián)想。

還有蘋果,在6月6日的WWDC大會上,蘋果宣布Mac將支持HTC Vive,開發(fā)者可在MacBook上使用SteamVR平臺。同時,AR方面推出開發(fā)套件ARKit。

從這些大公司的策略中也能看出,VR已經(jīng)不僅是它們手中的一張牌,混合現(xiàn)實(Mixed Reality,MR)、AR以及人工智能日后都將聯(lián)合起來。

F這行的薪水到底怎么樣?

去年5月,拉勾網(wǎng)了一份《VR/AR行業(yè)薪酬報告》,報告顯示,技術職位在過去幾年始終是核心訴求職位,即使崗位需求在2016年有所下降,也在總體崗位中占比50.5%。同時,市場方面的人才需求明顯提高,2016年占比12.3%,兩年間增長了一倍。

根據(jù)報告,在VR行業(yè),無論是技術、產(chǎn)品還是市場、運營等崗位,薪酬水平皆高于互聯(lián)網(wǎng)領域。去年5月,全行業(yè)技術崗位月平均薪資為1.35萬元,而VR/AR行業(yè)技術崗位的月平均薪資達到了1.85萬元。即使是最弱勢的職能部門,薪資也高于行業(yè)平均值7100元,達到8300元/月。

Tony證實了這一現(xiàn)象。物以稀為貴,VR行業(yè)里技術崗薪水最高,而在技術崗里,算法工程師的薪酬排名第一。算法工程師如具備碩博學歷,年薪一般在30萬元至60萬元,3D引擎開發(fā)人才的年薪也在30萬元至40萬元。這還不包括公司為留住人才發(fā)放的期權和獎金。非技術職位的薪水也會比原行業(yè)略高,但總體上相差不大。

科銳國際在《2017年薪酬指南》中也指出,在新技術領域里,計算機視覺、深度學習方向薪酬漲幅最快。人才儲備主要在幾家跨國公司和頂級高校,VR行業(yè)的人才薪酬已經(jīng)在高點,人才流動的吸引力更多來自職位前景。不過若遇到急缺位,跳槽漲幅可能高達50%以上甚至100%,比如算法類的崗位就是如此。

G進這行前,你得有點心理準備

如果你有興趣進入這個新興行業(yè)試一試,章立和Tony提醒你:

篇9

關鍵詞:ABB;視覺識別

中圖分類號:TP242.2 文獻標識碼:A 文章編號:1674-7712 (2014) 12-0000-01

目前,全自動機器人解包系統(tǒng)在煙草行業(yè)內應用廣泛,以其設備先進性、系統(tǒng)穩(wěn)定性、操作簡便性、超高的行業(yè)適應性以及靈活的可擴展性和兼容性得到了各煙草工業(yè)企業(yè)的認可。為了適應煙草行業(yè)全自動控制、現(xiàn)代化的生產(chǎn)要求,我廠制絲解包線選用了FT533全自動機器人解包系統(tǒng),集合了當前最先進的自控、機器人、信息管理和機器人視覺技術,是一條全自動、高效率的機器人解包上料物流系統(tǒng)[1]。該系統(tǒng)設備先進、自動化程度高,是我廠制絲線生產(chǎn)的首道工序,也是我廠自動化生產(chǎn)的亮點工序。

該系統(tǒng)中所運用的機器人視覺檢測技術,是當今最新的檢測技術。計算機視覺檢測就是由各種成像系統(tǒng)代替視覺器官作為輸入敏感手段,由計算機來代替大腦完成處理和解釋。我廠采用的CCD檢測技術光譜響應寬、動態(tài)范圍大、靈敏度和幾何精度高、噪聲低,在檢測系統(tǒng)的智能化、柔性、快速性等方面較接觸式檢測方法具有更大的優(yōu)越性。因此,計算機視覺檢測技術在我廠解包線的適應性應用是決定解包線能否高精度、高效率工作的關鍵。

一、現(xiàn)狀分析

在實際生產(chǎn)過程中,我們發(fā)現(xiàn)解包線機器視覺檢測還存在以下幾個問題:

(一)外部光照不穩(wěn)定

我廠解包線機器人安裝位置緊靠一整面玻璃墻,CCD相機照相取樣極易被外部自然光照所干擾,尤其在陽光最強烈的正午和陰暗天氣時干擾最為明顯,相機照相或曝光過度,或陰暗不明,成像質量較差,嚴重干擾了計算機對圖像的分析和處理,導致機器人不能準確動作。

(二)視覺處理系統(tǒng)對煙包圖像分析不準確

目前采用的圖像分析方法不能夠精確分析圖像,對一些潛在問題未能做出相應判斷和處理,導致機器人在實際生產(chǎn)過程中出現(xiàn)誤動作,影響解包線效率。失誤率平均達到5包/批次(20包)。

二、具體思路與方法

(一)成像系統(tǒng)曝光度適應性差的問題

一天中隨著太陽的移動,車間中的光照強度也隨之變化。根據(jù)這一實際情況,項目小組將針對各時段不同光照下,解帶工段成像系統(tǒng)PV帶識別程度,尋求成像系統(tǒng)曝光增益的最優(yōu)值。根據(jù)剪帶機器人工段對成像系統(tǒng)圖像的要求,課題小組采用分段逐一測試的方法,對各時間段曝光增益值進行了實驗測試,找到最佳的參數(shù)值。

(二)規(guī)劃時間段

根據(jù)從氣象網(wǎng)站統(tǒng)計,綿陽9月-12月的日出時間在6:00-7:00之間,日落時間在18:00-19:00之間,同時日出日落后半個小時光照強度變化幅度較大以及11:00-14:00光照強度最強,將一天劃分出8個時間段。

(三)確定曝光增益

曝光增益是曝光的一種補償方式。如果圖像明顯偏亮或偏暗,說明相機的曝光基準值設定較大偏差,這時要強制進行曝光補償。在解包線成像系統(tǒng)中,最終經(jīng)過補償后的圖像一定要到達這樣的要求:圖像輪廓清晰,處理算法能識別到所有編織帶。課題小組將根據(jù)劃分出的時間段逐一對曝光增益值進行設定。

(四)煙包檢測識別能力較差

鑒于二值化處理的目標圖像失真較大,在新的算法過程中課題小組決定放棄在邊緣檢測前使用二值化處理,通過使用煙包四邊邊緣檢測和中縫檢測相結合的方法來計算煙包中心點。影響開包工段煙包識別的準確度的關鍵點是找準圖像中煙包的中心點,如果圖像中心點與實際煙包中心點偏差過大,就會導致機械手爪臂將煙包損壞,影響后續(xù)開包動作的完成效果。原處理方式采用二值化處理。但二值化自適應性較差,在處理過程中極易將目標邊緣周圍像素點與目標本身混淆,導致二值化后目標輪廓失真,影響后續(xù)邊緣檢測準確性。

根據(jù)觀察分析,每個煙包都有一個共同的特性:煙包的最上的兩個合頁閉合時,在煙包中間都會形成一條中縫,而且這個中縫的像素點灰度值與周邊的像素點灰度值差異明顯,噪聲小,容易清楚識別。因此,考慮將中縫檢測加入到煙包的中心點的計算中,提高中心點的準確性[2]。

(五)建立成像系統(tǒng)與PLC數(shù)據(jù)通訊通道

首先在PLC編寫程序獲取系統(tǒng)時間,并將時分秒分割出用于傳遞到成像系統(tǒng)。其次,成像系統(tǒng)中創(chuàng)建數(shù)據(jù)緩沖區(qū),用于讀取PLC傳遞的時間數(shù)據(jù)。為方便數(shù)據(jù)比較將時間格式處理為小數(shù)格式,如11時15分轉換為11.15,這樣方便進行大小對比,公式為時+分/100。

三、結束語

通過確定時間段曝光增益值、煙包四邊邊緣檢測和中縫檢測相結合的方法來計算煙包中心點等方法的使用。增強了機器視覺檢測的環(huán)境適應性和抗干擾能力,降低片煙預處理工段斷料次數(shù)、減少人力勞動。改善后識別效果如圖1所示。分時段曝光增益方法以及中線和邊緣檢測相結合的圖像分析方法不僅適用于我廠解包線機器人視覺系統(tǒng),同樣適用于其他工業(yè)領域的機器視覺圖像檢測分析系統(tǒng)。特別是為外部光照條件不穩(wěn)定的機器視覺處理提供了一種新的思路和方法,增強了機器視覺檢測的環(huán)境適應性和抗干擾能力。

圖1 PV帶完全識別示意圖

參考文獻:

[1]ABB機器人全套手冊Nov2008[M],2008.

篇10

關鍵詞:圖像預處理;圖像增強;圖像銳化

中圖分類號:TP391文獻標識碼:A文章編號:1009-3044(2011)27-6727-03

Image Pre-processing Technology in Tracking System

CHEN Qian-hui1, WANG Xiao-fen2

(1.School of Mechanical and Electrical Engineering, Shangqiu Institute of Technology, Shangqiu 476000, China; 2.School of Computer Science, Shangqiu Institute of Technology, Shangqiu 476000, China)

Abstract: To get precise three attitude for space goals to achieve the purpose of tracking real-time stability, it is necessary for using an effective method to process the resulting image. In this paper, based on the theory of image processing, we introduce several methods of pretreatment to achieve the enhancement of edge information, it is also significant for edge detection, feature extraction, matching and 3D reconstruction.

Key words: image preprocessing; image enhancement; image sharpening

目標跟蹤研究屬于計算機視覺的范疇,也是如今比較熱點的研究方向之一。在日常生活、交通、國防等方面有著非常廣泛的應用。隨著計算機技術、數(shù)字圖像處理技術的不斷發(fā)展,目標跟蹤的方法也得到進一步的改進。根據(jù)計算機視覺的原理,如果能精確的模擬空中目標的飛行情況,對我國的航天以及軍事事業(yè)都將有很大的益處。要想使空間目標實現(xiàn)可視化,必須對跟蹤獲得的二維圖像信息進行圖像的預處理,通過基于邊緣的特征提取的方法來實現(xiàn)跟蹤空間運動目標。

1 圖像預處理方法

一般對圖像的預處理包括:圖像的增強、圖像的濾波、圖像的銳化。

1.1 圖像增強

圖像增強是應用計算機或光學設備通過對圖像灰度等級的變換以達到改善圖像視覺效果的處理技術。由于CCD攝像機的影響,或者是攝像機周圍環(huán)境的影響等因素,使得攝像系統(tǒng)攝取的圖像存在一些問題,為得到目標的精確信息達到研究目的,必須對圖像進行預處理。

1) 直方圖

灰度直方圖是圖像最基本的統(tǒng)計特性。其橫坐標是灰度級,縱坐標是該灰度級出現(xiàn)的頻度。用Pr(rk)=nk/n0≤rk≤1k=0,1,2,…,l-1,表示。式中:nk為圖像中出現(xiàn)rk級灰度的像素數(shù),n是圖像像素數(shù),而nk/n即為頻數(shù)。

由直方圖分析,有助于我們確定圖像閾值處理。其中最常用、重要方法是直方圖修正,特別是直方圖均衡。用圖像f(x,y)的直方圖代替灰度的分布密度函數(shù)pf(f),則直方圖均化后圖像g為:。若原圖像f(x,y)在像素點(x,y)處的灰度為rk,則直方圖均化后的圖像g(x,y)處的灰度sk為:,T[rk]是灰度變換函數(shù)。由于ni/N只是圖像灰度級概率密度函數(shù)的近似,因此經(jīng)過直方圖均衡后,得到坦直方圖。

2) 灰度變換

灰度變換法分3種:線性、分段線性及非線性變換。

A 線性變換

假定原圖像f(x,y)的灰度范圍為[a,b],希望變換后圖像g(x,y)的灰度范圍擴至[c,d],則線性變換可表示為,若圖像灰度在[0,Mf]范圍保持f(x,y)灰度低端和高端值,表達式分別為:

B 分段線性變換

對灰度區(qū)間[0,a]和[b,Mf]加以壓縮,對灰度區(qū)間[a,b]進行擴展??刹捎梅侄尉€性變換,其表達式為:

C 非線性變換

非線性點運算對應于非線性映射函數(shù),典型的映射包括平方函數(shù)、對數(shù)函數(shù)。截取函數(shù)、閾值函數(shù)、多值量化函數(shù)等。如對數(shù)及指數(shù)函數(shù)表達式分別為,g(i,j)=bc[f(i,j)-1]-1。

1.2 圖像噪聲及平滑濾波

1) 模板操作和卷積運算

模板操作是數(shù)字圖像處理中常用的一種運算方式,圖像平滑、銳化及后討論的細化、邊緣檢測等都要用到模板(如表1)。

2) 鄰域平均法

鄰域平均法是一種利用Box模塊(如表1)對圖像進行模塊操作(卷積運算)的圖像平滑方法,其主要優(yōu)點是算法簡單,計算速度快,但會造成圖像一定程度上的模糊。其數(shù)學含義是:,式中:(x,y)=0,1,...,N-1;S是以(x,y)為中心的鄰域集合,M是S內的點數(shù)。

3) 中值濾波

中值濾波是一張非線性信號處理方法,與其對應的中值濾波器即是一種非線性濾波器。一維fi序列公式表示為:

。

而二維中值濾波表示為:yij=Med A{fij},其中:A為窗口;{fij}為二維數(shù)據(jù)序列。

復合型中值濾波:中值濾波線性組合、高階中值濾波組合、加權中值濾波及迭代中值濾波等。其中線性組合方程為:

,

高階中值濾波組合為:,式中ak為不同中值濾波的系數(shù)。

4) 空間域低通濾波

從信號頻譜看,信號緩慢變化部分在頻率域屬低頻部分,而信號迅速變化部分屬頻譜域高頻部分。由于圖像邊緣及噪聲干擾頻率分量都處于頻率域較高部分。故可采用低通濾波方法去除噪聲(如表1)。

5) 頻率域低通濾波

利用卷積定理得表達式G(u,v)=H(u,v)F(u,v),其中F(u,v)是含噪聲圖像傅里葉變換,G(u,v)是平滑后圖像傅里葉變換,H(u,v)是低通濾波器傳遞函數(shù)(系統(tǒng)框圖如圖1)。

常用的頻率域低通濾波器有:理想低通濾波器、巴特沃思低通濾波器、指數(shù)低通濾波器、梯形低通濾波器。

6) 多幅圖像平均法

一幅有噪聲圖像f(x,y),可看作由原始無噪聲圖像g(x,y)和噪聲n(x,y)疊加而成,即f(x,y)= g(x,y)+ n(x,y),若疊加在圖像上的噪聲n(x,y)是非相關、具有零均值的隨機噪聲時,可針對一目標物在相同條件下作M次重復攝取的圖像相加,取平均值作為輸出圖像,便可對圖像中噪聲進行平滑。

1.3 圖像銳化

圖像平滑往往使圖像邊界、輪廓變得模糊,而圖像銳化是一種使原有圖像信息變得有利于人們觀看的質量,目的是為了改善圖像視覺效果,消f(x,y)圖像應有對象邊緣變得輪廓分明。

1) 梯度法

圖像銳化常用方法是對圖像微分處理。其最常用處理方法是梯度法。設f(x,y)方向導數(shù)為?鄣f/?鄣x,表示其在某一方向α上變化率,且,其中,稱為飛f(x,y)的梯度,可知當時,方向導數(shù)取最大值。

2) Sobel 算子

索貝爾算子是一組方向算子,從不同方向檢測邊緣。它通常對灰度漸變和噪聲較多圖像處理較好。常用的梯度銳化算法有Roberts、Isotropic Sobel、Prewitt 和Krisch算子(如表2所示),且都是用差分方法對梯度運算近似處理。

3) 拉普拉斯算子

Laplacian 算子是二階導數(shù)算子,它既能增強圖像高頻分量,又能保持低頻分量,是圖像增強的有效方法。常用于基于偏導數(shù)運算的一種各向同性的線性組合運算的邊緣增強算子(如表1)。

4) 高通濾波銳化

圖像中邊緣部分與其頻譜的高頻分量相對應,因此采用高通濾波讓高頻分量通過,實現(xiàn)圖像銳化(如表2),算子為:。

2 總結

為獲取序列二維圖像特征點、線、面,實現(xiàn)空間三維目標重建及動態(tài)軌跡模擬,以實現(xiàn)空間運動目標的實時跟蹤,對圖像信息進行預處理是必要的。本文通過圖像增強、圖像噪聲與濾波、圖像平滑與銳化等一系列圖像處理方法的介紹,通過模擬仿真就可得到邊緣被加強的處理圖像,進而實現(xiàn)目標的實時穩(wěn)定跟蹤。

參考文獻:

[1] 何東健,數(shù)字圖像處理[D].西安:西安電子科技大學,2003.

[2] 閆娟.數(shù)字圖像的平滑處理方法研究[J].軟件導刊,2009,8(1):182-184.

[3] 岡薩雷斯,數(shù)字圖像處理[M].3版.北京:電子工業(yè)出版社,2011.

[4] 陳娟,陳乾輝.圖像跟蹤中的邊緣檢測技術[J].中國光學與應用光學,2009,2(1):46-53.

[5] 榮瑩.用C++ Builder 實現(xiàn)數(shù)字圖像的平滑處理[J].電腦與信息技術,2002,5:50-52.

[6] 王憲輝.視頻圖像中的目標跟蹤技術研究[D].合肥:中國科學技術大學,2010.