計(jì)算機(jī)視覺感知技術(shù)范文

時(shí)間:2023-09-14 17:50:59

導(dǎo)語(yǔ):如何才能寫好一篇計(jì)算機(jī)視覺感知技術(shù),這就需要搜集整理更多的資料和文獻(xiàn),歡迎閱讀由公文云整理的十篇范文,供你借鑒。

計(jì)算機(jī)視覺感知技術(shù)

篇1

【關(guān)鍵詞】計(jì)算機(jī);視覺系統(tǒng);框架構(gòu)思

在現(xiàn)代計(jì)算機(jī)技術(shù)的支持下,對(duì)人類視覺功能進(jìn)行模擬的計(jì)算機(jī)系統(tǒng)被稱為計(jì)算機(jī)視覺系統(tǒng),因?yàn)橐曈X系統(tǒng)本身兼具科學(xué)性和應(yīng)用性,所以計(jì)算機(jī)視覺系統(tǒng)本身既具有科學(xué)學(xué)科的特性又具有工程學(xué)科的特性。對(duì)其的研究不僅能夠進(jìn)一步了解人類本身,而且能夠在工業(yè)生產(chǎn)領(lǐng)域發(fā)揮更大的作用。

1 計(jì)算機(jī)視覺系統(tǒng)現(xiàn)有理論框架

1.1 計(jì)算機(jī)世界理論框架

20世紀(jì)80年代,麻省理工學(xué)院教授Marr在視覺理論研究領(lǐng)域獲得突破,提出了利用計(jì)算機(jī)實(shí)現(xiàn)視覺能力的理論框架――計(jì)算機(jī)視覺理論,這一理論主要特點(diǎn)是以現(xiàn)代信息處理的方式對(duì)人類視覺能力作用機(jī)制進(jìn)行了分析,并以人類的視覺能力為基礎(chǔ)在計(jì)算機(jī)技術(shù)的支持下形成了三個(gè)不同的計(jì)算機(jī)層次。分別是計(jì)算機(jī)理論層次、表示層次和算法層次。這三個(gè)層次分別對(duì)應(yīng)著人類對(duì)視覺信息進(jìn)行處理的三個(gè)環(huán)節(jié),通過各個(gè)環(huán)節(jié)的仿生設(shè)置,計(jì)算機(jī)視覺系統(tǒng)就能夠?qū)⒊醪降囊曈X處理能力賦予計(jì)算機(jī)。這一理論中的核心是計(jì)算機(jī)理論層次,Marr認(rèn)為人類的視覺能力主要是從圖像中建立物體形狀和位置的描述,所以在這一層次中設(shè)計(jì)者設(shè)計(jì)的主要環(huán)節(jié)是從初步獲取的二維圖像中提取和細(xì)化物體的三維結(jié)構(gòu)和位置,并將這些信息在一個(gè)二維平面上反映出來,即三維重建。

1.2 基于知識(shí)的視覺理論框架

基于知識(shí)的視覺理論框架最早產(chǎn)生于20世紀(jì)90年代,最早的提出者是Lowe。認(rèn)為在人類的視覺能力發(fā)揮過程中,對(duì)三維物體的實(shí)際測(cè)算是不必要的,人類的視覺能力與三維測(cè)算能力沒有直接的關(guān)系,雖然使用三維測(cè)算技術(shù)也能夠?qū)崿F(xiàn)計(jì)算機(jī)視覺系統(tǒng)的功能,但并不是對(duì)人類視覺功能的模仿。Lowe認(rèn)為在人類的視覺活動(dòng)中,會(huì)將三維物體看成二維物體,也會(huì)將二維物體看成三維物體。這種現(xiàn)象本身并不是偶然性的,而是一種視覺作用機(jī)制的必然。既然人類肉眼能夠借助一定的作用機(jī)制和處理能力實(shí)現(xiàn)二維的三維化,在計(jì)算機(jī)視覺系統(tǒng)中就完全有可能設(shè)計(jì)出這種對(duì)人類肉眼直接模擬的機(jī)制。以感知系統(tǒng)感知物體的二維特性,并在其基礎(chǔ)上直接生成三維圖像,而不需要借助復(fù)雜的測(cè)量過程。

1.3 主動(dòng)視覺理論框架

主動(dòng)視覺理論是在現(xiàn)有計(jì)算機(jī)理論的基礎(chǔ)上形成的新型理論框架,是根據(jù)人類視覺功能實(shí)現(xiàn)的主動(dòng)性提出的。在人類實(shí)現(xiàn)視覺功能的過程中,人類的視覺系統(tǒng)并不是被動(dòng)的,而是會(huì)根據(jù)視覺系統(tǒng)的要求調(diào)動(dòng)身體的其他部位進(jìn)行配合的、具有主動(dòng)性的,所以在人類視覺功能的發(fā)揮過程中,視覺系統(tǒng)是具有主動(dòng)性的,人類視覺系統(tǒng)的視角、關(guān)注點(diǎn)都會(huì)是動(dòng)態(tài)變化的。

基于這一理論,主動(dòng)視覺理論框架認(rèn)為人類的視覺活動(dòng)是一種“感知――動(dòng)作”過程。根據(jù)這一原則,主動(dòng)視覺理論框架認(rèn)為計(jì)算機(jī)視覺系統(tǒng)并不需要精準(zhǔn)的三維測(cè)算系統(tǒng)。而應(yīng)該以計(jì)算機(jī)視覺獲取系統(tǒng)為核心,設(shè)置主動(dòng)的視覺系統(tǒng)。這一理念在實(shí)際的應(yīng)用中主要通過對(duì)圖像獲取系統(tǒng)技術(shù)參數(shù)的調(diào)整和控制來實(shí)現(xiàn),例如攝像機(jī)的位置、取向、焦距、光圈等,通過對(duì)這些參數(shù)的調(diào)整圖像信息獲取系統(tǒng)就能夠從不同的視角對(duì)物體進(jìn)行觀察,進(jìn)而獲取物體的三維圖像信息。

2 計(jì)算機(jī)視覺理論框架中存在的問題

計(jì)算機(jī)視覺理論框架的產(chǎn)生極大的支持了計(jì)算機(jī)視覺系統(tǒng)的研發(fā)工作,但是在計(jì)算機(jī)視覺系統(tǒng)的實(shí)際研發(fā)工作中,也逐漸暴露出了計(jì)算機(jī)理論框架的缺陷。當(dāng)前主流的計(jì)算機(jī)視覺系統(tǒng)框架中,計(jì)算機(jī)視覺理論是最早產(chǎn)生的也是唯一一種被動(dòng)的計(jì)算機(jī)視覺技術(shù)。在其理論系統(tǒng)中更多的強(qiáng)調(diào)人類視覺系統(tǒng)的測(cè)算能力,而沒有意識(shí)到人類的視覺系統(tǒng)是一種主觀性很強(qiáng)的、目的性很強(qiáng)的信息獲取系統(tǒng),完全建立在測(cè)算基礎(chǔ)上的計(jì)算機(jī)視覺理論框架是不必要的。

基于知識(shí)的理論框架,認(rèn)為人類視覺系統(tǒng)的功能實(shí)現(xiàn)主要環(huán)節(jié)是反饋,強(qiáng)調(diào)了人類視覺活動(dòng)中主觀意識(shí)的指導(dǎo)作用。但是它過于強(qiáng)調(diào)系統(tǒng)的目的性和主觀性,完全否定了計(jì)算機(jī)視覺理論,認(rèn)為人類視覺系統(tǒng)是個(gè)完全脫離計(jì)算機(jī)的認(rèn)識(shí)過程,這種認(rèn)識(shí)顯然是錯(cuò)誤的,在判斷物體尺寸大小、距離遠(yuǎn)近時(shí),測(cè)算無(wú)疑是極為必然的。

主動(dòng)視覺理論并不完全排除三維重建,認(rèn)為計(jì)算機(jī)視覺系統(tǒng)的三維重建應(yīng)該建立在圖像獲取系統(tǒng)的主動(dòng)性上。通過改變圖像獲取攝像機(jī)的角度、參數(shù)對(duì)時(shí)間、空間和分辨率等進(jìn)行有選擇的感知,解決了計(jì)算機(jī)視覺系統(tǒng)認(rèn)知過程中的不穩(wěn)定問題,降低了計(jì)算機(jī)視覺系統(tǒng)實(shí)現(xiàn)的難度。但是在其理論框架內(nèi)部缺乏主觀、高層的指導(dǎo),從整體上看并不完善。

3 計(jì)算機(jī)視覺系統(tǒng)框架的新構(gòu)思

在計(jì)算機(jī)視覺系統(tǒng)的研究領(lǐng)域,三種理論構(gòu)建各有優(yōu)劣。但是無(wú)疑反應(yīng)了當(dāng)前計(jì)算機(jī)視覺系統(tǒng)研發(fā)的主流思想,因此計(jì)算機(jī)視覺系統(tǒng)框架的新構(gòu)思應(yīng)該在其基礎(chǔ)上進(jìn)行,致力于克服各個(gè)理論的缺點(diǎn)。綜合比較三種理論框架,筆者認(rèn)為計(jì)算機(jī)視覺理論雖然存在某些問題,但是從整體上看這一理論框架是最具實(shí)踐性和操作性的,其存在的問題完全可以借助其他理論框架加以解決,因此筆者以計(jì)算機(jī)視覺理論為主體,結(jié)合基于知識(shí)的視覺理論和主動(dòng)視覺理論,提出一個(gè)更加完善和通用的計(jì)算機(jī)視覺系統(tǒng)構(gòu)架。

計(jì)算機(jī)視覺系統(tǒng)視覺功能實(shí)現(xiàn)的主體結(jié)構(gòu)還是建立在計(jì)算理論結(jié)構(gòu)的基礎(chǔ)上的,將計(jì)算理論框架中的早期視覺處理環(huán)節(jié)分為圖像預(yù)處理、圖像分割和二維模式識(shí)別兩個(gè)部分,因?yàn)閳D像的預(yù)處理是在平面圖像基礎(chǔ)上的簡(jiǎn)單處理,不需要主觀主導(dǎo)意識(shí)和目的性的參與,同時(shí)圖像分割和二維模式識(shí)別能夠最大限度的提升后繼圖像處理的效果。

在早期處理完成以后,后繼的中后期處理還是分別情調(diào)了二維模式識(shí)別和三維模式識(shí)別,雖然這兩種模式本身的識(shí)別原理是一樣的,但是其面對(duì)的對(duì)象不同,物體的模型也不同。一般來講,在我們的世界中二維信息具有很強(qiáng)的重要性,圖形、文字、指紋等關(guān)鍵二維信息在通常情況下作用更大、應(yīng)用范圍更廣,所以計(jì)算機(jī)視覺系統(tǒng)礦建的新思路中,要對(duì)二維信息進(jìn)行進(jìn)一步的處理。

模型庫(kù)提供具體物體模型的表示。知識(shí)庫(kù)不但要對(duì)物體進(jìn)行抽象表示而且還要對(duì)抽象知識(shí)進(jìn)行推理。人類經(jīng)驗(yàn)的積累和知識(shí)的獲取是通過學(xué)習(xí)而得到的,所以加人模型庫(kù)、知識(shí)庫(kù)管理,并讓其從輸出結(jié)果中進(jìn)行學(xué)習(xí)。這將使模型庫(kù)和知識(shí)庫(kù)更加豐富和完善。

視覺活動(dòng)本身是帶有目的性的,所以在有些時(shí)候視覺系統(tǒng)的應(yīng)用確實(shí)需要視物體的實(shí)際情況來決定,有時(shí)只需識(shí)別場(chǎng)景中存在的是什么物體或某物是否存在,而不要求定量恢復(fù)場(chǎng)景中的物體。因此,在計(jì)算機(jī)視覺系統(tǒng)中引人視覺目的來判斷輸出是否滿足要求。同時(shí),用視覺目的對(duì)圖象分割和二維模式識(shí)別、中期視覺處理、后期視覺處理和三維模式識(shí)別加以控制。如果需要三維重建則由主動(dòng)視覺控制成象來獲得景物更完整的信息。

計(jì)算機(jī)視覺系統(tǒng)框架是支持計(jì)算機(jī)視覺系統(tǒng)實(shí)現(xiàn)的重要基礎(chǔ),所以在計(jì)算機(jī)視覺系統(tǒng)的研發(fā)、設(shè)計(jì)工作中,對(duì)理論框架的研究具有鮮明的現(xiàn)實(shí)意義,本文簡(jiǎn)單介紹了現(xiàn)有框架思想,并分析了其各自的優(yōu)缺點(diǎn),最后再這些理論框架的基礎(chǔ)上形成了計(jì)算機(jī)視覺系統(tǒng)框架的新構(gòu)思。認(rèn)為計(jì)算機(jī)視覺系統(tǒng)構(gòu)架應(yīng)該以計(jì)算機(jī)理論為基礎(chǔ),以視覺活動(dòng)的主觀性和目的性為指導(dǎo),以具體的視覺實(shí)現(xiàn)形式為方法。

【參考文獻(xiàn)】

篇2

以下為報(bào)告詳細(xì)內(nèi)容:

2017年計(jì)算機(jī)視覺技術(shù)在更多的領(lǐng)域有所落地應(yīng)用,自動(dòng)駕駛領(lǐng)域、高考、政務(wù)等領(lǐng)域更多的場(chǎng)景開始應(yīng)用計(jì)算機(jī)視覺技術(shù)。艾媒咨詢分析師認(rèn)為,計(jì)算機(jī)視覺行業(yè)技術(shù)是核心基礎(chǔ),隨著技術(shù)成熟度提高,未來將有更多的場(chǎng)景能夠應(yīng)用計(jì)算機(jī)視覺技術(shù),計(jì)算機(jī)視覺企業(yè)應(yīng)在強(qiáng)化技術(shù)打造的前提下,發(fā)掘更多新的應(yīng)用領(lǐng)域,提高商業(yè)落地應(yīng)用。

2017年人臉識(shí)別技術(shù)在智能手機(jī)終端應(yīng)用開始普及。9月蘋果新品會(huì)上,iPhone X宣布引入Face ID高精度人臉識(shí)別技術(shù),引來人們高度關(guān)注。而除了iPhone X,華為、小米、OPPO、vivo等手機(jī)廠商都推出了帶人臉識(shí)別功能的智能手機(jī)。艾媒咨詢分析師認(rèn)為,計(jì)算機(jī)視覺領(lǐng)域內(nèi)人臉識(shí)別功能可應(yīng)用場(chǎng)景廣泛,商業(yè)化落地能力強(qiáng),除了計(jì)算機(jī)視覺創(chuàng)業(yè)企業(yè),互聯(lián)網(wǎng)巨頭和硬件巨頭企業(yè)也紛紛關(guān)注布局人臉識(shí)別領(lǐng)域。但目前人臉識(shí)別技術(shù)仍然存在一定缺陷,艾媒大數(shù)據(jù)輿情管控系統(tǒng)數(shù)據(jù)顯示,“手機(jī)人臉識(shí)別”熱詞言值數(shù)據(jù)為48.5,整體輿情偏負(fù)向。現(xiàn)階段人臉識(shí)別技術(shù)在智能手機(jī)終端上的應(yīng)用仍處于起步發(fā)展階段,技術(shù)和安全性仍有待提高,未來隨著各計(jì)算機(jī)視覺企業(yè)加強(qiáng)技術(shù)研發(fā),人臉識(shí)別技術(shù)有望進(jìn)一步改善,成為智能手機(jī)標(biāo)配。

iiMedia Research(艾媒咨詢)數(shù)據(jù)顯示,2017年中國(guó)計(jì)算機(jī)視覺市場(chǎng)規(guī)模為68億元,預(yù)計(jì)2020年市場(chǎng)規(guī)模達(dá)到780億元,年均復(fù)合增長(zhǎng)率達(dá)125.5%。艾媒咨詢分析師認(rèn)為,人們安全和效率需求不斷提升,計(jì)算機(jī)視覺技術(shù)在各行業(yè)應(yīng)用能有效滿足人們需求,市場(chǎng)發(fā)展空間巨大。國(guó)家政策對(duì)人工智能行業(yè)的支持也為計(jì)算機(jī)視覺的發(fā)展提供了有利的環(huán)境。隨著計(jì)算機(jī)視覺技術(shù)日漸成熟,企業(yè)商業(yè)化落地能力不斷提高,未來計(jì)算機(jī)視覺市場(chǎng)規(guī)模將迎來突破性發(fā)展。

iiMedia Research(艾媒咨詢)數(shù)據(jù)顯示,商湯科技以24.3%的企業(yè)知名度排名各計(jì)算機(jī)視覺企業(yè)首位,曠視科技與云從科技則分別以23.1%以及21.7%的知名度分列二三位。艾媒咨詢分析師認(rèn)為,商湯科技計(jì)算機(jī)視覺技術(shù)及算法能力在行業(yè)內(nèi)較為出色,同時(shí)在安防、金融、商業(yè)、手機(jī)端等多個(gè)領(lǐng)域均有商業(yè)落地應(yīng)用,在企業(yè)認(rèn)知和品牌推廣方面具有優(yōu)勢(shì)。

iiMedia Research(艾媒咨詢)顯示,61.7%的受訪網(wǎng)民通過手機(jī)APP應(yīng)用接觸計(jì)算機(jī)視覺應(yīng)用,另外有50.9%的受訪網(wǎng)民接觸途徑為通過智能手機(jī)終端。艾媒咨詢分析師認(rèn)為,計(jì)算機(jī)視覺企業(yè)主要服務(wù)B端用戶及政府機(jī)構(gòu),相比于其他途徑,移動(dòng)端更適合應(yīng)用計(jì)算機(jī)視覺技術(shù)的產(chǎn)品推廣。計(jì)算機(jī)視覺技術(shù)日趨成熟,在移動(dòng)終端和APP上均有落地應(yīng)用,也進(jìn)一步為計(jì)算機(jī)視覺企業(yè)在大眾中奠定基礎(chǔ)。未來企業(yè)可通過線上渠道開發(fā)挖掘C端用戶市場(chǎng)。

iiMedia Research(艾媒咨詢)顯示,半數(shù)受訪網(wǎng)民認(rèn)為智能手機(jī)及APP加入人臉識(shí)別技術(shù)功能方便了二者的使用,另有48.8%的受訪網(wǎng)民認(rèn)為人臉識(shí)別技術(shù)在手機(jī)及APP上的應(yīng)用是未來技術(shù)發(fā)展的趨勢(shì)。艾媒咨詢分析師認(rèn)為,人臉識(shí)別技術(shù)在手機(jī)及APP端的應(yīng)用滿足人們智能化和便捷化的需求,隨著越來越多的手機(jī)及APP產(chǎn)品加入人臉識(shí)別功能,未來其普及和認(rèn)可程度將得到進(jìn)一步提高。

iiMedia Research(艾媒咨詢)顯示,41.8%的受訪網(wǎng)民表示未來愿意使用人臉識(shí)別技術(shù)進(jìn)行手機(jī)及APP解鎖,同時(shí)有41.4%的受訪網(wǎng)民雖持觀望態(tài)度,但愿意嘗試。此外,47.4%的受訪網(wǎng)民認(rèn)為人臉識(shí)別將取代其他手機(jī)及APP解鎖技術(shù)成為未來主流。艾媒咨詢分析師認(rèn)為,近期智能手機(jī)紛紛應(yīng)用人臉識(shí)別技術(shù)解鎖推動(dòng)該功能技術(shù)的普及,便捷性的優(yōu)勢(shì)使該功能技術(shù)前景受看好。但目前人臉識(shí)別解鎖技術(shù)的準(zhǔn)確性仍然受到質(zhì)疑,隨著未來技術(shù)進(jìn)一步成熟,該技術(shù)有望成為智能手機(jī)設(shè)備標(biāo)配。

iiMedia Research(艾媒咨詢)顯示,33.9%的受訪網(wǎng)民曾使用過人證比對(duì)功能進(jìn)行業(yè)務(wù)辦理。在使用過該功能的人群中,54.6%認(rèn)為其方便了業(yè)務(wù)辦理,提供了效率,且有47.3%該部分人群認(rèn)為其識(shí)別準(zhǔn)確程度高。艾媒咨詢分析師認(rèn)為,政府、銀行等機(jī)構(gòu)業(yè)務(wù)辦理效率以往常遭詬病,人證識(shí)別技術(shù)的應(yīng)用提高了辦事效率,在提高人們滿意度的同時(shí),加強(qiáng)了計(jì)算機(jī)視覺技術(shù)的認(rèn)可度。未來計(jì)算機(jī)視覺技術(shù)在政府、銀行等機(jī)構(gòu)的落地應(yīng)用將進(jìn)一步擴(kuò)展,但其中涉及到個(gè)人信息保護(hù)等問題需要企業(yè)及相關(guān)機(jī)構(gòu)合力解決。

iiMedia Research(艾媒咨詢)顯示,34.1%的受訪網(wǎng)民認(rèn)為公安辦案為最有必要應(yīng)用人臉識(shí)別技術(shù)的安防情景。而關(guān)于網(wǎng)民對(duì)人臉識(shí)別技術(shù)在安防監(jiān)控領(lǐng)域應(yīng)用看法調(diào)查中,56.1%的受訪網(wǎng)民認(rèn)為其能有力保護(hù)人們?nèi)松碡?cái)產(chǎn)安全。艾媒咨詢分析師認(rèn)為,計(jì)算機(jī)視覺技術(shù),尤其是人臉識(shí)別技術(shù)在安防領(lǐng)域應(yīng)用意義重大,在刑偵破案、身份認(rèn)證、公共安全保護(hù)等情景具有重要應(yīng)用價(jià)值。未來安防領(lǐng)域?qū)⒊蔀橛?jì)算機(jī)視覺技術(shù)重點(diǎn)應(yīng)用領(lǐng)域,而安防的重要性也對(duì)相關(guān)企業(yè)技術(shù)實(shí)力有嚴(yán)格的要求,未來安防領(lǐng)域市場(chǎng)或由少數(shù)技術(shù)實(shí)力較強(qiáng)的企業(yè)占據(jù)。

商湯科技是專注計(jì)算機(jī)視覺與深度學(xué)習(xí)原創(chuàng)技術(shù)的人工智能創(chuàng)業(yè)企業(yè),擁有強(qiáng)大的技術(shù)能力和人才資源儲(chǔ)備支撐發(fā)展。商湯科技在計(jì)算機(jī)視覺領(lǐng)域綜合實(shí)力較強(qiáng),獲資本方青睞,B輪融資4.1億美元,同時(shí)與國(guó)內(nèi)外知名企業(yè)展開合作。艾媒咨詢分析師認(rèn)為,商湯科技在商業(yè)營(yíng)收上同樣處于行業(yè)領(lǐng)先水平,但其本質(zhì)專注于技術(shù)發(fā)展,強(qiáng)大的技術(shù)基礎(chǔ)能較好支撐商湯科技在上層應(yīng)用場(chǎng)景的擴(kuò)展。商湯科技在技術(shù)驅(qū)動(dòng)商業(yè)應(yīng)用的同時(shí),積累商業(yè)應(yīng)用經(jīng)驗(yàn),提高企業(yè)知名度,拓展應(yīng)用至更多領(lǐng)域。

艾媒咨詢分析師認(rèn)為,商業(yè)化落地能力欠缺是目前計(jì)算機(jī)視覺行業(yè)大部分企業(yè)的痛點(diǎn),商湯科技在商業(yè)落地應(yīng)用方面處于行業(yè)領(lǐng)先位置。這一方面源于商湯科技技術(shù)能力往專業(yè)化發(fā)展,以專業(yè)技術(shù)和研發(fā)基礎(chǔ)實(shí)現(xiàn)場(chǎng)景差異化應(yīng)用。另一方面,純計(jì)算機(jī)視覺技術(shù)或算法由于其專業(yè)性,需求方在使用時(shí)需要具備專業(yè)能力,而商湯科技技術(shù)產(chǎn)品往標(biāo)準(zhǔn)化方向打造,打包成行業(yè)解決方案,能適應(yīng)更多企業(yè)使用需求,也有利于商湯科技技術(shù)進(jìn)一步落地應(yīng)用。未來堅(jiān)持技術(shù)為基礎(chǔ),繼續(xù)提高商業(yè)落地能力,商湯科技有望繼續(xù)保持良好發(fā)展態(tài)勢(shì)。

曠視科技成立于2011年,2017年10月完成巨額C輪融資,專注于人臉識(shí)別、圖像識(shí)別和深度學(xué)習(xí)技術(shù)自主研發(fā)和商業(yè)化落地,深耕于金融安全、城市安防、商業(yè)物聯(lián)、工業(yè)機(jī)器人等領(lǐng)域,同時(shí)打造人工智能開放云平臺(tái)。艾媒咨詢分析師認(rèn)為,曠視科技利用云平臺(tái)為開發(fā)者提供技術(shù)支撐,有利于計(jì)算機(jī)視覺技術(shù)進(jìn)一步結(jié)合產(chǎn)品運(yùn)營(yíng),同時(shí)可以收集海量圖片數(shù)據(jù),通過進(jìn)行深度學(xué)習(xí),曠視科技圖像識(shí)別技術(shù)又能進(jìn)一步得到提升,有利于其強(qiáng)化自身核心技術(shù)能力。

艾媒咨詢分析師認(rèn)為,人臉識(shí)別技術(shù)對(duì)于金融行業(yè)業(yè)務(wù)辦理及風(fēng)控等流程具有重要應(yīng)用價(jià)值,曠視科技在人臉識(shí)別技術(shù)上的優(yōu)勢(shì)也助其有效開展金融領(lǐng)域的服務(wù)應(yīng)用。未來隨著曠視科技利用云開放平臺(tái)相關(guān)圖片數(shù)據(jù)進(jìn)行深度學(xué)習(xí)強(qiáng)化人臉識(shí)別技術(shù),以及在金融領(lǐng)域積累的渠道資源,其有望在金融領(lǐng)域繼續(xù)強(qiáng)化技術(shù)服務(wù),成為該領(lǐng)域市場(chǎng)有力的競(jìng)爭(zhēng)者。

艾媒咨詢分析師認(rèn)為,自動(dòng)駕駛為人工智能和汽車行業(yè)未來發(fā)展方向,計(jì)算機(jī)視覺技術(shù)在自動(dòng)駕駛汽車實(shí)現(xiàn)路況感知、高精度定位等方面發(fā)揮重要作用,自動(dòng)駕駛為計(jì)算機(jī)視覺技術(shù)未來重要應(yīng)用領(lǐng)域。圖森未來的計(jì)算機(jī)視覺技術(shù)和算法在自動(dòng)駕駛領(lǐng)域?qū)崿F(xiàn)專業(yè)化發(fā)展,未來有望在此細(xì)分領(lǐng)域成長(zhǎng)為領(lǐng)先企業(yè)。

2017-2018中國(guó)計(jì)算機(jī)視覺行業(yè)發(fā)展趨勢(shì)

需求驅(qū)使計(jì)算機(jī)視覺行業(yè)發(fā)展?jié)摿薮髴?yīng)用場(chǎng)景拓展?jié)B透各行業(yè)

艾媒咨詢分析師認(rèn)為,人們對(duì)生活安全以及生產(chǎn)效率追求兩大需求的提升,決定計(jì)算機(jī)視覺行業(yè)具有巨大發(fā)展空間。而計(jì)算機(jī)視覺技術(shù)場(chǎng)景應(yīng)用具有廣泛性,有望發(fā)展成為下一個(gè)智能時(shí)代的標(biāo)配。目前計(jì)算機(jī)視覺技術(shù)主要應(yīng)用在B端領(lǐng)域,短期內(nèi)行業(yè)發(fā)展趨勢(shì)也是集中于B端領(lǐng)域。未來隨著技術(shù)成熟,計(jì)算機(jī)視覺有望拓展更多新的應(yīng)用場(chǎng)景,實(shí)現(xiàn)場(chǎng)景落地,滲透至各行各業(yè),形成AI+,開拓更多C端業(yè)務(wù)。此外,計(jì)算機(jī)視覺技術(shù)可以跟其他技術(shù),如AR、VR、無(wú)人駕駛等結(jié)合發(fā)展,創(chuàng)造新的應(yīng)用領(lǐng)域。

技術(shù)應(yīng)用由點(diǎn)及面行業(yè)解決方案及軟硬件結(jié)合成商業(yè)產(chǎn)品出路

對(duì)于計(jì)算機(jī)視覺技術(shù)使用者來說,由于技術(shù)的學(xué)習(xí)應(yīng)用需要花費(fèi)較多時(shí)間和精力,硬件產(chǎn)品及行業(yè)解決方案往往更受青睞。未來計(jì)算機(jī)視覺企業(yè)需要將軟硬件結(jié)合,如打造嵌入式芯片等。此外,計(jì)算機(jī)視覺企業(yè)應(yīng)將技術(shù)應(yīng)用由點(diǎn)及面,將技術(shù)應(yīng)用發(fā)展成針對(duì)各行業(yè)的解決方案。未來市場(chǎng)將出現(xiàn)更多基于計(jì)算機(jī)視覺技術(shù)應(yīng)用的行業(yè)解決方案和軟硬一體化產(chǎn)品,只有打造方便用戶使用的商業(yè)產(chǎn)品,才能有效適應(yīng)其需求,幫助計(jì)算機(jī)視覺企業(yè)迅速占領(lǐng)行業(yè)市場(chǎng),在市場(chǎng)競(jìng)爭(zhēng)中取得領(lǐng)先優(yōu)勢(shì)。

計(jì)算機(jī)視覺行業(yè)發(fā)展對(duì)企業(yè)綜合實(shí)力要求高

艾媒咨詢分析師認(rèn)為,計(jì)算機(jī)視覺行業(yè)巨大的發(fā)展前景決定其具有高成長(zhǎng)性特點(diǎn),未來將涌現(xiàn)更多人工智能領(lǐng)域優(yōu)秀企業(yè)。但行業(yè)發(fā)展同時(shí)伴隨高風(fēng)險(xiǎn)性,行業(yè)競(jìng)爭(zhēng)需要比拼企業(yè)技術(shù)算法能力、資金能力、以及人才資源,同時(shí)考驗(yàn)企業(yè)能否實(shí)現(xiàn)技術(shù)迅速落地,對(duì)企業(yè)綜合實(shí)力要求高,綜合實(shí)力不具備優(yōu)勢(shì)的企業(yè)在行業(yè)內(nèi)將難以生存。

篇3

關(guān)鍵詞:計(jì)算機(jī)視覺;案例推理;圖像處理;圖像描述

中圖分類號(hào):TP391.41 文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):1009-3044(2007)04-11102-03

1 引言

基于案例推理(case-base reasoning)是人工智能中正不斷發(fā)展的一項(xiàng)重要推理技術(shù)?;诎咐评砼c類比推理方法相似,案例推理將舊經(jīng)驗(yàn)或教訓(xùn)轉(zhuǎn)換為知識(shí),出現(xiàn)新問題時(shí),首先查找以前是否有相似的案例,并用相似案例解決新問題。如果沒遇到相似案例的,經(jīng)過推理后解決新問題的方法,又會(huì)成為新的案例或新經(jīng)驗(yàn),下一次再遇到相同問題時(shí),就可以復(fù)用這些案例或經(jīng)驗(yàn)。

這與人遇到問題時(shí),首先會(huì)用經(jīng)驗(yàn)思考解決問題的方式相似,這也是解決問題較好的方法?;诎咐评響?yīng)用于工業(yè)產(chǎn)品檢測(cè)或故障診斷時(shí)具有以下特點(diǎn):

CBR智能化程度較高。利用案例中隱含的難以規(guī)則化的知識(shí),以輔助規(guī)則推理的不足,提高故障診斷系統(tǒng)的智能化程度。

CBR較好解決“知識(shí)獲取”的瓶頸。CBR知識(shí)表示以案例為基礎(chǔ),案例的獲取比規(guī)則獲取要容易,大大簡(jiǎn)化知識(shí)獲取的過。

CBR求解效率較高。是對(duì)過去的求解結(jié)果進(jìn)行復(fù)用,而不是再次從頭開始推導(dǎo),可以提高對(duì)新問題的求解效率。

CBR求解的質(zhì)量較高。CBR以過去求解成功或失敗的經(jīng)歷,可以指導(dǎo)當(dāng)前求解時(shí)該怎樣走向成功或避開失敗。

CBR持續(xù)不斷的學(xué)習(xí)能力,使得它可以適應(yīng)于將來問題的解決。

所以基于案例推理方法正不斷應(yīng)用在產(chǎn)品質(zhì)量檢測(cè)和設(shè)備故障診斷方面,并取得較好的經(jīng)濟(jì)效益。為了產(chǎn)品檢測(cè)和設(shè)備故障診斷中,更為智能化,更容易實(shí)現(xiàn)現(xiàn)場(chǎng)檢測(cè)和診斷,計(jì)算機(jī)視覺技術(shù)起到很大的作用。

計(jì)算機(jī)視覺是研究用計(jì)算機(jī)來模擬人和生物的視覺系統(tǒng)功能的技術(shù)學(xué)科,使計(jì)算機(jī)具有感知周圍視覺世界的能力。通過計(jì)算機(jī)視覺,進(jìn)行圖像的獲取預(yù)處理、圖像分割與特征抽取、識(shí)別與分類、三維信息理解、景物描述、圖像解釋,讓計(jì)算機(jī)具有對(duì)周圍世界的空間物體進(jìn)行傳感、抽象、判斷的能力,從而達(dá)到識(shí)別、理解的目的。

計(jì)算機(jī)視覺隨著科學(xué)技術(shù)發(fā)展,特別計(jì)算機(jī)技術(shù)、通信技術(shù)、圖像采集技術(shù)、傳感器技術(shù)等,以及神經(jīng)網(wǎng)絡(luò)理論、模糊數(shù)學(xué)理論、小波的分析理論等計(jì)算機(jī)視覺理論的不斷發(fā)展和日趨成熟,使計(jì)算機(jī)視覺從上世紀(jì)60年代開始興起發(fā)展到現(xiàn)在,取得快速發(fā)展,已經(jīng)從簡(jiǎn)單圖像質(zhì)量處理發(fā)展到圍繞著紋理分析、圖像編碼、圖像分割和濾波等研究。圖像的分析與處理,也由靜止轉(zhuǎn)向運(yùn)動(dòng),由二維轉(zhuǎn)向三維,并主要著眼于對(duì)圖像的識(shí)別和理解上,也使計(jì)算機(jī)視覺的應(yīng)用領(lǐng)域更為廣泛,為案例推理中運(yùn)用計(jì)算機(jī)視覺打下基礎(chǔ)。

2 案例推理系統(tǒng)的主要關(guān)鍵技術(shù)

(1)案例的表示與組織

案例的表示與組織即是如何抽取案例的特征變量,并以一定的結(jié)構(gòu)在計(jì)算機(jī)中組織存儲(chǔ)。如何將信息抽取出特征變量,選擇什么語(yǔ)言描述案例和選擇什么內(nèi)容存放在案例中,案例按什么組織結(jié)構(gòu)存放在存儲(chǔ)器中,這關(guān)系到基于案例推理方法的效率,而且對(duì)于案例數(shù)量越來越多,結(jié)構(gòu)十分復(fù)雜的案例庫(kù),尤其重要。

(2)案例的索引與檢索

案例的索引與檢索即是為了查找最佳相似案例,如何建立案例索引和相似度算法,利用檢索信息從案例庫(kù)中檢索并選擇潛在可用相似案例。后面的工作能否發(fā)揮出應(yīng)有的作用,很大程度上依賴于這一階段得到的案例質(zhì)量的高低,因此這一步非常關(guān)鍵。

(3)案例的復(fù)用和調(diào)整

案例的復(fù)用即是如何根據(jù)舊案例得出新解,涉及到找出案例與新問題之間的不同之處,案例中的哪些部分可以用于新問題,哪些部分不適合應(yīng)用于新問題的解決。而復(fù)用還分案例的結(jié)果復(fù)用,案例的求解方法復(fù)用。

(4)案例的學(xué)習(xí)

案例的學(xué)習(xí)即是將新解添加到案例庫(kù)中,擴(kuò)充案例庫(kù)的案例種類與數(shù)量,這過程也是知識(shí)獲取。此過程涉及選取哪些信息保留,以及如何把新案例有機(jī)集成到案例庫(kù)中,包括如何存儲(chǔ),如何建立索引等等。

針對(duì)案例推理的關(guān)鍵技術(shù),根據(jù)檢測(cè)和故障診斷系統(tǒng)的特點(diǎn),計(jì)算機(jī)視覺主要解決如何將產(chǎn)品圖像輸入系統(tǒng),如何將產(chǎn)品圖像特征進(jìn)行抽取和描述,如何區(qū)別產(chǎn)品不同之處。以便案例推理系統(tǒng)進(jìn)行案例建模,確立案例的表示形成和案例相似度的計(jì)算。本文主要從計(jì)算機(jī)視覺如何運(yùn)用在案例推理系統(tǒng)進(jìn)行探討。

3 產(chǎn)品輸入系統(tǒng)

產(chǎn)品輸入系統(tǒng)在不同產(chǎn)品類型和生產(chǎn)環(huán)境可能有不同之處,主要應(yīng)有傳感器單元和圖像采集單元。如圖1。

圖1 產(chǎn)品輸入系統(tǒng)結(jié)構(gòu)

傳感器單元主要判斷是否有產(chǎn)品存在,是否需要進(jìn)行圖像采集,是否繼續(xù)下一個(gè)產(chǎn)品圖像的采集。這簡(jiǎn)單傳感器可使用光電開關(guān),配合光源,當(dāng)產(chǎn)品經(jīng)過時(shí),產(chǎn)品遮擋住光源,使光電開關(guān)產(chǎn)生一個(gè)0值,而沒有產(chǎn)品經(jīng)過時(shí),光電開關(guān)產(chǎn)生相反的1值,系統(tǒng)通過判斷光電開關(guān)的值,從而判斷是否有產(chǎn)品。

圖像采集單元簡(jiǎn)單地說是將產(chǎn)品拍攝并形成數(shù)字化圖像,主要包括光源、反射鏡、CCD相機(jī)和圖像采集卡等組成。光源和反射鏡作用主要使圖像中的物體和背景之間有較大灰度。CCD相機(jī)主要是拍攝設(shè)備。圖像采集卡主要是將圖像數(shù)字化。通過傳感器判斷有產(chǎn)品后,光源發(fā)出的光均勻地照在被測(cè)件上,CCD相機(jī)拍攝,拍攝圖像經(jīng)過圖像采集卡數(shù)字化后輸入存儲(chǔ)設(shè)備。存儲(chǔ)設(shè)備即為計(jì)算機(jī)硬盤。存放原始圖像、數(shù)據(jù)、處理結(jié)果等。

這是案例推理系統(tǒng)的原始數(shù)據(jù),是圖像處理、圖像特征抽取描述的基礎(chǔ)。

4 圖像處理

在案例推理系統(tǒng)中,需要對(duì)案例的組織和案例建模,案例的組織即案例的表示,相對(duì)計(jì)算機(jī)而言,即圖像特征的抽取,即某圖像具有與其它圖像不同之處,用于區(qū)別其它圖像,具有唯一性。同時(shí),又能完整地表示該圖像。所以案例的表示要體現(xiàn)案例的完整性、唯一性、操作容易性。

圖像中有顏色區(qū)別、又有物體大小之分以及圖像由不同的物體組成。如何表示圖像,或說圖像內(nèi)部包含表示的本質(zhì),即圖像的描述。根據(jù)圖像特點(diǎn),確立圖像案例的表示,以圖像的像素、圖像的數(shù)字化外觀、圖像物體的數(shù)字組成等屬性。這需要對(duì)產(chǎn)品輸入的原始圖像進(jìn)行處理。

在計(jì)算機(jī)視覺技術(shù)中,對(duì)原始圖像主要進(jìn)行圖像增強(qiáng)、平滑、邊緣銳化、分割、特征抽取、圖像識(shí)別與理解等內(nèi)容。經(jīng)過這些處理后,輸出圖像的質(zhì)量得到相當(dāng)程度的改善,既改善了圖像的視覺效果,又便于計(jì)算機(jī)對(duì)圖像進(jìn)行分析、處理和識(shí)別。具體工作流程如圖2所示:

圖2 計(jì)算機(jī)視覺的任務(wù)與工作流程

圖像預(yù)處理是將產(chǎn)品的數(shù)字圖像輸入計(jì)算機(jī)后,首先要進(jìn)行圖像的預(yù)處理,主要完成對(duì)圖像噪聲的消除以及零件的邊緣提取。預(yù)處理的步驟為:圖像二值化處理;圖像的平滑處理;圖像的邊緣提取。

圖像二值化處理主將灰度圖形二值化的關(guān)鍵是閾值的選取,由于物體與背景有明顯的灰度差,可以選取根據(jù)灰度直方圖中兩峰之間的谷值作為閾值來分割目標(biāo)和背景。

圖像的平滑處理技術(shù)即圖像的去噪聲處理,主要是為了去除實(shí)際成像過程中因成像設(shè)備和環(huán)境所造成的圖像失真,提取有用信息。

圖像邊緣提取是為了將圖像中有意義的對(duì)象與其背景分開,并使之具有某種指定的數(shù)學(xué)或符號(hào)表達(dá)形式,使計(jì)算機(jī)能夠理解對(duì)象的具體含義,檢測(cè)出邊緣的圖像就可以進(jìn)行特征提取和形狀分析了??刹捎枚喾N算法,如采用Sobel算子提取邊緣。

圖像預(yù)處理是為下一步的特征描述打基礎(chǔ),預(yù)處理的好壞直接影響案例推理的結(jié)果和檢測(cè)診斷的效率。

特征提取是對(duì)圖像進(jìn)行描述,是案例建模關(guān)鍵,案例建模是根據(jù)案例組織要求抽取圖像特征,是建立案例索引和檢索的關(guān)鍵。如果圖像沒有特征,就談不上進(jìn)行檢索。圖像特征可通過圖像邊界、圖像分割、圖像的紋理等方法,確定圖像特征,包括是什么產(chǎn)品、產(chǎn)品形狀大小、產(chǎn)品顏色,產(chǎn)品有什么缺陷、產(chǎn)品缺陷在什么位置等特征,根據(jù)這些圖像特征進(jìn)行描述,形成計(jì)算機(jī)中屬性值,并從數(shù)據(jù)庫(kù)查找相應(yīng)信息資料,從而確定產(chǎn)品之間的關(guān)系,相似度,也就是案例推理的方向。

5 系統(tǒng)的檢索

根據(jù)案例推理原理和相應(yīng)算法,建立案例推理系統(tǒng)模型,如圖3所示。

圖3 案例推理系統(tǒng)

對(duì)話系統(tǒng):完成人機(jī)交互、問題描述、結(jié)果顯示和系統(tǒng)總控制。

案例庫(kù)系統(tǒng):由案例庫(kù)及案例庫(kù)管理系統(tǒng)組成。

數(shù)據(jù)析取系統(tǒng):對(duì)各種已有的源數(shù)據(jù)庫(kù)的數(shù)據(jù)通過轉(zhuǎn)換而形成所需的數(shù)據(jù)。

多庫(kù)協(xié)同器:根據(jù)問題求解的需要,按照一定的數(shù)據(jù)抽取策略,完成問題求解過程中對(duì)模型庫(kù)系統(tǒng)、方法庫(kù)系統(tǒng)、知識(shí)庫(kù)系統(tǒng)和數(shù)據(jù)庫(kù)系統(tǒng)等資源的調(diào)度與協(xié)調(diào)。

知識(shí)庫(kù)系統(tǒng):由產(chǎn)生式規(guī)則組成,這些知識(shí)包括專家經(jīng)驗(yàn)和以規(guī)則形式表示的有關(guān)知識(shí),也可以是數(shù)據(jù)挖掘結(jié)論,支持案例檢索、案例分析、案例調(diào)整等。 模型庫(kù)系統(tǒng):由模型庫(kù)、算法庫(kù)、模型庫(kù)管理系統(tǒng)組成。完成模型識(shí)別和調(diào)用,并把結(jié)果綜合,送入對(duì)話系統(tǒng)顯示,作為補(bǔ)充信息供案例檢索、調(diào)整使用。

數(shù)據(jù)庫(kù)系統(tǒng):存放待決策支持的所有問題,并完成其維護(hù)與查詢等功能。

由于系統(tǒng)主要應(yīng)用產(chǎn)品的現(xiàn)場(chǎng)實(shí)時(shí)檢測(cè)監(jiān)控或故障診斷,所以系統(tǒng)的檢索時(shí),也必須輸入檢索值,即輸入現(xiàn)場(chǎng)產(chǎn)品的圖像,在通過產(chǎn)品預(yù)處理、圖像的二值化、分割和邊界處理后,進(jìn)行圖像特征描述,根據(jù)圖像描述進(jìn)行分類識(shí)別。根據(jù)案例推理的算法檢索案例庫(kù)中,是否有相似的案例。即確定相似度。相似度確定主要由案例推理的算法確定,如貼近分析法。確定相似度最大作為結(jié)果,并將案例的解輸出,給相關(guān)控制系統(tǒng)進(jìn)行決策。如產(chǎn)品質(zhì)量檢測(cè),確定產(chǎn)品質(zhì)量是否合格,是否有不合格產(chǎn)品,不合格產(chǎn)品是什么原因造成,故障源是什么,如何解決和排除故障,等等。

6 結(jié)論

案例推理方法有效地解決計(jì)算機(jī)視覺技術(shù)中圖像檢索問題。對(duì)提高圖像檢索的效率和準(zhǔn)確度提供了平臺(tái)。

計(jì)算機(jī)視覺技術(shù)也為案例推理系統(tǒng)實(shí)現(xiàn)產(chǎn)品現(xiàn)場(chǎng)實(shí)時(shí)檢測(cè)、監(jiān)控、診斷提供技術(shù)支持。計(jì)算機(jī)視覺技術(shù)現(xiàn)場(chǎng)的數(shù)據(jù)采集、處理為案例推理打好基礎(chǔ)。

兩者的結(jié)合設(shè)計(jì)的系統(tǒng)適用范圍很廣,只要產(chǎn)品需要進(jìn)行質(zhì)量檢測(cè)、監(jiān)控,或設(shè)備需要進(jìn)行故障診斷和維護(hù),都可以適用。

系統(tǒng)提供的實(shí)時(shí)檢測(cè)、監(jiān)控和診斷功能,提高企業(yè)的生產(chǎn)效益,降低了生產(chǎn)成本。

參考文獻(xiàn):

[1](美)桑肯(Sonka,M).圖像處理分析與機(jī)器視覺[M].人民郵電出版社.

[2]王宏等譯.計(jì)算機(jī)視覺[M].電子工業(yè)出版社.

[3]蔡建榮.自然場(chǎng)景下成熟水果的計(jì)算機(jī)視覺識(shí)別[J].農(nóng)業(yè)機(jī)械,36(2):61-64.

[4]王宇輝.基于計(jì)算機(jī)視覺的錐體零件尺寸在線檢測(cè)算法[J].重型機(jī)械,2005,2:4-6

[5]駱志堅(jiān).基于計(jì)算機(jī)視覺檢測(cè)技術(shù)自動(dòng)計(jì)數(shù)系統(tǒng)的研究與應(yīng)用[J].儀表技術(shù)與傳感器,2005,3:41-43.

[6]左小德.貼近度分析法在案例庫(kù)推理中的應(yīng)用[J],南大學(xué)學(xué)報(bào)(自然科學(xué)版),1997,18(1):21-26.

[7]姜麗紅.案例推理在智能化預(yù)測(cè)支持系統(tǒng)中的應(yīng)用研究[J].決策與決策支持系統(tǒng),1996,6(4):63-69.

篇4

關(guān)鍵詞:計(jì)算機(jī)視覺技術(shù);C# ;;作物無(wú)損檢測(cè);軟件設(shè)計(jì)

中圖分類號(hào):TP311 文獻(xiàn)標(biāo)識(shí)碼:A 文章編號(hào):1009-3044(2013)15-3640-03

數(shù)字農(nóng)業(yè)和農(nóng)業(yè)物聯(lián)網(wǎng)技術(shù)作為現(xiàn)代農(nóng)業(yè)最前沿的發(fā)展領(lǐng)域之一,是當(dāng)今世界發(fā)展農(nóng)業(yè)信息化,實(shí)現(xiàn)農(nóng)業(yè)可持續(xù)發(fā)展的關(guān)鍵和核心技術(shù)。數(shù)字農(nóng)業(yè)要求快速、實(shí)時(shí)、準(zhǔn)確和定位化的獲取植物生長(zhǎng)信息,而農(nóng)業(yè)物聯(lián)網(wǎng)技術(shù)要求植物信息可實(shí)時(shí)動(dòng)態(tài)感知,顯然,傳統(tǒng)的實(shí)驗(yàn)室測(cè)量分析和信息獲取方法已經(jīng)不能滿足數(shù)字農(nóng)業(yè)和農(nóng)業(yè)物聯(lián)網(wǎng)技術(shù)的發(fā)展要求。因此,研究和開發(fā)植物生命信息快速無(wú)損檢測(cè)技術(shù)和傳感儀器等軟硬件平臺(tái)已經(jīng)成為現(xiàn)代農(nóng)業(yè)承待解決的關(guān)鍵問題[1]。

目前,國(guó)內(nèi)在作物無(wú)損檢測(cè)方面的研究?jī)x器主要是依賴進(jìn)口,而相應(yīng)的軟件也是伴隨著儀器而購(gòu)買。此類軟件,一般價(jià)格昂貴,而且在自主研究平臺(tái)中,因?yàn)闊o(wú)法取得源代碼而無(wú)法使用或升級(jí),從而出現(xiàn)研究瓶頸。在各類無(wú)損化檢測(cè)技術(shù)中,隨著計(jì)算機(jī)視覺技術(shù)越來越廣泛的應(yīng)用,對(duì)應(yīng)的軟件系統(tǒng)的開發(fā)迫在眉睫[2]。

正是基于這樣的背景,我們通過對(duì)目前應(yīng)用比較廣泛的C#進(jìn)行研究,利用C#強(qiáng)大的數(shù)據(jù)處理能力和良好的用戶界面開發(fā),并結(jié)合強(qiáng)大的圖像處理能力,進(jìn)行作物實(shí)時(shí)檢測(cè)軟件平臺(tái)的自主設(shè)計(jì)與開發(fā)。

1 計(jì)算機(jī)視覺技術(shù)簡(jiǎn)介

計(jì)算機(jī)視覺也稱機(jī)器視覺,是采用攝像機(jī)或者數(shù)碼相機(jī)將被檢測(cè)圖像轉(zhuǎn)化為數(shù)字信號(hào),再采用先進(jìn)的計(jì)算機(jī)軟件技術(shù)對(duì)圖像信號(hào)進(jìn)行處理,從而得到所需要的各種目標(biāo)圖像特征值。并由此實(shí)現(xiàn)模式識(shí)別,坐標(biāo)計(jì)算等功能。然后再根據(jù)其結(jié)果輸出數(shù)據(jù),發(fā)出指令,再配合執(zhí)行機(jī)構(gòu)完成好壞篩選,位置調(diào)整,數(shù)據(jù)統(tǒng)計(jì)等自動(dòng)化流程。與人工視覺相比較,計(jì)算機(jī)視覺的最大的優(yōu)點(diǎn)是快速、精確、可靠,以及數(shù)字化。

隨著數(shù)字農(nóng)業(yè)和農(nóng)業(yè)物聯(lián)網(wǎng)技術(shù)的發(fā)展,計(jì)算機(jī)視覺技術(shù)將越來越廣泛的應(yīng)用于農(nóng)業(yè)生產(chǎn)中,而構(gòu)成計(jì)算機(jī)視覺系統(tǒng)的軟件系統(tǒng)是整個(gè)計(jì)算機(jī)視覺系統(tǒng)的靈魂。隨著硬件技術(shù)的不斷發(fā)展完善,計(jì)算機(jī)視覺系統(tǒng)其功能是否強(qiáng)大,可以說完全取決于軟件系統(tǒng)的能力。

2 軟件系統(tǒng)設(shè)計(jì)

2.1 C#與

C#是由微軟公司開發(fā)的一種面向?qū)ο蟮男滦途幊陶Z(yǔ)言,它是從C和C++ 中派生出來的,保留了C/C++原有的強(qiáng)大功能,并且繼承了C/C++的靈活性。同時(shí)由于是MicroSoft公司的產(chǎn)品,它又同Visual Basic一樣具有簡(jiǎn)單的語(yǔ)法結(jié)構(gòu)和高效的開發(fā)能力,可以使程序員快速的編寫出基于.NET平臺(tái)的應(yīng)用程序。

一個(gè)基于C#框架,專門為C#開發(fā)者和研究者設(shè)計(jì)和開發(fā)的,這個(gè)框架提供了豐富的類庫(kù)資源,包括圖像處理,神經(jīng)網(wǎng)絡(luò),模糊系統(tǒng),遺傳算法,人工智能和機(jī)器人控制等領(lǐng)域。該框架架構(gòu)合理,易于擴(kuò)展,涉及多個(gè)較前沿的技術(shù)模塊,為相關(guān)開發(fā)人員或科研人員的工作提供了極大的便利。本系統(tǒng)就是采用C#程序設(shè)計(jì)語(yǔ)言,通過調(diào)用該框架來實(shí)現(xiàn)作物無(wú)損檢查系統(tǒng)的開發(fā)。

2.2 系統(tǒng)設(shè)計(jì)與實(shí)現(xiàn)

本軟件系統(tǒng)是在數(shù)碼相機(jī)拍攝的作物圖像的基礎(chǔ)上,采用圖像處理方法進(jìn)行特征提取與分析,從而實(shí)現(xiàn)作物的無(wú)損檢測(cè)。主要分為圖像輸入,圖像預(yù)處理,特征提取,特征分析幾個(gè)模塊。

1) 圖像輸入

將要分析處理的圖像讀取到系統(tǒng)中來,為后面圖像處理作準(zhǔn)備。C#提供了三個(gè)最重要的圖像處理類,即Bitmap類、BitmapData類和Graphics類。三種圖像處理的方法,即提取像素法、內(nèi)存法和指針法。從執(zhí)行效率和實(shí)現(xiàn)難度綜合考慮,本系統(tǒng)的開發(fā)采用內(nèi)存法。

2) 圖像預(yù)處理

圖像預(yù)處理主要包括圖像的大小調(diào)整,形態(tài)矯正,平滑和去噪等,以降低環(huán)境對(duì)拍攝照片造成的不利影響。提供了多個(gè)類,可以對(duì)圖像進(jìn)行平滑去噪等操作,本系統(tǒng)中采用了中值濾波算方法,對(duì)應(yīng)中的Median類。

3) 特征提取

特征提取分析,是整個(gè)系統(tǒng)的核心所在,需要選取合適的圖像分割算法,對(duì)圖像進(jìn)行處理,提取目標(biāo)區(qū)域,為特征分析作準(zhǔn)備。在本系統(tǒng)中采用了閾值分割技術(shù),因?yàn)檫@種算法相對(duì)來說比較直接并且易于實(shí)現(xiàn)。

采用閾值分割技術(shù),首先,必需確定一個(gè)閾值作為圖像分割的閾值,在本系統(tǒng)中,采用自適應(yīng)閾值法,由用戶在軟件的操作過程中進(jìn)行設(shè)定,并且可以根據(jù)需要進(jìn)行調(diào)整。然后,根據(jù)這個(gè)閾值對(duì)圖像進(jìn)行分割,并將其轉(zhuǎn)化為二值圖,如圖(b)所示。從圖中我們可以看到二值圖像中存在大量的小孔,這種太小的孔洞對(duì)我們進(jìn)行圖像分析沒有實(shí)際意義,并且會(huì)干擾結(jié)果的正確性,因此我們需要采用腐蝕和膨脹的形態(tài)學(xué)方法來進(jìn)行填充孔洞,結(jié)果如圖(C)所示。最后,我們需要根據(jù)需要提取目標(biāo)區(qū),涉及到連通區(qū)域的提取問題。最后,輸出結(jié)果。

4) 特征分析

對(duì)圖像分割結(jié)果進(jìn)行分析,用于指導(dǎo)生產(chǎn)實(shí)踐。我們可以對(duì)通過圖像處理得到的目標(biāo)區(qū)域進(jìn)行分析,比如可以根據(jù)葉片顏色的變化判斷葉綠素含量,進(jìn)而推算出作物的營(yíng)養(yǎng)狀況,根據(jù)色素區(qū)域的大小計(jì)算出葉面積,根據(jù)不同區(qū)域的形狀、大小判斷病蟲害等。

3 實(shí)驗(yàn)結(jié)果及分析

軟件運(yùn)行后主界面如圖3所示。

為驗(yàn)證本系統(tǒng)的有效性,我們通過設(shè)定不同的閾值進(jìn)行圖像分割,并跟photoshop cs4軟件中魔棒的工具作對(duì)比,來提取圖片中的目標(biāo)區(qū)域。測(cè)試圖片大小為800px×610px,取特征點(diǎn)坐標(biāo)P(310,70),該點(diǎn)的RGB值為(29,92,0),獲取目標(biāo)區(qū)域的總像素和綠色分量平均值,數(shù)據(jù)如表1所示。

從上述表中我們可以看出,本軟件在圖像處理目標(biāo)區(qū)域的提取方面,提取到的目標(biāo)區(qū)域較photoshop 提取的小,綠色分量平均值較photoshop更接近特征點(diǎn)數(shù)值,由此看出用本軟件做圖像分割準(zhǔn)確性更高。

4 結(jié)束語(yǔ)與展望

計(jì)算機(jī)視覺具有非破壞性、快速、高效、信息量大等特點(diǎn),目前已在主要的農(nóng)作物和經(jīng)濟(jì)作物的養(yǎng)分診斷,植物病蟲害的快速檢測(cè)及預(yù)警預(yù)報(bào)等方面有了廣泛應(yīng)用,取得了較好的效果。隨著計(jì)算機(jī)視覺技術(shù)和圖像處理技術(shù)的發(fā)展,計(jì)算機(jī)視覺技術(shù)將更多的應(yīng)用于植物長(zhǎng)勢(shì)預(yù)測(cè)、產(chǎn)量估計(jì)等方面。

通過本次研究,開發(fā)了一個(gè)交互界面良好的色素分量檢測(cè)系統(tǒng),能對(duì)圖像在RGB分量上實(shí)現(xiàn)閾值分割,并實(shí)現(xiàn)目標(biāo)區(qū)域的獲取分析。該文主要提倡一種軟件開發(fā)的理念,所設(shè)計(jì)開發(fā)的軟件的針對(duì)性較強(qiáng),還存在著很多的局限和不足,要作為計(jì)算機(jī)視覺類的通用軟件,系統(tǒng)的穩(wěn)定性和功能都還有待進(jìn)一步提升。

參考文獻(xiàn):

[1] 劉飛.基于光譜和多光譜成像技術(shù)的油菜生命信息快速無(wú)損檢查機(jī)理和方法研究[D].浙江:浙江大學(xué)博士學(xué)位論文,2011.

[2] 朱哲燕,陳紅.基于MATLAB的作物信息光譜分析平臺(tái)的設(shè)計(jì)與開發(fā)[J].科技資訊,2012(16).

[3] 蔣麗華.基于計(jì)算機(jī)視覺技術(shù)的葉綠素含量檢測(cè)系統(tǒng)[D].蘇州:蘇州大學(xué)碩士學(xué)位論文,2009.

[4] 趙春江.C#數(shù)字圖像處理算法典型實(shí)例[M].北京:人民郵電出版社,2009.

[5] 何勇,劉飛,聶鵬程. 數(shù)字農(nóng)業(yè)與農(nóng)業(yè)物聯(lián)網(wǎng)技術(shù)[J].農(nóng)機(jī)論壇,2012(1).

[6] 張起麗.基于數(shù)學(xué)形態(tài)學(xué)的彩色圖像處理研究[D].西安:西北大學(xué)碩士學(xué)位論文,2009

[7] 冀高.基于數(shù)字圖像處理的棉花群體特征提取[D].北京:北京郵電大學(xué)碩士學(xué)位論文,2007.

篇5

在用常見的手勢(shì)進(jìn)行交流時(shí),人們很容易就能互相理解,在經(jīng)過學(xué)習(xí)之后,聾啞人或是正常人都可以運(yùn)用手語(yǔ)進(jìn)行交流。不過,想象一下,當(dāng)你對(duì)計(jì)算機(jī)(或機(jī)器)做一個(gè)手勢(shì),它就能領(lǐng)會(huì)你的意圖會(huì)是怎樣的情景呢?如果計(jì)算機(jī)(或機(jī)器)看得懂手語(yǔ),又意味著什么呢?姑且不管實(shí)現(xiàn)這樣的人機(jī)交流有何深遠(yuǎn)的意義,還是先讓我們來探究一下這樣的可行性吧,想想看得懂手語(yǔ)的計(jì)算機(jī)(或機(jī)器)能有什么用途。

人機(jī)交互:從呆板到員活

人類之間的交流往往聲情并茂,既采用自然語(yǔ)言(口語(yǔ)、書面語(yǔ)言),還廣泛采用人體語(yǔ)言(表情、體勢(shì)、手勢(shì))。與人類之間的交流相比,人機(jī)交互就顯得呆板多了。以計(jì)算機(jī)的輸入方式為例,人要向計(jì)算機(jī)下達(dá)指令,最常見的方式還是通過鍵盤輸入。當(dāng)然,手寫輸入也正為許多人所接受和喜愛,語(yǔ)音輸入的研究也進(jìn)行得熱火朝天,最初單一而呆板的輸入方式已經(jīng)得到了擴(kuò)展。然而,科學(xué)研究是永無(wú)止境的,人體語(yǔ)言這種簡(jiǎn)單快捷的信息交流方式得到了很多研究者的關(guān)注,他們想,能不能把這種靈活的信息交流方式也引進(jìn)人機(jī)交互中呢?

于是研究人員展開了對(duì)人體語(yǔ)言理解的研究。人體語(yǔ)言的感知、人體語(yǔ)言與自然語(yǔ)言的信息融合對(duì)提高計(jì)算機(jī)的人類語(yǔ)言理解水平,加強(qiáng)人機(jī)接口的可實(shí)用性有著積極的意義。手語(yǔ)(手勢(shì))是人體語(yǔ)言的一個(gè)非常重要的組成部分,它是包含信息量最多的一種人體語(yǔ)言,它與語(yǔ)言、書面語(yǔ)等自然語(yǔ)言的表達(dá)能力相同。因而完全可以把手語(yǔ)作為人機(jī)交互的一種手段,它具有很強(qiáng)的視覺效果,生動(dòng)、形象、直觀。可見,將手勢(shì)運(yùn)用于計(jì)算機(jī)能夠很好地改善人機(jī)交互的效率。

計(jì)算機(jī)怎樣識(shí)別手勢(shì)?

從不同的角度可以對(duì)手勢(shì)進(jìn)行不同的分類。分為交互性手勢(shì)和操作性手勢(shì),前者手的運(yùn)動(dòng)表示特定的信息(如樂隊(duì)指揮),靠視覺來感知,后者不表達(dá)任何信息(如彈琴);分為自主性手勢(shì)和非自主性手勢(shì),后者需要與語(yǔ)音配合用來加強(qiáng)或補(bǔ)充某些信息(如演講者用手勢(shì)描述動(dòng)作、空間結(jié)構(gòu)等信息),分為離心手勢(shì)和向心手勢(shì),前者直接針對(duì)說話人,有明確的交流意圖,后者只是反應(yīng)說話人的情緒和內(nèi)心的愿望。

手勢(shì)的各種組合、運(yùn)動(dòng)相當(dāng)復(fù)雜,不過簡(jiǎn)單來看,手勢(shì)主要有如下的特點(diǎn):手是彈性物體,因此同一手勢(shì)之間差別很大,手有大量冗余信息,由于人識(shí)別手勢(shì)關(guān)鍵是識(shí)別手指特征,因此手掌特征是冗余的信息:手的位置是在三維空間,很難定位:手的表面是,非平滑的,容易產(chǎn)生陰影。

了解了手勢(shì)的這些特點(diǎn),就可以在手勢(shì)研究中對(duì)手勢(shì)做適當(dāng)?shù)姆指?、假設(shè)和約束。例如,可以給出如下約束:如果整個(gè)手處于運(yùn)動(dòng)狀態(tài),那么手指的運(yùn)動(dòng)和狀態(tài)就不重要,如果手勢(shì)主要由各手指之間的相對(duì)運(yùn)動(dòng)構(gòu)成,那么手就應(yīng)該處于靜止?fàn)顟B(tài)。比如鼠標(biāo)和筆式交互設(shè)備就是通過識(shí)別手的整體運(yùn)動(dòng)來完成人與計(jì)算機(jī)的交互,但它們不能識(shí)別手指的動(dòng)作,其優(yōu)點(diǎn)是僅利用軟件算法就能實(shí)現(xiàn),適合于一般桌面系統(tǒng)。只有當(dāng)用鼠標(biāo)或筆式交互設(shè)備的運(yùn)動(dòng)或方向變化來傳達(dá)信息時(shí),才可將鼠標(biāo)或筆式交互設(shè)備看作手勢(shì)表達(dá)工具。筆式交互設(shè)備發(fā)展很快,它提供了充分的交互信息,如壓力、方向、旋轉(zhuǎn)和位置信息,但現(xiàn)有交互主要是簡(jiǎn)單地替代鼠標(biāo)。

計(jì)算機(jī)識(shí)別手勢(shì)的手段主要有兩種:

1.?dāng)?shù)據(jù)手套。數(shù)據(jù)手套是虛擬現(xiàn)實(shí)系統(tǒng)中廣泛使用的傳感設(shè)備,用戶通過數(shù)據(jù)手套,能做出各種手勢(shì)向系統(tǒng)發(fā)出命令,與虛擬世界進(jìn)行各種交互操作:比如通過一只與數(shù)據(jù)手套對(duì)應(yīng)的在計(jì)算機(jī)屏幕上顯示的虛擬手,使用戶成為虛擬世界中的一員:抓取物體,如果手套有力反饋,還能讓用戶感覺到物體的重量和材質(zhì)等。美國(guó)在“洞穴”虛擬系統(tǒng)中就是利用數(shù)據(jù)手套來研制武器。數(shù)據(jù)手套的主要優(yōu)點(diǎn)是可以測(cè)定手指的姿勢(shì)和手勢(shì),但是相對(duì)而言代價(jià)較為昂貴,并且有時(shí)會(huì)給用戶帶來不便(如出汗)。

2.計(jì)算機(jī)視覺。即利用攝像機(jī)輸人手勢(shì),其優(yōu)點(diǎn)是不干擾用戶,這是一種很有前途的技術(shù),目前有許多研究者致力于此項(xiàng)工作。但在技術(shù)上存在很多困難,目前的計(jì)算機(jī)視覺技術(shù)還難以勝任手勢(shì)識(shí)別和理解的任務(wù)。

目前較為實(shí)用的手勢(shì)識(shí)別是基于數(shù)據(jù)手套的,因?yàn)閿?shù)據(jù)手套不僅可以輸入包括三維空間運(yùn)動(dòng)在內(nèi)的較為全面的手勢(shì)信息,而且比基于計(jì)算機(jī)視覺的手勢(shì)在技術(shù)上要容易得多。

更好地為人服務(wù)

日本三菱電子研究實(shí)驗(yàn)室的研究人員已經(jīng)使用低成本的視覺系統(tǒng),通過手勢(shì)就可以控制一臺(tái)電視機(jī)。由計(jì)算機(jī)控制的美國(guó)航空航天局虛擬太空站也是采用美國(guó)Cybernet公司開發(fā)的手語(yǔ)識(shí)別軟件,通過一部架設(shè)在頂部的攝像機(jī)來追蹤指揮者的手勢(shì)。當(dāng)系統(tǒng)捕捉到揮手等手勢(shì)時(shí),就會(huì)做出相應(yīng)的反應(yīng),讓指揮者像航天員一樣在計(jì)算機(jī)虛擬的阿爾法國(guó)際太空站上移動(dòng)(確切地說是飄動(dòng))。

Cybemet公司的軟件還能識(shí)別一系列的特定手勢(shì),就像工地上的工人或交通警察經(jīng)常用的那種手語(yǔ),通過這些手勢(shì)你能夠旋轉(zhuǎn)在虛擬旅行中看到的三維圖像,還可以向上或是向下改變你的視角。美國(guó)航空航天局正在考慮把這套系統(tǒng)用于真正的太空站,因?yàn)楸恐氐暮教旆臀⒅亓Νh(huán)境使得鼠標(biāo)和鍵盤都變得難以操縱。也許不久之后,航天員就能用簡(jiǎn)單的手語(yǔ)來控制機(jī)器人在太空中抓取物體。

手語(yǔ)(手勢(shì))識(shí)別系統(tǒng)的研究還有助于改善和提高聾啞人的生活學(xué)習(xí)和工作條件,為他們提供更好的服務(wù)。同時(shí)也可以應(yīng)用于計(jì)算機(jī)輔助啞語(yǔ)教學(xué)、電視節(jié)目雙語(yǔ)播放、虛擬人的研究、電影制作中的特技處理、動(dòng)畫的制作、醫(yī)療研究、游戲娛樂等諸多方面。另外,手語(yǔ)識(shí)別系統(tǒng)的研究涉及到教學(xué)、計(jì)算機(jī)圖形學(xué)、機(jī)器人運(yùn)動(dòng)學(xué)、醫(yī)學(xué)等多學(xué)科。因此,手語(yǔ)識(shí)別系統(tǒng)的研究非常有意義。

篇6

鼠標(biāo)、鍵盤、遙控器和觸摸屏,主導(dǎo)著當(dāng)前人類與電子產(chǎn)品溝通的界面,無(wú)論電腦、電視、冰箱還是手機(jī),都因?yàn)樗鼈兊拇嬖诙@得更加弱智與呆板。也許不久之后,我們就可以拋開它們,更加直接地與機(jī)器對(duì)話,不是用語(yǔ)言,而是用動(dòng)作。

3月中旬,海爾展示了一款具備智能化手勢(shì)識(shí)別能力的空調(diào)?!芭e起手,你就擁有了控制權(quán)。如果你想開機(jī),就快速握拳并松開;想調(diào)節(jié)溫度,每向左揮一下手,空調(diào)設(shè)置溫度就降低一度;每向右揮一下手,空調(diào)設(shè)置溫度就升高一度……”海爾工作人員如此介紹。其實(shí)現(xiàn)原理是通過配備的攝像頭獲取、識(shí)別用戶的動(dòng)作,并轉(zhuǎn)換成控制信息發(fā)送給空調(diào)的控制板,從而實(shí)現(xiàn)控制功能。

這實(shí)際上是一種相對(duì)初級(jí),但已經(jīng)完全可以實(shí)現(xiàn)商業(yè)化的手勢(shì)控制技術(shù),更高級(jí)的技術(shù)還在不斷推出之中,從微軟到英特爾,從美國(guó)德州儀器到日本索尼、富士通,都是其中熱情的推動(dòng)者。誰(shuí)知道呢?也許在不久的將來,我們就可以通過自己在電視機(jī)前的動(dòng)作,直接參與到正在熒屏上播放的電視劇表演當(dāng)中。

從游戲機(jī)到手機(jī)

手勢(shì)控制,有時(shí)也被稱為體感操控,提到這一技術(shù),人們往往會(huì)首先想到微軟在其Xbox上采用的Kinect技術(shù)。該技術(shù)在2010年6月推出,借助一個(gè)3D攝像頭和手勢(shì)識(shí)別軟件,讓人們利用身體的自然活動(dòng)玩游戲,從而取代原始的搖柄。就在今年3月中旬,微軟宣布,為Windows版Kinect SDK開發(fā)套件進(jìn)行了兩年多來最大的一次更新,主要針對(duì)“KinectInterations”手勢(shì)識(shí)別和“Kinect Fusion”實(shí)時(shí)3D建模兩個(gè)方面。據(jù)了解,本次重點(diǎn)推出的手勢(shì)識(shí)別功能將包括“推按按鈕、抓取拖拽,并且支持以更為智能的方式容納多用戶及2人互動(dòng)”。而微軟希望通過開發(fā)套件的更新,吸引開發(fā)者創(chuàng)造出更多好玩的東西。

其實(shí)不只是游戲機(jī),手勢(shì)控制可以改變很多產(chǎn)品。通信和IT圈對(duì)新的接口尤其感興趣。

就在微軟推出了它的體感技術(shù)Kinect的那一年,比利時(shí)公司In3Depth獲得了來自比利時(shí)電信和一家風(fēng)險(xiǎn)投資公司的一筆800萬(wàn)歐元的投資,用于開發(fā)應(yīng)用于通信產(chǎn)品的手勢(shì)技術(shù)。In3Depth旗下有一家子公司――Optrima,致力于研究手勢(shì)感應(yīng)3D相機(jī)技術(shù),其中一個(gè)產(chǎn)品OptriCam,是基于深度感應(yīng)技術(shù)(DepthSense)的圖像傳感器,以及應(yīng)用了其他一系列專利技術(shù)的三維TOF成像器。

比利時(shí)還有一家開發(fā)手勢(shì)識(shí)別技術(shù)的公司Softkinetic,其CEO邁克爾?湯姆布羅夫認(rèn)為,他們的產(chǎn)品可能將是一種“瓦解智能手機(jī)觸摸屏的玩意兒”。

就在一個(gè)多月前,黑莓公司申請(qǐng)了一項(xiàng)最新專利,其申請(qǐng)文件顯示,該公司擬通過紅外線技術(shù)捕捉手勢(shì)動(dòng)作,在手指不接觸設(shè)備屏幕的情況下,完成對(duì)圖片的選擇及編輯。黑莓將此項(xiàng)專利描述為“一種移動(dòng)通信設(shè)備,包括數(shù)碼相機(jī)和移動(dòng)電話的子系統(tǒng)。”如果近況不佳的黑莓公司能夠堅(jiān)持到2014年,它的新產(chǎn)品中就將有這種功能。

而高通公司從去年就開始大力推銷其Snapdragon芯片處理器的視覺手勢(shì)識(shí)別技術(shù)。韓國(guó)做智能手機(jī)代工的泛泰公司已經(jīng)在去年開始銷售其具備這一功能的VegaLTE手機(jī)。

市場(chǎng)研究機(jī)構(gòu)ABIResearch公布的一項(xiàng)最新研究預(yù)測(cè),到2017年,具有視覺手勢(shì)識(shí)別功能的智能手機(jī)出貨量將達(dá)6億部。

爭(zhēng)先恐后

目前看來,幾乎所有的電子電器巨頭都對(duì)手勢(shì)控制投入了巨大力量進(jìn)行研發(fā),未來可能出現(xiàn)的產(chǎn)品也是五花八門。

在今年1月的2013年國(guó)際消費(fèi)電子產(chǎn)品展(CES)上,德州儀器(TI)展示了其與Softkinetic合作推出的芯片組。TI 芯片組內(nèi)置在 3D 攝像機(jī)中,可跟蹤手指、手掌甚至全身的動(dòng)作,只需揮手就可控制筆記本電腦及智能電視,從而對(duì)電影、游戲以及其他內(nèi)容進(jìn)行訪問和導(dǎo)航。此外,采用了TI芯片的電視機(jī),也可以將來自用戶界面的高清圖像納入電視影像當(dāng)中。

今年2月,英特爾也與Softkinetic合作推出了一項(xiàng)新的廣告技術(shù),能夠針對(duì)不同用戶展示廣告,通過全視角監(jiān)視器與用戶建立連接后,就能立刻判斷用戶性別與大致年齡,進(jìn)而提供個(gè)性化信息。例如:用戶為20歲左右的年輕女性,設(shè)備就會(huì)顯示附近的商場(chǎng)和服飾商店;而用戶為60歲左右老年男性時(shí),設(shè)備則會(huì)顯示附近的雪茄店等。英特爾公司將會(huì)利用這一技術(shù)制造出一種小型設(shè)備,這樣消費(fèi)者就可以將其安裝到任何一款設(shè)備中進(jìn)行使用。英特爾預(yù)計(jì)這一產(chǎn)品將會(huì)在今年下半年問世,并且還會(huì)捆綁到現(xiàn)有的SDK中。

與此同時(shí),英特爾公司還聯(lián)合Nuance等多家公司推出了全新的計(jì)算機(jī)語(yǔ)音、手勢(shì)以及面部識(shí)別方式。在英特爾的一次公開展示中,可以看到使用者能夠隔空操控著屏幕中的管子,英特爾將這一技術(shù)稱之為“感知計(jì)算”。

在今年2月的MWC2013(世界移動(dòng)通信大會(huì))上,富士通公司還向人們展示了另一種更具未來色彩的虛擬鍵盤技術(shù)――手勢(shì)鍵盤。通過隔空進(jìn)行的手勢(shì)操作,就能完成電腦輸入。目前,富士通已經(jīng)計(jì)劃在未來自家的平板或手機(jī)產(chǎn)品中內(nèi)置這種輸入技術(shù)。相對(duì)于激光投影鍵盤,手勢(shì)鍵盤擁有更低的硬件開發(fā)成本,以及更長(zhǎng)的續(xù)航時(shí)間。

計(jì)算機(jī)視覺

無(wú)論名稱是叫“手勢(shì)控制”、“體感操作”,還是叫“感知計(jì)算”,其實(shí)都是脫胎于同一項(xiàng)技術(shù)的發(fā)展成果―計(jì)算機(jī)視覺。

作為一門工程學(xué)科,計(jì)算機(jī)視覺研究相關(guān)的理論和技術(shù),試圖建立能夠從圖像或者多維數(shù)據(jù)中獲取“信息”的人工智能系統(tǒng)。這類系統(tǒng)的組成部分包括:程序控制、事件監(jiān)測(cè)、信息組織、物體與環(huán)境建模、交感互動(dòng)等。為實(shí)現(xiàn)這一技術(shù),人們需要用軟件和硬件為三維空間內(nèi)的生物行動(dòng)與計(jì)算機(jī)處理能力之間建立聯(lián)系。

這種聯(lián)系一般是通過多個(gè)光學(xué)或紅外傳感器來完成的,3D傳感器可以感應(yīng)空間三個(gè)軸向上的加速度變化,捕捉空間坐標(biāo),實(shí)現(xiàn)精確瞄準(zhǔn)功能。以英特爾的產(chǎn)品為例,在展示中,使用一個(gè)USB接口的雙攝像頭設(shè)備,鏡頭進(jìn)行面孔識(shí)別、麥克風(fēng)用來進(jìn)行聲音控制,另外這個(gè)設(shè)備還可以識(shí)別三維空間的手勢(shì),進(jìn)行更精細(xì)準(zhǔn)確的控制和互動(dòng)。

有時(shí)候,利用這樣的攝像頭,人物的背景也可以“摳掉”,可以被虛擬場(chǎng)景所取代。在MWC2013展會(huì)上,意法愛立信就展示了這樣一種手機(jī)芯片,將裝有該芯片的手機(jī)攝像頭對(duì)著一個(gè)古城模型,然后就可在手機(jī)上以古城為背景玩起3D游戲,比如在古城里面玩賽車,或是開直升機(jī)等。

新的衍生

沿著與計(jì)算機(jī)視覺的3D感知相反的思維軌跡,許多機(jī)構(gòu)也在研究著3D重現(xiàn)――即全息電視――的技術(shù)實(shí)現(xiàn)方法,并取得了一定的成果。

一個(gè)總部位于比利時(shí)魯汶的微電子研究中心內(nèi),科學(xué)家們就在研究如何制造移動(dòng)的像素。他們將激光照射到微電子機(jī)械系統(tǒng)平臺(tái)上,建立起全息顯示器,這種平臺(tái)可以像小型的反射活塞一樣上下左右移動(dòng),從而實(shí)現(xiàn)移動(dòng)像素的效果。微電子研究中心的科學(xué)家聲稱:“全息視覺可以為眾多觀眾提供自然的3D體驗(yàn),而不會(huì)有如今的3D立體視覺所帶來的各種令人不快的副作用,如麻煩的3D眼鏡、眼睛疲勞和精神緊張等。”

在這套微系統(tǒng)中,二氧化硅呈一塊塊正方形的補(bǔ)丁鑲嵌于芯片上,形成了一種西洋跳棋盤式的圖案。然后,芯片上層再鍍上一層反射性鋁膜。當(dāng)激光照射到芯片上時(shí),芯片會(huì)將臨近像素的反射光呈某種角度反射出去。衍射的光線呈建設(shè)性或破壞性地相互干涉,從而形成了一幅3D圖像。如果小型的反射平臺(tái)每秒鐘數(shù)次上下左右快速移動(dòng),就會(huì)形成一個(gè)移動(dòng)的投影。

而麻省理工的羅伯特?王(Robert Wang)和其教授則在2011年展示過另一個(gè)成果,通過一個(gè)彩色手套配上一個(gè)攝像頭,不僅能夠?qū)崿F(xiàn)2D操作,還能夠?qū)崿F(xiàn)復(fù)雜的3D建筑模型構(gòu)造。

也許在不久的將來,能夠讓我們參與其中的全息立體電視就會(huì)出現(xiàn)在現(xiàn)實(shí)生活中。

商業(yè)化挑戰(zhàn)

然而,盡管研究成果頗豐,計(jì)算機(jī)視覺方面的許多研究成果在實(shí)際商用中還有著巨大的難題。以手勢(shì)控制為例,盡管其初步形態(tài)已經(jīng)正式商用將近三年了,但除了在游戲領(lǐng)域外,在其他領(lǐng)域鮮有成功產(chǎn)品。人機(jī)互動(dòng)的復(fù)雜性是其主要瓶頸。

首先,無(wú)論何種方式實(shí)現(xiàn)動(dòng)作捕捉,都離不開三維傳感器,傳感器若缺乏實(shí)時(shí)跟蹤技術(shù),就會(huì)靈敏度不佳,導(dǎo)致反應(yīng)遲緩;另外在不利的光線條件下,該技術(shù)能夠?qū)崿F(xiàn)的效果受限,體積和高功耗問題也使其很難作用到手機(jī)等便攜設(shè)備中。

其次,鼠標(biāo)鍵盤等的操作也有其優(yōu)勢(shì),有游戲用戶就曾向微軟反饋:“當(dāng)我用鼠標(biāo)玩一個(gè)游戲,比如《死亡空間》或者《極品飛車》,經(jīng)常不知不覺就會(huì)玩上三四個(gè)小時(shí)。但是體感游戲,我恐怕堅(jiān)持不了那么長(zhǎng)時(shí)間。”這就導(dǎo)致許多用戶并不愿意放棄鼠標(biāo)鍵盤。

篇7

關(guān)鍵詞:計(jì)算機(jī)視覺;移動(dòng)機(jī)器人;路徑識(shí)別;自主導(dǎo)航

中圖分類號(hào):TP24262文獻(xiàn)標(biāo)識(shí)碼:B

文章編號(hào):1004-373X(2008)08-165-03オ

Navigation of Mobile Robot Based on Computer Vision

ZHAO Yu,ZHONG Lanxiang,ZHANG Wanxu

(Information Science & Technology College,Northwest University,Xi′an,710069,China)オ

Abstract:Mobile robot navigation using path following has several weaknesses such as weak flexibility,high cost of maintenance and single function.Considering those disadvantages computer vision is proposed in mobile robot navigation using path recognition.First,the image obtained by vision sensor is processed in order to get the useful target,then the robot can comprehend the current path environment,second,the robot is controlled by the different movement module of straight or turning according to the results in the first step.The experimental results demonstrated the effective and robustness of the system.

Keywords:computer vision;mobile robot;path recognition;autonomous navigation

現(xiàn)代機(jī)器人技術(shù)在人工智能、計(jì)算機(jī)技術(shù)和傳感器技術(shù)的推動(dòng)下獲得了飛速發(fā)展,其中移動(dòng)機(jī)器人因具有可移動(dòng)性和自治能力,能適應(yīng)環(huán)境變化被廣泛用于物流、探測(cè)、服務(wù)等領(lǐng)域[14]。移動(dòng)機(jī)器人的核心技術(shù)之一是導(dǎo)航技術(shù),特別是自主導(dǎo)航技術(shù)。由于環(huán)境的動(dòng)態(tài)變化和不可預(yù)測(cè)性、機(jī)器人感知手段的不完備等原因,使得移動(dòng)機(jī)器人的導(dǎo)航難度較大,一直是人們研究的重點(diǎn)[5]。

目前常用的一種導(dǎo)航方式是“跟隨路徑導(dǎo)引”[6],即機(jī)器人通過對(duì)能感知到某些外部的連續(xù)路徑參考信息做出相應(yīng)的反應(yīng)來導(dǎo)航。如在機(jī)器人運(yùn)動(dòng)路徑上敷設(shè)金屬導(dǎo)線或磁釘,通過檢測(cè)金屬導(dǎo)線或磁釘?shù)奶卣餍畔泶_定機(jī)器人的位置。從導(dǎo)航的角度看,這種方法的優(yōu)點(diǎn)是可靠性較高,但功能單一,如不能在行進(jìn)的同時(shí)對(duì)目標(biāo)進(jìn)行識(shí)別、避障,對(duì)環(huán)境的適應(yīng)能力較弱、靈活性較差、維護(hù)成本較高,因此限制了其在移動(dòng)機(jī)器人中的應(yīng)用。

隨著計(jì)算機(jī)技術(shù)、數(shù)字圖像處理技術(shù)及圖像處理硬件的發(fā)展,基于計(jì)算機(jī)視覺的導(dǎo)航方式在機(jī)器人導(dǎo)航中得到廣泛關(guān)注[68]。在實(shí)際應(yīng)用中,只需要在路面上畫出路徑引導(dǎo)線,如同在公共交通道路上畫的引導(dǎo)線一樣,機(jī)器人就可以通過視覺進(jìn)行自主導(dǎo)航。相對(duì)于敷設(shè)金屬導(dǎo)線、磁釘?shù)确椒?,這種方法增強(qiáng)了系統(tǒng)的靈活性,降低了維護(hù)成本。視覺信息中包含有大量的數(shù)據(jù),要從中提取有用的信息,需要復(fù)雜的算法及耗時(shí)的計(jì)算。如何保證視覺導(dǎo)航系統(tǒng)在正確理解路徑信息的前提下仍具有較好的實(shí)時(shí)性和魯棒性,是該方法要解決的核心問題。

1 視覺導(dǎo)航系統(tǒng)構(gòu)成及工作過程

基于計(jì)算機(jī)視覺的移動(dòng)機(jī)器人導(dǎo)航實(shí)驗(yàn)系統(tǒng)的硬件部分由計(jì)算機(jī)、USB接口的攝像頭、LEGO實(shí)驗(yàn)用機(jī)器人組成。軟件分為2部分,即圖像處理和機(jī)器人運(yùn)動(dòng)控制。基于視覺導(dǎo)航的原始輸入圖像是連續(xù)的數(shù)字視頻圖像。系統(tǒng)工作時(shí),圖像預(yù)處理模塊首先對(duì)原始的輸入圖像進(jìn)行縮小、邊緣檢測(cè)、二值化等預(yù)處理。其次利用哈夫變換提取出對(duì)機(jī)器人有用的路徑信息。最后,運(yùn)動(dòng)控制模塊根據(jù)識(shí)別的路徑信息,調(diào)用直行或轉(zhuǎn)彎功能模塊使機(jī)器人做相應(yīng)的移動(dòng)。整個(gè)工作流程如圖1所示。

1.1 視覺導(dǎo)航的圖像預(yù)處理

目前圖像采集設(shè)備都具有較高的空間和灰度分辨率,精度高、數(shù)據(jù)量大。

實(shí)驗(yàn)中的原始輸入圖像是USB攝像頭采集320×240像素的RGB格式圖像,最大幀數(shù)30幀/s。

圖像預(yù)處理的效果對(duì)后續(xù)哈夫變換檢測(cè)路徑信息的速度和準(zhǔn)確性有很大影響。對(duì)整幅圖像進(jìn)行抽取時(shí)計(jì)算量過大、也無(wú)必要,故先將彩色圖像轉(zhuǎn)換為灰度圖像,再將圖像的大小依據(jù)最近鄰域插值法原理[9]進(jìn)行縮小以節(jié)約后續(xù)計(jì)算時(shí)間。在實(shí)驗(yàn)室環(huán)境下,經(jīng)測(cè)試,將原始圖像縮小到30%仍然能滿足需要,處理時(shí)間縮短了72%。

圖1 視覺導(dǎo)航系統(tǒng)工作流程

由于圖像傳感器從時(shí)間和空間上對(duì)介質(zhì)(光)采樣,其圖像質(zhì)量對(duì)現(xiàn)場(chǎng)的非均勻光場(chǎng)和其他干擾因素非常敏感,二值化時(shí),不同光照條件下閾值的確定是一件比較困難的工作。目前常用的閾值選取方法有雙峰法、迭代法和 最大類間方差法[10]。從執(zhí)行時(shí)間和處理效果2方面考慮,對(duì)3種方法比較后(結(jié)果如表1所示),在優(yōu)先考慮實(shí)時(shí)性的前提下,選用雙峰法來求取閾值。在實(shí)驗(yàn)室條件下,路徑環(huán)境相對(duì)理想,黑色引導(dǎo)線與背景反差較大。在灰度直方圖上,引導(dǎo)線和背景都形成高峰,對(duì)這2個(gè)峰值及谷底的求取也可簡(jiǎn)化,使用灰度級(jí)的最大值和最小值代替2個(gè)峰值,那么這2個(gè)峰值的中間值即可作為谷底用作圖像的閾值。

ケ1 三種閾值選取方法執(zhí)行時(shí)間比較

執(zhí)行時(shí)間 /s閾值T

最大類間方差法31.534190

迭代法21.541145

雙峰法0.006124

地面的反光和陰影,以及不均勻的光照都會(huì)導(dǎo)致同一幅圖像的二值化效果表現(xiàn)出很大差別,圖2和圖3是對(duì)同一幅圖像在不同光照條件下二值化的結(jié)果,可以看到在光照條件2下會(huì)出現(xiàn)大量的黑點(diǎn),這些黑點(diǎn)將嚴(yán)重影響提取路徑信息的速度并且可能導(dǎo)致錯(cuò)誤的路徑信息。然而,相對(duì)于灰度、顏色特征,邊緣特征受光照影響較小[11]。為此,對(duì)縮小后的圖像先進(jìn)行引導(dǎo)線的邊緣檢測(cè),邊緣檢測(cè)后圖像中引導(dǎo)線邊緣像素灰度的對(duì)比度得到增強(qiáng),通過實(shí)驗(yàn)確定合適的閾值,然后對(duì)圖像進(jìn)行二值化以提取路徑信息。

圖2 光照條件1

圖3 光照條件2

1.2 引導(dǎo)線角度檢測(cè)

采用哈夫變換檢測(cè)路徑引導(dǎo)線的角度[12]。為了簡(jiǎn)單而又不失一般性,引導(dǎo)線分1條路徑和2條相交的路徑。當(dāng)2條直線的夾角等于90°時(shí)即認(rèn)為是兩條相互垂直的路徑。直線的哈夫變換利用如下直線的極坐標(biāo)方程:

И

λ=xcos θ+ysin θ(1)

И

式(1)中,(x,y)表示圖像空間xy中所有共線的點(diǎn)即圖像中的黑點(diǎn);θ表示直線法線和x軸的夾角,取值范圍為0~180°;λ表示直線到原點(diǎn)的距離。И

2 視覺導(dǎo)航的機(jī)器人運(yùn)動(dòng)控制

機(jī)器人運(yùn)動(dòng)控制部分分為直行控制和轉(zhuǎn)彎控制2部分。

2.1 直行控制

如果哈夫變換的檢測(cè)結(jié)果表明是一條直線即機(jī)器人視野中只有1條主引導(dǎo)線時(shí),則運(yùn)行直行模塊。實(shí)際中有2種情況需要考慮:一是機(jī)器人的初始位置不一定正對(duì)引導(dǎo)線,二是在機(jī)器人的機(jī)電配置中,左右輪子的馬達(dá)運(yùn)動(dòng)不會(huì)絕對(duì)精確和對(duì)稱。這些會(huì)使機(jī)器人在運(yùn)動(dòng)中出現(xiàn)側(cè)偏。可采用下述方法進(jìn)行直行控制:根據(jù)引導(dǎo)線在圖像平面坐標(biāo)中的位置來判斷機(jī)器人的偏向。當(dāng)引導(dǎo)線位于圖像平面的左半邊,說明攝像頭的光軸與引導(dǎo)線不垂直且相對(duì)于引導(dǎo)線右偏,則命令機(jī)器人左轉(zhuǎn);當(dāng)引導(dǎo)線位于圖像平面的右半邊,說明攝像頭的光軸與引導(dǎo)線不垂直且相對(duì)于引導(dǎo)線左偏,則命令機(jī)器人右轉(zhuǎn);當(dāng)引導(dǎo)線在圖像平面兩邊均存在時(shí),則命令機(jī)器人不偏轉(zhuǎn)繼續(xù)直行。機(jī)器人在前進(jìn)過程中,根據(jù)圖像平面中引導(dǎo)線位置不斷調(diào)整方位,以一定的轉(zhuǎn)動(dòng)角度(轉(zhuǎn)動(dòng)角度盡量小,這樣機(jī)器人的擺動(dòng)幅度就會(huì)小)在直線路徑上行走。

2.2 轉(zhuǎn)彎控制

如果哈夫變換的檢測(cè)結(jié)果表明是兩條相互垂直的直線,即機(jī)器人的視野中出現(xiàn)轉(zhuǎn)彎路口,則開始運(yùn)行轉(zhuǎn)彎模塊。

機(jī)器人需要在距轉(zhuǎn)角合適的距離處開始運(yùn)行轉(zhuǎn)彎模塊,以保證機(jī)器人視野中始終具有引導(dǎo)線。如圖4所示,AB段表示攝像頭的縱向視野范圍,C點(diǎn)為轉(zhuǎn)角點(diǎn),機(jī)器人需要知道自身在實(shí)際二維平面中相對(duì)于轉(zhuǎn)角點(diǎn)C的距離即BC段距離。由圖像信息獲得現(xiàn)實(shí)世界坐標(biāo)系中的參數(shù),即所謂三維重建,這需要對(duì)基于計(jì)算機(jī)視覺的移動(dòng)機(jī)器人導(dǎo)航系統(tǒng)進(jìn)行攝像機(jī)標(biāo)定。

鑒于移動(dòng)機(jī)器人識(shí)別的引導(dǎo)線在地面上這一限制條件,并且攝像頭固定在機(jī)器人上,可以選擇機(jī)器人坐標(biāo)系為世界坐標(biāo)系,即世界坐標(biāo)系與機(jī)器人同步移動(dòng)。坐標(biāo)原點(diǎn)為標(biāo)定模板的左下角標(biāo)定點(diǎn)的中心,Zw軸垂直地面,XwYw平面即為地面。在該坐標(biāo)系下地面目標(biāo)的坐標(biāo)可以表示為(Xw,Yw,0),П甓模板由直徑5 mm、相距10 mm共72個(gè)圓點(diǎn)構(gòu)成,如圖5所示。

圖4 轉(zhuǎn)變示意圖

圖5 標(biāo)定模板

移動(dòng)機(jī)器人的攝像機(jī)標(biāo)定問題,如果忽略因物面與攝像機(jī)光軸不垂直造成的非線性,則可歸結(jié)為在二維世界坐標(biāo)系中求變換矩陣M[13]。

И[HT6”]

X1Y11000-u1X1-u1Y1

000X1Y11-v1X1-v1Y1

…………

…………

XnYn1000-unXn-unYn

000XnYn1-vnXn-vnYn•m11m12m14m21m22m24m31m32=u1v1u2v2ぁぁunvn(2)

И

世界坐標(biāo)系(Xw,Yw,Zw ),Zw軸垂直地面,XwYw平面即為地面,在該坐標(biāo)系下地面目標(biāo)的坐標(biāo)P可以表示為(Xw,Yw,0)。式(2)中Xi,Yj (其中i=1,2,…,n,j=1,2,…,n)即為地面目標(biāo)的坐標(biāo)(Xw,Yw)。只要有4個(gè)標(biāo)定點(diǎn)就可以求解該線性方程組,分別測(cè)得其在地面上的坐標(biāo)(Xw,Yw,0),再根據(jù)由圖像處理的方法得到的圖像坐標(biāo)系中的像素坐標(biāo)(ui,vj)(其中i=1,2,…,n,j=1,2,…,n),即可求得變換矩陣M,M = [m11,m12,m14,m21,m22,m24,m31,m32]T,其中m34=1。П浠瘓卣M的元素取值受到攝像頭俯仰角和架設(shè)高度的影響。在實(shí)驗(yàn)室條件下,本系統(tǒng)選取BC=13 cm時(shí)開始運(yùn)行轉(zhuǎn)彎模塊。

在單目視覺的條件下,對(duì)于固定的俯仰角,為保證道路引導(dǎo)線不移出攝像頭視野范圍,必須控制機(jī)器人以一定的弧度轉(zhuǎn)彎,即沿弧線路徑執(zhí)行轉(zhuǎn)彎模塊。要做到這一點(diǎn),弧線的弧度必須選取合適。在轉(zhuǎn)彎過程中需要根據(jù)機(jī)器人的位置不斷調(diào)整機(jī)器人的運(yùn)動(dòng)速度和轉(zhuǎn)動(dòng)角度,具體過程如下:

(1) 找出圖像中最后一行中點(diǎn)m的像素坐標(biāo)(um,vm),即攝像頭視野最下方的中點(diǎn),通過變換矩陣M將其轉(zhuǎn)換為世界坐標(biāo)系xyz中的位置(xm,ym),z軸垂直于xy平面即地面。

(2) 找出圖像中轉(zhuǎn)角點(diǎn)t的像素坐標(biāo)(ut,vt),通過變換矩陣M求出其在世界坐標(biāo)系xyz中的位置(xt,yt)。

(3) 以地面上轉(zhuǎn)角點(diǎn)為圓心的世界坐標(biāo)系定義為XYZ,Z軸垂直于XY平面即地面,求出弧線在此坐標(biāo)系中的方程,(x-a)2+(y-b)2=r2,(a,b)表示在坐標(biāo)系XYZ下弧線所在圓的圓心,r表示圓的半徑。И

(4) 將xyz坐標(biāo)系下的坐標(biāo)點(diǎn)(xm,ym)轉(zhuǎn)換到XYZ坐標(biāo)系下,用坐標(biāo)(Xm,Ym)表示,如圖6所示。X軸與x的夾角為θ,XOY坐標(biāo)系的原點(diǎn)O即為轉(zhuǎn)角點(diǎn)t,則:

И

Xm=(xm-xt)cos θ Ym=(ym-yt)cos θ(3)

圖6 坐標(biāo)系轉(zhuǎn)換

(5) Щ∠叻匠討械y=Ym時(shí),求得X,比較x與Xm,若Xm-x>0,則命令機(jī)器人左轉(zhuǎn);若Xm-x

本系統(tǒng)確定轉(zhuǎn)彎弧的半徑為20 cm,弧度為90°的弧線即可使機(jī)器人順利轉(zhuǎn)彎,機(jī)器人視野中始終保持引導(dǎo)線。

3 實(shí)驗(yàn)結(jié)果及結(jié)論

實(shí)驗(yàn)中選用的LEGO移動(dòng)機(jī)器人,其運(yùn)動(dòng)速度為8.57 cm/s(指令設(shè)定Power=25 RPM)。導(dǎo)航場(chǎng)地中畫有寬1 cm的黑色引導(dǎo)線,實(shí)驗(yàn)要求中機(jī)器人完全根據(jù)引導(dǎo)線自主運(yùn)動(dòng)。實(shí)驗(yàn)中,識(shí)別1幀圖像并且機(jī)器人根據(jù)識(shí)別的路徑信息運(yùn)行直行或轉(zhuǎn)彎模塊共需0.311 s,即機(jī)器人每處理1幀圖像移動(dòng)2.67 cm。實(shí)驗(yàn)室中的光照條件是機(jī)器人移動(dòng)時(shí)的主要干擾,而銳利的引導(dǎo)線邊緣受光照影響較小,對(duì)這些干擾有較好的濾除作用。經(jīng)過在陰天白天、晴天白天以及開燈和不開燈的情況下、晚上開燈的情況下、遮蓋物位于攝像頭上方50 cm處形成陰影情況下,機(jī)器人能正確的沿引導(dǎo)線移動(dòng)。同時(shí),當(dāng)攝像頭視野范圍內(nèi)引導(dǎo)線消失即認(rèn)為出現(xiàn)障礙物,機(jī)器人能發(fā)出前方有障礙物的報(bào)警信息。

可見上面所述方法有較好的實(shí)時(shí)性和魯棒性有一定的通用性,使得該視覺導(dǎo)航方法具有一定的應(yīng)用價(jià)值。只要光照條件變化不是非常劇烈,在工廠、醫(yī)院、辦公樓等環(huán)境中,機(jī)器人根據(jù)路徑引導(dǎo)線可自主到達(dá)目的地。

當(dāng)然,由于移動(dòng)機(jī)器人活動(dòng)場(chǎng)景的復(fù)雜性和動(dòng)態(tài)特性,以及視覺處理的復(fù)雜性,視覺導(dǎo)航還有很多需要解決的問題,例如當(dāng)導(dǎo)航場(chǎng)地出現(xiàn)較大面積的強(qiáng)烈反光、極暗的陰影時(shí)能否有效可靠的進(jìn)行移動(dòng)機(jī)器人的導(dǎo)航控制,這需要進(jìn)一步研究。另外,如何將視覺系統(tǒng)與本系統(tǒng)機(jī)器人平臺(tái)中的超聲波傳感器、光電傳感器及聲音傳感器在空間、時(shí)間及數(shù)據(jù)上進(jìn)行融合以提高系統(tǒng)的適應(yīng)性和環(huán)境識(shí)別能力也是一個(gè)研究方向。

參 考 文 獻(xiàn)

[1]方強(qiáng),謝存禧.基于視覺的移動(dòng)機(jī)器人自主定位導(dǎo)航[J].機(jī)床與液壓,2004(7):4042.

[2]Siegwart Roland,Nourbakhsh Illah R.Introduction to Autonomous Mobile Robots[J].Massachusetts Institute of Technology,2004:111.

[3]Gérard Medioni,Alexandre Francois R J,Matheen Siddiqui.Robust Realtime Vision for a Personal Service Robot [J].Computer Vision and Image Understanding,2007:18.

[4],馬旭東,戴先中.一種基于移動(dòng)機(jī)器人視覺的實(shí)用數(shù)字識(shí)別方法[J].制造業(yè)自動(dòng)化,2006,28(5):3943.

[5]陸新華,張桂林.室內(nèi)服務(wù)機(jī)器人導(dǎo)航方法研究[J].機(jī)器人,2003,25(1):8087.

[6]張海波,原魁,周慶瑞.基于路徑識(shí)別的移動(dòng)機(jī)器人視覺導(dǎo)航[J].中國(guó)圖像圖形學(xué)報(bào),2004,9(7):853857.

[7]吳玉斌,曹廣忠,徐剛.基于虛擬儀器技術(shù)的機(jī)器人視覺伺服研究[J].機(jī)械科學(xué)與技術(shù),2006,25(8):1 0051 008.

[8]董再勵(lì),郝穎明,朱楓.一種基于視覺的移動(dòng)機(jī)器人定位系統(tǒng)[J].中國(guó)圖像圖形學(xué)報(bào),2000,5(8):688692.

[9]江巨浪.基于改進(jìn)CatmullRom 樣條的圖像縮放算法[J].計(jì)算機(jī)技術(shù)與發(fā)展,2007,17(4):211213.

[10]楊暉.圖像分割的閾值法研究[J].遼寧大學(xué)學(xué)報(bào):自然科學(xué)版,2006,33(2):135137.

[11]陳鍛生,劉政凱.彩色圖像邊緣特征及其人臉檢測(cè)性能評(píng)價(jià)[J].軟件學(xué)報(bào),2005,16(5):727732.

[12]陳震,高滿屯,楊聲云.基于Hough 變換的直線跟蹤方法[J].計(jì)算機(jī)應(yīng)用,2003,23(10):3032.

[13]康晶,鄒北驥,劉相濱.一種改進(jìn)的攝像機(jī)內(nèi)外參數(shù)初值計(jì)算方法[J].計(jì)算機(jī)工程與科學(xué),2007,29(1):5255.

作者簡(jiǎn)介

趙 瑜 女,1983年出生,陜西西安人,碩士研究生。主要研究方向?yàn)榉墙佑|測(cè)量與可視化計(jì)算。

種蘭祥 男,1960年出生,陜西合陽(yáng)人,西北大學(xué)信息科學(xué)與技術(shù)學(xué)院副教授,中國(guó)科學(xué)院西安光學(xué)精密儀器研究所博士研究生。主要從事非接觸測(cè)量、光電子技術(shù)和可視化計(jì)算方面的研究。

篇8

先看看人類體的基本構(gòu)成。人體主要由五個(gè)部分組成。一是框架支撐系統(tǒng),主要是骨骼,它構(gòu)成了人體的本體結(jié)構(gòu);二是動(dòng)作執(zhí)行系統(tǒng),主要是各種肌肉,接受信息,執(zhí)行動(dòng)作;三是感覺系統(tǒng),它感受外界刺激,也探測(cè)自身的內(nèi)部信息;四是信息處理系統(tǒng),主要是大腦和神經(jīng)。對(duì)收集的信息進(jìn)行處理、儲(chǔ)存、發(fā)出指令等;五是能源系統(tǒng),負(fù)責(zé)能源的吸收、儲(chǔ)存、使用以及廢物的排泄。在以上基礎(chǔ)上,人還要有思想、意識(shí),如此才能成為一個(gè)真正意義上的人。

機(jī)器人的發(fā)展使人們感覺到有某種可能性。機(jī)器人的發(fā)展經(jīng)歷了—個(gè)從低級(jí)向高級(jí)的發(fā)展階段,并力求從五個(gè)方面模仿人類。先是遙控機(jī)器人,本身沒有工作程序,需要人為實(shí)時(shí)操縱;后有程序機(jī)器人,按載人的程序控制,對(duì)外界無(wú)感知能力,環(huán)境改變時(shí)需要重新設(shè)計(jì)程序;自適應(yīng)機(jī)器人可根據(jù)環(huán)境的變化改變自己的行動(dòng);最后是智能機(jī)器人,具有感知思維能力和行為能力。可見,機(jī)器人是一種可編程再編程的多功能操作機(jī)械,它牽涉到電子學(xué)、仿生學(xué)、心理學(xué)、系統(tǒng)論、控制論、人工智能、精密機(jī)械、信息傳感等各種學(xué)科和技術(shù)。其中,人工智能扮演著核心角色。

人工智能領(lǐng)域包括機(jī)器學(xué)習(xí)、自然語(yǔ)言的理解、專家系統(tǒng)、模式識(shí)別、計(jì)算機(jī)視覺、人工神經(jīng)網(wǎng)絡(luò)。機(jī)器學(xué)習(xí)是機(jī)器具有智能的重要標(biāo)志,同時(shí)也是機(jī)器獲取知識(shí)的根本途徑。它涉及認(rèn)識(shí)科學(xué)、神經(jīng)心理學(xué)、邏輯學(xué)等學(xué)科,并對(duì)人工智能的其他分支如專家系統(tǒng)、自然語(yǔ)言的理解、自動(dòng)推理、計(jì)算機(jī)視覺起重要作用。人工神經(jīng)網(wǎng)絡(luò)模擬人腦神經(jīng)元突觸的彈性強(qiáng)度猶如大腦皮層一樣,多層神經(jīng)元能交疊分層并交互成網(wǎng)絡(luò)。多納爾·赫波的學(xué)習(xí)算法認(rèn)為:一個(gè)曾經(jīng)被傳承且被儲(chǔ)存的開關(guān)模式,其神經(jīng)元突觸的聯(lián)合可以得到加強(qiáng)或削弱。人腦中包含1011-1012個(gè)神經(jīng)元,一個(gè)神經(jīng)元有103~104個(gè)突觸。神經(jīng)元通過突觸形成網(wǎng)絡(luò),傳遞著彼此的興奮與抑制。全部大腦神經(jīng)元構(gòu)成拓?fù)渖蠘O其復(fù)雜的網(wǎng)絡(luò)群體,由這一網(wǎng)絡(luò)群體實(shí)現(xiàn)記憶與思維。在神經(jīng)中樞系統(tǒng)。上百億的神經(jīng)元組成了人類器官的通信網(wǎng)絡(luò)。閃爍和不閃爍的神經(jīng)產(chǎn)生了一種具有二進(jìn)制的數(shù)據(jù)流,它們作為信息(如感覺、思想等)被大腦編輯。

數(shù)據(jù)網(wǎng)絡(luò)并不只限于個(gè)別的組織和機(jī)體。社會(huì)生物學(xué)表明,動(dòng)物有群體智能來組織其信息系統(tǒng),而沒有監(jiān)督和指揮中樞系統(tǒng)。動(dòng)物間彼此的交流信息在一個(gè)化學(xué)擴(kuò)散場(chǎng)中,從分岔蟻街到復(fù)雜的蟻巢以及等翅目昆蟲的復(fù)雜建筑都體現(xiàn)了這種超組織的集體行為能力。同樣的單一神經(jīng)元也不能感覺和思維,只是在集體交互作用中才能體現(xiàn)大腦的功能。在人工智能方面,按目前的集成電路水平,只可實(shí)現(xiàn)1000個(gè)神經(jīng)元的互聯(lián)網(wǎng)絡(luò)。人工神經(jīng)網(wǎng)絡(luò)系統(tǒng)的結(jié)構(gòu)及功能與人體比較差距很大,因此,單純用電子網(wǎng)絡(luò)計(jì)算機(jī)的硬件設(shè)施模擬人腦功能是不現(xiàn)實(shí)的?,F(xiàn)在,常用編程技術(shù)以軟件模擬研究人腦的處理模式。

在情感運(yùn)算表達(dá)式中,神經(jīng)網(wǎng)絡(luò)被訓(xùn)練成對(duì)感情反應(yīng)有認(rèn)識(shí),情感通過復(fù)雜的學(xué)習(xí)模式被特征化。人們通過觸、看、聽、說來感知自我,形成自我意識(shí)。相應(yīng)的,人們需要對(duì)自然保護(hù)語(yǔ)言、視覺、會(huì)話、觸覺等進(jìn)行研究。對(duì)自然語(yǔ)言的理解包括口語(yǔ)理解和文字理解。運(yùn)用專家系統(tǒng)對(duì)語(yǔ)言進(jìn)行邏輯分析,結(jié)合生理學(xué)、心理學(xué)、計(jì)算機(jī)科學(xué),使神經(jīng)網(wǎng)絡(luò)可以理解和生成自然語(yǔ)言,從而達(dá)到使機(jī)器人擁有交流信息能力的目的。

人工智能著重從思想方法上對(duì)人腦功能進(jìn)行探索和研究,是一種偏于軟件方面的模擬。同時(shí),人們也在硬件方面進(jìn)行不懈的努力。

傳統(tǒng)意義上的機(jī)器人是一種鋼鐵構(gòu)成的東西,其組成結(jié)構(gòu)是沒有生命活力的,而生命系統(tǒng)卻有著不同特征——復(fù)雜和組織。即便是單細(xì)胞生物,雖然原始,卻也顯示出任何人工制品所無(wú)法比擬的復(fù)雜和精巧。一個(gè)低級(jí)的細(xì)菌身上也擁有復(fù)雜的功能和網(wǎng)絡(luò),它可以與環(huán)境相互作用,以一種可控制的方式交換物質(zhì)和能量。其組織可以自我感覺、自我判斷、自我診斷、自我修補(bǔ),從而與環(huán)境相適應(yīng)。

材料科學(xué)的發(fā)展使人們有可能找到更完善的代替鋼鐵的材料。光學(xué)材料可制造機(jī)器人的視覺系統(tǒng),利用先進(jìn)的納米技術(shù)和生物基因技術(shù),目前已制造出非常靈敏的義眼;超導(dǎo)材料可利用超導(dǎo)隧道效應(yīng)制造靈敏的電磁信號(hào)探測(cè)元件,用來模擬高效傳遞信息的神經(jīng)元;智能材料把高技術(shù)傳感器敏感元件和傳統(tǒng)材料相結(jié)合,使無(wú)機(jī)的材料變得有感覺和知覺。

生物體的最大特點(diǎn)就是對(duì)環(huán)境的適應(yīng),智能材料具有軟件功能,類似于可條件反射的生物機(jī)械信息處理單元——神經(jīng)元。信息材料如各種活性有機(jī)材料,可以在分子水平上實(shí)現(xiàn)信息的存儲(chǔ)。分子計(jì)算機(jī)則利用DNA的四個(gè)堿基對(duì),在分子上構(gòu)造計(jì)算機(jī),用以納米機(jī)器或生物系統(tǒng)的信息處理器。生物醫(yī)學(xué)材料則可以部分代替某種生物功能,如羥基磷灰石是脊椎動(dòng)物和人體硬組織的主要無(wú)機(jī)質(zhì),不僅具備良好的生物相容性,而且可以誘導(dǎo)骨骼的生長(zhǎng),并和生物組織形成牢固的鍵和,可作為人體硬組織的替代材料。探索此類材料可找到具有全部生物活性的骨骼系統(tǒng),使機(jī)器人更類人化。醫(yī)用高分子材料廣泛用于制造人工皮膚、角膜、肌腱、韌帶、血管、人工臟器組織和器官的修復(fù)和制造。

篇9

關(guān)鍵詞:圖像處理;電力設(shè)備

中圖分類號(hào):V351.31文獻(xiàn)標(biāo)識(shí)碼:A文章編號(hào):

1、電力設(shè)備檢測(cè)

電力設(shè)備是輸配電網(wǎng)中的樞紐和通道,設(shè)備在使用的過程中會(huì)有老化、失修、故障隱患等情況出現(xiàn)。但是這些情況并不能都靠人眼、工作人員的經(jīng)驗(yàn)一一排除,必須要專門的電力設(shè)備檢測(cè)才能檢查出這些電力安全隱患并組織人力及時(shí)排除。 在電力運(yùn)行中,電力安全始終是電力人繃緊的一根弦。電力設(shè)備檢測(cè)實(shí)際上是起到了預(yù)防、發(fā)現(xiàn)隱患的作用。因此電力設(shè)備檢測(cè)(即電力設(shè)備預(yù)防性試驗(yàn))至關(guān)重要。

2、電力設(shè)備的概述

電力設(shè)備預(yù)防性試驗(yàn)是指對(duì)已投入運(yùn)行的設(shè)備按規(guī)定的試驗(yàn)條件(如規(guī)定的試驗(yàn)設(shè)備、環(huán)境條件、試驗(yàn)方法和試驗(yàn)電壓等)、試驗(yàn)項(xiàng)目、試驗(yàn)周期所進(jìn)行的定期檢查或試驗(yàn),以發(fā)現(xiàn)運(yùn)行中電力設(shè)備的隱患、預(yù)防發(fā)生事故或電力設(shè)備損壞。它是判斷電力設(shè)備能否繼續(xù)投入運(yùn)行并保證安全運(yùn)行的重要措施。

3、圖像處理的發(fā)展

隨著計(jì)算機(jī)技術(shù)的迅猛發(fā)展和相關(guān)理論的不斷完善,數(shù)字圖像處理 技術(shù)在許多應(yīng)用領(lǐng)域受到廣泛重視并取得了重大的開拓性成就。 屬于這些領(lǐng)域的有航空 航天、生物醫(yī)學(xué)工程、工業(yè)檢測(cè)、機(jī)器人視覺、公安司法、軍事制導(dǎo)、文化藝術(shù)等。該 技術(shù)終將成為一門引人注目、前景遠(yuǎn)大的新型學(xué)科。

4、圖像處理的意義

圖像進(jìn)行處理的主要目的有三個(gè)方面:

4.1圖像的視感質(zhì)量,如進(jìn)行圖像的亮度、彩色變換,增強(qiáng)、抑制某些成分,對(duì)圖像進(jìn)行幾何變換等,以改善圖像的質(zhì)量。

4.2圖像中所包含的某些特征或特殊信息,這些被提取的特征或信息往往為計(jì)算機(jī)分析圖像提供便利。提取特征或信息的過程是圖像處理的預(yù)處理。提取的特征可以包括很多方面,如頻域特征、灰度或顏色特征、邊界特征、區(qū)域特征、紋理特征、形狀特征、拓?fù)涮卣骱完P(guān)系結(jié)構(gòu)等。

4.3不管是何種目的的圖像處理,都需要由計(jì)算機(jī)和圖像專用設(shè)備組成的圖像處理系統(tǒng)對(duì)圖像數(shù)據(jù)進(jìn)行輸入、加工和輸出。圖像是人類獲取和交換信息的主要來源,是視覺的基礎(chǔ),而視覺又是人類重要的感知手段,所以圖像成為心理學(xué),生理學(xué),計(jì)算機(jī)科學(xué)等諸多方面學(xué)者研究示圖感知的有效工具。圖像處理是一門實(shí)用的科學(xué),在軍事,航空,航天,遙感,電力,通信,醫(yī)學(xué),教育等領(lǐng)域得到廣泛應(yīng)用。

5、電力系統(tǒng)概述

傳統(tǒng)的視頻監(jiān)控系統(tǒng)需要人工監(jiān)看錄像,監(jiān)控性能受到監(jiān)控者本身的生理因素的制約。有研究表明: 人盯著屏幕看3 個(gè)小時(shí)后,注意力將降低70%。隨著我國(guó)高壓輸電線路的規(guī)模迅速增長(zhǎng),線路運(yùn)行部門承擔(dān)了越來越多的線路巡視維護(hù)工作量,急需用先進(jìn)的技術(shù)來幫助線路維護(hù)人員提高工作效率。圖像處理技術(shù)借助計(jì)算機(jī)強(qiáng)大的數(shù)據(jù)處理功能,對(duì)視頻畫面中的海量數(shù)據(jù)進(jìn)行高速分析,過濾掉用戶不關(guān)心的信息,僅僅為監(jiān)控者提供有用的關(guān)鍵信息。能夠大大減輕視頻監(jiān)控中人工勞動(dòng)強(qiáng)度,同時(shí)可以減少誤報(bào)漏報(bào),還可以提高報(bào)警處理的及時(shí)性。圖像監(jiān)控系統(tǒng)應(yīng)用的范圍非常廣,最常見的是對(duì)民宅、停車場(chǎng)、公共場(chǎng)所、銀行等的監(jiān)控,以防止偷盜、破壞行為的發(fā)生,保障社會(huì)安全。近年來圖像處理技術(shù)在電力設(shè)備系統(tǒng)監(jiān)控上也有大量應(yīng)用: 如趙書濤等人利用圖像的形狀不變矩特征作為特征矢量,采用SVM 分類器識(shí)別各類電力設(shè)備,取得了較滿意的識(shí)別效果,實(shí)現(xiàn)了變電站的無(wú)人值守; 劉金春利用小波不變矩來提取圖像的邊緣特征,通過與無(wú)故障圖像的小波不變矩比較,分析出圖像的變化情況,實(shí)現(xiàn)了對(duì)變電站的自動(dòng)監(jiān)控。因此圖像處理技術(shù)能在電力系統(tǒng)的安全監(jiān)測(cè)中發(fā)揮重大作用。

6、圖像檢測(cè)

邊緣檢測(cè)是一種重要的區(qū)域處理方法。邊緣是所要提取目標(biāo)和背景的分界線, 提取出邊緣才能將目標(biāo)和背景區(qū)分開來。邊緣檢測(cè)是利用物體和背景在某種圖像特性上的差異來實(shí)現(xiàn)的, 這些差異包括灰度、顏色或者紋理特征。實(shí)際上, 就是檢測(cè)圖像特性發(fā)生變化的位置。邊緣檢測(cè)包括兩個(gè)基本內(nèi)容: 一是抽取出反映灰度變化的邊緣點(diǎn); 二是剔除某些邊界點(diǎn)或填補(bǔ)邊界間斷點(diǎn), 并將這些邊緣連接成完整的線。如果一個(gè)像素落在邊界上, 那么它的鄰域?qū)⒊蔀橐粋€(gè)灰度級(jí)變化地帶。對(duì)這種變化最有用的兩個(gè)特征是灰度的變化率和方向。邊緣檢測(cè)算子可以檢查每個(gè)像素的鄰域, 并對(duì)灰度變化率進(jìn)行量化, 也包括對(duì)方向的確定, 其中大多數(shù)是基于方向?qū)?shù)掩模求卷積的方法。

6.1圖像幾何校正

圖像的幾何畸變表現(xiàn)為像元相對(duì)于地面目標(biāo)實(shí)際位置發(fā)生擠壓、扭曲、變形等。其基本環(huán)節(jié)有兩個(gè),即像素坐標(biāo)變換和重采樣。

6.2圖像重采樣

圖像重采樣的目的主要是保證圖像像素的連續(xù)性,因?yàn)閷?duì)圖像空間分辨率進(jìn)行提升時(shí),需要利用插值的手段在空出的像素上補(bǔ)上對(duì)應(yīng)的值,使整個(gè)圖像平滑,有利于進(jìn)一步處理。其最基本方法有三種:最近鄰插值、雙線性插值和雙三次插值。

6.3 圖像增強(qiáng)

圖像增強(qiáng)就是采用一定的方法對(duì)圖像的某些特征進(jìn)行調(diào)整,以突出圖像中的某些感興趣信息,同時(shí)抑制或去除不需要的信息來提高圖像質(zhì)量。它的主要目的是改變圖像的灰度等級(jí),提高對(duì)比度;消除邊緣噪聲,平滑圖像;突出邊緣及圖像主要信息,銳化圖像、壓縮數(shù)據(jù)量等。圖像增強(qiáng)主要方法根據(jù)處理空間的不同,分為空間域方法和頻率域方法兩大類??臻g域增強(qiáng)主要是通過改變像元及相鄰像元的灰度值達(dá)到增強(qiáng)的目的。而頻率域增強(qiáng)則是通過對(duì)圖像進(jìn)行傅里葉變換后改變頻域圖像的頻譜來達(dá)到圖像增強(qiáng)的目的。此外,根據(jù)圖像處理的范圍又可以將增強(qiáng)處理技術(shù)分為全局處理和局部處理兩種。

7、結(jié)束語(yǔ)

我國(guó)電力行業(yè)的不斷發(fā)展,和停電機(jī)會(huì)的不斷減少?,F(xiàn)代化的電力設(shè)備停電檢修試驗(yàn)的機(jī)會(huì)越來越少。電力設(shè)備的檢修試驗(yàn)也從原來的傳統(tǒng)試驗(yàn)逐步的轉(zhuǎn)型為現(xiàn)在的不停電檢修試驗(yàn)。由于現(xiàn)在的狀態(tài)監(jiān)測(cè)與傳統(tǒng)試驗(yàn)相比不具有破壞性或破壞性較小和不停電等優(yōu)點(diǎn)?,F(xiàn)在的電力設(shè)備狀態(tài)監(jiān)測(cè)試驗(yàn)也將逐步取代于傳統(tǒng)的試驗(yàn),為未來的電力發(fā)展和可靠的安全供電提供有力的技術(shù)保障。電力設(shè)備的狀態(tài)監(jiān)測(cè)也將必然成為未來電力電網(wǎng)試驗(yàn)發(fā)展的主導(dǎo)方向。社會(huì)經(jīng)濟(jì)的飛速發(fā)展,科學(xué)技術(shù)的突飛猛進(jìn),電力設(shè)備檢測(cè)的范圍,設(shè)備與技術(shù)也在與時(shí)俱進(jìn)。一套設(shè)備的“健康指數(shù)”包括其電氣特性和機(jī)械特性兩部分內(nèi)容組成;而無(wú)法得到電力設(shè)備在通電運(yùn)行中的電氣特性的“健康數(shù)值”這一難題,一直困擾電力用戶多年。全新的狀態(tài)監(jiān)測(cè)技術(shù)的出現(xiàn)解決了這一難題。不僅擴(kuò)展了電力設(shè)備檢測(cè)的概念,而且填補(bǔ)了電力設(shè)備檢測(cè)領(lǐng)域的盲點(diǎn)。常規(guī)停電檢測(cè)技術(shù)和狀態(tài)監(jiān)測(cè)技術(shù)相輔相承,為電力設(shè)備的可靠運(yùn)行提供全方位的數(shù)據(jù)支持。

參考文獻(xiàn):

[1] 龔超,羅毅,涂光瑜.計(jì)算機(jī)視覺技術(shù)及其在電力系統(tǒng)自動(dòng)化中的應(yīng)用[J]. 電力系統(tǒng)自動(dòng)化. 2003。

篇10

關(guān)鍵詞 增強(qiáng)現(xiàn)實(shí);虛擬現(xiàn)實(shí);實(shí)時(shí)交互;三維跟蹤;人腦感知

中圖分類號(hào)G206.2 文獻(xiàn)標(biāo)識(shí)碼A 文章編號(hào) 1674-6708(2013)107-0149-04

增強(qiáng)虛擬現(xiàn)實(shí)技術(shù)(Augmented Reality,AR)通過計(jì)算機(jī)實(shí)時(shí)產(chǎn)生三維信息來增強(qiáng)人對(duì)真實(shí)世界的感知。雖然來源于虛擬現(xiàn)實(shí)技術(shù)(Virtual Reality,VR),但AR的偉大之處在于把計(jì)算機(jī)、網(wǎng)絡(luò)和用戶都帶回了真實(shí)世界。它利用計(jì)算機(jī)系統(tǒng)產(chǎn)生現(xiàn)實(shí)環(huán)境中并不存在的虛擬信息,這些虛擬信息可被用戶以視覺、聽覺、觸覺、嗅覺等各種方式感知,成為周圍真實(shí)環(huán)境的組成部分。

1 簡(jiǎn)介

上世紀(jì)90年代初期,波音公司的Tom Caudell和同事最早提出了“增強(qiáng)現(xiàn)實(shí)(以下簡(jiǎn)稱AR)”。在他們?cè)O(shè)計(jì)的系統(tǒng)中,把由簡(jiǎn)單線條繪制的布線路徑和文字等提示信息,實(shí)時(shí)地疊加在機(jī)械師的頭盔顯示器上,而這些信息則可以幫助機(jī)械師一步一步地完成拆卸過程。AR系統(tǒng)的目標(biāo)就是這樣,借助光電顯示技術(shù)、交互技術(shù)、計(jì)算機(jī)圖形技術(shù)和可視化技術(shù)等,產(chǎn)生現(xiàn)實(shí)環(huán)境中不存在的虛擬對(duì)象,并通過注冊(cè)技術(shù)將虛擬對(duì)象準(zhǔn)確地“放置”在真實(shí)環(huán)境中,使用戶處于一種融合的環(huán)境中,不能區(qū)分真實(shí)和虛擬,用戶所感知到的只是一個(gè)真實(shí)和虛擬相融合的唯一存在的世界,并能與之交互。

AR是一個(gè)多學(xué)科交叉的新興研究領(lǐng)域,該領(lǐng)域的權(quán)威學(xué)者北卡大學(xué)Ronald Azuma提出 AR系統(tǒng)包含三個(gè)內(nèi)容:真實(shí)世界和虛擬世界的信息集成,即虛實(shí)融合;具有實(shí)時(shí)交互性;三維尺度空間中定位增添虛擬物體,即三維跟蹤注冊(cè)。其中,尤以實(shí)時(shí)的人機(jī)交互最為重要,因?yàn)槌两泻透兄脑鰪?qiáng)皆源于此。人機(jī)交互是一門包括計(jì)算機(jī)視覺、心理學(xué)、人工智能等多學(xué)科交叉的技術(shù),隨著傳感器、力反饋等硬件設(shè)備的發(fā)展,以及對(duì)人的個(gè)體差異、感知研究以及認(rèn)知科學(xué)的發(fā)展,人機(jī)交互已成為世界各國(guó)信息產(chǎn)業(yè)競(jìng)爭(zhēng)的一項(xiàng)關(guān)鍵技術(shù),并逐漸實(shí)現(xiàn)向“以用戶為中心”的轉(zhuǎn)變。

另一種定義是1994年保羅·米爾格拉姆(Paul Milgram)和岸野文郎(Fumio Kishino)提出的現(xiàn)實(shí)-虛擬連續(xù)統(tǒng)(Milgram's Reality-Virtuality Continuum)。他們將真實(shí)環(huán)境和虛擬環(huán)境分別作為連續(xù)統(tǒng)的兩端,位于它們中間的被稱為“混合實(shí)境(Mixed Reality)”。其中靠近真實(shí)環(huán)境的是增強(qiáng)現(xiàn)實(shí)(Augmented Reality),靠近虛擬環(huán)境的則是擴(kuò)增虛境(Augmented Virtuality)。

2 技術(shù)原理

2.1顯示技術(shù)

用于AR 的顯示器有頭盔顯示器( Head-Mounted Displays, HMD) , 手持顯示器( Hand-Held Displays) 和投影顯示器( Pro jection Displa ys) 。

2.2跟蹤和定位技術(shù)

為了交互, AR 需要進(jìn)行定位, 因而準(zhǔn)確地跟蹤用戶的位置和視域方向是十分重要的。 對(duì)于室內(nèi)環(huán)境, 通常預(yù)先在已知的位置上放置基準(zhǔn)的標(biāo)記, 通過跟蹤這些標(biāo)記跟蹤真實(shí)對(duì)象,從而擴(kuò)大跟蹤范圍。 目前在準(zhǔn)備好的室內(nèi)環(huán)境中, 能夠?qū)崿F(xiàn)魯棒性定位。 對(duì)于室外、移動(dòng)的AR 應(yīng)用, 一般使用GPS 或Dead Reckoning 技術(shù)跟蹤計(jì)算對(duì)象在戶外的實(shí)時(shí)位置。 但這也有很大的局限性, 如GPS 需要天空能見度很高。另外,還可以跟蹤可見的自然特征( 如環(huán)境中已有的、不變對(duì)象)。 如果有環(huán)境數(shù)據(jù)庫(kù), 那么就可以根據(jù)跟蹤可見的水平輪廓或已繪制的周圍建筑物的預(yù)知視圖, 與視頻進(jìn)行匹配。另外, 給定有限的一組已知特征點(diǎn), 跟蹤系統(tǒng)能夠自動(dòng)地選擇和測(cè)量環(huán)境中新的特征點(diǎn)。但是, 目前這些方法還不支持實(shí)時(shí)運(yùn)行, 而更適于特效和后期制作的應(yīng)用。

完全控制定位錯(cuò)誤比較困難, 因?yàn)閼?yīng)用需要的精確度越高, 引起錯(cuò)誤的源就越多. 我們把這種源分成兩類: 靜態(tài)的和動(dòng)態(tài)的。 靜態(tài)源是指當(dāng)用戶的視點(diǎn)和環(huán)境中的物體保持靜止時(shí)引發(fā)的錯(cuò)誤, 主要有: 光學(xué)的變形, 跟蹤系統(tǒng)誤差, 機(jī)械誤差和視覺參數(shù)誤差。 動(dòng)態(tài)源是指錯(cuò)誤由用戶的視點(diǎn)或環(huán)境中的物體移動(dòng)引起的, 主要是延遲錯(cuò)誤和預(yù)測(cè)位置錯(cuò)誤。

2.3 界面和可視化

2.3.1錯(cuò)誤估計(jì)的可視化

AR 系統(tǒng)定位錯(cuò)誤很難避免, 解決的方法有兩個(gè): 一是根據(jù)預(yù)測(cè)的跟蹤和測(cè)量錯(cuò)誤, 在屏幕中可視化地顯示一塊區(qū)域,以繪制對(duì)象。 二是當(dāng)繪制被真實(shí)對(duì)象遮擋的虛擬對(duì)象時(shí), 沿著遮擋區(qū)域的邊緣, 逐漸地淡出隱藏的虛擬對(duì)象, 使定位錯(cuò)誤減少。

2.3.2數(shù)據(jù)密度

如果用大量的虛擬信息增強(qiáng)真實(shí)世界, 那么顯示就會(huì)變得混亂和不易讀。 Julier使用基于空間交互模型, 把所顯示的信息量減少到最小, 只在視圖中保留重要的信息。

2.3.3真實(shí)感繪制

在AR 應(yīng)用中, 改善虛擬對(duì)象繪制質(zhì)量的關(guān)鍵是能夠自動(dòng)獲取環(huán)境的光照和反射信息。 目前有三個(gè)方法: 使用模型估計(jì)光照參數(shù), 基于圖像的繪制, 以及動(dòng)態(tài)范圍的光照獲取。

2.3.4調(diào)節(jié)現(xiàn)實(shí)

為了刪除真實(shí)對(duì)象系統(tǒng)必須能夠分割場(chǎng)景中的單獨(dú)對(duì)象Lepet it論述了一個(gè)半自動(dòng)的方法, 通過輪廓區(qū)分對(duì)象和它們?cè)趫?chǎng)景中的位置, 在某些情況下, 無(wú)需對(duì)環(huán)境進(jìn)行3D 重構(gòu), 就能夠插入虛擬對(duì)象以及刪除真實(shí)對(duì)象。

2.4標(biāo)定技術(shù)

為了生成準(zhǔn)確的定位, AR 系統(tǒng)需要進(jìn)行大量的標(biāo)定. 測(cè)量的值包括: 攝像機(jī)參數(shù), 視域范圍, 傳感器的偏移, 對(duì)象定位以及變形等. 目前AR 標(biāo)定使用攝像機(jī)標(biāo)定原理, 以及許多手動(dòng)AR 標(biāo)定技術(shù). 避免進(jìn)行標(biāo)定的一個(gè)方法是開發(fā)標(biāo)定自由的繪制器. Kutulako s 和Vallino提出基于弱透視投影模型的標(biāo)定自由AR 方法, Seo 和Hong把這個(gè)方法擴(kuò)展到覆蓋弱透視投影, 支持傳統(tǒng)的光照技術(shù)。 另外, 為了減少標(biāo)定需要,必須自動(dòng)標(biāo)定, 這需要使用冗余的傳感器信息, 自動(dòng)地測(cè)量和補(bǔ)償變化的標(biāo)定參數(shù)。

3特點(diǎn)及優(yōu)點(diǎn)

3.1特點(diǎn)

3.1.1 Combines real and virtual(虛實(shí)結(jié)合)

虛擬現(xiàn)實(shí)技術(shù)依靠三維軟件構(gòu)建出虛擬世界,通過各種輸出方式讓人在軟件所創(chuàng)建的世界里有非同尋常的體驗(yàn),好的虛擬現(xiàn)實(shí)作品具備浸沒感、交互性和構(gòu)想性。而AR技術(shù),將這種特性帶回真實(shí)世界,讓計(jì)算機(jī)創(chuàng)造出來的虛擬世界與真實(shí)世界合為一體,帶來前所未有的感官?zèng)_擊。

3.1.2 Interactive in real time(即時(shí)交互)

即時(shí)交互是虛擬現(xiàn)實(shí)的主要特點(diǎn),源于虛擬現(xiàn)實(shí)的AR技術(shù)同樣具備這一特點(diǎn)。實(shí)時(shí)的三維交互是構(gòu)建優(yōu)秀虛擬環(huán)境的基礎(chǔ)。同時(shí),AR系統(tǒng)的即時(shí)交互與現(xiàn)實(shí)環(huán)境結(jié)合在一起,效果要優(yōu)于依靠硬件環(huán)境的虛擬現(xiàn)實(shí)。

3.1.3 Registered in 3-D(3D定位)

AR技術(shù)與真實(shí)環(huán)境相結(jié)合主要體現(xiàn)在所讀出的3D模型可以由目標(biāo)圖片或物體來控制移動(dòng)旋轉(zhuǎn),以及通過更多的方式來做更多的交互。AR技術(shù)區(qū)別于目前相當(dāng)流行的二維碼技術(shù)的重要一點(diǎn),二維碼對(duì)于手機(jī)、攝像頭之類的讀取設(shè)備有嚴(yán)格的角度和距離要求,而AR系統(tǒng)在同樣的問題上則自由很多。

3.2優(yōu)點(diǎn)

AR系統(tǒng)的優(yōu)點(diǎn)主要包含兩方面:

1)AR技術(shù)能夠?qū)崿F(xiàn)虛擬事物和真實(shí)環(huán)境的結(jié)合,讓真實(shí)世界和虛擬物體共存;

2)AR實(shí)現(xiàn)虛擬世界和真實(shí)世界的實(shí)時(shí)同步,滿足用戶在現(xiàn)實(shí)世界中真實(shí)地感受虛擬空間中模擬的事物,增強(qiáng)用戶體驗(yàn)效果。

4硬件

4.1顯示設(shè)備

4.1.1頭罩式裝置HMD(Head-Mounted Display)

技術(shù)大概分成光學(xué)式(Optical)與影像(Video)兩種,前者是一種透明裝置,使用者可以直接透過這層看到真實(shí)世界的影像,然后會(huì)有一些另外的投影裝置把虛擬影像投射在這層透明裝置上。另外一種是不透明裝置,使用者看到的是由電腦處理好、已虛實(shí)結(jié)合的影像。

4.1.2智能手機(jī)

最近幾年開始流行起來的智能手機(jī),改變了AR的樣貌。頭戴式的HMD還是太麻煩了,而智能手機(jī)同時(shí)具備電腦計(jì)算能力、錄影、影像顯示,還有GPS、網(wǎng)路連線、觸控、傾斜度偵測(cè)等等的額外功能,價(jià)格也逐漸平民化,于是在智能手機(jī)為平臺(tái)的AR研究越來越多。

4.2攝像頭

Occipital聯(lián)合創(chuàng)始人Vikas Reddy在郵件訪談中談到,AR技術(shù)尚未發(fā)揮出它全部的潛力。這是由于目前追蹤和測(cè)繪現(xiàn)實(shí)的技術(shù)水平有限。但Reddy預(yù)測(cè),隨著計(jì)算機(jī)視覺算法和硬件設(shè)備的發(fā)展,攝像頭將成為最重要的傳感器和輸入設(shè)備,這不僅僅是AR實(shí)景技術(shù)方面的趨勢(shì),也是整個(gè)計(jì)算機(jī)產(chǎn)業(yè)的趨勢(shì)。

4.3傳感器

在AR系統(tǒng)中眾多的傳感器是實(shí)現(xiàn)交互的硬件基礎(chǔ)。運(yùn)用比較多的是紅外傳感器、壓力傳感器、溫度傳感器、光電傳感器等,比較具有代表性的例子是微軟開發(fā)的基于XBOX 360的Kinect。Kinect是微軟在2009年6月2日的E3大展上正式公布的XBOX360體感周邊外設(shè),它徹底顛覆了游戲的單一操作,使人機(jī)互動(dòng)的理念更加徹底的展現(xiàn)出來。

4.4存儲(chǔ)傳輸

作為承載系統(tǒng)主體文件和承接輸入設(shè)備及輸出設(shè)備的重要中轉(zhuǎn)站,AR系統(tǒng)對(duì)于計(jì)算機(jī)的硬件要求相對(duì)較高。

4.5操控設(shè)備

虛擬現(xiàn)實(shí)系統(tǒng)與AR系統(tǒng)基于展示內(nèi)容的特點(diǎn)會(huì)有針對(duì)性的操控設(shè)備。目前運(yùn)用比較多的是數(shù)據(jù)手套與頭部跟蹤設(shè)備,其中頭部跟蹤設(shè)備主要是眼鏡和頭盔。數(shù)據(jù)手套主要依靠在指關(guān)節(jié)處的傳感器來識(shí)別各種手勢(shì),不同的手勢(shì)分別代表各種指令會(huì)讓系統(tǒng)作出相應(yīng)的反應(yīng)。頭部跟蹤設(shè)備主要依靠電磁感應(yīng)技術(shù)或紅外捕捉技術(shù),都是通過識(shí)別頭部運(yùn)動(dòng)來達(dá)到控制目的,其中紅外捕捉技術(shù)的敏感度與刷新率要優(yōu)于電磁感應(yīng)技術(shù),谷歌新推出的谷歌眼鏡就運(yùn)用了該技術(shù)。

5應(yīng)用現(xiàn)狀及展望

5.1谷歌眼鏡

谷歌眼鏡(Google Project Glass)是由谷歌公司于2012年4月的一款“拓展現(xiàn)實(shí)”眼鏡,它具有和智能手機(jī)一樣的功能,可以通過聲音控制拍照,視頻通話和辨明方向以及上網(wǎng)、處理文字信息和電子郵件等。

硅谷的未來可穿戴設(shè)備資深研究人員邁克爾·萊候德(Michael Liebhold)預(yù)計(jì),下一步的技術(shù)突破將是模糊現(xiàn)實(shí)世界和虛擬世界的界限。Google眼鏡所代表的可穿戴式設(shè)備將成為科技界的“下一件大事情”。用布林的話說,在溝通的終極形式里,技術(shù)應(yīng)當(dāng)是隱形的。Google眼鏡展示了未來的一種形態(tài),它可能是我們未來搜索的入口,革新互聯(lián)網(wǎng)和現(xiàn)實(shí)中人際交流的方式。“當(dāng)技術(shù)開始隱身時(shí),我們將不再受技術(shù)的限制。可穿戴電腦技術(shù)可以讓我們不再?gòu)?英寸屏幕中去窺探生活。我們?cè)僖膊挥脮r(shí)不時(shí)地看看手機(jī),相反的,這些可穿戴設(shè)備會(huì)回望著我們?!?/p>

5.2 IPhone Apps

1) “紐約近在咫尺”:這款應(yīng)用讓你發(fā)現(xiàn)一個(gè)你從未發(fā)現(xiàn)的紐約。只要將鏡頭對(duì)準(zhǔn)紐約街頭的指路牌,相關(guān)街道的信息與真實(shí)畫面疊加讓你對(duì)每條街道都“一覽無(wú)遺”,保證不會(huì)讓你在“大蘋果”中迷路。當(dāng)然你換個(gè)城市就需要換一個(gè)當(dāng)?shù)匕姹尽?/p>

2) “全景透視”:這是一款很有意思的AR應(yīng)用,它用二維圖形以具有透視感的畫面為你提供關(guān)于你所在地的四周地理信息,例如告訴你周圍有幾座山峰以及他們的名字,讓你在野外露營(yíng)的時(shí)候不至于迷失。