計算機視覺前沿技術(shù)范文
時間:2023-12-28 17:38:16
導(dǎo)語:如何才能寫好一篇計算機視覺前沿技術(shù),這就需要搜集整理更多的資料和文獻,歡迎閱讀由公文云整理的十篇范文,供你借鑒。
篇1
最近幾年,自動駕駛成為當(dāng)下最為熱門的科技領(lǐng)域之一,許多企業(yè)紛紛將目光轉(zhuǎn)向該領(lǐng)域,諸如谷歌、百度、英特爾、Uber、豐田、本田、福特等科技和車企巨頭都在該領(lǐng)域有相關(guān)研究。在國內(nèi),除了高舉無人車大旗的百度,許多創(chuàng)業(yè)公司也在研究自動駕駛技術(shù),圖森互聯(lián)即其中之一。
9月19日,國內(nèi)計算機視覺與人工智能創(chuàng)業(yè)企業(yè)圖森互聯(lián)宣布,他們研發(fā)的計算機視覺與深度學(xué)習(xí)算法在全球最權(quán)威、最具影響力的自動駕駛算法公開排行榜KITTI和Cityscapes評測數(shù)據(jù)集上均獲得世界第一。僅KITTI數(shù)據(jù)集中,圖森互聯(lián)獲得目標(biāo)檢測三個單項、目標(biāo)追蹤兩個單項、道路分割四個單項,共計九個單項的全部世界第一。
那么,在當(dāng)前,自動駕駛技術(shù)究竟有哪些等級?市面上的自動駕駛技術(shù)都有哪些陣營?產(chǎn)品落地情況又如何?基于這些問題,《汽車觀察》記者對有著十年并行和分布式運算研究經(jīng)歷、曾是淡馬錫國家實驗室研究員、現(xiàn)為圖森互聯(lián)聯(lián)合創(chuàng)始人的南洋理工大學(xué)博士郝佳男進行了獨家采訪。以下為部分采訪實錄:
《汽車觀察》:圖森做自動駕駛技術(shù)項目的初衷是什么,單純就是看到了這塊的市場需求與前景嗎?
郝佳男:首先,圖森是做圖像識別SaaS起家,在技術(shù)上有一定的積累,自動駕駛所用到的計算機視覺感知技術(shù)和圖像識別SaaS在很多方面是同源的;另外,對于自動駕駛,特別是主要基于視覺傳感器的自動駕駛,有很高的技術(shù)壁壘,圖森能夠很好地發(fā)揮自己的長處;第三,運營車輛對自動駕駛和無人駕駛存在較大的需求,因為自動駕駛和無人駕駛可以極大地減少這些運營車輛企業(yè)的人力成本和潛在的安全風(fēng)險,而且無人車可以持續(xù)運營,這對企業(yè)來說是生產(chǎn)效率的飛躍。
《汽車觀察》:目前,在國際上自動駕駛技術(shù)分為幾個等級?圖森的自動駕駛技術(shù)又是幾級的技術(shù)?在國內(nèi)外算是一個什么水平?
郝佳男:目前自動駕駛有L1-L5五個等級,L5是人們最期待的完全無人駕駛水平,眾人熟知的谷歌無人駕駛在目前只能算是L4級水平。圖森的主要目標(biāo)是通過低成本傳感器實現(xiàn)可靠的L3級別無人駕駛。
目前行業(yè)內(nèi)的標(biāo)桿是以色列的Mobileye。但目前Mobileye量產(chǎn)的芯片依然使用傳統(tǒng)非深度學(xué)習(xí)算法,因此在一些特定場景中(如車側(cè)面、非常見車型等)會出現(xiàn)錯誤。最近Tesla發(fā)生的車毀人亡事故就一個例子。圖森的技術(shù)方案基于深度學(xué)習(xí)構(gòu)建,能夠?qū)崿F(xiàn)更可靠的性能。
《汽車觀察》:目前的自動駕駛技術(shù)有哪幾類?它們的本質(zhì)區(qū)別在哪里?分別有哪些優(yōu)勢?
郝佳男:目前,市面上共有兩種解決方案:一種是計算機視覺為主、毫米波雷達為輔的低價解決方案;另一種是激光雷達為主、以攝像頭為輔的高價解決方案。
以谷歌和百度為代表的是以激光雷達為主、攝像頭為輔的高價解決方案,成本在50萬以上。比如Google的無人駕駛車輛,在這個技術(shù)路線中,車輛完全由人工智能來駕駛,可以將車輛的方向盤、油門和剎車去掉,同時,為了增加技術(shù)的可靠性,Google無人駕駛汽車以激光雷達為核心,一個64線的激光雷達成本在7萬美元左右,整體解決方案較貴。另外,激光雷達的硬件可靠性一般,也很難達到車規(guī)需求。但是這兩家上市企業(yè)出于市值管理的考慮,在這方面不計成本。對他們來說,新技術(shù)所能達到的程度帶來的新聞和公關(guān)效力,會大幅地抬高股價。但這種成本過高的技術(shù),在商業(yè)化應(yīng)用時會比較困難。
而選擇低價解決方案更容易被車廠、受眾所接受。以特斯拉、奔馳、沃爾沃等車廠為代表的漸進型自動駕駛,即先從輔助駕駛開始做起,在特定場景、或是特定的封閉結(jié)構(gòu)化路段適用,做出緊急剎車、自適應(yīng)巡航、車道保持、自動泊車等動作,后續(xù)涉入高度自動駕駛,即除了結(jié)構(gòu)化路段外,還能在非結(jié)構(gòu)化道路上自動駕駛。
圖森就屬于低價解決方案,即選擇低成本的硬件(毫米波雷達、視覺傳感器、高性能SoC),配合計算機視覺算法來降低總成本。傳感器承擔(dān)的精度要求降下來,那么對算法的要求就比較高了。
《汽車觀察》:目前的自動駕駛技術(shù)是如何實現(xiàn)自動駕駛的?能實現(xiàn)到怎樣程度的自動駕駛?
郝佳男:自動駕駛系統(tǒng)使用了多種傳感器來感知,其中可視為廣義“視覺”的有超聲波雷達、毫米波雷達、激光雷達(LiDAR)和攝像頭等。毫米波雷達和激光雷達承擔(dān)了主要的中長距測距和環(huán)境感知,而攝像頭主要用于交通信號燈、車輛、行人等物體的識別。
攝像頭拍到的視頻其實也是由一幀幀圖像形成。拍下來是一回事,通過計算得出圖像里的行人、車輛、信號燈等結(jié)構(gòu)化數(shù)據(jù)則是另一回事。在過去,這被視為不可想象的任務(wù)。但深度學(xué)習(xí)的發(fā)展讓基于視覺的感知技術(shù)獲得了大幅度提升,基于視覺的環(huán)境感知變得可行了。
《汽車觀察》:目前,市面上的自動駕駛技術(shù)在產(chǎn)品化的情況如何?有沒有落地的產(chǎn)品正在運營?
郝佳男:對于整個自動駕駛行業(yè)來說,產(chǎn)品化需要漫長的時間,可能需要2-3年的時間。圖森主要還是為主機廠和Tier1(一級零部件供應(yīng)商)提供以攝像頭為主、配合毫米波雷達和視覺芯片的、低成本的自動駕駛解決方案。
《汽車觀察》:自長安的無人駕駛路試后,國家開始出臺相關(guān)禁止自動駕駛路試的政策,這樣一來,整個研發(fā)自動駕駛技術(shù)的企業(yè)又該如何測試自己的技術(shù)?如何看待國家有關(guān)自動駕駛這方面的政策?
篇2
(1.清華大學(xué)電子工程系,北京100084;2.英特爾(中國)有限公司,北京100()13)
摘要:媒體與認(rèn)知實驗課程是清華大學(xué)電子工程系在課程改革中提出的一門全新的核心必修課程。文章首先闡述該課程的特點,然后介紹基于英特爾RealSense設(shè)備及微軟Kinect設(shè)備開發(fā)的一套探索前沿型實驗教學(xué)平臺,分別說明基于手勢識別的博弈游戲?qū)嶒烅椖亢突谧藙葑R別的組合拍照實驗項目,指出通過這些前沿的基于交叉學(xué)科的智能感知技術(shù)和內(nèi)容,學(xué)生可以掌握成為本領(lǐng)域高層次專業(yè)人才必需的各項基本技能和專業(yè)知識。
關(guān)鍵詞 :RealSense;媒體認(rèn)知;智能感知;機器學(xué)習(xí);人機交互
文章編號:1672-5913(2015)15-0108-03 中圖分類號:G642
基金項目:英特爾一清華媒體與認(rèn)知實驗教學(xué)項目( 202023011)。
第一作者簡介:楊毅,女,高級工程師,研究方向為數(shù)字信號處理,yangyy@mail.tsinghua.edu.cn。
1 背景
媒體與認(rèn)知實驗課程借鑒包括美國MIT大學(xué)、CMU大學(xué)、Stanford大學(xué)、英國倫敦大學(xué)學(xué)院等在內(nèi)的國外著名大學(xué)跨媒體信息處理、入機交互與感知技術(shù)、虛擬現(xiàn)實及信號處理領(lǐng)域?qū)嶒灲虒W(xué)課程的特點,并結(jié)合清華大學(xué)電子工程系在該領(lǐng)域研究的基礎(chǔ)、優(yōu)勢和創(chuàng)新性成果,有針對性地將已有科研成果轉(zhuǎn)化為教學(xué)實驗課中的教學(xué)內(nèi)容,通過建設(shè)一套完整、全面的涵蓋人機感知交互、媒體信息處理、虛擬現(xiàn)實及信號處理領(lǐng)域的探索前沿型實驗教學(xué)平臺,培養(yǎng)學(xué)生的智能感知技術(shù)開發(fā)能力;同時,采用集體創(chuàng)新培養(yǎng)和個人研究探索相結(jié)合的方式,最終達到理工與人文、技術(shù)與藝術(shù)、感知與思考的高度融合,成為具有國際一流水平的、兼具科研創(chuàng)新能力和探索精神的領(lǐng)軍型人才。
實驗教學(xué)課程內(nèi)容及平臺涉及的主要研究內(nèi)容包括媒體數(shù)據(jù)獲取與人機交互、生物特征識別、語音識別及情感理解、虛擬交互行為分析等。該實驗課程力圖建設(shè)成為達到國際水平的智能感知技術(shù)實驗教學(xué)課程及項目平臺。通過該實驗課程的建立,學(xué)生能夠了解國際科學(xué)界及工業(yè)界最前沿的媒體認(rèn)知及智能感知技術(shù)熱點和難點問題,利用平臺的基礎(chǔ)設(shè)施和設(shè)備構(gòu)建并實施多種解決方案??缧袠I(yè)、跨領(lǐng)域、跨學(xué)科的媒體認(rèn)知及智能感知類前沿綜合實驗課程,通過借助智能感知及人機交互知識作為工具和手段解決媒體信息處理、虛擬現(xiàn)實及人機交互的問題,充分挖掘和激發(fā)理工科背景知識較佳的電子工程系學(xué)生在交叉學(xué)科和前沿技術(shù)方面的實力和潛力。
2 媒體與認(rèn)知實驗課程特點
媒體與認(rèn)知實驗設(shè)計開發(fā)了一套以實時智能感知技術(shù)為基礎(chǔ)的探索前沿型實驗教學(xué)平臺,該平臺在設(shè)備和設(shè)計內(nèi)容方面均與國際水平接軌,具有教學(xué)互促、知識延伸、技能拓展的特點。項目平臺涵蓋跨媒體信息處理、人機交互與感知技術(shù)、虛擬現(xiàn)實等領(lǐng)域的設(shè)備和技術(shù),力圖成為與國際接軌的探索前沿型實時智能感知實驗教學(xué)平臺。
該課程涉及的技術(shù)和研究方向均為國內(nèi)外智能感知技術(shù)領(lǐng)域各大高校和科研院所的研究熱點及難點,將這些研究內(nèi)容引入實驗教學(xué),可以引導(dǎo)本科學(xué)生開闊科研視野、堅定科研信念和明確科研方向。通過構(gòu)建與國際最新研發(fā)技術(shù)水平相當(dāng)?shù)膶嶒炂脚_,學(xué)生能夠了解國際領(lǐng)先的媒體認(rèn)知及信號處理知識和技能,利用該平臺的基礎(chǔ)設(shè)備構(gòu)建并實施多種解決方案;教學(xué)最終達到培養(yǎng)掌握國際領(lǐng)先技術(shù)、具有突出創(chuàng)新實踐能力和持續(xù)探索精神的高素質(zhì)人才的目的。
該平臺內(nèi)容主要面向各年級本科生及碩士研究生,與基礎(chǔ)核心課、專業(yè)限選課等課程配套,逐步形成層次清晰、逐級擴展的具有創(chuàng)新探索前沿性質(zhì)的智能感知技術(shù)教學(xué)實驗課程體系。
3 基于手勢識別的媒體認(rèn)知實驗項目
人機交互的雙向信息流動是以媒體感知和處理為核心的。人將用戶感覺和效應(yīng)通道傳遞的交互意圖在計算機內(nèi)表示為文本、語音、圖形、圖像等多媒體信息。人到機( human to computer)信息流動是多媒體信息的獲取及識別過程,計算機處理的信息需要以文本、語音、圖形、圖像等用戶理解概念所需的多媒體信息形式展現(xiàn)出來;機到人( computer to human)的信息流動是多媒體信息的合成和呈現(xiàn)過程,機器利用感知及推理對來自用戶感覺和效應(yīng)通道的跨媒體信息進行識別、集成和協(xié)調(diào),獲取用戶動作和行為習(xí)慣、偏好及其他相關(guān)信息,以人類易理解的多媒體信息方式為用戶提供輸出信息,從而提供不受時空限制而效能最大化的個性化計算服務(wù)。
美國Stanford大學(xué)電子工程系提出一種基于Kinect的手勢識別方法,通過Kinect獲取RGB圖像信息和深度數(shù)據(jù),采用SURF變換算法實現(xiàn)高準(zhǔn)確度的手勢識別。西班牙馬德里卡洛斯大學(xué)機器人實驗室( Robotics Lab,Univ. Carlos IIIof Madrid Leganes,Spain)針對傳統(tǒng)的手勢識別系統(tǒng)受光照條件影響導(dǎo)致計算量大、訓(xùn)練過程長等問題,根據(jù)RGB-D攝像頭獲取的深度數(shù)據(jù)建立人手的骨骼模型,從三維骨骼模型中提取手勢的時域信號,采用有限狀態(tài)機對手勢不同狀態(tài)下的方向進行編碼,采用基于模板的分類器識別出手勢。瑞士蘇黎世聯(lián)邦理工大學(xué)計算機視覺實驗室( Computer Vision Lab,ETH Zurich,Zurich,Switzerland)提出一種基于Haarlet的手勢識別系統(tǒng),根據(jù)微軟Kinect設(shè)備獲取的深度信息檢測手勢的三維指向,將手勢轉(zhuǎn)換為交互命令,提高了人與機器人交互的自然性。
石頭、剪子、布、蜥蜴、史波克( Rock-Paper-scissors-Lizard-Spock)是一種由石頭、剪子、布延伸出來的博弈論猜拳游戲,在石頭、剪子、布基礎(chǔ)上增加了兩種手勢,減少了原來石頭、剪子、布游戲和局的幾率。該游戲的手勢及輸贏說明如圖1所示(圖來自百度圖片搜索)。
英特爾的RealSense設(shè)備是一種能通過采集視覺、深度,音頻等多種媒體信息獲得手勢、語音等表征意圖的智能感知設(shè)備,可以廣泛應(yīng)用于自然互動、沉浸式協(xié)作與創(chuàng)作等創(chuàng)新應(yīng)用,能夠幫助開發(fā)人員在游戲、娛樂和內(nèi)容創(chuàng)建交互方面實現(xiàn)新的突破。該實驗項目通過利用全新的英特爾三維智能感知設(shè)備RealSense,可以實現(xiàn)上述手勢識別的智能感知功能。該實驗設(shè)置多種難度,將簡單難度設(shè)置為電腦隨機出拳;針對高等難度則需要學(xué)習(xí)用戶的出拳模式并構(gòu)建一個馬爾科夫模型,電腦針對用戶的出拳模式進行相應(yīng)出拳?;赗ealSense識別的5種手勢如圖2所示,可以看出ReaISense設(shè)備對不同手勢的區(qū)分度較高。
4 基于姿勢識別的媒體認(rèn)知實驗項目
人體的三維模型包含足夠的信息以描述人體的運動特征,對于體感交互設(shè)計而言,姿態(tài)識別、動作識別、手勢識別非常重要。微軟推出的Kinect設(shè)備與計算機軟件開發(fā)包一起使用,為企業(yè)和開發(fā)者提供創(chuàng)建交互式應(yīng)用程序的基礎(chǔ),允許開發(fā)者借助微軟或語言開發(fā)相關(guān)應(yīng)用,提供骨豁跟蹤、人臉跟蹤、語音識別技術(shù)等底層功能?;贙inect設(shè)備開發(fā)的平臺和應(yīng)用獲得了不錯的效果。藝術(shù)家通過人體組合姿勢構(gòu)成英文里的各種字母形象,如圖3所示。
該實驗項目通過利用Kinect實現(xiàn)人體字母造型識別,在造型匹配某個特定字母或組合時觸發(fā)拍照,解決在實際拍照過程中為了擺出某一特定造型需要多次重復(fù)大量拍攝的問題?;舅悸肥抢肒inect的人體識別功能,在攝像頭獲得的圖像中提取出人置信息,然后將人置信息在本地程序中與預(yù)設(shè)的目標(biāo)造型進行匹配,只有當(dāng)匹配程度到達一定值的時候,程序才觸發(fā)拍攝事件并將圖像保存。系統(tǒng)由5個模塊組成:初始化、人體識別、計算匹配度、圖形顯示和拍照觸發(fā)。其中,初始化模塊屬于主窗口類,內(nèi)部由時間進行關(guān)聯(lián),其他模塊各為一類,分別通過調(diào)用函數(shù)和嵌入窗體的方式使用,其算法框架如圖4所示。系統(tǒng)運行過程中,計算出的匹配數(shù)值會直接顯示在屏幕上,同時彈出提示字幕,向用戶反饋其姿勢準(zhǔn)確程度。
篇3
所謂智能制造,是將物聯(lián)網(wǎng)、大數(shù)據(jù)、云計算等新一代信息技術(shù)與先進自動化技術(shù)、傳感技術(shù)、控制技術(shù)、數(shù)字制造技術(shù)結(jié)合,實現(xiàn)工廠和企業(yè)內(nèi)部、企業(yè)之間和產(chǎn)品全生命周期的實時管理和優(yōu)化的新型制造系統(tǒng)。
智能產(chǎn)品具有監(jiān)測、控制、優(yōu)化和自主等四個方面的功能。而智能生產(chǎn)是指以智能制造系統(tǒng)為核心,以智能工廠為載體,通過在工廠和企業(yè)內(nèi)部、企業(yè)之間以及產(chǎn)品全生命周期形成以數(shù)據(jù)互聯(lián)互通為特征的制造網(wǎng)絡(luò),實現(xiàn)生產(chǎn)過程的實時管理和優(yōu)化。
此次世界智能制造大會抓住智能制造這一世界經(jīng)濟熱點,洞察當(dāng)下全球前沿技術(shù)的競爭點,融政產(chǎn)學(xué)研為一爐予以共同關(guān)注。世界制造業(yè)正在經(jīng)歷一場變革、一場進化,生產(chǎn)將變得更加聰明,效率也就更高。此次大賓朋滿座,說明企業(yè)對智能制造充滿渴望,產(chǎn)業(yè)發(fā)展充滿動力。這場大會是科技思維的饕餮盛宴,必將碰撞出大機遇。
智能制造是中國制造業(yè)由大轉(zhuǎn)強的核心戰(zhàn)略選擇,更是中國經(jīng)濟增長變速換擋走向新里程的標(biāo)志。歷經(jīng)30多年的高速發(fā)展,中國在2015年已成為世界制造業(yè)第一大國,建成了世界上門類最為齊全的現(xiàn)代制造業(yè)體系,中國制造業(yè)一直是國家經(jīng)濟發(fā)展的重心,一度使中國成為世界工廠的代名詞,創(chuàng)造過無數(shù)讓國人引為榮耀的輝煌。然而,中國制造在發(fā)展質(zhì)量、創(chuàng)新能力、品牌塑造方面,與發(fā)達國家相比仍有較大差距,大而不強的問題一直是急需破解的瓶頸,依托資源消耗和人力成本低廉的路徑選擇越來越艱難,低端的傳統(tǒng)優(yōu)勢日趨衰弱,向著東南亞的新一輪國際產(chǎn)業(yè)轉(zhuǎn)移凸顯中國制造大而不強的尷尬。中國制造亟待在科技創(chuàng)新、智能制造的引領(lǐng)中強筋壯骨,在著力提升生產(chǎn)率的轉(zhuǎn)型中浴火重生,以獲得經(jīng)濟中高速增長。
如果說過去3年中國制造在轉(zhuǎn)型中“熱身”,試圖打開一扇窗戶向外瞧,那么這場大會就是一個全新的里程碑――以最先進的智能制造思想武裝自己,開辟新的航程。
智能制造給世界帶來新活力,給中國帶來新發(fā)展。瓦特的蒸汽機,在轟鳴聲中不但改變了他自己貧病交加的命運,也把整個人類帶進了工業(yè)社會,解放了生產(chǎn)力,促進了社會進步。喬布斯的“蘋果”,一機在手,包攬世界,億萬網(wǎng)民在刷屏中進入移動互聯(lián)時代,也助燃了信息化火焰燃遍全球。中國也在歡呼聲中見證“神九上天,蛟龍入?!钡纳衿妫@嘆中國制造尖端技術(shù)的鬼斧神功,制造業(yè)的數(shù)字化、網(wǎng)絡(luò)化、智能化為中國經(jīng)濟發(fā)展安裝了強勁的翅膀。
智能制造為世界經(jīng)濟提供新動能,提高生產(chǎn)率。世界經(jīng)濟不景氣,增長下向風(fēng)險的警報一直未能解除,亟需轉(zhuǎn)變發(fā)展方式,期待新動能除舊布新、改天換地。唯有人工智能等科技生產(chǎn)擔(dān)當(dāng)此重任,大幅提高生產(chǎn)率,促進經(jīng)濟的發(fā)展。依托自然語言處理、計算機視覺、機器學(xué)習(xí)等這些人工智能核心領(lǐng)域技術(shù)的發(fā)展,以生態(tài)科技、智能機器人、無人車、無人機等為代表的人工智能技術(shù)已漸趨成熟。由此撬動的相關(guān)產(chǎn)業(yè)鏈也將迎來巨大市場機會,可估商業(yè)利益至少在萬億量級。
智能制造將掀起新一輪企業(yè)淘汰浪潮。在歐美和日本有成百上千家百年企業(yè),但中國很多企業(yè)卻做著做著就夭折了,這與企業(yè)家的胸懷和眼光有密切關(guān)系。企業(yè)家要站得高,看得遠(yuǎn),轉(zhuǎn)型中高端才能有長久的生命力。這一輪智能制造大潮,讓傳統(tǒng)企業(yè)倍感壓力,跟上了,企業(yè)就往上走;跟不上,就要趴下去。
篇4
關(guān)鍵詞:數(shù)字媒體技術(shù);課程體系;實踐教學(xué)
0.引言
2003年,浙江大學(xué)在國內(nèi)首次開設(shè)數(shù)字媒體技術(shù)專業(yè)后,國內(nèi)各大高校根據(jù)自身的情況紛紛開設(shè)了該專業(yè),其中有些是從計算機科學(xué)與技術(shù)專業(yè)或軟件工程專業(yè)設(shè)置數(shù)字媒體技術(shù)專業(yè)(如浙江大學(xué)、江南大學(xué)),有些是從藝術(shù)專業(yè)中分離出該專業(yè)(如中國傳媒大學(xué)),而有些則依托自身在通信領(lǐng)域的優(yōu)勢開辦該專業(yè)(如北京郵電大學(xué))。這些高校在專業(yè)人才培養(yǎng)目標(biāo)中均強調(diào)“技術(shù)與藝術(shù)的結(jié)合”“培養(yǎng)復(fù)合型人才”,但他們的側(cè)重點不完全一致,工科院校強調(diào)“以技術(shù)為主藝術(shù)為輔”,而藝術(shù)類院校則強調(diào)“以藝術(shù)為主技術(shù)為輔”,這就造成了目前該專業(yè)在人才培養(yǎng)目標(biāo)上的不明確。2012年,教育部頒布了《普通高等學(xué)校本科專業(yè)目錄和專業(yè)介紹》,原數(shù)字媒體技術(shù)專業(yè)和影視藝術(shù)技術(shù)專業(yè)從電氣信息類下分離出來成為新目錄中計算機類下的數(shù)字媒體技術(shù)專業(yè),并規(guī)定該專業(yè)的培養(yǎng)目標(biāo)是“培養(yǎng)德、智、體等全面發(fā)展,掌握數(shù)學(xué)與自然科學(xué)基礎(chǔ)知識以及與數(shù)字媒體相關(guān)的計算機科學(xué)與技術(shù)、信息與通信工程等學(xué)科的基本理論、基本知識、基本技能和基本方法,具備良好的技術(shù)素質(zhì)和一定的藝術(shù)修養(yǎng),能在互動媒體、媒體網(wǎng)絡(luò)、新媒體工程等領(lǐng)域從事系統(tǒng)設(shè)計、開發(fā)與應(yīng)用工作的高級復(fù)合型人才?!毙履夸涍M一步規(guī)范了數(shù)字媒體技術(shù)專業(yè)的性質(zhì)、人才培養(yǎng)的基本要求以及培養(yǎng)的學(xué)生應(yīng)該掌握哪些知識,應(yīng)該具備什么樣能力,并要求在加強學(xué)生基本理論與方法的同時強調(diào)注重基本技能的培養(yǎng)。為此,在專業(yè)建設(shè)與教學(xué)過程中,必須增加實踐性強的課程,提高教學(xué)過程的實踐性,合理地開展實踐、實訓(xùn)活動,給學(xué)生提供較多的參與實踐和鍛煉的機會。
1.數(shù)字媒體技術(shù)專業(yè)課程與實踐教學(xué)模式
數(shù)字媒體專業(yè)是實踐性很強的專業(yè),在教學(xué)過程中既要制訂一套科學(xué)的課程體系,也要合理地安排實踐與實訓(xùn)活動,這些對學(xué)校的軟硬件條件提出了較高的要求。那么如何利用有限的資源條件,讓學(xué)生在掌握較扎實的專業(yè)理論知識的同時為學(xué)生創(chuàng)造更多的實踐、實訓(xùn)機會,是我們需要深入思考和研究的問題。結(jié)合江南大學(xué)數(shù)字媒體技術(shù)專業(yè)近幾年的辦學(xué)歷程,筆者以為,要全面提高專業(yè)課程教學(xué)和實踐教學(xué)水平,可從以下幾方面入手。
1.1創(chuàng)新科學(xué)的人才培養(yǎng)方案和課程體系
科學(xué)的人才培養(yǎng)方案是培養(yǎng)合格高校畢業(yè)生的根本保障。人才培養(yǎng)方案的制訂要結(jié)合高等學(xué)校的教育特點和自身條件,從市場和企業(yè)需求出發(fā),面向社會以適應(yīng)市場的發(fā)展規(guī)律。課程的設(shè)置要做到按需設(shè)置,在保證相對固定的情況下能適度調(diào)整,這樣才能培養(yǎng)出大批既掌握基本技能又能滿足社會需要的創(chuàng)新型應(yīng)用人才。
實現(xiàn)專業(yè)的培養(yǎng)目標(biāo),不是僅靠一門或幾門課程所能奏效的,而要靠全部專業(yè)課程來協(xié)調(diào)和補充。課程體系是否合理,直接關(guān)系到創(chuàng)新人才培養(yǎng)的成敗。根據(jù)江南大學(xué)目前的專業(yè)優(yōu)勢,在課程體系的設(shè)置中借鑒國內(nèi)外的成功經(jīng)驗,在加強學(xué)科交叉與滲透的同時強調(diào)以計算機技術(shù)為主、藝術(shù)為輔的教學(xué)模式,以體現(xiàn)“藝工結(jié)合”的辦學(xué)特色。
為達到專業(yè)人才培養(yǎng)的目標(biāo),在課程設(shè)置中我們將課程分為通識教育課程、學(xué)科平臺課程、專業(yè)核心課程、專業(yè)選修課程、集中實踐性環(huán)節(jié)以及素質(zhì)教育等6大類。其中,通識教育課程主要包括思想政治理論類課程、外語與自然科學(xué)基礎(chǔ)課程;學(xué)科平臺和專業(yè)核心課程主要是一些能體現(xiàn)專業(yè)特色的基礎(chǔ)必修課程和專業(yè)課程,包括一些藝術(shù)類課程,實現(xiàn)學(xué)科交叉與滲透;專業(yè)選修課程主要是一些專業(yè)拓展性課程,以激發(fā)學(xué)生學(xué)習(xí)的積極性、主動性和創(chuàng)造性,為學(xué)生個性化發(fā)展打下基礎(chǔ);集中實踐性環(huán)節(jié)安排在短學(xué)期(每學(xué)年的第二學(xué)期)進行,主要是針對已學(xué)過的課程而開設(shè)的綜合應(yīng)用與設(shè)計類課程,目的是加強學(xué)生的實踐動手能力,培養(yǎng)學(xué)生具有一定的自主創(chuàng)新應(yīng)用能力,以充分展示學(xué)生的個性化。
在課程的建設(shè)與執(zhí)行方面,除通識教育課程外,對其他課程根據(jù)設(shè)置、知識點、課程內(nèi)容之間的關(guān)聯(lián)性等采用課程鏈和課程群的方式進行,主要分為以下5大課程群:
(1)藝術(shù)類課程:素描、色彩與綜合構(gòu)成、藝術(shù)設(shè)計概論、平面設(shè)計、場景設(shè)計與表現(xiàn)、數(shù)字?jǐn)z影與攝像及視頻特技與非線性編輯。
(2)程序與算法類:離散數(shù)學(xué)、程序設(shè)計I(c)、程序設(shè)計II、數(shù)據(jù)結(jié)構(gòu)與算法分析、面向?qū)ο蠹夹g(shù)與語言C++、Java與對象分布技術(shù)、腳本編程技術(shù)、計算理論及云計算技術(shù)等。
(3)系統(tǒng)與硬件類:數(shù)字媒體技術(shù)概論、數(shù)字電路、計算機組成原理、操作系統(tǒng)、數(shù)據(jù)庫系統(tǒng)原理、匯編與接口、數(shù)據(jù)采集技術(shù)、數(shù)字視音頻技術(shù)、數(shù)字信號處理、計算機視覺、面向?qū)ο蟮能浖こ碳叭斯ぶ悄堋?/p>
(4)圖形圖像及應(yīng)用類:計算機圖形學(xué)、數(shù)字圖像處理技術(shù)、高級圖形技術(shù)及應(yīng)用、人機交互技術(shù)、流媒體開發(fā)技術(shù)、信息可視化、虛擬現(xiàn)實與數(shù)字娛樂、在線互動媒體技術(shù)、XML技術(shù)、數(shù)字安全技術(shù)及計算機前沿技術(shù)講座。
(5)網(wǎng)絡(luò)與動畫游戲類:計算機網(wǎng)絡(luò)、網(wǎng)站建設(shè)與網(wǎng)絡(luò)傳播、動畫原理與設(shè)計、動畫動力學(xué)與運動學(xué)、計算機動畫編程技術(shù)、移動媒體游戲設(shè)計及計算機游戲程序設(shè)計。
在以上課程體系中,要求各課程群內(nèi)的課程相關(guān)性較強并相互依托,而群間的課程相對獨立。通過對各課程群課程的設(shè)置、各課程的知識點與學(xué)分分配以及課程之間的內(nèi)容銜接等問題進行探討,可以加強不同課程間的銜接與協(xié)調(diào),使課程設(shè)置更加合理,教學(xué)效果也會得到進一步提升。另外,按課程群進行課程體系建設(shè),既可以充分發(fā)揮任課教師的專業(yè)特長,又能促進學(xué)生的個性化發(fā)展。
1.2強化動手能力的培養(yǎng),推進實踐教學(xué)改革
實踐教學(xué)是高校教學(xué)的重要組成部分,是培養(yǎng)創(chuàng)新型人才的重大環(huán)節(jié),是對理論教學(xué)的驗證、補充和拓展,它始終貫穿于高等教育的全過程。實踐教學(xué)環(huán)節(jié)是創(chuàng)新課程體系的一個重要環(huán)節(jié),能提高學(xué)生對理論教學(xué)的加深、提高和綜合運用,培養(yǎng)學(xué)生的創(chuàng)新精神和綜合素質(zhì)。建立完善的專業(yè)實踐教學(xué)體系,促進學(xué)生實踐能力和創(chuàng)新精神的培養(yǎng),我們從以下方面開展工作:
(1)完善實踐教學(xué)體系,積極開展課內(nèi)外實踐教學(xué)活動。制訂完善的實踐教學(xué)管理制度,加強對實踐課程的監(jiān)督與管理;編寫并適時修改實驗課程的教學(xué)大綱,推進實驗教學(xué)內(nèi)容、方法、手段及模式的改革與創(chuàng)新,培養(yǎng)學(xué)生發(fā)現(xiàn)、分析和解決問題的興趣及能力,在學(xué)生中開展研究性學(xué)習(xí)和創(chuàng)新型實驗的試驗。
(2)加強學(xué)生的實踐與實訓(xùn),做好校內(nèi)外實習(xí)基地的建設(shè)。實習(xí)基地是實施實踐教學(xué)環(huán)節(jié)的重要場所,是對學(xué)生進行專業(yè)技術(shù)技能訓(xùn)練和解決實際問題能力的訓(xùn)練。在校內(nèi),結(jié)合數(shù)字媒體學(xué)院的辦學(xué)宗旨和人才培養(yǎng)目標(biāo),除平時課程的實驗教學(xué)外,利用短學(xué)期(每學(xué)年的第二學(xué)期)進行專業(yè)課程設(shè)計,主要涉及面向?qū)ο笳n程設(shè)計、人機交互課程設(shè)計、三維建模、計算機組成課程設(shè)計、圖像處理課程設(shè)計、互動媒體課程設(shè)計、網(wǎng)絡(luò)游戲課程設(shè)計等。由專業(yè)指導(dǎo)教師布置課程的設(shè)計內(nèi)容,要求學(xué)生在一周時間內(nèi)完成,最終以大作業(yè)或作品的形式提供成果,并評定成績。通過課程設(shè)計,能培養(yǎng)學(xué)生運用所學(xué)理論知識解決某些實際問題的能力和獨立工作能力。在校外,我們聯(lián)合企業(yè)建立多個實訓(xùn)基地,為學(xué)生提供包括基本技能和綜合能力兩方面的真實的實踐環(huán)境。實訓(xùn)期間,學(xué)生頂崗培訓(xùn),并要求企業(yè)指定實訓(xùn)指導(dǎo)教師,負(fù)責(zé)對學(xué)生實訓(xùn)期間的技能培養(yǎng)、團隊協(xié)作與溝通以及組織管理等方面的指導(dǎo)。通過實訓(xùn),不僅培養(yǎng)學(xué)生解決實際應(yīng)用問題的能力,還能培養(yǎng)學(xué)生愛崗敬業(yè)、遵規(guī)守紀(jì)、團隊協(xié)作、市場競爭意識以及創(chuàng)新意識等綜合素質(zhì)。
(3)以項目為驅(qū)動,促進學(xué)生介入科研活動。以討論式教學(xué)、研究式學(xué)習(xí)、項目團隊等多種形式,引導(dǎo)學(xué)生開展多種學(xué)術(shù)觀點和思想的交鋒,追蹤本專業(yè)的最新發(fā)展前沿,提高自主學(xué)習(xí)和獨立研究能力。結(jié)合國家、省及校級大學(xué)生創(chuàng)新創(chuàng)業(yè)訓(xùn)練計劃,以項目的形式讓學(xué)有余力的學(xué)生通過自主選題或參與教師科研項目進行初步的探索性研究工作。在組建學(xué)生項目團隊時,要求團隊成員中既要有數(shù)字媒體技術(shù)專業(yè)的學(xué)生,也要有藝術(shù)專業(yè)的學(xué)生,以真正體現(xiàn)“藝工”結(jié)合的培養(yǎng)宗旨。這幾年的經(jīng)驗表明,讓學(xué)生參與科研項目,不僅培養(yǎng)了學(xué)生運用所學(xué)知識解決實際問題的能力,還能提高學(xué)生對專業(yè)的愛好及其學(xué)習(xí)激情和創(chuàng)新精神,讓學(xué)生在了解專業(yè)發(fā)展前沿的同時掌握從事科學(xué)研究的方法,為以后從事數(shù)字媒體工作打下了較好的基礎(chǔ)。
(4)切實加強畢業(yè)設(shè)計(論文)的組織與監(jiān)督工作。畢業(yè)設(shè)計(論文)環(huán)節(jié)是高校實現(xiàn)人才培養(yǎng)目標(biāo)、強化學(xué)生專業(yè)知識和專業(yè)技能、提高學(xué)生綜合素質(zhì)和創(chuàng)新能力的重要環(huán)節(jié),是高等學(xué)校本科生教學(xué)計劃的重要組成部分,是理論與實踐相結(jié)合、教學(xué)與科研和生產(chǎn)相結(jié)合的過程,因此它有著任何課堂教學(xué)或教學(xué)實習(xí)所不可替代的功能,在培養(yǎng)高級專門人才過程中有著特殊的地位。為提高畢業(yè)設(shè)計(論文)的質(zhì)量,必須制訂完善的規(guī)范與標(biāo)準(zhǔn),并對整個過程實行全程監(jiān)控。在畢業(yè)設(shè)計(論文)期間,我們將整個過程分為畢業(yè)生動員、學(xué)生選題、教師指導(dǎo)、質(zhì)量監(jiān)控以及評閱答辯等,時間從每年12月開始到次年的6月。指導(dǎo)教師由高級職稱或具有博士學(xué)位的教師擔(dān)任,根據(jù)專業(yè)要求及從事的科研工作每位指導(dǎo)教師確定題目,實現(xiàn)學(xué)生與教師的雙向選擇;學(xué)生選題后由指導(dǎo)教師下達具體的任務(wù),系部組織學(xué)生開題;實行中期檢查制度,對學(xué)生的工作進程進行監(jiān)控;嚴(yán)把畢業(yè)答辯關(guān)。通過畢業(yè)設(shè)計(論文)環(huán)節(jié),促進學(xué)生分析、解決實際問題和科學(xué)研究能力的提高,為他們走上工作崗位奠定良好基礎(chǔ)。
(5)開展多種形式的學(xué)術(shù)交流活動。為激發(fā)學(xué)生對專業(yè)學(xué)習(xí)的興趣,了解專業(yè)發(fā)展的最新動態(tài)和社會對專業(yè)的需求,聘請國內(nèi)知名學(xué)者和行業(yè)專家為學(xué)生開展多種形式的學(xué)術(shù)和主題講座。學(xué)術(shù)專家可以就專業(yè)現(xiàn)狀、發(fā)展方向和最新的研究成果為本科生進行介紹,激發(fā)學(xué)生對專業(yè)的熱愛和科學(xué)研究的興趣;行業(yè)專家則介紹一些新興產(chǎn)業(yè)的相關(guān)信息和發(fā)展現(xiàn)狀,結(jié)合行業(yè)進行一些技術(shù)培訓(xùn),讓廣大師生深入了解企業(yè)和社會的需求。組織學(xué)生參加“挑戰(zhàn)杯”大學(xué)生課外學(xué)術(shù)科技作品競賽、信息技術(shù)競賽等科技競賽活動,鼓勵學(xué)生努力追求夢想、迎接挑戰(zhàn),同時營造學(xué)院濃厚的學(xué)術(shù)氛圍,促進更加良好學(xué)風(fēng)的形成。
實踐教學(xué)始終貫穿于高等教育的全過程,要不斷改進實踐教學(xué)的方法和形式,把理論教學(xué)與實踐教學(xué)擺在同等重要的地位;要通過引導(dǎo)吸引高水平教師從事實踐教學(xué)工作,加強實驗、實習(xí)與實訓(xùn)、畢業(yè)設(shè)計(論文)等實踐教學(xué)環(huán)節(jié);要加強產(chǎn)學(xué)研合作,充分利用國內(nèi)外資源,不斷拓展校際、校企、校所之間的合作,做好校內(nèi)外實習(xí)基地的建設(shè);推進討論式教學(xué)、研究式學(xué)習(xí)、項目團隊等新型教學(xué)組織形式,提高學(xué)生自主學(xué)習(xí)和獨立研究能力。
篇5
關(guān)鍵詞:基于內(nèi)容圖像檢索;相關(guān)反饋;主動學(xué)習(xí);樣本選擇
中圖法分類號:TP391 文獻標(biāo)識號:A 文章編號:2095-2163(2013)04-
Research on Reference Feedback based on Active Learning
WU Weining, LIU Yang, GUO Maozu*, WANG Chunyu, LIU Xiaoyan
(School of Computer Science and Technology, Harbin Institute of Technology, Harbin, 150001)
Abstract: Reference feedback is a common technique in the field of information retrieval. Recently, it has been widely applied in the task of content-based image retrieval (CBIR) in order to overcome the gap between low features and high semantic concepts by utilizing the user-computer interaction. This paper combines the active learning into reference feedback technique. The goal is to choose the most informative images in the unlabeled pool as returned images by using the active learning, and then reduces the feedback times. On the COREL database and VOC database, the paper evaluates the proposed method. The experimental results indentify that the reference feedback based on active learning can effectively enhance the performance of CBIR system.
Keywords: Content-based Image Retrieval; Reference Feedback; Active Learning; Sampling Strategy
0 引言
相對文本而言,圖像包含的內(nèi)容則要豐富得多。由于互聯(lián)網(wǎng)的發(fā)展,web上的圖片數(shù)量正日趨龐大,圖像包含的語義信息亦千差萬別,另外具有相同語義信息的圖像數(shù)量頁在與日俱增。因此,作為信息檢索中一個重要分支,基于內(nèi)容的圖像檢索(CBIR)已成為關(guān)注熱點。
CBIR方法是以一幅圖像作為單位,通過使用圖像領(lǐng)域的前沿技術(shù),提取圖像的視覺特征,例如:顏色,紋理等。當(dāng)用戶查找圖像時,搜索引擎根據(jù)用戶所提供的圖像視覺特征,尋找與之相似的圖像。這一做法避免了TBIR策略存在的問題,可直接對圖像進行操作。但是,由于圖像處理技術(shù)的局限性,單純提取圖像底層特征很難完整描述圖像包含語義信息,并且,圖像所屬的不同領(lǐng)域,所包含的視覺對象之間具有的空間信息等,也會對圖像的語義信息產(chǎn)生很大的影響。為了使搜索引擎能夠根據(jù)用戶提供的高層語義概念返回與用戶選擇圖像語義最為接近的圖像,相關(guān)反饋技術(shù)則提供了一種良好的實現(xiàn)途徑。該技術(shù)是使得檢索系統(tǒng)可根據(jù)算法選擇少部分圖像返回給用戶,用戶對這些圖像給出標(biāo)記信息,學(xué)習(xí)系統(tǒng)再從這些標(biāo)記圖像中進行知識學(xué)習(xí),并利用這些新知識提供新的檢索結(jié)果。
根據(jù)相關(guān)反饋過程的特點,主動學(xué)習(xí)技術(shù)可以有效地用于該過程。具體做法是通過采樣算法選擇對檢索系統(tǒng)最有利的部分樣例作為反饋圖像,并將這些圖像提交給用戶進行標(biāo)記。使用主動學(xué)習(xí)技術(shù)選擇反饋圖像的目的是減少提升檢索系統(tǒng)性能所需要的反饋圖像數(shù)量,同時也一并減少用戶的工作量和提交反饋圖像標(biāo)記的次數(shù)。根據(jù)這一目的,本文提出一種基于主動學(xué)習(xí)算法的相關(guān)反饋技術(shù),利用主動學(xué)習(xí)技術(shù)從大量無標(biāo)注待檢索圖像中選擇信息含量最大的圖像,將這些圖像作為反饋圖像,提交用戶進行標(biāo)注,由此而減少用戶標(biāo)記反饋圖像的次數(shù)和數(shù)量,并提高CBIR系統(tǒng)的性能。本文主要工作和貢獻概述如下:根據(jù)CBIR圖像系統(tǒng)中給出的目標(biāo)圖像,學(xué)習(xí)一個直推向量機模型[1](Transductive Support Vector, TSVM);使用該模型對圖像庫中的所有待檢索圖像與目標(biāo)圖像的相似程度進行預(yù)測;根據(jù)預(yù)測結(jié)果計算圖像對應(yīng)的信息熵值,選擇信息熵的絕對值最小的一組圖像作為反饋圖像,提交用戶獲取標(biāo)記信息;將標(biāo)注后的圖像用于進一步學(xué)習(xí)直推向量機模型,上述訓(xùn)練過程迭代進行,直至達到用戶滿意的檢索效果為止。結(jié)合提出的算法過程,本文在Visual Studio 2005平臺開發(fā)和實現(xiàn)了這一圖像檢索系統(tǒng),并在COREL圖像庫上對系統(tǒng)性能進行了實驗驗證,實驗結(jié)果證明了系統(tǒng)的有效性。
1 相關(guān)工作
基于內(nèi)容的圖像檢索(CBIR)方法可以被視作機器學(xué)習(xí)領(lǐng)域中的分類問題,即根據(jù)所給出的待檢索圖像,學(xué)習(xí)一個分類模型,利用該模型將圖像庫中的圖像劃分為目標(biāo)圖像和非目標(biāo)圖像。在檢索過程中,一個首要的問題是如何克服圖像的底層特征與高層語義概念之間的語義鴻溝。為了解決這一問題,相關(guān)反饋技術(shù)通過向用戶提交查詢的方式,讓用戶提供一部分圖像的語義信息,根據(jù)反饋圖像中的語義信息,提升系統(tǒng)檢索的準(zhǔn)確度。另外,隨著用戶提交反饋次數(shù)的增加,學(xué)習(xí)系統(tǒng)逐步將反饋的圖像添加到學(xué)習(xí)系統(tǒng)的訓(xùn)練集中,并使用增量學(xué)習(xí)的方式,學(xué)習(xí)用戶提供的語義知識。值得注意的是,使用相關(guān)反饋技術(shù)的CBIR系統(tǒng)的學(xué)習(xí)方式與主動學(xué)習(xí)算法具有很大的相似性,因此,利用主動學(xué)習(xí)算法設(shè)計相關(guān)反饋,提升CBIR系統(tǒng)的精度,這一做法越發(fā)受到研究人員的廣泛重視,成為研究熱點。
目前,已有一些研究人員致力于將主動學(xué)習(xí)算法應(yīng)用于相關(guān)反饋技術(shù)中,并取得了良好的實際效果。這些做法可以分為兩大類。第一類是委員會投票方法[2,3],此類做法的特點是在同一個圖像集上同時學(xué)習(xí)多個分類模型,并使用這些模型對同一個無標(biāo)注圖像的類別進行投票,選擇分類模型差異程度最大的圖像作為反饋圖像;第二類是基于不確定度的反饋方法[1],這類做法的特點是使用當(dāng)前分類模型對無標(biāo)注圖像的類別進行預(yù)測,并根據(jù)分類模型的預(yù)測結(jié)果計算分類模型對圖像的置信度,再選擇當(dāng)前分類模型最不確定的圖像交由用戶進行反饋。
首先,訓(xùn)練集已知的情況下,Platt提出一種貪心算法[4],根據(jù)無標(biāo)記樣例對應(yīng)的未來期望誤差,從無標(biāo)記樣例集合中選擇訓(xùn)練樣例,目的是通過選擇未來期望誤差最小的樣例,逐步搜索主動學(xué)習(xí)算法的全局最優(yōu)解。但是,這一做法的缺點是,為了計算每個無標(biāo)記樣例的未來期望誤差,需要分別計算該樣例被添加正類標(biāo)記和負(fù)類標(biāo)記后對分類模型的影響,即多次重新訓(xùn)練分類模型。如果無標(biāo)記樣例數(shù)量巨大,這一做法的計算消耗很大,因此,很難滿足檢索系統(tǒng)的要求。近年來,支持向量機模型以其在小樣本學(xué)習(xí)問題上的卓越性能受到了廣泛關(guān)注。針對該支持向量機模型的啟發(fā)式主動學(xué)習(xí)算法也隨之得到了更多的研究與使用,例如:Schohn提出了一種啟發(fā)式的SVM主動學(xué)習(xí)算法,通過核空間將圖像的底層特征維度無限放大,獲得了一個特征維度數(shù)目遠(yuǎn)遠(yuǎn)高于樣本數(shù)量的稀疏空間,而主動學(xué)習(xí)的做法是選擇包含盡可能多的維度信息的樣例作為包含信息含量最高的樣例。事實證明,這種方法不但可以獲得近似于貪心算法的結(jié)果,而且運行效率更高[5]。在該類做法中,包含維度信息最多的樣例主要集中在距離支持向量機的分類超平面較近的位置,因此,這一主動學(xué)習(xí)算法主要選擇距離分類界面最近的樣例作為反饋樣例。與Schohn的做法不同的是,Zhou提出了SSAIR算法[6]。該算法通過利用半監(jiān)督學(xué)習(xí)中的co-training算法,結(jié)合主動學(xué)習(xí)中的co-testing模式,使用co-training中訓(xùn)練得到的兩個分類模型對測試樣本進行投票分類,最終,采用兩個分類模型產(chǎn)生分歧的樣本作為供用戶反饋的備選樣本。與其它用于該領(lǐng)域的主動學(xué)習(xí)算法不同的是,這一做法改變了傳統(tǒng)反饋圖像集由用戶在前次檢索中系統(tǒng)認(rèn)定的與待查詢圖像最相關(guān)的那些圖像來構(gòu)成的定則,而是通過分類模型的投票來選擇反饋圖像集,盡最大可能改進檢索系統(tǒng)的性能。
以上兩類做法中,第一類方法需要同時學(xué)習(xí)多個模型,計算量和時間消耗較大,為了滿足圖像檢索系統(tǒng)的實時性要求,本文選擇第二類方法選擇反饋圖像。事實上,Schohn和Zhou提出的主動學(xué)習(xí)算法的共同特點是,認(rèn)為分類模型最不確定或者置信度最低的樣例是無標(biāo)記圖像中信息含量最大的樣例,在具體做法中則表現(xiàn)為多個分類模型彼此間分歧最大或者距離分類超平面最近的樣例,選擇這些樣例進行標(biāo)記,可最大限度提高分類模型的性能。與這些方法不同的是,本文提出一種最大信息熵的主動學(xué)習(xí)算法,在所有無標(biāo)注樣例中,選擇樣例對應(yīng)的信息熵值最大的樣例點作為信息含量最大的樣例,并以此作為反饋樣例。算法的目的是在有限的檢索時間條件下,更加有效衡量樣例的信息含量,由此提高檢索系統(tǒng)的性能。
2 基于主動學(xué)習(xí)的相關(guān)反饋算法
2.1信息熵最大化采樣策略
本節(jié)詳細(xì)介紹了信息熵最大化這一采樣策略,為了方便理解,首先給出問題的基本概念。因為基于相關(guān)反饋技術(shù)的圖像檢索系統(tǒng)是一個迭代的學(xué)習(xí)過程,這里假定在第輪迭代中,訓(xùn)練集表示為,其中,分別表示訓(xùn)練樣例及其對應(yīng)的標(biāo)記信息。因為圖像檢索可看作是將待檢索圖像劃分為正類和負(fù)類的過程,故有。本文使用TSVM作為分類模型,則在當(dāng)前迭代步中,TSVM算法學(xué)習(xí)的分類超平面為:
這里,和分別表示訓(xùn)練樣本和無標(biāo)記樣本在核空間的距離,是偏差項。對于任意一個無標(biāo)記樣本,不考慮相同的歸一化系數(shù),該樣本與分類超平面之間的距離是:
鑒于TSVM模型僅能提供無標(biāo)記樣本與分類界面之間的距離,而無法提供樣本與對應(yīng)的類別標(biāo)記之間的精確概率輸出,為此,本文在這里使用了sigmoid函數(shù),通過擬合的方法獲得樣本對應(yīng)類別標(biāo)記的后驗概率值,即:
其中,參數(shù)和使用Platt[7]中的優(yōu)化算法,迭代求解得到。根據(jù)無標(biāo)記樣本對應(yīng)的后驗概率值,無標(biāo)記樣本對應(yīng)的信息熵值可以通過下式計算:
根據(jù)計算得到的信息熵值,選擇信息熵值最大的樣本,作為本輪迭代中最適合加入到訓(xùn)練集中的無標(biāo)記樣本,,即:
2.2 基于主動學(xué)習(xí)的相關(guān)反饋過程
信息熵是信息論中反映樣本信息含量的指標(biāo)之一,鑒于此,信息熵也經(jīng)常在機器學(xué)習(xí)算法中作為樣本信息含量的度量標(biāo)準(zhǔn)。值得注意的是,在公式(5)中,分類模型對無標(biāo)注樣本的預(yù)測概率越接近于0.5,無標(biāo)注樣本對應(yīng)的信息熵值越大,該樣本的不確定程度也就越大。在這一點上,信息熵最大化采樣策略與基于不確定程度的采樣策略的目標(biāo)是一致的。在圖像檢索的相關(guān)反饋過程中,本文使用信息熵最大化采樣策略,由待檢索圖像中選擇反饋圖像,提交用戶做出標(biāo)記,將標(biāo)記后的樣本用于分類模型的訓(xùn)練過程,這個過程迭代進行,直至用戶滿意為止。下面,給出了基于主動學(xué)習(xí)的相關(guān)反饋的算法過程。
算法:基于主動學(xué)習(xí)的相關(guān)反饋算法
輸入:標(biāo)記圖像集,無標(biāo)記圖像集,反饋圖像數(shù)量
輸出:檢索結(jié)果
BeginFor
(1)在標(biāo)記圖像集上學(xué)習(xí)TSVM分類模型,獲得公式(1)中的分類超平面;
(2)根據(jù)分類超平面,使用公式(2)計算每一個無標(biāo)記樣本與該分類界面之間的距離;
(3)通過公式(3)中的sigmoid函數(shù)擬合,獲得無標(biāo)記樣本對應(yīng)的后驗概率值;
(4)使用公式(4)逐個計算無標(biāo)記樣本的信息熵值;
(5)選擇信息熵值最大的個無標(biāo)記樣本作為反饋圖像,提交給用戶進行標(biāo)記;
(6),;
(7)如果用戶對當(dāng)前檢索結(jié)果滿意,則結(jié)束,否則返回步驟1,。
EndFor
在上面的反饋過程中,每輪迭代中,檢索系統(tǒng)返回信息熵最大的一組樣本提交給用戶標(biāo)注,該做法可以減少迭代次數(shù),在用戶可接受的范圍內(nèi),盡可能多地提供標(biāo)注樣本用于訓(xùn)練。
3 實驗結(jié)果與分析
3.1數(shù)據(jù)庫及實驗設(shè)計
本實驗使用COREL圖像庫中的3類圖像作為待檢索圖像,每類圖像包含100幅圖像,這3個圖像類別分別是鷹,魚和馬。本文分別提取每一幅圖像的特征組成樣本集合,使用TSVM作為分類模型,用于從CBIR系統(tǒng)中獲得檢索結(jié)果。在每一組實驗中,首先,從待檢索圖像中隨機抽取一幅圖像作為目標(biāo)圖像,訓(xùn)練TSVM模型;根據(jù)該模型的預(yù)測結(jié)果,計算每一幅圖像的信息熵值,并選擇信息熵最大的五幅圖像作為反饋圖像();提交用戶標(biāo)記后,將反饋圖像和標(biāo)記用于訓(xùn)練TSVM模型,同時給出檢索結(jié)果;該過程循環(huán)進行,直至達到結(jié)束標(biāo)準(zhǔn)為止。本文使用查全率(precision)作為圖像檢索結(jié)果的評價標(biāo)準(zhǔn),其中,檢索系統(tǒng)劃分的相關(guān)圖像數(shù)量是100幅,召回圖像數(shù)量是20幅。
3.2實驗結(jié)果
在表1和表2中,本文給出了反饋次數(shù)為5次,并使用不同的圖像底層特征條件下,在不同語義類別上,CBIR系統(tǒng)的檢索結(jié)果。從實驗結(jié)果可以看出,使用最大墑作為樣本信息含量的度量標(biāo)準(zhǔn),基于主動學(xué)習(xí)的相關(guān)反饋技術(shù)在圖像檢索系統(tǒng)中取得了良好的檢索結(jié)果。隨著反饋次數(shù)的增加,CBIR系統(tǒng)的檢索結(jié)果得到逐步提高。同時,表1和表2的對比還可以發(fā)現(xiàn),顏色稀疏和相關(guān)圖組成的混合特征獲得了比SIFT特征更好的檢索結(jié)果,這是因為前者的維度高于后者,提供了更多的圖像底層語義信息,由此而提高了檢索效果。
表1 顏色稀疏和相關(guān)圖的混合特征條件下,不同反饋次數(shù)時,CBIR系統(tǒng)檢索精度
Tab. 1. Using sparse color and related features, different feedback times, the precision of CBIR system
初始值
反饋1次
反饋2次
反饋3次
反饋4次
反饋5次
鷹
0.71
0.724
0.73
0.628
0.732
0.75
馬
0.502
0.522
0.428
0.526
0.522
0.604
魚
0.494
0.538
0.504
0.536
0.572
0.468
表2 SIFT特征條件下,不同反饋次數(shù)時,CBIR系統(tǒng)檢索精度
Tab.2 Using SIFT features, different feedback times, the precision of CBIR system
初始值
反饋1次
反饋2次
反饋3次
反饋4次
反饋5次
鷹
0.5
0.756
0.39
0.71
0.774
0.622
馬
0.44
0.376
0.406
0.406
0.472
0.424
魚
0.25
0.314
0.22
0.358
0.23
0.334
在圖1和圖2中,本文給出了使用基于主動學(xué)習(xí)的相關(guān)反饋技術(shù)在CBIR系統(tǒng)中的檢索結(jié)果。除了使用COREL圖像庫作為檢索圖像庫之外,本文還增加了VOC圖像庫(包含20類,共計5 011幅圖像)作為檢索圖像庫,對所提出方法進行實驗驗證。從圖1和圖2中可以看出,基于主動學(xué)習(xí)的相關(guān)反饋技術(shù)可以有效提升CBIR系統(tǒng)的檢索性能。
(a) Car類別
初始檢索結(jié)果
使用相關(guān)反饋技術(shù)后的檢索結(jié)果
(b) Aeroplane類別
初始檢索結(jié)果
使用相關(guān)反饋技術(shù)后的檢索結(jié)果
圖1 VOC圖像庫上,使用基于主動學(xué)習(xí)相關(guān)反饋技術(shù)的圖像檢索結(jié)果
Fig.1 The retrieval results on VOC database by using feedback techniques based on active learning algorithm
(a) Eagle類別
初始檢索結(jié)果
使用相關(guān)反饋技術(shù)后檢索結(jié)果
初始檢索結(jié)果
使用相關(guān)反饋技術(shù)后檢索結(jié)果
圖2 COREL圖像庫上,使用基于主動學(xué)習(xí)相關(guān)反饋技術(shù)的檢索結(jié)果。
Fig.2 The retrieval results on COREL database by using feedback techniques based on active learning algorithm
4 結(jié)束語
本文利用了主動學(xué)習(xí)算法在選擇訓(xùn)練樣本方面,相對于隨機選擇方法的優(yōu)勢,提出了一種基于主動學(xué)習(xí)的相關(guān)反饋技術(shù)。在所提出的技術(shù)中,算法利用了分類模型最不確定的樣本可以提供更多反饋信息的特點,使用信息熵作為樣本信息含量的度量標(biāo)準(zhǔn),選擇每輪迭代過程中,信息熵值最大的樣本作為反饋樣本,達到了增量學(xué)習(xí),提升檢索系統(tǒng)性能的目的。本文使用COREL圖像庫和VOC圖像庫,對所提出方法的性能進行驗證,實驗結(jié)果證明所提出方法的有效性。
參考文獻
[1] CHEN J X. Active learning for transductive support vector machines with applications to text classification[J]. 計算機科學(xué). 2004, 31: 242-244.
[2] ABE N, MAMITSUKA H. Query learning strategies using boosting and bagging[C]//Proceedings of 15th International Conference on Machine Learning. Madison. WI, 1998: 1-9.
[3] SEUNG H, OPPER M, SOMPOLINSKY M. Query by committee[C]//Proceedings of 5th ACM Workshop on Computational Learning Theory. Pittsburgh, PA, 1992: 287-294.
[4] PLATT J. Fast training of support vector machins using sequential minimal optimization. advances in kernel methods: support vector learning[M]. Cambridge: MIT Press, 1998: 42-65.
[5] SCHOHN G, GOHN D. Less is more: active learning with support vector machine[C]// Proceedings of 17th International Conference of Machine Learning. Stanford, CA, 2000: 204-211.
[6] ZHOU Z H, CHEN K J, JIANG Y. Exploiting unlabeled data in content-based image retrieval[C]//Proceedings of the 15th European Conference on Machine Learning. Pisa, Italy: LNAI 3021, 2004: 525-536.
[7] PLATT J C. Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. Advances in Large Margin Classifiers[M]. Cambridge: MIT Press, 1999: 61-74.
基金項目:國家自然科學(xué)基金(61171185,61271346,60932008);高等學(xué)校博士學(xué)科點專項科研基金(20112302110040)
作者簡介:吳偉寧(1983-).女,黑龍江寧安人,博士研究生.研究方向:機器學(xué)習(xí),圖像檢索;
劉揚(1976-).男,吉林懷德人,博士,副教授.研究方向:機器學(xué)習(xí),計算機視覺;
郭茂祖(1966-).男,山東夏津人,博士后,教授,博導(dǎo).研究方向:計算生物學(xué)與生物信息學(xué),機器學(xué)習(xí)與圖像理解;
王春宇(1979-).男,遼寧寬甸人,博士研究生,講師.研究方向:生物信息學(xué),并行計算;
熱門標(biāo)簽
計算機論文 計算機畢業(yè)論文 計算機技術(shù)論文 計算機教育論文 計算機專業(yè)畢業(yè)論文 計算機專業(yè)論文 計算機教學(xué)論文 計算機基礎(chǔ)論文 計算機應(yīng)用論文 計算化學(xué)論文 心理培訓(xùn) 人文科學(xué)概論
 
				 
				