論語(yǔ)言科學(xué)與語(yǔ)言技術(shù)

時(shí)間:2022-12-18 05:07:00

導(dǎo)語(yǔ):論語(yǔ)言科學(xué)與語(yǔ)言技術(shù)一文來(lái)源于網(wǎng)友上傳,不代表本站觀點(diǎn),若需要原創(chuàng)文章可咨詢客服老師,歡迎參考。

論語(yǔ)言科學(xué)與語(yǔ)言技術(shù)

一、“語(yǔ)言科技”新思維的提出

雖然計(jì)算機(jī)設(shè)計(jì)的初衷是緣于數(shù)值計(jì)算,但是英國(guó)數(shù)學(xué)家圖靈(a.m.turing)在《機(jī)器能思維嗎?》(1950)一文中已經(jīng)預(yù)見(jiàn)到計(jì)算機(jī)和自然語(yǔ)言將結(jié)下不解之緣,并且提出檢驗(yàn)計(jì)算機(jī)智能的最好方法就是對(duì)語(yǔ)言信息的處理能力。1977年,費(fèi)根鮑姆(feigenbaum)提出知識(shí)工程,計(jì)算機(jī)信息處理出現(xiàn)了從“數(shù)據(jù)世界”向“知識(shí)世界”的轉(zhuǎn)移趨勢(shì)。知識(shí)世界的載體是語(yǔ)言符號(hào)系統(tǒng),語(yǔ)言信息處理的需求促使語(yǔ)言研究過(guò)程和語(yǔ)言研究成果的技術(shù)化趨勢(shì)日益明顯,當(dāng)代語(yǔ)言學(xué)已凸顯出“語(yǔ)言科學(xué)”與“語(yǔ)言技術(shù)”的二分互補(bǔ)格局,由此我在《南京師范大學(xué)語(yǔ)言科技系建設(shè)發(fā)展規(guī)劃》(2001年2月)中提出“語(yǔ)言科技”的新思維?!罢Z(yǔ)言科學(xué)”主要指基礎(chǔ)性的描寫語(yǔ)言學(xué)和理論語(yǔ)言學(xué)?!罢Z(yǔ)言技術(shù)”主要指面向信息處理的應(yīng)用語(yǔ)言學(xué)或計(jì)算語(yǔ)言學(xué),其研究任務(wù)可劃分為“文本處理技術(shù)”和“語(yǔ)言模擬技術(shù)”。簡(jiǎn)而言之,語(yǔ)言文本處理技術(shù)是通過(guò)編輯和編程,將印刷文本轉(zhuǎn)化為可供計(jì)算機(jī)使用的電子文本的技術(shù)。語(yǔ)言系統(tǒng)模擬(simulation)或者語(yǔ)言能力仿真(emulation)技術(shù)是通過(guò)算法和編程,將自然語(yǔ)言的理解和生成能力輸入計(jì)算機(jī)的技術(shù)。獲得語(yǔ)言能力的計(jì)算機(jī)可以實(shí)現(xiàn)“人—機(jī)對(duì)話”而成為名實(shí)相符的“電腦”。為研制智能機(jī)服務(wù)的“語(yǔ)言系統(tǒng)模擬”,可比喻為“語(yǔ)言基因圖譜分析工程”和“語(yǔ)言能力移植工程”。強(qiáng)調(diào)語(yǔ)言研究的技術(shù)化,并非忽視傳統(tǒng)語(yǔ)言學(xué)研究存在技術(shù)性的一面,例如實(shí)驗(yàn)語(yǔ)音學(xué)和方言語(yǔ)音調(diào)查等。之所以以往未能突出語(yǔ)言研究的技術(shù)化,其原因在于——除語(yǔ)音研究可借助聲學(xué)技術(shù)設(shè)備以外——語(yǔ)言研究的絕大多數(shù)領(lǐng)域還一直沒(méi)有相應(yīng)的實(shí)驗(yàn)性技術(shù)設(shè)備。

雖然當(dāng)代語(yǔ)言學(xué)家不可能也不必要都轉(zhuǎn)向計(jì)算語(yǔ)言學(xué)研究,但具有一定的語(yǔ)言信息處理意識(shí)卻非常必要。早在1964年11月,美國(guó)科學(xué)院語(yǔ)言自動(dòng)處理咨詢委員會(huì)就在《語(yǔ)言與機(jī)器》的報(bào)告中明確指出:機(jī)器翻譯遇到了難以克服的semanticbarrier(義障)。然而這一警告,除了致使機(jī)器翻譯研究熱的暫時(shí)消退以外,并沒(méi)有引起語(yǔ)言學(xué)界的足夠重視。1982年,日本制訂了一個(gè)為期10年面向ai(人工智能)的“第五代計(jì)算機(jī)”即智能機(jī)的研制計(jì)劃,其中包括自然語(yǔ)言處理裝置。1992年結(jié)束時(shí),只部分達(dá)到了預(yù)定目標(biāo)。隨后又公布了另一個(gè)為期10年的“真實(shí)世界計(jì)算機(jī)(rwc)計(jì)劃”即“新信息處理技術(shù)計(jì)劃”。(許萬(wàn)增1996,p.61-62)據(jù)說(shuō),90年代后期日本不得不宣布暫停研制,其根本原因就在于未能穿過(guò)語(yǔ)言研究的“瓶頸”。自然語(yǔ)言處理裝置的任務(wù)無(wú)法實(shí)現(xiàn),計(jì)算機(jī)談何“真實(shí)世界”或“人工智能”。時(shí)至今日,這一“義障”仍然沒(méi)有跨越。在《新世紀(jì)將對(duì)人類產(chǎn)生重大影響的十大科技趨勢(shì)》(新華社北京2000年12月30日電)的報(bào)道中,列出21世紀(jì)的“認(rèn)知神經(jīng)科學(xué)領(lǐng)域”和“信息技術(shù)領(lǐng)域”,并分別提出來(lái)“探索意識(shí)、思維活動(dòng)的本質(zhì)”和“計(jì)算機(jī)向智能化方向發(fā)展”的任務(wù),然而沒(méi)有語(yǔ)言科技領(lǐng)域的合作——關(guān)鍵是認(rèn)知語(yǔ)義結(jié)構(gòu)網(wǎng)絡(luò)研究的根本性突破——?jiǎng)t不可能實(shí)現(xiàn)。

無(wú)論從手段還是就目標(biāo),對(duì)準(zhǔn)自然語(yǔ)言處理的當(dāng)代語(yǔ)言學(xué)研究,其性質(zhì)都應(yīng)界定為“語(yǔ)言科技”。“語(yǔ)言科技”的內(nèi)涵是以理論研究為指導(dǎo),以描寫研究為基礎(chǔ),以應(yīng)用研究為樞紐,促使語(yǔ)言研究向計(jì)算機(jī)應(yīng)用、數(shù)學(xué)、認(rèn)知科學(xué)和現(xiàn)代教育技術(shù)領(lǐng)域延伸,溝通文理工相關(guān)學(xué)科以實(shí)現(xiàn)語(yǔ)言研究過(guò)程及其成果的技術(shù)化;“語(yǔ)言科技”的外延表現(xiàn)為語(yǔ)言工程科技、語(yǔ)言教育科技和語(yǔ)言研究科技。語(yǔ)言學(xué)和計(jì)算機(jī)科學(xué)等學(xué)科相結(jié)合的“語(yǔ)言工程科技”,研究領(lǐng)域是“人—機(jī)對(duì)話”,其目標(biāo)主要是自然語(yǔ)言能力的模擬。語(yǔ)言學(xué)與現(xiàn)代教育技術(shù)相結(jié)合的“語(yǔ)言教育科技”,研究領(lǐng)域是“人—人對(duì)話”,其主要目標(biāo)是實(shí)現(xiàn)語(yǔ)言教育的多媒體和網(wǎng)絡(luò)化?!罢Z(yǔ)言研究科技”是將語(yǔ)言研究活動(dòng)與計(jì)算機(jī)工具相結(jié)合,其主要目標(biāo)是實(shí)現(xiàn)語(yǔ)言學(xué)自身的計(jì)算機(jī)化,包括語(yǔ)料庫(kù)、詞庫(kù)和句庫(kù)的研制,語(yǔ)言研究的分析性、統(tǒng)計(jì)性、比較性和實(shí)驗(yàn)性軟件的開(kāi)發(fā)等。這一新思維既突出了當(dāng)代科技發(fā)展所要求的“語(yǔ)言學(xué)的技術(shù)化”,又體現(xiàn)了以語(yǔ)言學(xué)為本而溝通文理工相關(guān)學(xué)科的研究旨趣。

二、計(jì)算語(yǔ)言學(xué)的界定要突出技術(shù)性

20世紀(jì)50年代以后,在理論方法交叉滲透而形成諸多邊緣語(yǔ)言學(xué)的同時(shí),語(yǔ)言學(xué)與計(jì)算機(jī)結(jié)合的趨勢(shì)開(kāi)始出現(xiàn)。1954年,在美國(guó)喬治敦大學(xué)所進(jìn)行的世界上首次機(jī)器翻譯試驗(yàn),標(biāo)志著計(jì)算機(jī)科學(xué)與語(yǔ)言學(xué)的結(jié)合已經(jīng)起步。在這一研究領(lǐng)域,立足于不同的學(xué)科視角或知識(shí)結(jié)構(gòu),先后出現(xiàn)了一系列名稱術(shù)語(yǔ),如“語(yǔ)言工程”、“語(yǔ)言工程學(xué)”、“自然語(yǔ)言的計(jì)算機(jī)處理”(工科視角)、“語(yǔ)言信息處理”(信息學(xué)視角)、“數(shù)理語(yǔ)言學(xué)”(數(shù)學(xué)視角)等等。20世紀(jì)60年代以后,計(jì)算機(jī)和語(yǔ)言學(xué)的結(jié)合逐步深入到語(yǔ)言學(xué)的各個(gè)領(lǐng)域,形成了包括計(jì)算語(yǔ)音學(xué)、計(jì)算詞匯學(xué)、計(jì)算語(yǔ)法學(xué)、計(jì)算語(yǔ)義學(xué)等分支學(xué)科在內(nèi)的計(jì)算語(yǔ)言學(xué)(computationallinguistics)。其中“計(jì)算語(yǔ)音學(xué)”等名詞,雖然計(jì)算語(yǔ)言學(xué)界沒(méi)人提過(guò),因?yàn)橐呀?jīng)存在著“言語(yǔ)識(shí)別”、“言語(yǔ)合成”等計(jì)算機(jī)應(yīng)用專業(yè)術(shù)語(yǔ),但是從“語(yǔ)言工程學(xué)”到“計(jì)算語(yǔ)言學(xué)”的術(shù)語(yǔ)演變中,透露出“語(yǔ)言學(xué)立場(chǎng)”在這門交叉學(xué)科中的日益強(qiáng)化。雖然目前的計(jì)算機(jī)運(yùn)算速度已經(jīng)可以滿足語(yǔ)言信息處理的技術(shù)要求,但是之所以“人—機(jī)對(duì)話”尚未實(shí)現(xiàn),其“瓶頸”就在于現(xiàn)有的語(yǔ)言研究成果無(wú)法滿足計(jì)算機(jī)處理的要求。歸根結(jié)底,語(yǔ)言信息處理的最終目標(biāo)就是“計(jì)算機(jī)模擬語(yǔ)言能力工程”或“語(yǔ)言能力移植計(jì)算機(jī)工程”。探索語(yǔ)言能力的性質(zhì)和描寫語(yǔ)言系統(tǒng)的結(jié)構(gòu),這些艱巨性工作還得由語(yǔ)言學(xué)家先來(lái)完成。語(yǔ)言信息處理或計(jì)算語(yǔ)言學(xué)務(wù)必以語(yǔ)言學(xué)為本而以計(jì)算機(jī)為用。語(yǔ)言學(xué)家必須具備“數(shù)字化”意識(shí),了解計(jì)算機(jī)需要怎樣的語(yǔ)言描寫成果,然后才可能將研究目標(biāo)對(duì)準(zhǔn)語(yǔ)言工程。

迄今為止,正如許多發(fā)展中學(xué)科一樣,“計(jì)算語(yǔ)言學(xué)”的定義尚無(wú)一致認(rèn)定,歸納起來(lái)蓋有四種觀點(diǎn)(侯敏1999,p.2—p.6):

第一種,計(jì)算語(yǔ)言學(xué)是以計(jì)算機(jī)為工具研究語(yǔ)言學(xué)。侯敏認(rèn)為,任何一個(gè)學(xué)科在使用工具方面都是自由的,使用不同工具研究一個(gè)學(xué)科會(huì)帶來(lái)不同特點(diǎn),但不因?yàn)槭褂昧诵鹿ぞ呔彤a(chǎn)生了新學(xué)科。雖然并不排除新工具的使用沒(méi)有導(dǎo)致新學(xué)科的產(chǎn)生,但同樣不能否認(rèn)工具的變革有可能帶來(lái)學(xué)科體系的革命,以致于產(chǎn)生新的分支或交叉學(xué)科。現(xiàn)代自然科學(xué)之所以能夠建立,無(wú)疑得益于望遠(yuǎn)鏡和顯微鏡的應(yīng)用,前者打開(kāi)了人類認(rèn)知的宏觀世界之門,后者打開(kāi)了人類認(rèn)知的微觀世界之門。望遠(yuǎn)鏡和顯微鏡帶來(lái)的不僅僅是“這一個(gè)工具”,而是人類認(rèn)知方式的巨大變革,從而引起了天文學(xué)、生物學(xué)等自然科學(xué)的一系列革命,產(chǎn)生了一系列新學(xué)科。因此,問(wèn)題在于如何使用新的工具或新認(rèn)知方式。如果僅僅利用計(jì)算機(jī)做語(yǔ)言研究的統(tǒng)計(jì)工具,也許不會(huì)產(chǎn)生新的分支學(xué)科,但是利用計(jì)算機(jī)作為語(yǔ)音分析和合成的工具,則形成了計(jì)算語(yǔ)音學(xué)。

第二種,計(jì)算語(yǔ)言學(xué)是把語(yǔ)言學(xué)成果應(yīng)用于計(jì)算機(jī)。侯敏認(rèn)為,計(jì)算機(jī)的應(yīng)用領(lǐng)域幾乎沒(méi)有限度,什么學(xué)科的成果都可以在計(jì)算機(jī)上應(yīng)用,因此在計(jì)算機(jī)上應(yīng)用語(yǔ)言學(xué)的研究成果不足以建立新學(xué)科。問(wèn)題不在于在什么學(xué)科的成果能在計(jì)算機(jī)上應(yīng)用,而在于在計(jì)算機(jī)上所應(yīng)用的成果的性質(zhì)。與其他學(xué)科研究對(duì)象的性質(zhì)迥然不同,語(yǔ)言學(xué)科的研究對(duì)象——語(yǔ)言——是人類最重要的認(rèn)知符號(hào)系統(tǒng)和知識(shí)載體,因此面向信息處理的語(yǔ)言成果應(yīng)用于計(jì)算機(jī)足以建立新的學(xué)科。以往的語(yǔ)言學(xué)研究是面向人際交流,而計(jì)算語(yǔ)言學(xué)研究是面向人機(jī)交流,兩者具有截然不同的性質(zhì)。公務(wù)員之家版權(quán)所有

第三種,計(jì)算語(yǔ)言學(xué)是研究語(yǔ)言中的可計(jì)算問(wèn)題。侯敏認(rèn)為,雖然利用可計(jì)算理論研究語(yǔ)言符號(hào)是建立了一個(gè)新學(xué)科,但是這種說(shuō)法偏于保守,沒(méi)有把計(jì)算語(yǔ)言學(xué)推進(jìn)語(yǔ)言學(xué)發(fā)展的作用充分體現(xiàn)出來(lái)。問(wèn)題在于面向信息處理的計(jì)算語(yǔ)言學(xué)研究,其顯著特點(diǎn)就是語(yǔ)言的可計(jì)算性?!巴七M(jìn)語(yǔ)言學(xué)發(fā)展的作用”這不是計(jì)算語(yǔ)言學(xué)的定義,強(qiáng)調(diào)“研究語(yǔ)言中的可計(jì)算問(wèn)題”未必保守,反而突出了計(jì)算語(yǔ)言學(xué)的顯著特點(diǎn)。

第四種,計(jì)算語(yǔ)言學(xué)是建立基于計(jì)算機(jī)科學(xué)理論的語(yǔ)言學(xué)理論。侯敏認(rèn)為,把計(jì)算機(jī)科學(xué)的基本思想和方法引進(jìn)語(yǔ)言學(xué)領(lǐng)域,不但可以產(chǎn)生許多應(yīng)用性課題,而且能夠促使研究者從新的角度觀察語(yǔ)言學(xué),建立與傳統(tǒng)語(yǔ)言學(xué)不同的理論。因此計(jì)算語(yǔ)言學(xué)是一種基于計(jì)算機(jī)科學(xué)理論所建立的語(yǔ)言學(xué)理論。問(wèn)題在于:一方面計(jì)算語(yǔ)言學(xué)需要理論但本質(zhì)上不是一門理論科學(xué),同時(shí)并非所有的計(jì)算語(yǔ)言學(xué)家都樂(lè)意或適合從事理論研究,另一方面計(jì)算語(yǔ)言學(xué)的應(yīng)用性質(zhì)決定了研究成果的技術(shù)性特征,而絕大多數(shù)人可能更適合于——實(shí)際上也更需要——語(yǔ)言信息處理的技術(shù)性研究。

第一種和第二種是歐洲流行的廣義定義,主張計(jì)算語(yǔ)言學(xué)是計(jì)算機(jī)和語(yǔ)言學(xué)的交叉,第三種和第四種是盛行于美國(guó)的狹義定義,主張計(jì)算語(yǔ)言學(xué)是計(jì)算機(jī)科學(xué)和語(yǔ)言學(xué)的交叉。也就是說(shuō),前者僅僅把計(jì)算機(jī)當(dāng)成語(yǔ)言學(xué)研究中的一種新工具應(yīng)用,而后者強(qiáng)調(diào)計(jì)算機(jī)學(xué)科的要求和理論對(duì)語(yǔ)言學(xué)的影響。陳小荷(2001)認(rèn)為,計(jì)算語(yǔ)言學(xué)就是以計(jì)算機(jī)為手段來(lái)研究自然語(yǔ)言,較嚴(yán)格的定義是“通過(guò)建立形式化的計(jì)算模型來(lái)處理自然語(yǔ)言的一門科學(xué)”。要建立形式化的計(jì)算模型來(lái)處理自然語(yǔ)言,首先要完成適合于計(jì)算機(jī)使用的自然語(yǔ)言系統(tǒng)的描寫。這一面向“人—機(jī)對(duì)話”的機(jī)用語(yǔ)言系統(tǒng),與以往面向“人—人對(duì)話”的日常語(yǔ)法系統(tǒng)不同。因此機(jī)用語(yǔ)言系統(tǒng)的描寫應(yīng)當(dāng)納入計(jì)算語(yǔ)言學(xué)的研究范圍,即完成了“機(jī)用語(yǔ)言系統(tǒng)”以后,才能“建立形式化的計(jì)算模型”使計(jì)算機(jī)獲得自然語(yǔ)言能力。綜上所論,計(jì)算語(yǔ)言學(xué)可以定義為——利用計(jì)算機(jī)作為工具研究語(yǔ)言、研究機(jī)用自然語(yǔ)言系統(tǒng)、研究語(yǔ)言系統(tǒng)或語(yǔ)言能力的計(jì)算性,同時(shí)建構(gòu)基于計(jì)算機(jī)應(yīng)用、數(shù)學(xué)模型、認(rèn)知科學(xué)等相關(guān)學(xué)科基礎(chǔ)之上的語(yǔ)言理論的新學(xué)科。姑且圖示如下:

工具性:利用計(jì)算機(jī)研究語(yǔ)言

計(jì)算語(yǔ)言學(xué)描寫性:研究機(jī)用自然語(yǔ)言系統(tǒng)

技術(shù)性:研究語(yǔ)言系統(tǒng)的計(jì)算性

理論性:建構(gòu)新的語(yǔ)言學(xué)理論

雖然計(jì)算語(yǔ)言學(xué)的關(guān)鍵任務(wù)是研究人機(jī)之間的語(yǔ)言交際問(wèn)題,即“如何教計(jì)算機(jī)學(xué)會(huì)說(shuō)話”。但是從本質(zhì)上來(lái)說(shuō),研究語(yǔ)言系統(tǒng)或語(yǔ)言能力的可計(jì)算性和利用計(jì)算機(jī)工具來(lái)研究語(yǔ)言是相通的,只是前者探索的是適合于人-機(jī)對(duì)話的語(yǔ)言能力,而后者討論的是適合于人-人對(duì)話的語(yǔ)言規(guī)則。

依據(jù)目前的語(yǔ)言研究成果和信息處理技術(shù)路線,計(jì)算語(yǔ)言學(xué)包括應(yīng)用基礎(chǔ)研究、應(yīng)用研究和理論研究三個(gè)方面。(陳小荷2001)應(yīng)用基礎(chǔ)研究指語(yǔ)言處理的基本技術(shù)研究?,F(xiàn)階段的主要進(jìn)展是:1.自動(dòng)分詞技術(shù):這是計(jì)算機(jī)理解自然語(yǔ)言的第一步。目前漢語(yǔ)書面語(yǔ)自動(dòng)分詞的正確率達(dá)到95%以上。2.詞語(yǔ)特征標(biāo)注技術(shù):現(xiàn)階段的詞語(yǔ)特征包括詞性和義項(xiàng),這是句法結(jié)構(gòu)理解的基礎(chǔ)。兩種標(biāo)注可采用相似的計(jì)算模型但后者要復(fù)雜得多,目前尚無(wú)大規(guī)模的實(shí)驗(yàn)結(jié)果報(bào)道。3.語(yǔ)句分析技術(shù):句法結(jié)構(gòu)和語(yǔ)義結(jié)構(gòu)是自然語(yǔ)言理解的關(guān)鍵技術(shù),目前分析真實(shí)文本句子的正確率僅在40%左右。4.語(yǔ)料庫(kù)建設(shè)技術(shù):語(yǔ)料庫(kù)是為特定目的而收集的言語(yǔ)作品集,包括語(yǔ)料處理和檢索。研究語(yǔ)句分析需要存放句法分析樹(shù)的“樹(shù)庫(kù)”,但目前的漢語(yǔ)語(yǔ)料庫(kù)加工程度較低,所建立的樹(shù)庫(kù)很少且規(guī)模不大。5.語(yǔ)言知識(shí)庫(kù)建設(shè)技術(shù):語(yǔ)言知識(shí)包括詞匯知識(shí)、語(yǔ)法知識(shí)和語(yǔ)義知識(shí)等,事實(shí)性和規(guī)則性知識(shí)分別放在機(jī)讀詞典和規(guī)則庫(kù)中。語(yǔ)句分析技術(shù)之所以不能取得突破,主要原因就是目前尚無(wú)適合于中文信息處理的大規(guī)模語(yǔ)言知識(shí)庫(kù)。

應(yīng)用研究指自然語(yǔ)言處理的應(yīng)用工具的研制?,F(xiàn)階段的熱點(diǎn)主要有:1.機(jī)器翻譯工具:半個(gè)多世紀(jì)過(guò)去了,機(jī)器翻譯的質(zhì)量仍然令人失望?,F(xiàn)在通行的是有限范圍翻譯和機(jī)器輔助翻譯。2.自動(dòng)文摘工具:微軟公司的詞處理器word有用于英語(yǔ)的文摘功能,哈工大研制的hit-863i型中文自動(dòng)文摘系統(tǒng)可按用戶設(shè)定的比例壓縮原文。3.自動(dòng)校對(duì)工具:現(xiàn)在存在的主要問(wèn)題是誤報(bào)率過(guò)高,并且深層錯(cuò)誤難以發(fā)現(xiàn)。4.信息檢索工具:有主題詞檢索、全文檢索兩種。前者需要預(yù)先有一個(gè)主題詞表;后者任意字符串都可成為檢索對(duì)象。另外從語(yǔ)料庫(kù)中自動(dòng)獲取各種知識(shí)的“信息抽取”在線工具的研究剛剛興起。5.言語(yǔ)識(shí)別和言語(yǔ)合成工具:言語(yǔ)識(shí)別(或語(yǔ)音識(shí)別)可分為詞語(yǔ)識(shí)別(計(jì)算機(jī)口語(yǔ)命令)、有限詞匯識(shí)別(電話訂票)和無(wú)限詞匯識(shí)別(將成段說(shuō)話轉(zhuǎn)為文字)。言語(yǔ)合成(或語(yǔ)音合成)指用計(jì)算機(jī)將書面語(yǔ)轉(zhuǎn)換為口語(yǔ)即“文語(yǔ)轉(zhuǎn)換”,存在的問(wèn)題主要是斷詞不當(dāng)且語(yǔ)調(diào)刻板,仿真度亟待提高。

然而,如果以為應(yīng)用性特征明顯的計(jì)算語(yǔ)言學(xué)僅僅是技術(shù),則未免失之于偏頗。計(jì)算語(yǔ)言學(xué)有著相應(yīng)的理論研究,大致包括人工智能理論(含計(jì)算模型理論。目前的人工智能研究,主要還是集中在人工體能、人工技能。在語(yǔ)言能力移植電腦過(guò)程未取得實(shí)質(zhì)性進(jìn)展以前,還談不上真正的人工智能)和語(yǔ)言學(xué)理論兩個(gè)方面。例如計(jì)算機(jī)如何或是否可以模擬人腦和語(yǔ)言能力,如何尋找合適的語(yǔ)言計(jì)算模型等,就是計(jì)算語(yǔ)言學(xué)家特別關(guān)心的理論問(wèn)題。除此之外,還有對(duì)自然語(yǔ)言本質(zhì)屬性的重新認(rèn)定、面向信息處理的機(jī)用語(yǔ)法學(xué)理論、語(yǔ)言系統(tǒng)與數(shù)學(xué)模型的關(guān)系、語(yǔ)言結(jié)構(gòu)和數(shù)理邏輯的關(guān)系、語(yǔ)言符號(hào)的數(shù)字化可能性及其局限性、語(yǔ)言的異質(zhì)性和受限性或語(yǔ)域理論、元語(yǔ)言理論和研究方法等一系列問(wèn)題??傮w而言,一方面,由于牽涉的學(xué)科太多,計(jì)算語(yǔ)言學(xué)的理論研究還相當(dāng)薄弱,另一方面,與科技發(fā)展息息相關(guān)的計(jì)算語(yǔ)言學(xué)不容過(guò)多地沉醉于理論探索。計(jì)算語(yǔ)言學(xué)的強(qiáng)大發(fā)展動(dòng)力植根于鮮明的應(yīng)用性,必須通過(guò)實(shí)踐推動(dòng)理論探索。

三、語(yǔ)言系統(tǒng)的計(jì)算機(jī)模式化要求

從語(yǔ)言學(xué)家的立場(chǎng)出發(fā),語(yǔ)言系統(tǒng)的計(jì)算機(jī)模式化要求,就是要了解計(jì)算機(jī)需要怎樣的語(yǔ)言描寫成果,傳統(tǒng)語(yǔ)言學(xué)(此處指非面向語(yǔ)言信息處理的語(yǔ)言學(xué))的研究是經(jīng)驗(yàn)描寫解釋型,而計(jì)算語(yǔ)言學(xué)的研究是實(shí)驗(yàn)操作技術(shù)型,自然語(yǔ)言系統(tǒng)要能進(jìn)行操作技術(shù)化處理,首先必須實(shí)現(xiàn)語(yǔ)言的計(jì)算機(jī)模式化。馮志偉(1999,p.215)認(rèn)為自然語(yǔ)言處理一般應(yīng)經(jīng)過(guò)三個(gè)過(guò)程:1.形式化,將所研究的自然語(yǔ)言問(wèn)題以一定的數(shù)學(xué)形式表示出來(lái);2.算法化,把自然語(yǔ)言的數(shù)學(xué)形式轉(zhuǎn)換為算法形式;3.程序化,根據(jù)自然語(yǔ)言的算法形式編寫計(jì)算機(jī)程序。侯敏(1999,p.30)認(rèn)為語(yǔ)言系統(tǒng)的形式化或計(jì)算機(jī)模式化必須滿足三個(gè)要求:1.高度抽象化,即從語(yǔ)言現(xiàn)象中抽象出一般規(guī)則;2.元語(yǔ)言的形式化,即采取形式邏輯、數(shù)學(xué)公式、程序語(yǔ)言等形式語(yǔ)言作為元語(yǔ)言;3.運(yùn)用過(guò)程的嚴(yán)密化,即運(yùn)用過(guò)程必須具有數(shù)學(xué)與邏輯的嚴(yán)密性。

袁毓林(1993)認(rèn)為形式語(yǔ)言至少具有三個(gè)特點(diǎn):基本單元的明確性、基本運(yùn)算和基本關(guān)系的明確性、運(yùn)算優(yōu)先級(jí)別的明確性,但是自然語(yǔ)言在這三方面皆不明確。具體而言,1.語(yǔ)法范疇的邊界不明,例如語(yǔ)素、詞和詞組之間、詞類之間的界限不明;2.結(jié)構(gòu)關(guān)系難以定義,通常所說(shuō)的結(jié)構(gòu)關(guān)系,如主謂、動(dòng)賓等往往很難明確界定;3.層次關(guān)系不外顯,人們通常根據(jù)語(yǔ)感和語(yǔ)境等來(lái)識(shí)別結(jié)構(gòu)層次。侯敏(1999,p.36—40)不贊同這種分析,針?shù)h相對(duì)地提出:1.可以根據(jù)實(shí)際需要或應(yīng)用目的來(lái)確立詞項(xiàng)或劃分詞類;2.結(jié)構(gòu)關(guān)系分析需要深入到語(yǔ)義平面;3.形式語(yǔ)法已經(jīng)給出了體現(xiàn)層次的結(jié)構(gòu)樹(shù),在分析歧義結(jié)構(gòu)中可加入語(yǔ)義限制,至于有些連人都解決不了的層次歧義結(jié)構(gòu)也不必要求計(jì)算機(jī)解決。侯敏的觀點(diǎn)是“理論追求的是完美,工程追求的是適用”,避開(kāi)理論困難而采取工程方法,可以建立一個(gè)語(yǔ)言分析的近似模型。

所謂“語(yǔ)法范疇的邊界不明”,主要是因?yàn)檫@些“范疇”的設(shè)置從某種程度上肢解了語(yǔ)言事實(shí);所謂“結(jié)構(gòu)關(guān)系難以定義”,主要是因?yàn)檫@些“結(jié)構(gòu)”難以反映語(yǔ)言的本質(zhì)結(jié)構(gòu);而所謂“層次關(guān)系不外顯”,恰恰是語(yǔ)言結(jié)構(gòu)的特點(diǎn)之一。這些探索和爭(zhēng)論,實(shí)際上反映了三個(gè)根本性的問(wèn)題:1.漢語(yǔ)結(jié)構(gòu)語(yǔ)法學(xué)中長(zhǎng)期存在的一些困擾,不僅是套用西方語(yǔ)法學(xué)框架框范漢語(yǔ)事實(shí)所產(chǎn)生的齟齬,而且也是語(yǔ)形語(yǔ)法學(xué)自身無(wú)法克服的固有問(wèn)題。幾千年來(lái)的西方語(yǔ)形語(yǔ)法學(xué)研究之所以能夠存在,就是因?yàn)槿四X在發(fā)育過(guò)程中逐步自建構(gòu)了與認(rèn)知能力協(xié)同發(fā)展的語(yǔ)義結(jié)構(gòu)網(wǎng)絡(luò),為語(yǔ)形語(yǔ)法規(guī)則提供了語(yǔ)義選擇清單與路徑。雖然這些語(yǔ)形語(yǔ)法規(guī)則在人際交流中可以使用,但是在語(yǔ)言能力的計(jì)算機(jī)移植中卻頓時(shí)陷入困境,因?yàn)橛?jì)算機(jī)不存在語(yǔ)義網(wǎng)絡(luò)結(jié)構(gòu)的自建構(gòu)功能,缺少語(yǔ)義激活路徑。根據(jù)語(yǔ)形語(yǔ)法規(guī)則,計(jì)算機(jī)造出來(lái)的符合自然語(yǔ)句標(biāo)準(zhǔn)的概率極低,多為與對(duì)象世界不存在一致性的隨機(jī)詞語(yǔ)串。2.計(jì)算語(yǔ)言學(xué)所要求的自然語(yǔ)言的形式化,是基于計(jì)算機(jī)運(yùn)算模式的語(yǔ)言研究成果。移植進(jìn)計(jì)算機(jī)的“定域受限語(yǔ)言系統(tǒng)”和自然語(yǔ)言系統(tǒng)并不完全相等,嚴(yán)格說(shuō)來(lái),只是一種接近自然語(yǔ)言的計(jì)算機(jī)模式化符號(hào)系統(tǒng)。3.計(jì)算語(yǔ)言學(xué)的理論和方法,必須建立在語(yǔ)言的本質(zhì)共性語(yǔ)義性和和計(jì)算機(jī)數(shù)字化運(yùn)算模式的基礎(chǔ)之上。如果對(duì)人類語(yǔ)言的認(rèn)知語(yǔ)義性沒(méi)有足夠的認(rèn)識(shí),依然安居于語(yǔ)形語(yǔ)法窠臼而遲遲未能建構(gòu)語(yǔ)義結(jié)構(gòu)網(wǎng)絡(luò),語(yǔ)言信息處理的目標(biāo)則不可能實(shí)現(xiàn)。

中國(guó)信息科學(xué)界有一種看法,計(jì)算機(jī)對(duì)于形態(tài)結(jié)構(gòu)的印歐語(yǔ)言處理具有良好的支撐能力,而對(duì)中文信息處理則不然(陳力為2000)。之所以計(jì)算機(jī)對(duì)印歐語(yǔ)文信息處理具有良好的支撐能力,是因?yàn)橛W語(yǔ)文結(jié)構(gòu)類型便于建立計(jì)算機(jī)處理模型。從歷史上來(lái)看,谷登堡印刷術(shù)和打字機(jī)鍵盤都是基于字母的簡(jiǎn)約性而發(fā)明的。一方面,字母系統(tǒng)的符號(hào)簡(jiǎn)約性便于進(jìn)行數(shù)據(jù)化處理,漢字符號(hào)的繁復(fù)性難以進(jìn)行數(shù)據(jù)化處理;另一方面,印歐語(yǔ)的形態(tài)變化為形式化提供了識(shí)別標(biāo)志,而漢語(yǔ)的孤立結(jié)構(gòu)卻沒(méi)有明顯的標(biāo)志。依據(jù)現(xiàn)在的計(jì)算機(jī)處理模型,漢字的繁復(fù)性和漢語(yǔ)的非形態(tài)性必然導(dǎo)致中文信息處理中存在一些特殊問(wèn)題:1.中文信息處理的第一個(gè)“瓶頸”。漢語(yǔ)的常用漢字?jǐn)?shù)量繁多,漢字需要解決鍵盤輸入、內(nèi)部代碼、漢字識(shí)別和顯示、程序語(yǔ)言的數(shù)據(jù)類型、數(shù)據(jù)庫(kù)的排序和檢索等一系列問(wèn)題。2.中文信息處理的第二個(gè)“瓶頸”。印歐書面語(yǔ)采取詞分寫形式,而漢語(yǔ)書面語(yǔ)采取單字連寫形式。由于采用西方詞法學(xué)框架,因此必須研制自動(dòng)分詞技術(shù)。假定考慮以“字”和“字義塊”等作為漢語(yǔ)的結(jié)構(gòu)單位,自動(dòng)分詞技術(shù)將相應(yīng)改為“字義塊”切分技術(shù)。3.印歐語(yǔ)的同音詞較少,而漢語(yǔ)的同音字較多,同義詞和量詞也十分豐富,這些都給中文信息處理帶來(lái)必須解決的難題。4.印歐語(yǔ)可以借助實(shí)詞的形態(tài)變化即在詞法層面上進(jìn)行處理,漢語(yǔ)只有在句法和語(yǔ)義層面上進(jìn)行處理,需要把語(yǔ)序和虛字的語(yǔ)法信息歸納出來(lái)再讓計(jì)算機(jī)掌握。5.印歐語(yǔ)的句子結(jié)構(gòu)是以動(dòng)詞性詞語(yǔ)為核心的“主—謂”結(jié)構(gòu),而漢語(yǔ)的句子結(jié)構(gòu)是以體詞性詞語(yǔ)為核心的“話題—說(shuō)明”結(jié)構(gòu)。印歐語(yǔ)的句子結(jié)構(gòu)劃一而句界分明,漢語(yǔ)的句子結(jié)構(gòu)多樣、成分缺省并且前后句義纏綿。

如果說(shuō)語(yǔ)言系統(tǒng)是一座“冰山”,那么以上這些語(yǔ)言信息處理中遇到的難題還都是語(yǔ)言系統(tǒng)浮在海水上面的那一小部分,真正的障礙是隱沒(méi)在海水下面的那一大部分。無(wú)論哪一種結(jié)構(gòu)類型的自然語(yǔ)言系統(tǒng)的計(jì)算機(jī)模擬,包括形態(tài)語(yǔ)言,遲早會(huì)無(wú)可避免地碰撞上堅(jiān)硬實(shí)在而又難以捉摸的“語(yǔ)義結(jié)構(gòu)”。語(yǔ)言研究需要敢于在冰海下持續(xù)探索“語(yǔ)義結(jié)構(gòu)”的潛水員。從自然語(yǔ)言系統(tǒng)來(lái)說(shuō),要讓計(jì)算機(jī)理解語(yǔ)言通常認(rèn)為必須使電腦能夠解決三個(gè)問(wèn)題:1.消除自然語(yǔ)言的一詞多義;2.揭示自然語(yǔ)言的潛在意義;3.掌握自然語(yǔ)言的聯(lián)想推理。這些問(wèn)題都離不開(kāi)語(yǔ)義分析,而語(yǔ)義分析技術(shù)尚處于探索階段。(侯敏1999,p.247)對(duì)于第一個(gè)問(wèn)題,一詞多義可給出不同義項(xiàng)的清單。對(duì)于第二個(gè)問(wèn)題,給出每一義項(xiàng)的顯性和潛性語(yǔ)義特征清單。對(duì)于第三個(gè)問(wèn)題,給出義項(xiàng)或義場(chǎng)之間的語(yǔ)義關(guān)聯(lián)模式。由此可見(jiàn),必須在以往的經(jīng)驗(yàn)語(yǔ)感法和先驗(yàn)演繹法基礎(chǔ)上,引進(jìn)實(shí)驗(yàn)歸納法和結(jié)構(gòu)優(yōu)化法,消除語(yǔ)義“泥潭”情結(jié),潛心于冰海中的語(yǔ)義“冰山”,才能逐步建構(gòu)造語(yǔ)義結(jié)構(gòu)網(wǎng)絡(luò)。

就世界各種語(yǔ)言來(lái)說(shuō),語(yǔ)言的計(jì)算機(jī)理解的深層次難點(diǎn)可能還在于:1.至今尚未揭示出人類理解語(yǔ)言的機(jī)制,計(jì)算機(jī)只能局部模擬自然語(yǔ)言理解的某些簡(jiǎn)單過(guò)程;2.至今尚未完成人類理解語(yǔ)言所憑借的知識(shí)系統(tǒng),建立人類進(jìn)行語(yǔ)言表達(dá)的完整理論,計(jì)算機(jī)尚無(wú)從掌握人類語(yǔ)言的知識(shí)系統(tǒng)以及語(yǔ)言表達(dá)機(jī)制;3.至今尚未對(duì)人類語(yǔ)言所兼具的規(guī)則性和離散性、精確性和模糊性做出定量和定性的系統(tǒng)分析,計(jì)算機(jī)尚無(wú)從掌握語(yǔ)言系統(tǒng)的復(fù)雜性和語(yǔ)言使用的隨機(jī)性。(傅永和1999,p.238—239)既然語(yǔ)言的理解和表達(dá)是一個(gè)以知識(shí)系統(tǒng)為基礎(chǔ)的綜合性行為,因此語(yǔ)言系統(tǒng)的計(jì)算機(jī)模擬必須進(jìn)行跨學(xué)科的研究,特別需要語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)和認(rèn)知科學(xué)以及百科知識(shí)學(xué)者的合作。與側(cè)重于面對(duì)自然人語(yǔ)言學(xué)習(xí)的語(yǔ)形語(yǔ)法學(xué)不同,如果面向語(yǔ)言信息處理,那么就需要以計(jì)算機(jī)智能模式來(lái)重新確定語(yǔ)言學(xué)的理論基礎(chǔ)、研究重點(diǎn)和研究方法。

面向自然語(yǔ)言處理的計(jì)算語(yǔ)言學(xué)理論基礎(chǔ),目前主要有基于語(yǔ)言規(guī)則性的理性主義理論(即先驗(yàn)主義)和基于語(yǔ)言隨機(jī)性的經(jīng)驗(yàn)主義理論。依據(jù)理性主義的語(yǔ)言學(xué)理論主要有:短語(yǔ)結(jié)構(gòu)語(yǔ)法(psg)、擴(kuò)充轉(zhuǎn)移網(wǎng)絡(luò)(atn)、配價(jià)語(yǔ)法(vg)、格語(yǔ)法(cg)、范疇語(yǔ)法(cg)、概念從屬理論(cd)、多叉多標(biāo)記樹(shù)形圖分析法(mmt)、詞匯功能語(yǔ)法(lfg)和蒙塔古語(yǔ)法(mg)等。這些理論和方法,因?yàn)閺摹袄硇浴背霭l(fā),因此不可能反映以感受性為基礎(chǔ)的自然語(yǔ)言的真實(shí)面貌,其缺失已經(jīng)日益明顯。為了克服理性主義理論的不足,采取經(jīng)驗(yàn)主義理論處理大規(guī)模真實(shí)文本的語(yǔ)料庫(kù)語(yǔ)言學(xué)應(yīng)運(yùn)而生。在收集語(yǔ)言資源或建立語(yǔ)料庫(kù)的基礎(chǔ)上,運(yùn)用統(tǒng)計(jì)方法進(jìn)行語(yǔ)言信息處理,語(yǔ)言交際過(guò)程的隨機(jī)性由此得到關(guān)注。面對(duì)傳統(tǒng)語(yǔ)形語(yǔ)法學(xué)對(duì)自然語(yǔ)言過(guò)程的不相適應(yīng)和語(yǔ)義研究的復(fù)雜性,甚至有人嘗試撇開(kāi)語(yǔ)言學(xué)家的語(yǔ)言研究,以借助語(yǔ)料庫(kù)逐步實(shí)現(xiàn)自然語(yǔ)言系統(tǒng)模擬。雖然借助語(yǔ)料庫(kù)可以解決語(yǔ)言信息處理的一些問(wèn)題,但是僅僅依賴語(yǔ)料庫(kù)實(shí)現(xiàn)自然語(yǔ)言系統(tǒng)模擬注定此路不通。因?yàn)樽匀徽Z(yǔ)言不是一個(gè)語(yǔ)料倉(cāng)庫(kù),而是一個(gè)語(yǔ)義和語(yǔ)形復(fù)合性結(jié)構(gòu)系統(tǒng)。無(wú)論是理性主義還是經(jīng)驗(yàn)主義,都必須意識(shí)到:語(yǔ)言信息處理中所處理的是定域受限語(yǔ)言。這一研究的理論基礎(chǔ)既不應(yīng)是純粹基于語(yǔ)言規(guī)則性的理性主義,也不應(yīng)是完全依賴語(yǔ)言隨機(jī)性的經(jīng)驗(yàn)主義,而應(yīng)是突出語(yǔ)言受限性的實(shí)驗(yàn)主義。世界語(yǔ)言學(xué)的發(fā)展經(jīng)歷了從經(jīng)驗(yàn)科學(xué)到先驗(yàn)科學(xué)的漫長(zhǎng)過(guò)程,計(jì)算機(jī)的發(fā)明必將促使當(dāng)代語(yǔ)言學(xué)成為一門實(shí)驗(yàn)科學(xué)。強(qiáng)調(diào)計(jì)算語(yǔ)言學(xué)的實(shí)驗(yàn)主義,并非一概否定理性主義和經(jīng)驗(yàn)主義,而是要在實(shí)驗(yàn)主義的基礎(chǔ)上運(yùn)用理性和經(jīng)驗(yàn)的理論方法。

自然語(yǔ)言處理的語(yǔ)言理論,目前主要有基于語(yǔ)形的語(yǔ)言理解系統(tǒng)和基于語(yǔ)義的語(yǔ)言理解系統(tǒng)。前者是以語(yǔ)形語(yǔ)法研究的成果為出發(fā)點(diǎn),從句法形式入手;后者是以語(yǔ)義研究的成果為出發(fā)點(diǎn),從語(yǔ)義關(guān)系入手。兩種理解系統(tǒng)在文本輸入、預(yù)處理和自動(dòng)分詞等早期環(huán)節(jié)上基本相同,不同的是基于語(yǔ)形的理解系統(tǒng)先進(jìn)行詞法和句法分析,后進(jìn)行語(yǔ)義和語(yǔ)用分析,基于語(yǔ)義的理解系統(tǒng)先進(jìn)行語(yǔ)義分析和語(yǔ)義結(jié)構(gòu)生成,后進(jìn)行目標(biāo)語(yǔ)的形式組合。生成語(yǔ)義學(xué)認(rèn)為句子的句法特點(diǎn)取決于語(yǔ)義,語(yǔ)義部分才具有生成能力。認(rèn)知語(yǔ)義學(xué)把意義看作一個(gè)植根于知識(shí)網(wǎng)絡(luò)和信仰系統(tǒng)中的認(rèn)知結(jié)構(gòu),理解一個(gè)語(yǔ)言形式的意義必須激發(fā)相關(guān)認(rèn)知領(lǐng)域中的其他認(rèn)知結(jié)構(gòu)。既然語(yǔ)形結(jié)構(gòu)只是語(yǔ)義結(jié)構(gòu)的表層投影,既然基于語(yǔ)義的理解系統(tǒng)才符合語(yǔ)言的生成機(jī)制,既然語(yǔ)義處理才是語(yǔ)言信息處理的關(guān)鍵,那么只有基于語(yǔ)義的理解系統(tǒng)才能滿足計(jì)算機(jī)對(duì)自然語(yǔ)言的理解和生成。

李葆嘉:論語(yǔ)言科學(xué)與語(yǔ)言技術(shù)(下)

四、人腦語(yǔ)言和電腦語(yǔ)言的性質(zhì)異同

根據(jù)與“人腦語(yǔ)言學(xué)”的對(duì)應(yīng)關(guān)系,計(jì)算語(yǔ)言學(xué)也可以稱之為“電腦語(yǔ)言學(xué)”。從人腦角度出發(fā),電腦語(yǔ)言學(xué)的研究是將人腦語(yǔ)言系統(tǒng)移植電腦工具的電子工程;從電腦角度出發(fā),電腦語(yǔ)言學(xué)是電腦程序模擬人腦語(yǔ)言能力的仿生工程。

不管是系統(tǒng)移植還是能力仿生,首先必須認(rèn)識(shí)到人腦和電腦的異同。1.構(gòu)造機(jī)制的不同:人腦是生物神經(jīng)系統(tǒng),具有生物認(rèn)知機(jī)制,而電腦是電子計(jì)算系統(tǒng),具有電子運(yùn)算程序。2.伴隨情感的有無(wú):人腦具有驅(qū)動(dòng)感覺(jué)、思維和表達(dá)進(jìn)行的情感性,而電腦只具有執(zhí)行程序運(yùn)算的機(jī)械性。3.經(jīng)驗(yàn)基礎(chǔ)的有無(wú):人腦具有以感受性為特征的經(jīng)驗(yàn)基礎(chǔ)以及知識(shí)系統(tǒng),而電腦即使配備了一定的知識(shí)背景,也不可能具有人腦一樣的認(rèn)知經(jīng)驗(yàn)基礎(chǔ)。4.認(rèn)知理性的異同:人腦的感受和認(rèn)知可以區(qū)別為非語(yǔ)言層次和語(yǔ)言符號(hào)層次,非語(yǔ)言層次包括直覺(jué)和感覺(jué),語(yǔ)言符號(hào)層次包括知覺(jué)(游移性印象)、象覺(jué)(清晰性意象)和統(tǒng)覺(jué)(邏輯性抽象)。電腦的認(rèn)知理性只能夠定位于語(yǔ)言符號(hào)的象覺(jué)和統(tǒng)覺(jué)層次,難以具備豐富的認(rèn)知層級(jí)系統(tǒng)。5.交流對(duì)象的異同:人腦的交流對(duì)象分別為對(duì)象世界和人際關(guān)系之間,具有交流的二重性;而電腦的交流對(duì)象只有執(zhí)行程序的人或“人—機(jī)對(duì)話”的一重性,所謂“機(jī)—機(jī)對(duì)話”的實(shí)質(zhì)仍然是“人—機(jī)對(duì)話”的連網(wǎng),互聯(lián)網(wǎng)交流仍然是執(zhí)行者之間的交流。由于計(jì)算機(jī)永遠(yuǎn)不可能直接認(rèn)知人所面對(duì)的對(duì)象世界,必須以人類的認(rèn)知為中介,因此計(jì)算機(jī)永遠(yuǎn)不可能超越人類的智慧,計(jì)算機(jī)統(tǒng)治人類世界永遠(yuǎn)是一種不必要的擔(dān)憂。

其次,必須認(rèn)識(shí)人腦語(yǔ)言系統(tǒng)和電腦語(yǔ)言系統(tǒng)的差別。人腦語(yǔ)法或自然語(yǔ)言法則是在歷史上逐步形成的,具有隨機(jī)性、規(guī)約性、類推性和耗散性特點(diǎn);而電腦語(yǔ)法或機(jī)用語(yǔ)言法則只是自然語(yǔ)法的再抽象化和再規(guī)范化,具有受限性、是否性、程序性和封閉性的特點(diǎn)。即使將來(lái)研究出適合于語(yǔ)言信息處理的機(jī)用語(yǔ)法,也不等同于自然語(yǔ)法。電腦所能獲得的語(yǔ)言能力,只是自然語(yǔ)言的一部分或有限語(yǔ)言能力。因此,移植進(jìn)電腦的語(yǔ)言系統(tǒng)必須進(jìn)行界定:1.定域化語(yǔ)言:因?yàn)槿四X語(yǔ)言是一個(gè)可以分為不同語(yǔ)域的復(fù)合性層級(jí)系統(tǒng),所以必須首先確定電腦語(yǔ)言與人腦語(yǔ)言的對(duì)應(yīng)層級(jí),最佳選擇就是規(guī)范性的日常語(yǔ)域。2.受限化語(yǔ)言:只能采取有限網(wǎng)絡(luò)模式,才能將自然語(yǔ)言裁剪成適合計(jì)算機(jī)運(yùn)算模式的機(jī)用語(yǔ)言。3.形式化語(yǔ)言:必須將定域受限語(yǔ)言的語(yǔ)義結(jié)構(gòu)和語(yǔ)形規(guī)則分別形式化。4.算法化語(yǔ)言:借助一定的數(shù)學(xué)模型,將形式化語(yǔ)義和語(yǔ)形系統(tǒng)數(shù)字化。5.編程化語(yǔ)言:依據(jù)一定的程序語(yǔ)言,將數(shù)字化語(yǔ)義和語(yǔ)形系統(tǒng)編程化。

語(yǔ)言信息處理的目標(biāo),就是在受限性語(yǔ)言層面上逐步實(shí)現(xiàn)人—機(jī)對(duì)話。歸根結(jié)底,自然語(yǔ)法≠電腦語(yǔ)法,電腦語(yǔ)言系統(tǒng)是通過(guò)建立形式化的計(jì)算模型進(jìn)行處理的定域自然語(yǔ)言系統(tǒng)。電腦的運(yùn)算速度可以遠(yuǎn)遠(yuǎn)超過(guò)人腦的思維速度,但是電腦不可能具備人的能動(dòng)性認(rèn)知行為。語(yǔ)形語(yǔ)法學(xué)面對(duì)是人—人對(duì)話,人們?cè)谡Z(yǔ)言習(xí)得過(guò)程中不知不覺(jué)地形成了建立在認(rèn)知能力之上的語(yǔ)義結(jié)構(gòu)網(wǎng)絡(luò),為語(yǔ)形語(yǔ)法規(guī)則提供了一份語(yǔ)義可選性清單。語(yǔ)言信息處理面對(duì)的是人—機(jī)對(duì)話,而語(yǔ)言“白板”的計(jì)算機(jī)并不具備這份語(yǔ)義可選性清單。語(yǔ)形語(yǔ)法規(guī)則,在教計(jì)算機(jī)如何說(shuō)話的過(guò)程中頓時(shí)陷入困境。幾千年來(lái)的西方語(yǔ)法學(xué)之所以能夠延續(xù)下來(lái),全賴人們具有基于認(rèn)知能力的語(yǔ)義結(jié)構(gòu)網(wǎng)絡(luò)的自建構(gòu)功能。反之,正是這一語(yǔ)義結(jié)構(gòu)網(wǎng)絡(luò)的存在,致使以往的語(yǔ)言學(xué)家誤以為語(yǔ)形語(yǔ)法就是語(yǔ)法的全部或主要,而將語(yǔ)義結(jié)構(gòu)法則長(zhǎng)期放逐出語(yǔ)法學(xué)領(lǐng)域。

自然語(yǔ)言系統(tǒng)的計(jì)算機(jī)處理對(duì)西方具有兩千多年傳統(tǒng)的語(yǔ)形語(yǔ)法學(xué)提出了根本性的挑戰(zhàn),也為東西方語(yǔ)言學(xué)的合流帶來(lái)了新的契機(jī)?;仡?0世紀(jì)東西方語(yǔ)言學(xué)合流的歷程,之所以出現(xiàn)西方語(yǔ)法學(xué)框架和漢語(yǔ)事實(shí)的錯(cuò)位,是因?yàn)楹狭骰c(diǎn)的選擇陷入誤區(qū)。西語(yǔ)具有豐富的語(yǔ)形結(jié)構(gòu)(這里指形態(tài)變化)而漢語(yǔ)基本沒(méi)有(漢語(yǔ)主要依靠語(yǔ)序、虛詞、韻律和語(yǔ)氣,另外對(duì)語(yǔ)境或語(yǔ)用具有極大依賴性)。選擇建立在形態(tài)變化基礎(chǔ)上的西方語(yǔ)法學(xué)框架作為合流的基點(diǎn),必然導(dǎo)致這一過(guò)程的曲折。反思的結(jié)果顯示,東西方語(yǔ)言學(xué)合流的基點(diǎn)應(yīng)當(dāng)是建立在人類語(yǔ)言所共有的語(yǔ)義結(jié)構(gòu)基礎(chǔ)上的語(yǔ)義語(yǔ)法學(xué)理論。隨著對(duì)語(yǔ)言能力研究的進(jìn)一步深入和語(yǔ)言信息處理對(duì)傳統(tǒng)語(yǔ)言學(xué)的挑戰(zhàn),傳統(tǒng)語(yǔ)義研究在新的形勢(shì)下得以復(fù)活。隨著世界語(yǔ)言學(xué)從20世紀(jì)60年代以來(lái)出現(xiàn)了從語(yǔ)形研究向語(yǔ)義研究的轉(zhuǎn)移,東西方語(yǔ)言學(xué)研究的合流將在新的基點(diǎn)上逐步實(shí)現(xiàn)。

五、面向語(yǔ)言系統(tǒng)模擬的語(yǔ)義語(yǔ)法學(xué)

盡管喬姆斯基理論認(rèn)識(shí)到語(yǔ)言形式化的重要性,但生成語(yǔ)義學(xué)才是語(yǔ)言研究本體的轉(zhuǎn)向。雖然配價(jià)語(yǔ)法和格語(yǔ)法的引進(jìn)和對(duì)漢語(yǔ)語(yǔ)法意合性的認(rèn)定,促使語(yǔ)義句法研究成為當(dāng)代中國(guó)語(yǔ)法學(xué)界的熱點(diǎn),但迄今為止,中文信息處理應(yīng)用系統(tǒng)自覺(jué)而全面地運(yùn)用語(yǔ)義研究成果的鮮見(jiàn)。這一現(xiàn)狀的表象似乎是語(yǔ)義研究成果不多,其根源卻在于沒(méi)有徹底認(rèn)識(shí)到——必須從人類(不限于印歐族群)普通(不限于歐洲唯理主義)語(yǔ)法(不限于形態(tài)語(yǔ)言)的高度,來(lái)解決語(yǔ)言理論和研究方法的創(chuàng)新。無(wú)論是語(yǔ)言信息處理,還是語(yǔ)言機(jī)制揭示,漢語(yǔ)研究都需要既能反映漢語(yǔ)個(gè)性又植根于人類語(yǔ)言共性的原創(chuàng)理論。

人類的認(rèn)知表現(xiàn)為對(duì)象世界的符號(hào)化(認(rèn)知對(duì)象的符號(hào)化形成語(yǔ)義單元)、范疇化(語(yǔ)義單元的范疇化形成語(yǔ)義類別)和關(guān)聯(lián)化(語(yǔ)義類別的關(guān)聯(lián)化形成語(yǔ)義結(jié)構(gòu))。西方語(yǔ)言中的詞法范疇原型是先民通過(guò)語(yǔ)音形式所表現(xiàn)出來(lái)的認(rèn)知范疇或語(yǔ)義類別。語(yǔ)言的形態(tài)標(biāo)記性、單位分布性和結(jié)構(gòu)層次性都是語(yǔ)義類別關(guān)聯(lián)化在表達(dá)層面的投影或者制約。一方面,隨著人們認(rèn)知的發(fā)展,反映原始認(rèn)知足跡的形態(tài)范疇(如原始生物觀的“性”、原始計(jì)算法的“數(shù)”)的價(jià)值日益消解;另一方面,隨著語(yǔ)言系統(tǒng)的演化,表現(xiàn)原始認(rèn)知足跡的語(yǔ)法手段又不可避免地合并、弱化和喪失。語(yǔ)序、功能詞等手段的補(bǔ)償,導(dǎo)致語(yǔ)言結(jié)構(gòu)類型從綜合型向分析型方向嬗變。這一過(guò)程證明,原始詞法范疇在句法結(jié)構(gòu)中并不具有充分必要性。一種語(yǔ)言可以沒(méi)有詞法形態(tài)變化,但不可能沒(méi)有語(yǔ)義結(jié)構(gòu)規(guī)則。不同的自然語(yǔ)言之間之所以可能互譯,其基礎(chǔ)就是存在可互通性語(yǔ)義,盡管結(jié)構(gòu)類型迥然不同。(李葆嘉2001)

由此可見(jiàn),人類語(yǔ)言的本質(zhì)屬性是語(yǔ)義性,其他屬性都是語(yǔ)義性的派生。人類語(yǔ)言的共性可以概括為:在人類感知對(duì)象世界的過(guò)程中,神經(jīng)機(jī)制依據(jù)象似性模式促使對(duì)象世界語(yǔ)符化,音義一體化的語(yǔ)符具有實(shí)體性和范疇性,由此組成的語(yǔ)義結(jié)構(gòu)具有語(yǔ)境性和關(guān)聯(lián)性,語(yǔ)義結(jié)構(gòu)的語(yǔ)境性表現(xiàn)為語(yǔ)用、語(yǔ)義結(jié)構(gòu)的關(guān)聯(lián)性投影為語(yǔ)形,而語(yǔ)義結(jié)構(gòu)模式具有生成性。圖示如下:

神經(jīng)機(jī)制語(yǔ)義實(shí)體語(yǔ)境-語(yǔ)用性

象似性認(rèn)知過(guò)程語(yǔ)符語(yǔ)義結(jié)構(gòu)生成性

對(duì)象世界語(yǔ)音范疇關(guān)聯(lián)-語(yǔ)形性

在自然語(yǔ)言能力移植工程中,計(jì)算機(jī)需要的是具有語(yǔ)言本質(zhì)共性的語(yǔ)義結(jié)構(gòu)網(wǎng)絡(luò),由此有必要首先建構(gòu)語(yǔ)義語(yǔ)法學(xué)。所謂“語(yǔ)義語(yǔ)法學(xué)”不是“語(yǔ)義+語(yǔ)法的學(xué)”,而是以語(yǔ)義為研究對(duì)象的語(yǔ)法學(xué)。把語(yǔ)義結(jié)構(gòu)的表層投影——語(yǔ)形作為語(yǔ)法研究的純正對(duì)象,有悖于語(yǔ)言結(jié)構(gòu)的真實(shí)本體。喬姆斯基試圖在語(yǔ)形結(jié)構(gòu)進(jìn)行數(shù)理化描寫的基礎(chǔ)上,建構(gòu)反映語(yǔ)言能力的生成語(yǔ)法體系勢(shì)必捉襟見(jiàn)肘。這一初始思路必然導(dǎo)致“拋開(kāi)語(yǔ)義——深層語(yǔ)義——語(yǔ)義解釋——邏輯表達(dá)——邏輯式”這樣的“不斷革命”。雖然喬姆斯基強(qiáng)調(diào)語(yǔ)言研究的目的在于揭示語(yǔ)言天賦,但依據(jù)其理論思路:普遍語(yǔ)法(研究對(duì)象)——語(yǔ)言能力(哲學(xué)基礎(chǔ))——自然主義(學(xué)科性質(zhì))——數(shù)學(xué)方法(方法借鑒)——符號(hào)描寫(形式載體)——形式語(yǔ)法(研究成果),顯然缺少人類天賦中最關(guān)鍵的認(rèn)知性語(yǔ)義能力這一環(huán)節(jié)。完全排斥語(yǔ)義的經(jīng)典理論階段,其句法結(jié)構(gòu)規(guī)則必然導(dǎo)致生成出一批語(yǔ)言事實(shí)中并不存在的語(yǔ)符串。即使在不得不引進(jìn)語(yǔ)義解釋的標(biāo)準(zhǔn)理論階段,也沒(méi)有放棄把形式結(jié)構(gòu)作為句法生成的基礎(chǔ)規(guī)則。然而,任何脫離語(yǔ)義的語(yǔ)法形式化注定流產(chǎn),不可能達(dá)到揭示語(yǔ)言生成機(jī)制或普遍語(yǔ)法的目標(biāo)。

如果說(shuō)語(yǔ)義語(yǔ)法學(xué)的語(yǔ)言觀強(qiáng)調(diào)人類語(yǔ)言的本質(zhì)共性是語(yǔ)義性,那么語(yǔ)義語(yǔ)法學(xué)的語(yǔ)法觀則突出語(yǔ)義結(jié)構(gòu)是語(yǔ)法的主要研究對(duì)象。在歐洲傳統(tǒng)語(yǔ)文學(xué)中,“語(yǔ)法”主要指基于形態(tài)變化的詞法和句法規(guī)則。在歷史比較語(yǔ)言學(xué)時(shí)代,“語(yǔ)法”包括語(yǔ)音法則,因此才有“青年語(yǔ)法學(xué)派”之稱。20世紀(jì)的結(jié)構(gòu)主義和描寫主義促使“語(yǔ)法”研究的對(duì)象日益窄化。依據(jù)語(yǔ)言是音義符號(hào)系統(tǒng)這一論斷,所謂“語(yǔ)法”即語(yǔ)言結(jié)構(gòu)之法,當(dāng)包括語(yǔ)音結(jié)構(gòu)法和語(yǔ)義結(jié)構(gòu)法。在語(yǔ)言系統(tǒng)的第一次劃分中沒(méi)有通常所說(shuō)的“語(yǔ)法”即語(yǔ)形結(jié)構(gòu)法的位置。語(yǔ)形結(jié)構(gòu)是語(yǔ)義結(jié)構(gòu)的表層投射或制約,語(yǔ)形結(jié)構(gòu)法依附于語(yǔ)義結(jié)構(gòu)法。語(yǔ)言系統(tǒng)的音義二分以及相關(guān)研究學(xué)科,圖示如下:

語(yǔ)音分析(生理語(yǔ)音學(xué)、物理語(yǔ)音學(xué))

自然語(yǔ)音解析

語(yǔ)言(語(yǔ)音學(xué))語(yǔ)音結(jié)構(gòu)(音位系統(tǒng)學(xué)、語(yǔ)流節(jié)律學(xué))

符號(hào)語(yǔ)形結(jié)構(gòu)(語(yǔ)形語(yǔ)法學(xué))

系統(tǒng)語(yǔ)義投影聚合性義場(chǎng)(詞類)

(語(yǔ)義學(xué))語(yǔ)義結(jié)構(gòu)(語(yǔ)義語(yǔ)法學(xué))

組合性義場(chǎng)(句模)

以往的“語(yǔ)音、詞匯、語(yǔ)法”三分法,迷糊了研究者的視線。雖然語(yǔ)形語(yǔ)法研究在語(yǔ)言交際和語(yǔ)言教學(xué)中具有一定或者相當(dāng)用途,但是從研究角度而言,卻避開(kāi)了關(guān)鍵的語(yǔ)義結(jié)構(gòu)法則。

人類認(rèn)知的本質(zhì)是對(duì)世界圖式的語(yǔ)義符號(hào)化,人所認(rèn)識(shí)的世界就是存在于語(yǔ)言符號(hào)系統(tǒng)中的世界。語(yǔ)義結(jié)構(gòu)網(wǎng)絡(luò)表現(xiàn)為“實(shí)體范疇化”(聚合性義場(chǎng))和“關(guān)系模式化”(組合性義場(chǎng))的相互交錯(cuò)。廣義語(yǔ)義不僅包括實(shí)體范疇化的詞匯語(yǔ)義和關(guān)系模式化的結(jié)構(gòu)語(yǔ)義,而且包括語(yǔ)境范疇化的語(yǔ)用語(yǔ)義。語(yǔ)法的真實(shí)本體或語(yǔ)法研究的切實(shí)對(duì)象應(yīng)當(dāng)是語(yǔ)義范疇及其關(guān)聯(lián)模式。結(jié)構(gòu)語(yǔ)法和生成語(yǔ)言的不同之處,在于前者強(qiáng)調(diào)“語(yǔ)言系統(tǒng)”,而后者強(qiáng)調(diào)“語(yǔ)言能力”,但其共通之處卻在于皆以語(yǔ)義結(jié)構(gòu)的虛象——語(yǔ)形作為研究實(shí)相,始終游離于語(yǔ)法真實(shí)本體之外。依據(jù)語(yǔ)形語(yǔ)法學(xué)的有限范疇和簡(jiǎn)略框架(詞類劃分、語(yǔ)形成分、短語(yǔ)結(jié)構(gòu)、句子成分等),既難以深入分析句法結(jié)構(gòu),更不可能有效駕馭語(yǔ)言結(jié)構(gòu)的生成機(jī)制。從表達(dá)來(lái)說(shuō),語(yǔ)義編碼是一切語(yǔ)言編碼的基礎(chǔ),要揭示語(yǔ)言的奧秘必須從語(yǔ)義入手。語(yǔ)形型語(yǔ)言(并非只有語(yǔ)形,而是語(yǔ)形隱含或遮蔽了語(yǔ)義語(yǔ)法)和語(yǔ)義型語(yǔ)言(并非沒(méi)有語(yǔ)法,而是沒(méi)有形態(tài)變化語(yǔ)法)的研究基礎(chǔ),都應(yīng)是語(yǔ)符的語(yǔ)義性。語(yǔ)義語(yǔ)法學(xué)的語(yǔ)法觀突出語(yǔ)義結(jié)構(gòu),表面上突出漢語(yǔ)的個(gè)性特征,實(shí)質(zhì)上受制于人類語(yǔ)言的本質(zhì)共性。關(guān)于語(yǔ)形型語(yǔ)言和語(yǔ)義型語(yǔ)言的大致異同,圖示如下:

語(yǔ)形型語(yǔ)言:形態(tài)手段

語(yǔ)義范疇——語(yǔ)義網(wǎng)絡(luò)(知識(shí)世界)——元語(yǔ)言(日常認(rèn)知)

語(yǔ)義型語(yǔ)言:非形態(tài)手段公務(wù)員之家版權(quán)所有

人類的語(yǔ)言符號(hào)系統(tǒng),本質(zhì)上是一個(gè)意義隱喻系統(tǒng)。作為人類認(rèn)知基本能力的隱喻,其更深層次是源于動(dòng)物性感受的模仿(基于事物的相似性)與借代(基于事物的相關(guān)性)這兩種認(rèn)知能力。關(guān)于語(yǔ)言符號(hào)系統(tǒng)的形成大致流程,圖示如下:

神經(jīng)機(jī)制情緒模式

認(rèn)知機(jī)制具體感受元語(yǔ)言(日常認(rèn)知)——語(yǔ)義網(wǎng)絡(luò)(知識(shí)世界)

對(duì)象世界經(jīng)驗(yàn)框架

西方語(yǔ)法學(xué)源于古希臘的“語(yǔ)言·哲學(xué)·邏輯”混沌母體,西方哲人的邏輯研究基于思辯性語(yǔ)言活動(dòng)。因?yàn)檫壿嫷幕締挝皇歉拍詈兔},因此人們往往把注重語(yǔ)義的語(yǔ)法研究混同于邏輯的研究。漢語(yǔ)實(shí)詞的義類劃分不是根據(jù)邏輯意義,而是借助日常語(yǔ)義;漢語(yǔ)句讀之間的語(yǔ)法關(guān)系不是根據(jù)邏輯關(guān)系,而是遵循事理關(guān)系。雖然邏輯規(guī)則是語(yǔ)法規(guī)則的部分再抽象化,但泛邏輯主義卻致使人們誤以為語(yǔ)法規(guī)則都可以邏輯化。自然語(yǔ)言首先具有本能傳情性和日常認(rèn)知性,語(yǔ)言結(jié)構(gòu)法則主要依據(jù)廣泛存在于日常生活中的事理關(guān)系。這一事理關(guān)系包括:時(shí)序先后性、空間位置性、主觀因果性、主觀目的性和評(píng)估好惡性等等。不是日常語(yǔ)法以思辯邏輯為基礎(chǔ),而是思辯邏輯以日常語(yǔ)法為基礎(chǔ)。同樣,雖然可以借用數(shù)理符號(hào)轉(zhuǎn)寫具有算法性的語(yǔ)言結(jié)構(gòu)法則,但不可把語(yǔ)言法則混同于數(shù)理邏輯規(guī)則。

語(yǔ)義語(yǔ)法學(xué)的技術(shù)路線,是從建構(gòu)現(xiàn)代漢語(yǔ)元語(yǔ)言系統(tǒng)到建構(gòu)現(xiàn)代漢語(yǔ)語(yǔ)義網(wǎng)絡(luò)。雖然自然語(yǔ)言信息處理依賴于語(yǔ)義結(jié)構(gòu)的形式化,但是一些語(yǔ)言學(xué)家往往視語(yǔ)義研究成果為“非語(yǔ)法”,并且對(duì)其形式化的可能性持懷疑態(tài)度。一方面語(yǔ)義單元不具備語(yǔ)形變化的顯著標(biāo)記,而包含較多的意會(huì)性;另一方面語(yǔ)義單元并非沒(méi)有范疇標(biāo)準(zhǔn),也具有感受或認(rèn)知的一致性。所謂語(yǔ)義的客觀性和主觀性就是語(yǔ)義的集體認(rèn)同性和個(gè)人聯(lián)想性,其本質(zhì)是個(gè)體使用的“素單位”和集體認(rèn)同的“位單位”之間的矛盾。語(yǔ)義語(yǔ)法學(xué)的研究對(duì)象首先是具有集體認(rèn)同性的“義位”(標(biāo)準(zhǔn)體),然后才有可能是僅具個(gè)人使用性的“義素”(義位變體)。盡管語(yǔ)義單元或語(yǔ)元數(shù)量眾多,語(yǔ)義結(jié)構(gòu)關(guān)系復(fù)雜,但它們以潛在的元語(yǔ)言系統(tǒng)為基礎(chǔ)。語(yǔ)義結(jié)構(gòu)網(wǎng)絡(luò)由語(yǔ)元實(shí)體和語(yǔ)義關(guān)系組成。同類語(yǔ)元之間具有聚合性語(yǔ)義關(guān)系,異類語(yǔ)元之間具有組合性語(yǔ)義關(guān)系。換而言之,每一語(yǔ)元都具有兩種互相制約著的語(yǔ)義關(guān)系,一是同一義場(chǎng)內(nèi)的各個(gè)“義位”之間的“義征”(語(yǔ)義特征)異同,一是不同義場(chǎng)的“義位”之間的“義聯(lián)”(語(yǔ)義關(guān)聯(lián))異同。由此,可以依據(jù)義征和義聯(lián)的異同而建立聚合性義位系統(tǒng)和組合性義聯(lián)系統(tǒng),在兩者基礎(chǔ)上在編織語(yǔ)義結(jié)構(gòu)網(wǎng)絡(luò)。句法結(jié)構(gòu)的形式化應(yīng)當(dāng)是語(yǔ)義結(jié)構(gòu)的形式化,而語(yǔ)義結(jié)構(gòu)的形式化就是義場(chǎng)關(guān)聯(lián)模式。

現(xiàn)代漢語(yǔ)語(yǔ)義語(yǔ)法的基礎(chǔ)研究是建立“現(xiàn)代漢語(yǔ)元語(yǔ)言系統(tǒng)”,這一研究可比喻為“語(yǔ)言基因圖譜分析工程”。其研究思路是:首先歸納出現(xiàn)代漢語(yǔ)詞典中用于釋義的最低限量詞匯,以建構(gòu)釋義元語(yǔ)言系統(tǒng);其次依據(jù)日常語(yǔ)言交際和語(yǔ)言教學(xué)中的用詞,參照釋義元語(yǔ)言以建立詞匯元語(yǔ)言系統(tǒng);再次抽象出義征范疇以建立析義元語(yǔ)言系統(tǒng),完成語(yǔ)義標(biāo)記集。在以上成果基礎(chǔ)上,一方面可以結(jié)合認(rèn)知心理學(xué)和神經(jīng)語(yǔ)言學(xué)的成果進(jìn)一步研究認(rèn)知元語(yǔ)言系統(tǒng),另一方面可以依據(jù)語(yǔ)言信息處理的要求,建立機(jī)用元語(yǔ)言系統(tǒng)。(李葆嘉等2002)

在現(xiàn)代漢語(yǔ)元語(yǔ)言系統(tǒng)這一基礎(chǔ)性工作完成以后,才可以逐步建構(gòu)現(xiàn)代漢語(yǔ)語(yǔ)義結(jié)構(gòu)網(wǎng)絡(luò)。研究程序和主要方法大致如下:1.義征對(duì)比法。依據(jù)有限網(wǎng)絡(luò)模型,借助析義元語(yǔ)言系統(tǒng)對(duì)義元進(jìn)行形式化描寫即標(biāo)注義征。給出義元在義場(chǎng)內(nèi)的語(yǔ)義特征,其目標(biāo)是建構(gòu)聚合性義場(chǎng)。2.義聯(lián)配比法。依據(jù)有限網(wǎng)絡(luò)模式,對(duì)語(yǔ)義符號(hào)的配比關(guān)系進(jìn)行形式化描寫即標(biāo)注義聯(lián),在分析和描寫過(guò)程中歸納出關(guān)聯(lián)性元語(yǔ)言系統(tǒng)和語(yǔ)義結(jié)構(gòu)關(guān)聯(lián)框架。語(yǔ)義句法的本質(zhì)是相關(guān)義場(chǎng)之間的配比,因此義聯(lián)標(biāo)記體現(xiàn)著義場(chǎng)配比。給出義場(chǎng)之間的語(yǔ)義選擇或語(yǔ)義制約規(guī)則,其目標(biāo)是建立組合性義場(chǎng)。3.語(yǔ)形標(biāo)記法。漢語(yǔ)具有詞序、虛詞和韻律等形式手段。韻律手段屬于語(yǔ)音句法,可姑且不論。漢語(yǔ)的語(yǔ)形大致可以概括為兩種:附著在詞或詞組上的詞語(yǔ)級(jí)語(yǔ)形是完構(gòu)成分;附著在句干上的句子級(jí)語(yǔ)形是完句成分。在進(jìn)行漢語(yǔ)語(yǔ)形范疇化研究的同時(shí),尋找語(yǔ)義關(guān)聯(lián)和語(yǔ)形成分之間的對(duì)應(yīng)性,然后對(duì)語(yǔ)形系統(tǒng)進(jìn)行層級(jí)性形式化描寫。4.合成建構(gòu)法。在義征、義聯(lián)和語(yǔ)形研究成果的基礎(chǔ)上,通過(guò)相關(guān)標(biāo)記的合成以建構(gòu)語(yǔ)義結(jié)構(gòu)句模系統(tǒng)。

“語(yǔ)言能力移植工程”的語(yǔ)言學(xué)部分主要是語(yǔ)義結(jié)構(gòu)網(wǎng)絡(luò)研究。通過(guò)建立形式化的計(jì)算模型,可以將語(yǔ)義結(jié)構(gòu)網(wǎng)絡(luò)進(jìn)一步形式化、算法化和程序化。語(yǔ)義語(yǔ)法系統(tǒng)研究的每一結(jié)果,都可以也應(yīng)當(dāng)用計(jì)算機(jī)操作作為驗(yàn)證。以往的語(yǔ)法學(xué)研究,除了執(zhí)著于語(yǔ)形研究以外,還有一個(gè)根本性的缺憾,就是不具備自然科學(xué)研究中的實(shí)驗(yàn)手段,因此難免經(jīng)驗(yàn)性、臆斷性和游移性等。采取計(jì)算機(jī)作為研究和驗(yàn)證手段,從而使語(yǔ)法研究具有鮮明的技術(shù)性和可證偽性。人們常說(shuō),只有學(xué)會(huì)一門外語(yǔ),人們才真正了解自己的母語(yǔ)。與此同理,只有計(jì)算機(jī)掌握了自然語(yǔ)言,人類才深入揭示出自然語(yǔ)言的奧秘。換而言之,根據(jù)語(yǔ)言學(xué)習(xí)對(duì)象的不同,可能存在三種教學(xué)語(yǔ)法:一種是母語(yǔ)教學(xué)語(yǔ)法(著重于語(yǔ)形語(yǔ)法,因?yàn)槿祟悓?duì)語(yǔ)義結(jié)構(gòu)網(wǎng)絡(luò)和語(yǔ)言知識(shí)庫(kù)具有自建構(gòu)能力),一種是對(duì)外語(yǔ)言教學(xué)語(yǔ)法(需要在語(yǔ)形語(yǔ)法的基礎(chǔ)上增加與語(yǔ)言理解相關(guān)的社會(huì)文化知識(shí),因?yàn)椴煌Z(yǔ)言的語(yǔ)義結(jié)構(gòu)網(wǎng)絡(luò)具有不同的文化性),一種是計(jì)算機(jī)模擬語(yǔ)言能力的語(yǔ)法(需要語(yǔ)義語(yǔ)法和語(yǔ)言知識(shí)庫(kù),因?yàn)橛?jì)算機(jī)不具備語(yǔ)義結(jié)構(gòu)網(wǎng)絡(luò)自建構(gòu)能力以及與語(yǔ)言理解相關(guān)的知識(shí)系統(tǒng)的自學(xué)習(xí)能力)。也只有揭示出語(yǔ)義結(jié)構(gòu)網(wǎng)絡(luò),語(yǔ)法學(xué)研究才能夠在語(yǔ)形語(yǔ)法研究的基礎(chǔ)上取得全面突破,語(yǔ)法形式、語(yǔ)形語(yǔ)法意義和語(yǔ)義語(yǔ)法意義,才能夠全面貫通。

盡管語(yǔ)義研究及其形式化相當(dāng)困難,但是在語(yǔ)義語(yǔ)法學(xué)理論的指導(dǎo)下,根據(jù)定域(語(yǔ)言定域)、定量(詞語(yǔ)定量)、定性(義元定性)、定式(義聯(lián)定式)的“四定”原則逐層實(shí)施,自然語(yǔ)言的理解與生成有可能在單句模式系統(tǒng)中首先實(shí)現(xiàn)。只要對(duì)語(yǔ)言本質(zhì)的探索和人腦語(yǔ)言移植電腦的目標(biāo)不變,就必須穿越語(yǔ)義研究的沼澤地。如果說(shuō)20世紀(jì)是語(yǔ)形語(yǔ)法學(xué)的世紀(jì),那么可以預(yù)言21世紀(jì)將是語(yǔ)義語(yǔ)法學(xué)的世紀(jì)。

六、語(yǔ)言科技復(fù)合型人才的培養(yǎng)

自然語(yǔ)言的計(jì)算機(jī)理解和生成已經(jīng)成為國(guó)際語(yǔ)言學(xué)研究的聚焦,語(yǔ)言信息處理的技術(shù)水平已經(jīng)成為當(dāng)前衡量一個(gè)國(guó)家現(xiàn)代化水平的重要標(biāo)志之一,盡快培養(yǎng)兼通語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)和認(rèn)知科學(xué)的復(fù)合型人才迫在眉睫。據(jù)《美國(guó)計(jì)算語(yǔ)言學(xué)雜志》1986年統(tǒng)計(jì),全球設(shè)置計(jì)算語(yǔ)言學(xué)博士學(xué)位的大學(xué)已有105所,其中美國(guó)63所。在英國(guó)曼徹斯特大學(xué)已有計(jì)算語(yǔ)言學(xué)的學(xué)士和碩士專業(yè)。(侯敏1999,p.27)

中國(guó)的機(jī)器翻譯在20世紀(jì)50年代啟動(dòng),但由于反復(fù)不斷的政治動(dòng)亂停滯了近20年。1981年,成立了中文信息學(xué)會(huì)。1987年,隸屬于中文信息學(xué)會(huì)的計(jì)算語(yǔ)言學(xué)專業(yè)委員會(huì)成立。通過(guò)計(jì)算機(jī)專家和語(yǔ)言學(xué)家的努力,已經(jīng)取得語(yǔ)言信息處理的一系列成果。但迄今為止,中國(guó)大陸計(jì)算語(yǔ)言學(xué)方向的研究生的培養(yǎng),或附屬在漢語(yǔ)言文字學(xué)、語(yǔ)言學(xué)及應(yīng)用語(yǔ)言學(xué)學(xué)位點(diǎn),或附屬在計(jì)算機(jī)應(yīng)用等學(xué)位點(diǎn),專門性的本科專業(yè)迄今尚無(wú)設(shè)置。根據(jù)目前中國(guó)高等教育學(xué)科體系,一方面,語(yǔ)言學(xué)和計(jì)算機(jī)科學(xué)分屬不同專業(yè),兼通語(yǔ)言學(xué)和計(jì)算機(jī)科學(xué)人才的培養(yǎng)如隔重山;另一方面,“中國(guó)語(yǔ)言文學(xué)”學(xué)科中,作為學(xué)術(shù)或準(zhǔn)科學(xué)的“語(yǔ)言學(xué)”在前而作為藝術(shù)或教化工具的“文學(xué)”為重,兩者始終捏而不合。

依據(jù)南京師范大學(xué)文學(xué)院的發(fā)展規(guī)劃,2001年4月成立了語(yǔ)言科技研究所,6月成立了語(yǔ)言科學(xué)及技術(shù)系,現(xiàn)在正在建設(shè)一個(gè)包括教學(xué)功能、科研功能、開(kāi)發(fā)功能和交流功能的語(yǔ)言科技實(shí)驗(yàn)中心。在現(xiàn)有專業(yè)目錄內(nèi)增設(shè)的漢語(yǔ)言專業(yè),以“語(yǔ)言科技”為特色,課程設(shè)置以語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)、數(shù)學(xué)和認(rèn)知科學(xué)為四大學(xué)科支柱,2002年開(kāi)始招收首屆中文信息處理方向的本科生。這一舉措,為多年來(lái)倡導(dǎo)的文理工學(xué)科滲透,找到了一個(gè)準(zhǔn)確的切入口。語(yǔ)言科技專業(yè)的培養(yǎng)目標(biāo)是:立足當(dāng)代語(yǔ)言科技領(lǐng)域,放眼未來(lái)相關(guān)科技前沿,以語(yǔ)言學(xué)與相關(guān)學(xué)科相的結(jié)合為導(dǎo)向,培養(yǎng)有利于促進(jìn)21世紀(jì)科技進(jìn)步和社會(huì)發(fā)展的復(fù)合型創(chuàng)新人才。通過(guò)堅(jiān)持不懈的努力,南京師范大學(xué)語(yǔ)言學(xué)學(xué)科點(diǎn)擬在三五年內(nèi)完善“本科生——研究生——博士后”的多層次人才培養(yǎng)體系,建構(gòu)“教育性——科研性——開(kāi)發(fā)性”的綜合型高等教育基地。

面對(duì)信息科技對(duì)當(dāng)代語(yǔ)言學(xué)的挑戰(zhàn),“語(yǔ)言科技”新思維應(yīng)運(yùn)而生。這是一個(gè)可以在描寫語(yǔ)言學(xué)、理論語(yǔ)言學(xué)和計(jì)算語(yǔ)言學(xué)之間,可以在語(yǔ)言學(xué)和相關(guān)學(xué)科之間,充分發(fā)揮溝通作用并引發(fā)許多思考的新概念。依據(jù)這一新思維,首先建構(gòu)了面向語(yǔ)言工程的語(yǔ)義語(yǔ)法學(xué)理論,并進(jìn)一步將這一工程具體化為“語(yǔ)言基因圖譜分析工程”和“語(yǔ)言能力移植工程”。當(dāng)代信息科技的發(fā)展趨勢(shì)表明,研究對(duì)象的語(yǔ)義性和研究過(guò)程及其成果的技術(shù)化將成為21世紀(jì)的語(yǔ)言學(xué)精神。