專利名稱::倒排參考句型語言分析方法
技術(shù)領(lǐng)域:
:本發(fā)明是基于參考句型(含詞語搭配、短語、詞組、詞匯)的語自'分析方法,可用于自然語言處理、智能信息處理等//面進(jìn)行語句分析、語義比較。
背景技術(shù):
:自然語S處理、智能信息處理需要進(jìn)行語句分析、語義比較。更受關(guān)注的是,提高拼音串的分詞準(zhǔn)確率已成為提升漢語語音輸入水平的關(guān)鍵。漢語拼音串自動分同的算法多種多樣,如最大匹配法(MM)、顯少分詞i"]頻選擇法(FWF)和逐詞遍歷法。根據(jù)掃描方向的不同,最大匹配法又分為TF.向最大匹配法(FMM)和反向最大匹配法(BMM)。但目前實行的分詞方法準(zhǔn)確率不能滿足應(yīng)用需要,提升分詞準(zhǔn)確率和速度需要新的算法。本人在中國申請?zhí)?0040067258.X的"質(zhì)數(shù)代換字符串檢索技術(shù)"修改文本、國際申請?zhí)朠CT/CN2005/001493文小巾,捉出對字符串按字符元用質(zhì)數(shù)代換,以檢索關(guān)鍵詞T的字符元的質(zhì)數(shù)乘積Ft值為被除數(shù),以數(shù)據(jù)庫基本句型S,,的字符元的質(zhì)數(shù)乘積FJ直為除數(shù),進(jìn)行除法運算,如能整除,則該句型S,,為T的可參考句型,稱為"逆檢索",形成基于參考句型的語-i分析方法。但"質(zhì)數(shù)代換字符串檢索技術(shù)"的速度不能滿足語言處理的需要,本人在屮M申請?zhí)?00510023383.5的"位標(biāo)記字符串檢索技術(shù)"修改文本、國際申請?zhí)朠CT/CN2005/001642文本中,說明了用"位標(biāo)記字符串檢索技術(shù)"進(jìn)行快速預(yù)選的方法,使基于參考句型的語言分析方法切實可行。作為一種變通的方法,也可利用倒排文件,進(jìn)行基于參考句型的語言分聽。
發(fā)明內(nèi)容語音輸入、機器翻譯、搜索引擎、智能信息處理需要進(jìn)行語句分析、語義比較,目前使用的是分詞方法,本文件公汗的是站于參考句型的語g分析、語義比較方法,是較"分詞"方法高一層加的語由'分析方法,但優(yōu)先權(quán)文件沿用了通常的術(shù)語,稱為"倒排參考句形分詞技術(shù)",現(xiàn)稱為"倒排參考句型t&g分析方法"。下面圍繞漢語語音輸入中轉(zhuǎn)換拼音串為漢字串的過程,說明l.艱于參考句型的語音輸入算法的基本原理。2.用倒排參考句型方法進(jìn)行語g分析的一般歩驟。3.倒排參考句型語音輸入方法。倒排參考句型語言分析方法的許多方面與利用"位標(biāo)記""質(zhì)數(shù)代換字符串檢索技術(shù)"進(jìn)行語自'分析是相同的,可以互相參考。如果把其它語,智的音標(biāo)符號看作漢語拼音,單詞、短語、句型等看作漢語的詞語、短語、句型等,其他&S各方面的應(yīng)用也可參照實施。1.基于參考句型的語音^入算法難本原理A.語言協(xié)問現(xiàn)象與基本W(wǎng)型提煉4與其它語言一樣,漢語語句的總數(shù)是難以窮盡的,至少就目前的技術(shù)水平而言,在普通微機,不可能列出足夠數(shù)量的句子,實現(xiàn)瞬時響應(yīng),找到拼音串對應(yīng)的句子。當(dāng)然,句子由詞語構(gòu)成,如"他明年六月畢業(yè)"可分解為"他""畢業(yè)""明年""六月",詞語數(shù)量是有限的,《現(xiàn)代漢語詞典》收"語詞"約60,000條,但詞語存在同音現(xiàn)象。語音輸入中需要對語音串進(jìn)行正確切分,并在同音詞中作出合乎語境的選擇。漢語有400多個無調(diào)音節(jié),常用漢字有5000-7000個,平均每個音節(jié)對應(yīng)10多個常用漢字,有的音節(jié)則對應(yīng)上百個漢字。單獨給出一個音節(jié)"xue"、或"sheng",不能確定其意義及所指的漢字,但"x腦heng"兩個音節(jié)連用,則意為"學(xué)生",這里"xue"與"sheng"起了"互證"作用,可稱為語言的"協(xié)同現(xiàn)象"。漢語2個音節(jié)排列數(shù)約為400*400=160,000,漢語語詞60,000條不都是雙音節(jié)詞語,但漢語雙音節(jié)中一方面存在"有音無義"現(xiàn)象,如,"rexiang",一方面存在"同音多詞"現(xiàn)象,如音為"shixian"的詞語有"實現(xiàn)、事先、失陷、視線、時限、時鮮、時賢",音為"lixiang"的詞語有"理想、里巷"。不過,如果有人說"shixianlixiang",我們會理解為"實現(xiàn)理想",而不會理解為"視線里巷",這里"shixian"與"lixiang"起了"互證"作用??傊?,音節(jié)越多,語義越確定。對于漢語來說,三音節(jié)、四音節(jié)中,"同音多詞"或"同音多義"的概率越來越少,并且出現(xiàn)大量"有音無義"現(xiàn)象。.n:是由于三音節(jié)中"有音無義"的概率大,如果他人談話中提及一個三音節(jié)的陌生人名,如"lifuhao",我們多數(shù)時候能判斷出這是一個人的名字,而不是詞語。既然三音節(jié)、四音節(jié)中,"同音多義"的概率越來越少,如將單音節(jié)詞語、雙音節(jié)詞語,按語義搭配組成三、四字乃至i字以上的短語、句型,給出相應(yīng)的拼音,建立數(shù)據(jù)庫,由于音、義一一對應(yīng)性好,^據(jù)這種數(shù)據(jù)庫進(jìn)行音字轉(zhuǎn)換,就能提高準(zhǔn)確率。設(shè)語音轉(zhuǎn)換或拼音輸入的T為"shixianlixiangxuyaonuli",用正向最大匹配法進(jìn)行分詞,可以在數(shù)據(jù)庫找到拼音串"shixianlixiang",其相應(yīng)的漢字串為"實現(xiàn)理想",將T處理為"實現(xiàn)理想xuyaonuli",可以避免用"shixian"."lixiang"分別轉(zhuǎn)換時的選詞錯誤。當(dāng)然,語言不是這么簡單。如果有人說"shixianweidalixiang",我們會理解為"實現(xiàn)偉大理想",而不是"時賢偉大里巷",說明語言的"協(xié)同現(xiàn)象"是對以"跨音節(jié)"的;如果有人說"lixiangyijingshixian",我們會理解為"理想已經(jīng)實現(xiàn)",而不是"理想意境視線",說明語言的"協(xié)同現(xiàn)象"是可以"無序"的。但是,通常的分詞方法不能發(fā)現(xiàn)"shixianweidalixiang"、"lixiangyijingshixian"同數(shù)據(jù)庫"shixianlixiang"有內(nèi)在聯(lián)系,也就是對"跨音節(jié)助、同現(xiàn)象""Ai序協(xié)同現(xiàn)象"無效。當(dāng)然,對字符串進(jìn)行"跳格比較",也能發(fā)現(xiàn)兩者之間存在包含關(guān)系,但數(shù)據(jù)庫稍大的時候,響應(yīng)速度不能滿足需要。所以,本人提出用"質(zhì)數(shù)代換字符串檢索技術(shù)"進(jìn)行語言分析,該方法把主串與子串之間字符的"串行比較"變成相應(yīng)質(zhì)數(shù)的"并行相除",減少了讀取數(shù)據(jù)的時間,在一定范圍內(nèi),速度比模式匹配快1-2倍。而且質(zhì)數(shù)代換整除判斷,"不考慮字符元秩序"的特點,正好適合處理"跨音節(jié)協(xié)同現(xiàn)象""無序協(xié)同現(xiàn)象"。如果數(shù)據(jù)庫中有"實現(xiàn)#理想"一條記錄,并用一個類似#的符號,說明從此處字符元秩序是靈活的,無論輸入"實現(xiàn)偉大理想"、"理想已經(jīng)實現(xiàn)",整除一次均可發(fā)現(xiàn)。如果用字符串跳格比較發(fā)現(xiàn)"無序協(xié)同現(xiàn)象",篩選參考句型時需要進(jìn)行兩次跳格比較。當(dāng)然,"質(zhì)數(shù)代換字符串檢索技術(shù)"的速度也不能滿足語言處理的需要,所以需要用"位標(biāo)記字符串檢索技術(shù)"進(jìn)行句型初選。對于漢語來說,"五車"可以看作詞語、或數(shù)量詞搭配,"春節(jié)晚會"是一個詞組,"只鴿子"是量詞與名詞搭配,"打電話"是一個動賓詞組、也可看作短語,"他笑"可以看作詞組,也可以看作主謂句,"我說漢語"則是一個有主謂賓的句子。語言分析數(shù)據(jù)庫中可以有提煉出來的句子、詞語搭配、短語、詞組、詞語等,為了便于行文,本文件概略地稱為"基本句型",其數(shù)據(jù)庫稱為"基本句型數(shù)據(jù)庫",記為jxk。從jxk中篩選出來的,字符元被關(guān)鍵詞T包含的句型-般地稱為"參考句型",部分字符元被T包含的句型稱為"容錯句型"。對"參考句型"、"容錯句型"進(jìn)行分析比較后,確定用來處理T的句型稱為"基礎(chǔ)句型"。在數(shù)據(jù)庫中選擇"參考句W做"基礎(chǔ)句型",優(yōu)先選擇字符元多的句型,簡稱為"長詞優(yōu)先"。對T-"他叫年六月^業(yè)"這個句子,如果數(shù)據(jù)庫有"他畢業(yè)""明年六月",則有2個字符元數(shù)較多的參考句型。如果數(shù)據(jù)庫沒有"明年六月",則會找到"明年""六月"等詞語做參考。就是說,基于參考句型的語音輸入算法能兼容通常的分詞算法,句型的標(biāo)準(zhǔn)是靈活的,數(shù)據(jù)庫中基本句型的數(shù)量可以隨硬件的條件調(diào)整,硬件處理能力大,句型長、數(shù)量多量多,處理效果就會越好。如架硬件條件差,可以對基本句型按學(xué)科進(jìn)行分類,如通用160力'條,文史40力'條,科技40萬條,報刊40萬條。如果用戶錄入科技文章,則調(diào)入160力'+40力'的數(shù)據(jù)庫。^3甜庫未能找到可信度高的參考句型,再在其它學(xué)科句型庫中查找。即使硬件性能好,分類建庫仍可考慮,畢竟,有些用戶是很少使用某些,業(yè)句型的。運行中,如果程序發(fā)現(xiàn)川戶當(dāng)lW頻繁使用某一專業(yè)的詞句,可自動調(diào)整當(dāng)ii/庫的構(gòu)成。典型的句子有主語、謂語、賓語,如,"我說漢語"。如果基本句型都有這三種成分,無疑是便于計算機"識別理解"的,但主語、謂語、賓語三種成分俱全,句型的數(shù)量會很多。所以把"我說漢語"分解成"我說"、"說漢語",作為兩個基本句型列入數(shù)據(jù)庫是可取的。優(yōu)選"基礎(chǔ)句型"進(jìn)行語言分析,除了"長詞優(yōu)先"的原則外,應(yīng)綜合考慮語法、頻率等多方面因素。如果T為"woshuohanyuhenliuli",根據(jù)長詞優(yōu)先的原則,可依據(jù)"說漢語",處理成"wo說漢語henliuli";如果數(shù)據(jù)庫中有"說流利"這個搭配,進(jìn)一步可處理成"wo說漢語hen流利"。再用"說",在參考句型中査找對應(yīng)漢字中含"說"、音為"woshLK)"的"我說"的S作為第3個基礎(chǔ)句型,處理成"我說漢語hen流利",這種方法,可稱為"系聯(lián)"或"聯(lián)想"。最后,按語法規(guī)則、頻率處理成"我說漢語很流利"。當(dāng)然,如果把"很流利"作為一個句型列入數(shù)據(jù)庫也是可以的,這要根據(jù)cpil的處理速度、內(nèi)存容量來決定。句型數(shù)量越大,語法規(guī)則可以越簡單,句型數(shù)量越小,就需要越多的語法規(guī)則做輔助判斷。在硬件有限的條件下,列入jxk的主iH賓句只能是常用的,如"我在上班"。數(shù)據(jù)庫主體是某種語言的動詞及賓語構(gòu)成的句型,如"強化管理";以及動補關(guān)系的句型,如"寫得好";主謂句,如"天晴"。但不限于基本句型,也可以是各種詞語搭配,如"大學(xué)l系""省l市""高峰""條l牛""雖然膽是""以l方式""抄l遍"。三字以上的詞語、成語,是有助于句子切分的,可以收入jxk中。專業(yè)詞語數(shù)量大,如上所述,可以分學(xué)科建庫,也可考慮將常見的專業(yè)名詞列入jxk,不常用的列入詞匯表中。通常的索引不能査找跨音節(jié)的語句,但可快速順序査找大詞匯表,如果利用收入jxk的句型對T進(jìn)行切分的準(zhǔn)確率高,切分后部分拼音串在jxk中未發(fā)現(xiàn)可信的S,可去詞匯表中查找。應(yīng)用中,是分學(xué)科建庫,還是分為基本句型庫、詞匯表,可按實際測試效果來決定。兩個漢字的詞語需要重點關(guān)注,如"shengshi"相應(yīng)的詞語中有"省市"、"聲勢"。其中"省市"作為一種搭配,可保留為兩字形式,如"湖北i省l武漢l市";而"聲勢",應(yīng)盡量與其它詞語組成較長的句型,如"聲勢l浩大""造l聲勢""聲期不少"。B.文體分析、引文信息、關(guān)聯(lián)信息語言是復(fù)雜的,在參考句型的基礎(chǔ)上,可給出文體信息、引文信息、關(guān)聯(lián)信息等,提高音標(biāo)串到文字串的轉(zhuǎn)換準(zhǔn)確率。文體傾向分析可用一個數(shù)據(jù)L來標(biāo);L文體傾向,將文體分為報刊、公文、商務(wù)、經(jīng)濟(jì)、文學(xué)、歷史、哲學(xué)、數(shù)學(xué)、物理、機械、屯子、化學(xué)、生物、教育等若干類,對應(yīng)L中的若干個bit;如語料庫中-"篇文章或一個語句大體屬于某n類文體,則將L相應(yīng)的n個bit置為"1",為該篇文章或語句的文體傾向。對語料庫進(jìn)行統(tǒng)計分析得出一個基本句型、詞語的文體傾向,記為U:如"外交部長"這個詞"常見"于"報刊、公文、文學(xué)、歷史"4類文體,則將相應(yīng)的4個bit覽為"1",L=51;"浮力"這個詞"常見"于"物理、'機械、教育"3類文體,則將相應(yīng)的3個bit置為"1",L=8960。語音輸入中,通過分析生成某語句的基本句型的U,得到該語句的文體傾向,記為Ls。段、章、篇的文體傾向可用總計的方式計算設(shè)生成某段文字所用的基礎(chǔ)句型、詞語為100條。如第3個bit指示"商務(wù)文體",用第3個bit為"l"的整數(shù)4與這100個基礎(chǔ)句型的LJ故"位"的"and"運算,值等于4的記錄有效,即滿足4&L,產(chǎn)4的記錄,假設(shè)為40;如第13個bit指示"生物",第13個bit為"1"的整數(shù)4096,滿足4096&Ln=40967的記錄有效,假設(shè)為10。"商務(wù)文體"的值40大,再用接近報刊文體的"公文""報刊""經(jīng)濟(jì)""歷史"之類的bit去統(tǒng)計,如果"公文"的記錄數(shù)為45,"商務(wù)"為40,"經(jīng)濟(jì)"為37,"歷史"為5,公文、報刊、商務(wù)、經(jīng)濟(jì)4類記錄數(shù)"明顯"比其它類記錄數(shù)大,將相應(yīng)的4個bit置為1,記為L廣15。需耍恰當(dāng)?shù)卮_定"常用""明顯"的標(biāo)準(zhǔn),使U、Lp中的bit適量,過多過少都不能產(chǎn)生好的效果。一些頻繁使用的基本句型、詞語,出現(xiàn)的文體種類多,可不用于文體分析,讓"=0即可。對于一個待處理語句T,程序處理后可能生成數(shù)個備選語句,各備選語句的U可以通過分析生成它所用的基礎(chǔ)句型的U得到,以備選語句的U同段、章、篇各層次的文體傾向Lp進(jìn)行比較,滿足UorLp-Lp或其等價式的語句,可信度高,優(yōu)先選用。其含義是該語句的文體傾向,沒有超出該部分文字的總體文體傾向范圍。否則,文體傾向不符,放棄或者在備選句型中靠后排列,當(dāng)然-盟綜合考慮生成語句的基礎(chǔ)句型的j值等因素。比較高的目標(biāo)是,文體分析能實時動態(tài)地進(jìn)行,評價已生成的語句,并通過對Ln與Lp進(jìn)行比較,指導(dǎo)后續(xù)語句生成吋的句型選擇。建立引文系統(tǒng)創(chuàng)建一個引文資料庫,長文按段落切分并相互鏈接,按段給出索引號,再將引文的篇名、各段落首句、精華之句S收入jxk,并給出索引號。當(dāng)T與某句S的拼音串、或按T生成的語句與S的文字串相同或相近時,根據(jù)索引號將P后文讀出,不僅可以提高正確率,還i'I以節(jié)約時問。設(shè)將"大學(xué)之道"收入jxk,如果輸入的T與該句的拼音相同或相近,或進(jìn)-歩生成的語句足"大學(xué)之道",即將"大學(xué)之道,在明明德,在親民,在止于至善"整段及鏈接的下一段"知止而后有定…"讀出,供用戶確認(rèn)。如果用戶僅記得"在明明德"一句,或其中的"明明德"三個字,這種引文系統(tǒng)就無效了。但可將引文資料庫,按語句切分并相互鏈接,給出每句的位標(biāo)記值W,并用位標(biāo)記值V建立索引,用戶提示"引文"時,用"mingmingde",或用生成的"明明德"的位標(biāo)記值V、W去"正檢索"篩選出R,后,進(jìn)行字符模糊匹配,讀出符合的記錄,供用戶確認(rèn)。如果cpu足夠快,不必用戶提不"引文",程序IS動地用T,或生成的語句的位標(biāo)ki值V、W,去模糊査找。也可以用通常的倒排文件方式—述立一個模糊引文系統(tǒng),用T或生成的語句根據(jù)倒排表去引文資料庫模糊查找;還可以將引文資料庫按句切分,并前后鏈接,將比較重要的語句并入jxk,根據(jù)倒排表進(jìn)行累計標(biāo)示后,j=m的記錄,可能是引文,用戶確認(rèn)后,可根據(jù)鏈接讀出下文,m指T的字符元數(shù),具體方法見下文。另外,數(shù)據(jù)庫中可給出基本句型的關(guān)聯(lián)詞、關(guān)聯(lián)信息?;揪湫椭饕菄@動詞建立的,而關(guān)聯(lián)詞可主要剛繞名詞逑立,根據(jù)知識系統(tǒng)給出。關(guān)聯(lián)詞可以處理同義、近義、并列、排斥關(guān)系,如"肝"與"膽"、"氬"與"氖""氡"可互作關(guān)聯(lián)詞;"+"可作為"加"的關(guān)聯(lián)詞;"C02"可作為"二氧化碳"的關(guān)聯(lián)詞。如T含"eryanghuatan",轉(zhuǎn)換為"二氧化碳",但給出"C02';,供用戶選擇。關(guān)聯(lián)詞也可以處理概念之間的多層次包含關(guān)系,如鴿子、鳥、動物。把"鵒子鳥""鴿子動物""鳥動物"作為搭配收入數(shù)據(jù)庫,是可以的,但句型數(shù)量可能太大??蓛H將"鴿子""鳥""動物"列入句型庫,但在"鴿子"后列出相關(guān)概念。如果川戶輸入T為"gezishiniao",通過位標(biāo)記、質(zhì)數(shù)代換逆檢索確定"鴿子"是參考詞匯,再用它的關(guān)聯(lián)詞'"V'的拼音niao與T進(jìn)行匹配,匹配成功,即可把T處理成"鴿子shi鳥",繼續(xù)用頻率、語法、知識系統(tǒng)處理,可能得到"鴿子是鳥"。關(guān)聯(lián)詞還可以處理屬性關(guān)系,如"上海"與"中國"、"水"與"浮力","圓"、"n"與"半徑"。關(guān)聯(lián)詞之外,可以用關(guān)聯(lián)信息將基本句型連接到專門的知識系統(tǒng)。拼音詞語語法頻率%文體引文鏈接關(guān)聯(lián)詞zaimingmingde在明明德引文0細(xì)28336B103|B105曰四書gezi鴿子名詞0.00084113鳥動物只zhinenggongsi質(zhì)能公式名詞0細(xì)78448E=mceryanghuatan二敎化碳?xì)怏w0細(xì)24337氧co2meili關(guān)麗形容0.00158209的不很youl肌游覽動詞0細(xì)18221過了沒漢語動詞常與助詞"著、了、過"連川,形容詞常與助詞"的、地、得"連用,可以用語法規(guī)則來處理,也可將動詞、形容詞與助詞搭配成"游覽過""關(guān)麗的"等,作為參考句型收入數(shù)必化.:,第三種選it^將助詞作為關(guān)聯(lián)詞處理,可以減少基本句型的數(shù)量。類似地,也可以處理量詞與數(shù)問、名詞動詞與量詞、形容詞動詞與副詞、名詞與介詞、名詞與方位詞、動詞與趨向詞等關(guān)系,還可以處理各種語言的語法形態(tài)變化,如把[ist]及相應(yīng)的est作為形容詞副詞的關(guān)聯(lián)詞,處理英語的環(huán)高級。2.倒排參考句型語自'分析方讓基于參考句型的語言分析4利用"質(zhì)數(shù)代換"及"位標(biāo)記字符串檢索技術(shù)"進(jìn)行,作為一個變通的方法,也可用倒排文件y」法進(jìn)行。"倒排參考句型語il分祈方法"實施中,根據(jù)應(yīng)用的不W,jxk、倒排表、耑要分析的語句T的字符單位,可以是漢字、其它語if的單詞、漢語拼音的音節(jié)、音素、其它語^的音節(jié)、音素、適合識別的語音單位等,為了便于說明,稱為"字符元",記為P。A.無重復(fù)字符元的情況這里先說明不含重復(fù)的字符元時,利用倒排參考句型進(jìn)行語言分析的基本歩驟,如果有重復(fù)的字符元,累計標(biāo)示后,情況復(fù)雜一些,在后面說明。倒排參考句型語言分析方法的流程,可大休分為兩個階段、四個&驟l.語言分析建庫倒排階段,分建立基本句型數(shù)據(jù)庫、建立倒排表兩歩,屬于程序開發(fā)時期,流程見附圖1。第l歩,根據(jù)應(yīng)用需要,對某種語g進(jìn)行分析,提煉基本句型(含詞語搭配、短語、詞組、詞匯,下同),建立jxk,統(tǒng)計出各基本句型S所含的字符元數(shù)k,給出字段j,令全部j-0;給出對應(yīng)信息、字符;H結(jié)構(gòu)信總、文體傾向、頻率、引文信息、關(guān)聯(lián)信息、語法信息等處理信息。字符元,語音輸入中是漢語拼音、其它語言適合聲學(xué)處理的語音單位的音標(biāo)符號,機器翻譯、搜索引擎、智能信息處理中是漢字、其它語言的單詞等。對應(yīng)信息,語音輸入中是某種語言的音標(biāo)串相應(yīng)的文字串;機器翻譯則是目標(biāo)語言的相應(yīng)基本句型,但不必一一對應(yīng),以便進(jìn)行文體傾向分析;智能信息處理,對應(yīng)信息可以給出指令、標(biāo)準(zhǔn)語句、標(biāo)準(zhǔn)詞匯、中心詞及同義近義句型。字符元串結(jié)構(gòu)信息說明組成基本句型的字符元秩序是固定的,還是靈活的,即能否"無序協(xié)同";以及字符元之間可否插入其它字符元,即能否"跨音節(jié)協(xié)同"。文體傾向標(biāo)示基本句型常見于哪幾類文體,機器翻譯中同時給出原始語言句型的文體傾向L,,與目標(biāo)語言句型的文體傾向iL,,,利用U可以分析當(dāng)前文件的Lp,用丄,,同Lp做比較,優(yōu)先選擇"與Lp相符的目標(biāo)語言句型,輔助語句生成;或分析生成目標(biāo)語句所用的句型的"得到該語句的同Lp做比較,在多個備選語句中給^與Lp相符的語句更高的評價。頻率,常見的術(shù)語處詞頻,因為數(shù)據(jù)庫中有基本句型、搭配、詞語等,故用頻率,是一定范圍內(nèi)的統(tǒng)計結(jié)果,比如,統(tǒng)計IOO,000,000個語句,某基本句型出現(xiàn)2300次,就是0.0023%。引文信總,給出引文資料庫相關(guān)段落編號或被切分出來的句與句之間的鏈接信息,機器翻譯也可利用。關(guān)聯(lián)信息是與基本句型、詞語經(jīng)常同時出現(xiàn)的詞語、符號、公式,司-根據(jù)知識系統(tǒng)或語法給出,也可以關(guān)聯(lián)到更全面的知識系統(tǒng);機器翻譯中可以給出目標(biāo)語由'的備選語句,或語法形態(tài)變化;智能信息處理中,同義近義句型、乃至反義句型也"I以用關(guān)聯(lián)詞給出。IW丄信總是基本句型的語法分類、詞語的詞性等;機器翻譯,不僅要給出原始語言戰(zhàn)本句型的語法信息、目標(biāo)語言相應(yīng)基本句型的語法信息,還需要語法系統(tǒng)支持。進(jìn)行倒排需要地址d,或句型編號ti。在第3》累計標(biāo)示中,需要讀取j值進(jìn)行累記后,再寫入,如果第2步倒排使用句型地址,第3步需要計算偏移量得到j(luò)值的地址;如果倒排中使川j值地址,累計標(biāo)示不必計算偏移量。如給句型編號,為減少査詢時間,應(yīng)按順序編號。<table>tableseeoriginaldocumentpage10</column></row><table>第2歩,建立jxk的倒排表。順序列出此類應(yīng)用中該語言的所有字符元Pi(i=l、2、3…w)作為關(guān)鍵詞;從jxk中順序讀取每一個基本句型S,如果S含有P,,在倒排表關(guān)鍵詞中査找Pi,并將該句型的地址或j值的地址d列在Pi后,處理完jxk中全部基本句型,得到倒排表,稱為"倒排d表"。jxk中給出基本句型編號,從jxk中順序讀取每一個基本句型S,如果S含有Pi,在倒排表關(guān)鍵詞中查找Pi,并將該基本句型的編號列在Pi后,處理完jxk中全部基本句型,得到倒排表,稱為"倒排n表"。為便于說明,本文件中多給出句型編號。這是上面示意jxk的兩種倒排表倒排d表倒排n表關(guān)鍵詞地址關(guān)鍵詞句型編號0012FF44,0012FF6CUb0012FF44,0012FF58b1,2c0012FF44c1d0012FF58,0012FF6Cd2,32.具體語句分析階段,分累計標(biāo)示、語句分析兩歩,屬于用戶運行時期,流程見附圖2。第3歩,每次分析處理1個T,應(yīng)先將jxk中全部記錄的j置為0。設(shè)需要分析的句子T所有的字符元為P,、P2、P3…Pn,,讀収其第一個字符元Pl,在倒排表中査找P,,如果倒排表P,后,有某個地址d或句型編號n,則將jxk中該記錄的j值增加1;同樣的,用其它字符元P2、Pj…Pn,進(jìn)行處理。處理完畢,各記錄的j值為該基本句型S含T中的字符元個數(shù)。這個過程稱為累計標(biāo)示。設(shè)T:dca,利用上面的倒排表標(biāo)示后,jxk成為kjnabc21bd212ad223如果把每個字符元看成一個元素,基木句型s與T的交集記為j,貝ijksn丁,j為j的大小;k值是基本句型S所^的字符元個數(shù),是S的大小。j:k,即J-S,又有J-TflS,所以s二丁ns,根據(jù)集合運算原理Tns=s@s^T。其含義是,若j二k,s的每個字符元均出現(xiàn)在T中。第3個句型j二k,它的全部字符元a、d出現(xiàn)在T中,dca中有"c",而且字符元秩序也不同,但通過倒排可以發(fā)現(xiàn)"dca"與"ad"中存在聯(lián)系。這個特點與"質(zhì)數(shù)代換"整除判斷相同,適合處理語W的"無序"、"跨音節(jié)協(xié)同現(xiàn)象"。第1、2個句型0<j<k,它們與T有部分字符元相同,是廣義的容錯句型。第4歩,査詢出所有j-k的句型S,這些句型為T的"參考句型",從中優(yōu)選部分句型做"基礎(chǔ)句型",用以處理T。語言中存在"無序協(xié)同現(xiàn)象",但并不是任意的,如"實現(xiàn)#理想"不能是"實#現(xiàn)理想";有些句型只能"跨音節(jié)協(xié)同",不能"無序協(xié)同",如"以…方式"不能用做"方式…以"。所以,并非所有j:k的句型S都可用于處理T,需要將S同T的字符元進(jìn)行結(jié)構(gòu)比較,剔除無效的S,當(dāng)然這需要在第1步建庫時給出字符元結(jié)構(gòu)信息。在j:k的結(jié)果集R,中,根據(jù)語言"協(xié)同現(xiàn)象",k值,也就是j值越大,語義越確定,據(jù)以處理T越可靠。這樣,沒有必要將R,中所有的S同T進(jìn)行字符元結(jié)構(gòu)比較,只需要檢查j、k大的S。語音輸入中,可把k和j值的大小同文體傾向分析、頻率等11綜合起來考慮。搜索引擎中,用數(shù)個k值較大的參考句型同T進(jìn)行比較,即可完成對T的切分;智能信息處理中,用戶U語農(nóng)述的語K)為T,迎過累計標(biāo)示確定出基礎(chǔ)句型,可以剔除T中不重要的信息,還可以在對應(yīng)信息、關(guān)聯(lián)詞中得到指令、標(biāo)準(zhǔn)語句、標(biāo)準(zhǔn)詞匯、中心詞、同義近義句型、反義句型等,計算機直接執(zhí)行指令或通過對標(biāo)準(zhǔn)語句、標(biāo)準(zhǔn)詞匯進(jìn)行分析合成產(chǎn)生指令,進(jìn)行適當(dāng)操作,可用于人機交互;中心詞、同義近義句型、反義句型可用于智能信息查找。機器翻譯中,倒排參考句型語言分析方法能保證原始語句被正確切分,找出原始語言句子的核心、輔助成分,可以說是讓計算機理解"句子",利用對應(yīng)信息中給出的目標(biāo)語言的基本句型、詞語,再在語法系統(tǒng)的支持下合成目標(biāo)語句。B.有字符元重復(fù)的情況上文未考慮S、T含重復(fù)字符元的情況,但語言中一個語句可能會重復(fù)出現(xiàn)某個字符元,在語音輸入中,還占有一定的比例。設(shè)有3個基本句型S1:aabb,k=4;S2:abc,k=3;S3:acd,k=3。建立倒排農(nóng)可以^兩種方式l.不管字符a在基本句型n中出現(xiàn)多少次,倒排表關(guān)鍵問a后,n只出現(xiàn)l次,稱為單一表,用dpb4表示;2.字符a在基本句型n中出現(xiàn)m次,剖排表關(guān)鍵詞a后,n就出現(xiàn)m次,稱為重復(fù)表,用dpb=2表示。關(guān)鍵詞單一表關(guān)鍵詞重復(fù)表1、2、31、1、2、3b1、2b1、1、2c2、3c23d3d3設(shè)有兩個待處理關(guān)鍵i"j:"aabbcef"、T2="abce"。T,的參考句型應(yīng)該是S,、S2;T2的參考句型應(yīng)該足S2。對L不剔除巫趙的a、b,用單一表進(jìn)行累計標(biāo)示Sl:aabb,k=4,j=4;S2:abc,k=3,j=5;S3:acd,k=3,j=3。如果査詢」=1<的句型,S2被遺漏,S3被混入。其原H是,T,中a、b是重復(fù)的,標(biāo)示兩次,所有含a、b的記錄的j值都增加了兩次,對于S,來說不成問題,〈1〕.S2、Sj的j值產(chǎn)生了問題:j值不能準(zhǔn)確反映S與T的字符元交集的大小。tld于倒排表的不同、T中是否有重復(fù)的字符元等因素,標(biāo)示后j值會不同;解決的途徑可從3方面考慮jxk屮用h記錄S中不重復(fù)的字符元的個數(shù),剔除T中重復(fù)的字符元后再進(jìn)行累計標(biāo)示,修改査詢條件。先分析利用單-倒排表標(biāo)示后出現(xiàn)的各種情況,表中"a[a]b[b]cef"表示累計標(biāo)示前"a、b"被剔除,"abce[]"表示該句無重復(fù)字符元被剔除,+表示3出現(xiàn)在111中,-表示S不出現(xiàn)在R,中,y表示S出現(xiàn)與否符合意圖,n表示S出現(xiàn)與否不符合意圖,*表示S出現(xiàn)在R,中是冗雜的。12<table>tableseeoriginaldocumentpage13</column></row><table>總結(jié)上表當(dāng)jxk有k值時,不剔除T中重復(fù)的字符元,放寬査詢條件,用',korj〉k"査詢,但R,可能有冗雜的S;剔除T中重復(fù)的字符元,用j-k或用j二k(M卞k查詢都會出現(xiàn)遺漏。當(dāng)jxk有h值時,不剔除T中重復(fù)的字符元,不可用j—查詢,可用j^orj玷査詢,但R,可能有冗雜的S;剔除T屮重復(fù)的字符元,可用j二h或用j-horj〉h査詢,也會有冗雜的S。當(dāng)然,把"j=ko!'j>k"等改為"j>k-l"之類也是可以的。4種可行的方案2、6、7、8査詢后R,都會出現(xiàn)冗雜的S,從R,中選擇基礎(chǔ)句型時,應(yīng)對S與T的字符元進(jìn)行比較,剔除兩種不合要求的S:如果S的任一字符元在T中未發(fā)現(xiàn),該S為冗雜記錄,放棄;如果S與T結(jié)構(gòu)不符,也放棄。這里有一點小問題,在一些方案中aabb冗雜為abce的參考句型,如果aabb是固定的,通過結(jié)構(gòu)比較可以剔除,如果是靈活的,如afeSWb,若用第2個字符元a再從T的丌始字符元比較,不能剔除該S。所以,檢查"無序協(xié)同"現(xiàn)象可靠的方法應(yīng)該這樣用S的第l個字符元a同T的第l個字符元比較,成功,遇到#,記下T當(dāng)M的位置i,用S的第2個字符元a同T的后續(xù)字符元比較,不成功,返回,從T的丌始字符元進(jìn)行比較,如果到i-l尚不成功,不合要求,放棄。從R,中冗雜的S的程度及査詢條件的簡單程度來看,以2、7兩個方案較優(yōu)。方案7査詢條件最簡單,R,中冗雜的S最少。但h值不能完全反映S的字符元的多少,當(dāng)關(guān)鍵詞為T,時,從R,中確定"基礎(chǔ)句型","aabb"得不到優(yōu)先考慮。所以可以考慮把2、7兩個方案結(jié)合起來,即數(shù)據(jù)庫屮同時給出k和h。用j:h査詢得到R!,再按k值大小優(yōu)選"基礎(chǔ)句型"。更進(jìn)一步,對T進(jìn)行分析,如果沒有ffi復(fù)字符元,累計標(biāo)示,用j:k査洵,按k值大小優(yōu)選"基礎(chǔ)句型";如果有重^字符元,剔除后,累計標(biāo)示,用j:h查詢,按k值大小優(yōu)選"基礎(chǔ)句型"skhjdpbTj=kj=haabb422!1a[a]b[b]cef+yabc33!ia[a]b[b]cef+yacd31a問b[b]cef-y33bb4^!labcx-yabc31eibce+yacd321-y如果T產(chǎn)"abccd",k=5,有虔復(fù)字符元,剔除c后為"abcd",累計標(biāo)示后,S,的j-2,用j-h査詢,"aabb"會進(jìn)入Rpg冗雜的。就是說,因為丁3有1個字符元c重復(fù),用j^查詢,山丁3其它卞符兀a、b、d范k構(gòu)成的基本句型,如aad、bbad都會進(jìn)入R,,由于語言分析中是以音節(jié)、單詞、漢字為宇符元,這種冗雜的量不大。再分析利用重復(fù)倒排表標(biāo)5后出現(xiàn)的各種情況14<table>tableseeoriginaldocumentpage15</column></row><table>T3="abccd",k=5,有重復(fù)字符元,剔除c后為"abcd",累計標(biāo)示后,S,的j:4,用j=k査詢,"aabb"會進(jìn)入是冗雜的。就是說,因為丁3有1個字符元c重復(fù),用j=k查詢,由丁3其它字符元a、b、d寬復(fù)構(gòu)成的基本句型,如aad、bbad都會進(jìn)入R,,由于語言分析中是以音節(jié)、單詞、漢字為字符元,這種冗雜的量不大。查詢條件的選擇受兩方面影響l.站本句型S某個字符元Pi出現(xiàn)m次,在倒排表的關(guān)鍵詞Pi后,S的地址、j值的地址d、編號n相應(yīng)地是出現(xiàn)m次,還是出現(xiàn)1次,如上所述,dpb=l表示倒排表中地址d或編號n出現(xiàn)1次;dpb=2,表示倒排表中地址d或編號n出現(xiàn)m次。當(dāng)然,這個參數(shù)不是必耍的,因為一般程序只會使用一種倒排表,且設(shè)計階段已確定采用何種方案。2.待處理關(guān)鍵詞T中是否有重復(fù)字符元,累記標(biāo)示前是否被剔除。更進(jìn)一歩,如果硬件條件好,在程序中同時有單一表和重復(fù)表,T3=abccd,其中c是重復(fù)的,累計標(biāo)示時,c根據(jù)重復(fù)表標(biāo)示,只標(biāo)示1次,下表中用(cc)表示,而其它字符元a、b、d根據(jù)單一表各標(biāo)示l次<table>tableseeoriginaldocumentpage16</column></row><table>T>"aabbcef",標(biāo)示后,S6進(jìn)入R,是冗雜的。T4="aabbcd",標(biāo)示后,S6、S7、S8進(jìn)入R,,是冗雜的。(aa)(bb)是重籃的,用重復(fù)表各標(biāo)示1次,c、d用單一表各標(biāo)示1次,Ss的j-5+0+l+l-7,原因是Ss中a出現(xiàn)2次,但重復(fù)表中,關(guān)鍵詞a后8出現(xiàn)了5次。要徹底消除冗雜,倒排表要用分組表,用dpb-3表示<table>tableseeoriginaldocumentpage17</column></row><table>S產(chǎn)aaaabbd,其中a出現(xiàn)4次,因此關(guān)鍵詞a后的第4組給出句型編號7;b出現(xiàn)2次,因此關(guān)鍵詞b后的第2組給出句型編號7;d出現(xiàn)l次,因此關(guān)鍵詞d后的第l組給出句型編號7。為了節(jié)省空間,可將句型編號n或地址d分組連續(xù)存貯,在組之間插入一些標(biāo)志,或者在關(guān)鍵詞P后給出各組的起始位置、長度。"基本原理"部分提到,語音輸入中,將引文資料庫重要語句與jxk合并,累計標(biāo)示后,j二m的記錄可能a引文。禾仰分fll.倒排表,按"向下兼容,向上平推"的方法能徹底消除冗雜,并實現(xiàn)"引文"與"參考"型"的問吋查找。舉例說明操作方法,流程參見附圖3:T5="aaabb",m=5。a出現(xiàn)3次,記為9=3;在倒排表a的3組找到句型6,將句型6的j值增加3;"向下兼容",在2組找到句型4、5,將句型4、5的j值各增加2;"向上平推",在4組找到句型7,將句型7的j值增加3,在5組找到句型8,將句型8的j值增加3。b出現(xiàn)2次,記為q^2;在2組找到句型5、7,將句型5、7的j值增加2;"向下兼容",在1組找到句型4,將句型4的j值增加l;"向上平推",在3組找到句型6,將句型6的j值增加2。程序屮W設(shè)分組號為i,從i叫開始査找句型進(jìn)行標(biāo)不,當(dāng)i《q時,j=j+i;當(dāng)i〉q時,j=i+q。標(biāo)示結(jié)恥如下表,j二k的記錄為"參考句型",1Oj〉0的記錄是廣義的"容錯句型",但以k叫-l的記錄意義較大。j^m的記錄為"引文"。<table>tableseeoriginaldocumentpage17</column></row><table>用査詢條件j:korj-m,得到"參考句型"及"引文"記錄集Rp可以按j值的降序排列,從j值最大的記錄丌始檢査字符元結(jié)構(gòu)的可比性。結(jié)構(gòu)可比且j^ii的記錄可能是"引文",讀出對應(yīng)的漢字串,供用戶決定是摘取其中對應(yīng)T的文字C,還是根據(jù)鏈接讀出上下文。如果不存在j-m的記錄,在字符元結(jié)構(gòu)相符的句型中優(yōu)選k值大的句型,并考慮頻率、文體傾向、語法等因素,作為基礎(chǔ)句型,對T進(jìn)行分析處理??偨Y(jié)一下,倒排表可以有單一表、重復(fù)表、分組表,而jxk可以給出k值、或h值、或同時給出k和h值,通過不同的査詢條件,形成多種方案得到R,。設(shè)g-k-j,即基本句型中字符元重復(fù)的次數(shù),在jxk'l1,給出k和g字段,或h和g字段,乃5!同吋給出k和h和g,又可形成多種方案得到R,,但沒有本質(zhì)區(qū)別。R,中可能有冗雜,使用分組倒排表可以消除冗雜,但分組倒排表史U雜,而通過對S與T的字符元的進(jìn)行比較,可以剔除R,中不合要求的記錄,所以應(yīng)用中,并非一定要使用分組倒排表,應(yīng)根據(jù)基本句型S、待處理關(guān)鍵詞T、硬件性能決定方案?;揪湫蛿?shù)據(jù)庫jxk中包含各種信息,比較大,不一定能完整地居留在內(nèi)存中,可以考慮在內(nèi)存中創(chuàng)建一個副表jxkcopy,其中有n或d之一和k、j等字段,用j.xkc叩y進(jìn)行累記標(biāo)示,査詢需要的句型,再根據(jù)jxkc叩y至ijjxk讀取這部分句型的信息。也可考慮在內(nèi)存中創(chuàng)建一個臨時表jxktemp,其中有n或d之一和j字段,若T中的字符元在倒排表中涉及某個n或d,則在jxktemp產(chǎn)生一條記錄,并進(jìn)行累記標(biāo)示,完成后,寫入jxk,訴進(jìn)行査詢。倒排參考句型語g分析方法,是按字符元建倒排表的,與一些搜索引擎按單詞建倒排索引相似,為了減小倒排表的大小,可以借鑒目前使用的倒排表U;:縮技術(shù)。與-&的倒排方法相比,倒排參考句型語S分析方法的主要特點是在jxk中設(shè)立k、j等字段,j=k,則T包含S的字符元,達(dá)到"質(zhì)數(shù)代換字符串檢索技術(shù)"中"逆檢索"的效果;如果j-m,則S包含T的字符元,達(dá)到"質(zhì)數(shù)代換字符串檢索技術(shù)"中"正檢索"的效果。如架S、T中有重復(fù)字符元,情況會復(fù)雜一些,但通過在jxk中給出h、對倒排表做調(diào)整、對T做分析、修改查詢條件等方法也能處理。3.倒排參考句型語音輸入方法上節(jié)說明了倒排參考句型語^分析的一般原理、方法,本節(jié)說明漢語語音輸入中,倒排參考句方法的具體步驟、容錯處理方法,其它語言、其它方面的應(yīng)川也「']以參考。先說明一點,在語音輸入的音字轉(zhuǎn)換'l',頻繁進(jìn)行的是"音節(jié)比較",不是"字符比較",所以在建庫、倒排、標(biāo)小、轉(zhuǎn)換等過AH:',對每個音節(jié),可用一個漢字或其它符號代表。如,用"副"代表"fti"、"里"代表"li"、"號"代表"hao",稱為"音節(jié)代字"。這樣的好處是:用"號"同"副華.號"匹配,比用"hao"同"fulihao"匹配,ai便于定位,節(jié)省空間,提高速度。A.語音輸入'l'份排參考句〃法的歩驟l.漢語語音輸入中,字符兀足漢語的無調(diào)音節(jié)或有調(diào)音節(jié),要權(quán)衡速度及正確率,所以基本句型的要適量。下表是語音輸入jxk的模式,還可以增加引文鏈接等信息編號拼音串kj漢字串語法信息文體關(guān)聯(lián)詞頻率%45886fuli弁hao3福利好名形13很0.015745893l、uli#cha禍利差名形13很0.011388544hao#gongfu好功夫形名16一身0.013798253yifang&shi3一方是主系8205另0.005398969yi&fangshi3以方式介賓82050.0079173561qiangluia存guanli4強化管理動名140.0017&表示從此處可插入其它詞語,也就是該句型可以"跨音節(jié)協(xié)同",如果査詢后,98253是參考句型,設(shè)用戶輸入"yihefafangshi",用yi從第一個音節(jié)掃描,匹配,但第二個音節(jié)不匹配,無效。再用98969進(jìn)行處現(xiàn),以yi從第一個音節(jié)掃描,匹配;&表示跳格,因此用fang比較he、fa,直到fang,匹配,接著用shi匹配,有效,處理成"以hefa方式"。#表示"無序協(xié)同",就是從此處可調(diào)換字符元秩序。如果査詢后,qianghua#guanli是參考句型,用qiemg從T的第1個音節(jié)開始匹配,發(fā)現(xiàn)匹配成功的字符元,繼續(xù)用hua匹配,不成功,則結(jié)構(gòu)不可比,放棄。若用hua匹配成功,#表示"無序",記下當(dāng)前T的位置i,用guan接著hua向后匹配,不成功,再返回T的第1個音節(jié)丌始匹配,如果到i-l不成功,放棄。匹配成功,字符元結(jié)構(gòu)有可比性。2.語音輸入按音節(jié)進(jìn)行倒排,漢語有400多個無調(diào)音節(jié),其中有"fu";句型45886含有"fu"這個音節(jié),在倒排表關(guān)鍵詞"fu"后列有該基本句型的編號45886:<table>tableseeoriginaldocumentpage19</column></row><table>在沒有相同的^符元時Hui錄的j值也就是基本句型S與T相同的字符元個數(shù):45886的j值為3,"fu、li、hao"3個字符元與T相同;45893的j值為2,"fu、li"2個字符元與T相同;173561的j值為l,1個字符元與T相同。4.從"參考句型"確定"基礎(chǔ)句型",轉(zhuǎn)換"音標(biāo)串"為"文字串"的方法有多種,下面說明一種轉(zhuǎn)換方案,供參考設(shè)用戶語音輸入后轉(zhuǎn)換的拼音串T為上文的"zhejiagongsifulihaoyoujintie",有10個字符元,m=10。累計標(biāo)示后,k值和頻率綜合評價最高的參考句型依次是"hao#gongsi、fti跳ao、hao存gongfu、you#jintie、you她li、tie#jiagong'"",相應(yīng)的漢字為"好公司、福利好、好功夫、有津貼、有浮力"、"鐵加工"??蓮闹羞x擇n個句型作為"基礎(chǔ)句型",就漢語來說,每個語句約8-15個漢字,每個基本句型約3-5個漢字,如果生成2-3個備選語句,估計n值為5-10即可??梢韵榷x一個字符數(shù)組A[n][m],數(shù)組的元素應(yīng)能存貯一個漢字,如果系統(tǒng)視漢字為2個字符,則需定義一個3維數(shù)組。作為例子,我們將n設(shè)為5,即定義字符數(shù)組A[5][10],每l行對應(yīng)l個基礎(chǔ)句型,每1列對應(yīng)T中的1個字符元。因為數(shù)組A[5][10]中元素是從0開始的,下文稱評價最高的句型為LFO句型,其后為l、2、3、4句型;對T中的字符元,也按秩序稱為1=0、1、2…字符元。a.檢査結(jié)構(gòu)可比性,確定基礎(chǔ)句型。首先選取綜合評價最高的u=0句型,檢查該句型與T中相應(yīng)字符元的結(jié)構(gòu)是否可比,如果結(jié)構(gòu)不可比,放棄該句型;如果有可比性,若T中的P,同于O句型的Px,即P「Px,0句型字符元Px對應(yīng)漢字C、,即PxGC.、,則令A(yù)[i^Cx。再按同樣方法,依次選取其它句型處理。u=0為"hao#gongsi",讀取"hao",同T進(jìn)行匹配,i=6次成功,u=0句型中P="hao"的對應(yīng)漢字C-"好",令A(yù)[6]="好";襯旨示"無序協(xié)同",記錄丁當(dāng)前位置1=6,用gong往后匹配,直到T的最后字符元,不成功,返回,從丁的1=0字符元進(jìn)行匹配,i=2次成功,"gong"的C—'公",令八網(wǎng)[2]="公":用si緊接匹配,成功,令A(yù)[3]="司"。u=l為"fuli他ao",讀取同丁進(jìn)行匹配,i=4次成功,該句型中"fu"的〔="福",令A(yù)[l][4f"福";用li緊接匹配,成功,令A(yù)[l][5]="利"。財旨示"無序協(xié)同",T當(dāng)前位置1=5,用hao往后匹配,;=6成功,"hao"的C-"好",令A(yù)[l][6]="好"。"hao#gongfu",讀取"hao",同T進(jìn)行匹配,i=6次成功,u-2句型中"hao"的C="好",令A(yù)[2][6]—'好";#指示"無序協(xié)同",T當(dāng)^/位置一6,用gong往后匹配到最后,不成功,返回,從T的i=0字符元進(jìn)行匹紀(jì),i=2次成功,t尸2句型中"gong"的C-"功",令A(yù)[2][2]="功"用fu緊接匹配,不成功,說明"haoSgongfu"的宇符元結(jié)構(gòu)同T不可比,不能用作參考句型,將數(shù)組A的u=2行的元素清理為空,即令A(yù)[2][nf"。u值不增加1。"yoi說jintie",讀取".vou",同T進(jìn)行匹配,i=7次成功,u=2句型中"you"的C="有",令A(yù)[2][7f有"。=指示"無序協(xié)同",T當(dāng)前位置I-7,用jin往后匹配,i=8次成功,u-2句型中"jin"的C一'津",令A(yù)[2][8]-"津";用tie緊接匹配,成功,令A(yù)[2][9]="貼"。繼續(xù)處理you針uli"、"tie#jiagong",字符數(shù)組A[5][10]成為zhegongsifulihaoyoutie0i234567890公司好]福利好2有-津貼3浮力有4加工鐵20b.檢査句型之問的相容性,決定語句生成方案入選的n個句型是字符元數(shù)j最大、頻率高的句型,生成語句時,對它們采用的越多,T中的字符元會處理得越好,生成的語句可信度越高。但是,u個句型中可能存在"不相容"現(xiàn)象兩個句型的某個字符元P相同,但對應(yīng)的轉(zhuǎn)換信息C不相同,這兩個句型不能用于生成同一個語句,在數(shù)組A中就是同1列中有不同的C。如P-"gong",在11=0句型中C-"公",在u-4句型中C二"工"。所以需要檢查句型之問的相容性,決定語句生成方案。首先假定可用5個句型共同生成一個語句,這個方案為01234方案。"zhe"所對應(yīng)的列中,A[Li]均為空,不修改方案。"jia"所對應(yīng)的列中,A[O][l]、A[l][l]、A[2][l]、A[3][1]為空,僅有A[4][l]="加",不修改方案。"gong"所對應(yīng)的列中,A[1][2]、A,、A[3][2]為空,八[2]="公",而A[4][2]="工",0句型與4句型不相容,修改方案為0123'-31234。"si"所對應(yīng)的列中,僅有八[3]="司",不修改方案。"fu"所對應(yīng)的列中,A剛、A[3][4]、A[4][4]為空,A[l][4]="福",而A[3][4]="浮",1句型與3句型不相容,句型生成方案修改為012、023與124、234。"li"所對應(yīng)的列中,A,、A[2][5]、A[4][5]為空,A[l][5]="利",而A,="力",1句型與3(1」型不相容,與"fu"列相同,不修改句型生成方案。"hao"所對應(yīng)的列中,A[2][6]、A,、A[4][6]為空,A[6]」'好",A[l][6]二"好",相容,不修改句型生成方案。"you"所對應(yīng)的列中,A[2][7]-"有"、A[3][7]="有",值相同,不修改方案。"jin"所對應(yīng)的列中,A[8]、A[1][8]、A[3][8]、A[4][8]為空,僅A[2][8]="津",不修改方案。"tie"所對應(yīng)的列中,A[2][9]="貼",A[4][9]="鐵",沖突,2句型與4句型不相容,修改方案。124、234兩個方案修改為12、14、23、34,則共有6個句型生成方案013、023與12、14、23、34。6個句型生成方案中,12、14、23、34方案僅利用2個基礎(chǔ)句型,生成的語句可信度低,放棄;確定用0]3、023兩個方案生成兩個備選語句,其文體傾向決定于句型l、2。c.按013方案,生成語句。先定義一個字符數(shù)組B[m],如果編程中用"拼音代字",可以這樣定義,如果編程中用拼音處理,漢語中最長音節(jié)6個字母,可定義一個字符串?dāng)?shù)組B[6][m]。使B各個元素的初值等于T中相應(yīng)的音節(jié)zhe[jia|gong|si|fuili|hao|you[jin|tie。如果A[m]不為空,則令B[m]=A[m],B成為"zhe[jial公同lfu卩il好lyou[jinltie"。如果A[l][m]不為空,則令B[m]=A[l][m],B成為"zheljial公同l福l利l好lyoul[iinitie"。如果A[3][m]不為空,則令B[m]-A[3][m],B成為"zhe[jial公同隔l利好l有陣l貼"。.至此,主干已經(jīng)形成,但仍有字符元未處理,可利用生成該語句的基礎(chǔ)句型O、1、321的關(guān)聯(lián)詞,以及n個之外的參考句型,綜合利用系聯(lián)、頻率、語法、文體、知識系統(tǒng)等信息,對T繼續(xù)處理。T中的未處理的"zhejia",可在數(shù)據(jù)庫中找到"折價""這家";"you",數(shù)據(jù)庫中高頻詞是"有";"hao#g0ngsi"的關(guān)聯(lián)詞有量詞"家",音"jia";綜合各種因素,T可以處理為"這家公司福利好,有津貼",輸出語句1。其文體傾向決定于"fuli#hao"LS=L,=13。按023方案,將T轉(zhuǎn)換為"zhejia公司浮力好,有津貼",主干已經(jīng)形成,T中的未處理的"zhejia",可在數(shù)據(jù)庫中找到"折價""這家","hao#gongsi"的關(guān)聯(lián)詞有量詞"家",音"jia",綜合各種因素,T可以處理為"這家公司浮力好,有津貼",輸出語句2。其文體傾向決定于"you針uli"LS=L3=8960。對于生成的語句,應(yīng)該給予評分。在上面的舉例中,兩個語句的差別決定于"福禾j好""有浮力"。文體傾向,"浮力"是教有、機械、物理學(xué)詞語,如果該文是商務(wù)、經(jīng)濟(jì)、公文類文件,將語句2的文體傾向L產(chǎn)L^8960,同段、章、篇的文體傾向Lp進(jìn)行比較,LsorLp不會等于Lp。而由"福利好"決定的語句l的文體傾向,則會相符,LsorLp=Lp。另外,"福利好"的頻率高,也應(yīng)優(yōu)先考慮。語音輸入中,某基本句型如果出現(xiàn)1次,后文重復(fù)出現(xiàn)的比例很^,所以頻率應(yīng)動態(tài)調(diào)整。語法分析可以在生成語句的過程中進(jìn)行,也可以在生成語句后,對語句進(jìn)行評分;在漢語中,"這家公司浮力好,有津貼"是不通的,如果能通過語法規(guī)則分析出其不。,當(dāng)然很好。此外,聲調(diào)、重音、語調(diào)、語音停頓等也可用于輔助處理。不過,最可靠方法是,將"公司福利"作為一個詞組收入jxk,累計標(biāo)示后j:l「4,生成語句,計W可估度吋評價會更高??傊?,在良好的句型數(shù)據(jù)庫的基礎(chǔ)上,考慮系聯(lián)、結(jié)構(gòu)信息、文體傾向、語法、頻率、知識系統(tǒng)等多種因素及各因索的權(quán)重,設(shè)計一個良好的決策處理過程,是重要的,不僅僅是提高轉(zhuǎn)換正確率,更高的嬰求i^^有-定的容錯、糾錯能力。B.容錯處理與標(biāo)準(zhǔn)語音相比,多數(shù)人的^l音或多或少有差錯。無論是用位標(biāo)記、質(zhì)數(shù)代換方法,還是用倒排參考句型方法來做語卞'i'分析,我們都希望有一定的容錯、乃至糾錯能力。如果累計標(biāo)示后,j值能準(zhǔn)確反映S與T的字符元交集的大小,0<_]<]<的句型,有部分字符元與T相同,稱為容錯句型。其數(shù)量可能很多,意義較大的是jzk-l、j-k-2且j值大的句型,査詢條件可改為類似kk-3andj〉1,K中即可包含這些容錯句型。如果累計標(biāo)示后,j值不能準(zhǔn)確反映S與T的字符元交柒的大小,參考句型、容錯句型、冗雜句型之間不能通過j值明確劃分,可以放寬査詢條件,如將査詢條件修改為類似j>k-3andj>l或j>h-3andj>l,則有意義的容錯句型基本上進(jìn)入R卜在考慮容錯時,對R,中的S與T的字符元進(jìn)行比較,巨的是剔除兩種不合要求的S:l.剔除與T結(jié)構(gòu)不可比的S;2.剔除與T字符元相差大的記錄S,可設(shè)置參數(shù)e記錄S的字符元在T中未發(fā)現(xiàn)的個數(shù),當(dāng)e〉2時,放棄該句型。位22標(biāo)記中,設(shè)W=Wt&\Vn,如W屮"1"的bit數(shù)接近Wn中"1"的bit數(shù),可初歩看作容錯句型,這需要"位"記數(shù)的指令快才有實用價值。質(zhì)數(shù)代換檢索,山于消除公約數(shù)、因數(shù)分解缺乏有效的方法,不便于找出容錯句型。這里根據(jù)產(chǎn)生錯誤的具體原因,提出一些針對性的方法。產(chǎn)生錯誤可能是方言的原因,針對大的方言,可以專門編程。但標(biāo)準(zhǔn)語言的語音輸入系統(tǒng),也應(yīng)該有一定的方言容錯能力。如,說漢語的人相當(dāng)多n、l不分,"君子蘭"應(yīng)該讀"junzilan",而讀成"junzinan",累計標(biāo)示后,"junzilan"這個句型k=3,j=2,j=k-l,是容錯句型,根據(jù)它,將"junzimm"處理成"君子蘭"。在"位標(biāo)記"中,建庫時,可把n、l分為一組,"位標(biāo)記逆檢索"得到R,后,按"junzinan"質(zhì)數(shù)代換"逆檢索",不能發(fā)現(xiàn)適當(dāng)參考句型,按程序設(shè)定的方言容錯規(guī)則,再用"junzilan"質(zhì)數(shù)代換"逆檢索",找到"君子蘭";也可以在R,中,分別用nan、lan的質(zhì)數(shù)與fang的質(zhì)數(shù)的乘積,去進(jìn)行兩次"逆檢索",得到R"再作處理。當(dāng)然,建jxk及倒排表、位標(biāo)記、質(zhì)數(shù)代換時,把lan、nan均作nan處理,也是可以的也可考慮,把"junzinan"對應(yīng)"君子蘭"當(dāng)作一個句型處理。錯誤的產(chǎn)生也可能是用戶發(fā)音偶然模糊不清。如,讀"儒家"時,發(fā)音不清,似"rmia",又似"yujia",第一個音介于ru、yu之問。如果用倒排法,可用"mjia"、"yujia"中的一個進(jìn)行累計標(biāo)示,則另一個.卜k-l,為容錯句型,當(dāng)容錯句型很多時,未必能找到想要的句型,可以考慮用m、jia累汁標(biāo)小后,述立一個臨時表templ貯存j-k的記錄,再置j二O,用yu、jia累計標(biāo)示,得到臨時表temp2,合并后,刪去重復(fù)的句型,再選擇j-k且值大的句型做參考句型;如果用"ru、yu、jm"ln]時去累計標(biāo)示,其中由m、ju構(gòu)成的句型需要剔除。位標(biāo)記中,可以用"m、yu、jia"同時標(biāo)記,得到Wt,但質(zhì)數(shù)代換,需要用"r…ia"、"yHJia"的質(zhì)數(shù)乘枳分別進(jìn)^"逆檢索"。非方言區(qū)的用戶,也難免念錯字。如,"心廣體胖"的"胖"應(yīng)"pan",但常有人讀成"pang",可以把"xinguangtipang"、"xinguangtipang"分另廿對應(yīng)"心廣體月半",作兩個句型收入收據(jù)庫,如果用戶念成"xinguangtipang",程序轉(zhuǎn)換成"心廣體胖",但提醒用戶有誤。容錯句型,可能是用戶仿造的語句、詞語。如,用戶仿"學(xué)而優(yōu)則仕"造"演而優(yōu)則唱",拼音串為"yaneryouzechang",累計標(biāo)示后,"演唱"的〗=1〈=2,T處理為"演eryouze唱",而"學(xué)而優(yōu)則仕"的1^5,j=3,j=j-2,k、j都比較大,按仿造語句處理,依據(jù)"eryouze"從"學(xué)而優(yōu)則仕"提取"而優(yōu)則"三字,將T處理為"演而優(yōu)則唱"。在"位標(biāo)記"及"質(zhì)數(shù)代換"中,如用"演唱"處理后,分析發(fā)現(xiàn)"eryouze"沒有可信的句型參照,可嘗試用"eryouze"的位值和質(zhì)數(shù)值對句型庫做"正檢索",得到"學(xué)而優(yōu)則仕",從中提取"而優(yōu)則"來進(jìn)行處理。英語等多音節(jié)語言,還可能因連讀,造成音節(jié)劃分復(fù)雜,如apieceofp叩er,其發(fā)音可能是[slpi:s|3v|pei|P3]5個字符元,也可能是[3|pi:|s3v|pei|p3,]5個字符元,都有必要列入句型庫。如果其中的[S3vI在快速發(fā)音時常被弱化而不清,可以按[3|pi:|pei|p3]4個字符元,再一次列入句型庫。redpaper,其發(fā)音可能是[redlpei|p3]、[re|pei|p3],均為3個字符元,也列入句型庫。只有這樣,當(dāng)用戶想輸入"asmallpieceofredpaper",即使連讀造成音變,乃至其中[S3VJ被弱化,不清晰,剔除該音節(jié)后,進(jìn)行累計標(biāo)示、逆檢索后,也能找到參考句型,達(dá)到良好的效果。下表中的&指示此處可插入其它單詞。甘標(biāo)英語文本kj頻率%語法信息3&pi:s3V&peip3apieceofpaper.50.0009n.3&pi:S3V&pei|p3apieceofpaper50細(xì)9n.3&pi:&peip3apieceofpaper40.0009n.red&pei|redpaper30細(xì)7adj.+n.re&peip3redpaper3*0.0007adj.+n.總之,大量的容錯,需盟按各祌語吉的語音學(xué)、方言學(xué)理論和實驗效果進(jìn)行處理,也需要cpu有足夠的處理速度。數(shù)據(jù)庫累計標(biāo)示后,也會出現(xiàn)類似下面的情況"高校"是"高等院校"的縮略語,如需要分析的拼音串為"ji叫ianggaoxiaoguanli","jiaqiangguanli"是"加強管理",處理后為"加強gaoxiao管理"。如果句,庫屮沒有拼音串為j=k=2的句型gaoxiao,但是有編號拼音串kj漢字串語法"(曰息94753gaodengyuanxiao42高等院校名詞詞組作為可供選擇的方案,i丁f按gaoxiao,從第94753個句型中提取"高校"二字,處理成"加強高校管理"。在"質(zhì)數(shù)代換"中,需要用"正檢索"去完成。圖1是語言分析建庫倒排流程圖圖2是用戶具體語句分析流程圖圖3是用分組倒排表累計標(biāo)示流程圖具體實施例方式
發(fā)明內(nèi)容中說明了語音輸入中的倒排參考句型分析方法,這雖再說明一些其它方面的實施方法,并給出一段"倒排參考句型"的示意代碼。A.其它方面的實施方法L建立基本句型(含詞語搭配、詞細(xì):、短語、詞語,下同)S的數(shù)據(jù)庫,給出各基本句型的字符元數(shù)k、或剔除重復(fù)的字符元數(shù)h、或同時給出k和h。地址為d,或給出句型編號n。對于機器翻譯,字符元是漢字,而且準(zhǔn)確是首要的,響應(yīng)速度相對不重要,可盡量擴大基本句型的數(shù)量。下面是漢英機器翻譯jxk的簡單模式,其中必須有相應(yīng)的英語句型作為對應(yīng)信息,還可以有漢語結(jié)構(gòu)信息、漢語語法信息、英語語法信息等:編號漢語句型k.i英語句型漢語語法《曰息英語語法信息95864看&電視watchTV動賓動賓對于搜索引擎,大量的資料需要處理,響應(yīng)速度很重要,而且只是對語句進(jìn)行切分,重點是收入容易出錯的句型及詞語搭配,所以基本句型的數(shù)量耍少。其中必須有漢字串的字符串結(jié)構(gòu)信息-編".基本句型hj頻率%2895以&方式30.00752.建立包含所有字符元的文件,在毎個字符元Pi后列出包含該字符元Pi的所有基本句型編號n,或地址d,得到倒排表。倒排表有單一表、重復(fù)表、分組表等種類。漢語機器翻譯、搜索引'資按漢字進(jìn)行倒排,下表在各漢字后列出基本句型編號n:漢字句型編號說28901,45086,67872,75123,90025035984,77925,298955,354565其他語g機器翻譯可按單詞進(jìn)行創(chuàng)排,下表在英語單詞后列出地址d:英語單詞地址watch00001520,00012640,00091580,00378C20walk0000AAC0,0005E20,000E1540,0029E1603.基本句型數(shù)據(jù)庫j:dk中是給出k伹或h值,還是同時給出k值、h值,以及倒排表的種類,對累計標(biāo)示的方法何影響,而它們又會進(jìn)一歩影響查詢條件和結(jié)果集R,中冗雜的程度。如果是分組倒排農(nóng),^t檢"T屮W個字符元重復(fù)的次數(shù),按"向下兼容"的方法進(jìn)行累計標(biāo)示,用j:k進(jìn)行査i句,R,中沒fr冗雜。如果是單一倒排表,當(dāng)jxk有k位時,不剔除T中重復(fù)的字符元,可用j=korj〉k查詢。當(dāng)jxk有h值時,不剔除T屮重復(fù)的字符元,可用j-horj〉h査詢;剔除T中重復(fù)的字符元,可fflj—!或用j=hwj〉h査詢。這些方案,R,均有冗雜。當(dāng)jxk同時給出k和h,如果T沒有重復(fù)字符元,直接累計標(biāo)示,用j-k査詢,如果T有重復(fù)字符元,剔除后,累計標(biāo)示,用j—i査詢,冗雜的S數(shù)量比較少。如果是重復(fù)倒排表,當(dāng)jxk有k值時,不剔除T中重復(fù)的字符元,可用j:korj〉k査詢剔除T中重復(fù)的字符元,可用j=k或用j=korj>k査詢。當(dāng)jxk有h值時,不剔除T中重復(fù)的字符元,可用j-horj〉h査詢;幼j除T中重復(fù)的字符元,可用j^orj〉h査詢。這些方案,R,均有冗雜。當(dāng)jxk同時給出k和h,T沒有重復(fù)字符元,直接累計標(biāo)示,用j-h查詢,如果T有重復(fù)字符元,剔除后,累計標(biāo)示,用j-k查詢,冗雜的S數(shù)量比較少。如果同時有單一倒排表、重復(fù)倒排表,累計標(biāo)示時,T中重復(fù)的字符元根據(jù)重復(fù)表標(biāo)示,不重復(fù)的字符元根據(jù)單-表標(biāo)示,用j-horj〉h査詢有冗雜,用j-k表示,會有少量25的冗雜。4.査詢得到的記錄柒,泛稱為"參考句型",其中可能有冗雜的句型,還可能有字符元結(jié)構(gòu)與T不可比的句型,需耍別除,并挑選k值或h值或j值大的句型,作為分析處理T的"基礎(chǔ)句型",其中k比h、j更能準(zhǔn)確反炚S字符元的多少。對于搜索引擎,若有語句丁="以便于理解的方式",標(biāo)示后得到下表:<table>tableseeoriginaldocumentpage26</column></row><table>用5694的第1個字符元"以",從T的第1個字符元丌始比較,成功;用5694的第2個字符元"方"與T后續(xù)字符元比較,不成功,結(jié)構(gòu)不可比,放棄該句型。用2895的第1個字符元"以"從T的第1個字符元丌始比較,成功;&表示此處可插入其它成分,因此,用"方"同T的第2個字符元比較,不成功,繼續(xù)同3、4、5、6字符元比較,直到第7個字符元,成功;用"式"與T后續(xù)字符元比較,成功;2895與T字符元結(jié)構(gòu)有可比性。依據(jù)2895,將T切分為"以l他于理解的l方式",可以避免正向最大匹配法(FMM)切分為"以便I于I理解I的I方A"。對于機器翻譯,如果有漢語句子"我通常看一個小時的電視",標(biāo)示后得到下表:<table>tableseeoriginaldocumentpage26</column></row><table>可以將句子切分為"我i通常l看l一個小時則電視",句子的核心是動詞,958634的漢語和英語均為動賓結(jié)構(gòu),可以打先提収其對應(yīng)英語句型"watchTV";"—個小時的"對應(yīng)"foranhour",漢語和英語均為時間詞組,根據(jù)英語語法,時間狀語放在謂語和賓語之后,得到"watchTVforanhour";漢語的"我"位于動賓結(jié)構(gòu)"看&電視"甜,是主語,選擇01286S,翻譯成英語主語形式I,根據(jù)英語語法,主語在謂語前,得到"IwatchTVforanhour";"通常"是頻率副詞,對應(yīng)的英語為"usually",英語頻率副詞通常在主語、謂語之間,得到"IusuallywatchTVforanhour"。就是說,機器翻譯,除了句型的語法信息外,還需要良好的語法系統(tǒng)支持。B.vc示意代碼下面代碼,在vc上通過,作示意川。使用的是重復(fù)倒排表,不剔除T中重復(fù)的字符元,相當(dāng)于方案9、10。#include<iostream.h>voidmainO{structJuxing{charjs[10];intk,j:i;〃句型、j、k值Juxingjxk[3]=({"babb",4,0},{"abc",4,0),{"acd",3,0));Juxing*jxdz=jxk;structdpr{charzi;Juxing*dizhi[5];intkong;);〃倒排表的1行dprdpb[4H{'a',},('b',},{'C',},「d',}};intn,m,i,r,kz;//n是jxk句型序號,m是字符序號,i是倒排表關(guān)鍵詞序號,r是位chargjc;for(i-O;i<4;i++)(gjc二dpb[i].zi:〃當(dāng)^搜索宇母for(n=0:n<3;n++)(〃n是冊句型編號for(m=0;m<5;m++)(〃m是s字符序號if(gjc==jxk[n].js[m]){kz=dpb[i].kong;dpb[i].dizhi[l;z]=jxdz+n;dpb[i].kong=dpb[i].kong+l:};};};);fo《i=0;i<4:i+T)l〃輸出倒排結(jié)果cout《dpb[i].zi:for(r=0;r<5;r++)[cout《'V'《dpb[i].dizhi[r〗;}cout<<endl;};chartext[]-"abbbcer:〃待分析的Tchartc;for(m=0;text[m]!,;m++)(tc-text[m];〃取得T的1個字符for(inti=0;i<4;if(dpb[i].zi==tc)(//如果找到'?母for(int1-0;1.<<^13卩].1)1^;1.++){<1卩1^].(^21^|>]->」++;};〃標(biāo)示break;};};);for(n=0;n<3;11++);〃輸出jxk標(biāo)示結(jié)果cout<<jxk[n].js'V'<<jxk[n].k","jxk[n].j;cout<<endl;};置,kz是空位置。2權(quán)利要求1.一種語言分析方法,其特征在于,包括以下步驟a.建立某種語言的基本句型(含詞語搭配、短語、詞組、詞語,下同)S的數(shù)據(jù)庫,給出處理信息;給出各基本句型的字符元數(shù)k、或給出剔除重復(fù)后的字符元數(shù)h、或同時給出k和h、或給出k和字符元重復(fù)次數(shù)g、或給出h和g、或給出k和h和g;給出j;句型或j的地址為d,或給出句型編號n;b.列出該語言此種應(yīng)用的所有字符元Pi(i=1、2、3…w),對每個字符元Pi,均列出包含該字符元Pi的所有基本句型或j的地址d,或句型編號n,得出倒排表;c.設(shè)需要分析的句子為T,用T的字符元Pr(i=1、2、3…m),根據(jù)倒排表Pr的d,或n,對基本句型數(shù)據(jù)庫相應(yīng)記錄的j進(jìn)行累計標(biāo)示,得到各基本句型S的j值;d.通過比較各句型S的j與k、h或者以及g的大小,篩選出T包含、可能包含其全部字符元、部分字符元的S,對S與T的字符元進(jìn)行比較,剔除不合要求的S,一般優(yōu)先選擇k或h或j值大的句型作為基礎(chǔ)句型,參照這些句型對T進(jìn)行分析處理。2.按照權(quán)利要求1所述的方法,]〔特征在于累計標(biāo)示后,如果j值能準(zhǔn)確反映S與T的字符元交集的大小,將j:k的〖'J型S作為參考句型,將0〈j〈k的句型S作為容錯句型,將j=m的句型S作為[i]'能的引文,從這些句型中擇優(yōu)選出基礎(chǔ)句型,分析處理T;如果累計標(biāo)示后,j但不能準(zhǔn)確反映S與T的字符元交集的大小,適當(dāng)放寬查詢條件得到R,,從R,中擇優(yōu)選iii堪礎(chǔ)句型,分析處理T。3.按照權(quán)利要求1所述的方法,K特征在于語音輸入中,累計標(biāo)示,剔除冗雜、結(jié)構(gòu)不合的id朵后,優(yōu)先選擇k或h成j值大的句型作為基礎(chǔ)句型,但綜合考慮頻率、語法、文體、系聯(lián)、關(guān)聯(lián)信息多種因ii及各因素的權(quán)重做選擇。4.按照權(quán)利要求1所述的//法,K特征在于用一個數(shù)據(jù)U的bit標(biāo)記S的文體傾向,分析生成某語句的S的L,,,得到該語句的文體傾向Ls;總計一節(jié)文字的S的U或語句的L,,分析得出該段文字的文休傾向Lp;如果滿足UorLp-Lp或其等價式,則該句的文體傾向符合改節(jié)的文體傾向,在備選語句中可給予優(yōu)先保留;生成后續(xù)語句時,優(yōu)先選擇L,、接近Lp的基礎(chǔ)句型;機器翻譯中,同時給出原始語言S的Ln與目標(biāo)語自.S的丄,利用"分析當(dāng)前文件的Lp,川Z,、"同Lp做比較,評價已生成的備選語句、輔助后續(xù)語句生成。5.按照權(quán)利要求1所述的方法,其特征在于將引文資料進(jìn)行組織存貯,再將引文資料的篇名、首句、精華之句S收入基本句型庫,并給出引文信息;當(dāng)T與某句型S、或按T生成的語句與S的對應(yīng)倍息樸l同或相近時,自動或接受用戶提示,根據(jù)引文信息,將前后文讀出,供用戶確認(rèn)。6.按照權(quán)利要求l所述的方法,K特征在于給出基本句型的關(guān)聯(lián)詞、關(guān)聯(lián)信息,2處理概念之問的同義近義關(guān)系、并列排斥關(guān)系、包含關(guān)系、屬性關(guān)系,或用于處理語法關(guān)系、語g的形態(tài)變化,輔助對T的分析處理。全文摘要倒排參考句型語言分析方法是一種基于參考句型的語言分析方法,可用于自然語言處理、智能信息處理等方面。方法是建立語言的基本句型S的數(shù)據(jù)庫,包含處理信息,給出S的字符元數(shù)k;給出字段j;句型或j的地址為d、或給出句型編號n。以所有字符元P<sub>i</sub>作為關(guān)鍵詞,對每個字符元P<sub>i</sub>,列出包含該字符元P<sub>i</sub>的S或其j值的地址d、或編號n,得到倒排表。設(shè)P為需要分析的句子T的字符元,根據(jù)倒排表P后的d、或n,對數(shù)據(jù)庫相應(yīng)S的j進(jìn)行累計標(biāo)示,得到各基本句型S的j值。j=k的句型S為T的參考句型,參照這些句型的相關(guān)信息對T進(jìn)行處理,一般優(yōu)先參考j即k值大的句型,但應(yīng)考慮其它因素。如果S和T中有重復(fù)字符元,情況會相對復(fù)雜。文檔編號G06F17/20GK101499056SQ20081000536公開日2009年8月5日申請日期2008年1月28日優(yōu)先權(quán)日2008年1月28日發(fā)明者徐文新申請人:徐文新