亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于多分析器架構(gòu)的預(yù)測串聯(lián)算法的制作方法

文檔序號:6478642閱讀:256來源:國知局
專利名稱:用于多分析器架構(gòu)的預(yù)測串聯(lián)算法的制作方法
技術(shù)領(lǐng)域
本發(fā)明通常涉及語言處理,尤其涉及用于語言處理的多分析器架構(gòu)。
背景技術(shù)
為了處理自然語言句子,可以使用語言分析器以獲得顯示例如句子的輸入文本數(shù)據(jù)中詞和短語之間的句法(syntatic)關(guān)系的句法樹。在各種自然語言應(yīng)用中,語言分析器是重要的部分。由于自然語言本身的復(fù)雜性,描述自然語言的語法規(guī)則也很復(fù)雜。使用單一的語言分析器(包括自然語言的整個語法)的傳統(tǒng)方法會導(dǎo)致低效率的,不準確的,并且常常很巨大的語言處理系統(tǒng)。
隨著因特網(wǎng)用戶數(shù)量的快速增長,在因特網(wǎng)上使用自然語言應(yīng)用的需求已經(jīng)在最近得到增長,并將繼續(xù)增長。隨著對于因特網(wǎng)上自然語言應(yīng)用的需求的不斷增長,與使用單一語言分析器分析特定語言的整個語法相關(guān)的問題已經(jīng)變得更加明顯。通常,在某些環(huán)境,例如因特網(wǎng)中,已有的分析技術(shù)對于自然語言應(yīng)用而言不夠快。


圖1是根據(jù)本發(fā)明的一個實施例,用于分析自然語言句子的多分析器系統(tǒng)的模塊圖。
圖2A到圖2C是根據(jù)本發(fā)明的一個實施例,分析輸入句子的流程圖。
圖3根據(jù)本發(fā)明的一個實施例示出了子語法。
圖4是根據(jù)本發(fā)明的一個實施例構(gòu)建的表,其示出了左角條件表的內(nèi)容。
圖5是示出樣本符號表內(nèi)容的表。
圖6是示出了部分樣本哈希表的表。
圖7示出了根據(jù)本發(fā)明的另一個實施例構(gòu)建的樣本左角條件表。
圖8的網(wǎng)格表根據(jù)本發(fā)明的一個實施例圖解了示例性句子的分析。
圖9是根據(jù)本發(fā)明的一個實施例的網(wǎng)格表。
具體實施例方式
在以下描述中,闡明了具體細節(jié)以供對本發(fā)明的全面理解。然而,對于本領(lǐng)域的技術(shù)人員,顯然可以在不具備這些具體細節(jié)的情況下實施本發(fā)明。在其他的實例中,為了避免模糊本發(fā)明,沒有詳細地示出熟知的電路,結(jié)構(gòu)和技術(shù)。
圖1根據(jù)本發(fā)明的一個實施例描繪了用于分析自然語言句子的多分析器系統(tǒng)100。多分析器系統(tǒng)100包括預(yù)測串聯(lián)(cascading)單元102,概率分值分配單元110,Viterbi單元112,左角條件表108和哈希(hash)表120。多分析器系統(tǒng)100中還包括若干子語法分析器114-118。應(yīng)注意到,自然語言(例如,英語,漢語,等等)的語法通常包括大量的規(guī)則。結(jié)果,對于編程語言而言,處理整個語法的單一分析器的規(guī)模太大。為了避免與單一分析器包含整個語法相關(guān)的問題,語法被分割成許多子語法類別。在這點上,不同的子語法分析器114-118被構(gòu)造成處理語法的不同子語法類別,例如句子(S),名詞短語(NP),動詞短語(VP)以及介詞短語(PP),等等。每個子語法分析器包含一組與對應(yīng)語法類別相關(guān)的語法規(guī)則。
在一個實施例中,預(yù)測串聯(lián)單元102被構(gòu)造成當滿足某個被稱為左角條件的標準時,在輸入句子中的每個位置上只調(diào)用那些子語法分析器。如果滿足與子語法分析器相關(guān)的左角條件中的一個,其在該特定位置上調(diào)用此特定子語法分析器。否則,將不調(diào)用此子語法分析器。當子語法分析器在輸入句子中的某個位置上被調(diào)用時,子語法分析器檢查正被分析的當前詞和隨后詞或者短語的順序的有效性。如果子語法分析器確定此序列是有效的,其將返回一個或多個結(jié)果邊(edge)以指示此序列已滿足其中指定的一個或多個規(guī)則。一旦子語法分析器已經(jīng)回送了結(jié)果邊,更新由預(yù)測串聯(lián)單元102維護的網(wǎng)格表104以及棧106。重復(fù)此分析過程,直到已經(jīng)檢查完句子中的全部詞和短語。一旦已經(jīng)完成了分析過程,概率分值分配單元110檢查網(wǎng)格表104并分配概率分值給網(wǎng)格表104中所列出的各個結(jié)果邊。然后,通過根據(jù)分配給結(jié)果邊的概率分值選擇最佳路徑,Viterbi單元112可以確定輸入句子的句法結(jié)構(gòu)。
圖2A到圖2C根據(jù)本發(fā)明的一個實施例描述了多分析器系統(tǒng)的操作。分析操作可以被分解為三個階段,即預(yù)處理階段,主處理階段和后處理階段。如圖2A所示,在預(yù)處理階段期間,在塊200中,預(yù)測串聯(lián)單元102從外部源接收輸入句子。然后在塊205中,預(yù)測串聯(lián)單元102構(gòu)造包含邊的列表的網(wǎng)格表,最初通過為輸入句子的每個詞分配輸入邊來得到所述的邊的列表。另外,在預(yù)處理階段期間,在塊210中,以反向拓撲順序排序輸入邊并將其放入棧中。
一旦已經(jīng)完成了預(yù)處理階段,多分析器系統(tǒng)前進到主處理階段,如圖2B所示。主處理階段由循環(huán)(塊215到塊245)組成,以便識別一個或多個可應(yīng)用于棧中所包含的每個邊的子語法分析器,并且使用被識別為可應(yīng)用的子語法分析器分析相應(yīng)的邊。循環(huán)(塊215到塊245)從最高項開始分別處理棧中所裝載的每個項。如果棧非空(塊215,否),預(yù)測串聯(lián)單元前進到塊220,其中從棧頂彈出邊。最近剛被彈出棧的邊將被稱為當前邊。
如上所述,自然語言的語法通常由大量的規(guī)則組成。本發(fā)明提供了減少識別可應(yīng)用于當前邊的語法規(guī)則所需的時間量的方法。在一個實施例中,使用左角條件表識別那些可應(yīng)用于當前詞的子語法類別,但不必搜索完整個語法規(guī)則組。
因此,一旦已經(jīng)從棧頂?shù)玫疆斍斑?,在塊225中,根據(jù)左角條件表,預(yù)測串聯(lián)單元識別一個或多個可應(yīng)用于當前邊的子語法類別。然后在塊230中,多分析器系統(tǒng)通過調(diào)用與被識別為可應(yīng)用的子語法類別相關(guān)的子語法分析器來分析當前邊。如果子語法分析器生成了結(jié)果邊(塊235,是),則在塊240中,多分析器系統(tǒng)取得結(jié)果邊,并通過將結(jié)果邊壓入棧而更新棧。在塊245中,除更新棧之外,多分析器系統(tǒng)還從各自子語法分析器取得所得到的結(jié)果邊,并將其添加到網(wǎng)格表中。繼續(xù)此循環(huán)(塊215至塊245),直到棧中全部項都已被彈出并被處理。
當已經(jīng)完成主處理階段時,多分析器系統(tǒng)前進到后處理階段,如圖2C所示。后處理階段起始于塊250,在塊250中分配概率分值給網(wǎng)格表中的每個邊。然后在塊255中,根據(jù)此概率分值信息,可根據(jù)Viterbi算法選擇出最佳路徑。最后在塊260中,根據(jù)Viterbi單元選擇的最佳路徑得到句法樹。
圖4的表示出了樣本左角條件(LLC)表的內(nèi)容,可以使用樣本左角條件(LLC)表來快速識別哪些子語法類別可應(yīng)用于正被分析的當前詞。在分析輸入句子之前,LLC表被構(gòu)建和存儲在數(shù)據(jù)存儲器中,例如硬盤或其他存儲器設(shè)備。LLC表具有如下的列包含子語法類別名稱的子語法名列404和包含若干與子語法類別相關(guān)的詞,符號和短語(也被稱為“左角條件”)的左角條件列406。LLC表還包含子語法標識符(GID)列,其包含唯一標識表中的每一行、可以被用于快速調(diào)用與相應(yīng)行(即子語法類別)相關(guān)的子語法分析器的數(shù)值。在使用中,通過將正被分析的當前詞與LLC表中每一行所列的那些詞(即左角條件)相匹配,可以確定可應(yīng)用于當前詞的子語法分析器。應(yīng)該理解,這里大大縮減了LLC表的規(guī)模以提供易于理解的例子。實際的LLC表可以包含任意數(shù)量的子語法類別(例如,數(shù)十個或者甚至數(shù)百個),并且每個子語法類別可以包含任意數(shù)量的左角條件(例如,數(shù)百個或者甚至數(shù)千個)。
例如,名詞短語(NP)子語法類別包括與名詞短語相關(guān)的詞。如果當前正被分析的詞或短語是“the”,通過將其與左角條件列中所列的詞相比較,在LLC表中查找詞“the”。因為詞“the”與名詞短語(NP)子語法類別有關(guān)聯(lián),將選擇與名詞短語(NP)相關(guān)的子語法分析器以分析以“the”為起始的詞或短語。應(yīng)當理解,有某些詞位于多于一個的子語法類別中。例如,詞“copies”在某個句子的上下文中可以是名詞,在其他上下文中也可以是動詞。在當前詞與多于一個的子語法類別相關(guān)聯(lián)的情況下,將調(diào)用所有對應(yīng)的子語法分析器以分析當前詞。因此,在分析特定詞或短語期間可能產(chǎn)生多于一個的結(jié)果邊。
在一個實施例中,為簡化識別可應(yīng)用于正被分析的當前詞的子語法類別的過程,為可被多分析器系統(tǒng)識別的每個詞,短語或符號分配唯一的符號標識編號(SID)。圖5的表示出了符號表。符號表包含符號列502和符號標識(SID),SID包含唯一標識與SID表中每一行相關(guān)的每個詞,短語或符號,可以用來從圖7所示的查詢表中快速定位和得到信息的數(shù)值。例如,在圖5所示的樣本符號表中,詞“man”被任意地賦予SID編號“8”。
如上所述,實際的LLC表中所列的至少一些子語法類別將與大數(shù)量的詞,短語和符號相關(guān)聯(lián)。例如,名詞短語(NP)子語法類別可以關(guān)聯(lián)于詞典中發(fā)現(xiàn)的全部詞,其以某些方式與名詞短語相關(guān)。因此,為了確定特定的詞是否與特定子語法類別相關(guān),當前正被分析的詞必須與和每個單個子語法類別相關(guān)的詞的整個列表相比較。在這點上,本發(fā)明結(jié)合了搜索技術(shù)以減少識別LLC表中所列的、可與當前詞相關(guān)的子語法類別所需的時間和處理量。在一個實施例中,使用哈希表以加速搜索整個左角條件表的過程。
圖6示出了樣本哈希表的一部分,樣本哈希表可以被用于確定與特定詞,符號或短語相關(guān)的SID。所圖解的哈希表具有索引列602和符號列604。哈希表中的每個項(即,行)包括根據(jù)哈希值索引的符號(例如,符號,詞或短語)。通過對相應(yīng)符號應(yīng)用哈希函數(shù),可取得與每個符號相關(guān)的哈希值。例如,根據(jù)符號的美國信息交換碼標準代碼(ASCII),可以計算該符號的哈希值。在這點上,因為詞“man”的ASCII代碼是“109 97 110”,詞“man”的哈希值或索引是1866[即,索引=((109*31+97)*31+110)mod 2000=1866]。哈希表還包含符號標識(SID)列,其包含唯一標識表中的每個符號,以便快速定位和檢查圖7的查詢表中的相應(yīng)行的數(shù)值。在一個實施例中,哈希表中指定的SID與分配給符號表中每個符號的SID相對應(yīng)。在這點上,可以使用哈希表查詢與特定詞相關(guān)的SID,其中首先計算特定詞的哈希值,然后為了得到正確的SID,使用哈希值索引整個哈希表。
圖7示出了根據(jù)本發(fā)明的一個實施例構(gòu)建的查詢表。通過使用從哈希表獲得的SID索引整個查詢表,預(yù)測串聯(lián)單元102能夠快速識別一個或多個可應(yīng)用于當前正被分析的詞,短語或符號的子語法類別。在分析輸入句子之前,構(gòu)建查詢表并將其存儲到數(shù)據(jù)存儲器中。所圖解的查詢表具有符號列702,其包含可被多分析器系統(tǒng)識別的符號(例如,符號,詞或短語),符號標識(SID)列704以及若干子語法分析器列706-712。查詢表中的每個行與通過相應(yīng)SID值索引的特定詞相關(guān)聯(lián)。應(yīng)當理解,這里大大縮減了查詢表的規(guī)模以提供易于理解的例子。實際的查詢表可以包含任意數(shù)量的符號(例如,數(shù)千個)和任意數(shù)量的子語法分析器列(例如,數(shù)十個或者數(shù)百個)。
子語法分析器列710對應(yīng)于名詞短語(NP)子語法分析器,并且包含有關(guān)與各個查詢表相關(guān)的符號是否可應(yīng)用于子語法分析器(NP)的指示。類似地,列706,708和710對應(yīng)于句子(S)子語法分析器,動詞短語(VP)子語法分析器和介詞短語(PP)子語法分析器。例如,查詢表中列710的第八行有“man”在符號列中,以及“1”在子語法(NP)列中,指明子語法分析器(NP)可應(yīng)用于符號“man”。相反,列710的第八行有“0”在子語法(VP)列708中,指明子語法分析器(VP)不能應(yīng)用于符號“man”。在使用中,通過使用哈希表或任何其他適合的索引方法,可以得到與特定詞相關(guān)的索引值(例如,SID)。例如,根據(jù)圖6中提供的樣本哈希表,詞“man”有索引值“8”。然后,通過使用索引值“8”索引整個索引表,能輕易地定位詞“man”。一旦已經(jīng)通過使用適當?shù)乃饕翟诓樵儽碇卸ㄎ涣颂囟ǖ脑~,通過從一列穿越到另一列,預(yù)測串聯(lián)單元詢問整個行以識別一個或多個包含“1”的子語法分析器字段。
在此圖解實施例中,子語法搜索過程由兩個主要階段組成。第一階段涉及識別與當前正被分析的詞相關(guān)的索引值。然后,通過使用所得到的索引值索引整個查詢表,可以快速識別可應(yīng)用于當前詞的子語法類別。一旦已經(jīng)識別出子語法類別,多分析器系統(tǒng)僅調(diào)用對應(yīng)于被識別為可應(yīng)用的子語法類別的那些子語法分析器。
在可選實施例中,通過使用哈希值或任何其他適當?shù)乃饕椒ㄖ苯铀饕樵儽?,可以進一步加速可應(yīng)用的子語法分析器的確定。因此,在此可選實施例中,將重新安排圖7所示查詢表的符號列702中指定的符號,使得可以根據(jù)哈希值或其他適當?shù)乃饕祵ζ錂z索。
有利的是,通過使用圖4所示的左角條件表或者圖7所示的查詢表,本發(fā)明的多分析器系統(tǒng)能夠顯著加速確定哪些語法規(guī)則可應(yīng)用于特定詞或短語的過程。根據(jù)本發(fā)明的一個實施例,多分析器系統(tǒng)能夠快速地消除大部分不能應(yīng)用于當前正被分析的詞的子語法類別,而不必遍歷各個子語法類別內(nèi)所列出的整個規(guī)則集合。這表示多分析器系統(tǒng)能夠?qū)⑵浞治鲋患杏谀切┮呀?jīng)被識別為與當前詞的分析相關(guān)的子語法類別,而不用浪費時間搜索完所有子語法類別。
將結(jié)合圖8所示的網(wǎng)格圖描述本發(fā)明的分析操作。在圖8所示的示例中,提供了輸入句子“I saw a man in the house”。網(wǎng)格圖包括節(jié)點(N1到N8)和節(jié)點之間的邊(L1到L17)。每條邊代表一部分輸入句子。輸入邊L1到L7對應(yīng)于輸入句子中的每個單獨的詞。邊L8到L17對應(yīng)于子語法分析器生成的結(jié)果邊。每條邊對應(yīng)于詞或輸入句子的一部分,并且被用于指示其對應(yīng)部分的語音,語法結(jié)構(gòu)或者短語結(jié)構(gòu)部分。
在圖解實施例中,使用了串聯(lián)構(gòu)成算法,其中自底向上地確定句子的基礎(chǔ)句法結(jié)構(gòu)。在此實施例中,最初從右向左地分析句子的各個單詞,隨后分析中間短語,直到完成句子的分析。
最初,在已經(jīng)接收了輸入句子后,每條單獨的邊L1到L7將以相反的拓撲順序被放入棧中,使得詞“house”將位于棧頂。因此,詞“house”將從棧中彈出并被指定為正被處理的當前詞。然后,預(yù)測串聯(lián)單元102識別哪些子語法類別與當前詞相關(guān)聯(lián)。首先計算與當前詞“house”相關(guān)的哈希值。然后通過使用哈希值索引圖6所示的整個哈希表,預(yù)測串聯(lián)單元102能夠確定與當前詞“house”相關(guān)的SID。然后通過使用所得到的SID索引整個查詢表(圖7),預(yù)測串聯(lián)單元102能夠通過遍歷第九行來識別哪些子語法類別可以應(yīng)用;零“0”表示此特定子語法類別不能應(yīng)用,而一“1”表示此特定子語法類別可以應(yīng)用。根據(jù)查詢表,詞“house”與子語法分析器(NP)相關(guān)聯(lián)。一旦調(diào)用子語法分析器(NP)以分析詞“house”,得到結(jié)果邊L8。因為詞“house”滿足子語法分析器(NP)中提出的一個規(guī)則的要求,從節(jié)點N7延伸到節(jié)點N8的邊L8被標記為名詞短語(NP)。
預(yù)測串聯(lián)單元102繼續(xù)分析句子中的下一個詞。在此示例中,將在輸入句子中的下一個位置(輸入邊L6)調(diào)用名詞短語(NP)子語法分析器。一旦調(diào)用了子語法分析器(NP),子語法分析器(NP)將確定詞序列“thehouse”是否是有效的名詞短語。因為短語“the house”是圖3所示的子語法名詞短語(NP)中所列的有效名詞短語之一,其回送被標記為名詞短語的結(jié)果邊L9以指示名詞“house”跟隨在“the”后的確定滿足子語法(NP)中指定的規(guī)則之一。一旦子語法分析器(NP)回送了從節(jié)點6延伸到節(jié)點8并被標記為名詞短語(NP)的結(jié)果邊L9,則用新的結(jié)果邊更新由預(yù)測串聯(lián)單元102維護的網(wǎng)格表104(如圖9所示)以及棧105。重復(fù)此分析過程,直到處理完棧中全部項。最后,得到覆蓋整個句子的單個邊。在此示例中,子語法分析器(S)最終得到覆蓋整個句子的從節(jié)點N1到節(jié)點N8的邊L17,并且因為后跟介詞短語(PP)(結(jié)果邊L10)的句子(S)(結(jié)果邊L16)滿足圖3所示的子語法(S)中提出的規(guī)則之一的要求,L17被標記為句子(S)。
圖9描述了包含邊的列表的網(wǎng)格表,其對應(yīng)于圖8網(wǎng)格圖中所示的邊。在圖解的網(wǎng)格表中,每個邊與邊名稱(例如,NP,PP)以及定義邊的邊界的一組節(jié)點(例如,起始節(jié)點和終止節(jié)點)相關(guān)聯(lián)。
圖3示出了子語法的示例。每個子語法包含一組語法規(guī)則。包含在子語法中的規(guī)則使預(yù)測串聯(lián)單元能夠確定當前詞和后續(xù)詞或短語是否可以組合成短語,例如,名詞短語,介詞短語,動詞短語,以及句子。應(yīng)該理解,這里大大縮減了與圖3所示的每個子語法相關(guān)的規(guī)則的數(shù)量以提供易于理解的示例,而實際的子語法會包含任意數(shù)量的規(guī)則。
英語的語法可以被分解成任意數(shù)量的子語法(例如,數(shù)十個或者甚至數(shù)百個)。每個與相應(yīng)子語法相關(guān)的子語法分析器被構(gòu)造成提取某種語言特征。例如,一個子語法分析器可以被構(gòu)造成提取輸入句子中描述時間的部分,另一個子語法分析器可以被構(gòu)造成提取輸入句子中描述日期的部分。例如,“I went to California last year”,針對時間的子語法分析器將提取“l(fā)ast year”并識別句子的這個部分為時間。其他子語法分析器的示例包括位置,年齡,金額,等等。
如圖3所示,子語法句子(S)包含兩個規(guī)則。子語法(S)中的第一規(guī)則指出,動詞短語(VP)跟隨在名詞短語(NP)之后,可以組成句子。另外,子語法(S)中的第二規(guī)則指出,句子(S)與介詞短語(PP)組合也同樣能形成句子(S)。接著,子語法動詞短語(VP)規(guī)定,可以由名詞短語(NP)或介詞短語(PP)跟隨在動詞,例如,“saw”或者“ran”之后,而組成動詞短語。類似地,子語法名詞短語(NP)規(guī)定,可以由單詞,例如,“I”,“he”,“man”,“house”,等等組成名詞短語,或者可以由名詞,例如,“man”,“house”,“telescope”,跟隨在例如限定詞“a”或“the”的詞之后的組合,構(gòu)成名詞短語。最后,子語法介詞短語(PP)規(guī)定,可以由名詞短語(NP)跟隨在介詞,例如“in”或者“with”之后,組成介詞短語(PP)。
可以以存儲在機器可讀取介質(zhì)上的軟件程序的形式實施本發(fā)明執(zhí)行的操作,例如但不限于任何類型的盤,包括軟盤、硬盤、光盤、CD-ROM和磁光盤,只讀存儲器(ROM),隨機存取存儲器(RAM),EPROM,EEPROM,磁卡或光卡,或任何類型的適于存儲電子指令的介質(zhì),并且所述介質(zhì)均連接到計算機總線上。此外,沒有參考任何特定的編程語言描述本發(fā)明??梢岳斫猓缙渲兴枋龅?,可以使用各種編程語言實施本發(fā)明的教導(dǎo)。
根據(jù)本發(fā)明構(gòu)建的多分析器系統(tǒng)可提供優(yōu)于常規(guī)分析器的顯著優(yōu)點。至少某些常規(guī)分析器將正被分析的一部分句子與定義整個語法的所有各個規(guī)則相比較,以便確定哪些規(guī)則可用。因此,常規(guī)的分析過程會是耗費時間的,因為語法通常由很大數(shù)量的規(guī)則組成,并且每當常規(guī)分析器分析句子的不同部分時,必須搜索整個規(guī)則列表,直到分析完整個句子。根據(jù)本發(fā)明的一個實施例,通過在分析輸入句子之前構(gòu)建規(guī)定了各個子語法分析器的左角條件的左角條件表,并且使用這樣的左角條件表在輸入句子的每個位置調(diào)用可應(yīng)用的子語法分析器,顯著地減少了執(zhí)行分析操作所需要的時間量。結(jié)果,本發(fā)明改善了多分析器架構(gòu)的性能,多分析器架構(gòu)是各種自然語言理解應(yīng)用的重要部件,包括提取和總結(jié),健壯理解系統(tǒng)。通過本發(fā)明獲得的另一個優(yōu)點涉及輕易地合并大量新的子語法分析器進入多分析器架構(gòu)系統(tǒng)。
雖然已經(jīng)描述和示出了本發(fā)明的上述實施例,然而本領(lǐng)域的技術(shù)人員可以理解適合于本發(fā)明的變化和修改,例如那些所建議的以及其他在本發(fā)明的精神和范圍內(nèi)的。例如,應(yīng)當注意,本發(fā)明教導(dǎo)的子語法類別搜索技術(shù)可應(yīng)用于對任何自然語言的分析,并且不限于英語。因此,在附加權(quán)利要求中闡明了本發(fā)明要定義的范圍。
權(quán)利要求
1.一種系統(tǒng),包括一組子語法分析器,其中每個子語法分析器包含一組語法規(guī)則以分析一部分自然語言語法;以及子系統(tǒng),用于識別可應(yīng)用于一部分正被分析的輸入文本的至少一個所述子語法分析器,并且使用被識別為可應(yīng)用的所述至少一個所述子語法分析器分析所述輸入文本的所述部分。
2.如權(quán)利要求1所述的系統(tǒng),還包括包含多個子語法類別的左角條件表,其中每個子語法類別與一組左角條件相關(guān)聯(lián),通過將正被分析的當前詞,以及與所述子語法類別相關(guān)的所述左角條件組進行比較,能夠確定可應(yīng)用于正被分析的當前詞的子語法類別。
3.如權(quán)利要求2所述的系統(tǒng),其中所述左角條件表包括含有子語法類別的名稱的子語法名列,以及含有與各個子語法類別相關(guān)的詞,符號和短語的左角條件列。
4.如權(quán)利要求1所述的系統(tǒng),其中通過計算與正被分析的部分的第一個詞相關(guān)的索引值,并且使用與當前詞相關(guān)的索引值查找指示哪些子語法分析器可應(yīng)用于正被分析的部分的第一個詞的數(shù)據(jù),所述子系統(tǒng)識別可應(yīng)用于正被分析的部分輸入文本的所述至少一個子語法分析器。
5.如權(quán)利要求1所述的系統(tǒng),其中通過計算與正被分析的當前詞相關(guān)的索引值,并且使用所計算的索引值索引整個查詢表以確定可應(yīng)用于正被分析的部分輸入文本的所述至少一個子語法分析器,所述子系統(tǒng)識別所述至少一個子語法分析器。
6.如權(quán)利要求5所述的系統(tǒng),其中所述查詢表包括多個行,每個行均與根據(jù)一種索引模式而索引的符號相關(guān)聯(lián),以及多個列,每個列均與子語法分析器相關(guān)聯(lián)。
7.如權(quán)利要求5所述的系統(tǒng),其中所述子系統(tǒng)使用哈希表計算與當前詞相關(guān)的索引值,所述哈希表具有根據(jù)哈希值分別索引的詞,哈希表中所包含的每個詞與相應(yīng)的索引值相關(guān)聯(lián)。
8.如權(quán)利要求1所述的系統(tǒng),還包括為所述子語法分析器得到的各個結(jié)果邊分配概率分值的第一模塊;以及根據(jù)結(jié)果邊和為結(jié)果邊分配的概率分值,確定所述輸入文本的句法結(jié)構(gòu)的第二模塊。
9.一種方法,包括分析輸入句子的一部分;識別可以應(yīng)用于正被分析的所述部分的子語法類別;以及使用對應(yīng)于被識別為可應(yīng)用的所述子語法類別的子語法分析器,分析所述部分。
10.如權(quán)利要求9所述的方法,其中所述識別子語法類別的步驟包括訪問含有多個子語法類別的表,其中每個子語法類別與一組詞相關(guān)聯(lián);以及將正被分析的當前詞,以及與子語法類別相關(guān)的該組詞進行比較,以確定哪個子語法類別可應(yīng)用于正被分析的當前詞,其中所述當前詞是正被分析的部分輸入句子的第一個詞。
11.如權(quán)利要求9所述的方法,其中所述識別子語法類別的步驟包括計算與正被分析的當前詞相關(guān)的索引值,其中所述當前詞是正被分析的部分輸入句子的第一個詞;以及使用與當前詞相關(guān)的索引值查找指示哪個子語法分析器可應(yīng)用于正被分析的當前詞的數(shù)據(jù)。
12.如權(quán)利要求9所述的方法,其中所述識別子語法類別的步驟包括計算與正被分析的當前詞相關(guān)的索引值,其中所述當前詞是正被分析的部分輸入句子的第一個詞;以及使用所計算的索引值索引整個查詢表,以確定所述子語法類別中的哪個可應(yīng)用于正被分析的當前詞。
13.如權(quán)利要求12所述的方法,其中通過使用具有詞的哈希表得到與當前詞相關(guān)的所述索引值,其中根據(jù)哈希值索引每個單獨的詞,并且該詞與唯一索引值相關(guān)聯(lián)。
14.如權(quán)利要求9所述的方法,還包括為通過分析得到的各個結(jié)果邊分配概率分值;以及根據(jù)結(jié)果邊和為結(jié)果邊分配的概率分值,確定所述輸入句子的句法結(jié)構(gòu)。
15.一種方法,包括為輸入句子中的每個詞分配輸入邊;通過以指定順序放置各個邊來構(gòu)建棧;分別分析棧中的每條邊;識別可應(yīng)用于正被分析的當前邊的子語法類別;以及使用對應(yīng)于被識別為可應(yīng)用的所述子語法類別的子語法分析器,分析當前邊。
16.如權(quán)利要求15所述的方法,還包括用通過分析得到的結(jié)果邊更新棧;為通過分析得到的結(jié)果邊分配概率分值;以及根據(jù)結(jié)果邊和為結(jié)果邊分配的概率分值,確定所述輸入句子的句法結(jié)構(gòu)。
17.如權(quán)利要求15所述的方法,其中所述識別子語法類別的步驟包括訪問含有多個子語法類別的表,其中每個子語法類別與一組詞相關(guān)聯(lián);以及將正被分析的當前詞,以及與子語法類別相關(guān)的該組詞進行比較,以確定哪個子語法類別可應(yīng)用于正被分析的當前詞。
18.如權(quán)利要求15所述的方法,其中所述識別子語法類別的步驟包括計算與正被分析的當前詞相關(guān)的索引值;以及使用所計算的索引值索引整個查詢表,以確定所述子語法類別中的哪個可應(yīng)用于正被分析的當前詞。
19.如權(quán)利要求18所述的方法,其中通過使用具有詞的哈希表得到與當前詞相關(guān)的所述索引值,其中根據(jù)哈希值索引每個單獨的詞,并且該詞與唯一索引值相關(guān)聯(lián)。
20.一種提供指令的機器可讀取介質(zhì),所述指令當由處理器執(zhí)行時,使得所述處理器執(zhí)行操作,所述操作包括分析輸入句子的一部分;識別可以應(yīng)用于正被分析的所述部分的子語法類別;以及使用對應(yīng)于被識別為可應(yīng)用的所述子語法類別的子語法分析器,分析所述部分。
21.如權(quán)利要求20所述的機器可讀取介質(zhì),其中識別子語法類別的所述操作包括訪問含有多個子語法類別的表,其中每個子語法類別與一組詞相關(guān)聯(lián);以及將正被分析的當前詞,以及與子語法類別相關(guān)的該組詞進行比較,以確定哪個子語法類別可應(yīng)用于正被分析的當前詞。
22.如權(quán)利要求20所述的機器可讀取介質(zhì),其中識別子語法類別的所述操作包括計算與正被分析的當前詞相關(guān)的索引值;以及使用所計算的索引值索引整個查詢表,以確定所述子語法類別中的哪個可應(yīng)用于正被分析的當前詞。
23.如權(quán)利要求22所述的機器可讀取介質(zhì),其中通過使用具有詞的哈希表得到與當前詞相關(guān)的所述索引值,其中根據(jù)哈希值索引每個單獨的詞,并且該詞與唯一索引值相關(guān)聯(lián)。
24.如權(quán)利要求20所述的機器可讀取介質(zhì),其中所述操作還包括為通過分析得到的各個結(jié)果邊分配概率分值;以及根據(jù)結(jié)果邊和為結(jié)果邊分配的概率分值,確定所述輸入句子的句法結(jié)構(gòu)。
全文摘要
描述了用于分析輸入句子的系統(tǒng)。系統(tǒng)包括一組子語法分析器,每個子語法分析器包含一組語法規(guī)則以分析一部分自然語言語法。系統(tǒng)還包括子系統(tǒng),以便識別可應(yīng)用于一部分正被分析的輸入文本的至少一個所述子語法分析器,并且使用被識別為可應(yīng)用的所述至少一個所述子語法分析器分析所述部分。在一個實施例中,使用表以幫助子語法搜索處理。表包含若干子語法類別,每個子語法類別與一組左角條件相關(guān)聯(lián)。通過將正被分析的當前詞與和單個子語法類別相關(guān)的左角條件相比較,能識別可應(yīng)用于正被分析的當前詞的一個或多個子語法類別。
文檔編號G06F17/27GK1545665SQ01823574
公開日2004年11月10日 申請日期2001年6月29日 優(yōu)先權(quán)日2001年6月29日
發(fā)明者許魁, 翁福亮, 許 魁 申請人:英特爾公司, 英特爾中國有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1