專利名稱:用于詞匯獲取和詞邊界識別的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明通常涉及詞匯的獲取以及識別未分段文本的詞(word)邊界,并且尤其涉及使用統(tǒng)計(jì)方法自動(dòng)地分段中文文本的方法和系統(tǒng)。
背景技術(shù):
與西方的歐洲語言不同,亞洲語言,尤其是中國語言,通常沒有明確的詞邊界標(biāo)記在正常的句子中。為輸入句子找到詞邊界的任務(wù)被稱為分段化。傳統(tǒng)的分段化算法依賴于基于規(guī)則的知識,包括預(yù)定義的字典,以便尋找詞邊界。這些方案的缺點(diǎn)是對新詞的處理能力很差,并且在存在歧義時(shí)缺乏用于選擇最佳邊界序列的數(shù)學(xué)模型。
另外,已經(jīng)提出了各種基于統(tǒng)計(jì)的分段化算法。然而,除了幾個(gè)例外以外,這些算法嚴(yán)重地依賴于已有的字典,而當(dāng)新詞出現(xiàn)時(shí)常常失敗。在沒有針對新詞的適當(dāng)處理的情況下,所導(dǎo)致的錯(cuò)誤將擴(kuò)散到其相鄰的分段邊界。
分段化是亞洲語言處理的重要部分,包括漢語,日本語和韓國語。改進(jìn)分段化的準(zhǔn)確性可導(dǎo)致更準(zhǔn)確地處理輸入文本,例如,分析和理解句子的含義。
圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施例,用于獲得新詞和尋找輸入句子的詞邊界的系統(tǒng)的模塊圖。
圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施例的訓(xùn)練過程的流程圖。
圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施例,調(diào)整與字典中存在的字相關(guān)的似然值的流程圖。
圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施例的分段化過程的流程圖。
圖5是根據(jù)本發(fā)明的一個(gè)實(shí)施例的兩字符組合的相依度(contingency)表。
圖6A和6B是根據(jù)本發(fā)明的一個(gè)實(shí)施例的三字符組合的相依度表。
具體實(shí)施例方式
在以下描述中,闡明了具體細(xì)節(jié)以供對本發(fā)明的全面理解。然而,對于本領(lǐng)域的技術(shù)人員,顯然可以在不具備這些具體細(xì)節(jié)的情況下實(shí)施本發(fā)明。在其他的實(shí)例中,為了避免模糊本發(fā)明,沒有詳細(xì)地示出熟知的電路,結(jié)構(gòu)和技術(shù)。
圖1根據(jù)本發(fā)明的一個(gè)實(shí)施例,描述了用于詞匯獲取和詞邊界識別的系統(tǒng)100的模塊圖。系統(tǒng)100包括訓(xùn)練模塊102,分段模塊104和Viterbi模塊112??梢砸攒浖a的形式實(shí)施訓(xùn)練模塊102,以便分析文本數(shù)據(jù)文件以產(chǎn)生與不同字符組合相關(guān)的統(tǒng)計(jì)值。在一個(gè)實(shí)施例中,根據(jù)出現(xiàn)在訓(xùn)練文本數(shù)據(jù)文件中的不同字符組合的出現(xiàn)數(shù)量來取得統(tǒng)計(jì)值。訓(xùn)練文本數(shù)據(jù)文件是代表特定語言(例如,中文)的文本的語料(corpus)。
在一個(gè)實(shí)施例中,訓(xùn)練模塊使用相依度表108跟蹤出現(xiàn)在訓(xùn)練文本數(shù)據(jù)中的不同字符組合的出現(xiàn)次數(shù)。因?yàn)樵跐h語中有數(shù)以千計(jì)的字符,在訓(xùn)練過程期間將生成許多相依度表(例如,數(shù)千甚至數(shù)百萬)。每個(gè)相依度表包括若干計(jì)數(shù)數(shù)據(jù),并且每個(gè)相依度表與特定字符串組合相關(guān)聯(lián)。參考圖5,圖6A和圖6B將提供關(guān)于相依度表108的詳細(xì)解釋。
根據(jù)一個(gè)實(shí)施例的一個(gè)方面,在訓(xùn)練過程期間,可以使用未分段的文本數(shù)據(jù)(即包含句子的訓(xùn)練文本數(shù)據(jù),其沒有明確的詞邊界)。通過使訓(xùn)練模塊102能在其訓(xùn)練過程期間分析未分段的文本數(shù)據(jù),本發(fā)明可提供勝過某些常規(guī)分段化技術(shù)的顯著優(yōu)點(diǎn),因?yàn)榭墒褂么硖囟ㄕZ言(例如,中文)的大量未分段文本數(shù)據(jù)來獲取新的和不常出現(xiàn)的詞。這是有用的,因?yàn)榇碇T如中文的語言的大量分段文本數(shù)據(jù)(即包含具有明確詞邊界的句子的文本數(shù)據(jù))可能尚不具備,并且手工分段文本數(shù)據(jù)是極其消耗時(shí)間的。
在訓(xùn)練模塊102已經(jīng)計(jì)出出現(xiàn)在訓(xùn)練文本數(shù)據(jù)中的不同字符組合的出現(xiàn)次數(shù)之后,訓(xùn)練模塊102將計(jì)算與每個(gè)字符組合相關(guān)的似然值。以下討論本發(fā)明如何計(jì)算似然值。在似然值表110中存儲(chǔ)訓(xùn)練模塊取得的似然值。在一個(gè)實(shí)施例中,似然值表110包含訓(xùn)練過程期間所識別的二,三和四字符組合的列表,以及與每個(gè)字符串組合相關(guān)的似然值。
系統(tǒng)中還包括含有訓(xùn)練文本數(shù)據(jù)的語言所固有的詞的字典106。在訓(xùn)練過程期間,訓(xùn)練模塊訪問字典106中包含的詞,以便調(diào)整所計(jì)算的似然值。更具體地,當(dāng)統(tǒng)計(jì)值低于所定義的閾值時(shí),調(diào)整與出現(xiàn)在字典中的那些字符組合相關(guān)的統(tǒng)計(jì)值。由于統(tǒng)計(jì)方法的限制,那些不常出現(xiàn)在訓(xùn)練語料中的字符組合將有低的似然值。于是,如果特定字符組合是字典中的詞,并且其似然值低于所定義的閾值,則通過執(zhí)行適當(dāng)?shù)恼{(diào)整操作,可以改善與這種字符組合相關(guān)的似然值。
在一個(gè)實(shí)施例中,在存儲(chǔ)器中存儲(chǔ)似然值表,以便隨后在輸入句子的分段化期間使用。應(yīng)當(dāng)注意到,生成相依度表的目的是為了獲取似然值,并且不需要為了將來分段化的目的而在存儲(chǔ)器中永久地存儲(chǔ)相依度表。
一旦完成了訓(xùn)練過程,分段模塊104可以使用所獲得的訓(xùn)練數(shù)據(jù),以執(zhí)行必需的操作以在輸入句子中識別詞邊界。輸入句子可以被定義為位于兩個(gè)相鄰標(biāo)點(diǎn)符號標(biāo)記之間的串(例如,若干未分段的字符)。在一個(gè)實(shí)施例中,為了識別輸入句子可以被分段的若干不同方式,以軟件代碼的形式實(shí)施分段模塊104,以便分析定義輸入句子的字符串。參考圖4將更詳細(xì)地解釋分段模塊執(zhí)行的操作。一旦分段模塊104已經(jīng)識別出輸入句子可以被分段的不同方式,使用Viterbi模塊112根據(jù)與不同候選詞邊界相關(guān)的似然值,找出不同分段化可選方式中的最佳路徑。
圖5根據(jù)本發(fā)明的一個(gè)實(shí)施例描述了用于計(jì)算在訓(xùn)練文本數(shù)據(jù)中特定兩字符組合的出現(xiàn)次數(shù)的相依度表。在漢語中,詞通常包括一個(gè),兩個(gè),三個(gè)或四個(gè)字符。在此點(diǎn)上,分別使用二,三和四字符相依度表以跟蹤二,三和四字符組合的出現(xiàn)。在一個(gè)實(shí)施例中,因?yàn)榘ǔ^四字符的中文詞不常出現(xiàn),不生成五或更多字符串組合的相依度表。然而,如本領(lǐng)域普通技術(shù)人員會(huì)理解的,本發(fā)明可以使用詞長度大于四字符的相依度表,以識別五個(gè)或更多字符的詞。這些均在本發(fā)明的范圍和考慮之內(nèi)。
如之前所說明的,因?yàn)橹形陌〝?shù)以千計(jì)的字符,在訓(xùn)練過程期間將產(chǎn)生許多相依度表(例如,數(shù)千甚至數(shù)百萬)以覆蓋不同的字符串組合。每個(gè)相依度表與特定的字符串組合相關(guān)。使用相依度表計(jì)算彼此相繼出現(xiàn)的字符的特定序列的次數(shù)。在圖5中,字符A表示特定字符,其可以是,例如,數(shù)以千計(jì)的中文字符中的任何一個(gè),并且類似地,字符B表示另一個(gè)漢語字符?!獳表示除字符A之外的所有字符?!獴表示除字符B之外的所有字符。
在如圖5所示的相依度表中,第一列502代表兩字符組合,其中字符B作為第二字符出現(xiàn)。類似地,第二列504代表兩字符組合,其中字符B不作為第二字符出現(xiàn)。相依度表中的第一行508和第二行510分別代表字符A作為第一個(gè)字符出現(xiàn),以及字符A不作為第一個(gè)字符出現(xiàn)。因此,N(11)代表兩字符的串(由第一字符A和緊跟其后的第二字符B組成)出現(xiàn)在訓(xùn)練文本數(shù)據(jù)內(nèi)的計(jì)數(shù)。N(21)代表兩字符串(其中第一字符不是字符A,并且第二字符是字符B)的計(jì)數(shù)。N(12)代表兩字符串(其中第一字符是字符A,并且第二字符不是字符B)的計(jì)數(shù)。N(22)代表兩字符串(其中第一字符不是字符A,并且第二字符不是字符B)的計(jì)數(shù)。
例如,如果字符A代表“Shan”,而字符B代表“Huang”。計(jì)數(shù)N(11)將指示在訓(xùn)練數(shù)據(jù)中,字符“Shan”有多少次出現(xiàn)在字符“Huang”之前。因此,在訓(xùn)練過程中,每當(dāng)字符“Shan”和字符“Huang”以這個(gè)順序彼此相繼出現(xiàn)時(shí),變量N(11)遞增。計(jì)數(shù)N(12)將指示在訓(xùn)練數(shù)據(jù)中,多少次字符“Shan”沒有后跟字符“Huang”。
使用計(jì)數(shù)值N(11),N(12),N(21)和N(22),可以計(jì)算在相依度表的第三列506和第三行512中的其他合計(jì)計(jì)數(shù)值。例如,N(1·)是N(11)和N(12)的總和。N(2·)是N(21)和N(22)的總和。相似地,N(·1)是N(11)和N(21)的總和。N(·2)是N(12)和N(22)的總和。最后,總計(jì)數(shù)N是全部4個(gè)值N(11),N(12),N(21)和N(22)的總和。
圖6A和6B根據(jù)本發(fā)明的一個(gè)實(shí)施例,描述了用于計(jì)算三字符的串組合的次數(shù)的相依度表。為了計(jì)算三字符組合的出現(xiàn),使用了兩個(gè)相依度表。在如圖6A所示的第一個(gè)表中,第一列602和第二列604分別代表字符C作為第三個(gè)字符出現(xiàn),以及字符C不作為第三個(gè)字符出現(xiàn)。第一個(gè)表中的第一行608和第二行610分別代表兩字符串(AB)作為前兩個(gè)字符出現(xiàn),以及字符串(AB)不作為前兩個(gè)字符出現(xiàn)。因此,N(11)代表由前兩個(gè)字符的串AB和緊跟其后的字符C組成的三字符串出現(xiàn)在訓(xùn)練文本數(shù)據(jù)內(nèi)的計(jì)數(shù)。N(21)代表三字符串(其中前兩個(gè)字符的串不是AB并且第三字符是字符C)的計(jì)數(shù)。N(12)代表三字符串(其中前兩個(gè)字符的串是AB并且第三字符不是字符C)的計(jì)數(shù)。N(22)代表三字符串(其中前兩個(gè)字符的串不是AB并且第三字符不是字符C)的計(jì)數(shù)。
在圖6B所示的第二個(gè)表中,第一列652和第二列654分別代表兩字符串BC作為第二字符和第三字符出現(xiàn),以及兩字符串BC沒有作為第二字符和第三字符出現(xiàn)。在此第二個(gè)表中的第一行658和第二行660分別代表字符A作為第一個(gè)字符出現(xiàn),以及字符A不作為第一個(gè)字符出現(xiàn)。
圖2和圖3描述了根據(jù)本發(fā)明的一個(gè)實(shí)施例的訓(xùn)練模塊的操作。訓(xùn)練模塊被構(gòu)造成識別那些經(jīng)常出現(xiàn)在訓(xùn)練文本數(shù)據(jù)中的兩,三和四字符組合,并且使用這樣的信息推測除了包含在詞典中的那些詞之外的任何潛在的新詞。訓(xùn)練模塊的操作可以被分解成三個(gè)階段,即字符組合計(jì)數(shù)階段,似然值計(jì)算階段和似然值調(diào)整階段。
圖2根據(jù)本發(fā)明的一個(gè)實(shí)施例描述了字符組合計(jì)數(shù)階段的操作。最初,訓(xùn)練模塊在塊200從外部源接收訓(xùn)練文本數(shù)據(jù)文件。訓(xùn)練文本數(shù)據(jù)文件是代表特定語言,例如中文的文本的語料。在這點(diǎn)上,訓(xùn)練模塊在主循環(huán)(塊205到塊230)中連續(xù)處理,以便順序地檢查每個(gè)獨(dú)立的句子,直到到達(dá)訓(xùn)練文件的末尾(塊205,是)。在塊210中,訓(xùn)練模塊從訓(xùn)練文件的剩余文本數(shù)據(jù)中讀取完整的句子。此時(shí),訓(xùn)練模塊從訓(xùn)練句子中移除非中文字符,包括數(shù)字,符號和字母,并用特殊的標(biāo)記(token)代替非中文字符。
在主循環(huán)內(nèi)有子循環(huán)(塊215到塊230),其根據(jù)定義當(dāng)前句子的字符序列更新相依度表的計(jì)數(shù)數(shù)據(jù)??梢詮淖蟮接一驈挠业阶蟮仨樞蚍治龆x當(dāng)前句子的字符。在一個(gè)實(shí)施例中,遞增與以當(dāng)前句子的每個(gè)相繼字符為開始的兩,三和四字符組合相關(guān)的計(jì)數(shù)值。在這點(diǎn)上,每次檢查輸入句子的四個(gè)順序字符(塊220)。然后在塊225中,更新與這些正被檢查的四個(gè)順序字符相關(guān)的相依度表。例如,通過遞增合適的計(jì)數(shù)數(shù)據(jù),可以更新與正在被檢測的四個(gè)順序字符的前兩個(gè)字符相關(guān)的兩字符相依度表。另外,通過遞增合適的計(jì)數(shù)數(shù)據(jù),可以更新與正在被檢測的四個(gè)順序字符的前三個(gè)字符相關(guān)的三字符相依度表。然后,通過遞增合適的計(jì)數(shù)數(shù)據(jù),可以更新與正在被檢測的所有四個(gè)順序字符相關(guān)的四字符相依度表。
一旦已經(jīng)遞增了全部與當(dāng)前正被檢測的四個(gè)字符相關(guān)的相依度表的計(jì)數(shù)值,在塊230中,將正在被檢測的四字符窗口的當(dāng)前起始位置移動(dòng)到下一個(gè)字符。此子循環(huán)以此方式處理整個(gè)輸入句子,直到到達(dá)句子的末尾(塊215,是)。句子的末尾可以通過標(biāo)點(diǎn)符號標(biāo)記識別。
當(dāng)?shù)竭_(dá)句子的末尾時(shí),訓(xùn)練模塊繼續(xù)處理以便從訓(xùn)練文件中讀取下一個(gè)輸入句子。訓(xùn)練模塊以此方式處理整個(gè)訓(xùn)練文件,直到到達(dá)文件的末尾(塊205,是)。在已獲得與相依度表相關(guān)的所有計(jì)數(shù)值(例如,N(11),N(12),N(21),N(22))之后,在塊235,訓(xùn)練模塊前進(jìn)到似然值計(jì)算階段。
在似然值計(jì)算階段,針對訓(xùn)練文本數(shù)據(jù)中特定字符序列的出現(xiàn),計(jì)算與每個(gè)字符組合相關(guān)的似然值。似然值指示句子中出現(xiàn)的相應(yīng)字符組合被作為詞來使用的可能性。在一個(gè)實(shí)施例中,根據(jù)所生成的似然比(GLR)計(jì)算與特定字符組合相關(guān)的似然值。特定字符組合的GLR計(jì)算如下GLR=2Σi=12Σj=12N(ij)ln[N(ij)N/N(i·)N(·j)]---(1)]]>其中N(ij)代表特定字符組合的計(jì)數(shù)。如以上討論的,當(dāng)將等式(1)用于兩字符組合(AB)時(shí),計(jì)數(shù)值N(ij)定義如下N(11)代表兩字符串(由第一字符A和隨后的第二字符B組成)出現(xiàn)在訓(xùn)練文本數(shù)據(jù)內(nèi)的計(jì)數(shù);N(21)代表兩字符串(其中第一字符不是字符A,并且第二字符是字符B)的計(jì)數(shù);N(12)代表兩字符串(其中第一字符是字符A,并且第二字符不是字符B)的計(jì)數(shù);
N(22)代表兩字符串(其中第一字符不是字符A,并且第二字符不是字符B)的計(jì)數(shù);N(1·)代表N(11)和N(12)的總和;N(2·)代表N(21)和N(22)的總和;N(·1)代表N(11)和N(21)的總和;N(·2)代表N(12)和N(22)的總和;以及N代表N(11),N(12),N(21)和N(22)的總和。
根據(jù)可以由具有多項(xiàng)式分布的單隨機(jī)變量表示特定字符組合的假設(shè),得到以上等式(1)中定義的算法。使用以上算法的與特定字符組合相關(guān)的GLR可以被用于指示相連出現(xiàn)的這樣的字符組合的可能性,其中較高的GLR值指示出較強(qiáng)的關(guān)聯(lián),例如,如果根據(jù)以上算法得到的GLR值相對較高,這表示相應(yīng)字符組合大多數(shù)的時(shí)候相連出現(xiàn)。
至于三字符組合,使用來自圖6A和6B中示出的一個(gè)表的計(jì)數(shù)數(shù)據(jù)計(jì)算似然值。為了適當(dāng)?shù)剡x擇要被使用的一個(gè)表,計(jì)算兩字符串組合AB和BC的似然值。如果與字符組合AB相關(guān)的似然值比與字符組合BC相關(guān)的似然值大,選擇圖6A中所示的第一個(gè)表,并使用來自此表的計(jì)數(shù)數(shù)據(jù)計(jì)算與三字符串組合相關(guān)的似然值。否則,將使用來自圖6B中所示的第二個(gè)表的計(jì)數(shù)數(shù)據(jù)計(jì)算似然值。通過類似的方式,可以獲得與四字符串組合相關(guān)的計(jì)數(shù)數(shù)據(jù)和似然值。
至于單字符的詞,漢語中大多數(shù)單字符的詞可以在現(xiàn)有的字典中找到。在一個(gè)實(shí)施例中,與特定單字符的詞相關(guān)的似然值(LV)可計(jì)算如下LV=(單字符作為詞在訓(xùn)練數(shù)據(jù)中出現(xiàn)的計(jì)數(shù))/(單字符作為詞或詞的一部分在訓(xùn)練數(shù)據(jù)中出現(xiàn)的計(jì)數(shù))。例如,如果訓(xùn)練數(shù)據(jù)只有一個(gè)句子“AAB C”,則與字符A相關(guān)的似然值為0.5。
一旦已經(jīng)計(jì)算出似然值,如圖3所示,訓(xùn)練模塊前進(jìn)到似然值調(diào)整階段。在此階段,如果滿足了某些條件,調(diào)整與字典中已有詞相關(guān)的似然值。在塊305中,訓(xùn)練模塊分別檢查包括在似然值表中的每個(gè)字符組合。對于每個(gè)字符組合,在塊310中作出決定,以確定是否在字典中發(fā)現(xiàn)這樣的字符組合,并且如果發(fā)現(xiàn)(塊310,是),確定其似然值(例如,GLR)是否小于預(yù)先定義的閾值。如果GLR低于閾值(塊315,是),在塊320中調(diào)整與正被檢查的字符相關(guān)的GLR。如果正被檢查的字符組合不在字典中,或者與字符組合相關(guān)的GLR比閾值大,訓(xùn)練模塊再回到塊305,檢查另一個(gè)包括在似然值表中的字符組合,直到檢查完所有字符組合。
在一個(gè)實(shí)施例中,當(dāng)與出現(xiàn)在字典中的字符序列相關(guān)的似然值低于所給的閾值時(shí),通過遞增常數(shù)值來調(diào)整似然值。一旦似然值已經(jīng)調(diào)整,可以正規(guī)化所調(diào)整的值,以作為對詞一元組(uni-gram)概率的逼近。
圖4根據(jù)本發(fā)明的一個(gè)實(shí)施例描述了用于在輸入句子中識別詞邊界的分段模塊的操作。在普通的文本格式中,中文句子通常沒有自然的定界符,例如詞之間的空白。為了適當(dāng)?shù)胤治鲋形木渥?,可能期望將每個(gè)單獨(dú)的句子分解到詞的級別。在塊400中,分段模塊以未分段的文本格式接收輸入句子。因?yàn)檩斎刖渥涌赡懿恢话形淖址?,而且還包含非中文字符,包括數(shù)字,符號和字母,在塊405中,從句子中移除這樣的非中文字符并用特殊的標(biāo)記代替。
在這點(diǎn)上,分段模塊在循環(huán)(塊410到425)中連續(xù)執(zhí)行,以便得到與出現(xiàn)在輸入句子中的各種字符串組合相關(guān)的似然值。從先前在訓(xùn)練過程期間生成的似然值表中獲得似然值??梢詮淖蟮接业鼗驈挠业阶蟮仨樞蚍治龆x輸入句子的字符。對從輸入句子的每個(gè)相繼字符為起始的兩,三和四字符組合進(jìn)行分析,以便得到與其相關(guān)的似然值。將出現(xiàn)在輸入句子中的每個(gè)字符組合與包含在似然值表中的一組字符組合相比較,并獲得與其相關(guān)的似然值。
在圖解實(shí)施例中,從句子的一端開始,在塊415中,分段模塊讀取預(yù)定數(shù)量的字符。所讀取的字符的預(yù)定數(shù)量與系統(tǒng)定義的最大詞長相等。在一個(gè)實(shí)施例中,每次讀取四個(gè)順序字符。如上說明的,最大詞長可以比四個(gè)字符大。根據(jù)此四字符數(shù)據(jù)的窗口,在塊420中,分段模塊得到與四字符數(shù)據(jù)中發(fā)現(xiàn)的全部字符串組合相關(guān)的似然值。例如,根據(jù)四字符數(shù)據(jù),如果在似然值表中包括這樣的字符組合,可以從似然值表中得到與前兩個(gè)字符的串,前三個(gè)字符的串和四字符串相關(guān)的似然值。然后在塊425中,通過移動(dòng)字符塊的當(dāng)前起始位置到下一個(gè)字符,分段模塊以這種方式處理完整個(gè)句子。此循環(huán)(塊415到425)繼續(xù)執(zhí)行,直到到達(dá)句子的末尾(塊410,是)??梢酝ㄟ^標(biāo)點(diǎn)符號標(biāo)記識別輸入句子的末尾。
當(dāng)已經(jīng)到達(dá)句子的末尾時(shí),分段模塊前進(jìn)到塊430。在這點(diǎn)上,已經(jīng)得到與出現(xiàn)在句子中的兩,三和四字符串組合相關(guān)的似然值(GLR)。然后在塊430中,根據(jù)與不同的可能字符串組合相關(guān)的似然值,執(zhí)行Viterbi搜索以在不同的分段化可選方式中選擇最佳路徑。具有最高似然值的路徑被選出作為結(jié)果。最后在塊435中,根據(jù)Viterbi模塊選擇的最佳分段化路徑對輸入句子進(jìn)行分段。
本領(lǐng)域普通技術(shù)人員可以理解,因?yàn)檫@里描述的用于詞匯獲取和詞邊界識別的系統(tǒng)需要有限的關(guān)于特定語言的信息,本系統(tǒng)可以被輕松應(yīng)用到其他的語言,例如,日本語,韓國語,泰國語和越南語。
可以以存儲(chǔ)在機(jī)器可讀取介質(zhì)上的軟件程序的形式實(shí)施本發(fā)明執(zhí)行的操作,例如但不限于任何類型的盤,包括軟盤、硬盤、光盤、CD-ROM和磁光盤,只讀存儲(chǔ)器(ROM),隨機(jī)存取存儲(chǔ)器(RAM),EPROM,EEPROM,磁卡或光卡,或任何類型的適于存儲(chǔ)電子指令的介質(zhì),并且所述介質(zhì)均連接到計(jì)算機(jī)總線上。此外,沒有參考任何特定的編程語言描述本發(fā)明??梢岳斫?,如其中所描述的,可以使用各種編程語言實(shí)施本發(fā)明的教導(dǎo)。
雖然已經(jīng)描述和示出了本發(fā)明的上述實(shí)施例,然而本領(lǐng)域的技術(shù)人員可以理解適合于本發(fā)明的變化和修改,例如那些所建議的以及其他在本發(fā)明的精神和范圍內(nèi)的。因此,在附加權(quán)利要求中闡明了本發(fā)明要定義的范圍。
權(quán)利要求
1.一種系統(tǒng),包括用于計(jì)算與字符組合相關(guān)的似然值的訓(xùn)練模塊,其根據(jù)訓(xùn)練文本數(shù)據(jù)中特定字符組合的出現(xiàn)次數(shù),計(jì)算每個(gè)與相應(yīng)字符組合相關(guān)的似然值;以及根據(jù)與字符組合相關(guān)的所述似然值,在輸入句子中識別詞邊界的分段模塊。
2.如權(quán)利要求1所述的系統(tǒng),其中根據(jù)具有多項(xiàng)式分布的單隨機(jī)變量可表示特定字符組合的假設(shè)來計(jì)算似然值。
3.如權(quán)利要求1所述的系統(tǒng),其中與特定字符組合相關(guān)的似然值是根據(jù)所生成的似然比(GLR)而計(jì)算的,所述GLR計(jì)算如下GLR=2Σi=12Σj=12N(ij)ln[N(ij)N/N(i·)N(·j)]]]>其中N(ij)表示特定字符組合的計(jì)數(shù)。
4.如權(quán)利要求3所述的系統(tǒng),其中與兩字符組合(AB)相關(guān)的計(jì)數(shù)值N(ij)定義如下N(11)代表由第一字符A和隨后的第二字符B組成的兩字符串在訓(xùn)練文本數(shù)據(jù)中的出現(xiàn)的計(jì)數(shù);N(21)代表其中第一字符不是字符A,并且第二字符是字符B的兩字符串在訓(xùn)練文本數(shù)據(jù)中的出現(xiàn)的計(jì)數(shù);N(12)代表其中第一字符是字符A,并且第二字符不是字符B的兩字符串在訓(xùn)練文本數(shù)據(jù)中的出現(xiàn)的計(jì)數(shù);N(22)代表其中第一字符不是字符A,并且第二字符不是字符B的兩字符串在訓(xùn)練文本數(shù)據(jù)中的出現(xiàn)的計(jì)數(shù);N(1·)代表N(11)和N(12)的總和;N(2·)代表N(21)和N(22)的總和;N(·1)代表N(11)和N(21)的總和;N(·2)代表N(12)和N(22)的總和;以及N代表N(11),N(12),N(21)和N(22)的總和。
5.如權(quán)利要求1所述的系統(tǒng),還包括由所述訓(xùn)練模塊維護(hù)的相依度表,每個(gè)相依度表用于跟蹤出現(xiàn)在訓(xùn)練文本數(shù)據(jù)中的特定字符組合的出現(xiàn)次數(shù)。
6.如權(quán)利要求1所述的系統(tǒng),其中所述分段模塊得到與出現(xiàn)在輸入句子中的不同字符串組合相關(guān)的似然值。
7.如權(quán)利要求6所述的系統(tǒng),還包括根據(jù)與不同的可能字符串組合相關(guān)的似然值,在不同分段化可選方式中選擇最佳路徑的Viterbi模塊。
8.如權(quán)利要求1所述的系統(tǒng),還包括含有訓(xùn)練文本數(shù)據(jù)的語言所固有的詞的字典,其中所述訓(xùn)練模塊在所計(jì)算的與字典中已有的詞相關(guān)的似然值小于所定義的閾值的情況下,調(diào)整與其相關(guān)的似然值。
9.一種方法,包括讀取訓(xùn)練文本數(shù)據(jù);計(jì)算不同字符組合在訓(xùn)練文本數(shù)據(jù)中的出現(xiàn)的次數(shù);以及計(jì)算與不同字符組合相關(guān)的似然值,其中根據(jù)在訓(xùn)練文本數(shù)據(jù)中特定字符組合的出現(xiàn)次數(shù),計(jì)算每個(gè)與相應(yīng)字符組合相關(guān)的似然值。
10.如權(quán)利要求9所述的方法,其中根據(jù)具有多項(xiàng)式分布的單隨機(jī)變量可表示特定字符組合的假設(shè)來計(jì)算似然值。
11.如權(quán)利要求9所述的方法,其中與特定字符組合相關(guān)的似然值是根據(jù)所生成的似然比(GLR)而計(jì)算的,所述GLR計(jì)算如下GLR=2Σi=12Σj=12N(ij)ln[N(ij)N/N(i·)N(·j)]]]>其中N(ij)表示特定字符組合的計(jì)數(shù)。
12.如權(quán)利要求11所述的方法,其中與兩字符組合(AB)相關(guān)的計(jì)數(shù)值N(ij)定義如下N(11)代表由第一字符A和隨后的第二字符B組成的兩字符串在訓(xùn)練文本數(shù)據(jù)中的出現(xiàn)的計(jì)數(shù);N(21)代表其中第一字符不是字符A,并且第二字符是字符B的兩字符串在訓(xùn)練文本數(shù)據(jù)中的出現(xiàn)的計(jì)數(shù);N(12)代表其中第一字符是字符A,并且第二字符不是字符B的兩字符串在訓(xùn)練文本數(shù)據(jù)中的出現(xiàn)的計(jì)數(shù);N(22)代表其中第一字符不是字符A,并且第二字符不是字符B的兩字符串在訓(xùn)練文本數(shù)據(jù)中的出現(xiàn)的計(jì)數(shù);N(1·)代表N(11)和N(12)的總和;N(2·)代表N(21)和N(22)的總和;N(·1)代表N(11)和N(21)的總和;N(·2)代表N(12)和N(22)的總和;以及N代表N(11),N(12),N(21)和N(22)的總和。
13.如權(quán)利要求9所述的方法,還包括使用相依度表跟蹤出現(xiàn)在訓(xùn)練文本數(shù)據(jù)中的不同字符組合的出現(xiàn)次數(shù)。
14.如權(quán)利要求9所述的方法,還包括在所計(jì)算的與字典中已有的詞相關(guān)的似然值小于所定義的閾值的情況下,調(diào)整與其相關(guān)的似然值。
15.如權(quán)利要求9所述的方法,還包括讀取由多個(gè)字符組成的輸入句子;得到與出現(xiàn)在輸入句子中的不同字符串組合相關(guān)的似然值;以及根據(jù)與不同的可能字符串組合相關(guān)的似然值,在不同分段化可選方式中選擇最佳路徑。
16.一種提供指令的機(jī)器可讀取介質(zhì),所述指令當(dāng)由處理器執(zhí)行時(shí),使得所述處理器執(zhí)行操作,所述操作包括讀取訓(xùn)練文本數(shù)據(jù);計(jì)算不同字符組合在訓(xùn)練文本數(shù)據(jù)中的出現(xiàn)的次數(shù);以及計(jì)算與不同字符組合相關(guān)的似然值,其中根據(jù)在訓(xùn)練文本數(shù)據(jù)中特定字符組合的出現(xiàn)次數(shù),計(jì)算每個(gè)與相應(yīng)字符組合相關(guān)的似然值。
17.如權(quán)利要求16所述的機(jī)器可讀取介質(zhì),其中根據(jù)具有多項(xiàng)式分布的單隨機(jī)變量可表示特定字符組合的假設(shè)來計(jì)算似然值。
18.如權(quán)利要求16所述的機(jī)器可讀取介質(zhì),其中與特定字符組合相關(guān)的似然值是根據(jù)所生成的似然比(GLR)而計(jì)算的,所述GLR計(jì)算如下GLR=2Σi=12Σj=12N(ij)ln[N(ij)N/N(i·)N(·j)]]]>其中N(ij)表示特定字符組合的計(jì)數(shù)。
19.如權(quán)利要求18所述的機(jī)器可讀取介質(zhì),其中與兩字符組合(AB)相關(guān)的計(jì)數(shù)值N(ij)定義如下N(11)代表由第一字符A和隨后的第二字符B組成的兩字符串在訓(xùn)練文本數(shù)據(jù)中的出現(xiàn)的計(jì)數(shù);N(21)代表其中第一字符不是字符A,并且第二字符是字符B的兩字符串在訓(xùn)練文本數(shù)據(jù)中的出現(xiàn)的計(jì)數(shù);N(12)代表其中第一字符是字符A,并且第二字符不是字符B的兩字符串在訓(xùn)練文本數(shù)據(jù)中的出現(xiàn)的計(jì)數(shù);N(22)代表其中第一字符不是字符A,并且第二字符不是字符B的兩字符串在訓(xùn)練文本數(shù)據(jù)中的出現(xiàn)的計(jì)數(shù);N(1·)代表N(11)和N(12)的總和;N(2·)代表N(21)和N(22)的總和;N(·1)代表N(11)和N(21)的總和;N(·2)代表N(12)和N(22)的總和;以及N代表N(11),N(12),N(21)和N(22)的總和。
20.如權(quán)利要求16所述的機(jī)器可讀取介質(zhì),其中所述計(jì)算操作還包括使用相依度表跟蹤出現(xiàn)在訓(xùn)練文本數(shù)據(jù)中的不同字符組合的出現(xiàn)次數(shù)。
21.如權(quán)利要求16所述的機(jī)器可讀取介質(zhì),其中所述操作還包括調(diào)整與字典中已有字相關(guān)的似然值,如果所計(jì)算的與其相關(guān)的似然值小于所定義的閾值。
22.如權(quán)利要求16所述的機(jī)器可讀取介質(zhì),其中所述操作還包括讀取由多個(gè)字符組成的輸入句子;得到與出現(xiàn)在輸入句子中的不同字符串組合相關(guān)的似然值;以及根據(jù)與不同的可能字符串組合相關(guān)的似然值,在不同分段化可選方式中選擇最佳路徑。
全文摘要
描述了用于在輸入句子中獲取詞匯并識別詞邊界的系統(tǒng)。系統(tǒng)包括訓(xùn)練模塊和分段模塊。訓(xùn)練模塊被構(gòu)造成計(jì)算與字符組合相關(guān)的似然值。根據(jù)訓(xùn)練文本數(shù)據(jù)中相應(yīng)字符組合的出現(xiàn)數(shù)量,計(jì)算每個(gè)與特定字符組合相關(guān)的似然值。在完成訓(xùn)練過程之后,根據(jù)與字符組合相關(guān)的似然值,在輸入句子中使用分段模塊識別詞邊界。
文檔編號G06F17/27GK1545666SQ01823575
公開日2004年11月10日 申請日期2001年7月2日 優(yōu)先權(quán)日2001年7月2日
發(fā)明者黃山(音譯), 翁福亮(音譯), 金乃勇(音譯), (音譯) 申請人:英特爾公司, 英特爾中國有限公司