專利名稱:用于識(shí)別一種或者多種自然語言中的單詞及其詞性的系統(tǒng)、方法、程序產(chǎn)品和網(wǎng)絡(luò)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)文本處理領(lǐng)域。具體地,本發(fā)明涉及自然語言中的可能的真實(shí)單詞及其詞性的識(shí)別。
背景技術(shù):
當(dāng)前不能期望任何一種詞典能夠包含一種語言的所有可能的單詞,這是由于語言的動(dòng)態(tài)性質(zhì)和人類的創(chuàng)造活動(dòng)。如今,由于新的技術(shù)的發(fā)展比以前更快,這種現(xiàn)象變得更富挑戰(zhàn)性。如果每當(dāng)發(fā)現(xiàn)新詞就手工更新詞典(字典)基本上是不可能的,即使可能的話也需要大量的專家的時(shí)間和努力。
從而,不可避免地,文獻(xiàn)中總是會(huì)存在“超詞匯(out-of-vocabulary)”(在詞典中找不到的詞)。尤其是,許多特定領(lǐng)域特有的技術(shù)詞匯以及新衍生的詞,比如新的復(fù)合詞或者已有的詞(通過添加詞綴產(chǎn)生)的形態(tài)變化,都可能并不存在于給定的詞典中。在大多數(shù)詞典中不存在的真實(shí)單詞的例子比如有autoinjectorelectrocardiography,eyedrop,remanufacturability以及website。
詞典中沒有的單詞會(huì)導(dǎo)致許多問題,尤其是對(duì)于自然語言處理(natural language processing(NLP))系統(tǒng)比如機(jī)器翻譯系統(tǒng)和語法分析程序(句型分析程序),因?yàn)樵~典是這些應(yīng)用的最為重要的和基本的知識(shí)源。當(dāng)NLP應(yīng)用發(fā)現(xiàn)一個(gè)其詞典不認(rèn)識(shí)的單詞時(shí),它要么不能處理該文檔,要么猜測(cè)處理該文檔所必要的信息。但是,這種猜測(cè)通常并不很正確,從而系統(tǒng)產(chǎn)生的結(jié)果很差。
已經(jīng)進(jìn)行了很多努力來解決這個(gè)問題,尤其是在POS(詞性)標(biāo)志器(tagger)和語音識(shí)別領(lǐng)域。但是,不同的應(yīng)用是從不同的視角看待超詞匯(out-of-vocabulary(OOV))的問題,并具有不同的目標(biāo)。
對(duì)于POS標(biāo)志器和語法(句型)分析器,它們依賴于單詞的詞法(句法,語法)信息,目標(biāo)是根據(jù)不認(rèn)識(shí)的詞與其相鄰詞共同出現(xiàn)的概率來猜測(cè)OOV在上下文中最為可能的詞性。Dermatas和Kokkinakis根據(jù)只在前一次看見的文本中出現(xiàn)一次的單詞的概率分布,來估計(jì)一個(gè)不認(rèn)識(shí)的單詞具有特定POS標(biāo)記的概率,見″Automatic stochastic tagging of natural language texts″inComputational Linguistics,21(2),pp 137-164,1995。
更為先進(jìn)的POS猜測(cè)方法使用前導(dǎo)和收尾單詞片斷來判斷不認(rèn)識(shí)的單詞的可能的標(biāo)記。Weischedel等人提出了一種猜測(cè)不認(rèn)識(shí)的單詞的POS方法,該方法在給定了不認(rèn)識(shí)的單詞的大寫特征(capitalization feature)和結(jié)尾的前提下使用不認(rèn)識(shí)的單詞具有特定POS標(biāo)記的概率。見Ralph Weischedel,Marie Meeter,RichardSchwartz,Lance Ramshaw以及Jeff Palmucci的″Coping withambiguity and unknown words through probabilistic models″inComputational Linguistics,19(2),pp 359-382,1993。
Eric Brill描述了一種規(guī)則系統(tǒng),其使用結(jié)尾猜測(cè)和更為依賴于形態(tài)的規(guī)則,見″Transformation-Based Error-Driven Learning andNatural Language ProcessingA Case Study in Part of SpeechTagging″in Computational Linguistics,21(4),pp 10 543-565,1995。
對(duì)于語言識(shí)別系統(tǒng),OOV單詞是系統(tǒng)詞匯表(詞典)不認(rèn)識(shí)的單詞,或者是識(shí)別器不能識(shí)別的單詞。目標(biāo)是從系統(tǒng)的詞匯表中找到最為接近OOV單詞的單詞(在發(fā)音和語意方面)。
基于n字符組的字符統(tǒng)計(jì)方法已經(jīng)在單詞級(jí)的語言處理中得到使用,比如拼寫檢查、單詞切分。Angell,F(xiàn)reund和Willett描述了一種根據(jù)兩個(gè)串共同擁有的三字符組的數(shù)量來用詞典項(xiàng)目來比較拼寫錯(cuò)誤,使用Dice相似性系數(shù)作為相似性的量度。拼寫錯(cuò)誤的單詞用詞典中與所述錯(cuò)誤拼寫最為配的單詞來取代。見″Automatic SpellingCorrection Using a Trigram Similarity Measure″in InformationProcessing and Management,19(4),pp255-261,1983。
現(xiàn)有技術(shù)的問題現(xiàn)有技術(shù)中的方法具有至少兩個(gè)問題。
首先,現(xiàn)有技術(shù)不允許識(shí)別和/或標(biāo)識(shí)任何給定自然語言中的有效單詞。例如,一個(gè)單詞的所有形式(形態(tài)變化,和/或衍生詞)不可能都在某個(gè)特定詞典中出現(xiàn)。另外,新詞和/或新創(chuàng)詞不會(huì)出現(xiàn)在詞典數(shù)據(jù)庫中。這個(gè)問題在技術(shù)主題的文章中尤為明顯其中要使用新詞來描述新的技術(shù)或者舊有技術(shù)中的進(jìn)展。
先前的方法開始這個(gè)過程是基于這樣的假設(shè)OOV單詞只是對(duì)系統(tǒng)的詞典來說是不認(rèn)識(shí)的,但是它們可能是語言中的真實(shí)單詞。也就是,這些系統(tǒng)將新詞比如website和無效的詞串比如adkfiedfd或者v3.5a按照相同的方式進(jìn)行處理。現(xiàn)有的工作中沒有人試圖識(shí)別語言中可能的新詞,并提供一種方式來增強(qiáng)現(xiàn)有詞典,從而使得這些詞在將來能夠被適當(dāng)?shù)刈R(shí)別(作為非OOV)。
其次,先前的方法被嵌在應(yīng)用系統(tǒng)中以保護(hù)系統(tǒng)在遇到OOV單詞時(shí)不至于失靈(崩潰),或者是為了改善系統(tǒng)的性能。還不存在獨(dú)立地自動(dòng)系統(tǒng)來尋找語言中可能的真實(shí)單詞,并獲取這些單詞的詞法信息。
即使先前的方法的目標(biāo)在于解決OOV問題,它們也是針對(duì)特定的應(yīng)用設(shè)計(jì)的。它們根據(jù)這些單詞出現(xiàn)的上下文來猜測(cè)這些單詞的為所述特定應(yīng)用所需的信息。因此,一個(gè)單詞的信息可能隨上下文而不同。
發(fā)明目的本發(fā)明的目的是提出一種系統(tǒng)和方法,用于識(shí)別自然語言文本中的在詞典中不存在的可能的真實(shí)單詞和/或它們的詞性。
本發(fā)明的另一個(gè)目的是一種系統(tǒng)和方法,用于自動(dòng)地或者半自動(dòng)地識(shí)別文本中的新詞,并可以將其添加到現(xiàn)有的詞典中。
發(fā)明內(nèi)容
本發(fā)明是一種系統(tǒng)、方法、程序產(chǎn)品和網(wǎng)絡(luò),用于識(shí)別詞典數(shù)據(jù)庫中不存在的一個(gè)或者多個(gè)單詞。一個(gè)統(tǒng)計(jì)過程檢查單詞中的兩個(gè)或者多個(gè)字符的子集的一個(gè)或者多個(gè)序列,以確定該詞為有效詞的概率。在優(yōu)選實(shí)施例中,應(yīng)用規(guī)則來確定詞的詞性。
在另外的實(shí)施例中,本發(fā)明包括一個(gè)去前綴處理,一個(gè)去后綴處理,一個(gè)詞根處理,以及/或組合處理。所述去前綴處理從一個(gè)單詞中取出一個(gè)或者多個(gè)前綴,其中,所述前綴最好是在一個(gè)前綴列表中。該去前綴處理最好受到一個(gè)或者多個(gè)去前綴規(guī)則的約束。該去前綴處理還包括有關(guān)被去除的前綴的前綴信息(例如來自詞典數(shù)據(jù)庫或者前綴列表)。所述去后綴處理從單詞中去除一個(gè)或者多個(gè)后綴,其中,所述后綴最好是在一個(gè)后綴列表中。最好,所述去后綴處理受到一個(gè)或者多個(gè)去后綴規(guī)則的約束。該去后綴處理還包括有關(guān)被去除的后綴的后綴信息(例如來自詞典數(shù)據(jù)庫或者后綴列表)。所述詞根處理從詞典數(shù)據(jù)庫獲取有關(guān)詞根的詞根信息。(詞根是去除了前綴和后綴的單詞)。所述組合處理然后判斷所述前綴、詞根和后綴是否能夠組合為由一個(gè)或者多個(gè)組合規(guī)則限定的有效單詞。該組合處理可以,如果存在有效單詞,獲取有效單詞一個(gè)或者多個(gè)詞性,并將詞性連同該有效詞一起存儲(chǔ)在詞典數(shù)據(jù)庫中(或者其它存儲(chǔ)位置)。
從下面結(jié)合附圖對(duì)優(yōu)選實(shí)施例進(jìn)行的非限制性的說明可以更好地理解本發(fā)明的前述以及其它目的、特征和優(yōu)點(diǎn)。附圖中圖1是使用本發(fā)明的系統(tǒng)的優(yōu)選實(shí)施例的框圖;圖2是總體詞典增強(qiáng)方法的流程圖;圖3是包括前綴處理、后綴處理和復(fù)合詞處理的語言學(xué)處理的流程圖;圖4是用在語言學(xué)處理中的前綴處理的流程圖;
圖5是用在語言學(xué)處理中的后綴處理的流程圖;圖6是用在語言學(xué)處理中的復(fù)合詞處理的流程圖;圖7是統(tǒng)計(jì)處理的流程圖;圖8是統(tǒng)計(jì)學(xué)習(xí)處理的流程圖;圖9是被本發(fā)明識(shí)別為自然語言中的單詞的單詞輸出的一個(gè)例子。
具體實(shí)施例方式
本發(fā)明是一種用于從文本中的超詞匯單詞中識(shí)別可能的真實(shí)單詞的系統(tǒng)、方法和程序。在另外的實(shí)施例中,則是找出所識(shí)別的單詞的詞性,以增強(qiáng)現(xiàn)有的詞典。與一般的超詞匯處理系統(tǒng)不同,本發(fā)明作為優(yōu)選實(shí)施例提出基于單詞中的三字符組序列的概率的熵(平均信息量,entropy)模型。
被識(shí)別為真實(shí)單詞的單詞可以被加入計(jì)算機(jī)系統(tǒng)的現(xiàn)有詞典中,以便計(jì)算機(jī)應(yīng)用程序能夠識(shí)別超詞匯單詞并在將來正確處理這些單詞。本發(fā)明可以集成到許多語言處理系統(tǒng)中,比如術(shù)語提取系統(tǒng)、機(jī)器翻譯系統(tǒng)以及語音識(shí)別系統(tǒng)。另外,這些單詞可以由詞典編纂者用來更新和/或增強(qiáng)出版的詞典。本發(fā)明可以給詞典編纂者提供新詞的列表,從而減少他們的工作量。本發(fā)明不僅可以應(yīng)用于英語,而且可以應(yīng)用于其它語言,包括但不限于法語、德語、西班牙語等。
圖1圖示了由本發(fā)明執(zhí)行的總體處理。本發(fā)明的詞典增強(qiáng)系統(tǒng)(100)由任何已知的計(jì)算機(jī)系統(tǒng)運(yùn)行。它從硬盤或者網(wǎng)絡(luò)(例如萬維網(wǎng)、內(nèi)聯(lián)網(wǎng)、公司網(wǎng)絡(luò)等)讀入文檔(120),對(duì)于文檔中的每一個(gè)單詞,在系統(tǒng)所使用的在線詞典(140)中查找該單詞。(在線詞典是公知的,包括任何以可檢索的方式存儲(chǔ)單詞的存儲(chǔ)設(shè)備)。如果該單詞在詞典中不存在,則本發(fā)明檢查該單詞是否有可能是目標(biāo)語言中的真實(shí)單詞。這里,目標(biāo)語言不僅包括一般所知的自然語言,也包括這些語言的技術(shù)變種,比如計(jì)算機(jī)編程/維修手冊(cè)或者醫(yī)學(xué)論文。如果它是一個(gè)可能的真實(shí)單詞,則該系統(tǒng)在一個(gè)數(shù)據(jù)庫(160)中保存該單詞及其詞性。所述可能的真實(shí)單詞可以存儲(chǔ)在新詞數(shù)據(jù)庫(160)中、在線詞典(140)中或者其它任何類型的已知存儲(chǔ)位置。
其它計(jì)算機(jī)應(yīng)用(200)隨后可以使用所述新詞數(shù)據(jù)庫來處理文檔或者語音(220)。這些應(yīng)用是公知的,包括語法(句型)分析程序、機(jī)器翻譯系統(tǒng)以及語音識(shí)別系統(tǒng)。該數(shù)據(jù)庫還可以由辭典編纂者(300)用來出版和/或修訂人類使用的詞典(320)。
圖2圖示了詞典增強(qiáng)處理(100)的總體流程圖。當(dāng)在系統(tǒng)中讀入文檔(120)時(shí)(例如使用標(biāo)準(zhǔn)技術(shù)),系統(tǒng)從文檔獲取一個(gè)單詞,并在系統(tǒng)詞典(140)中查找該單詞(110)。如果該單詞在詞典(130)中存在,則不需要進(jìn)一步處理。但是,如果該單詞在詞典中不存在,則系統(tǒng)檢查該單詞是否由字母組成(150)。如果該單詞包含一個(gè)或者多個(gè)數(shù)字或者特殊字符,則系統(tǒng)忽略該詞。
如果該詞僅由字母組成,則系統(tǒng)首先對(duì)其應(yīng)用語言學(xué)處理(400)以檢查該詞是否是新的衍生詞(也就是現(xiàn)有單詞的形態(tài)變化,和/或復(fù)合詞)。如果該處理的結(jié)果是肯定的(170),則系統(tǒng)可選地將該詞及其詞法信息(190)保存到新詞數(shù)據(jù)庫(160)或者其它存儲(chǔ)位置中。如果該處理的結(jié)果是否定的,則在優(yōu)選實(shí)施例中,該系統(tǒng)對(duì)其應(yīng)用統(tǒng)計(jì)學(xué)處理(500)。如果處理(500)將該詞識(shí)別為新詞(180),則將該詞及其詞法信息(190)保存到所述新詞數(shù)據(jù)庫(160)中。重復(fù)所述處理,直到文檔中沒有剩下單詞。
圖3圖示了語言學(xué)處理(400)的總體流程。該處理用于識(shí)別新衍生詞。衍生詞是詞典已知的詞的形態(tài)變化,這種形態(tài)變化多數(shù)是通過添加詞綴,例如在單詞的開頭添加前綴,或者在單詞的末尾添加后綴,以及/或者通過復(fù)合的手段,也就是將兩個(gè)或者多個(gè)單詞寫為一個(gè)單詞。首先,系統(tǒng)檢查該單詞是否包括一個(gè)或者多個(gè)前綴和詞根(410)。如果前綴處理(410)的結(jié)果是肯定的,則該單詞被視為一個(gè)新詞,過程停止。如果前綴處理的結(jié)果是否定的(420),則系統(tǒng)檢查該單詞是構(gòu)包括一個(gè)或者多個(gè)后綴和詞根(430)。如果后綴處理的結(jié)果是肯定的,則該單詞被視為新詞,過程停止(440)。如果后綴處理(440)的結(jié)果是否定的,則系統(tǒng)運(yùn)行復(fù)合詞處理(450),看該單詞是否包括兩個(gè)內(nèi)容詞。如果復(fù)合詞處理的結(jié)果是肯定的,則該單詞被視為新詞,過程停止。注意,本發(fā)明可以是一個(gè)或者多個(gè)前綴處理(410)、后綴處理(430)和/或復(fù)合詞處理(450)單獨(dú)作用或者與一個(gè)或者多個(gè)其它處理結(jié)合作用。
圖4圖示了用在語言學(xué)處理(400)中的前綴處理(410)的流程圖。對(duì)有前綴的單詞的該處理(410)如下所述。
首先,系統(tǒng)檢查是否有前綴列表(417)中的前綴出現(xiàn)在該單詞的開頭(411)。如果單詞包含一個(gè)前綴(412),則系統(tǒng)將該前綴從單詞上砍掉(413)(分解單詞)并在詞典中查找其余部分(詞根)(414)。在本發(fā)明的一種優(yōu)選實(shí)施例中,將詞根的最小長(zhǎng)度設(shè)置為兩個(gè)字符。如果詞典包含該詞根(415),則將該超詞匯詞視為真實(shí)的詞,并且由過程410處理的詞繼承該詞根的詞法信息(416)。例如。前綴處理(410)發(fā)現(xiàn)了antiasthmatic(副詞),autoinjector(名詞),remanufactured(動(dòng)詞的過去分詞),streoselectivity(名詞)。
圖5圖示了用在語言學(xué)處理(400)中的后綴處理(430)的流程圖。后綴處理如下所述首先,系統(tǒng)檢查是否有后綴數(shù)據(jù)庫(438)中的后綴出現(xiàn)在單詞的末尾(431)。在一種優(yōu)選實(shí)施例中,本發(fā)明應(yīng)用針對(duì)后綴(438)設(shè)置的規(guī)則,該規(guī)則描述一個(gè)詞根具有特定后綴的先決條件POS(詞性),以及所得到的詞性。
用在優(yōu)選實(shí)施例中的后綴規(guī)則結(jié)構(gòu)的一個(gè)非限制性的例子如下。后綴able的規(guī)則是[able,{VB=>JJ},{NN=>JJ}]。該規(guī)則的意思是,動(dòng)詞(VB)或者名詞(NN)可以在單詞的末尾具有后綴able,所得到的詞的詞性是形容詞(JJ)。如果一個(gè)單詞包含一個(gè)后綴(432),則系統(tǒng)將該后綴去除(433),在詞典中查找詞根(435)。如果在詞典中找到了詞根(436)并且其具有先決條件POS之一,則該詞被視為真實(shí)的單詞并具有該規(guī)則所指的結(jié)果POS(437)。
但是,如果該詞根在詞典中不存在,則系統(tǒng)進(jìn)行詞根形式恢復(fù)(434)。當(dāng)向一個(gè)單詞添加詞綴時(shí),詞根的拼寫可能發(fā)生變化。例如,在英語中,以不發(fā)音的e結(jié)尾的單詞通常在接以元音開頭的后綴時(shí)會(huì)舍掉e。例如,當(dāng)系統(tǒng)讀入browsable時(shí),它分離詞綴able,獲得詞根brows。系統(tǒng)在詞典中查找brows,但是未能成功。那么,系統(tǒng)執(zhí)行詞根形式恢復(fù)處理,獲得原始形式browse。
對(duì)于詞根形式恢復(fù),在一個(gè)優(yōu)選實(shí)施例中,本發(fā)明應(yīng)用下述規(guī)則(1)如果詞根的最后兩個(gè)字母是同一個(gè)輔音字母,則刪除一個(gè);(2)如果詞根的最后一個(gè)字母是i,則將其變?yōu)閥;(3)如果詞根的最后一個(gè)字母是輔音字母(但是不是第一種情況),則添加一個(gè)e。
如果在詞典中找到了恢復(fù)得到的詞根(436),并且其具有前提條件POS之一,則該單詞被視為真實(shí)單詞,則其具有該規(guī)則確定的結(jié)果POS(437)。這種情況的例子包括browsable(形容詞),migranious(形容詞),和oxidizability(名詞)。
某些詞,例如remanufacturability,包括一個(gè)或者多個(gè)前綴、一個(gè)或者多個(gè)后綴以及詞根。在這種情況下,該單詞經(jīng)過上述的前綴處理和后綴處理。
圖6圖示了用在語言學(xué)處理中的復(fù)合詞處理的流程圖。如果一個(gè)詞在前綴處理和后綴處理中的結(jié)果都是否定的,則考慮對(duì)其進(jìn)行復(fù)合詞處理(450)。系統(tǒng)將給定的超詞匯單詞分解為兩個(gè)組成部分(453)包括從第一字母到斷點(diǎn)的字母的第一組成部分(第一詞素),以及包括從斷點(diǎn)+1到單詞末尾的字母的第二組成部分(第二詞素)。初始斷點(diǎn)為3(451)。如果在詞典中找不到第一組成部分(455),則系統(tǒng)增大所述斷點(diǎn)(459),重復(fù)該處理直到第二組成部分中的字母數(shù)量小于等于2(452)。
如果詞典認(rèn)識(shí)第一組成部分(455),則在詞典中查找第二組成部分(456)。如果詞典也認(rèn)識(shí)第二組成部分,則系統(tǒng)檢查所述兩個(gè)組成部分的組合是否合法??赡艿膯卧~組合有名詞+名詞以及名詞加動(dòng)詞的分詞形式。如果組合是合法的,則將該超詞匯詞視為真實(shí)的單詞,并具有第二組成部分的詞性(459)。復(fù)合詞的例子包括airbreathing(名詞,動(dòng)名詞),eyedrops(名詞),photophobia(名詞)以及websire(名詞)。
圖7圖示了優(yōu)選的整個(gè)統(tǒng)計(jì)處理(500)的流程圖。該過程用于識(shí)別非衍生的新詞。非衍生的新詞的意思是所述詞不能通過對(duì)語言的現(xiàn)有單詞應(yīng)用衍生(或者構(gòu)詞)規(guī)則而產(chǎn)生。許多特定領(lǐng)域的技術(shù)術(shù)語屬于這一類。人類非常容易成功地猜出一個(gè)以前從未見過的詞是否是可能的真實(shí)單詞,即使該單詞并非由已知的單詞構(gòu)成。在一個(gè)實(shí)施例中,假設(shè)在以下情況下人類可以斷定一個(gè)詞是語言中的可能詞匯該詞中的字符序列看起來是很有可能的,并且發(fā)音自然。本發(fā)明將非衍生新詞的識(shí)別建立在此假設(shè)的基礎(chǔ)之上。
在本發(fā)明中,如果字符串中的每一個(gè)字符都可能與其相鄰字符同時(shí)出現(xiàn),則將字母序列視為可能的真實(shí)單詞。(字母/字符與相鄰字符/字母組合而成的序列被稱為一個(gè)字符串)。相鄰字母/字符可以是任意數(shù)量的前導(dǎo)或者尾隨字符。這種方法系基于語言的可預(yù)測(cè)性當(dāng)知道前導(dǎo)或者尾隨的n個(gè)字母時(shí)能在多大程度上預(yù)測(cè)文本的下一個(gè)字母。在優(yōu)選實(shí)施例中,將一個(gè)字符的相鄰字符定義為兩個(gè)前導(dǎo)字符。也就是,在已經(jīng)看到了兩個(gè)前導(dǎo)字符的前提下,如果單詞中的字符在其位置出現(xiàn)的機(jī)會(huì)很高(也就是三字符組模型,這里,字符串是三個(gè)字符或者說三字符組),則該單詞被視為真實(shí)單詞。
該模型有兩種模式學(xué)習(xí)模式(510)和應(yīng)用模式(550,560)。在學(xué)習(xí)模式,系統(tǒng)從系統(tǒng)詞典(140)學(xué)習(xí)字符三字符組統(tǒng)計(jì)結(jié)果的概率,并將三字符組統(tǒng)計(jì)結(jié)果保存在數(shù)據(jù)庫中(520)。學(xué)習(xí)模式還從訓(xùn)練數(shù)據(jù)產(chǎn)生基于單詞結(jié)尾的詞性猜測(cè)規(guī)則(530)。在應(yīng)用模式中,當(dāng)系統(tǒng)獲取一個(gè)超詞匯單詞(540)時(shí),系統(tǒng)計(jì)算該單詞中所有字符三字符組的概率的熵(entropy,平均信息量)。
一個(gè)語言模型的熵是信息的預(yù)期值。熵是模型對(duì)未來的不確定性的量度。如果估計(jì)的概率分布接近均勻的,則熵增加。本發(fā)明提出了一種模型,其中,當(dāng)提供一個(gè)超詞匯單詞(一個(gè)或者多個(gè)字符序列或者單詞序列)時(shí),該模型能夠根據(jù)其統(tǒng)計(jì)結(jié)果判斷該單詞序列是否會(huì)是該語言中的可能的真實(shí)單詞。也就是,一個(gè)單詞是具有較強(qiáng)的內(nèi)部統(tǒng)計(jì)效應(yīng)的字母的聚合組。
假設(shè)一個(gè)單詞w由n個(gè)字符組成,也就是w=c1...cn。加上一個(gè)前導(dǎo)空格和一個(gè)結(jié)尾空格來估計(jì)三字符組概率(在圖8的說明中更詳細(xì)地說明),使得w=c0c1...cncn+1。單詞w的熵H(w)的計(jì)算如下H(w)=-Σi=2n+1P(ci|ci-1,ci-2)log2P(ci|ci-1,ci-2)]]>在一個(gè)優(yōu)選實(shí)施例中,如果熵值高(大于給定的閾值),在本發(fā)明得出該詞是真實(shí)的詞的結(jié)論。在一種實(shí)施例中,閾值被設(shè)置為2.3,這是從平均熵減去訓(xùn)練數(shù)據(jù)的最小熵而確定的(見圖8對(duì)訓(xùn)練數(shù)據(jù)的描述)。如果一個(gè)詞被確定為真實(shí)的詞,那么,系統(tǒng)從結(jié)尾猜測(cè)規(guī)則(猜測(cè)結(jié)束規(guī)則,end-guessing rule)庫(530)產(chǎn)生所有可能的詞性。在對(duì)圖8的說明中解釋了結(jié)尾猜測(cè)規(guī)則。通過使用結(jié)尾猜測(cè)規(guī)則集,系統(tǒng)根據(jù)最長(zhǎng)匹配模式產(chǎn)生一個(gè)詞的所有可能的詞性。本發(fā)明從最長(zhǎng)結(jié)尾開始到長(zhǎng)度為1的結(jié)尾(最后一個(gè)字母)在規(guī)則集當(dāng)中查找該單詞的結(jié)尾字母(如果單詞長(zhǎng)度大于7,則最長(zhǎng)結(jié)尾為5個(gè)字母,否則為單詞長(zhǎng)度減3)。如果某個(gè)結(jié)尾在規(guī)則集中存在,則匹配過程停止,系統(tǒng)按照規(guī)則頻率的順序產(chǎn)生該結(jié)尾的所有詞性。例如,猜測(cè)critical為形容詞和名詞,但是形容詞優(yōu)先,因?yàn)樵谟?xùn)練數(shù)據(jù)中tical出現(xiàn)的105次是形容詞而只有4次是名詞。統(tǒng)計(jì)處理所識(shí)別的新詞的例子有accelerometers(名詞),diastolic(形容詞,名詞),kinesiology(名詞)以及ingressed(動(dòng)詞)。
圖8是統(tǒng)計(jì)學(xué)習(xí)過程(510)的流程圖。為了學(xué)習(xí)單詞的三字符組概率,系統(tǒng)使用系統(tǒng)詞典(140),在系統(tǒng)詞典中單詞都是語言中的合法單詞。系統(tǒng)從詞典讀取單詞,并產(chǎn)生該單詞所有可能的屈折變體(511)。系統(tǒng)向產(chǎn)生的詞加上前導(dǎo)和后續(xù)空格(512),并將所述詞保存到數(shù)據(jù)庫(513)中。例如,假設(shè)一個(gè)單詞w是由n字母構(gòu)成的超詞匯單詞c1c2..cn。系統(tǒng)向該單詞加上一個(gè)前導(dǎo)空格b1和一個(gè)后續(xù)空格b2(512),得到b1c1c2..cnb2。該單詞列表包括可從詞典產(chǎn)生的所有合法的詞形。重復(fù)這個(gè)過程,直到詞典中的所有單詞都得到處理(514)。使用所產(chǎn)生的單詞列表,系統(tǒng)學(xué)到兩種知識(shí)三字符組統(tǒng)計(jì)數(shù)據(jù)和詞性規(guī)則。該學(xué)習(xí)過程持續(xù)到單詞列表中的所有單詞都得到處理(519)。
系統(tǒng)通過統(tǒng)計(jì)三字母序列和兩字母序列的頻率來從單詞列表(513)計(jì)算三字符組的概率。系統(tǒng)從單詞列表(513)讀入一個(gè)單詞(515),產(chǎn)生所有可能的三字母序列和兩字母序列,并計(jì)數(shù)它們的頻率(516)。
例如,假設(shè)一個(gè)單詞w=b1c1c2..cnb2由n個(gè)字符和兩個(gè)空格(前導(dǎo)空格和后續(xù)空格)組成。那么,系統(tǒng)產(chǎn)生所有可能的兩字母序列,比如b1c2,c1c2,...,cn-1cn,cnb2,以及所有可能的三字母序列,比如b1c1c2,c1c2c3,...,cn-1cnb2。系統(tǒng)計(jì)數(shù)從單詞列表中的單詞中找到的所有兩字母序列和三字母序列的頻率。
在獲得三字母序列和兩字母序列的頻率之后,系統(tǒng)計(jì)算所有可能三字符組的概率(517)并將統(tǒng)計(jì)結(jié)果保存在數(shù)據(jù)庫(520)中。三字符組的概率,也就是在給出兩個(gè)前導(dǎo)字符c1和c2之后,字母c3出現(xiàn)的概率的計(jì)算如下P(c3|c1c2)=頻率(c1c2c3)/頻率(c1c2)另外,系統(tǒng)還從單詞列表(518)生成詞性猜測(cè)規(guī)則。對(duì)于單詞列表中的所有單詞,產(chǎn)生長(zhǎng)度從1到5的所有可能結(jié)尾連同單詞的詞性。將剩余部分的最小長(zhǎng)度設(shè)定為3。系統(tǒng)計(jì)數(shù)結(jié)尾猜測(cè)規(guī)則的頻率,并在結(jié)尾猜測(cè)規(guī)則庫(530)中保存規(guī)則。
例如,在訓(xùn)練詞典中,單詞ailments被列為復(fù)數(shù)名詞(NNS)。那么,結(jié)尾猜測(cè)規(guī)則發(fā)生器產(chǎn)生長(zhǎng)度從1(s)到5(ments)的所有結(jié)尾及其詞性。也就是,產(chǎn)生下述規(guī)則s-NNS,ts-NNS,...,以及ments-NNS。單詞mounting具有兩個(gè)詞性,也就是名詞(NN)和動(dòng)名詞(VBG)。在這種情況下,每一個(gè)結(jié)尾有兩種詞性,也就是g-NN和g-VBG,ng-NN和ng-VBG,....,以及nting-NN和nting-VBG。下表示出了是如何從訓(xùn)練數(shù)據(jù)產(chǎn)生結(jié)尾猜測(cè)規(guī)則的
NN名詞NNS名詞復(fù)數(shù)形式VBG動(dòng)名詞或者動(dòng)詞的現(xiàn)在分詞VBZ動(dòng)詞的第三人稱單數(shù) JJ形容詞。
圖9是本發(fā)明識(shí)別為自然語言中的單詞的單詞輸出的一個(gè)例子。在圖中的“方法”列表示所用的識(shí)別樣本新詞的機(jī)制,“前綴”方法中的單詞用過程410識(shí)別,“后綴”方法中的單詞用過程430識(shí)別?!扒熬Y+后綴”方法中的單詞用過程410和過程430識(shí)別?!皬?fù)合詞”方法中的單詞用過程450識(shí)別。最后,“熵統(tǒng)計(jì)”方法中的單詞用過程500識(shí)別。也就是,單詞的熵值大于給定的閾值。
使用本發(fā)明的非限制性的例子來識(shí)別文本中的超詞匯單詞中的可能的真實(shí)單詞。使用上述技術(shù),根據(jù)字符三字符組的概率的熵以及英語中的語形學(xué)(形態(tài)學(xué))規(guī)則,進(jìn)行真實(shí)單詞的識(shí)別。本發(fā)明還可根據(jù)詞法信息規(guī)則和單詞的結(jié)尾來產(chǎn)生所識(shí)別的真實(shí)單詞的可能的詞性(POS)。本發(fā)明的實(shí)施例在精度和查全率方面都表現(xiàn)出了高超的性能。在另外的非限制性的實(shí)施例中,本發(fā)明在識(shí)別特殊領(lǐng)域的技術(shù)術(shù)語方面很有用,并成功地被嵌入術(shù)語表提取系統(tǒng)中,術(shù)語表提取系統(tǒng)識(shí)別單單詞或者多單詞術(shù)語項(xiàng)目,并建立領(lǐng)域?qū)S迷~典。在本說明書的啟發(fā)下,其它一些實(shí)施例對(duì)于本領(lǐng)域的普通技術(shù)人員來說是明顯的。這些實(shí)施例也在發(fā)明人所想到的范圍之內(nèi)。
權(quán)利要求
1.一種識(shí)別在詞典數(shù)據(jù)庫中不存在的一個(gè)或者多個(gè)單詞的系統(tǒng),包括一個(gè)或者多個(gè)中央處理單元和一個(gè)或者多個(gè)存儲(chǔ)器,以及從所述詞典數(shù)據(jù)庫獲取有關(guān)詞根的詞根信息的詞根處理,詞根為沒有前綴和后綴的單詞之一;以及一種統(tǒng)計(jì)處理,用于如果在詞典數(shù)據(jù)庫中沒有有效詞根,則檢查該詞根中的一個(gè)或者多個(gè)字符的一個(gè)或者多個(gè)子集,來判斷該詞根為有效單詞的概率。
2.如權(quán)利要求1所述的系統(tǒng),其中,所述概率是所述子集正確地與詞根中一個(gè)或者多個(gè)其它字符相鄰的可能性的量度。
3.如權(quán)利要求2所述的系統(tǒng),其中,所述相鄰字符在所述子集之前。
4.如權(quán)利要求2所述的系統(tǒng),其中,所述相鄰字符在所述子集之后。
5.如權(quán)利要求4所述的系統(tǒng),其中,所述子集和所述相鄰字符構(gòu)成一個(gè)三字符組。
6.如權(quán)利要求2所述的系統(tǒng),其中,通過比較所述序列和所述相鄰字符的串,與各自與相應(yīng)的概率相關(guān)的串的數(shù)據(jù)庫,確定所述概率。
7.如權(quán)利要求6所述的系統(tǒng),其中,所述數(shù)據(jù)庫中的所述串的各自的概率是這樣確定的尋找一個(gè)或者多個(gè)可能的字符串,計(jì)算這些可能的字符串在有效單詞的數(shù)據(jù)庫中出現(xiàn)的頻率。
8.如權(quán)利要求2所述的系統(tǒng),還包括一個(gè)或者多個(gè)定義單詞的詞性的規(guī)則,這些規(guī)則具有規(guī)則概率,規(guī)則概率基于所述規(guī)則正確地適用于有效單詞的數(shù)據(jù)庫的大于一個(gè)閾值的出現(xiàn)頻率。
9.如權(quán)利要求8所述的系統(tǒng),其中,通過所述規(guī)則之一確定詞根的詞性。
10.如權(quán)利要求8所述的系統(tǒng),其中,所述規(guī)則應(yīng)用于所述詞根的結(jié)束。
11.如權(quán)利要求1所述的系統(tǒng),還包括復(fù)合詞處理,將單詞分解為兩個(gè)組成部分,詞根為第二組成部分。
12.如權(quán)利要求10所述的系統(tǒng),其中,所述復(fù)合詞處理還確定所述詞根的詞性。
13.如權(quán)利要求1所述的系統(tǒng),其中,一旦確定了所述單詞是有效單詞,則將該單詞存儲(chǔ)在新詞詞典存儲(chǔ)器中。
14.如權(quán)利要求1所述的系統(tǒng),還包括單詞技術(shù)處理,計(jì)數(shù)單詞在一個(gè)或者多個(gè)文檔中出現(xiàn)的頻率,以確定如果該單詞被確定為有效單詞的話該單詞的重要性。
15.如權(quán)利要求1所述的系統(tǒng),還包括去前綴處理從單詞中去除一個(gè)或者多個(gè)前綴,所述前綴在前綴列表中,該去前綴處理受到一個(gè)或者多個(gè)去前綴規(guī)則的約束,該去前綴處理還獲取有關(guān)被去除的前綴的前綴信息。
16.如權(quán)利要求15所述的系統(tǒng),其中,所述前綴信息從下述中的一個(gè)或者多個(gè)獲取詞典數(shù)據(jù)庫或者前綴列表。
17.如權(quán)利要求1所述的系統(tǒng),還包括去后綴處理從單詞中去除一個(gè)或者多個(gè)后綴,所述后綴在一個(gè)后綴列表中,該去后綴處理受到一個(gè)或者多個(gè)去后綴規(guī)則的約束,該去后綴處理還獲取有關(guān)被去除的后綴的后綴信息。
18.如權(quán)利要求17所述的系統(tǒng),其中,所述后綴信息從下述中的一個(gè)或者多個(gè)獲取詞典數(shù)據(jù)庫或者后綴列表。
19.一種識(shí)別在詞典數(shù)據(jù)庫中不存在的一個(gè)或者多個(gè)單詞的方法,包括以下步驟從所述詞典數(shù)據(jù)庫獲取有關(guān)詞根的詞根信息,詞根為沒有前綴和后綴的單詞之一;以及如果在詞典數(shù)據(jù)庫中沒有有效詞根,則檢查該詞根中的一個(gè)或者多個(gè)字符的一個(gè)或者多個(gè)子集,來判斷該詞根為有效單詞的概率。
20.一種識(shí)別在詞典數(shù)據(jù)庫中不存在的一個(gè)或者多個(gè)單詞的系統(tǒng),包括從所述詞典數(shù)據(jù)庫獲取有關(guān)詞根的詞根信息的裝置,詞根為沒有前綴和后綴的單詞之一;以及如果在詞典數(shù)據(jù)庫中沒有有效詞根,則檢查該詞根中的一個(gè)或者多個(gè)字符的一個(gè)或者多個(gè)子集,來判斷該詞根為有效單詞的概率的裝置。
21.一種存儲(chǔ)有計(jì)算機(jī)程序的計(jì)算機(jī)存儲(chǔ)設(shè)備,所述計(jì)算機(jī)程序執(zhí)行下述步驟從所述詞典數(shù)據(jù)庫獲取有關(guān)詞根的詞根信息,詞根為沒有前綴和后綴的單詞之一;以及如果在詞典數(shù)據(jù)庫中沒有有效詞根,則檢查該詞根中的一個(gè)或者多個(gè)字符的一個(gè)或者多個(gè)子集,來判斷該詞根為有效單詞的概率。
全文摘要
本發(fā)明用于識(shí)別在詞典數(shù)據(jù)庫中不存在的一個(gè)或者多個(gè)單詞。如果沒有獲得有效的(合法的)單詞,則進(jìn)行統(tǒng)計(jì)處理,檢查該單詞中的兩個(gè)或者多個(gè)字符的子集的一個(gè)或者多個(gè)序列,來判斷該單詞為有效(合法)單詞的概率。在另外的實(shí)施例中,本發(fā)明包括去前綴處理、去后綴處理、詞根處理和/或合并處理。
文檔編號(hào)G06F17/27GK1656477SQ03811430
公開日2005年8月17日 申請(qǐng)日期2003年4月21日 優(yōu)先權(quán)日2002年6月17日
發(fā)明者楊加·帕克 申請(qǐng)人:國際商業(yè)機(jī)器公司