用于識(shí)別一種或者多種自然語言中的單詞及其詞性的系統(tǒng)、方法、程序產(chǎn)品和網(wǎng)絡(luò)的制作方法

文檔序號(hào)：6409318閱讀：297來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：用于識(shí)別一種或者多種自然語言中的單詞及其詞性的系統(tǒng)、方法、程序產(chǎn)品和網(wǎng)絡(luò)的制作方法
技術(shù)領(lǐng)域：
本發(fā)明涉及計(jì)算機(jī)文本處理領(lǐng)域。具體地，本發(fā)明涉及自然語言中的可能的真實(shí)單詞及其詞性的識(shí)別。
背景技術(shù)：
當(dāng)前不能期望任何一種詞典能夠包含一種語言的所有可能的單詞，這是由于語言的動(dòng)態(tài)性質(zhì)和人類的創(chuàng)造活動(dòng)。如今，由于新的技術(shù)的發(fā)展比以前更快，這種現(xiàn)象變得更富挑戰(zhàn)性。如果每當(dāng)發(fā)現(xiàn)新詞就手工更新詞典(字典)基本上是不可能的，即使可能的話也需要大量的專家的時(shí)間和努力。
從而，不可避免地，文獻(xiàn)中總是會(huì)存在“超詞匯(out-of-vocabulary)”(在詞典中找不到的詞)。尤其是，許多特定領(lǐng)域特有的技術(shù)詞匯以及新衍生的詞，比如新的復(fù)合詞或者已有的詞(通過添加詞綴產(chǎn)生)的形態(tài)變化，都可能并不存在于給定的詞典中。在大多數(shù)詞典中不存在的真實(shí)單詞的例子比如有autoinjectorelectrocardiography，eyedrop，remanufacturability以及website。
詞典中沒有的單詞會(huì)導(dǎo)致許多問題，尤其是對(duì)于自然語言處理(natural language processing(NLP))系統(tǒng)比如機(jī)器翻譯系統(tǒng)和語法分析程序(句型分析程序)，因?yàn)樵~典是這些應(yīng)用的最為重要的和基本的知識(shí)源。當(dāng)NLP應(yīng)用發(fā)現(xiàn)一個(gè)其詞典不認(rèn)識(shí)的單詞時(shí)，它要么不能處理該文檔，要么猜測(cè)處理該文檔所必要的信息。但是，這種猜測(cè)通常并不很正確，從而系統(tǒng)產(chǎn)生的結(jié)果很差。
已經(jīng)進(jìn)行了很多努力來解決這個(gè)問題，尤其是在POS(詞性)標(biāo)志器(tagger)和語音識(shí)別領(lǐng)域。但是，不同的應(yīng)用是從不同的視角看待超詞匯(out-of-vocabulary(OOV))的問題，并具有不同的目標(biāo)。
對(duì)于POS標(biāo)志器和語法(句型)分析器，它們依賴于單詞的詞法(句法，語法)信息，目標(biāo)是根據(jù)不認(rèn)識(shí)的詞與其相鄰詞共同出現(xiàn)的概率來猜測(cè)OOV在上下文中最為可能的詞性。Dermatas和Kokkinakis根據(jù)只在前一次看見的文本中出現(xiàn)一次的單詞的概率分布，來估計(jì)一個(gè)不認(rèn)識(shí)的單詞具有特定POS標(biāo)記的概率，見″Automatic stochastic tagging of natural language texts″inComputational Linguistics，21(2)，pp 137-164，1995。
更為先進(jìn)的POS猜測(cè)方法使用前導(dǎo)和收尾單詞片斷來判斷不認(rèn)識(shí)的單詞的可能的標(biāo)記。Weischedel等人提出了一種猜測(cè)不認(rèn)識(shí)的單詞的POS方法，該方法在給定了不認(rèn)識(shí)的單詞的大寫特征(capitalization feature)和結(jié)尾的前提下使用不認(rèn)識(shí)的單詞具有特定POS標(biāo)記的概率。見Ralph Weischedel，Marie Meeter，RichardSchwartz，Lance Ramshaw以及Jeff Palmucci的″Coping withambiguity and unknown words through probabilistic models″inComputational Linguistics，19(2)，pp 359-382，1993。
Eric Brill描述了一種規(guī)則系統(tǒng)，其使用結(jié)尾猜測(cè)和更為依賴于形態(tài)的規(guī)則，見″Transformation-Based Error-Driven Learning andNatural Language ProcessingA Case Study in Part of SpeechTagging″in Computational Linguistics，21(4)，pp 10 543-565，1995。
對(duì)于語言識(shí)別系統(tǒng)，OOV單詞是系統(tǒng)詞匯表(詞典)不認(rèn)識(shí)的單詞，或者是識(shí)別器不能識(shí)別的單詞。目標(biāo)是從系統(tǒng)的詞匯表中找到最為接近OOV單詞的單詞(在發(fā)音和語意方面)。
基于n字符組的字符統(tǒng)計(jì)方法已經(jīng)在單詞級(jí)的語言處理中得到使用，比如拼寫檢查、單詞切分。Angell，F(xiàn)reund和Willett描述了一種根據(jù)兩個(gè)串共同擁有的三字符組的數(shù)量來用詞典項(xiàng)目來比較拼寫錯(cuò)誤，使用Dice相似性系數(shù)作為相似性的量度。拼寫錯(cuò)誤的單詞用詞典中與所述錯(cuò)誤拼寫最為配的單詞來取代。見″Automatic SpellingCorrection Using a Trigram Similarity Measure″in InformationProcessing and Management，19(4)，pp255-261，1983。
現(xiàn)有技術(shù)的問題現(xiàn)有技術(shù)中的方法具有至少兩個(gè)問題。
首先，現(xiàn)有技術(shù)不允許識(shí)別和/或標(biāo)識(shí)任何給定自然語言中的有效單詞。例如，一個(gè)單詞的所有形式(形態(tài)變化，和/或衍生詞)不可能都在某個(gè)特定詞典中出現(xiàn)。另外，新詞和/或新創(chuàng)詞不會(huì)出現(xiàn)在詞典數(shù)據(jù)庫中。這個(gè)問題在技術(shù)主題的文章中尤為明顯其中要使用新詞來描述新的技術(shù)或者舊有技術(shù)中的進(jìn)展。
先前的方法開始這個(gè)過程是基于這樣的假設(shè)OOV單詞只是對(duì)系統(tǒng)的詞典來說是不認(rèn)識(shí)的，但是它們可能是語言中的真實(shí)單詞。也就是，這些系統(tǒng)將新詞比如website和無效的詞串比如adkfiedfd或者v3.5a按照相同的方式進(jìn)行處理。現(xiàn)有的工作中沒有人試圖識(shí)別語言中可能的新詞，并提供一種方式來增強(qiáng)現(xiàn)有詞典，從而使得這些詞在將來能夠被適當(dāng)?shù)刈R(shí)別(作為非OOV)。
其次，先前的方法被嵌在應(yīng)用系統(tǒng)中以保護(hù)系統(tǒng)在遇到OOV單詞時(shí)不至于失靈(崩潰)，或者是為了改善系統(tǒng)的性能。還不存在獨(dú)立地自動(dòng)系統(tǒng)來尋找語言中可能的真實(shí)單詞，并獲取這些單詞的詞法信息。
即使先前的方法的目標(biāo)在于解決OOV問題，它們也是針對(duì)特定的應(yīng)用設(shè)計(jì)的。它們根據(jù)這些單詞出現(xiàn)的上下文來猜測(cè)這些單詞的為所述特定應(yīng)用所需的信息。因此，一個(gè)單詞的信息可能隨上下文而不同。
發(fā)明目的本發(fā)明的目的是提出一種系統(tǒng)和方法，用于識(shí)別自然語言文本中的在詞典中不存在的可能的真實(shí)單詞和/或它們的詞性。
本發(fā)明的另一個(gè)目的是一種系統(tǒng)和方法，用于自動(dòng)地或者半自動(dòng)地識(shí)別文本中的新詞，并可以將其添加到現(xiàn)有的詞典中。

發(fā)明內(nèi)容
本發(fā)明是一種系統(tǒng)、方法、程序產(chǎn)品和網(wǎng)絡(luò)，用于識(shí)別詞典數(shù)據(jù)庫中不存在的一個(gè)或者多個(gè)單詞。一個(gè)統(tǒng)計(jì)過程檢查單詞中的兩個(gè)或者多個(gè)字符的子集的一個(gè)或者多個(gè)序列，以確定該詞為有效詞的概率。在優(yōu)選實(shí)施例中，應(yīng)用規(guī)則來確定詞的詞性。
在另外的實(shí)施例中，本發(fā)明包括一個(gè)去前綴處理，一個(gè)去后綴處理，一個(gè)詞根處理，以及/或組合處理。所述去前綴處理從一個(gè)單詞中取出一個(gè)或者多個(gè)前綴，其中，所述前綴最好是在一個(gè)前綴列表中。該去前綴處理最好受到一個(gè)或者多個(gè)去前綴規(guī)則的約束。該去前綴處理還包括有關(guān)被去除的前綴的前綴信息(例如來自詞典數(shù)據(jù)庫或者前綴列表)。所述去后綴處理從單詞中去除一個(gè)或者多個(gè)后綴，其中，所述后綴最好是在一個(gè)后綴列表中。最好，所述去后綴處理受到一個(gè)或者多個(gè)去后綴規(guī)則的約束。該去后綴處理還包括有關(guān)被去除的后綴的后綴信息(例如來自詞典數(shù)據(jù)庫或者后綴列表)。所述詞根處理從詞典數(shù)據(jù)庫獲取有關(guān)詞根的詞根信息。(詞根是去除了前綴和后綴的單詞)。所述組合處理然后判斷所述前綴、詞根和后綴是否能夠組合為由一個(gè)或者多個(gè)組合規(guī)則限定的有效單詞。該組合處理可以，如果存在有效單詞，獲取有效單詞一個(gè)或者多個(gè)詞性，并將詞性連同該有效詞一起存儲(chǔ)在詞典數(shù)據(jù)庫中(或者其它存儲(chǔ)位置)。

從下面結(jié)合附圖對(duì)優(yōu)選實(shí)施例進(jìn)行的非限制性的說明可以更好地理解本發(fā)明的前述以及其它目的、特征和優(yōu)點(diǎn)。附圖中圖1是使用本發(fā)明的系統(tǒng)的優(yōu)選實(shí)施例的框圖；圖2是總體詞典增強(qiáng)方法的流程圖；圖3是包括前綴處理、后綴處理和復(fù)合詞處理的語言學(xué)處理的流程圖；圖4是用在語言學(xué)處理中的前綴處理的流程圖；
圖5是用在語言學(xué)處理中的后綴處理的流程圖；圖6是用在語言學(xué)處理中的復(fù)合詞處理的流程圖；圖7是統(tǒng)計(jì)處理的流程圖；圖8是統(tǒng)計(jì)學(xué)習(xí)處理的流程圖；圖9是被本發(fā)明識(shí)別為自然語言中的單詞的單詞輸出的一個(gè)例子。
具體實(shí)施例方式
本發(fā)明是一種用于從文本中的超詞匯單詞中識(shí)別可能的真實(shí)單詞的系統(tǒng)、方法和程序。在另外的實(shí)施例中，則是找出所識(shí)別的單詞的詞性，以增強(qiáng)現(xiàn)有的詞典。與一般的超詞匯處理系統(tǒng)不同，本發(fā)明作為優(yōu)選實(shí)施例提出基于單詞中的三字符組序列的概率的熵(平均信息量，entropy)模型。
被識(shí)別為真實(shí)單詞的單詞可以被加入計(jì)算機(jī)系統(tǒng)的現(xiàn)有詞典中，以便計(jì)算機(jī)應(yīng)用程序能夠識(shí)別超詞匯單詞并在將來正確處理這些單詞。本發(fā)明可以集成到許多語言處理系統(tǒng)中，比如術(shù)語提取系統(tǒng)、機(jī)器翻譯系統(tǒng)以及語音識(shí)別系統(tǒng)。另外，這些單詞可以由詞典編纂者用來更新和/或增強(qiáng)出版的詞典。本發(fā)明可以給詞典編纂者提供新詞的列表，從而減少他們的工作量。本發(fā)明不僅可以應(yīng)用于英語，而且可以應(yīng)用于其它語言，包括但不限于法語、德語、西班牙語等。
圖1圖示了由本發(fā)明執(zhí)行的總體處理。本發(fā)明的詞典增強(qiáng)系統(tǒng)(100)由任何已知的計(jì)算機(jī)系統(tǒng)運(yùn)行。它從硬盤或者網(wǎng)絡(luò)(例如萬維網(wǎng)、內(nèi)聯(lián)網(wǎng)、公司網(wǎng)絡(luò)等)讀入文檔(120)，對(duì)于文檔中的每一個(gè)單詞，在系統(tǒng)所使用的在線詞典(140)中查找該單詞。(在線詞典是公知的，包括任何以可檢索的方式存儲(chǔ)單詞的存儲(chǔ)設(shè)備)。如果該單詞在詞典中不存在，則本發(fā)明檢查該單詞是否有可能是目標(biāo)語言中的真實(shí)單詞。這里，目標(biāo)語言不僅包括一般所知的自然語言，也包括這些語言的技術(shù)變種，比如計(jì)算機(jī)編程/維修手冊(cè)或者醫(yī)學(xué)論文。如果它是一個(gè)可能的真實(shí)單詞，則該系統(tǒng)在一個(gè)數(shù)據(jù)庫(160)中保存該單詞及其詞性。所述可能的真實(shí)單詞可以存儲(chǔ)在新詞數(shù)據(jù)庫(160)中、在線詞典(140)中或者其它任何類型的已知存儲(chǔ)位置。
其它計(jì)算機(jī)應(yīng)用(200)隨后可以使用所述新詞數(shù)據(jù)庫來處理文檔或者語音(220)。這些應(yīng)用是公知的，包括語法(句型)分析程序、機(jī)器翻譯系統(tǒng)以及語音識(shí)別系統(tǒng)。該數(shù)據(jù)庫還可以由辭典編纂者(300)用來出版和/或修訂人類使用的詞典(320)。
圖2圖示了詞典增強(qiáng)處理(100)的總體流程圖。當(dāng)在系統(tǒng)中讀入文檔(120)時(shí)(例如使用標(biāo)準(zhǔn)技術(shù))，系統(tǒng)從文檔獲取一個(gè)單詞，并在系統(tǒng)詞典(140)中查找該單詞(110)。如果該單詞在詞典(130)中存在，則不需要進(jìn)一步處理。但是，如果該單詞在詞典中不存在，則系統(tǒng)檢查該單詞是否由字母組成(150)。如果該單詞包含一個(gè)或者多個(gè)數(shù)字或者特殊字符，則系統(tǒng)忽略該詞。
如果該詞僅由字母組成，則系統(tǒng)首先對(duì)其應(yīng)用語言學(xué)處理(400)以檢查該詞是否是新的衍生詞(也就是現(xiàn)有單詞的形態(tài)變化，和/或復(fù)合詞)。如果該處理的結(jié)果是肯定的(170)，則系統(tǒng)可選地將該詞及其詞法信息(190)保存到新詞數(shù)據(jù)庫(160)或者其它存儲(chǔ)位置中。如果該處理的結(jié)果是否定的，則在優(yōu)選實(shí)施例中，該系統(tǒng)對(duì)其應(yīng)用統(tǒng)計(jì)學(xué)處理(500)。如果處理(500)將該詞識(shí)別為新詞(180)，則將該詞及其詞法信息(190)保存到所述新詞數(shù)據(jù)庫(160)中。重復(fù)所述處理，直到文檔中沒有剩下單詞。
圖3圖示了語言學(xué)處理(400)的總體流程。該處理用于識(shí)別新衍生詞。衍生詞是詞典已知的詞的形態(tài)變化，這種形態(tài)變化多數(shù)是通過添加詞綴，例如在單詞的開頭添加前綴，或者在單詞的末尾添加后綴，以及/或者通過復(fù)合的手段，也就是將兩個(gè)或者多個(gè)單詞寫為一個(gè)單詞。首先，系統(tǒng)檢查該單詞是否包括一個(gè)或者多個(gè)前綴和詞根(410)。如果前綴處理(410)的結(jié)果是肯定的，則該單詞被視為一個(gè)新詞，過程停止。如果前綴處理的結(jié)果是否定的(420)，則系統(tǒng)檢查該單詞是構(gòu)包括一個(gè)或者多個(gè)后綴和詞根(430)。如果后綴處理的結(jié)果是肯定的，則該單詞被視為新詞，過程停止(440)。如果后綴處理(440)的結(jié)果是否定的，則系統(tǒng)運(yùn)行復(fù)合詞處理(450)，看該單詞是否包括兩個(gè)內(nèi)容詞。如果復(fù)合詞處理的結(jié)果是肯定的，則該單詞被視為新詞，過程停止。注意，本發(fā)明可以是一個(gè)或者多個(gè)前綴處理(410)、后綴處理(430)和/或復(fù)合詞處理(450)單獨(dú)作用或者與一個(gè)或者多個(gè)其它處理結(jié)合作用。
圖4圖示了用在語言學(xué)處理(400)中的前綴處理(410)的流程圖。對(duì)有前綴的單詞的該處理(410)如下所述。
首先，系統(tǒng)檢查是否有前綴列表(417)中的前綴出現(xiàn)在該單詞的開頭(411)。如果單詞包含一個(gè)前綴(412)，則系統(tǒng)將該前綴從單詞上砍掉(413)(分解單詞)并在詞典中查找其余部分(詞根)(414)。在本發(fā)明的一種優(yōu)選實(shí)施例中，將詞根的最小長(zhǎng)度設(shè)置為兩個(gè)字符。如果詞典包含該詞根(415)，則將該超詞匯詞視為真實(shí)的詞，并且由過程410處理的詞繼承該詞根的詞法信息(416)。例如。前綴處理(410)發(fā)現(xiàn)了antiasthmatic(副詞)，autoinjector(名詞)，remanufactured(動(dòng)詞的過去分詞)，streoselectivity(名詞)。
圖5圖示了用在語言學(xué)處理(400)中的后綴處理(430)的流程圖。后綴處理如下所述首先，系統(tǒng)檢查是否有后綴數(shù)據(jù)庫(438)中的后綴出現(xiàn)在單詞的末尾(431)。在一種優(yōu)選實(shí)施例中，本發(fā)明應(yīng)用針對(duì)后綴(438)設(shè)置的規(guī)則，該規(guī)則描述一個(gè)詞根具有特定后綴的先決條件POS(詞性)，以及所得到的詞性。
用在優(yōu)選實(shí)施例中的后綴規(guī)則結(jié)構(gòu)的一個(gè)非限制性的例子如下。后綴able的規(guī)則是[able，{VB＝＞JJ}，{NN＝＞JJ}]。該規(guī)則的意思是，動(dòng)詞(VB)或者名詞(NN)可以在單詞的末尾具有后綴able，所得到的詞的詞性是形容詞(JJ)。如果一個(gè)單詞包含一個(gè)后綴(432)，則系統(tǒng)將該后綴去除(433)，在詞典中查找詞根(435)。如果在詞典中找到了詞根(436)并且其具有先決條件POS之一，則該詞被視為真實(shí)的單詞并具有該規(guī)則所指的結(jié)果POS(437)。
但是，如果該詞根在詞典中不存在，則系統(tǒng)進(jìn)行詞根形式恢復(fù)(434)。當(dāng)向一個(gè)單詞添加詞綴時(shí)，詞根的拼寫可能發(fā)生變化。例如，在英語中，以不發(fā)音的e結(jié)尾的單詞通常在接以元音開頭的后綴時(shí)會(huì)舍掉e。例如，當(dāng)系統(tǒng)讀入browsable時(shí)，它分離詞綴able，獲得詞根brows。系統(tǒng)在詞典中查找brows，但是未能成功。那么，系統(tǒng)執(zhí)行詞根形式恢復(fù)處理，獲得原始形式browse。
對(duì)于詞根形式恢復(fù)，在一個(gè)優(yōu)選實(shí)施例中，本發(fā)明應(yīng)用下述規(guī)則(1)如果詞根的最后兩個(gè)字母是同一個(gè)輔音字母，則刪除一個(gè)；(2)如果詞根的最后一個(gè)字母是i，則將其變?yōu)閥；(3)如果詞根的最后一個(gè)字母是輔音字母(但是不是第一種情況)，則添加一個(gè)e。
如果在詞典中找到了恢復(fù)得到的詞根(436)，并且其具有前提條件POS之一，則該單詞被視為真實(shí)單詞，則其具有該規(guī)則確定的結(jié)果POS(437)。這種情況的例子包括browsable(形容詞)，migranious(形容詞)，和oxidizability(名詞)。
某些詞，例如remanufacturability，包括一個(gè)或者多個(gè)前綴、一個(gè)或者多個(gè)后綴以及詞根。在這種情況下，該單詞經(jīng)過上述的前綴處理和后綴處理。
圖6圖示了用在語言學(xué)處理中的復(fù)合詞處理的流程圖。如果一個(gè)詞在前綴處理和后綴處理中的結(jié)果都是否定的，則考慮對(duì)其進(jìn)行復(fù)合詞處理(450)。系統(tǒng)將給定的超詞匯單詞分解為兩個(gè)組成部分(453)包括從第一字母到斷點(diǎn)的字母的第一組成部分(第一詞素)，以及包括從斷點(diǎn)+1到單詞末尾的字母的第二組成部分(第二詞素)。初始斷點(diǎn)為3(451)。如果在詞典中找不到第一組成部分(455)，則系統(tǒng)增大所述斷點(diǎn)(459)，重復(fù)該處理直到第二組成部分中的字母數(shù)量小于等于2(452)。
如果詞典認(rèn)識(shí)第一組成部分(455)，則在詞典中查找第二組成部分(456)。如果詞典也認(rèn)識(shí)第二組成部分，則系統(tǒng)檢查所述兩個(gè)組成部分的組合是否合法?？赡艿膯卧~組合有名詞+名詞以及名詞加動(dòng)詞的分詞形式。如果組合是合法的，則將該超詞匯詞視為真實(shí)的單詞，并具有第二組成部分的詞性(459)。復(fù)合詞的例子包括airbreathing(名詞，動(dòng)名詞)，eyedrops(名詞)，photophobia(名詞)以及websire(名詞)。
圖7圖示了優(yōu)選的整個(gè)統(tǒng)計(jì)處理(500)的流程圖。該過程用于識(shí)別非衍生的新詞。非衍生的新詞的意思是所述詞不能通過對(duì)語言的現(xiàn)有單詞應(yīng)用衍生(或者構(gòu)詞)規(guī)則而產(chǎn)生。許多特定領(lǐng)域的技術(shù)術(shù)語屬于這一類。人類非常容易成功地猜出一個(gè)以前從未見過的詞是否是可能的真實(shí)單詞，即使該單詞并非由已知的單詞構(gòu)成。在一個(gè)實(shí)施例中，假設(shè)在以下情況下人類可以斷定一個(gè)詞是語言中的可能詞匯該詞中的字符序列看起來是很有可能的，并且發(fā)音自然。本發(fā)明將非衍生新詞的識(shí)別建立在此假設(shè)的基礎(chǔ)之上。
在本發(fā)明中，如果字符串中的每一個(gè)字符都可能與其相鄰字符同時(shí)出現(xiàn)，則將字母序列視為可能的真實(shí)單詞。(字母/字符與相鄰字符/字母組合而成的序列被稱為一個(gè)字符串)。相鄰字母/字符可以是任意數(shù)量的前導(dǎo)或者尾隨字符。這種方法系基于語言的可預(yù)測(cè)性當(dāng)知道前導(dǎo)或者尾隨的n個(gè)字母時(shí)能在多大程度上預(yù)測(cè)文本的下一個(gè)字母。在優(yōu)選實(shí)施例中，將一個(gè)字符的相鄰字符定義為兩個(gè)前導(dǎo)字符。也就是，在已經(jīng)看到了兩個(gè)前導(dǎo)字符的前提下，如果單詞中的字符在其位置出現(xiàn)的機(jī)會(huì)很高(也就是三字符組模型，這里，字符串是三個(gè)字符或者說三字符組)，則該單詞被視為真實(shí)單詞。
該模型有兩種模式學(xué)習(xí)模式(510)和應(yīng)用模式(550，560)。在學(xué)習(xí)模式，系統(tǒng)從系統(tǒng)詞典(140)學(xué)習(xí)字符三字符組統(tǒng)計(jì)結(jié)果的概率，并將三字符組統(tǒng)計(jì)結(jié)果保存在數(shù)據(jù)庫中(520)。學(xué)習(xí)模式還從訓(xùn)練數(shù)據(jù)產(chǎn)生基于單詞結(jié)尾的詞性猜測(cè)規(guī)則(530)。在應(yīng)用模式中，當(dāng)系統(tǒng)獲取一個(gè)超詞匯單詞(540)時(shí)，系統(tǒng)計(jì)算該單詞中所有字符三字符組的概率的熵(entropy，平均信息量)。
一個(gè)語言模型的熵是信息的預(yù)期值。熵是模型對(duì)未來的不確定性的量度。如果估計(jì)的概率分布接近均勻的，則熵增加。本發(fā)明提出了一種模型，其中，當(dāng)提供一個(gè)超詞匯單詞(一個(gè)或者多個(gè)字符序列或者單詞序列)時(shí)，該模型能夠根據(jù)其統(tǒng)計(jì)結(jié)果判斷該單詞序列是否會(huì)是該語言中的可能的真實(shí)單詞。也就是，一個(gè)單詞是具有較強(qiáng)的內(nèi)部統(tǒng)計(jì)效應(yīng)的字母的聚合組。
假設(shè)一個(gè)單詞w由n個(gè)字符組成，也就是w＝c1...cn。加上一個(gè)前導(dǎo)空格和一個(gè)結(jié)尾空格來估計(jì)三字符組概率(在圖8的說明中更詳細(xì)地說明)，使得w＝c0c1...cncn+1。單詞w的熵H(w)的計(jì)算如下H(w)=-Σi=2n+1P(ci|ci-1,ci-2)log2P(ci|ci-1,ci-2)]]>在一個(gè)優(yōu)選實(shí)施例中，如果熵值高(大于給定的閾值)，在本發(fā)明得出該詞是真實(shí)的詞的結(jié)論。在一種實(shí)施例中，閾值被設(shè)置為2.3，這是從平均熵減去訓(xùn)練數(shù)據(jù)的最小熵而確定的(見圖8對(duì)訓(xùn)練數(shù)據(jù)的描述)。如果一個(gè)詞被確定為真實(shí)的詞，那么，系統(tǒng)從結(jié)尾猜測(cè)規(guī)則(猜測(cè)結(jié)束規(guī)則，end-guessing rule)庫(530)產(chǎn)生所有可能的詞性。在對(duì)圖8的說明中解釋了結(jié)尾猜測(cè)規(guī)則。通過使用結(jié)尾猜測(cè)規(guī)則集，系統(tǒng)根據(jù)最長(zhǎng)匹配模式產(chǎn)生一個(gè)詞的所有可能的詞性。本發(fā)明從最長(zhǎng)結(jié)尾開始到長(zhǎng)度為1的結(jié)尾(最后一個(gè)字母)在規(guī)則集當(dāng)中查找該單詞的結(jié)尾字母(如果單詞長(zhǎng)度大于7，則最長(zhǎng)結(jié)尾為5個(gè)字母，否則為單詞長(zhǎng)度減3)。如果某個(gè)結(jié)尾在規(guī)則集中存在，則匹配過程停止，系統(tǒng)按照規(guī)則頻率的順序產(chǎn)生該結(jié)尾的所有詞性。例如，猜測(cè)critical為形容詞和名詞，但是形容詞優(yōu)先，因?yàn)樵谟?xùn)練數(shù)據(jù)中tical出現(xiàn)的105次是形容詞而只有4次是名詞。統(tǒng)計(jì)處理所識(shí)別的新詞的例子有accelerometers(名詞)，diastolic(形容詞，名詞)，kinesiology(名詞)以及ingressed(動(dòng)詞)。
圖8是統(tǒng)計(jì)學(xué)習(xí)過程(510)的流程圖。為了學(xué)習(xí)單詞的三字符組概率，系統(tǒng)使用系統(tǒng)詞典(140)，在系統(tǒng)詞典中單詞都是語言中的合法單詞。系統(tǒng)從詞典讀取單詞，并產(chǎn)生該單詞所有可能的屈折變體(511)。系統(tǒng)向產(chǎn)生的詞加上前導(dǎo)和后續(xù)空格(512)，并將所述詞保存到數(shù)據(jù)庫(513)中。例如，假設(shè)一個(gè)單詞w是由n字母構(gòu)成的超詞匯單詞c1c2..cn。系統(tǒng)向該單詞加上一個(gè)前導(dǎo)空格b1和一個(gè)后續(xù)空格b2(512)，得到b1c1c2..cnb2。該單詞列表包括可從詞典產(chǎn)生的所有合法的詞形。重復(fù)這個(gè)過程，直到詞典中的所有單詞都得到處理(514)。使用所產(chǎn)生的單詞列表，系統(tǒng)學(xué)到兩種知識(shí)三字符組統(tǒng)計(jì)數(shù)據(jù)和詞性規(guī)則。該學(xué)習(xí)過程持續(xù)到單詞列表中的所有單詞都得到處理(519)。
系統(tǒng)通過統(tǒng)計(jì)三字母序列和兩字母序列的頻率來從單詞列表(513)計(jì)算三字符組的概率。系統(tǒng)從單詞列表(513)讀入一個(gè)單詞(515)，產(chǎn)生所有可能的三字母序列和兩字母序列，并計(jì)數(shù)它們的頻率(516)。
例如，假設(shè)一個(gè)單詞w＝b1c1c2..cnb2由n個(gè)字符和兩個(gè)空格(前導(dǎo)空格和后續(xù)空格)組成。那么，系統(tǒng)產(chǎn)生所有可能的兩字母序列，比如b1c2，c1c2，...，cn-1cn，cnb2，以及所有可能的三字母序列，比如b1c1c2，c1c2c3，...，cn-1cnb2。系統(tǒng)計(jì)數(shù)從單詞列表中的單詞中找到的所有兩字母序列和三字母序列的頻率。
在獲得三字母序列和兩字母序列的頻率之后，系統(tǒng)計(jì)算所有可能三字符組的概率(517)并將統(tǒng)計(jì)結(jié)果保存在數(shù)據(jù)庫(520)中。三字符組的概率，也就是在給出兩個(gè)前導(dǎo)字符c1和c2之后，字母c3出現(xiàn)的概率的計(jì)算如下P(c3|c1c2)＝頻率(c1c2c3)/頻率(c1c2)另外，系統(tǒng)還從單詞列表(518)生成詞性猜測(cè)規(guī)則。對(duì)于單詞列表中的所有單詞，產(chǎn)生長(zhǎng)度從1到5的所有可能結(jié)尾連同單詞的詞性。將剩余部分的最小長(zhǎng)度設(shè)定為3。系統(tǒng)計(jì)數(shù)結(jié)尾猜測(cè)規(guī)則的頻率，并在結(jié)尾猜測(cè)規(guī)則庫(530)中保存規(guī)則。
例如，在訓(xùn)練詞典中，單詞ailments被列為復(fù)數(shù)名詞(NNS)。那么，結(jié)尾猜測(cè)規(guī)則發(fā)生器產(chǎn)生長(zhǎng)度從1(s)到5(ments)的所有結(jié)尾及其詞性。也就是，產(chǎn)生下述規(guī)則s-NNS，ts-NNS，...，以及ments-NNS。單詞mounting具有兩個(gè)詞性，也就是名詞(NN)和動(dòng)名詞(VBG)。在這種情況下，每一個(gè)結(jié)尾有兩種詞性，也就是g-NN和g-VBG，ng-NN和ng-VBG，....，以及nting-NN和nting-VBG。下表示出了是如何從訓(xùn)練數(shù)據(jù)產(chǎn)生結(jié)尾猜測(cè)規(guī)則的

NN名詞NNS名詞復(fù)數(shù)形式VBG動(dòng)名詞或者動(dòng)詞的現(xiàn)在分詞VBZ動(dòng)詞的第三人稱單數(shù) JJ形容詞。
圖9是本發(fā)明識(shí)別為自然語言中的單詞的單詞輸出的一個(gè)例子。在圖中的“方法”列表示所用的識(shí)別樣本新詞的機(jī)制，“前綴”方法中的單詞用過程410識(shí)別，“后綴”方法中的單詞用過程430識(shí)別?！扒熬Y+后綴”方法中的單詞用過程410和過程430識(shí)別?！皬?fù)合詞”方法中的單詞用過程450識(shí)別。最后，“熵統(tǒng)計(jì)”方法中的單詞用過程500識(shí)別。也就是，單詞的熵值大于給定的閾值。
使用本發(fā)明的非限制性的例子來識(shí)別文本中的超詞匯單詞中的可能的真實(shí)單詞。使用上述技術(shù)，根據(jù)字符三字符組的概率的熵以及英語中的語形學(xué)(形態(tài)學(xué))規(guī)則，進(jìn)行真實(shí)單詞的識(shí)別。本發(fā)明還可根據(jù)詞法信息規(guī)則和單詞的結(jié)尾來產(chǎn)生所識(shí)別的真實(shí)單詞的可能的詞性(POS)。本發(fā)明的實(shí)施例在精度和查全率方面都表現(xiàn)出了高超的性能。在另外的非限制性的實(shí)施例中，本發(fā)明在識(shí)別特殊領(lǐng)域的技術(shù)術(shù)語方面很有用，并成功地被嵌入術(shù)語表提取系統(tǒng)中，術(shù)語表提取系統(tǒng)識(shí)別單單詞或者多單詞術(shù)語項(xiàng)目，并建立領(lǐng)域?qū)Ｓ迷~典。在本說明書的啟發(fā)下，其它一些實(shí)施例對(duì)于本領(lǐng)域的普通技術(shù)人員來說是明顯的。這些實(shí)施例也在發(fā)明人所想到的范圍之內(nèi)。
權(quán)利要求
1.一種識(shí)別在詞典數(shù)據(jù)庫中不存在的一個(gè)或者多個(gè)單詞的系統(tǒng)，包括一個(gè)或者多個(gè)中央處理單元和一個(gè)或者多個(gè)存儲(chǔ)器，以及從所述詞典數(shù)據(jù)庫獲取有關(guān)詞根的詞根信息的詞根處理，詞根為沒有前綴和后綴的單詞之一；以及一種統(tǒng)計(jì)處理，用于如果在詞典數(shù)據(jù)庫中沒有有效詞根，則檢查該詞根中的一個(gè)或者多個(gè)字符的一個(gè)或者多個(gè)子集，來判斷該詞根為有效單詞的概率。
2.如權(quán)利要求1所述的系統(tǒng)，其中，所述概率是所述子集正確地與詞根中一個(gè)或者多個(gè)其它字符相鄰的可能性的量度。
3.如權(quán)利要求2所述的系統(tǒng)，其中，所述相鄰字符在所述子集之前。
4.如權(quán)利要求2所述的系統(tǒng)，其中，所述相鄰字符在所述子集之后。
5.如權(quán)利要求4所述的系統(tǒng)，其中，所述子集和所述相鄰字符構(gòu)成一個(gè)三字符組。
6.如權(quán)利要求2所述的系統(tǒng)，其中，通過比較所述序列和所述相鄰字符的串，與各自與相應(yīng)的概率相關(guān)的串的數(shù)據(jù)庫，確定所述概率。
7.如權(quán)利要求6所述的系統(tǒng)，其中，所述數(shù)據(jù)庫中的所述串的各自的概率是這樣確定的尋找一個(gè)或者多個(gè)可能的字符串，計(jì)算這些可能的字符串在有效單詞的數(shù)據(jù)庫中出現(xiàn)的頻率。
8.如權(quán)利要求2所述的系統(tǒng)，還包括一個(gè)或者多個(gè)定義單詞的詞性的規(guī)則，這些規(guī)則具有規(guī)則概率，規(guī)則概率基于所述規(guī)則正確地適用于有效單詞的數(shù)據(jù)庫的大于一個(gè)閾值的出現(xiàn)頻率。
9.如權(quán)利要求8所述的系統(tǒng)，其中，通過所述規(guī)則之一確定詞根的詞性。
10.如權(quán)利要求8所述的系統(tǒng)，其中，所述規(guī)則應(yīng)用于所述詞根的結(jié)束。
11.如權(quán)利要求1所述的系統(tǒng)，還包括復(fù)合詞處理，將單詞分解為兩個(gè)組成部分，詞根為第二組成部分。
12.如權(quán)利要求10所述的系統(tǒng)，其中，所述復(fù)合詞處理還確定所述詞根的詞性。
13.如權(quán)利要求1所述的系統(tǒng)，其中，一旦確定了所述單詞是有效單詞，則將該單詞存儲(chǔ)在新詞詞典存儲(chǔ)器中。
14.如權(quán)利要求1所述的系統(tǒng)，還包括單詞技術(shù)處理，計(jì)數(shù)單詞在一個(gè)或者多個(gè)文檔中出現(xiàn)的頻率，以確定如果該單詞被確定為有效單詞的話該單詞的重要性。
15.如權(quán)利要求1所述的系統(tǒng)，還包括去前綴處理從單詞中去除一個(gè)或者多個(gè)前綴，所述前綴在前綴列表中，該去前綴處理受到一個(gè)或者多個(gè)去前綴規(guī)則的約束，該去前綴處理還獲取有關(guān)被去除的前綴的前綴信息。
16.如權(quán)利要求15所述的系統(tǒng)，其中，所述前綴信息從下述中的一個(gè)或者多個(gè)獲取詞典數(shù)據(jù)庫或者前綴列表。
17.如權(quán)利要求1所述的系統(tǒng)，還包括去后綴處理從單詞中去除一個(gè)或者多個(gè)后綴，所述后綴在一個(gè)后綴列表中，該去后綴處理受到一個(gè)或者多個(gè)去后綴規(guī)則的約束，該去后綴處理還獲取有關(guān)被去除的后綴的后綴信息。
18.如權(quán)利要求17所述的系統(tǒng)，其中，所述后綴信息從下述中的一個(gè)或者多個(gè)獲取詞典數(shù)據(jù)庫或者后綴列表。
19.一種識(shí)別在詞典數(shù)據(jù)庫中不存在的一個(gè)或者多個(gè)單詞的方法，包括以下步驟從所述詞典數(shù)據(jù)庫獲取有關(guān)詞根的詞根信息，詞根為沒有前綴和后綴的單詞之一；以及如果在詞典數(shù)據(jù)庫中沒有有效詞根，則檢查該詞根中的一個(gè)或者多個(gè)字符的一個(gè)或者多個(gè)子集，來判斷該詞根為有效單詞的概率。
20.一種識(shí)別在詞典數(shù)據(jù)庫中不存在的一個(gè)或者多個(gè)單詞的系統(tǒng)，包括從所述詞典數(shù)據(jù)庫獲取有關(guān)詞根的詞根信息的裝置，詞根為沒有前綴和后綴的單詞之一；以及如果在詞典數(shù)據(jù)庫中沒有有效詞根，則檢查該詞根中的一個(gè)或者多個(gè)字符的一個(gè)或者多個(gè)子集，來判斷該詞根為有效單詞的概率的裝置。
21.一種存儲(chǔ)有計(jì)算機(jī)程序的計(jì)算機(jī)存儲(chǔ)設(shè)備，所述計(jì)算機(jī)程序執(zhí)行下述步驟從所述詞典數(shù)據(jù)庫獲取有關(guān)詞根的詞根信息，詞根為沒有前綴和后綴的單詞之一；以及如果在詞典數(shù)據(jù)庫中沒有有效詞根，則檢查該詞根中的一個(gè)或者多個(gè)字符的一個(gè)或者多個(gè)子集，來判斷該詞根為有效單詞的概率。
全文摘要
本發(fā)明用于識(shí)別在詞典數(shù)據(jù)庫中不存在的一個(gè)或者多個(gè)單詞。如果沒有獲得有效的(合法的)單詞，則進(jìn)行統(tǒng)計(jì)處理，檢查該單詞中的兩個(gè)或者多個(gè)字符的子集的一個(gè)或者多個(gè)序列，來判斷該單詞為有效(合法)單詞的概率。在另外的實(shí)施例中，本發(fā)明包括去前綴處理、去后綴處理、詞根處理和/或合并處理。
文檔編號(hào)G06F17/27GK1656477SQ03811430
公開日2005年8月17日申請(qǐng)日期2003年4月21日優(yōu)先權(quán)日2002年6月17日
發(fā)明者楊加·帕克申請(qǐng)人:國際商業(yè)機(jī)器公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：楊加.帕克
技術(shù)所有人：國際商業(yè)機(jī)器公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家

如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

cnn用于自然語言處理相關(guān)技術(shù)

自然語言識(shí)別相關(guān)技術(shù)

自然語言處理相關(guān)技術(shù)

自然語言相關(guān)技術(shù)

python自然語言處理相關(guān)技術(shù)

自然語言理解相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于識(shí)別一種或者多種自然語言中的單詞及其詞性的系統(tǒng)、方法、程序產(chǎn)品和網(wǎng)絡(luò)的制作方法

用于識(shí)別一種或者多種自然語言中的單詞及其詞性的系統(tǒng)、方法、程序產(chǎn)品和網(wǎng)絡(luò)的制作方法