自然語言處理的本體驅(qū)動詞典生成和含糊解決系統(tǒng)和方法
【專利摘要】公開了自然語言處理的本體驅(qū)動詞典生成和含糊解決系統(tǒng)和方法。用于自然語言處理含糊解決的計算機實現(xiàn)的方法和系統(tǒng)包括存儲規(guī)定一組語法規(guī)則的本體。檢索包括要處理的至少一個當(dāng)前詞的短語。通過根據(jù)所述本體可能的本體類來注釋短語中的當(dāng)前詞。檢索與可能的本體類相關(guān)聯(lián)的任何本體規(guī)則。基于本體規(guī)則而排除本體類。留存的可能本體類被確定是當(dāng)前詞的準(zhǔn)確本體類。在本公開內(nèi)容的另一方面,本體存儲在計算機存儲器中,該本體具有多個本體分類和詞實例,每個詞實例都與本體分類中的至少一個相關(guān)聯(lián)。檢索屬于選擇的本體分類的所有詞實例。
【專利說明】自然語言處理的本體驅(qū)動詞典生成和含糊解決系統(tǒng)和方法
【技術(shù)領(lǐng)域】
[0001]本公開總體上涉及語言數(shù)據(jù)的數(shù)據(jù)處理,而且尤其涉及本體驅(qū)動的自然語言處理。
【背景技術(shù)】
[0002]自然語言處理利用軟件來分析并理解人類語言。理解人類語言需要知道一個詞或短語代表什么,以及如何以有意義的方式把概念鏈接到一起。其中實現(xiàn)了這個目的的一種方法是基于詞典的注釋。詞典準(zhǔn)備有詞的列表,包括常見的詞性,例如名詞、動詞、連詞等。然后,詞典被用于注釋要被處理的短語中的每個詞。隨后,必須進行后期處理,以便通過利用語法規(guī)則來排除冗余的注釋。因為語言中的大量可能語法規(guī)則,可能需要對每個詞應(yīng)用幾百或者幾千個規(guī)則。
【發(fā)明內(nèi)容】
[0003]在本公開的一方面中公開了一種用于自然語言處理含糊解決的計算機實現(xiàn)的系統(tǒng)和方法。該系統(tǒng)和方法包括在計算機存儲器中存儲規(guī)定一組語法規(guī)則的本體。利用計算機處理器,檢索包括要處理的至少一個當(dāng)前詞的短語。通過短語中的當(dāng)前詞根據(jù)所述本體所屬的可能本體類來注釋所述當(dāng)前詞。利用處理器,檢索與當(dāng)前詞所屬的可能本體類相關(guān)聯(lián)的任何本體規(guī)則?;谒霰倔w規(guī)則來排除可能的本體類。留存的可能本體類被確定是當(dāng)前詞的準(zhǔn)確本體類。
[0004]在本公開的另一方面中,公開了一種用于從選擇的本體分類生成詞典以便在自然語言處理中使用的計算機實現(xiàn)的系統(tǒng)和方法。利用計算機處理器接收從選擇的本體分類生成詞典的請求。利用計算機處理器檢索屬于選擇的本體分類的所有詞實例并匯編到列表中。
[0005]以上僅僅概述了本公開的一種或多種實施例的特征和技術(shù)優(yōu)點,以便可以更好地理解以下具體描述。本公開的附加特征與優(yōu)點將在下文中描述,這些可以構(gòu)成本申請權(quán)利要求的主題。
【專利附圖】
【附圖說明】
[0006]本公開參考附圖在以下具體描述中進一步描述,附圖中:
[0007]圖1是說明性自然語言處理含糊解決和基于本體的詞典生成器系統(tǒng)的高級表示;
[0008]圖2A說明了自然語言處理含糊解決對一個例子含糊詞的效果;
[0009]圖2B繼續(xù)說明自然語言處理含糊解決對圖2A的例子含糊詞的效果;
[0010]圖2C繼續(xù)說明自然語言處理含糊解決對圖2A的例子含糊詞的效果;
[0011]圖3說明了代表性本體庫;
[0012]圖4說明了用于自然語言處理含糊解決的優(yōu)選步驟序列;
[0013]圖5說明了用于處理含糊解決的自圖4的繼續(xù)步驟序列;以及[0014]圖6說明了用于基于本體的詞典生成的優(yōu)選步驟序列。
【具體實施方式】
[0015]本申請公開了用于自然語言處理含糊解決和生成基于本體的詞典的計算機實現(xiàn)的系統(tǒng)和方法。自然語言處理含糊解決系統(tǒng)和方法利用語言本體而不是過分簡單的詞典來理解語言。語言本體在本領(lǐng)域中是已知的,但是為了清晰起見將在這里進行簡短的討論(并且更具體地參考以下的圖3)。本體創(chuàng)建代表語言結(jié)構(gòu)的分層結(jié)構(gòu)。語言中的廣義概念可被表示為本體類,本體類可被進一步細分成本體子類。例如,像“詞”這個主要的本體類可被分成像“名詞”、“動詞”、“形容詞”等的子類,這些子類又可被進一步分成諸如“代詞”、“單個詞的動詞”、“多個詞的動詞”等的子類。因而,語言的整個結(jié)構(gòu)可以通過本體來表示。本體類可以通過本體關(guān)系來關(guān)聯(lián)。例如,“名詞”中被稱為“代詞”的一個本體子類可以作為包括在“名詞”類內(nèi)而與前者關(guān)聯(lián)。類似地,本體類的特征或特性可以作為本體屬性存儲在本體模型中。根據(jù)所代表的語言所使用的實際語法規(guī)則,本體規(guī)則可與本體類、關(guān)系和實例(即,具體的詞)相關(guān)聯(lián)。
[0016]本體的使用對自然語言處理含糊解決傳達了益處。因為語言的結(jié)構(gòu)通過本體來表示,所以系統(tǒng)不必對含糊的詞應(yīng)用每個可能的語法規(guī)則。而是只有與可能的本體類、關(guān)系等相關(guān)聯(lián)的規(guī)則才需要被檢索并應(yīng)用于詞以解決其語法含糊,大大降低了解決詞含糊所需的處理時間。通過例如檢索與選擇的本體類直接關(guān)聯(lián)的每個詞實例并把它匯編到列表中,語言本體還可被用于生成傳統(tǒng)詞典。
[0017]圖1是說明性自然語言處理含糊解決和基于本體的詞典生成器系統(tǒng)100的高級表示。自然語言處理含糊解決和基于本體的詞典生成器系統(tǒng)100優(yōu)選地包括中央處理單元(“CPU”)105、存儲器120、網(wǎng)絡(luò)設(shè)備115和輸入/輸出設(shè)備110。CPU105接收并執(zhí)行程序指令。存儲器120可被提供用于長期和短期存儲器(即,隨機存取存儲器和硬盤儲存器),并且為CPU105提供數(shù)據(jù)存儲。網(wǎng)絡(luò)設(shè)備115可以提供到網(wǎng)絡(luò)的連接性,其中網(wǎng)絡(luò)可以是例如內(nèi)聯(lián)網(wǎng)、外聯(lián)網(wǎng)或者互聯(lián)網(wǎng)。輸入/輸出設(shè)備110可以為操作人員提供訪問能力,包括例如鍵盤、鼠標(biāo)、顯示器、觸摸屏等設(shè)備。
[0018]軟件過程含糊解決器130和詞典生成器135可被存儲在存儲器120中,并且可由CPU105執(zhí)行,以便在自然語言處理含糊解決和基于本體的詞典生成器系統(tǒng)100上操作,便利或者執(zhí)行解決詞含糊和從本體庫生成詞典的實際過程。含糊解決器130和詞典生成器135可以是單獨的軟件過程,或者它們可以在同一個軟件過程內(nèi)實現(xiàn)。本體庫125可以作為數(shù)據(jù)結(jié)構(gòu)存儲在存儲器120中(或者其它可由系統(tǒng)100訪問的儲存器中),并且包括用于一種或多種期望語言的本體全域。
[0019]圖2A、2B和2C是可以通過其對要解決的短語200中所包含的例子含糊詞205執(zhí)行自然語言處理含糊解決的過程的高級綜述。在圖2A中,CPU105接收要處理的短語200。然后,選擇接收到的短語中的一個詞由含糊解決器130進行處理。在這個例子中,選擇詞“these”205。在圖2B中,然后通過詞“these”205 (基于本體庫125)與其直接本體相關(guān)的可能本體類與子類來注釋選擇的詞“these” 205。在這個例子中,“代詞”注釋210和“形容詞”注釋215被用于注釋或以別的方式標(biāo)記選擇的詞“theSe”205。在圖2C所示的例子中,基于與“形容詞”子類相關(guān)聯(lián)的本體規(guī)則,例如形容詞后面必須跟有名詞,排除了“形容詞”注釋215。當(dāng)含糊解決器130把這個規(guī)則應(yīng)用于短語200時,它確定沒有“名”詞跟在選擇的詞“these”205后面。因此,基于本體規(guī)則,含糊解決器130可以確定選擇的詞“these”205不會是形容詞,從而如所繪出的那樣排除了它。由于在這個例子中只剩下一個注釋,因此含糊解決器130確定選擇的詞“these”205是代詞。類似地,如果在短語200中有相鄰詞跟在詞“these” 205后面,那么,為了確定選擇的詞“these” 205是否是形容詞,則需要確定該相鄰詞的分類。如果做出了這種確定,那么,基于本體規(guī)則和相鄰詞不是名詞的事實,含糊解決器130可以作出選擇的詞“these” 205不是形容詞的確定,因此必然是代詞。
[0020]圖3說明了代表性(簡化)本體庫300。對應(yīng)于真實語言的實際本體庫300必然將更加復(fù)雜和錯綜。本體庫包含類305 (這對應(yīng)于詞的大類,例如名詞、動詞等)、子類310a和310b (這可以對應(yīng)于更具體的詞類,例如代詞、專有名詞等)以及實例315a、315b、315c和315d (這可以對應(yīng)于屬于相關(guān)對應(yīng)類或子類的詞的具體實例)。這些類經(jīng)由本體關(guān)系(例如關(guān)系320a和320b)而相關(guān),這些關(guān)系指定例如子類310b屬于類305而且實例315d屬于子類310b (并且又屬于類305)。某些類、子類或?qū)嵗梢跃哂信c它們相關(guān)聯(lián)的一個或多個本體規(guī)則305a、305b、305c、305d和305e。這些可以對應(yīng)于廣義的語法規(guī)則、用法特定例外、使用規(guī)范或者準(zhǔn)確地本體表示所期望的所需的任何其它語言規(guī)則。
[0021]圖4和5說明了用于自然語言處理含糊解決的優(yōu)選步驟序列。用于一種或多種期望語言的本體庫或全域125被接收并存儲,優(yōu)選地是存儲在自然語言處理含糊解決系統(tǒng)100的存儲器120中(步驟400)。由自然語言處理含糊解決系統(tǒng)100的CPU105接收要被處理的短語(步驟405)。通過詞所屬的一個或多個本體分類(如在本體庫或全域125中規(guī)定的),利用含糊解決器130來注釋短語中的每個詞(步驟410)。然后,含糊解決器130可以確定對于短語中的任何詞是否還存在任何剩余的含糊(步驟415),含糊是對單個詞存在多于一個的本體類注釋。
[0022]參考圖5,選擇一個具有含糊的詞由含糊解決器130處理(步驟500)。當(dāng)前詞可以與之前選擇的詞不同,以確保系統(tǒng)100持續(xù)前進,以便處理具有新信息的新詞。當(dāng)解決含糊時,有些之前沒有應(yīng)用的本體規(guī)則可被應(yīng)用。然后,從本體庫125中檢索與用于該詞的本體注釋相關(guān)聯(lián)的本體規(guī)則(步驟505)。規(guī)則優(yōu)選地是從本體分層結(jié)構(gòu)的任何層檢索的。例如,與詞本身、與詞所屬子類相關(guān)聯(lián)的規(guī)則以及與包括該子類的更大類相關(guān)聯(lián)的規(guī)則全都可被檢索以便在解決含糊過程中使用。每個可以使用的本體規(guī)則都被用來從當(dāng)前詞排除本體類注釋(步驟510)。然后,系統(tǒng)100可以返回圖4,繼續(xù)處理。如果沒有含糊繼續(xù)存在(步驟415),則過程可以結(jié)束。
[0023]因為周圍詞的含糊,有些規(guī)則可能還不可用。例如,如果一個本體規(guī)則聲明形容詞必須在名詞前面,但還沒有確定句子中的下一個詞是名詞,那么,在系統(tǒng)100處理該相鄰詞之前含糊是沒法解決的。這些含糊將在系統(tǒng)100的后續(xù)循環(huán)中被解決,因為只要還有未解決的含糊,過程就會繼續(xù),而且過程總是選擇與前面處理過的詞不同的新詞來進行處理。很自然地,在有些情況下,系統(tǒng)可能遇到不可解決的含糊??梢岳靡粋€計數(shù)來觸發(fā)循環(huán)的終止,而且,如果系統(tǒng)100檢測到它陷入對不可解決的含糊的無限循環(huán),那么生成的問題通知可被發(fā)送給管理員。
[0024]圖6說明了用于基于本體的詞典生成的說明性步驟序列。本體庫或全域125可被存儲在系統(tǒng)100的存儲器120中(步驟600)。然后,系統(tǒng)100可以接收為本體分類生成詞典的請求(步驟605)。然后,可由詞典生成器135檢索與該本體分類相關(guān)聯(lián)的所有詞實例并匯編到列表中(步驟610)。
[0025]本發(fā)明的各方面已經(jīng)關(guān)于根據(jù)本發(fā)明實施例的方法、裝置(系統(tǒng))和計算機程序產(chǎn)品的框圖和/或流程圖進行了描述。應(yīng)當(dāng)理解,所述流程圖說明和/或框圖的每一個方框及所述流程圖說明和/或框圖中方框的組合都可以由計算機指令來實現(xiàn)。這些計算機指令可以提供給通用計算機、專用計算機或者其它可編程數(shù)據(jù)處理裝置的處理器,來產(chǎn)生一種機器,使得當(dāng)所述指令經(jīng)計算機或者其它可編程數(shù)據(jù)處理裝置的處理器執(zhí)行時,產(chǎn)生用于實現(xiàn)在所述流程圖和/或框圖方框中所規(guī)定的功能/動作的裝置。
[0026]以上提到的程序可以用一種或多種編程語言的任意組合來寫,包括低級的、高級的、面向?qū)ο蟮幕蛘叻敲嫦驅(qū)ο蟮木幊陶Z目,例如Java、Smalltalk和C++。程序代碼可以完全在用戶的計算機上、部分地在用戶的計算機上、作為獨立的軟件包、部分在用戶的計算機上而且部分在遠端計算機上或者完全在遠端計算機或服務(wù)器上執(zhí)行。在后一種場景下,遠端計算機可以通過任何類型的網(wǎng)絡(luò)連接到用戶的計算機,包括局域網(wǎng)(LAN)或廣域網(wǎng)(WAN),或者可以連接到外部的計算機(例如,通過利用互聯(lián)網(wǎng)服務(wù)提供商的互聯(lián)網(wǎng))??蛇x地,以上提到的程序的功能可以完全地或者部分地由計算機電路和其它硬件(未示出)來實現(xiàn)。
[0027]給出以上對本發(fā)明各種實施例的描述是為了說明和描述。它不是詳盡的,也不是要把本發(fā)明限定到所公開的精確形式。許多修改與變化都是可能的。對本發(fā)明領(lǐng)域技術(shù)人員來說可能很顯然的這種修改與變化也要包括在如由所附權(quán)利要求定義的本發(fā)明范圍之內(nèi)。
【權(quán)利要求】
1.一種用于自然語言處理含糊解決的計算機實現(xiàn)的方法,包括: 在計算機存儲器中存儲規(guī)定一組語法規(guī)則的本體; 利用計算機處理器接收包括要處理的至少一個當(dāng)前詞的短語; 利用所述計算機處理器通過短語中的當(dāng)前詞根據(jù)所述本體所屬的本體類來注釋所述當(dāng)前詞; 利用所述處理器檢索與所述當(dāng)前詞所屬的本體類相關(guān)聯(lián)的任何本體規(guī)則; 利用所述處理器基于所述本體規(guī)則來排除所述本體類;以及 利用所述處理器確定留存的本體類是所述當(dāng)前詞的準(zhǔn)確本體類。
2.如權(quán)利要求1所述的方法,進一步包括: 利用所述處理器檢索所述短語中的相鄰詞的本體類,所述相鄰詞與所述當(dāng)前詞相鄰;利用所述處理器比較所述相鄰詞的本體類與根據(jù)所述當(dāng)前詞所屬的一個本體類的本體規(guī)則所要求的本體類;以及 如果所述相鄰詞的本體類不匹配所要求的本體類,則排除所述當(dāng)前詞所屬的所述一個本體類。
3.如權(quán)利要求2所述的方法,進一步包括: 為短語中的每個詞重復(fù)所有步驟,直到短語的每個詞都僅通過來自所述本體的單個對應(yīng)本體類被注釋。
4.如權(quán)利要求1所述的方法,進一步包括: 利用所述計算機處理器接收從選擇的本體分類生成詞典的請求; 利用所述計算機處理器檢索屬于選擇的本體分類的所有詞實例;以及 把檢索到的詞匯編到列表中。
5.一種用于自然語言處理含糊解決的系統(tǒng),包括: 配置成存儲規(guī)定一組語法規(guī)則的本體的裝置; 配置成接收包括要處理的至少一個當(dāng)前詞的短語的裝置; 配置成通過短語中的當(dāng)前詞根據(jù)所述本體所屬的本體類來注釋所述當(dāng)前詞的裝置; 配置成檢索與當(dāng)前詞所屬的本體類相關(guān)聯(lián)的任何本體規(guī)則的裝置; 配置成基于所述本體規(guī)則來排除可能的本體類的裝置;以及 配置成確定留存的可能本體類是所述當(dāng)前詞的準(zhǔn)確本體類的裝置。
6.如權(quán)利要求5所述的系統(tǒng),進一步包括: 配置成檢索所述短語中的相鄰詞的本體類的裝置,所述相鄰詞與所述當(dāng)前詞相鄰;配置成比較所述相鄰詞的本體類與根據(jù)所述當(dāng)前詞所屬的一個本體類的本體規(guī)則所要求的本體類的裝置;以及 配置成如果所述相鄰詞的本體類不匹配所要求的本體類,則排除所述當(dāng)前詞所屬的所述一個本體類的裝置。
7.如權(quán)利要求6所述的系統(tǒng),進一步包括: 配置成為短語中的每個詞重復(fù)所有步驟,直到短語的每個詞都僅通過來自所述本體的單個對應(yīng)本體類被注釋的裝置。
8.如權(quán)利要求5所述的系統(tǒng),進一步包括: 配置成接收從選擇的本體分類生成詞典的請求的裝置;配置成檢索屬于選擇的本體分類的所有詞實例的裝置;以及配置成把檢索到的詞匯 編到列表中的裝置。
【文檔編號】G06F17/30GK103488625SQ201310230797
【公開日】2014年1月1日 申請日期:2013年6月9日 優(yōu)先權(quán)日:2012年6月12日
【發(fā)明者】J·E·波斯迪克, J·M·小簡西, J·P·凱墨拉, C·M·崔西穆 申請人:國際商業(yè)機器公司