專利名稱:基于移動結(jié)構(gòu)概念的句子結(jié)構(gòu)分析及使用其的自然語言搜索的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及基于移動結(jié)構(gòu)(mobile configuration)概念的句法分析以及使用該分析方法的自然語言搜索方法,并且具體來說,涉及基于將在子分類(subcategorization)信息中事先定義的語法角色(role)信息直接給予結(jié)構(gòu)組分(constituent)從而能夠主動響應(yīng)自由語序語言的移動結(jié)構(gòu)概念的句法分析方法和使用該分析方法的自然語言搜索方法。
背景技術(shù):
簡單來說,句法分析的含義是使用計算機分析自然語言的句法結(jié)構(gòu)。因此,對于這種句法分析,將自然語言知識傳輸給計算機用于實現(xiàn)是重要的。
開發(fā)用于處理自然語言的方法可以用教計算機一種語言來簡單表示。對于這種傳統(tǒng)的句法分析,使用了基于概率的方法。
在此,傳統(tǒng)的基于概率的句法分析是一種通過其建立大量的語料庫(corpus)并且語音部分的轉(zhuǎn)換的局部結(jié)構(gòu)和概率被從該語料庫中提取出來并且隨后將其和實際數(shù)據(jù)進行比較的方法。
然而,在這種傳統(tǒng)的基于概率的句法分析中有著如下的限制。首先,由于不能保證大量的語料庫能夠涵蓋人類能夠構(gòu)造的所有種類的句法結(jié)構(gòu),為了能夠部分地克服這種限制,只有限制在預(yù)定領(lǐng)域內(nèi)的語料庫能被建立。因此,不能保證知識的完整性,并且使用的領(lǐng)域是受限的。
其次,當發(fā)現(xiàn)不正確的分析數(shù)據(jù)時,解決這個問題基本上是不可能的。這是因為概率不能由人來手動修改。為了解決這個問題,應(yīng)當建立新的語料庫,并且當規(guī)模超過預(yù)定等級時,存在概率不再改變的傾向性。
具體來說,應(yīng)用了這些傳統(tǒng)的基于概率的句法分析方法的韓語語法模型在廣義上可以被劃分為基于Choi Hyon-Pai(1937)的傳統(tǒng)模型和來源于Chomsky(1965)的生成語法模型。
然而,由于作為句法分析基本要求的句法單元的確定并不一致,這兩個模型無法令人滿意。即,在前一種方法中,后置詞(postposition)被認為是字,而字尾則被認為是語形學(morphological)單元。與此相反,在后一種方法中,后置詞(或后置詞的一部分)被認作是語形學單元,而字尾被認作是字。
因此,在傳統(tǒng)的方法中,為了分析在組成給定輸入數(shù)據(jù)的單元表達式(expression)之間的依存關(guān)系并掌握(capture)它們的語法功能,使用基于語法功能由結(jié)構(gòu)位置確定的假定的二元(binary)結(jié)構(gòu)的方法。
在這個二元結(jié)構(gòu)中,如果句子“Naneun Kongwoneso Youngheereulmannata(S)(我在公園遇到Y(jié)ounghee),”被分析,則認為形成句子的全部單元被配對(paired)來形成該句子。該句子被劃分成“Naneun(NP)”和“Kongwoneso Youngheereul mannata(VP)”,并且VP再次被劃分為“Kongwoneso(PP)”和“Youngheereul mannata(V’)“,并且“V”’再次被劃分為“Youngheereul(NP)”和“mannata(V)”。在這種結(jié)構(gòu)中,同時在一個規(guī)則中定義支配關(guān)系(dominance relation)和優(yōu)先關(guān)系。即,主語是直接由S控制的NP,位置是直接由VP控制的PP,直接賓語是直接由V控制的NP,并且以這種方式,其次定義語法功能。
在這個傳統(tǒng)的二元結(jié)構(gòu)中,句子的直接組分的語法功能由該組分在句子結(jié)構(gòu)中的位置所確定。即使遵循韓語中謂語必須位于句子的結(jié)尾的字序的限制,在數(shù)學上,如果每個由4個直接組分形成的句子被配對并組織,則在數(shù)學上可能情況的數(shù)量是7(3×2×1+1),并且在句子是由5個組分形成的情況下,等價結(jié)構(gòu)的數(shù)量可以最多為30(4×3×2×1+2×2)。因此,等價結(jié)構(gòu)的數(shù)量呈幾何級數(shù)增加。
不用說諸如韓語的這種自由語序語言,即使是在英語這種固定語序語言的情況中,前置短語在句子中倒置也不會改變句子的意思。這顯示了語法功能不能由在句子中的位置來確定。
此外,當使用傳統(tǒng)的二元結(jié)構(gòu)用于分析時,由N個單元表達式表示的句子產(chǎn)生2(n-2)個結(jié)構(gòu)等價情況。即,隨著形成句子的多語素(polymorphemes)的數(shù)量的增加,等價句子結(jié)構(gòu)的情況的數(shù)量幾何增加。
二元結(jié)構(gòu)的另一個問題在于無法預(yù)測組分位置的改變。在韓語的情況下,當一個句子的直接組分的數(shù)量為n時,改變字的位置的可能方式的數(shù)量為n!。
具體來說,能夠處理這種自由語序句子的能力在處理口語數(shù)據(jù)中是很重要的,口語數(shù)據(jù)和書寫數(shù)據(jù)不同,存在經(jīng)常性的省略和倒置。然而,傳統(tǒng)的二元結(jié)構(gòu)方法不能完美地處理這個問題。
因此,用于說明使用字形變化(inflection)的印一歐語言的傳統(tǒng)句法分析模型不適用用于韓語。由于這種內(nèi)在限制,傳統(tǒng)的句法分析方法的成功率只有大約50%到60%。
具體來說,這種傳統(tǒng)句法分析方法遵循根據(jù)成分的使用形式定義語法功能的用法概念。根據(jù)這種用法概念,在下面的句子中1A.Youngheeneun haggyoeganda.(Younghee去學校。)1B.Cheolsooneun haggyoeganeunYoungheereul boatta.(Cheolsoo看見Younghee去上學。)在(1A)中的“ganda”和在(1B)中的“ganeun”都是動詞“gada(去)”的形式。然而,在(1A)中的“ganda”結(jié)束一個句子,而在(1B)中的“ganeun”不結(jié)束一個句子,但是修飾/限制隨后的字“Younghee”。因此,在傳統(tǒng)語法中,“ganeun”的用法形式被稱作為“名詞前類型(pre-noun type)”。
然而,如果一個字同時是一個動詞又是一個名詞前類型,從傳統(tǒng)的觀點來看,分類不確定的問題是不可避免的。即,如果疑問中的“ganeun”是修飾“Younghee”的名詞前類型,則名詞前類型不能引導(dǎo)成分“haggyoe”,而如果“ganeun”是動詞,其不能結(jié)束一個句子并且不能說明其是否能修飾隨后的名詞。
因此,為了解決這個問題,應(yīng)當分析“ganeun”的內(nèi)部結(jié)構(gòu),并且應(yīng)該參考字干“ga-”和字尾“-neun”的結(jié)構(gòu)。然而,傳統(tǒng)的句法規(guī)則并不考慮字的內(nèi)部結(jié)構(gòu)(一種用法形式)。這樣,不可能實現(xiàn)獨立于人類語言學知識的引擎。
因此,由于傳統(tǒng)句法分析的這些問題,目前還沒有商業(yè)化的韓語句法分析方法。僅僅進行了實驗室級別的試驗。即使在機器翻譯的情況中,韓語句法分析技術(shù)也是如此缺乏以致可用的只有從外語到韓語的機器。
此外,由于現(xiàn)有的基于傳統(tǒng)句法分析操作的自然語言搜索引擎僅僅使用低級的句法分析,或是使用以多語素為單位的指數(shù)化(indexation),無法掌握在每個多語素中包含的語法關(guān)系,并且僅僅根據(jù)基于概率的方法來執(zhí)行檢索。因此,會檢測到具有高使用頻率的大量無意思的信息,并且很難檢索到實質(zhì)結(jié)果。
圖1是由根據(jù)本發(fā)明的一個優(yōu)選實施例的基于移動結(jié)構(gòu)概念的句法分析方法執(zhí)行的步驟的流程圖;圖2是更詳細的示出圖1的預(yù)處理例子的流程圖;圖3是更詳細的示出圖1的部分結(jié)構(gòu)(partial structure)形成步驟的例子的流程圖;圖4是示出當使用基于本發(fā)明的移動結(jié)構(gòu)概念的句法分析方法時的結(jié)果屏幕的例子的圖;圖5是根據(jù)本發(fā)明的一個優(yōu)選實施例的使用基于移動結(jié)構(gòu)概念的句法分析方法的自然語言檢索方法中的步驟的流程圖;圖6是示出在根據(jù)本發(fā)明的一個優(yōu)選實施例的使用基于移動結(jié)構(gòu)概念的句法分析方法中的自然語言檢索系統(tǒng)中的問題(檢索字)輸入屏幕和結(jié)果屏幕的例子的圖。
圖7到圖11是逐步示出用于根據(jù)本發(fā)明的一個優(yōu)選實施例的使用基于移動結(jié)構(gòu)概念的句法分析方法中的自然語言檢索方法的內(nèi)部數(shù)據(jù)庫的例子的圖;和圖12是示出根據(jù)本發(fā)明的一個優(yōu)選實施例的使用基于移動結(jié)構(gòu)概念的句法分析方法中的自然語言檢索方法的打印屏幕的例子的圖。
具體實施例方式
本發(fā)明的技術(shù)目的本發(fā)明提供一種基于移動結(jié)構(gòu)概念的句法分析方法以及使用該分析方法的自然語言檢索方法。通過該基于移動結(jié)構(gòu)概念的句法分析方法能夠提供能主動應(yīng)付信息加速年代的需求的多種有用工具的開發(fā)所需的核心基礎(chǔ)技術(shù),并且該方法由于是基于嚴格的語言學成果的,因而具有魯棒性、通用性以及高可靠性,以致可以在各個領(lǐng)域使用,并且通過改進在語言學知識和分析引擎之間的獨立性,能夠連續(xù)地和快速地改善性能以致其能夠被非常有效和經(jīng)濟地利用。
本發(fā)明還提供了一種基于移動結(jié)構(gòu)概念的句法分析方法和使用該分析方法的自然語言檢索方法。通過該基于移動結(jié)構(gòu)概念的句法分析方法,任何被打亂的句子(scrambled sentence)都能夠被容易地分析而不需要附加的分析裝置,而且通過將字尾按照字來處理并且通過根據(jù)短語的結(jié)構(gòu)規(guī)則控制字尾的組合,語言學模型和分析引擎之間的獨立性在該模型和引擎中能夠得到高效的改善。
而且,本發(fā)明還提供了一種基于移動結(jié)構(gòu)概念的句法分析方法和使用該分析方法的自然語言檢索方法。通過該基于移動結(jié)構(gòu)概念的句法分析方法,在形成句子的表達式之間的語法關(guān)系能夠通過使用移動句法分析器的成分信息指數(shù)化來準確掌握,結(jié)果,用戶請求的信息以和人類進行判斷相同的方式來檢索,從而能夠提供準確的信息。
本發(fā)明的公開根據(jù)本發(fā)明的一個方面,在建立了用于分析輸入句子的語素的語素字典程序、用于存儲語法規(guī)則的語法規(guī)則數(shù)據(jù)庫,以及用于存儲句子的每個組分的屬于中心字的子分類,諸如字干和字尾的細節(jié)的子分類數(shù)據(jù)庫,以便基于將后置詞和字尾都認作句法單元的標記理論來承認字形變化的字(inflective word)字尾的句法狀態(tài)并且在語法上能夠?qū)⒆种g的組合關(guān)系定義為一個整體之后,提供了用于分析句法和說明句法的語法功能的句法分析方法,該方法包括分析語素,其中,如果輸入要分析的句子,則根據(jù)所述語素字典程序以多語素為單位分析該語素的內(nèi)容,并且在通過多語素在語素分析數(shù)據(jù)中選擇了適合于輸入數(shù)據(jù)的語素分析情況后,預(yù)處理被執(zhí)行;和分析句法,其中通過使用所分析的語素,首先根據(jù)存儲在語法規(guī)則數(shù)據(jù)庫中的語法角色建立句子的部分結(jié)構(gòu),并且隨后通過使用所述子分類數(shù)據(jù)庫,建立整體結(jié)構(gòu),并且通過計算每個結(jié)構(gòu)的權(quán)重值,確定最合適的優(yōu)選情況并輸出。
在該方法中,分析句法包括執(zhí)行預(yù)處理,其中是否在多語素列表中包括句子構(gòu)成由多語素列表程序確定,并且如果有多語素句子構(gòu)成,則多語素構(gòu)成被轉(zhuǎn)換成多語素形式,并且字的意思由語義特征程序確定并包括在語素中;通過操作和重復(fù)內(nèi)部閉環(huán)來形成部分結(jié)構(gòu),其中,如果輸入用語音的語義特征部分標簽的語素,該語素被當作單個語素對待,并且通過根據(jù)存儲在語法規(guī)則數(shù)據(jù)庫中的語法角色來確定是否局部結(jié)構(gòu)規(guī)則被應(yīng)用于所選的語素,形成局部結(jié)構(gòu),并且通過參照隨后要處理的賓語和確定是否形成了循環(huán)局部結(jié)構(gòu),建立內(nèi)部結(jié)構(gòu),并且如果沒有其它的內(nèi)部結(jié)構(gòu),重復(fù)執(zhí)行下面的處理根據(jù)分類和句子構(gòu)成以及基于子分類數(shù)據(jù)庫和修飾語類型數(shù)據(jù)庫的表達形式來形成整體結(jié)構(gòu);通過基于句子構(gòu)成的位置或特性來計算每個結(jié)構(gòu)的權(quán)重和選擇最重要的結(jié)構(gòu)來選擇最優(yōu)情況;和使用移動類型(樹型)鏈接線來輸出最優(yōu)情況,以便在所確定的最優(yōu)情況的整體結(jié)構(gòu)、每個部分結(jié)構(gòu)以及每個語素之間的關(guān)系由鏈接線對應(yīng)連接和指示。
在所述句法分析方法中,所述語義特征程序是用于以預(yù)定類型來分類字的意思,所述意思是用于確定語素的句法特性和意思信息的要素,以便確定有助于減少在復(fù)合句子結(jié)構(gòu)中的等價結(jié)構(gòu)的意思和對于每個字形變化的字的修飾語的列表的程序;所述多語素列表程序是執(zhí)行按照類型以便分類同一類型的后置詞或具有后置功能的后綴的字特征的程序;所述語法規(guī)則數(shù)據(jù)庫存儲關(guān)于定義相應(yīng)詞根的語法角色的信息;子分類數(shù)據(jù)庫存儲關(guān)于能屬于一個字形變化的字的組分的細節(jié),以及可改變的字形變化的字尾的形式的信息;并且修飾語類型數(shù)據(jù)庫存儲關(guān)于后置詞、字尾以及具有類似于后置詞或字尾功能的后綴的通用特性的信息,其確定能夠由核心字組合的局部結(jié)構(gòu)的類型,作為確定多分支結(jié)構(gòu)的等價結(jié)構(gòu)的要素。
根據(jù)本發(fā)明的另一個方面,提供一種使用基于移動結(jié)構(gòu)概念的句法分析方法的自然語言檢索方法,用于通過輸入自然語言問題來檢索文件(句子),所述方法包括分析文件,在其中作為檢索對象的文件的句子分析信息通過基于移動結(jié)構(gòu)概念的句法分析方法存儲在句子信息數(shù)據(jù)庫中,在所述基于移動結(jié)構(gòu)概念的句法分析方法中,建立用于存儲句子的每個成分的屬于中心字的子分類,諸如字干和字尾的細節(jié)的子分類數(shù)據(jù)庫,以便承認字形變化的字字尾的句法狀態(tài)并且字之間的組合關(guān)系能夠被在語法上定義為一個整體;而且當輸入期望被分析的句子時,分析語素的內(nèi)容,并且使用分析的語素,根據(jù)存儲在語法規(guī)則數(shù)據(jù)庫中的語法角色首先建立句子的部分結(jié)構(gòu),并且隨后,通過使用所述子分類數(shù)據(jù)庫,建立整體的結(jié)構(gòu);分析問題句法,其中在文件信息數(shù)據(jù)庫中,如果輸入了自然語言的問題,則首先根據(jù)基于移動結(jié)構(gòu)概念的句法分析方法分析問題的句法,句法分析結(jié)果被根據(jù)句法信息分解成字單元,掌握問題的疑問句類型,并且確定分解的細節(jié)的問題;檢索文件,在其中在句子分析字典中確定的細節(jié)問題的標簽的角色被轉(zhuǎn)換為用于根據(jù)所期望的詢問句類型檢索的標簽,在句子分析字典中檢索具有轉(zhuǎn)換了的用于檢索的標簽的字,并且基于檢索的頻度計算排序;和顯示包括檢索字、包括用于檢索的標簽的句子和包括該句子的文件的內(nèi)容的結(jié)果。
本發(fā)明的效果根據(jù)本發(fā)明的基于移動結(jié)構(gòu)概念的句法分析方法以及使用該句法分析方法的自然語言檢索方法,如上所述,能夠提供開發(fā)各種有用接口工具所需的核心基礎(chǔ)技術(shù)并且能夠提供魯棒性和通用用法,以便該方法能夠使用在計算機系統(tǒng)的全部領(lǐng)域。此外,由于連續(xù)和快速的性能改善,本發(fā)明是經(jīng)濟的。因此,即使是打亂的句子也能被快速和容易地分析,而不需要復(fù)雜的句法分析裝置。而且,在形成句子的表達式之間的語法關(guān)系能夠被準確地掌握以便用戶請求的信息能以和人進行判斷同樣的方式來檢索,并且能提供準確的信息。
優(yōu)選實施例此后,將結(jié)合附圖通過對本發(fā)明的優(yōu)選實施例的說明詳細說明根據(jù)本發(fā)明的基于移動結(jié)構(gòu)概念的句法分析方法和使用該分析方法的自然語言搜索方法。
首先,本發(fā)明的基于移動結(jié)構(gòu)概念的句法分析方法是一種基于子分類數(shù)據(jù)庫的句法分析方法,該子分類數(shù)據(jù)庫存儲句子的每個組分的屬于中心字的子分類,諸如字干和字尾的細節(jié),以便基于標記理論確認(admit)字形變化的字尾的句法狀態(tài)并且字之間的組合關(guān)系能在語法上定義為一個整體。
即,該句法分析方法可以說是一種基于知識的方法,因為其能通過將唯一的韓語語法模型和語言學知識直接輸入到計算機來應(yīng)用到所有的語言。將針對本發(fā)明的每個步驟說明該子分類數(shù)據(jù)庫的例子。
在這個標記理論的核心語法模型中,后置詞和字尾都被認作句法單元,即,字。例如,在上述的用法概念中,如果有如下的句子“Youngheeneunhaggyoeganda(Younghee去上學)”和“Cheolsooneun haggyoeganeunYoungheereul boatta(Cheolsoo看見Younghee去學校),”標記理論將“ganeun”的“-neun”和“ganda”的“-n-”和“-da”認作標記,并且將句子分類為如下的句法單元2A.[Younghee-neun haggyo-ega]-n-da.
2B.[Cheolsoo-neun[haggyo-ega]-neunYounghee-reul bo]-at-ta.
并且,每個標記的功能是不同的。
即,“ganeun”的“-neun-”扮演將動詞短語和名詞進行組合的角色,而“ganda”的“-n-”指示現(xiàn)在(進行)的形式,并且“-da”指示判斷語氣。因此,字之間的組合關(guān)系能夠被定義為在語法上的一個整體,并且因此,在語法和分析引擎之間的獨立性得到改善,并且識別不正確的分析數(shù)據(jù)或者改變(modification)變得容易。
同樣,通過采用使用ID-LP格式的移動結(jié)構(gòu)區(qū)分支配關(guān)系和優(yōu)先關(guān)系,能夠同等地識別由相同組分形成但是具有被打亂順序的句子。
基于這種標記理論的根據(jù)本發(fā)明的一個優(yōu)選實施例的基于移動結(jié)構(gòu)概念的句法分析方法是通過句法分析描述句子的語法功能的句法分析方法。
在這個方法中,為了能夠?qū)Ρ淮騺y的句子進行分析,后置詞和字尾被確定為單獨字并且語素的語法功能和特征被事先存儲在數(shù)據(jù)庫中,并且如果輸入了需要分析的句子,通過使用每個成分的中心詞的嚴格子分類細節(jié),基于語義特征、后置詞形式、以及包括在細節(jié)中的分類標識來執(zhí)行句法分析。通過這樣做,抑制了過多的產(chǎn)生(excessive generation),并且基于事先在子分類信息中定義的語法角色信息,在相應(yīng)語素之間的關(guān)系由預(yù)定符號指定并且句子的語法關(guān)系被描述。廣義來講,該方法包括語素分析(步驟S1到S3)和句法分析(步驟S4到S10)。
在本發(fā)明的語素分析中,首先建立語素字典程序1和在其中存儲語法規(guī)則的語法規(guī)則數(shù)據(jù)庫4,在所述語素字典程序1中后置詞和字形變化字尾被確定為獨立詞根并且以語素字典的形式存儲該字尾的語法功能的特性。
如果在步驟S1輸入期望分析的句子,則作為句子結(jié)構(gòu)的最小單元的語素在步驟S2由語素字典程序4來分析,并且語音的部分在語音部分附加步驟S3中被加標簽。
在此,指示語法功能的標簽和簡稱被附加到分類后的語素。如圖4的句法分析結(jié)果窗口的右手邊窗口所示,組分被分類為語素,每個語素都是具有意思的最小單元,諸如主語和主語后置、賓語和賓語后置以及謂語和謂語字尾,并且標簽被附加到相應(yīng)的語素并且語素的類型通過在標簽中標記簡稱(np、jc、pv等)來指示。
隨后,在本發(fā)明的句法分析步驟S4到S10,句子的部分結(jié)構(gòu)根據(jù)分類的語素的語法規(guī)則被首先形成,并且根據(jù)表達形式建立整個結(jié)構(gòu)。隨后,通過計算每個結(jié)構(gòu)的權(quán)重,確定最優(yōu)情況并且由預(yù)定的符號指定每個語素之間的關(guān)系并且描述句子的語法關(guān)系。如圖1所示,句法分析包括預(yù)處理步驟S4、部分結(jié)構(gòu)形成步驟S5、整體結(jié)構(gòu)形成步驟S6和S7,和整體結(jié)構(gòu)完成步驟S7到S10。
在此,在預(yù)處理步驟S4,如圖2所示,如果在步驟41輸入用語音部分作標簽的語素,是否具有多語素類型的句子構(gòu)成由在步驟S42中的多語素列表程序3確定。如果具有多語素句子結(jié)構(gòu),其在步驟S43被轉(zhuǎn)換成多語素形式。語素的意思由語義特征字典程序2來確定,并且如果在步驟44需要語義特征上的語素,則在步驟S45添加語義特征語素。
此時,如下例證的語義特征字典程序2是確定句子部分的核心字的意思信息的要素,并且為減少在復(fù)合句子結(jié)構(gòu)中的等價結(jié)構(gòu)做出貢獻,并且,通過類型,執(zhí)行對于諸如通用名詞的字的意思的分類,以便能夠確定每個字形變化的字的修飾語列表。
<語義特征字典程序的例子>
@root bab(煮好的飯)@pos nc@type concrete@subtype food@property solid……@root haggyo(學校)@pos nc@type concrete|abstract@subtype organization……并且,如下所示的多語素列表程序3,通過類型分類來執(zhí)行,以便使用相同形式或具有后置詞功能的后綴來分類后置的字特征。
<多語素列表程序應(yīng)用的例子>
jc<-e/jc dae/nx-ha/xsv-eoseo/ec……jc<-wa/jc gad/pa-i/xsa……pv<-*/nc-*/xsvpv<-*/nx-*/xsvnc<-*/nc-*/nx……ep<-??/etm-geod/nb-i/co{eptense=[fut];eporigin=[cep];}……隨后,在圖3所示的部分結(jié)構(gòu)形成步驟S5中,如果語音標簽的語素的語義特征部分在步驟S51輸入,則在步驟S52處理單個語素,在步驟S53中根據(jù)存儲在語法規(guī)則數(shù)據(jù)庫4中的語法角色來確定是否具有局部結(jié)構(gòu),在步驟S54形成局部結(jié)構(gòu),在步驟S55參照要處理的隨后的賓語,并且在步驟S56形成循環(huán)局部結(jié)構(gòu)。該循環(huán)局部結(jié)構(gòu)包括內(nèi)部閉環(huán)操作步驟S53到S56,其中,通過再次建立部分局部結(jié)構(gòu),建立局部結(jié)構(gòu),并且在內(nèi)部閉環(huán)循環(huán)步驟S5,如果其中沒有其它局部結(jié)構(gòu),則選擇下一個語素并且重復(fù)步驟。
在此,語法規(guī)則數(shù)據(jù)庫4存儲定義如下面例子所示的每個詞根的語法角色的信息。
<規(guī)則字典例子>
N′<-NPm N′<5> {N′type=N′#1type;N′subtype=N′#1subtype;N′property=N′#1property;}……ADVP<-mag ADVP-s<4> ;magsubtype**[degree];]{ADVPsubtype=ADVP#1subtype;}……隨后,如圖1所示,整體結(jié)構(gòu)形成步驟S6和S7包括在步驟S6基于子分類數(shù)據(jù)庫5和修飾語類型數(shù)據(jù)庫6根據(jù)句子和表達式形式的分類來形成整體結(jié)構(gòu),在步驟S7確定是否檢查了另一種形式的有效矩陣,并且隨后重復(fù)隨后的矩陣的部分結(jié)構(gòu)形成步驟S5。
在此,子分類數(shù)據(jù)庫5存儲句子每個組分屬于中心詞的子分類的細節(jié),諸如字干和字尾,以便基于將后置詞和字尾都認作句法單元的標記理論來承認字形變化的字尾的狀態(tài),并且在字之間的組合關(guān)系能夠在語法上被定義為一個整體。如下面例子所示,在中心詞,“meogda(吃)”,存儲“meog-”可能的的字形變化的字尾的形式的信息。
<子分類數(shù)據(jù)庫應(yīng)用例子>
meogNP(subtype~=[human|animal];jcval*=<i>)[c_sbj]NP(type~=[concrete];subtype~=[food|medicine|abstract|fuel];jcval*=<eu|>)[c_obj]{A_Typel}pv……meogiNP(jcval*=<i>;!!(nbval);type~=[alive])[c_sbj]NP(jcval*=<ege>;type~=[alive])[c_dat] subtype~=[food|liquid])[c_obj]{A_Typel}pv……此外,修飾語類型數(shù)據(jù)庫6存儲關(guān)于后置詞的通用特征的信息,或者具有后置詞的功能的作為確定多分支結(jié)構(gòu)等價物的要素的后綴的信息,如下面例子所示。
<修飾語類型數(shù)據(jù)庫應(yīng)用>
#BOATA_TypelADVP(subtype**[manner])[a_manner]ADVP(subtype**[time])[a_temp]ADVP(subtype**[motive])[a_reason]…NP(subtype**[time];??!(jcval)&&nbval)[a_occurrence]NP(subtype~=[place|space|spot];jcval**<eseo>)[a_loc]NP(type**[concrete];jcval**<ro>)[a_instr]…VPn(etnval==[gi];jeval==[e])[a_motive]VPf(mood~=[declarative];jcval==[go])[a_reason]A_Type2……A_Type3…………#BOAT隨后,如圖1所示,整體結(jié)構(gòu)完成步驟S7到S10包括在步驟S7基于句子構(gòu)成的位置和特性來計算相應(yīng)結(jié)構(gòu)的重要性權(quán)重,在步驟S8選擇最優(yōu)情況,和輸出所選的最優(yōu)情況。
在這個最優(yōu)情況輸出步驟S10中,如圖4的句法分析結(jié)果窗口的左手邊窗口所示,標記移動類型(樹型)連接線以便用線來指示完成的整體結(jié)構(gòu)、各個內(nèi)部結(jié)構(gòu)和外部結(jié)構(gòu),以及各個語素之間的對應(yīng)關(guān)系。
因此,通過依賴于開發(fā)的適用于韓語和語言學知識的語法模型,能夠保證比傳統(tǒng)的基于概率的方法高得多的精度。并且,對于簡單的句子來說,原則上,由于識別方法和人一樣,取決于知識建立的程度,能夠期望接近100%的處理率。
此外,通過采用移動結(jié)構(gòu),即使是被打亂的句子也能被準確和一致地分析,該方法可以應(yīng)用于所有的語言領(lǐng)域、不會產(chǎn)生由于域的改變帶來的附加開銷,并且由于采用多分支結(jié)構(gòu),能夠減少不需要的分析。因此,識別錯誤的原因變得簡單而且在知識和引擎之間的獨立性是高的,以致能夠快速地執(zhí)行對于不正確分析的校正。
而且,和傳統(tǒng)的二元結(jié)構(gòu)中等價結(jié)構(gòu)隨著幾何級數(shù)增長不同,由于多分支結(jié)構(gòu)分析具有作為詞根的語法功能,從而使句法分析變得容易,并且在其中省略和倒置經(jīng)常發(fā)生的口語數(shù)據(jù)能夠被完美地分析,相對于多語素的數(shù)量的增長,等價結(jié)構(gòu)呈算數(shù)級數(shù)增長。
同時,實現(xiàn)基于這種移動結(jié)構(gòu)概念的句法分析方法的句法分析器包括諸如微處理器或CPU的控制各種輸入和輸出裝置的控制單元,和諸如RAM、ROM或者硬盤的存儲各種類型信息的存儲裝置。
控制單元包括語素字典程序1、語義特征字典程序2和圖1中的多語素列表程序3。存儲裝置包括存儲語法角色的語法規(guī)則數(shù)據(jù)庫4、子分類數(shù)據(jù)庫5和修飾語類型數(shù)據(jù)庫6。
即,控制單元被如此編程,以致如果輸入要分析的句子,其根據(jù)語素字典程序1分析句子的每個語素,并且首先根據(jù)存儲在語法規(guī)則數(shù)據(jù)庫4中的語法角色建立句子的部分結(jié)構(gòu),隨后基于存儲在子分類數(shù)據(jù)庫5中的子分類信息建立整體結(jié)構(gòu)。并且隨后,控制單元計算每個結(jié)構(gòu)的權(quán)重,選擇優(yōu)選情況,通過預(yù)定的符號指定在相應(yīng)語素之間的關(guān)系,并且描述該句子的語法關(guān)系。
因此,本發(fā)明的句法分析器不使用在其中從結(jié)構(gòu)推斷語法角色的方法,而使用將語法功能本身認作詞根的方法,并且通過使用子分類信息,指定了語法功能。
此外,由于僅僅提供語音部分的列表對于分類信息是不夠的,本發(fā)明的句法分析器描述每個成分的意思信息以便清除等價結(jié)構(gòu)并且只產(chǎn)生最簡單的語法結(jié)構(gòu)。
為了如此,這樣來設(shè)計該系統(tǒng),在步驟S1到S3的語素分析中,相應(yīng)字的語義特征能夠被示出,并且作為結(jié)果,能夠準確識別可能的語法關(guān)系。
而且,每個子分類幀(frame)請求用于該幀承認的修飾語類型。因此,通過根據(jù)在整體結(jié)構(gòu)形成步驟S6中根據(jù)修飾語形式描述類型,能夠避免產(chǎn)生不必要的等價結(jié)構(gòu)并且能夠執(zhí)行適當?shù)木浞ǚ治觥?br>
同時,使用本發(fā)明的基于移動結(jié)構(gòu)概念的句法分析方法的自然語言檢索方法是這樣一種檢索方法,通過其如果輸入了自然語言形式的問題,搜索文件和句子并且找到和返回期望的知識。如圖5所示,并且更概括地示出在圖1,該方法包括使用該句法分析方法的文件分析步驟S1到S10、文件搜索步驟S130到S180、以及結(jié)果顯示步驟S190到S220。
即,如圖1所示的不具有輸入句子而具有輸入文件的文件分析是基于在其中語素的語法功能和特征事先被存儲在數(shù)據(jù)庫中的移動結(jié)構(gòu)概念的句法分析方法。并且,如果輸入需要分析的句子,通過使用詞根,定義了語素,并且根據(jù)和在定義的語素中被定義為字尾的語素相匹配的數(shù)據(jù)庫的語法支配關(guān)系,在相應(yīng)語素之間的關(guān)系由預(yù)定的符號指定,以便描述該句子的語法關(guān)系。在文件分析步驟中,作為分析的對象的文件的句子分析信息被以句子分析字典的形式存儲在索引數(shù)據(jù)庫中,并且這和如上所述的句法分析方法中相同。
在完成這種準備步驟后,在問題句法分析步驟S110和S120中,如果在步驟S100輸入提問期望信息的自然語言形式的問題,通過如上所述的基于移動結(jié)構(gòu)概念的句法分析方法,詢問句子的句子構(gòu)成在步驟S110中被分析。在步驟S120,該句子構(gòu)成分析的結(jié)果被根據(jù)句子構(gòu)成信息逐字分解,并且通過掌握問題的疑問形式,基于存儲事先輸入的句子信息的句子信息數(shù)據(jù)庫10的詳細問題確定該問題。
在此,自然語言形式的詢問句子是能由人基于人的思路容易地理解的人類語言。如圖6頂端的“檢索字”窗口所示的,這種句子的一個例子是“NoogaCheolsooreul joahani?(誰喜歡Cheolsoo?)”。
因此,在這個問題句法分析步驟之后,圖6所示的問題分析結(jié)果(詢問分析器)的句子構(gòu)成,“Nooga Cheolsooreul joahani?”能夠被定義為“SUB(主語)OBJ(賓語)HEAD(謂語)”。
作為參考,圖6中央的窗口“整體索引量”示出了事先在文件分析步驟分析的文件的數(shù)量“47”、分析的句子的數(shù)量“92”和分析的字的數(shù)量“257”。
隨后在文件檢索步驟的句子類型確定步驟130,使用作為對象的字典數(shù)據(jù)庫13在字典中確定的細節(jié)問題的標簽的角色被改變?yōu)楦鶕?jù)所期望的疑問句的形式進行檢索的角色,并且具有用于檢索的改變了的標簽的字在步驟S130從字典數(shù)據(jù)庫13中檢索出來。
即,如圖6所示,分析疑問句子的形式并且得出“Nooga=>疑問字,主語”。據(jù)此,在其中檢索標簽的角色在于指示一個賓語的“Cheosooreul”被不變地轉(zhuǎn)換成一個賓語或主語,并且該標簽被轉(zhuǎn)換成“Cheolsoo/nc”,并且作為疑問謂語的“Joahani?”被轉(zhuǎn)換成通用謂語“joaha/pv”,并且這些被在句子分析字典(字典)中搜索。
在此,文件檢索步驟130可以包括根據(jù)用戶的選擇通過特殊檢索規(guī)則信息11和名詞系統(tǒng)數(shù)據(jù)庫12產(chǎn)生用于特殊檢索模式的條件的特殊檢索模式條件產(chǎn)生步驟S150。作為替代,文件檢索步驟130可以包括用于執(zhí)行字典數(shù)據(jù)庫13的通用檢索的通用檢索模式條件產(chǎn)生步驟Sl60。
該通用檢索模式是在其中通過僅僅使用句法分析的信息和僅僅基于問題的句法分析結(jié)果的檢索方法,搜索已經(jīng)分析的文件數(shù)據(jù)庫并且提取和提供匹配內(nèi)容。
這個通用檢索模式可以使用通過其提取和提供匹配給定問題直接組分的數(shù)據(jù)的成分匹配檢索方法?;蛘?,該通用檢索模式可以使用意思匹配檢索方法,通過該方法,形成問題的組分被包括,但是提取和提供包含了語義上和作為核心字的謂語類似的謂語的數(shù)據(jù)。
同時,特殊檢索模式是當問題中包括特殊表達式時,基于該表達式,檢索和提供在語義上依賴于給定組分的內(nèi)容的方法。例如,如果輸入問題,“Cheolsooga mooseun kwaileul meogeonni?(Cheolsoo吃了什么水果?)”,則具有Cheolsoo吃預(yù)定類型水果內(nèi)容的文件,包括“Cheolsooga sagwareulmeogeodda(Cheolsoo吃了一個蘋果),”被作為期望的句子提取和提供。
即,對于這種特殊檢索模式,使用諸如特殊檢索規(guī)則信息11和名詞系統(tǒng)數(shù)據(jù)12的關(guān)于名詞語義層級結(jié)構(gòu)的數(shù)據(jù)庫。
隨后,如圖8所示,為了產(chǎn)生在其中角色倒置的反向文件數(shù)據(jù)庫14,在步驟S170,訪問該數(shù)據(jù)庫并返回結(jié)果,并且如圖9所示在步驟180具有被轉(zhuǎn)換成AND和OR條件的多個結(jié)果的檢索標簽的字的檢索頻度被計算。
即,如圖9和10所示,第一文件的第一句話“Youngheeneun Cheolsooreuljoahanda.(Younghee喜歡Cheolsoo.)”,第23句話“YoungheeneunCheolsooreul joahanda.(Younghee喜歡Cheolsoo.)”,第60句話“Youngheeneun Cheolsooreul joahanda.”被檢索到。
隨后,在結(jié)果顯示步驟S190到S220,如圖11所示,諸如檢索字、包含檢索標簽的句子、包含該句子的文件信息和文件內(nèi)容的多種結(jié)果在步驟S190確定。在步驟S200中根據(jù)頻率計算排序。在步驟S210,包含這些的文件信息數(shù)據(jù)庫15被讀出并且外部信息被參照。最終,結(jié)果在步驟S220輸出。
因此,如圖12所示,如果諸如“Nooga Cheol sooreul joahani?(誰喜歡Cheolsoo?)”的自然語言問題被在檢索字窗口輸入,在問題句法分析窗口后置詞和字尾被作為語素分析并顯示為“Noo/np”、“ga/jc”、“Cheolsoo/nc”、“reul/jc”、“joaha/pv”、“ni/et”和“?/s”。
這些是用具有檢索標簽的字檢索的,并且該結(jié)果被顯示在檢索結(jié)果窗口中。在檢索結(jié)果窗口中,諸如“Cheolsooneun Soonjado joahanda?(Cheolsoo也喜歡Soonja?)”的句子可以和句子“Younghee likes Cheolsoo”一起顯示,以便詢問者能進行全面的確定。
同時,雖然未示出,使用這種自然語言檢索方法的自然語言檢索系統(tǒng)包括諸如微處理器或CPU的用于控制各種輸入和輸出裝置的控制單元、諸如RAM、ROM或硬盤的用于存儲各種類型信息的存儲裝置。在該存儲裝置中,以存儲文件的句子分析信息的句子分析字典(字典)的形式建立索引數(shù)據(jù)庫,所述文件是由基于移動結(jié)構(gòu)概念的句法分析方法檢索的對象。在該句法分析方法中,事先在數(shù)據(jù)庫中存儲語素的語法功能和特征,并且如果輸入要分析的句子,通過使用詞根,定義了語素,并且根據(jù)和在定義的語素中被定義為字尾的語素相匹配的數(shù)據(jù)庫的語法支配關(guān)系,在相應(yīng)語素之間的關(guān)系由預(yù)定的符號指定,以便描述該句子的語法關(guān)系,同時,控制單元被如此編程,如果在索引數(shù)據(jù)庫中輸入自然語言的問題,則通過如上所述的基于移動結(jié)構(gòu)概念的句法分析方法,分析該詢問句的句子構(gòu)成;通過對句子構(gòu)成分析的分析結(jié)果進行分析,根據(jù)句子構(gòu)成信息逐字分解該結(jié)果;通過掌握問題的疑問形式,確定用于該句子分析字典的分解的詳細問題;在句子分析字典中確定的詳細問題的標簽被角色轉(zhuǎn)換為根據(jù)所期望的詢問句的形式的檢索標簽;在句子分析字典中檢索具有轉(zhuǎn)換了的檢索標簽的字并且計數(shù)檢索的頻度;并且以頻度順序顯示檢索字、包含檢索標簽的句子和包含該句子的文件的內(nèi)容。
因此,本發(fā)明中實施的自然語言檢索系統(tǒng)收集要索引的文件,隨后對形成每個文件的句子進行索引,并且再次根據(jù)句法分析器的輸出結(jié)果以每個句子的成分對語法功能進行索引,以便如果具有包含相關(guān)信息的文件,則能夠準確地發(fā)現(xiàn)和提供該文件。
例如,除了在附圖中所示的“Nooga Cheolsooreul joahani?”,如果諸如“Cheolsooga noogureul mannadni?(Cheolsoo會見了誰?)”或者“Cheolsooga mannan sarameun?(Cheolsoo去見了誰?)”的句子被輸入,則問題的焦點在于“manada(會見)”的賓語。因此,通過搜索具有作為主語的“Cheolsoo”和具有謂語“manada”的賓語的句子,能夠提供結(jié)果。
因此,由于該方法包括意思信息,在疑問句的情況下,類似的表達式被自動確定,以便能夠快速和準確地檢索并且能夠進行包含甚至是意思計算的智能檢索。
此外,能夠顯著改善檢索結(jié)果的相關(guān)性,并且超越于簡單的匹配檢索,甚至考慮語法關(guān)系的準確和智能的檢索也能進行。
而且,基于這種句法分析和自然語言檢索的韓語-外語語言翻譯機器具有新的市場。此外,能夠新創(chuàng)造處理智能語言的各種市場。
例如,參照附圖如上描述了和韓語應(yīng)用相關(guān)的本發(fā)明的一個實施例。然而,本發(fā)明能夠被應(yīng)用到具有后置詞或詞尾具有重要性的其它語言,例如日語。使用該句法分析器的自然語言檢索系統(tǒng)還可以被應(yīng)用到計算機必須理解人類語言的所有領(lǐng)域,例如,在人工智能計算機的提問和回答系統(tǒng)中或者在諸如Yahoo的因特網(wǎng)門戶網(wǎng)站的搜索引擎中。
因此,本發(fā)明的范圍并不由上述的說明來確定,而是由所附的權(quán)利要求所確定的,在不脫離由所附權(quán)利要求及其法律等價物定義的本發(fā)明的范圍的前提下可以對所說明的實施例進行變動和修改。
權(quán)利要求
1.一種用于分析句法和描述所述句法的語法功能的句法分析方法,在建立了用于分析輸入句子的語素的語素字典程序、用于存儲語法規(guī)則的語法規(guī)則數(shù)據(jù)庫以及用于存儲句子的每個成分的屬于中心字的子分類,諸如字干和字尾的細節(jié)的子分類數(shù)據(jù)庫,以便基于將后置詞和字尾兩者都認作句法單元的標記理論,承認字形變化的字尾的句法狀態(tài),并且字之間的組合關(guān)系能夠被在語法上定義為一個整體后,所述方法包括分析語素,其中,如果輸入要分析的句子,則根據(jù)所述語素字典程序以多語素為單位分析該語素的內(nèi)容,并且在通過多語素在語素分析數(shù)據(jù)中選擇了適合于輸入數(shù)據(jù)的語素分析情況后,預(yù)處理被執(zhí)行;和分析句法,其中通過使用所分析的語素,首先根據(jù)存儲在語法規(guī)則數(shù)據(jù)庫中的語法角色建立句子的部分結(jié)構(gòu),并且隨后通過使用所述子分類數(shù)據(jù)庫,建立整體結(jié)構(gòu),并且通過計算每個結(jié)構(gòu)的權(quán)重值,確定最合適的優(yōu)選情況并輸出。
2.如權(quán)利要求1所述的方法,其中所述分析句法包括執(zhí)行預(yù)處理,其中是否在多語素列表中包括句子構(gòu)成由多語素列表程序確定,并且如果有多語素句子構(gòu)成,則多語素構(gòu)成被轉(zhuǎn)換成多語素形式,并且字的意思由語義特征程序確定并包括在語素中;通過操作和重復(fù)內(nèi)部閉環(huán)來形成部分結(jié)構(gòu),其中,如果輸入用語音的語義特征部分標簽的語素,該語素被當作單個語素對待,并且通過根據(jù)存儲在語法規(guī)則數(shù)據(jù)庫中的語法角色來確定是否局部結(jié)構(gòu)規(guī)則被應(yīng)用于所選的語素,形成局部結(jié)構(gòu),并且通過參照隨后要處理的賓語和確定是否形成了循環(huán)局部結(jié)構(gòu),建立內(nèi)部結(jié)構(gòu),并且如果沒有其它的內(nèi)部結(jié)構(gòu),重復(fù)執(zhí)行下面的處理根據(jù)分類和句子構(gòu)成以及基于子分類數(shù)據(jù)庫和修飾語類型數(shù)據(jù)庫的表達形式來形成整體結(jié)構(gòu);通過基于句子構(gòu)成的位置或特性來計算每個結(jié)構(gòu)的權(quán)重和選擇最重要的結(jié)構(gòu)來選擇最優(yōu)情況;和使用移動類型(樹型)鏈接線來輸出最優(yōu)情況,以便在所確定的最優(yōu)情況的整體結(jié)構(gòu)、每個部分結(jié)構(gòu)以及每個語素之間的關(guān)系由鏈接線對應(yīng)連接和指示。
3.如權(quán)利要求2所述的方法,其中,所述語義特征程序是用于以預(yù)定類型來分類字的意思,所述意思是用于確定語素的句法特性和意思信息的要素,以便確定有助于減少在復(fù)合句子結(jié)構(gòu)中的等價結(jié)構(gòu)的意思和對于每個字形變化的字的修飾語的列表的程序;所述多語素列表程序是執(zhí)行按照類型以便分類同一類型的后置詞或具有后置功能的后綴的字特征的程序;所述語法規(guī)則數(shù)據(jù)庫存儲關(guān)于定義相應(yīng)詞根的語法角色的信息;子分類數(shù)據(jù)庫存儲關(guān)于能屬于一個字形變化的字的組分的細節(jié),以及可改變的字形變化的字尾的形式的信息;并且修飾語類型數(shù)據(jù)庫存儲關(guān)于后置詞、字尾以及具有類似于后置詞或字尾功能的后綴的通用特性的信息,其確定能夠由核心字組合的局部結(jié)構(gòu)的類型,作為確定多分支結(jié)構(gòu)的等價結(jié)構(gòu)的要素。
4.一種使用基于移動結(jié)構(gòu)概念的句法分析方法的自然語言檢索方法,用于通過輸入自然語言問題來檢索文件(句子),所述方法包括分析文件,在其中作為檢索對象的文件的句子分析信息通過基于移動結(jié)構(gòu)概念的句法分析方法存儲在句子信息數(shù)據(jù)庫中,在所述基于移動結(jié)構(gòu)概念的句法分析方法中,建立用于存儲句子的每個成分的屬于中心字的子分類,諸如字干和字尾的細節(jié)的子分類數(shù)據(jù)庫,以便承認字形變化的字字尾的句法狀態(tài)并且字之間的組合關(guān)系能夠被在語法上定義為一個整體;而且當輸入期望被分析的句子時,分析語素的內(nèi)容,并且使用分析的語素,根據(jù)存儲在語法規(guī)則數(shù)據(jù)庫中的語法角色首先建立句子的部分結(jié)構(gòu),并且隨后,通過使用所述子分類數(shù)據(jù)庫,建立整體的結(jié)構(gòu);分析問題句法,其中在文件信息數(shù)據(jù)庫中,如果輸入了自然語言的問題,則首先根據(jù)基于移動結(jié)構(gòu)概念的句法分析方法分析問題的句法,句法分析結(jié)果被根據(jù)句法信息分解成字單元,掌握問題的疑問句類型,并且確定分解的細節(jié)的問題;檢索文件,在其中在句子分析字典中確定的細節(jié)問題的標簽的角色被轉(zhuǎn)換為用于根據(jù)所期望的詢問句類型檢索的標簽,在句子分析字典中檢索具有轉(zhuǎn)換了的用于檢索的標簽的字,并且基于檢索的頻度計算排序;和顯示包括檢索字、包括用于檢索的標簽的句子和包括該句子的文件的內(nèi)容的結(jié)果。
5.如權(quán)利要求4所述的方法,其中,所述檢索文件包括執(zhí)行通用檢索模式(步驟),其中,僅僅使用句法分析的信息,并且僅僅基于問題的句法分析的結(jié)果,搜索已經(jīng)分析過的文件數(shù)據(jù)庫并且提取和提供匹配內(nèi)容;和執(zhí)行特殊檢索模式(方法),其中,當在問題中包括特殊表達式時,根據(jù)檢索器的選擇,由特殊檢索規(guī)則信息和名詞系統(tǒng)數(shù)據(jù)產(chǎn)生用于特殊檢索模式的檢索條件,并且基于該條件,檢索和提供語義上取決于預(yù)定成分的內(nèi)容,其中,所述通用檢索步驟是由成分匹配檢索方法和意思匹配檢索方法形成的,通過所述成分匹配檢索方法,提取和提供匹配給定問題的直接組分的數(shù)據(jù),并且通過所述意思匹配檢索方法,包括形成問題的組分并提取和提供包括作為核心字的謂語和語義上類似的謂語的數(shù)據(jù),并且所述特殊檢索步驟使用特殊檢索規(guī)則信息和諸如名詞系統(tǒng)數(shù)據(jù)庫的基于名詞的語義層級結(jié)構(gòu)的數(shù)據(jù)庫。
全文摘要
本發(fā)明提供一種基于移動結(jié)構(gòu)概念的句法分析方法,以及使用該句法分析方法的自然語言搜索方法。所述句法分析方法包括在建立了用于分析輸入句子的語素的語素字典程序,和存儲句子的每個成分的屬于中心字的子分類,諸如字干和字尾的細節(jié)的子分類數(shù)據(jù)庫,以便基于將后置詞和字尾認作句法單元的標記理論來承認字形變化的字的句法狀態(tài),并且字之間的組合關(guān)系能被在語法上被定義為一個整體之后的語素分析和句法分析。在語素分析中,如果輸入了期望要分析的句子,該語素的內(nèi)容根據(jù)語素字典程序以多語素的單位被分析,并且在通過多語素操作在語素分析數(shù)據(jù)中選擇了適合于輸入數(shù)據(jù)的語素的分析情況后,執(zhí)行預(yù)處理。在句法分析中,使用分析的語素,根據(jù)存儲在語法規(guī)則數(shù)據(jù)庫中的語法角色首先建立句子的部分結(jié)構(gòu),并且隨后,通過使該子分類數(shù)據(jù)庫建立整體的結(jié)構(gòu)。隨后通過計算每個結(jié)構(gòu)的權(quán)重值,確定最適合的最優(yōu)情況并輸出。因此,任何被打亂的句子都能夠被容易和快速地分析,而不需要任何復(fù)雜的句法分析裝置。而且,能夠準確掌握在形成句子的表達式之間的關(guān)系,以便用戶請求的信息以和人類進行判斷同樣的方式來檢索,并且能夠提供準確的信息。
文檔編號G06F17/27GK1777888SQ200480011055
公開日2006年5月24日 申請日期2004年4月22日 優(yōu)先權(quán)日2003年4月24日
發(fā)明者禹蕣朝 申請人:禹蕣朝