亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文本語義理解方法及系統(tǒng)與流程

文檔序號:11829973閱讀:359來源:國知局
文本語義理解方法及系統(tǒng)與流程

本發(fā)明涉及自然語言處理技術領域,具體涉及一種文本語義理解方法及系統(tǒng)。



背景技術:

作為人工智能領域中最重要方向之一的自然語言理解技術,一直是相關領域研究人員研究的熱點。特別是近年來,隨著移動互聯(lián)網技術的迅速發(fā)展,信息化程度日益提高,網絡上的信息也隨之呈指數級劇增,人類進入了大數據時代。人們越發(fā)渴望能讓機器理解自然語言,從而從海量的數據中高效地分析和獲取有價值的信息。

傳統(tǒng)的語義理解系統(tǒng)主要是利用文法定義出若干種句子輸入集合,當輸入的文本在這些集合之中,則理解成功。近年來針對文本深層次的語義挖掘的需求,研究人員提出了基于文法規(guī)則的文本語義理解的方案。該方案中首先明確各具體應用環(huán)境下的應用句文法規(guī)則,用以描述各具體應用下的自然語言句法輸入;隨后對該句文法規(guī)則進行高效編譯得到計算機可理解的有向圖文法網絡;最后對接收到的自然語言輸入和有向圖文法網絡進行匹配解析,根據最優(yōu)匹配路徑抽取相關語義,實現(xiàn)對輸入的句子短語的深層語義理解。

然而,對于海量數據,采用傳統(tǒng)的基于文法規(guī)則的語義理解系統(tǒng)需要定義成千上萬種文法,其根據文法規(guī)則構建的有向圖文法網絡結構相當龐大、復雜。此外,傳統(tǒng)系統(tǒng)中有向圖文法網絡的解碼是一個廣度搜索的過程,因而在用戶文本與文法網絡進行匹配解析時,計算量大、耗時多,造成整個語義理解的效率大大下降,且其解碼過程中硬件資源消耗大。



技術實現(xiàn)要素:

本發(fā)明實施例提供一種文本語義理解方法及系統(tǒng),以解決現(xiàn)有技術解碼效率低,解碼過程中硬件資源消耗大的問題。

為此,本發(fā)明實施例提供如下技術方案:

一種文本語義理解方法,包括:

預先構建基于主網-子網模式的有向圖文法網絡,所述有向圖文法網絡包括一個主網絡、以及一個或多個子網絡,所述有向圖文法網絡的每段路徑對應一個文本字符或一個子網絡標識符;

獲取待解析文本;

基于所述有向圖文法網絡對所述文本進行解碼,得到解碼路徑;

獲取所述解碼路徑的相關語義作為語義理解結果。

優(yōu)選地,所述構建基于主網-子網模式的有向圖文法網絡包括:

根據各應用下自然語言輸入的句法特性建立句文法規(guī)則;

確定主網絡和子網絡各自對應的文本類型;

根據主網絡和子網絡各自對應的文本類型,對所述句文法規(guī)則進行編譯生成帶子網絡標識符的主網有向圖文法網絡、以及子網有向圖文法網絡。

優(yōu)選地,所述基于所述有向圖文法網絡對所述文本進行解碼,得到解碼路徑包括:

對待解析文本,從主網絡的首節(jié)點進行字串匹配;

如果主網絡的匹配路徑中出現(xiàn)子網絡標識符,則記錄主網絡匹配信息,并調用所述子網絡標識符對應的子網絡進行字串匹配,得到并記錄子網絡匹配信息;

在待解析文本全部匹配完成后,根據得到的主網絡匹配信息和子網絡匹配信息,得到解碼路徑。

優(yōu)選地,所述基于所述有向圖文法網絡對所述文本進行解碼,得到解碼路徑還包括:

在調用所述子網絡標識符對應的子網絡進行字串匹配時,判斷所述子網絡是否為首次調用;

如果是,則利用所述子網絡進行字串匹配,并將獲得的子網絡匹配信息保存到子網匹配結果管理器中;

否則,從所述子網匹配管理器中獲取歷史匹配結果作為子網絡匹配信息。

優(yōu)選地,所述子網絡匹配信息包括:子網絡匹配路徑、子網絡搜索標志、 已匹配字串的字數;所述主網絡匹配信息包括:主網絡匹配路徑、調用的子網絡的子網絡標識符、已匹配字串的字數;

所述判斷所述子網絡是否為首次調用包括:

如果所述子網絡搜索標志表示未搜索,則確定所述子網絡為首次調用;

如果所述子網絡搜索標志表示已搜索,并且所述主網絡匹配信息和子網絡匹配信息中的已匹配字串的字數相同,則確定所述子網絡為非首次調用。

優(yōu)選地,所述利用所述子網絡進行字串匹配包括:

利用所述子網絡進行字串匹配時,采用容錯機制進行字串匹配,所述容錯機制包括以下一種或多種字串匹配方式:自跳、連跳、錯字容錯。

優(yōu)選地,所述子網絡有一層或多層。

一種文本語義理解系統(tǒng),包括:

網絡構建模塊,用于預先構建基于主網-子網模式的有向圖文法網絡,所述有向圖文法網絡包括一個主網絡、以及一個或多個子網絡,所述有向圖文法網絡的每段路徑對應一個文本字符或一個子網絡標識符;

接收模塊,用于獲取待解析文本;

解碼模塊,用于基于所述有向圖文法網絡對所述文本進行解碼,得到解碼路徑;

結果獲取模塊,用于獲取所述解碼路徑的相關語義作為語義理解結果。

優(yōu)選地,所述網絡構建模塊包括:

規(guī)則設置單元,用于根據各應用下自然語言輸入的句法特性建立句文法規(guī)則;

文本劃分單元,用于確定主網絡和子網絡各自對應的文本類型;

編譯單元,用于根據主網絡和子網絡各自對應的文本類型,對所述句文法規(guī)則進行編譯生成帶子網絡標識符的主網有向圖文法網絡、以及子網有向圖文法網絡。

優(yōu)選地,所述解碼模塊包括:

匹配單元,用于對待解析文本,從主網絡的首節(jié)點進行字串匹配;并且在主網絡的匹配路徑中出現(xiàn)子網絡標識符時,記錄主網絡匹配信息,并調用所述子網絡標識符對應的子網絡進行字串匹配,得到并記錄子網絡匹配信息;

解碼路徑獲取單元,用于在所述匹配單元對待解析文本全部匹配完成后,根據所述匹配單元得到的主網絡匹配信息和子網絡匹配信息,得到解碼路徑。

優(yōu)選地,所述解碼模塊還包括:

判斷單元,用于在所述匹配單元調用所述子網絡標識符對應的子網絡進行字串匹配時,判斷所述子網絡是否為首次調用,并將判斷結果反饋給所述匹配單元;

所述匹配單元在所述判斷單元判斷所述子網絡是首次調用時,利用所述子網絡進行字串匹配,并將獲得的子網絡匹配信息保存到子網匹配結果管理器中,在所述判斷單元判斷所述子網絡是非首次調用時,從所述子網匹配管理器中獲取歷史匹配結果作為子網絡匹配信息。

優(yōu)選地,所述子網絡匹配信息包括:子網絡匹配路徑、子網絡搜索標志、已匹配字串的字數;所述主網絡匹配信息包括:主網絡匹配路徑、調用的子網絡的子網絡標識符、已匹配字串的字數;

所述判斷單元,具體用于在所述子網絡搜索標志表示未搜索時,確定所述子網絡為首次調用,在所述子網絡搜索標志表示已搜索,并且所述主網絡匹配信息和子網絡匹配信息中的已匹配字串的字數相同時,確定所述子網絡為非首次調用。

優(yōu)選地,所述匹配單元利用所述子網絡進行字串匹配時,采用容錯機制進行字串匹配,所述容錯機制包括以下一種或多種字串匹配方式:自跳、連跳、錯字容錯。

所述子網絡有一層或多層。

不同于傳統(tǒng)的基于文法規(guī)則構建的一個龐大復雜的有向圖文法網絡,本發(fā)明實施例文本語義理解方法將有向圖文法網絡分為主網絡和子網絡,有效地降低了有向圖文法網絡的復雜度,提高了解碼效率。而且,在對用戶輸入的待解析文本進行解碼時,采用深度優(yōu)先搜索方法對待解析文本進行文法網絡匹配解析,降低了內存消耗。

進一步地,對子網絡設置保存機制,對于同一次用戶輸入文本的解碼保存首次調用子網絡的匹配信息,在后續(xù)解碼重復調用該子網絡時,直接使用保存管理機制中保存的匹配結果,減少了子網絡的匹配次數,進一步提高了解碼效 率。

進一步地,通過容錯機制,提高了系統(tǒng)的容錯能力。

附圖說明

為了更清楚地說明本申請實施例或現(xiàn)有技術中的技術方案,下面將對實施例中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明中記載的一些實施例,對于本領域普通技術人員來講,還可以根據這些附圖獲得其他的附圖。

圖1是本發(fā)明實施例文本語義理解方法的流程圖;

圖2是本發(fā)明實施例中基于主網-子網模式的有向圖文法網絡示例一;

圖3是本發(fā)明實施例中基于主網-子網模式的有向圖文法網絡對文本進行解碼的流程圖;

圖4是本發(fā)明實施例中基于主網-子網模式的有向圖文法網絡示例二;

圖5是本發(fā)明實施例文本語義理解系統(tǒng)的結構示意圖。

具體實施方式

為了使本技術領域的人員更好地理解本發(fā)明實施例的方案,下面結合附圖和實施方式對本發(fā)明實施例作進一步的詳細說明。

如圖1所示,是本發(fā)明實施例文本語義理解方法的流程圖,包括以下步驟:

步驟101,預先構建基于主網-子網模式的有向圖文法網絡。

不同于傳統(tǒng)的基于文法規(guī)則構建的一個龐大復雜的有向圖文法網絡,本發(fā)明實施例中,將有向圖文法網絡分為主網絡和子網絡,即所述有向圖文法網絡包括一個主網絡、以及一個或多個子網絡,所述主網絡的每段路徑對應一個文本字符或一個子網絡標識符。而且,根據實際應用需要,子網絡還可以嵌套設置,即可以設置一層或多層。如果只有一層子網絡,則該子網絡的每段路徑對應一個文本字符;如果有多層子網絡,則最底層的子網絡的每段路徑對應一個文本字符,而除最底層之外的其它各層子網絡的每段路徑對應一個文本字符或一個子網絡標識符。

構建基于主網-子網模式的有向圖文法網絡的過程如下:

首先,根據各應用下自然語言輸入的句法特性建立句文法規(guī)則。所述句文法規(guī)則可以由用戶根據實際應用需求,也可以由系統(tǒng)預先根據通用應用需求,按照系統(tǒng)預先設定的文法規(guī)則確定,借以描述各應用下自然語言輸入句法可能。

然后,確定主網絡和子網絡各自對應的文本類型,以實現(xiàn)對主網絡與子網絡的劃分。具體地,首先對句文法規(guī)則進行分析,再確定構建主網絡與子網絡分別對應的文本類型,進而實現(xiàn)主網絡與子網絡的劃分。所述子網絡對應的文本類型,主要是用戶輸入容易出錯或易混淆的文本字串,一般限定為有比較明確上下文的名詞,比如歌手名、歌曲名、電視劇名等等。所述主網絡對應的文本類型,一般為模式比較固定,用戶輸入不容易出錯的文本字串。

在確定主網與子網各自對應的文本后,通過編譯即可生成帶子網絡標識符的主網有向圖文法網絡,以及子網有向圖文法網絡。

如對如下句文法規(guī)則進行編譯,得到的有向圖文法網絡如圖2所示:

$sub=王菲;

$main=我想聽$sub的歌;

其中,主網絡對應的文本為“我想聽xxx的歌”,文本類型的模式較固定,子網絡對應的文本為“王菲”,文本類型為有比較明確上下文的名詞,sub為子網絡標識符,所述有向圖文法網絡的每條路徑對應一個文本字符或一個子網絡標識符。

步驟102,獲取待解析文本。

步驟103,基于所述有向圖文法網絡對所述文本進行解碼,得到解碼路徑。

首先,對待解析文本,從主網絡的首節(jié)點進行字串匹配;如果主網絡的匹配路徑中出現(xiàn)子網絡標識符,則記錄主網絡匹配信息,并調用所述子網絡標識符對應的子網絡進行字串匹配,得到并記錄子網絡匹配信息;在待解析文本全部匹配完成后,根據得到的主網絡匹配信息和子網絡匹配信息,得到解碼路徑。

具體解碼過程將在后面詳細描述。

步驟104,獲取所述解碼路徑的相關語義作為語義理解結果。

如圖3所示,是本發(fā)明實施例中基于主網-子網模式的有向圖文法網絡對文本進行解碼的流程圖,包括以下步驟:

步驟301,主網絡字串匹配。

針對用戶輸入的待解析文本,從主網絡的首節(jié)點進行字串匹配。

步驟302,判斷是否調用子網絡,若是,則執(zhí)行步驟303,否則執(zhí)行步驟304。

在主網絡字串匹配時路徑中出現(xiàn)子網絡標識符,則判定需調用子網絡,否則判定無需調用子網絡。

步驟303,調用子網絡進行字串匹配。

前面提到,在調用子網絡時,需要記錄主網絡匹配信息,在根據子網絡進行匹配時,得到并記錄子網絡匹配信息,進而在待解析文本全部匹配完成后,可以根據得到的主網絡匹配信息及子網絡匹配信息得到解碼路徑。

在實際應用中,為了便于處理,可以分別設置“調用狀態(tài)管理器”和“子網匹配結果管理器”,分別存儲上述主網絡匹配信息及子網絡匹配信息。需要說明的是,每個子網絡各自對應一個“子網匹配結果管理器”。所述“調用狀態(tài)管理器”可以在文法網絡構建時創(chuàng)建,“子網匹配結果管理器”可以在相應的子網絡構建時創(chuàng)建,也可以解碼過程中調用子網絡時構建,對此本發(fā)明實施例不做限定。另外,需要說明的是,所述“調用狀態(tài)管理器”和“子網匹配結果管理器”在匹配過程中所存儲的信息,在對用戶一次輸入的待解析文本解碼完成后,需要全部清零,以避免對下一次解碼的影響;或者在下一次解碼開始之前,通過初始化對其進行全部清零,對此本發(fā)明實施例不做限定。

主網絡匹配信息包括:主網絡匹配路徑、調用的子網絡的子網絡標識符。子網絡匹配信息包括:子網絡匹配路徑。

為了進一步提高解碼效率,上述主網絡匹配信息還可包括:已匹配字串的字數,子網絡匹配信息還可包括:子網絡搜索標志、已匹配字串的字數。這樣,在后續(xù)解碼重復調用該子網絡時,可以直接使用子網絡已保存的匹配結果。需要說明的是,所述子網絡搜索標志可以在子網絡構建時創(chuàng)建,而且可以獨立存儲,也可以在創(chuàng)建對應該子網絡的“子網匹配結果管理器”后,將其移存到該“子網匹配結果管理器”中。

下面對調用子網絡的過程進行詳細說明。

調用子網絡時,首先在“調用狀態(tài)管理器”中存儲主網絡匹配路徑、調用的子網絡的子網絡標識符、當前已匹配字串的字數。其次,判斷該子網絡是否是首次調用,若是則進行子網絡字串匹配,并保存匹配結果,否則使用保存的歷史匹配結果。

所述子網終是否為首次調用的判斷,可以通過上述子網絡搜索標志及已匹配字串的字數來確定。比如,子網絡搜索標志值如果為0,則判斷為首次調用;如果子網絡搜索標志值為1,則進一步判斷“調用狀態(tài)管理器”中存儲的調用當前子網前已匹配字串的字數與“子網匹配結果管理器”中存儲的調用該子網前已匹配字串的字數是否相同,若相同則判斷為非首次調用。

子網絡首次調用時,在完成字串匹配后,在“子網匹配結果管理器”中保存子網絡匹配路徑、子網絡搜索標志、調用該子網前已匹配字串的字數。所述子網絡搜索標志用來標識該子網絡是否已經搜索過,其值可以為0或1,0表示未搜索,1表示已搜索,或反之。

子網非首次調用時,直接使用“子網匹配結果管理器”中存儲的子網字串匹配路徑信息。

步驟304,字串匹配直至結束,得到匹配路徑。

由此可見,不同于傳統(tǒng)的基于文法規(guī)則構建的一個龐大復雜的有向圖文法網絡,本發(fā)明實施例文本語義理解方法將有向圖文法網絡分為主網絡和子網絡,有效地降低了有向圖文法網絡的復雜度,提高了解碼效率。而且,在對用戶輸入的待解析文本進行解碼時,采用深度優(yōu)先搜索方法對待解析文本進行文法網絡匹配解析,降低了內存消耗。

進一步地,對子網絡設置保存機制,對于同一次用戶輸入文本的解碼保存首次調用子網絡的匹配信息,在后續(xù)解碼重復調用該子網絡時,直接使用保存管理機制中保存的匹配結果,進一步提高了解碼效率。

下面進一步舉例詳細說明本發(fā)明實施例基于主網-子網模式的有向圖文法網絡進行文本解碼的過程。

如圖4所示,展示了基于主網-子網模式的有向圖文法網絡。

該有向圖文法網絡主要應用為電影搜索,其中主網網絡main1的主體結構 為“我想看xxx的xxx”。該有向圖文法網絡共三個子網網絡,分別為sub1、sub2、sub3,其中sub1為電影演員名子網網絡,sub2為電視劇演員名子網網絡,sub3為電影名子網網絡,網絡中的eps表示空弧,是在編譯過程中自動添加的,所述空弧只是為了將句文法中的各個邏輯部分從形式上區(qū)分開,在使用網絡對自然語句解析時,可以忽略空弧,將空弧連接的兩個節(jié)點視為同一個節(jié)點。

如用戶輸入“我想看劉德華的無間道”,在所述文法網絡中共有兩條字串匹配路徑,路徑A和路徑B,具體匹配過程如下所述:

1.匹配路徑A(首次調用子網絡sub3):

a)從主網網絡開始進行“我想看”字串的精確匹配,路徑中出現(xiàn)子網絡標識符sub1;

b)調用子網網絡sub1,當前用戶輸入字串匹配字數為3,對應該子網絡的子網絡搜索標志為未搜索,創(chuàng)建對應該子網絡的匹配結果管理器,并將所述子網絡搜索標志保存到對應該子網絡的匹配結果管理器中,然后開始匹配字串“劉德華”,在對應該子網絡的匹配結果管理器中保存匹配路徑,對應該子網絡的子網絡搜索標志設為已搜索;返回主網絡;

c)進行字串“的”的匹配,路徑中出現(xiàn)子網絡標識符sub3;

d)調用子網網絡sub3,當前用戶輸入字串匹配字數為7,對應該子網絡的子網絡搜索標志為未搜索,創(chuàng)建對應該子網絡的匹配結果管理器,并將所述子網絡搜索標志保存到對應該子網絡的匹配結果管理器中,然后開始進行字串“無間道”的匹配,在對應該子網絡的匹配結果管理器中保存匹配路徑,對應該子網絡的子網絡搜索標志設為已搜索,返回主網絡,返回語義理解結果。

2.匹配路徑B(非首次調用子網絡sub3)

a)從主網絡開始進行“我想看”字串的精確匹配,路徑中出現(xiàn)子網絡標識符sub2;

b)調用子網絡sub2,當前用戶輸入字串匹配字數為3,對應該子網絡的子網絡搜索標志為未搜索,創(chuàng)建對應該子網絡的匹配結果管理器,開始匹配字串“劉德華”,在對應該子網絡的匹配結果管理器中保存匹配路徑,對應該子網絡的子網絡搜索標志設為已搜索;返回主網絡;

c)進行字串“的”的匹配,路徑中出現(xiàn)子網絡標識符sub3;

d)調用子網絡sub3,對應子網絡sub3的子網絡搜索標志為已搜索,并且當前用戶輸入字串匹配字數為7,與首次調用子網絡sub3時匹配結果管理器中存儲的已匹配字串的字數相同,因此本次調用無需進行字串匹配,直接使用對應子網絡sub3的匹配結果管理器中保存的匹配路徑即可,返回語義理解結果。

此外,需要說明的是,在實際應用中,所述子網絡在進行匹配時,還可以具有容錯機制,采用廣度優(yōu)先搜索方法進行網絡匹配解碼。用戶可以根據實際需求確定是否開啟容錯機制。

容錯機制主要包括以下一種或多種字串匹配方式:自跳、連跳、錯字容錯。下面繼續(xù)參照圖4所示的文法網絡,舉例說明應用容錯機制進行子網絡匹配的過程。

當待解析文本為“我想看劉劉德華的無間道”或“我想看劉張德華的無間道”時,所述子網中沒有“劉劉德華”或“劉張德華”時,可以通過自跳的方式,將多輸入的“劉”或“張”字串吸收掉,這兩種字串匹配路徑在調用子網絡sub3時,只需要進行一次字串匹配,另一種字串匹配路徑直接使用首次匹配結果即可。

當待解析文本為“我想看劉華的無間道”時,子網sub1或sub2中沒有“劉華”,而有“劉德華”、“劉青華”、“劉玉華”時,可以通過連跳的方式,將“劉華”容錯成“劉德華”、“劉青華”、“劉玉華”三種字串匹配路徑,當這三種匹配路徑在調用子網絡sub3時,只需要進行一次字串匹配,另兩種字串匹配路徑直接使用首次匹配結果即可。

當待解析文本為“我想看劉的華無間道”時,子網絡sub1或子網絡sub2中沒有“劉的華”,而有“劉德華”、“劉得華”、“劉海華”時,可以通過錯字容錯機制,計算不同錯字匹配路徑的懲罰值進行錯字容錯,如將“劉的華”容錯成“劉德華”、“劉得華”兩種字串匹配路徑。由于“海”字串與“的”字串在發(fā)音與字型上都不相近,所以不會容錯成“劉海華”,當所述兩種匹配路徑在調用子網絡sub3時,只需要進行一次字串匹配,另一種字串匹配路徑直接使用首次匹配結果即可。

可見,本發(fā)明實施例的文本語義理解方法,通過容錯機制,提高了系統(tǒng)的容錯能力。

相應地,本發(fā)明實施例還提供一種文本語義理解系統(tǒng),如圖5所示,是該系統(tǒng)的一種結構示意圖。

在該實施例中,所述系統(tǒng)包括:

網絡構建模塊501,用于預先構建基于主網-子網模式的有向圖文法網絡500,所述有向圖文法網絡500包括一個主網絡、以及一個或多個子網絡,所述有向圖文法網絡的每段路徑對應一個文本字符或一個子網絡標識符;

接收模塊502,用于獲取待解析文本;

解碼模塊503,用于基于所述有向圖文法網絡對所述文本進行解碼,得到解碼路徑;

結果獲取模塊504,用于獲取所述解碼路徑的相關語義作為語義理解結果。

上述網絡構建模塊501具體可以根據設置的句文法規(guī)則構建所述有向圖文法網絡。該模塊的一種具體結構包括以下各單元:

規(guī)則設置單元,用于根據各應用下自然語言輸入的句法特性建立句文法規(guī)則;

文本劃分單元,用于確定主網絡和子網絡各自對應的文本類型;

編譯單元,用于根據主網絡和子網絡各自對應的文本類型,對所述句文法規(guī)則進行編譯生成帶子網絡標識符的主網有向圖文法網絡、以及子網有向圖文法網絡。

上述解碼模塊503具體對待解析文本,從主網絡的首節(jié)點進行字串匹配;如果主網絡的匹配路徑中出現(xiàn)子網絡標識符,則記錄主網絡匹配信息,并調用所述子網絡標識符對應的子網絡進行字串匹配,得到并記錄子網絡匹配信息;在待解析文本全部匹配完成后,根據得到的主網絡匹配信息和子網絡匹配信息,得到解碼路徑。該模塊的一種具體結構包括匹配單元和解碼路徑獲取單元,其中:

所述匹配單元,用于對待解析文本,從主網絡的首節(jié)點進行字串匹配;并且在主網絡的匹配路徑中出現(xiàn)子網絡標識符時,記錄主網絡匹配信息,并調用所述子網絡標識符對應的子網絡進行字串匹配,得到并記錄子網絡匹配信息;

所述解碼路徑獲取單元,用于在所述匹配單元對待解析文本全部匹配完成后,根據所述匹配單元得到的主網絡匹配信息和子網絡匹配信息,得到解碼路徑。

本發(fā)明實施例文本語義理解系統(tǒng)將有向圖文法網絡分為主網絡和子網絡,有效地降低了有向圖文法網絡的復雜度,提高了解碼效率。而且,在對用戶輸入的待解析文本進行解碼時,采用深度優(yōu)先搜索方法對待解析文本進行文法網絡匹配解析,降低了內存消耗。

進一步地,上述解碼模塊503還可包括:判斷單元,用于在所述匹配單元調用所述子網絡標識符對應的子網絡進行字串匹配時,判斷所述子網絡是否為首次調用,并將判斷結果反饋給所述匹配單元。比如,所述子網絡匹配信息包括:子網絡匹配路徑、子網絡搜索標志、已匹配字串的字數;所述主網絡匹配信息包括:主網絡匹配路徑、調用的子網絡的子網絡標識符、已匹配字串的字數。這樣,所述判斷單元即可通過上述一些信息來判斷子網絡為首次調用還是非首次調用,具體地,在所述子網絡搜索標志表示未搜索時,確定所述子網絡為首次調用,在所述子網絡搜索標志表示已搜索,并且所述主網絡匹配信息和子網絡匹配信息中的已匹配字串的字數相同時,確定所述子網絡為非首次調用。

相應地,所述匹配單元在所述判斷單元判斷所述子網絡是首次調用時,利用所述子網絡進行字串匹配,并將獲得的子網絡匹配信息保存到子網匹配結果管理器中,在所述判斷單元判斷所述子網絡是非首次調用時,從所述子網匹配管理器中獲取歷史匹配結果作為子網絡匹配信息。

可見,本發(fā)明實施例的文本語義理解系統(tǒng),通過對子網絡設置保存機制,對于同一次用戶輸入文本的解碼保存首次調用子網絡的匹配信息,在后續(xù)解碼重復調用該子網絡時,直接使用保存管理機制中保存的匹配結果,進一步提高了解碼效率。

需要說明的是,在實際應用中,所述匹配單元在利用子網絡進行匹配時,還可以具有容錯機制,采用廣度優(yōu)先搜索方法進行網絡匹配解碼。所述容錯機制包括以下一種或多種字串匹配方式:自跳、連跳、錯字容錯。各容錯機制的解碼方式可參照前面本發(fā)明方法實施例中的描述,在此不再贅述。

另外,在本發(fā)明系統(tǒng)中,還可進一步設置容錯機制設置模塊,用于向用戶提供設置功能,由用戶根據實際需求確定是否開啟容錯機制。也就是說,如果用戶開啟了容錯機制,則在利用子網絡進行字串匹配時,采用容錯機制進行匹配,否則,采用精確匹配機制進行匹配。當然,在實際應用中,也可以根據實際應用環(huán)境需要,由系統(tǒng)預先設定是否采用容錯機制。

可見,本發(fā)明實施例的文本語義理解系統(tǒng),通過容錯機制,進一步提高了系統(tǒng)的容錯能力。

本說明書中的各個實施例均采用遞進的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于系統(tǒng)實施例而言,由于其基本相似于方法實施例,所以描述得比較簡單,相關之處參見方法實施例的部分說明即可。以上所描述的系統(tǒng)實施例僅僅是示意性的,其中所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網絡單元上。可以根據實際的需要選擇其中的部分或者全部模塊來實現(xiàn)本實施例方案的目的。本領域普通技術人員在不付出創(chuàng)造性勞動的情況下,即可以理解并實施。

以上對本發(fā)明實施例進行了詳細介紹,本文中應用了具體實施方式對本發(fā)明進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及系統(tǒng);同時,對于本領域的一般技術人員,依據本發(fā)明的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發(fā)明的限制。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1