本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,更具體地說,涉及一種基于知識(shí)圖譜的語義識(shí)別方法及系統(tǒng)。
背景技術(shù):
在自然語言處理中,語義識(shí)別是核心問題,只有完成該項(xiàng)工作,才能有效的識(shí)別自然語言輸入中的信息,讓計(jì)算機(jī)真正理解文本。簡(jiǎn)單來說,通過這項(xiàng)工作的實(shí)現(xiàn),計(jì)算機(jī)可以理解用戶通過自然語言形式輸入的信息,獲取用戶輸入的數(shù)據(jù)。
現(xiàn)有技術(shù)用于實(shí)現(xiàn)語義識(shí)別的技術(shù)方案一般基于機(jī)器學(xué)習(xí),具體來說,將整個(gè)語義識(shí)別過程分為多個(gè)步驟,包括分詞、詞性標(biāo)注、依存分析、命名實(shí)體識(shí)別及關(guān)鍵詞抽取等,而上述步驟均需使用機(jī)器學(xué)習(xí)的方法,基于標(biāo)注的上述資料訓(xùn)練對(duì)應(yīng)的語義識(shí)別模型,進(jìn)而將用戶輸入的信息作為該語義識(shí)別模型的輸入,即可得到該語義識(shí)別模型輸出的與用戶輸入信息對(duì)應(yīng)的語義識(shí)別結(jié)果。但是發(fā)明人發(fā)現(xiàn),由于語義識(shí)別模型與用于訓(xùn)練該模型的資料關(guān)聯(lián),即其僅僅能夠識(shí)別出與訓(xùn)練該模型的資料對(duì)應(yīng)的自然語言的語義,因此,對(duì)于其他自然語言而無法實(shí)現(xiàn)其語義識(shí)別。
綜上所述,現(xiàn)有技術(shù)中用于實(shí)現(xiàn)語義識(shí)別的技術(shù)方案存在無法支持與語義識(shí)別模型無關(guān)聯(lián)的自然語言的語義識(shí)別的問題。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的目的是提供一種基于知識(shí)圖譜的語義識(shí)別方法及系統(tǒng),以解決現(xiàn)有技術(shù)中用于實(shí)現(xiàn)語義識(shí)別的技術(shù)方案存在的無法支持與語義識(shí)別模型無關(guān)聯(lián)的自然語言的語義識(shí)別的問題。
為了實(shí)現(xiàn)上述目的,本發(fā)明提供如下技術(shù)方案:
一種基于知識(shí)圖譜的語義識(shí)別方法,包括:
預(yù)先構(gòu)建知識(shí)圖譜,該知識(shí)圖譜包括語音層、字層、表示層、語義層及意圖層,上述每層均具有對(duì)應(yīng)的單元;
接收用戶輸入的輸入信息,將該輸入信息轉(zhuǎn)換為語音單元,確定與每個(gè)語音單元關(guān)聯(lián)的字單元,并確定與每個(gè)字單元關(guān)聯(lián)的表示單元;
確定與每個(gè)表示單元關(guān)聯(lián)的語義單元,并根據(jù)每個(gè)語義單元與所述輸入信息中位于其對(duì)應(yīng)表示單元對(duì)應(yīng)位置之前的前驅(qū)組及之后的后繼組之間的關(guān)聯(lián)由所述語義單元中選取出選定語義單元;
確定與每個(gè)選定語義單元關(guān)聯(lián)的意圖單元,并根據(jù)每個(gè)意圖單元與對(duì)應(yīng)選定語義單元之間的關(guān)聯(lián)由所述意圖單元中選取出選定意圖單元,確定該選定意圖單元組成的選定意圖集合為與所述輸入信息對(duì)應(yīng)的意圖。
優(yōu)選的,確定與每個(gè)語音單元關(guān)聯(lián)的字單元之后及確定與每個(gè)字單元關(guān)聯(lián)的表示單元之后,還包括:
將包含第一單元大于對(duì)應(yīng)閾值,但只關(guān)聯(lián)到一個(gè)輸入信息對(duì)應(yīng)第一單元的第二單元去除,并將關(guān)聯(lián)到的輸入信息對(duì)應(yīng)第一單元數(shù)量與包含的第一單元數(shù)量的比值低于對(duì)應(yīng)閾值的第二單元去除;
其中,第二單元為字單元時(shí),第一單元為語音單元;第二單元為表示單元時(shí),第一單元為字單元。
優(yōu)選的,選取出所述選定語義單元,包括:
將所述語義單元放入候選集合中,將每個(gè)表示單元及對(duì)應(yīng)的語義單元組成與每個(gè)表示單元對(duì)應(yīng)的單元組,基于每個(gè)單元組的最大前驅(qū)置信度及最大后繼置信度計(jì)算該單元組的語義置信度;
由所述候選集合中選取對(duì)應(yīng)單元組的語義置信度最大的語義單元為選定語義單元;
確定該選定語義單元在所述輸入信息中對(duì)應(yīng)的表示單元,并將所述候選集合中與該表示單元對(duì)應(yīng)的其他語義單元及與該表示單元在所述輸入信息中的位置沖突的表示單元及對(duì)應(yīng)語義單元去除;返回執(zhí)行由所述候選集合中選取對(duì)應(yīng)單元組的語義置信度最大的語義單元為選定語義單元的步驟,直至所述候選集合中不存在語義單元為止。
優(yōu)選的,計(jì)算每個(gè)單元組的語義置信度,包括:
確定當(dāng)前待計(jì)算的單元組為目標(biāo)單元組,并獲取所述目標(biāo)單元組的全部直接前驅(qū)組、直接后繼組、每個(gè)直接前驅(qū)組的最大前驅(qū)置信度及每個(gè)直接后繼組的最大后繼置信度;
基于所述目標(biāo)單元組對(duì)應(yīng)的前驅(qū)組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量、該目標(biāo)單元組對(duì)應(yīng)的表示單元與所述輸入信息中對(duì)應(yīng)位置的表示單元的匹配程度、該目標(biāo)單元組對(duì)應(yīng)的字單元數(shù)量、該目標(biāo)單元組對(duì)應(yīng)的每個(gè)直接前驅(qū)組的最大前驅(qū)置信度及該目標(biāo)單元組與所述輸入信息的關(guān)聯(lián)度計(jì)算所述目標(biāo)單元組對(duì)應(yīng)于每個(gè)直接前驅(qū)組的前驅(qū)置信度,并從中選取最大的前驅(qū)置信度為該目標(biāo)單元組的最大前驅(qū)置信度;
基于所述目標(biāo)單元組對(duì)應(yīng)的后繼組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量、該目標(biāo)單元組對(duì)應(yīng)的表示單元與所述輸入信息中對(duì)應(yīng)位置的表示單元的匹配程度、該目標(biāo)單元組對(duì)應(yīng)的字單元數(shù)量、該目標(biāo)單元組對(duì)應(yīng)的每個(gè)直接后繼組的最大后繼置信度及該目標(biāo)單元組與所述輸入信息的關(guān)聯(lián)度計(jì)算所述目標(biāo)單元組對(duì)應(yīng)于每個(gè)直接后繼組的后繼置信度,并從中選取最大的后繼置信度為該目標(biāo)單元組的最大后繼置信度;
基于所述目標(biāo)單元組對(duì)應(yīng)的前驅(qū)組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量、該目標(biāo)單元組對(duì)應(yīng)的表示單元與所述輸入信息中對(duì)應(yīng)位置的表示單元的匹配程度、該目標(biāo)單元組對(duì)應(yīng)的后繼組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量、該目標(biāo)單元組對(duì)應(yīng)的字單元數(shù)量、最大前驅(qū)置信度、最大后繼置信度及該單元組與所述輸入信息的關(guān)聯(lián)度計(jì)算該單元組的語義置信度。
優(yōu)選的,計(jì)算所述目標(biāo)單元組對(duì)應(yīng)于任一直接前驅(qū)組的前驅(qū)置信度,包括:
如果所述目標(biāo)單元組對(duì)應(yīng)的表示單元與該表示單元在所述輸入信息中對(duì)應(yīng)位置的表示單元完全匹配,則按照下式計(jì)算該目標(biāo)單元組對(duì)應(yīng)于任一直接前驅(qū)組的前驅(qū)置信度:
如果所述目標(biāo)單元組對(duì)應(yīng)的表示單元與該表示單元在所述輸入信息中對(duì)應(yīng)位置的表示單元不完全匹配,則按照下式計(jì)算該目標(biāo)單元組對(duì)應(yīng)于任一直接前驅(qū)組的前驅(qū)置信度:
其中,F(xiàn)ULLMATHRATE、STEPRATE、SESSIONRELATIONRATE為預(yù)先設(shè)定的系數(shù),preSteps表示所述目標(biāo)單元組對(duì)應(yīng)的前驅(qū)組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量,step.length表示所述目標(biāo)單元組對(duì)應(yīng)的字單元數(shù)量,pre.rate表示任一直接前驅(qū)組的最大前驅(qū)置信度,sessionRelationRate表示所述目標(biāo)單元組與所述輸入信息的關(guān)聯(lián)度。
優(yōu)選的,計(jì)算所述目標(biāo)單元組對(duì)應(yīng)于任一直接后繼組的后繼置信度,包括:
如果所述目標(biāo)單元組對(duì)應(yīng)的表示單元與該表示單元在所述輸入信息中對(duì)應(yīng)位置的表示單元完全匹配,則按照下式計(jì)算該目標(biāo)單元組對(duì)應(yīng)于任一直接后繼組的后繼置信度:
如果所述目標(biāo)單元組對(duì)應(yīng)的表示單元與該表示單元在所述輸入信息中對(duì)應(yīng)位置的表示單元不完全匹配,則按照下式計(jì)算該目標(biāo)單元組對(duì)應(yīng)于任一直接后繼組的后繼置信度:
其中,F(xiàn)ULLMATHRATE、STEPRATE、SESSIONRELATIONRATE為預(yù)先設(shè)定的系數(shù),posSteps表示所述目標(biāo)單元組對(duì)應(yīng)的后繼組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量,step.length表示所述目標(biāo)單元組對(duì)應(yīng)的字單元數(shù)量,pos.rate表示任一直接后繼組的最大后繼置信度,sessionRelationRate表示所述目標(biāo)單元組與所述輸入信息的關(guān)聯(lián)度。
優(yōu)選的,計(jì)算所述目標(biāo)單元組的語義置信度,包括:
如果所述目標(biāo)單元組對(duì)應(yīng)的表示單元與該表示單元在所述輸入信息中對(duì)應(yīng)位置的表示單元完全匹配,則按照下式計(jì)算該目標(biāo)單元組的語義置信度:
如果所述目標(biāo)單元組對(duì)應(yīng)的表示單元與該表示單元在所述輸入信息中對(duì)應(yīng)位置的表示單元不完全匹配,則按照下式計(jì)算該目標(biāo)單元組的語義置信度:
其中,F(xiàn)ULLMATHRATE、STEPRATE、SESSIONRELATIONRATE為預(yù)先設(shè)定的系數(shù),preSteps表示所述目標(biāo)單元組對(duì)應(yīng)的前驅(qū)組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量,posSteps表示所述目標(biāo)單元組對(duì)應(yīng)的后繼組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量,step.length表示所述目標(biāo)單元組對(duì)應(yīng)的字單元數(shù)量,pre.rate表示所述目標(biāo)單元組的最大前驅(qū)置信度,pos.rate表示所述目標(biāo)單元組的最大后繼置信度,sessionRelationRate表示所述目標(biāo)單元組與所述輸入信息的關(guān)聯(lián)度。
優(yōu)選的,計(jì)算所述目標(biāo)單元組與所述輸入信息的關(guān)聯(lián)度,包括:
按照下列公式計(jì)算所述目標(biāo)單元組與所述輸入信息的關(guān)聯(lián)度:
其中,RELATIONRATE表示預(yù)先設(shè)定的系數(shù),S表示所述輸入信息對(duì)應(yīng)的全部語義單元的集合,s表示該集合中的任一個(gè)語義單元,c表示所述目標(biāo)單元組對(duì)應(yīng)的語義單元,dc→s表示語義單元c到語義單元s的語義距離。
優(yōu)選的,確定任兩個(gè)單元組之間是否存在語義關(guān)聯(lián),包括:
確定任兩個(gè)單元組分別對(duì)應(yīng)的語義單元,并以其中一個(gè)語義單元為檢索值在預(yù)先設(shè)置的檢索集中進(jìn)行檢索,如果得到的結(jié)果包括另一個(gè)語義單元,則確定這兩個(gè)單元組之間存在語義關(guān)聯(lián),否則,則確定這兩個(gè)單元組之間不存在語義關(guān)聯(lián);
對(duì)應(yīng)的,預(yù)先設(shè)置所述檢索集,包括:
對(duì)于任一語義單元A,查找與該語義單元A的語義距離小于對(duì)應(yīng)閾值的語義單元B,并將語義單元A與語義單元B之間的語義距離及語義單元B加入檢索集中;
查找與語義單元B的語義距離小于對(duì)應(yīng)閾值的語義單元C,并以語義單元A為檢索值在檢索集中進(jìn)行檢索,如果得到的結(jié)果包括語義單元C且語義單元A到語義單元C的語義距離大于語義單元A到語義單元B的語義距離及語義單元B到語義單元C的語義距離之和,則利用語義單元A到語義單元B的語義距離及語義單元B到語義單元C的語義距離之和替代語義單元A到語義單元C的語義距離。
優(yōu)選的,計(jì)算任兩個(gè)語義單元之間的語義距離,包括:
確定待計(jì)算的兩個(gè)語義單元分別為語義A及語義B,獲取語義A到語義B的每個(gè)父語義的全部第一路徑,基于預(yù)設(shè)原則計(jì)算每條第一路徑的長(zhǎng)度,并從中選取出長(zhǎng)度最短的第一路徑長(zhǎng)度,獲取語義A到語義B包含的每個(gè)義元及每個(gè)義元的父義元的全部第二路徑,基于預(yù)設(shè)原則計(jì)算每條第二路徑的長(zhǎng)度,并從中選取出長(zhǎng)度最短的第二路徑長(zhǎng)度,確定第一路徑長(zhǎng)度及第二路徑長(zhǎng)度中最短的路徑長(zhǎng)度為語義A到語義B的語義距離;所述預(yù)設(shè)原則為所述語義單元包括語義及義元,且語義到對(duì)應(yīng)義元、義元到對(duì)應(yīng)語義、子語義到對(duì)應(yīng)父語義及子義元到對(duì)應(yīng)父義元的距離值均為0,父語義到對(duì)應(yīng)子語義及父義元到對(duì)應(yīng)子義元的距離值均為∞,其他語義單元之間的距離值均為1。
優(yōu)選的,選取出選定語義單元之后,還包括:
將所述選定語義單元按照對(duì)應(yīng)表示單元在所述輸入信息中的位置進(jìn)行排列,如果存在連續(xù)多個(gè)語義單元均和一個(gè)或多個(gè)其他的語義單元具有語義關(guān)聯(lián),則利用該一個(gè)或多個(gè)其他的語義單元替代對(duì)應(yīng)的連續(xù)多個(gè)語義單元。
優(yōu)選的,將所述選定語義單元按照對(duì)應(yīng)表示單元在所述輸入信息中的位置進(jìn)行排列之后,還包括:
將進(jìn)行排列之后的選定語義單元替換為對(duì)應(yīng)的表示單元,得到對(duì)所述輸入信息的分詞結(jié)果。
優(yōu)選的,選取出選定意圖單元,包括:
對(duì)于任一意圖單元,將每個(gè)與該意圖單元關(guān)聯(lián)的語義單元對(duì)該意圖單元的語義置信度的值相加,得到該意圖單元的文本置信度;
確定所述文本置信度大于對(duì)應(yīng)閾值的意圖單元為選定意圖單元。
優(yōu)選的,選取出選定意圖單元之后,還包括:
對(duì)于所述語義單元中具有否定義元的語義,確定與該語義對(duì)應(yīng)表示單元在所述輸入信息中位置最近的具有動(dòng)詞詞性的表示單元或者具有由連詞連接的多個(gè)動(dòng)詞詞性的表示單元為特定表示單元,確定與所述特定表示單元對(duì)應(yīng)的選定意圖單元,并將該選定意圖單元確定為否定意圖單元,將所述選定意圖單元中與所述否定意圖單元相同的選定意圖單元去除。
一種基于知識(shí)圖譜的語義識(shí)別系統(tǒng),包括:
圖譜構(gòu)建模塊,用于預(yù)先構(gòu)建知識(shí)圖譜,該知識(shí)圖譜包括語音層、字層、表示層、語義層及意圖層,上述每層均具有對(duì)應(yīng)的單元;
轉(zhuǎn)換模塊,用于接收用戶輸入的輸入信息,將該輸入信息轉(zhuǎn)換為語音單元,確定與每個(gè)語音單元關(guān)聯(lián)的字單元,并確定與每個(gè)字單元關(guān)聯(lián)的表示單元;
第一選取模塊,用于確定與每個(gè)表示單元關(guān)聯(lián)的語義單元,并根據(jù)每個(gè)語義單元與所述輸入信息中位于其對(duì)應(yīng)表示單元對(duì)應(yīng)位置之前的前驅(qū)組及之后的后繼組之間的關(guān)聯(lián)由所述語義單元中選取出選定語義單元;
第二選取模塊,用于確定與每個(gè)選定語義單元關(guān)聯(lián)的意圖單元,并根據(jù)每個(gè)意圖單元與對(duì)應(yīng)選定語義單元之間的關(guān)聯(lián)由所述意圖單元中選取出選定意圖單元,確定該選定意圖單元組成的選定意圖集合為與所述輸入信息對(duì)應(yīng)的意圖。
本發(fā)明提供的一種基于知識(shí)圖譜的語義識(shí)別方法及系統(tǒng),該方法包括:預(yù)先構(gòu)建知識(shí)圖譜,該知識(shí)圖譜包括語音層、字層、表示層、語義層及意圖層,上述每層均具有對(duì)應(yīng)的單元;接收用戶輸入的輸入信息,將該輸入信息轉(zhuǎn)換為語音單元,確定與每個(gè)語音單元關(guān)聯(lián)的字單元,并確定與每個(gè)字單元關(guān)聯(lián)的表示單元;確定與每個(gè)表示單元關(guān)聯(lián)的語義單元,并根據(jù)每個(gè)語義單元與所述輸入信息中位于其對(duì)應(yīng)表示單元對(duì)應(yīng)位置之前的前驅(qū)組及之后的后繼組之間的關(guān)聯(lián)由所述語義單元中選取出選定語義單元;確定與每個(gè)選定語義單元關(guān)聯(lián)的意圖單元,并根據(jù)每個(gè)意圖單元與對(duì)應(yīng)選定語義單元之間的關(guān)聯(lián)由所述意圖單元中選取出選定意圖單元,確定該選定意圖單元組成的選定意圖集合為與所述輸入信息對(duì)應(yīng)的意圖。本申請(qǐng)公開的上述技術(shù)方案中,預(yù)先構(gòu)建知識(shí)圖譜,該知識(shí)圖譜由語音識(shí)別中能夠識(shí)別的基本元素至意圖對(duì)應(yīng)的各層,即語音層至意圖層,由此,在對(duì)用戶輸入的輸入信息進(jìn)行語義識(shí)別時(shí),先獲取與輸入信息對(duì)應(yīng)的語音單元,進(jìn)而逐步獲取與語音單元對(duì)應(yīng)的字單元、表示單元、語義單元及意圖單元,并基于輸入信息的上下文對(duì)語義單元及意圖單元進(jìn)行篩選,從而得出最終與輸入信息對(duì)應(yīng)的意圖單元,確定輸入信息的意圖。與現(xiàn)有技術(shù)相比,本申請(qǐng)公開的上述技術(shù)方案無需訓(xùn)練語義識(shí)別模型,而是利用上述知識(shí)圖譜實(shí)現(xiàn)語義識(shí)別功能,而上述知識(shí)圖譜與現(xiàn)有的語義識(shí)別模型最大的區(qū)別就在于其每層中包含的單元是可以與全部自然語言對(duì)應(yīng)的,因此,可以對(duì)全部自然語言進(jìn)行語義識(shí)別,具有通用性,從而解決了現(xiàn)有技術(shù)中無法支持與語義識(shí)別模型無關(guān)聯(lián)的自然語言的語義識(shí)別的問題。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別方法的流程圖;
圖2為本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別方法中知識(shí)圖譜的示意圖;
圖3為本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別方法中知識(shí)圖譜中各層各單元之間的連接關(guān)系示意圖;
圖4為本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別方法中語義層中語義關(guān)聯(lián)示意圖;
圖5為本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別方法中選取選定語義單元的流程圖;
圖6為本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別系統(tǒng)的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
請(qǐng)參閱圖1,其示出了本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別方法的流程圖,可以包括以下步驟:
S11:預(yù)先構(gòu)建知識(shí)圖譜,該知識(shí)圖譜包括語音層、字層、表示層、語義層及意圖層,上述每層均具有對(duì)應(yīng)的單元。
需要說明的是,預(yù)先構(gòu)建知識(shí)圖譜的步驟只需執(zhí)行一次即可,即只要存在構(gòu)建好的知識(shí)圖譜,即可利用該知識(shí)圖譜進(jìn)行語義識(shí)別;在使用過程中,也可以對(duì)構(gòu)建好的知識(shí)圖譜進(jìn)行維護(hù),添加、刪除或修改知識(shí)圖譜中的單元和單元之間的邊。當(dāng)然,如果有特殊需要也可以執(zhí)行多次,均在本發(fā)明的保護(hù)范圍之內(nèi)。知識(shí)圖譜可以分為語音層、字層、表示層、語義層及意圖層,每層均具有對(duì)應(yīng)的單元,其中,語音層內(nèi)的語音單元表示語音識(shí)別中能夠識(shí)別的基本元素,包括但不限于拼音、音標(biāo)等;字層的字單元包括但不限于漢字、類似漢字的標(biāo)識(shí)符及各類字母等;表示層內(nèi)存儲(chǔ)的為具有語義的表示,對(duì)應(yīng)的表示單元包括但不限于中文的詞、英文的詞、詞組、縮寫及簡(jiǎn)單表示等,其中簡(jiǎn)單表示是指由字層中的元素組成,具有一個(gè)或者多個(gè)語義,但是不屬于詞、單詞、縮寫及詞組的所有表示層單元,如Note7、R9、iphone 7等;語義層存儲(chǔ)的是表示單元對(duì)應(yīng)的某種語義單元,包括但不限于語義和義元,其中義元是不可分割的語義單元,語義由一個(gè)或多個(gè)義元組成;意圖層存儲(chǔ)的意圖單元為對(duì)應(yīng)文本所代表的意圖及對(duì)應(yīng)的計(jì)算機(jī)系統(tǒng)的某種操作等,如文本為“關(guān)閉計(jì)算機(jī)”,則其對(duì)應(yīng)的意圖則為關(guān)閉計(jì)算機(jī)的操作。而在將知識(shí)圖譜放入存儲(chǔ)系統(tǒng)中時(shí),可以以圖的形式存儲(chǔ),也可以以表格的形式(key-value)、關(guān)系數(shù)據(jù)庫的形式或矩陣的方式存儲(chǔ),當(dāng)然也可以根據(jù)實(shí)際需要進(jìn)行其他設(shè)置,均在本發(fā)明的保護(hù)范圍之內(nèi)。
另外,當(dāng)知識(shí)圖譜中包含上述所列舉的示例時(shí),知識(shí)圖譜的示意圖如圖2所示,而各層的各單元之間的連接關(guān)系如圖3所示;另外,語義單元中的語義包含“直接表示語義”和“無直接表示語義”,“直接表示語義”和表示層中的表示單元之間存在直接的關(guān)聯(lián),而“無直接表示語義”和表示層中的表示單元之間不存在直接的關(guān)聯(lián),它的表示單元是由一個(gè)或者多個(gè)“直接表示語義”的表示單元組合而成,并且存在多種變化的組合。在語義層中,每一個(gè)語義包括一個(gè)或者多個(gè)義元,如果一個(gè)語義只包括一個(gè)義元,則可以將這個(gè)語義和義元合并,且在語義層中,語義和表示單元間有關(guān)聯(lián),但是和意圖單元之間沒有關(guān)聯(lián),義元和意圖單元之間存在關(guān)聯(lián),但是和表示單元間沒有關(guān)聯(lián)。需要說明的是,在語義層中存在如圖4所示的語義關(guān)聯(lián),其中,如果一個(gè)概念A(yù)是另一個(gè)概念B的部分個(gè)體的更詳細(xì)概念,則稱概念A(yù)是概念B的下義概念(或者說概念A(yù)是概念B的子概念),概念B是概念A(yù)的上義概念(或者說概念B是概念A(yù)的父概念),對(duì)應(yīng)的,語義可以具有對(duì)應(yīng)的子語義及父語義,義元也可以具有對(duì)應(yīng)的子義元及父義元;當(dāng)然,在語義層內(nèi)也可以存在一些其它關(guān)聯(lián),這些關(guān)聯(lián)既可以是其它定義的類型,也可以沒有特定類型,即可以為兩個(gè)語義節(jié)點(diǎn)之間設(shè)置一個(gè)關(guān)聯(lián)。
S12:接收用戶輸入的輸入信息,將該輸入信息轉(zhuǎn)換為語音單元,確定與每個(gè)語音單元關(guān)聯(lián)的字單元,并確定與每個(gè)字單元關(guān)聯(lián)的表示單元。
其中,用戶輸入的輸入信息可以是用戶以語音形式或者拼音形式輸入的信息,將用戶輸入的信息轉(zhuǎn)換為語音單元,可以是轉(zhuǎn)換為上例中的拼音(對(duì)應(yīng)漢字)或者音標(biāo)(對(duì)應(yīng)各類語言),將每個(gè)語音單元關(guān)聯(lián)的字單元取出,進(jìn)而將每個(gè)字單元關(guān)聯(lián)的表示單元取出,當(dāng)轉(zhuǎn)換的語音單元包括拼音、音標(biāo)時(shí),對(duì)應(yīng)的字單元可以包括與拼音對(duì)應(yīng)的漢字及與音標(biāo)對(duì)應(yīng)的標(biāo)識(shí)符及各類字母等,進(jìn)一步對(duì)應(yīng)的表示單元可以包括與漢字對(duì)應(yīng)的中文的詞、詞組及與標(biāo)識(shí)符及各類字母對(duì)應(yīng)的英文詞、詞組、縮寫等。而語音單元與字單元之間的關(guān)聯(lián)關(guān)系及字單元與表示單元之間的關(guān)聯(lián)關(guān)系均可以是預(yù)先設(shè)定的。
S13:確定與每個(gè)表示單元關(guān)聯(lián)的語義單元,并根據(jù)每個(gè)語義單元與輸入信息中位于其對(duì)應(yīng)表示單元對(duì)應(yīng)位置之前的前驅(qū)組及之后的后繼組之間的關(guān)聯(lián)由語義單元中選取出選定語義單元。
其中,表示單元與語義單元之間的關(guān)聯(lián)關(guān)系可以預(yù)先設(shè)定?;诒硎締卧梢源_定出表示單元在輸入信息中的位置及位于其位置之前的前驅(qū)組和位于其位置之后的后繼組,基于語義單元與前驅(qū)組及后繼組之間的關(guān)聯(lián)由對(duì)應(yīng)的全部語義單元中選取出選定語義單元,即根據(jù)文本上下文選定出與文本上下文的表達(dá)一致的語義單元,從而避免其他語義單元對(duì)語義識(shí)別造成的不良影響。
S14:確定與每個(gè)選定語義單元關(guān)聯(lián)的意圖單元,并根據(jù)每個(gè)意圖單元與對(duì)應(yīng)選定語義單元之間的關(guān)聯(lián)由意圖單元中選取出選定意圖單元,確定該選定意圖單元組成的選定意圖集合為與輸入信息對(duì)應(yīng)的意圖。
其中,語義單元與意圖單元之間的關(guān)聯(lián)關(guān)系可以預(yù)先設(shè)定。由于選定語義單元為與輸入信息上下文表達(dá)一致的語義單元,因此,基于選定語義單元實(shí)現(xiàn)對(duì)對(duì)應(yīng)選定意圖單元的選取,能夠順利實(shí)現(xiàn)對(duì)于輸入信息意圖的確定。
本申請(qǐng)公開的上述技術(shù)方案中,預(yù)先構(gòu)建知識(shí)圖譜,該知識(shí)圖譜由語音識(shí)別中能夠識(shí)別的基本元素至意圖對(duì)應(yīng)的各層,即語音層至意圖層,由此,在對(duì)用戶輸入的輸入信息進(jìn)行語義識(shí)別時(shí),先獲取與輸入信息對(duì)應(yīng)的語音單元,進(jìn)而逐步獲取與語音單元對(duì)應(yīng)的字單元、表示單元、語義單元及意圖單元,并基于輸入信息的上下文對(duì)語義單元及意圖單元進(jìn)行篩選,從而得出最終與輸入信息對(duì)應(yīng)的意圖單元,確定輸入信息的意圖。與現(xiàn)有技術(shù)相比,本申請(qǐng)公開的上述技術(shù)方案無需訓(xùn)練語義識(shí)別模型,而是利用上述知識(shí)圖譜實(shí)現(xiàn)語義識(shí)別功能,而上述知識(shí)圖譜與現(xiàn)有的語義識(shí)別模型最大的區(qū)別就在于其每層中包含的單元是可以與全部自然語言對(duì)應(yīng)的,因此,可以對(duì)全部自然語言進(jìn)行語義識(shí)別,具有通用性,從而解決了現(xiàn)有技術(shù)中無法支持與語義識(shí)別模型無關(guān)聯(lián)的自然語言的語義識(shí)別的問題。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別方法,確定與每個(gè)語音單元關(guān)聯(lián)的字單元之后及確定與每個(gè)字單元關(guān)聯(lián)的表示單元之后,還可以包括:
將包含第一單元大于對(duì)應(yīng)閾值,但只關(guān)聯(lián)到一個(gè)輸入信息對(duì)應(yīng)第一單元的第二單元去除,并將關(guān)聯(lián)到的輸入信息對(duì)應(yīng)第一單元數(shù)量與包含的第一單元數(shù)量的比值低于對(duì)應(yīng)閾值的第二單元去除;
其中,第二單元為字單元時(shí),第一單元為語音單元;第二單元為表示單元時(shí),第一單元為字單元。
依然以上文中每層包含的單元示例為例進(jìn)行說明,當(dāng)?shù)诙卧獮樽謫卧獣r(shí),第一單元為語音單元時(shí),對(duì)于包含拼音對(duì)應(yīng)字母數(shù)量大于對(duì)應(yīng)閥值,但是只關(guān)聯(lián)到一個(gè)拼音對(duì)應(yīng)字母的漢字,直接去除;對(duì)于關(guān)聯(lián)到的拼音對(duì)應(yīng)字母數(shù)量和包含的拼音對(duì)應(yīng)字母數(shù)量的比值低于對(duì)應(yīng)閥值的漢字,直接去除;對(duì)于包含音標(biāo)數(shù)量大于對(duì)應(yīng)閥值,但是只關(guān)聯(lián)到一個(gè)音標(biāo)的標(biāo)識(shí)符及各類字母等,直接去除,對(duì)于關(guān)聯(lián)到的音標(biāo)數(shù)量和包含的音標(biāo)數(shù)量的比值低于對(duì)應(yīng)閥值的標(biāo)識(shí)符及各類字母等,直接去除。當(dāng)?shù)诙卧獮楸硎締卧獣r(shí),第一單元為字單元時(shí),如果組成詞、詞組或縮寫的漢字、標(biāo)識(shí)符或各類字母等的數(shù)量大于對(duì)應(yīng)閥值,而只關(guān)聯(lián)到一個(gè)漢字、標(biāo)識(shí)符或各類字母等,則刪除該詞、詞組或縮寫;如果一個(gè)詞、詞組或縮寫關(guān)聯(lián)到的漢字、標(biāo)識(shí)符或各類字母等的數(shù)量與組成這個(gè)詞、詞組或縮寫的漢字、標(biāo)識(shí)符或各類字母數(shù)量的比值小于對(duì)應(yīng)閾值,則刪除這個(gè)詞、詞組或縮寫。該實(shí)施例中涉及的各項(xiàng)閾值均可以根據(jù)所針對(duì)的不同單元、所針對(duì)的同一單元的不同具體含義以及實(shí)際需要進(jìn)行人工設(shè)定或者使用其他算法自動(dòng)計(jì)算設(shè)定,在此不做限定。其中,同一單元的不同具體含義即為該單元所能包含的具體含義,如表示單元可以包括詞、詞組及縮寫等具體含義??芍氖?,上述條件是針對(duì)不同單元之間的匹配程度設(shè)定的,即符合上述條件的第二單元為與對(duì)應(yīng)第一單元的匹配程度較高的,因此,將不符合上述條件的第二單元去除,能夠使得保留的第二單元與第一單元匹配程度較高,進(jìn)一步來說,能夠使得保留的第二單元與輸入信息匹配程度較高,從而保證了本發(fā)明提供的語義識(shí)別方案的效率及準(zhǔn)確性。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別方法,選取出選定語義單元的步驟,如圖5所示,可以包括:
S131:將語義單元放入候選集合中,將每個(gè)表示單元及對(duì)應(yīng)的語義單元組成與每個(gè)表示單元對(duì)應(yīng)的單元組,基于每個(gè)單元組的最大前驅(qū)置信度及最大后繼置信度計(jì)算該單元組的語義置信度。
其中,具體來說,單元組的形式為表示單元-語義單元組,由于語義單元中的語義是由義元組成的,因此,此處單元組中的語義單元可以只包括語義單元中的語義,即單元組可以表示為表示單元-語義組,當(dāng)然也可以根據(jù)實(shí)際需要進(jìn)行其他設(shè)定,均在本發(fā)明的保護(hù)范圍之內(nèi)。而表示單元-語義單元組可以包括表示單元、對(duì)應(yīng)的全部語義單元以及對(duì)應(yīng)的字單元的順序集合等。另外,語義置信度是指在一段文本中的一個(gè)字符串被認(rèn)為具有某種語義的可信程度,通過對(duì)語義置信度的計(jì)算,可以確定出單元組中每個(gè)語義單元對(duì)應(yīng)的可信程度。
S132:由候選集合中選取對(duì)應(yīng)單元組的語義置信度最大的語義單元為選定語義單元。
S133:確定該選定語義單元在輸入信息中對(duì)應(yīng)的表示單元,并將候選集合中與該表示單元對(duì)應(yīng)的其他語義單元及與該表示單元在輸入信息中的位置沖突的表示單元及對(duì)應(yīng)語義單元去除;返回執(zhí)行由候選集合中選取對(duì)應(yīng)單元組的語義置信度最大的語義單元為選定語義單元的步驟,直至候選集合中不存在語義單元為止。
其中,可以將選定語義單元放置到對(duì)應(yīng)的選定語義集合中,選取出語義置信度最大的語義單元之后,可以將選定語義單元在輸入信息中對(duì)應(yīng)的表示單元對(duì)應(yīng)的其他語義單元及與選定語義單元對(duì)應(yīng)表示單元在輸入信息中的位置沖突的表示單元及其對(duì)應(yīng)候選集合中的語義單元均去除,然后返回執(zhí)行步驟S132,從而通過循環(huán)步驟的實(shí)現(xiàn),確定出選定語義集合。其中,表示單元在輸入信息中的位置可以包括其開始位置、終止位置及長(zhǎng)度等的組合,而互相沖突的表示單元即其在輸入信息中的位置有一部分或者全部重合。通過上述步驟,選取出語義置信度大的語義單元作為選定語義單元,并通過將與該選定語義單元對(duì)應(yīng)輸入信息中的表示單元位置沖突的表示單元對(duì)應(yīng)候選集合中的語義單元去除,實(shí)現(xiàn)了對(duì)于語義單元的篩選,保證了本申請(qǐng)的語義識(shí)別方案的準(zhǔn)確性。
另外,還可以將單元組及其全部前驅(qū)組及后繼組建立關(guān)聯(lián),將這些關(guān)聯(lián)以圖、表等形式存儲(chǔ)于圖數(shù)據(jù)庫、關(guān)系數(shù)據(jù)庫、k-v數(shù)據(jù)庫或者內(nèi)存中,其中,上述關(guān)聯(lián)可以包括單元組與其前驅(qū)組或者后繼組對(duì)應(yīng)語義單元之間的語義距離等關(guān)聯(lián)表示。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別方法,計(jì)算每個(gè)單元組的語義置信度,可以包括:
確定當(dāng)前待計(jì)算的單元組為目標(biāo)單元組,并獲取目標(biāo)單元組的全部直接前驅(qū)組、直接后繼組、每個(gè)直接前驅(qū)組的最大前驅(qū)置信度及每個(gè)直接后繼組的最大后繼置信度;
基于目標(biāo)單元組對(duì)應(yīng)的前驅(qū)組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量、該目標(biāo)單元組對(duì)應(yīng)的表示單元與輸入信息中對(duì)應(yīng)位置的表示單元的匹配程度、該目標(biāo)單元組對(duì)應(yīng)的字單元數(shù)量、該目標(biāo)單元組對(duì)應(yīng)的每個(gè)直接前驅(qū)組的最大前驅(qū)置信度及該目標(biāo)單元組與輸入信息的關(guān)聯(lián)度計(jì)算目標(biāo)單元組對(duì)應(yīng)于每個(gè)直接前驅(qū)組的前驅(qū)置信度,并從中選取最大的前驅(qū)置信度為該目標(biāo)單元組的最大前驅(qū)置信度;
基于目標(biāo)單元組對(duì)應(yīng)的后繼組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量、該目標(biāo)單元組對(duì)應(yīng)的表示單元與輸入信息中對(duì)應(yīng)位置的表示單元的匹配程度、該目標(biāo)單元組對(duì)應(yīng)的字單元數(shù)量、該目標(biāo)單元組對(duì)應(yīng)的每個(gè)直接后繼組的最大后繼置信度及該目標(biāo)單元組與輸入信息的關(guān)聯(lián)度計(jì)算目標(biāo)單元組對(duì)應(yīng)于每個(gè)直接后繼組的后繼置信度,并從中選取最大的后繼置信度為該目標(biāo)單元組的最大后繼置信度;
基于目標(biāo)單元組對(duì)應(yīng)的前驅(qū)組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量、該目標(biāo)單元組對(duì)應(yīng)的表示單元與輸入信息中對(duì)應(yīng)位置的表示單元的匹配程度、該目標(biāo)單元組對(duì)應(yīng)的后繼組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量、該目標(biāo)單元組對(duì)應(yīng)的字單元數(shù)量、最大前驅(qū)置信度、最大后繼置信度及該單元組與輸入信息的關(guān)聯(lián)度計(jì)算該單元組的語義置信度。
具體來說,對(duì)于上述步驟的實(shí)現(xiàn),可以包括:
計(jì)算目標(biāo)單元組對(duì)應(yīng)于任一直接前驅(qū)組的前驅(qū)置信度,包括:
如果目標(biāo)單元組對(duì)應(yīng)的表示單元與該表示單元在輸入信息中對(duì)應(yīng)位置的表示單元完全匹配,則按照下式計(jì)算該目標(biāo)單元組對(duì)應(yīng)于任一直接前驅(qū)組的前驅(qū)置信度:
如果目標(biāo)單元組對(duì)應(yīng)的表示單元與該表示單元在輸入信息中對(duì)應(yīng)位置的表示單元不完全匹配,則按照下式計(jì)算該目標(biāo)單元組對(duì)應(yīng)于任一直接前驅(qū)組的前驅(qū)置信度:
其中,F(xiàn)ULLMATHRATE、STEPRATE、SESSIONRELATIONRATE為預(yù)先設(shè)定的系數(shù),preSteps表示目標(biāo)單元組對(duì)應(yīng)的前驅(qū)組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量,step.length表示目標(biāo)單元組對(duì)應(yīng)的字單元數(shù)量(根據(jù)設(shè)定可以計(jì)入或者不計(jì)入空格),pre.rate表示任一直接前驅(qū)組的最大前驅(qū)置信度,sessionRelationRate表示目標(biāo)單元組與輸入信息的關(guān)聯(lián)度。
計(jì)算目標(biāo)單元組對(duì)應(yīng)于任一直接后繼組的后繼置信度,包括:
如果目標(biāo)單元組對(duì)應(yīng)的表示單元與該表示單元在輸入信息中對(duì)應(yīng)位置的表示單元完全匹配,則按照下式計(jì)算該目標(biāo)單元組對(duì)應(yīng)于任一直接后繼組的后繼置信度:
如果目標(biāo)單元組對(duì)應(yīng)的表示單元與該表示單元在輸入信息中對(duì)應(yīng)位置的表示單元不完全匹配,則按照下式計(jì)算該目標(biāo)單元組對(duì)應(yīng)于任一直接后繼組的后繼置信度:
其中,F(xiàn)ULLMATHRATE、STEPRATE、SESSIONRELATIONRATE為預(yù)先設(shè)定的系數(shù),posSteps表示目標(biāo)單元組對(duì)應(yīng)的后繼組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量,step.length表示目標(biāo)單元組對(duì)應(yīng)的字單元數(shù)量(根據(jù)設(shè)定可以計(jì)入或者不計(jì)入空格),pos.rate表示任一直接后繼組的最大后繼置信度,sessionRelationRate表示目標(biāo)單元組與輸入信息的關(guān)聯(lián)度。
需要說明的是,計(jì)算目標(biāo)單元組的最大前驅(qū)置信度時(shí),如果其前驅(qū)組與該目標(biāo)單元組沒有語義關(guān)聯(lián),或者該目標(biāo)單元組不存在前驅(qū)組,則該目標(biāo)單元組的最大前驅(qū)置信度為0;判斷目標(biāo)單元組之前且與之鄰近的前驅(qū)組是否為結(jié)構(gòu)組詞,如果否,則確定該前驅(qū)組為目標(biāo)單元組的直接前驅(qū)組,如果是,則跳過該結(jié)構(gòu)組詞,判斷該結(jié)構(gòu)組詞之前且與之鄰近的前驅(qū)組是否為結(jié)構(gòu)組詞,以此類推,直至確定出一個(gè)不為結(jié)構(gòu)組詞的前驅(qū)組為目標(biāo)單元組的直接前驅(qū)組,或者確定出不存在不為結(jié)構(gòu)組詞的前驅(qū)組,此時(shí)判定目標(biāo)單元組不存在前驅(qū)組。計(jì)算目標(biāo)單元組的最大后繼置信度時(shí),如果其后繼組與該目標(biāo)單元組沒有語義關(guān)聯(lián),或者該目標(biāo)單元組不存在后繼組,則該目標(biāo)單元組的最大后繼置信度為0;判斷目標(biāo)單元組之后且與之鄰近的后繼組是否為結(jié)構(gòu)組詞,如果否,則確定該后繼組為目標(biāo)單元組的直接后繼組,如果是,則跳過該結(jié)構(gòu)組詞,判斷該結(jié)構(gòu)組詞之后且與之鄰近的后繼組是否為結(jié)構(gòu)組詞,以此類推,直至確定出一個(gè)不為結(jié)構(gòu)組詞的后繼組為目標(biāo)單元組的直接后繼組,或者確定出不存在不為結(jié)構(gòu)組詞的后繼組,此時(shí)判定目標(biāo)單元組不存在后繼組。另外需要說明的是,在目標(biāo)單元組具有直接前驅(qū)組的前提下按照上述公式計(jì)算其最大前驅(qū)置信度,在目標(biāo)單元組具有直接后繼組的前提下按照上述公式計(jì)算其最大后繼置信度。
計(jì)算目標(biāo)單元組的語義置信度可以包括:如果目標(biāo)單元組對(duì)應(yīng)的表示單元與該表示單元在輸入信息中對(duì)應(yīng)位置的表示單元完全匹配,則按照下式計(jì)算該目標(biāo)單元組的語義置信度:
如果目標(biāo)單元組對(duì)應(yīng)的表示單元與該表示單元在輸入信息中對(duì)應(yīng)位置的表示單元不完全匹配,則按照下式計(jì)算該目標(biāo)單元組的語義置信度:
其中,F(xiàn)ULLMATHRATE、STEPRATE、SESSIONRELATIONRATE為預(yù)先設(shè)定的系數(shù),preSteps表示目標(biāo)單元組對(duì)應(yīng)的前驅(qū)組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量,posSteps表示目標(biāo)單元組對(duì)應(yīng)的后繼組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量,step.length表示目標(biāo)單元組對(duì)應(yīng)的字單元數(shù)量(根據(jù)設(shè)定可以計(jì)入或者不計(jì)入空格),pre.rate表示目標(biāo)單元組的最大前驅(qū)置信度,pos.rate表示目標(biāo)單元組的最大后繼置信度,sessionRelationRate表示目標(biāo)單元組與輸入信息的關(guān)聯(lián)度。
上述步驟中,上述實(shí)施例公開的技術(shù)方案中,計(jì)算目標(biāo)單元組與輸入信息的關(guān)聯(lián)度,可以包括:
按照下列公式計(jì)算所述目標(biāo)單元組與所述輸入信息的關(guān)聯(lián)度:
其中,RELATIONRATE表示預(yù)先設(shè)定的系數(shù),S表示輸入信息對(duì)應(yīng)的全部語義單元的集合,s表示該集合中的任一個(gè)語義單元,c表示目標(biāo)單元組對(duì)應(yīng)的語義單元,dc→s表示語義單元c到語義單元s的語義距離。
另外,確定目標(biāo)單元組對(duì)應(yīng)表示單元與其在輸入信息中對(duì)應(yīng)位置的表示單元具體可以包括:確定目標(biāo)單元組對(duì)應(yīng)表示單元在輸入信息中對(duì)應(yīng)的位置,可以包括開始位置、結(jié)束位置及長(zhǎng)度等,進(jìn)而判斷輸入信息中位于該位置的表示單元與目標(biāo)單元組對(duì)應(yīng)的表示單元是否一致,如果是,則說明完全匹配,其他情況則說明不完全匹配。
本發(fā)明公開的上述技術(shù)方案中,前驅(qū)置信度是指一個(gè)字符串被假設(shè)認(rèn)為具有某種語義,它的一個(gè)連續(xù)前驅(qū)字符串所包含的一個(gè)語義組合中的所有語義和這個(gè)語義的匹配程度,后繼置信度是指一個(gè)字符串被假設(shè)認(rèn)為具有某種語義,它的一個(gè)連續(xù)后繼字符串所包含的一個(gè)語義組合中的所有語義和這個(gè)語義的匹配程度;基于前驅(qū)置信度及后繼置信度得出語義置信度,由此,語義置信度越大說明對(duì)應(yīng)語義越準(zhǔn)確,因此,本申請(qǐng)通過上述計(jì)算步驟實(shí)現(xiàn)語義置信度的計(jì)算,進(jìn)而保證了本申請(qǐng)語義識(shí)別方案的準(zhǔn)確性。
需要說明的是,上述實(shí)施例中所提出的計(jì)算公式均不是唯一的計(jì)算公式,也可以根據(jù)實(shí)際需要按照其他計(jì)算公式進(jìn)行計(jì)算,均在本發(fā)明的保護(hù)范圍之內(nèi)。上述實(shí)施例中,語義關(guān)聯(lián)是指在知識(shí)圖譜中,從一個(gè)語義單元到另外一個(gè)語義單元之間的最短路徑,即語義距離小于根據(jù)實(shí)際需要設(shè)定的對(duì)應(yīng)閾值,則認(rèn)為這兩個(gè)語義單元之間存在語義關(guān)聯(lián)。其中,計(jì)算任兩個(gè)語義單元之間的語義距離,可以包括:
確定待計(jì)算的兩個(gè)語義單元分別為語義A及語義B,獲取語義A到語義B的每個(gè)父語義的全部第一路徑,基于預(yù)設(shè)原則計(jì)算每條第一路徑的長(zhǎng)度,并從中選取出長(zhǎng)度最短的第一路徑長(zhǎng)度,獲取語義A到語義B包含的每個(gè)義元及每個(gè)義元的父義元的全部第二路徑,基于預(yù)設(shè)原則計(jì)算每條第二路徑的長(zhǎng)度,并從中選取出長(zhǎng)度最短的第二路徑長(zhǎng)度,確定第一路徑長(zhǎng)度及第二路徑長(zhǎng)度中最短的路徑長(zhǎng)度為語義A到語義B的語義距離;預(yù)設(shè)原則為語義單元包括語義及義元,且語義到對(duì)應(yīng)義元、義元到對(duì)應(yīng)語義、子語義到對(duì)應(yīng)父語義及子義元到對(duì)應(yīng)父義元的距離值均為0,父語義到對(duì)應(yīng)子語義及父義元到對(duì)應(yīng)子義元的距離值均為∞,其他語義單元之間的距離值均為1。
語義層的語義單元可以組成有向子圖,且語義單元之間的邊帶有距離值,具體該距離值可以根據(jù)實(shí)際需要進(jìn)行定義,如當(dāng)語義單元包括語義及義元時(shí),定義語義到其包括的每個(gè)義元的邊的距離值為0,義元到其所屬的語義的邊的距離值為0,子語義到其對(duì)應(yīng)的父語義的邊的距離值為0,父語義到其對(duì)應(yīng)的子語義的邊的距離值為∞,子義元到其對(duì)應(yīng)的父義元的邊的距離值為0,父義元到其對(duì)應(yīng)的子義元的邊的距離值為∞,其它邊的距離值均默認(rèn)為1,當(dāng)然也可以根據(jù)實(shí)際需要設(shè)定為其它值。在這個(gè)有向圖中計(jì)算兩個(gè)語義之間(A→B)的最小路徑長(zhǎng)度,即語義距離,A到B的每一個(gè)父語義的最小路徑長(zhǎng)度,A到B包含的每一個(gè)義元及它們的父義元的最小路徑長(zhǎng)度,其中最小的最小路徑長(zhǎng)度的就是這兩個(gè)語義之間的語義距離,需要說明的是上述路徑通過經(jīng)過義元和/或語義的連接實(shí)現(xiàn)。當(dāng)然還可以根據(jù)實(shí)際需要進(jìn)行其他設(shè)定,均在本發(fā)明的保護(hù)范圍之內(nèi)。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別方法,確定任兩個(gè)單元組之間是否存在語義關(guān)聯(lián),可以包括:
確定任兩個(gè)單元組分別對(duì)應(yīng)的語義單元,并以其中一個(gè)語義單元為檢索值在預(yù)先設(shè)置的檢索集中進(jìn)行檢索,如果得到的結(jié)果包括另一個(gè)語義單元,則確定這兩個(gè)單元組之間存在語義關(guān)聯(lián),否則,則確定這兩個(gè)單元組之間不存在語義關(guān)聯(lián);
對(duì)應(yīng)的,預(yù)先設(shè)置檢索集,包括:
對(duì)于任一語義單元A,查找與該語義單元A的語義距離小于對(duì)應(yīng)閾值的語義單元B,并將語義單元A與語義單元B之間的語義距離及語義單元B加入檢索集中;
查找與語義單元B的語義距離小于對(duì)應(yīng)閾值的語義單元C,并以語義單元A為檢索值在檢索集中進(jìn)行檢索,如果得到的結(jié)果包括語義單元C且語義單元A到語義單元C的語義距離大于語義單元A到語義單元B的語義距離及語義單元B到語義單元C的語義距離之和,則利用語義單元A到語義單元B的語義距離及語義單元B到語義單元C的語義距離之和替代語義單元A到語義單元C的語義距離。通過上述方式確定任兩個(gè)語義單元是否存在語義關(guān)聯(lián),進(jìn)一步確定任兩個(gè)單元組是否具有語義關(guān)聯(lián),大大提高了實(shí)現(xiàn)速率。
具體來說,建立的檢索集中作為檢索值key及作為檢索所得結(jié)果value的形式可以為:
1、一個(gè)K-V檢索系統(tǒng)(Ψ),其中key是語義單元,value是從語義單元單元A到語義單元B的語義距離。
2、一個(gè)集合(Ω),集合中的內(nèi)容是:(語義單元B—語義單元A到語義單元B的語義距離)對(duì)。
上述檢索集具體可以為k-v數(shù)據(jù)庫、搜索引擎、關(guān)系數(shù)據(jù)庫等,當(dāng)然還可以根據(jù)實(shí)際需要進(jìn)行其他設(shè)定,均在本發(fā)明的保護(hù)范圍之內(nèi)。
對(duì)于每一個(gè)語義單元A,通過路徑遍歷的方式查找到所有和該語義單元A的語義距離小于(小于或等于,具體可以根據(jù)實(shí)際需要進(jìn)行設(shè)置)對(duì)應(yīng)閥值α的語義單元B。
將所有語義單元B和語義單元A到語義單元B的語義距離d構(gòu)成的記錄對(duì),放入檢索集Ψ或者Ω中。
通過路徑遍歷的方式查找到所有和該語義單元B的語義距離小于(小于或等于,具體可以根據(jù)實(shí)際需要進(jìn)行設(shè)置)對(duì)應(yīng)閥值α的語義單元C及語義單元B到語義單元C的語義距離d1。
如果d+d1小于或者小于等于閥值(α),則在檢索集Ψ(或者Ω)中查找C,如果找到C,并且存儲(chǔ)在Ψ(或者Ω)中A到C的語義距離大于d+d1,則用d+d1替換這個(gè)語義距離;如果沒有找到C,則將C和語義距離(d+d1)加到Ψ(或者Ω)中。
由此,在得到的檢索集中,當(dāng)確定語義單元A與語義單元B是否存在語義關(guān)聯(lián)時(shí),從檢索集中,以A為key,取出value,如果B在value中可以找到(如果是k-v,則以B作為key進(jìn)行檢索,如果是集合,則進(jìn)行遍歷),則認(rèn)為A和B之間存在語義關(guān)聯(lián),從value中得到A到B的語義距離(如果是k-v,則以B作為key進(jìn)行檢索,如果是集合,則進(jìn)行遍歷);如果B在value中找不到,則認(rèn)為A到B的語義距離超過閥值(α),認(rèn)為它們之間不存在語義關(guān)聯(lián)。上述A、B及C為任意符合上述要求的語義單元,由此,通過檢索集可以快速確定出任兩個(gè)語義單元的語義距離情況。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別方法,選取出選定語義單元之后,還可以包括:
將選定語義單元按照對(duì)應(yīng)表示單元在輸入信息中的位置進(jìn)行排列,如果存在連續(xù)多個(gè)語義單元均和一個(gè)或多個(gè)其他的語義單元具有語義關(guān)聯(lián),則利用該一個(gè)或多個(gè)其他的語義單元替代對(duì)應(yīng)的連續(xù)多個(gè)語義單元。
將選定語義單元按照上述規(guī)則進(jìn)行排列后,如果存在連續(xù)多個(gè)語義單元均和一個(gè)或多個(gè)其他的語義單元具有語義關(guān)聯(lián),則說明該連續(xù)多個(gè)語義單元均對(duì)應(yīng)一個(gè)或多個(gè)其他的語義單元,此時(shí),可以直接利用對(duì)應(yīng)的一個(gè)或多個(gè)語義單元替換該連續(xù)的多個(gè)語義單元,實(shí)現(xiàn)非直接表達(dá)語義的識(shí)別。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別方法,將選定語義單元按照對(duì)應(yīng)表示單元在輸入信息中的位置進(jìn)行排列之后,還可以包括:
將進(jìn)行排列之后的選定語義單元替換為對(duì)應(yīng)的表示單元,得到對(duì)輸入信息的分詞結(jié)果。
將選定語義單元按照對(duì)應(yīng)表示單元在輸入信息中的位置進(jìn)行排列的結(jié)果,則為輸入信息的文本語義,對(duì)應(yīng)的,如果將每個(gè)選定語義單元替換為對(duì)應(yīng)的表示單元,或者說直接將表示單元按照其在輸入信息中的位置進(jìn)行排列,即可得到輸入信息的文本分詞結(jié)果,也即,本申請(qǐng)公開的上述技術(shù)特征還可以用于對(duì)文本進(jìn)行分詞。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別方法,選取出選定意圖單元,可以包括:
對(duì)于任一意圖單元,將每個(gè)與該意圖單元關(guān)聯(lián)的語義單元對(duì)該意圖單元的語義置信度的值相加,得到該意圖單元的文本置信度;
確定文本置信度大于對(duì)應(yīng)閾值的意圖單元為選定意圖單元。
其中,與意圖單元關(guān)聯(lián)的語義單元可以為和意圖單元有邊連接的語義單元,在構(gòu)建知識(shí)圖譜的過程中已經(jīng)根據(jù)實(shí)際需要對(duì)各單元之間是否具有邊連接進(jìn)行了設(shè)定,因此,可以直接根據(jù)知識(shí)圖譜確定出與意圖單元關(guān)聯(lián)的語義單元。
具體來說,可以按照下列公式計(jì)算每個(gè)意圖單元的文本置信度:
其中,RELATIONRATEs→i表示語義單元s對(duì)意圖單元i的語義置信度的值,該貢獻(xiàn)值可以預(yù)先設(shè)定,通過和意圖i相連的語義單元的語義置信度的值的累加計(jì)算可以得到意圖單元的文本置信度,文本置信度越高,該意圖單元越能夠表達(dá)輸入信息對(duì)應(yīng)的意圖,因此,此處選取文本置信度大于對(duì)應(yīng)閾值的意圖單元為選定意圖單元,其中,對(duì)應(yīng)閾值可以根據(jù)實(shí)際需要進(jìn)行預(yù)先設(shè)定,從而選取出最能表達(dá)出輸入信息意圖的意圖單元,保證了本申請(qǐng)語義識(shí)別方案的準(zhǔn)確性及有效性。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別方法,選取出選定意圖單元之后,還可以包括:
對(duì)于語義單元中具有否定義元的語義,確定與該語義對(duì)應(yīng)表示單元在輸入信息中位置最近的具有動(dòng)詞詞性的表示單元或者具有由連詞連接的多個(gè)動(dòng)詞詞性的表示單元為特定表示單元,確定與特定表示單元對(duì)應(yīng)的選定意圖單元,并將該選定意圖單元確定為否定意圖單元,將選定意圖單元中與否定意圖單元相同的選定意圖單元去除。
通過對(duì)具有否定義元的語義具有上述關(guān)系的意圖單元的去除,能夠?qū)⑴c輸入信息表達(dá)的意圖不符合的或者說否定該意圖的意圖單元去除,從而進(jìn)一步保證了最終獲取的選定意圖單元與輸入信息的匹配程度。另外,可以將最終剩余的選定意圖單元加入對(duì)應(yīng)的意圖集合中,方便對(duì)其的管理。
本發(fā)明實(shí)施例還提供了一種基于知識(shí)圖譜的語義識(shí)別系統(tǒng),如圖6所示,可以包括:
圖譜構(gòu)建模塊11,用于預(yù)先構(gòu)建知識(shí)圖譜,該知識(shí)圖譜包括語音層、字層、表示層、語義層及意圖層,上述每層均具有對(duì)應(yīng)的單元;
轉(zhuǎn)換模塊12,用于接收用戶輸入的輸入信息,將該輸入信息轉(zhuǎn)換為語音單元,確定與每個(gè)語音單元關(guān)聯(lián)的字單元,并確定與每個(gè)字單元關(guān)聯(lián)的表示單元;
第一選取模塊13,用于確定與每個(gè)表示單元關(guān)聯(lián)的語義單元,并根據(jù)每個(gè)語義單元與輸入信息中位于其對(duì)應(yīng)表示單元對(duì)應(yīng)位置之前的前驅(qū)組及之后的后繼組之間的關(guān)聯(lián)由語義單元中選取出選定語義單元;
第二選取模塊14,用于確定與每個(gè)選定語義單元關(guān)聯(lián)的意圖單元,并根據(jù)每個(gè)意圖單元與對(duì)應(yīng)選定語義單元之間的關(guān)聯(lián)由意圖單元中選取出選定意圖單元,確定該選定意圖單元組成的選定意圖集合為與輸入信息對(duì)應(yīng)的意圖。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別系統(tǒng),轉(zhuǎn)換模塊還可以包括:
篩選單元,用于:將包含第一單元大于對(duì)應(yīng)閾值,但只關(guān)聯(lián)到一個(gè)輸入信息對(duì)應(yīng)第一單元的第二單元去除,并將關(guān)聯(lián)到的輸入信息對(duì)應(yīng)第一單元數(shù)量與包含的第一單元數(shù)量的比值低于對(duì)應(yīng)閾值的第二單元去除;其中,第二單元為字單元時(shí),第一單元為語音單元;第二單元為表示單元時(shí),第一單元為字單元。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別系統(tǒng),第一選取模塊可以包括:
選取單元,用于:將語義單元放入候選集合中,將每個(gè)表示單元及對(duì)應(yīng)的語義單元組成與每個(gè)表示單元對(duì)應(yīng)的單元組,基于每個(gè)單元組的最大前驅(qū)置信度及最大后繼置信度計(jì)算該單元組的語義置信度;由候選集合中選取對(duì)應(yīng)單元組的語義置信度最大的語義單元為選定語義單元;確定該選定語義單元在輸入信息中對(duì)應(yīng)的表示單元,并將候選集合中與該表示單元對(duì)應(yīng)的其他語義單元及與該表示單元在輸入信息中的位置沖突的表示單元及對(duì)應(yīng)語義單元去除;返回執(zhí)行由候選集合中選取對(duì)應(yīng)單元組的語義置信度最大的語義單元為選定語義單元的步驟,直至候選集合中不存在語義單元為止。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別系統(tǒng),選取單元可以包括:
置信度計(jì)算單元,用于:確定當(dāng)前待計(jì)算的單元組為目標(biāo)單元組,并獲取目標(biāo)單元組的全部直接前驅(qū)組、直接后繼組、每個(gè)直接前驅(qū)組的最大前驅(qū)置信度及每個(gè)直接后繼組的最大后繼置信度;基于目標(biāo)單元組對(duì)應(yīng)的前驅(qū)組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量、該目標(biāo)單元組對(duì)應(yīng)的表示單元與輸入信息中對(duì)應(yīng)位置的表示單元的匹配程度、該目標(biāo)單元組對(duì)應(yīng)的字單元數(shù)量、該目標(biāo)單元組對(duì)應(yīng)的每個(gè)直接前驅(qū)組的最大前驅(qū)置信度及該目標(biāo)單元組與輸入信息的關(guān)聯(lián)度計(jì)算目標(biāo)單元組對(duì)應(yīng)于每個(gè)直接前驅(qū)組的前驅(qū)置信度,并從中選取最大的前驅(qū)置信度為該目標(biāo)單元組的最大前驅(qū)置信度;基于目標(biāo)單元組對(duì)應(yīng)的后繼組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量、該目標(biāo)單元組對(duì)應(yīng)的表示單元與輸入信息中對(duì)應(yīng)位置的表示單元的匹配程度、該目標(biāo)單元組對(duì)應(yīng)的字單元數(shù)量、該目標(biāo)單元組對(duì)應(yīng)的每個(gè)直接后繼組的最大后繼置信度及該目標(biāo)單元組與輸入信息的關(guān)聯(lián)度計(jì)算目標(biāo)單元組對(duì)應(yīng)于每個(gè)直接后繼組的后繼置信度,并從中選取最大的后繼置信度為該目標(biāo)單元組的最大后繼置信度;基于目標(biāo)單元組對(duì)應(yīng)的前驅(qū)組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量、該目標(biāo)單元組對(duì)應(yīng)的表示單元與輸入信息中對(duì)應(yīng)位置的表示單元的匹配程度、該目標(biāo)單元組對(duì)應(yīng)的后繼組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量、該目標(biāo)單元組對(duì)應(yīng)的字單元數(shù)量、最大前驅(qū)置信度、最大后繼置信度及該單元組與輸入信息的關(guān)聯(lián)度計(jì)算該單元組的語義置信度。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別系統(tǒng),置信度計(jì)算單元可以包括:
第一計(jì)算子單元,用于如果目標(biāo)單元組對(duì)應(yīng)的表示單元與該表示單元在輸入信息中對(duì)應(yīng)位置的表示單元完全匹配,則按照下式計(jì)算該目標(biāo)單元組對(duì)應(yīng)于任一直接前驅(qū)組的前驅(qū)置信度:
如果目標(biāo)單元組對(duì)應(yīng)的表示單元與該表示單元在輸入信息中對(duì)應(yīng)位置的表示單元不完全匹配,則按照下式計(jì)算該目標(biāo)單元組對(duì)應(yīng)于任一直接前驅(qū)組的前驅(qū)置信度:
其中,F(xiàn)ULLMATHRATE、STEPRATE、SESSIONRELATIONRATE為預(yù)先設(shè)定的系數(shù),preSteps表示目標(biāo)單元組對(duì)應(yīng)的前驅(qū)組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量,step.length表示目標(biāo)單元組對(duì)應(yīng)的字單元數(shù)量,pre.rate表示任一直接前驅(qū)組的最大前驅(qū)置信度,sessionRelationRate表示目標(biāo)單元組與輸入信息的關(guān)聯(lián)度。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別系統(tǒng),置信度計(jì)算單元可以包括:
第二計(jì)算子單元,用于:如果目標(biāo)單元組對(duì)應(yīng)的表示單元與該表示單元在輸入信息中對(duì)應(yīng)位置的表示單元完全匹配,則按照下式計(jì)算該目標(biāo)單元組對(duì)應(yīng)于任一直接后繼組的后繼置信度:
如果目標(biāo)單元組對(duì)應(yīng)的表示單元與該表示單元在輸入信息中對(duì)應(yīng)位置的表示單元不完全匹配,則按照下式計(jì)算該目標(biāo)單元組對(duì)應(yīng)于任一直接后繼組的后繼置信度:
其中,F(xiàn)ULLMATHRATE、STEPRATE、SESSIONRELATIONRATE為預(yù)先設(shè)定的系數(shù),posSteps表示目標(biāo)單元組對(duì)應(yīng)的后繼組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量,step.length表示目標(biāo)單元組對(duì)應(yīng)的字單元數(shù)量,pos.rate表示任一直接后繼組的最大后繼置信度,sessionRelationRate表示目標(biāo)單元組與輸入信息的關(guān)聯(lián)度。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別系統(tǒng),置信度計(jì)算單元可以包括:
第三計(jì)算子單元,用于如果目標(biāo)單元組對(duì)應(yīng)的表示單元與該表示單元在輸入信息中對(duì)應(yīng)位置的表示單元完全匹配,則按照下式計(jì)算該目標(biāo)單元組的語義置信度:
如果目標(biāo)單元組對(duì)應(yīng)的表示單元與該表示單元在輸入信息中對(duì)應(yīng)位置的表示單元不完全匹配,則按照下式計(jì)算該目標(biāo)單元組的語義置信度:
其中,F(xiàn)ULLMATHRATE、STEPRATE、SESSIONRELATIONRATE為預(yù)先設(shè)定的系數(shù),preSteps表示目標(biāo)單元組對(duì)應(yīng)的前驅(qū)組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量,posSteps表示目標(biāo)單元組對(duì)應(yīng)的后繼組中與該目標(biāo)單元組存在語義關(guān)聯(lián)的單元組的數(shù)量,step.length表示目標(biāo)單元組對(duì)應(yīng)的字單元數(shù)量,pre.rate表示目標(biāo)單元組的最大前驅(qū)置信度,pos.rate表示目標(biāo)單元組的最大后繼置信度,sessionRelationRate表示目標(biāo)單元組與輸入信息的關(guān)聯(lián)度。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別系統(tǒng),第一計(jì)算子單元和/或第二計(jì)算子單元和/或第三計(jì)算子單元可以包括:
關(guān)聯(lián)度計(jì)算子單元,用于按照下列公式計(jì)算目標(biāo)單元組與輸入信息的關(guān)聯(lián)度:
其中,RELATIONRATE表示預(yù)先設(shè)定的系數(shù),S表示輸入信息對(duì)應(yīng)的全部語義單元的集合,s表示該集合中的任一個(gè)語義單元,c表示目標(biāo)單元組對(duì)應(yīng)的語義單元,dc→s表示語義單元c到語義單元s的語義距離。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別系統(tǒng),第一計(jì)算子單元和/或第二計(jì)算子單元和/或第三計(jì)算子單元可以包括:
語義關(guān)聯(lián)確定子單元,用于:確定任兩個(gè)單元組分別對(duì)應(yīng)的語義單元,并以其中一個(gè)語義單元為檢索值在預(yù)先設(shè)置的檢索集中進(jìn)行檢索,如果得到的結(jié)果包括另一個(gè)語義單元,則確定這兩個(gè)單元組之間存在語義關(guān)聯(lián),否則,則確定這兩個(gè)單元組之間不存在語義關(guān)聯(lián);
對(duì)應(yīng)的,預(yù)先設(shè)置檢索集,包括:
對(duì)于任一語義單元A,查找與該語義單元A的語義距離小于對(duì)應(yīng)閾值的語義單元B,并將語義單元A與語義單元B之間的語義距離及語義單元B加入檢索集中;
查找與語義單元B的語義距離小于對(duì)應(yīng)閾值的語義單元C,并以語義單元A為檢索值在檢索集中進(jìn)行檢索,如果得到的結(jié)果包括語義單元C且語義單元A到語義單元C的語義距離大于語義單元A到語義單元B的語義距離及語義單元B到語義單元C的語義距離之和,則利用語義單元A到語義單元B的語義距離及語義單元B到語義單元C的語義距離之和替代語義單元A到語義單元C的語義距離。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別系統(tǒng),語義關(guān)聯(lián)確定子單元可以包括:
語義距離計(jì)算子單元,用于:確定待計(jì)算的兩個(gè)語義單元分別為語義A及語義B,獲取語義A到語義B的每個(gè)父語義的全部第一路徑,基于預(yù)設(shè)原則計(jì)算每條第一路徑的長(zhǎng)度,并從中選取出長(zhǎng)度最短的第一路徑長(zhǎng)度,獲取語義A到語義B包含的每個(gè)義元及每個(gè)義元的父義元的全部第二路徑,基于預(yù)設(shè)原則計(jì)算每條第二路徑的長(zhǎng)度,并從中選取出長(zhǎng)度最短的第二路徑長(zhǎng)度,確定第一路徑長(zhǎng)度及第二路徑長(zhǎng)度中最短的路徑長(zhǎng)度為語義A到語義B的語義距離;預(yù)設(shè)原則為語義單元包括語義及義元,且語義到對(duì)應(yīng)義元、義元到對(duì)應(yīng)語義、子語義到對(duì)應(yīng)父語義及子義元到對(duì)應(yīng)父義元的距離值均為0,父語義到對(duì)應(yīng)子語義及父義元到對(duì)應(yīng)子義元的距離值均為∞,其他語義單元之間的距離值均為1。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別系統(tǒng)選取出選定語義單元之后,置信度計(jì)算單元還可以包括:
替代單元,用于將選定語義單元按照對(duì)應(yīng)表示單元在輸入信息中的位置進(jìn)行排列,如果存在連續(xù)多個(gè)語義單元均和一個(gè)或多個(gè)其他的語義單元具有語義關(guān)聯(lián),則利用該一個(gè)或多個(gè)其他的語義單元替代對(duì)應(yīng)的連續(xù)多個(gè)語義單元。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別系統(tǒng),還可以包括:
分詞模塊,用于選定語義單元按照對(duì)應(yīng)表示單元在輸入信息中的位置進(jìn)行排列之后,將進(jìn)行排列之后的選定語義單元替換為對(duì)應(yīng)的表示單元,得到對(duì)輸入信息的分詞結(jié)果。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別系統(tǒng),第二選取模塊可以包括:
意圖選取單元,用于:對(duì)于任一意圖單元,將每個(gè)與該意圖單元關(guān)聯(lián)的語義單元對(duì)該意圖單元的語義置信度的值相加,得到該意圖單元的文本置信度;確定文本置信度大于對(duì)應(yīng)閾值的意圖單元為選定意圖單元。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別系統(tǒng),第二選取模塊還可以包括:
替換單元,用于:選取出選定意圖單元之后,對(duì)于語義單元中具有否定義元的語義,確定與該語義對(duì)應(yīng)表示單元在輸入信息中位置最近的具有動(dòng)詞詞性的表示單元或者具有由連詞連接的多個(gè)動(dòng)詞詞性的表示單元為特定表示單元,確定與特定表示單元對(duì)應(yīng)的選定意圖單元,并將該選定意圖單元確定為否定意圖單元,將選定意圖單元中與否定意圖單元相同的選定意圖單元去除。
本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別系統(tǒng)中相關(guān)部分的說明請(qǐng)參見本發(fā)明實(shí)施例提供的一種基于知識(shí)圖譜的語義識(shí)別方法中對(duì)應(yīng)部分的詳細(xì)說明,在此不再贅述。
對(duì)所公開的實(shí)施例的上述說明,使本領(lǐng)域技術(shù)人員能夠?qū)崿F(xiàn)或使用本發(fā)明。對(duì)這些實(shí)施例的多種修改對(duì)本領(lǐng)域技術(shù)人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實(shí)施例中實(shí)現(xiàn)。因此,本發(fā)明將不會(huì)被限制于本文所示的這些實(shí)施例,而是要符合與本文所公開的原理和新穎特點(diǎn)相一致的最寬的范圍。