結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法和系統(tǒng)的制作方法

文檔序號(hào)：6514288閱讀：206來(lái)源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法，該方法包括以下步驟：對(duì)于本體庫(kù)中的概念元組集合進(jìn)行歸并；得到不同類型謂詞的鏈接路徑和相應(yīng)的邏輯規(guī)則集合；對(duì)邏輯規(guī)則集合初步篩選獲得候選規(guī)則集合；得到深層概率圖模型；基于待處理數(shù)據(jù)得到結(jié)構(gòu)化元組并映射到層次化概念空間；生成目標(biāo)元組并進(jìn)行語(yǔ)義泛化；得到邏輯規(guī)則集合和證據(jù)元組集合；對(duì)馬爾可夫邏輯網(wǎng)絡(luò)進(jìn)行實(shí)例化，計(jì)算目標(biāo)元組成立的條件概率，得到數(shù)據(jù)處理結(jié)果。本發(fā)明還提供了一種深層數(shù)據(jù)處理系統(tǒng)，該系統(tǒng)包括結(jié)構(gòu)化模塊、概念化模塊、目標(biāo)生成模塊、泛化模塊、激活模塊和概率計(jì)算模塊。利用本發(fā)明，可以充分融合上下文語(yǔ)境以及背景知識(shí)，從而真正達(dá)到語(yǔ)義理解的目的。
【專利說(shuō)明】結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語(yǔ)言處理和人工智能領(lǐng)域，更具體而言，涉及一種面向文本理解的結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)信息化的日漸普及，數(shù)據(jù)正在以前所未有的廣度和深度迅猛膨脹，增強(qiáng)從非結(jié)構(gòu)化文本中分析萃取知識(shí)的能力變得愈發(fā)重要。來(lái)自真實(shí)世界的文本除了規(guī)模龐大，更為重要的挑戰(zhàn)就是表示和推理知識(shí)的復(fù)雜性和不確定性。前者體現(xiàn)在知識(shí)的高度異質(zhì)性，不僅包含關(guān)于各個(gè)對(duì)象的事實(shí)和概念，還包含一般的推理規(guī)則和本體關(guān)系；后者源于知識(shí)本身的客觀現(xiàn)實(shí)和對(duì)知識(shí)的主觀認(rèn)識(shí)水平，而且大量的知識(shí)可能是根據(jù)似然、統(tǒng)計(jì)或者聯(lián)想而得到的猜測(cè)，因此預(yù)測(cè)是固有不確定的。在傳統(tǒng)人工智能框架下，復(fù)雜性和不確定性分屬于兩個(gè)獨(dú)立的研究分支，常用的計(jì)算模型分別是基于邏輯規(guī)則的分析模型和基于統(tǒng)計(jì)隨機(jī)的概率模型。
[0003]分析模型試圖把數(shù)據(jù)之間的依存關(guān)系用規(guī)則的形式表達(dá)出來(lái)，然后通過(guò)構(gòu)造推理機(jī)制自動(dòng)地進(jìn)行數(shù)據(jù)解碼和理解，通常規(guī)則的構(gòu)造需要大量的人工操作，在提高規(guī)則完備性的同時(shí)，不可避免地要面臨規(guī)則之間的相互沖突和不一致性，因此該模型只能在極其受限的子問(wèn)題中獲得有限的成功，代表系統(tǒng)包括20世紀(jì)70?80年代開發(fā)的LUNAR系統(tǒng)、SHRDLU系統(tǒng)、MARGIE系統(tǒng)、SAM系統(tǒng)和PAM系統(tǒng)等，并且大量地用于自然語(yǔ)言分析；概率模型則試圖從大量有標(biāo)簽數(shù)據(jù)資源中自動(dòng)學(xué)習(xí)包括依存結(jié)構(gòu)和數(shù)值參量在內(nèi)的各種知識(shí)，并且保證在統(tǒng)計(jì)意義上具有可解釋性，非常適合于求解大規(guī)模真實(shí)數(shù)據(jù)，但同時(shí)需要足夠多有標(biāo)簽樣本，否則將面臨嚴(yán)重的“數(shù)據(jù)稀疏”問(wèn)題，而且從可計(jì)算性角度，該模型不能考慮復(fù)雜的依存關(guān)系，代表系統(tǒng)包括由IBM于1994年開發(fā)的統(tǒng)計(jì)翻譯系統(tǒng)，在完成從法語(yǔ)到英語(yǔ)的翻譯任務(wù)中取得了實(shí)質(zhì)性進(jìn)展。
[0004]從模型的可表達(dá)力和可計(jì)算性角度來(lái)看，無(wú)論是理性的分析模型還是經(jīng)驗(yàn)的概率模型都不足以解決復(fù)雜性和不確定性并存的挑戰(zhàn)。作為人工智能領(lǐng)域的新興研究方向，馬爾可夫邏輯結(jié)合了兩者的優(yōu)勢(shì)，旨在建立融合邏輯規(guī)則與統(tǒng)計(jì)隨機(jī)的混合模型，被視為數(shù)據(jù)深度分析的最重要技術(shù)手段之一，同時(shí)也為文本理解提供了普遍有效的表示和推理框架，代表系統(tǒng)由華盛頓大學(xué)于2010年開發(fā)的OntoUSP機(jī)器閱讀系統(tǒng)，與當(dāng)時(shí)最先進(jìn)系統(tǒng)相比取得了非常明顯的性能提升。然而為了使機(jī)器的語(yǔ)義認(rèn)知能力接近人類智能，系統(tǒng)不僅需要獲取關(guān)于外在世界的廣泛知識(shí)，還需要運(yùn)用操作這些知識(shí)的能力，包括上下文(語(yǔ)境)的結(jié)合能力和背景知識(shí)的利用能力。目前在馬爾可夫邏輯框架下開發(fā)的自然語(yǔ)言系統(tǒng)還不能較好地解決這些需求，首先多層次是大規(guī)模知識(shí)表示的基本組織結(jié)構(gòu)，但是在生成候選規(guī)則的過(guò)程中通常只考慮兩謂詞之間具有共同概念變量的情形，于是忽視了概念之間固有的層次關(guān)系以及所描述范圍可能存在的重疊和交叉現(xiàn)象，因此在給定規(guī)則長(zhǎng)度的約束下很容易損失掉大量重要的語(yǔ)義信息進(jìn)而影響所產(chǎn)生的邏輯規(guī)則的質(zhì)量；其次不確定規(guī)則作為知識(shí)表示的重要組成部分，其自動(dòng)獲取的規(guī)模直接受限于參數(shù)學(xué)習(xí)算法(也就是為邏輯規(guī)則賦值合適的權(quán)重)的復(fù)雜度，盡管原則上兩層足以表達(dá)任何函數(shù)，但是在表達(dá)大多數(shù)函數(shù)時(shí)效率卻是非常低的，而且已有方法在優(yōu)化過(guò)程中通常需要計(jì)算所有候選子句的實(shí)例化及其取值情況，將消耗很大的時(shí)間和空間開銷，因此并不適宜大規(guī)模知識(shí)的自動(dòng)處理；再次泛化和激活是知識(shí)運(yùn)用能力的具體體現(xiàn)，然而關(guān)于復(fù)雜關(guān)系的概率推理還沒有在實(shí)體或者關(guān)系層面充分考慮有效的知識(shí)泛化，于是難以應(yīng)對(duì)知識(shí)不完備比如證據(jù)覆蓋不全的問(wèn)題，另外目前的激活策略更多的是依據(jù)實(shí)例元組及其所在邏輯規(guī)則的取值情況，尚未考慮目標(biāo)元組與實(shí)例元組或者邏輯規(guī)則的相關(guān)度，于是容易產(chǎn)生大量弱關(guān)聯(lián)甚至無(wú)關(guān)的規(guī)則或者元組，從而為不確定推理帶來(lái)龐大的計(jì)算開銷，影響語(yǔ)義分析的效率。因此，現(xiàn)有語(yǔ)義分析系統(tǒng)在很多方面仍然存在不足。

【發(fā)明內(nèi)容】

[0005]鑒于以上提出的問(wèn)題，本發(fā)明提出一種面向文本理解的結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法和系統(tǒng)，亦稱為計(jì)算大腦系統(tǒng)，旨在克服現(xiàn)有技術(shù)中存在的問(wèn)題。
[0006]具體地，根據(jù)本發(fā)明的一個(gè)方面，提供了一種結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法，該方法包括以下步驟:
[0007]步驟SI，基于本體庫(kù)中概念的層次組織結(jié)構(gòu)，對(duì)于所述本體庫(kù)中的概念元組集合進(jìn)行歸并處理，這些元組的謂詞包括概念的屬性或者概念之間的關(guān)系；
[0008]步驟S2，基于歸并處理后得到的概念元組集合，得到不同類型謂詞的鏈接路徑，以及相應(yīng)的邏輯規(guī)則集合；
[0009]步驟S3，對(duì)所述邏輯規(guī)則集合進(jìn)行初步篩選，獲得候選規(guī)則集合；
[0010]步驟S4,基于深層和積網(wǎng)絡(luò)(Sum-Product Network, SPN)得到用來(lái)計(jì)算所述候選規(guī)則集合不確定性的深層概率圖模型，繼而得到賦值權(quán)重的邏輯規(guī)則集合，即馬爾可夫邏輯網(wǎng)絡(luò)，并存儲(chǔ)于規(guī)則庫(kù)中；
[0011]步驟S5，利用漢語(yǔ)分詞技術(shù)將待處理數(shù)據(jù)轉(zhuǎn)化為詞語(yǔ)的有序元組，并且每個(gè)詞語(yǔ)都具有相應(yīng)的詞性標(biāo)注，再結(jié)合基本的句式結(jié)構(gòu)提取得到結(jié)構(gòu)化元組；
[0012]步驟S6，將所述步驟S5得到的所有結(jié)構(gòu)化元組中的實(shí)例分別映射到層次化概念空間中，依據(jù)實(shí)例所屬概念，以及謂詞對(duì)應(yīng)的概念搭配，對(duì)結(jié)構(gòu)化元組中的實(shí)例和謂詞分別進(jìn)行語(yǔ)義標(biāo)識(shí)；
[0013]步驟S7，基于所述步驟S6得到的語(yǔ)義標(biāo)識(shí)結(jié)果，生成待推理的有標(biāo)識(shí)結(jié)構(gòu)化元組，即目標(biāo)元組；
[0014]步驟S8，對(duì)所述步驟S7得到的目標(biāo)元組進(jìn)行語(yǔ)義泛化，并將泛化后產(chǎn)生的結(jié)構(gòu)化元組與原目標(biāo)元組一起形成目標(biāo)元組集合；
[0015]步驟S9，基于所述步驟S8得到的目標(biāo)元組集合，對(duì)規(guī)則庫(kù)中的邏輯規(guī)則進(jìn)行有效的激活，對(duì)事實(shí)庫(kù)中的結(jié)構(gòu)化元組以及上下文知識(shí)進(jìn)行有效的激活，所述上下文知識(shí)為所述步驟S5中得到的結(jié)構(gòu)化元組中的非目標(biāo)元組集合，得到邏輯規(guī)則集合和支撐后續(xù)推理的證據(jù)元組集合；
[0016]步驟S10，基于所述步驟S9中激活得到的證據(jù)元組集合，對(duì)所述步驟S9得到的邏輯規(guī)則集合進(jìn)行實(shí)例化，同時(shí)計(jì)算所述目標(biāo)元組成立的條件概率，得到待處理數(shù)據(jù)的最終
處理結(jié)果。[0017]根據(jù)本發(fā)明的另一個(gè)方面，提供了一種結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理系統(tǒng)，該系統(tǒng)包括結(jié)構(gòu)化模塊、概念化模塊、目標(biāo)生成模塊、泛化模塊、激活模塊和概率計(jì)算模塊，其中:
[0018]所述結(jié)構(gòu)化模塊用來(lái)生成非結(jié)構(gòu)化文本的結(jié)構(gòu)化表示；
[0019]所述概念化模塊與所述結(jié)構(gòu)化模塊連接，用于將所述結(jié)構(gòu)化模塊得到的結(jié)構(gòu)化元組分別映射到本體庫(kù)中對(duì)應(yīng)的概念元組上；
[0020]所述目標(biāo)生成模塊與所述概念化模塊連接，用于基于所述結(jié)構(gòu)化和概念元組，根據(jù)待求解的應(yīng)用問(wèn)題，產(chǎn)生待推理的目標(biāo)元組；
[0021]所述泛化模塊與所述目標(biāo)生成模塊連接，用于從謂詞、實(shí)例和概念三個(gè)層面實(shí)現(xiàn)對(duì)所述目標(biāo)元組的語(yǔ)義泛化，用來(lái)解決知識(shí)庫(kù)不完備的情況；
[0022]所述激活模塊用于生成支持高效率推理的證據(jù)元組和邏輯規(guī)則；
[0023]所述概率計(jì)算模塊用于根據(jù)所述激活模塊生成的邏輯規(guī)則和證據(jù)集合，對(duì)于相應(yīng)的局部馬爾可夫邏輯網(wǎng)絡(luò)進(jìn)行實(shí)例化，實(shí)現(xiàn)對(duì)目標(biāo)元組及其泛化結(jié)果的條件概率計(jì)算，并將最終的數(shù)據(jù)處理結(jié)果進(jìn)行輸出。
[0024]利用本發(fā)明的方法和系統(tǒng)，在知識(shí)獲取方面，可以在層次化概念空間中自動(dòng)歸納生成結(jié)構(gòu)化特征，也就是邏輯規(guī)則，克服單純依賴領(lǐng)域?qū)＜液腿斯じ深A(yù)來(lái)設(shè)計(jì)特征的局限性，適應(yīng)數(shù)據(jù)類型多樣化、關(guān)系復(fù)雜化的特點(diǎn)，并且在迭代過(guò)程中充分利用深層概率圖模型所具有的緊湊的函數(shù)表達(dá)形式以及在計(jì)算上的優(yōu)勢(shì)，實(shí)現(xiàn)高效率的參數(shù)更新；在知識(shí)運(yùn)用方面，融合上下文(語(yǔ)境)和背景知識(shí)進(jìn)行語(yǔ)義推理的同時(shí)，有效結(jié)合了知識(shí)泛化和激活策略，使得系統(tǒng)具備舉一反三的聚合思維的能力，從而更加接近人類的認(rèn)知水平，真正地在語(yǔ)義層次上實(shí)現(xiàn)非結(jié)構(gòu)化文本的自動(dòng)理解。
【專利附圖】

【附圖說(shuō)明】
[0025]圖1為根據(jù)本發(fā)明一個(gè)方面的結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法流程圖；
[0026]圖2為本發(fā)明一個(gè)優(yōu)選實(shí)施例的用于確定邏輯規(guī)則權(quán)重的深層概率圖模型示意圖；
[0027]圖3為本發(fā)明一個(gè)優(yōu)選實(shí)施例對(duì)不具有屬性的實(shí)體概念識(shí)別的例子；
[0028]圖4為本發(fā)明一個(gè)實(shí)施例對(duì)待推理元組進(jìn)行泛化的示意圖；
[0029]圖5為本發(fā)明一個(gè)方面的結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理系統(tǒng)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0030]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白，以下結(jié)合具體實(shí)施例，并參照附圖，對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。
[0031]首先需要說(shuō)明的是:計(jì)算大腦的知識(shí)庫(kù)由本體庫(kù)、事實(shí)庫(kù)和規(guī)則庫(kù)構(gòu)成，其中本體庫(kù)中存放的是概念之間的結(jié)構(gòu)化元組及其權(quán)重，事實(shí)庫(kù)中存放的是實(shí)例之間的結(jié)構(gòu)化元組，規(guī)則庫(kù)中存放的是邏輯規(guī)則及其權(quán)重，并且其中所有的謂詞、實(shí)例和概念均經(jīng)過(guò)唯一性的語(yǔ)義標(biāo)識(shí)。
[0032]圖1為根據(jù)本發(fā)明一個(gè)方面的結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法流程圖，接下來(lái)以語(yǔ)義分析為例對(duì)于本發(fā)明方法進(jìn)行說(shuō)明，如圖1所示，所述方法包括以下步驟:
[0033]步驟SI，基于本體庫(kù)中概念的層次組織結(jié)構(gòu)，對(duì)于所述本體庫(kù)中的概念元組集合進(jìn)行歸并處理，這些元組的謂詞包括概念的屬性或者概念之間的關(guān)系；
[0034]所述步驟SI進(jìn)一步包括以下步驟:
[0035]步驟S11，根據(jù)所涉及謂詞的不同將所述概念元組集合劃分為若干子集T ；
[0036]步驟S12，為每個(gè)子集T設(shè)置候選集r來(lái)記錄歸并處理過(guò)程中產(chǎn)生的中間結(jié)果，最終得到歸并后的概念元組集合，所述歸并為給定任意兩個(gè)具有相同謂詞的元組Yi和Y」，逐步掃描每個(gè)元組的語(yǔ)法成分，如果這些語(yǔ)法成分所對(duì)應(yīng)的兩個(gè)概念都具有上下位關(guān)系，則將下位概念分別替換為相應(yīng)的上位概念，值得注意的是上位概念的屬性和關(guān)系對(duì)于所有子概念依然適用，于是可以得到更具概括意義的元組表示，比如元組“推廣(文化/媒體/互聯(lián)網(wǎng)/網(wǎng)站，物品/產(chǎn)品)”和“推廣(文化/媒體，物品/產(chǎn)品/電器)”可以歸并為“推廣(文化/媒體，物品/產(chǎn)品)”，其中斜杠“/”左側(cè)的實(shí)體是右側(cè)實(shí)體的上位概念。
[0037]所述步驟S12進(jìn)一步包括以下步驟:
[0038]步驟S121，初始化:令迭代步數(shù)T =0，候選集r =0子集T = { Y }；
[0039]步驟S122，隨機(jī)選取YqG T構(gòu)成候選集r = Utl丨，同時(shí)令T = T-{Yq};
[0040]步驟S123，對(duì)于迭代步數(shù)T，選取元素Y T G T，將Y T與r中的所有元素進(jìn)行匹配；
[0041]步驟S124，如果G r與Y T滿足歸并條件并且得到歸并元組Y ’，則利用歸并元組Y ’替換Y。，同時(shí)令T = T-U J ;
[0042]步驟S125，重復(fù)所述步驟S123-S124直到T= 0則此時(shí)得到的候選集r即為最后的歸并結(jié)果；
[0043]步驟S126，重復(fù)所述步驟S121-S125，直至遍歷所有子集T，最終得到歸并后的概念元組集合f。這樣就可以在不損失語(yǔ)義的條件下大規(guī)模壓縮概念元組的規(guī)模，在一定程度上緩解指數(shù)量級(jí)搜索空間所帶來(lái)的龐大計(jì)算成本。
[0044]步驟S2，基于歸并處理后得到的概念元組集合甲，得到異質(zhì)(不同類型)謂詞的鏈接路徑，以及相應(yīng)的邏輯規(guī)則集合；
[0045]所述步驟S2進(jìn)一步包括以下步驟:
[0046]步驟S21，對(duì)于歸并處理后得到的概念元組集合令候選集r =T，從r中選取概念元組Y添加到空路徑中，同時(shí)令r = r-{Y}；
[0047]步驟S22，從所述概念元組集合T中搜索與當(dāng)前路徑中已有概念元組具有鏈接概念對(duì)的元組，鏈接概念對(duì)中的兩概念既可以相同也可以具有上下位關(guān)系，并且將搜索到的概念元組遞歸地添加到當(dāng)前路徑中，直至鏈接路徑達(dá)到預(yù)定義最大長(zhǎng)度或者再無(wú)新的概念元組添加；
[0048]步驟S23，利用邏輯運(yùn)算符，比如“與”(~)、“或”(V)、“非”(！)、“條件”(=>)等，將得到的鏈接路徑中的各個(gè)概念元組關(guān)聯(lián)起來(lái)，得到多種邏輯規(guī)則，所述邏輯規(guī)則比如可以為如下形式:
[0049]登錄(人物/用戶，文化/媒體/互聯(lián)網(wǎng)/網(wǎng)站)推廣(文化/媒體，物品/產(chǎn)品)
[0050]=>購(gòu)買(人物/用戶，物品/產(chǎn)品)，[0051]其中，符號(hào)“=>”左側(cè)的部分稱為前提，右側(cè)的部分稱為結(jié)論。
[0052]步驟S24，重復(fù)所述步驟S21-S23，直到r = 0，得到多條鏈接路徑以及相應(yīng)的多種邏輯規(guī)則，組成邏輯規(guī)則集合。
[0053]步驟S3，對(duì)所述邏輯規(guī)則集合進(jìn)行初步篩選，獲得候選規(guī)則集合；
[0054]所述步驟S3進(jìn)一步包括以下步驟:
[0055]步驟S31，將所述邏輯規(guī)則集合中的每條邏輯規(guī)則進(jìn)行實(shí)例化，也就是將邏輯規(guī)則中的概念分別替換為相應(yīng)的實(shí)例，使得邏輯規(guī)則中的每個(gè)實(shí)例結(jié)構(gòu)化元組與相應(yīng)的概念結(jié)構(gòu)化元組具有一一映射關(guān)系，鏈接概念對(duì)所對(duì)應(yīng)的兩個(gè)實(shí)例既可以相同，也可以具有包含關(guān)系;
[0056]比如某一邏輯規(guī)則的一種實(shí)例化結(jié)果可表示為:
[0057]登錄(張三，天貓推廣(淘寶網(wǎng)，凈化器)=> 購(gòu)買(張三，凈化器).[0058]其中，實(shí)例“淘寶網(wǎng)”和“天貓”之間具有自頂向下的包含關(guān)系，從而使得概念的層次化組織結(jié)構(gòu)有效地融合到邏輯規(guī)則的自動(dòng)挖掘過(guò)程中。
[0059]步驟S32，基于事實(shí)庫(kù)中的結(jié)構(gòu)化元組集合，統(tǒng)計(jì)實(shí)例化邏輯規(guī)則前提成立(取值為真)的次數(shù)及其前提和結(jié)論同時(shí)成立的次數(shù)，然后基于兩者的比值得到所述邏輯規(guī)則成立的置信度，并且將置信度超過(guò)某個(gè)給定閾值的邏輯規(guī)則篩選出來(lái)，得到候選規(guī)則集合。
[0060]需要說(shuō)明的是，上述舉例僅為了更好地說(shuō)明本發(fā)明的技術(shù)方案，而非對(duì)本發(fā)明的限制，本領(lǐng)域技術(shù)人員應(yīng)該理解，任何基于所述邏輯規(guī)則生成策略得到的表達(dá)形式(而不限于霍恩子句)，根據(jù)所述置信度計(jì)算結(jié)果，來(lái)確定所述候選規(guī)則集合的自動(dòng)篩選方式，均應(yīng)包含在本發(fā)明的范圍內(nèi)。`
[0061]步驟S4,基于深層和積網(wǎng)絡(luò)(Sum-Product Network, SPN)得到用來(lái)計(jì)算所述候選規(guī)則集合不確定性的深層概率圖模型，繼而得到賦值權(quán)重的邏輯規(guī)則集合，即馬爾可夫邏輯網(wǎng)絡(luò)，并存儲(chǔ)于規(guī)則庫(kù)中；
[0062]通常地，基于歸一化的因子乘積公式，概率圖模型可以緊湊地表示候選規(guī)則集合的聯(lián)合分布，然而計(jì)算歸一化函數(shù)往往需要對(duì)指數(shù)量級(jí)的乘積項(xiàng)進(jìn)行求和，成為影響概率推理進(jìn)而限制參數(shù)學(xué)習(xí)可擴(kuò)展性的重要計(jì)算瓶頸，為此從可表達(dá)力和可計(jì)算性的角度出發(fā)，這里采用具有多層隱藏變量的概率圖模型實(shí)現(xiàn)參數(shù)學(xué)習(xí)。相對(duì)于深度置信網(wǎng)、深度玻爾茲曼機(jī)等深層學(xué)習(xí)結(jié)構(gòu)，深層和積網(wǎng)絡(luò)可以視為一類新的深層結(jié)構(gòu)，其中隱藏變量為求和或者求積，并且被交替排列在相鄰層次上，在計(jì)算上具有潛在的可擴(kuò)展性，也使得學(xué)習(xí)和推理更加便于處理。
[0063]所述步驟S4進(jìn)一步包括以下步驟:
[0064]步驟S41，將所述候選規(guī)則集合分解為大量不相交的候選規(guī)則子集，也就是任意兩個(gè)候選規(guī)則子集之間都不含有相同的概念元組；
[0065]步驟S42，針對(duì)每個(gè)候選規(guī)則子集R={Rb:b=l，2，...，n}，其中，Rb表示候選規(guī)則子集R中的第b個(gè)候選規(guī)則，令X={Xb:b=l，2，...，n}表示二值隨機(jī)變量的集合，其中變量Xb取值為I對(duì)應(yīng)規(guī)則Rb取值為真的某實(shí)例化，取值為0對(duì)應(yīng)規(guī)則Rb取值為假的某實(shí)例化，這些變量分別作為深層和積網(wǎng)絡(luò)的終端結(jié)點(diǎn)，不失一般性地，在所述SPN中，求和與求積結(jié)點(diǎn)交替排列，其中求和結(jié)點(diǎn)的子結(jié)點(diǎn)為求積或者終端結(jié)點(diǎn)，同時(shí)邊上賦值非負(fù)參數(shù)W，而所有求積結(jié)點(diǎn)的子結(jié)點(diǎn)為求和，同時(shí)邊上賦值的默認(rèn)參數(shù)均為1，如圖2所示；[0066]步驟S43，基于候選規(guī)則子集R中所涉及的語(yǔ)義謂詞從事實(shí)庫(kù)中篩選得到相關(guān)的結(jié)構(gòu)化元組，用來(lái)對(duì)R中的邏輯規(guī)則進(jìn)行實(shí)例化；
[0067]步驟S44，估計(jì)非負(fù)參數(shù)W，最終得到計(jì)算所述候選規(guī)則集合不確定性的深層概率圖模型，繼而得到賦值權(quán)重的邏輯規(guī)則集合，即馬爾可夫邏輯網(wǎng)絡(luò)，并存儲(chǔ)于規(guī)則庫(kù)中。
[0068]由于隨著SPN層數(shù)的增加，梯度信號(hào)迅速衰減為零，使得學(xué)習(xí)效果變差，而傳統(tǒng)的EM算法也存在這樣的問(wèn)題，于是本發(fā)明采用hard-EM算法進(jìn)行迭代優(yōu)化來(lái)估計(jì)非負(fù)參數(shù)W，在E步驟從根結(jié)點(diǎn)起自頂向下遞歸地選取求和結(jié)點(diǎn)中具有最大取值的子結(jié)點(diǎn)以及所有求積子結(jié)點(diǎn)，同時(shí)記錄每個(gè)被選中的求和子結(jié)點(diǎn)，在M步驟則簡(jiǎn)單地累計(jì)子結(jié)點(diǎn)被選中的次數(shù)，經(jīng)過(guò)歸一化之后得到更新后的權(quán)重，兩個(gè)步驟交替循環(huán)直到收斂(如果訓(xùn)練數(shù)據(jù)可分解為不同的樣本，那么每個(gè)迭代步驟只需處理單個(gè)樣本，實(shí)現(xiàn)在線參數(shù)更新，從而避免完全實(shí)例化以及在此基礎(chǔ)上計(jì)算子句成立次數(shù)所帶來(lái)的龐大計(jì)算開銷)，之后刪除權(quán)重為零的邊以及無(wú)父親非根結(jié)點(diǎn)；最后計(jì)算SPN中終端結(jié)點(diǎn)的邊緣概率取值，由根節(jié)點(diǎn)輸出相應(yīng)邏輯規(guī)則的權(quán)重，這些賦值權(quán)重的邏輯規(guī)則集合稱為馬爾可夫邏輯網(wǎng)絡(luò)，并且存儲(chǔ)于計(jì)算大腦的規(guī)則庫(kù)中。
[0069]需要說(shuō)明的是，上述過(guò)程僅為更好地說(shuō)明本發(fā)明的技術(shù)方案，而非對(duì)本發(fā)明的限制，本領(lǐng)域技術(shù)人員應(yīng)該理解，任何基于所述深層和積網(wǎng)絡(luò)模型，根據(jù)所述權(quán)重更新結(jié)果(亦適用于在線學(xué)習(xí))，來(lái)確定所述邏輯規(guī)則對(duì)應(yīng)參數(shù)的實(shí)現(xiàn)方式，均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0070]步驟S5，利用漢語(yǔ)分詞技術(shù)將待處理數(shù)據(jù)，比如文本語(yǔ)句轉(zhuǎn)化為詞語(yǔ)的有序元組，并且每個(gè)詞語(yǔ)都具有相應(yīng)的詞性標(biāo)注，再結(jié)合基本的句式結(jié)構(gòu)提取得到結(jié)構(gòu)化元組，其中，這些基本句式包括:①NP+VP、②NP+[把+賓語(yǔ)]+VP、③NP+[被+賓語(yǔ)]+VP、④NPi+[是]+NP2等，其中NP表示名詞性短語(yǔ)、VP表示動(dòng)詞性短語(yǔ)，并且抽取得到的結(jié)構(gòu)化元組分別對(duì)應(yīng)于:①VP中心詞(s:NP中心詞，o:VP賓語(yǔ))、②VP(s:NP中心詞，0:賓語(yǔ))、③VP(s:賓語(yǔ)，o:NP中心詞)、④是(s:NPl中心詞，o:NP2中心詞)，其中，s表示主語(yǔ)，O表示賓語(yǔ)。
[0071]比如例句:中國(guó)古代許多著名詩(shī)詞都描寫了杜鵑，如陸游創(chuàng)作的《杜宇行》、李商隱創(chuàng)作的《錦瑟》等。
[0072]經(jīng)過(guò)漢語(yǔ)分詞后可以得到有序元組如下:
[0073]〈中國(guó)/ns,古代/t,許多/m,著名/a,詩(shī)詞/n,都/d,描寫/v,了 Aile,杜匿$/n,如/V，陸游/nr,創(chuàng)作/V，的/udeI，《/wkz,杜宇行/n，》/wky,李商隱/nr,創(chuàng)作/v,的/udel,《/wkz,錦瑟/n，》wky,等/udeng>,其中,ns表示地名，t表示時(shí)間，m表示數(shù)詞，a表示形容詞，n表示名詞，d表示副詞，V表示動(dòng)詞，ule表示助詞了，nr表示人名，udel表示助詞的，wkz表示左括號(hào)，wky表示右括號(hào)，udeng表示助詞等；
[0074]結(jié)合詞性標(biāo)注信息可以判斷上述例句符合句式①，于是可以抽取得到如下形式的結(jié)構(gòu)化元組:
[0075]+描寫(s:詩(shī)詞，O:杜醇,ns:中國(guó)，t:古代)
[0076]今創(chuàng)作(s:陸游,0:杜宇行)
[0077]?創(chuàng)作(s:李商隱，O:錦瑟)
[0078]除此以外，為了保留盡可能多的語(yǔ)義信息，考慮“共現(xiàn)”關(guān)系的元組抽取，也就是通過(guò)依次抽取句子中的名詞性詞語(yǔ)得到“共現(xiàn)”關(guān)系的相關(guān)實(shí)體。對(duì)于上述例句，抽取得到的“共現(xiàn)”結(jié)構(gòu)化元組為:
[0079]+共現(xiàn)(中國(guó)，古代，詩(shī)詞，杜鵑，陸游，杜宇行，李商隱，錦瑟)。
[0080]步驟S6，將所述步驟S5得到的所有結(jié)構(gòu)化元組中的實(shí)例分別映射到層次化概念空間中，依據(jù)實(shí)例所屬概念，以及謂詞對(duì)應(yīng)的概念搭配，對(duì)結(jié)構(gòu)化元組中的實(shí)例和謂詞分別進(jìn)行語(yǔ)義標(biāo)識(shí)，支撐后續(xù)基于知識(shí)庫(kù)進(jìn)行的語(yǔ)義泛化、激活和概率計(jì)算；
[0081]所述步驟S6進(jìn)一步包括以下步驟:
[0082]步驟S61，針對(duì)所述結(jié)構(gòu)化元組中具有屬性信息的實(shí)例，利用歸納決策樹模型實(shí)現(xiàn)實(shí)例的層次概念化，該模型通過(guò)保證聚類內(nèi)方差最小為準(zhǔn)則啟發(fā)式地選擇合適的屬性作為分割點(diǎn)，從而得到上述實(shí)例的若干候選概念，于是上面示例中的實(shí)例分別映射為:
[0083]今中國(guó):地理/地區(qū)/國(guó)家
[0084]今詩(shī)詞:文化/作品/篇章
[0085]今杜鵑:生物/人物、生物/植物/花、生物/動(dòng)物
[0086]々陸游:生物/人物/名家
[0087]令李商隱:生物/人物/名家
[0088]今錦瑟:文化/作品/篇章
[0089]由于實(shí)例的屬性描述往往可以離線抽取，比如來(lái)自百度百科和互動(dòng)百科等的信息框，那么上述過(guò)程可以離線執(zhí)行完成，并將產(chǎn)生的預(yù)測(cè)結(jié)果進(jìn)行存儲(chǔ)和索引，這樣在線分析時(shí)只需進(jìn)行直接查詢即可。
[0090]步驟S62，針對(duì)不具有屬性信息的實(shí)例，則在多元謂詞及其所在元組的其他實(shí)例的概念約束下，通過(guò)本體庫(kù)中賦值權(quán)重的概念元組集合來(lái)判斷該實(shí)例可能的候選概念。
[0091]比如，對(duì)于例句中的結(jié)構(gòu)化元組，實(shí)例“杜宇行”不具有屬性信息，但是該實(shí)例出現(xiàn)在結(jié)構(gòu)化元組“創(chuàng)作(s:陸游，O:杜宇行)”和“共現(xiàn)(中國(guó)，古代，詩(shī)詞，杜鵑，陸游，杜宇行，李商隱，錦瑟)”中，此時(shí)基于概念元組及其頻次信息(如圖3所示)可以判斷該實(shí)例最有可能的三個(gè)候選概念為“文化/作品”、“物品/用品/器物”、“生物/人物”。如果該實(shí)例僅出現(xiàn)在共現(xiàn)元組中，那么利用最為鄰近的無(wú)歧義實(shí)例來(lái)判斷其候選概念。
[0092]需要說(shuō)明的是，上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案，而非對(duì)本發(fā)明的限制，本領(lǐng)域技術(shù)人員應(yīng)該理解，任何根據(jù)其他方式來(lái)綜合基于屬性的層次化分類以及概念元組匹配結(jié)果以得到候選概念的實(shí)現(xiàn)方式，均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0093]步驟S63，基于上述實(shí)例的候選概念，對(duì)所述結(jié)構(gòu)化元組進(jìn)行一對(duì)多概念映射，假設(shè)結(jié)構(gòu)化元組中包含兩個(gè)實(shí)例，其中一個(gè)實(shí)例的候選概念個(gè)數(shù)為n，另一實(shí)例的候選概念個(gè)數(shù)為m，那么在同一謂詞約束下可以產(chǎn)生的概念元組個(gè)數(shù)為n*m。
[0094]舉例來(lái)講，對(duì)于例句中的結(jié)構(gòu)化元組“描寫(s:詩(shī)詞，0:杜鵑)”，由于“詩(shī)詞”的候選概念是“文化/作品/篇章”，“杜鵑”的候選概念是“生物/植物/花”、“生物/動(dòng)物”和“生物/人物”，那么該結(jié)構(gòu)化元組映射得到的概念元組如下:
[0095]+描寫(s:文化/作品/篇章，O:生物/植物/花)
[0096]+描寫(s:文化/作品/篇章，O:生物/動(dòng)物)
[0097]+描寫(s:文化/作品/篇章，0:生物/人物)
[0098]類似地，結(jié)構(gòu)化元組“創(chuàng)作(s:陸游,0:杜宇行)”、“創(chuàng)作(s:李商隱，0:錦瑟)”和“共現(xiàn)(中國(guó)，古代，詩(shī)詞，杜鵑，陸游，杜宇行，李商隱，錦瑟)”可以分別映射為如下形式的概念元組:
[0099]今創(chuàng)作(s:生物/人物/名家，O:文化/作品/篇章)
[0100]+創(chuàng)作(s:生物/人物/名家，O:文化/作品)
[0101]+創(chuàng)作(s:生物/人物/名家，0:物品/用品/器物)
[0102]+創(chuàng)作(s:生物/人物/名家，O:生物/人物)
[0103]今共現(xiàn)(地理/地區(qū)/國(guó)家，古代，文化/作品/篇章，杜鵑，生物/人物/名
家，文化/作品，生物/人物/名家，文化/作品/篇章)
[0104]今共現(xiàn)(地理/地區(qū)/國(guó)家，時(shí)間/時(shí)期/古代，文化/作品/篇章，杜鵑，生物/人物/名家，物品/用品/器物，生物/人物/名家，文化/作品/篇章)
[0105]+共現(xiàn)(地理/地區(qū)/國(guó)家，時(shí)間/時(shí)期/古代，文化/作品/篇章，杜鵑，生物/人物/名家，生物/人物，生物/人物/名家，文化/作品/篇章)。
[0106]為了方便使用，通常根據(jù)實(shí)際需求將共現(xiàn)謂詞元組進(jìn)一步分解為但不限于三元組的形式。
[0107]步驟S64，基于本體庫(kù)中有標(biāo)識(shí)的概念元組，對(duì)所述步驟S63產(chǎn)生的概念元組進(jìn)行標(biāo)識(shí)對(duì)齊，也就是在保證謂詞一致的條件下，對(duì)齊概念子序列，其特殊情況就是概念完全對(duì)齊，通常地優(yōu)先選擇所有概念對(duì)齊下的謂詞和概念標(biāo)識(shí)，并對(duì)相應(yīng)結(jié)構(gòu)化元組進(jìn)行標(biāo)注，同時(shí)這里的對(duì)齊考慮下位概念與上位概念的廣義匹配。
[0108]于是上例中經(jīng)過(guò)標(biāo)識(shí)對(duì)齊得到的事實(shí)元組如下:
[0109]+描寫 _69(s:詩(shī)詞 _80，o:杜鵑 _10，ns:中國(guó) _52，t:古代 _142)
[0110]+描寫 _83(s:詩(shī)詞 _80，o:杜鵑 _8，ns:中國(guó) _52，t:古代 _142)
[0111]今描寫_18 (s:詩(shī)詞 _80，O:杜鵑 _2，ns:中國(guó) _52，t:古代 _142)
[0112]+創(chuàng)作_30 (陸游_4，杜宇行_73)
[0113]+創(chuàng)作_171 (陸游_4，杜宇行_2)
[0114]+創(chuàng)作 _121(杜宇行 _22)
[0115]+創(chuàng)作_23(李商隱_4，錦瑟_80)
[0116]+共現(xiàn) _23231 (詩(shī)詞 _80，杜鵑 _10)
[0117]+共現(xiàn) _18852(詩(shī)詞 _80，杜鵑 _8)
[0118]今共現(xiàn)_3810(詩(shī)詞_80，杜鵑_2)
[0119]+共現(xiàn)_61303 (陸游_4，杜宇行_73)
[0120]+共現(xiàn)_33753 (陸游_4，杜宇行_22)
[0121 ] +共現(xiàn)_34462 (陸游_4，杜宇行_2)
[0122]一般地，在本體庫(kù)中謂詞的標(biāo)識(shí)記錄其對(duì)應(yīng)的各種不同搭配組合，實(shí)例的標(biāo)識(shí)即為該實(shí)例所屬概念的標(biāo)識(shí)，并且每個(gè)標(biāo)識(shí)對(duì)應(yīng)唯一的語(yǔ)義，要說(shuō)明的是，事實(shí)庫(kù)中的結(jié)構(gòu)化元組也經(jīng)過(guò)了這樣的語(yǔ)義標(biāo)識(shí)。
[0123]步驟S7，基于所述步驟S6得到的語(yǔ)義標(biāo)識(shí)結(jié)果，生成待推理的有標(biāo)識(shí)的結(jié)構(gòu)化元組，也稱為目標(biāo)元組，通常所生成的目標(biāo)元組取決于實(shí)際的應(yīng)用問(wèn)題，比如對(duì)于詞義消歧問(wèn)題，目標(biāo)元組涉及有歧義實(shí)例或者謂詞；對(duì)于信息檢索問(wèn)題，目標(biāo)元組表征用戶查詢或者用戶意圖；對(duì)于情報(bào)分析問(wèn)題，目標(biāo)元組則表征文本背后隱含的語(yǔ)義知識(shí)等。事實(shí)上，目標(biāo)元組的生成并不限于上述應(yīng)用領(lǐng)域。
[0124]接下來(lái)在步驟S8中需要對(duì)所述步驟S7得到的目標(biāo)元組實(shí)施語(yǔ)義泛化，這樣原目標(biāo)元組可以泛化得到若干新的目標(biāo)元組，這些目標(biāo)元組之間具有某種語(yǔ)義相似性，一并用于后續(xù)的激活和概率計(jì)算，盡可能避免由于知識(shí)庫(kù)中規(guī)則不完備、或者證據(jù)覆蓋不全等問(wèn)題，導(dǎo)致對(duì)原目標(biāo)元組的推理結(jié)果為空或者可信度過(guò)低的情形。在本發(fā)明一實(shí)施例中，所述語(yǔ)義泛化包括謂詞、實(shí)例和概念在內(nèi)的三個(gè)層面，參照?qǐng)D4所示，并將泛化后產(chǎn)生的結(jié)構(gòu)化元組與原目標(biāo)元組一起形成目標(biāo)元組集合。下面結(jié)合具體實(shí)施例對(duì)目標(biāo)元組的泛化過(guò)程分別予以詳述。
[0125]如圖4所示，所述步驟S8進(jìn)一步包括以下步驟:
[0126]步驟S81，將所述目標(biāo)元組中無(wú)規(guī)則支持的謂詞泛化為具有相同概念搭配的同義謂詞；
[0127]所述步驟S81進(jìn)一步包括以下步驟:
[0128]步驟S811，判斷所述目標(biāo)元組中的帶標(biāo)識(shí)謂詞是否出現(xiàn)在規(guī)則庫(kù)中，如果否，則執(zhí)行步驟S812，如果是，則保留該謂詞，同時(shí)算法終止；
[0129]步驟S812，基于同義詞典獲取該謂詞的同義詞，比如“描寫”的同義詞有描繪、描述等;
[0130]步驟S813，利用同義詞分別替換目標(biāo)元組中相應(yīng)的謂詞，然后返回步驟S811。舉例來(lái)說(shuō)，假如不包含謂詞“描寫_83”相關(guān)的邏輯規(guī)則，但包含“描繪_83”相關(guān)的邏輯規(guī)則，于是為了支持有效的推理，則將謂詞“描寫_83”泛化為“描繪_83”。
[0131]步驟S82，將所述目標(biāo)元組中有概念但無(wú)證據(jù)的實(shí)例泛化為同一概念下的若干相近實(shí)例；
[0132]所述步驟S82進(jìn)一步包括以下步驟:
[0133]步驟S821，判斷所述目標(biāo)元組中的實(shí)例是否出現(xiàn)在事實(shí)庫(kù)中，如果否，則執(zhí)行步驟S823，如果是，則執(zhí)行步驟S822 ；
[0134]步驟S822，判斷所述目標(biāo)元組中的謂詞是否出現(xiàn)在規(guī)則庫(kù)中，如果否，則執(zhí)行步驟S823，如果是，算法終止；
[0135]步驟S823，從規(guī)則庫(kù)中提取邏輯規(guī)則集合R，其中每條邏輯規(guī)則至少包含一次所述目標(biāo)元組中的謂詞；
[0136]步驟S824，從規(guī)則庫(kù)中提取邏輯規(guī)則集合R’，其中每條規(guī)則至少包含一次R中出現(xiàn)過(guò)的謂詞，并且令R=R U R’，重復(fù)執(zhí)行步驟S824，直到滿足預(yù)先設(shè)置的迭代次數(shù)T ,為了節(jié)省計(jì)算時(shí)間，T通常設(shè)置為2。舉例來(lái)說(shuō)，給定目標(biāo)元組“描寫_83(8:詩(shī)詞_80，o:杜鵑_8)”，根據(jù)給定謂詞“描寫_83”經(jīng)過(guò)一輪提取的規(guī)則列表如下但不限于下面列出的內(nèi)容:
[0137]々1.00 表達(dá) _561 (v0, v2)' 象征 _134 (vl, v2)=> 描寫 _83 (v0, vl)
[0138]今0.93 創(chuàng)作 _23 (v2, v0) ~ 引用 _227 (v2, vl)=> 描寫 _83 (v0, vl)
[0139]今0.85 作者 _1 (v0, v2)' 喜愛 _37 (v2, vl)=> 描寫 _83 (v0, vl)
[0140]令0.50 描寫 _83 (v2, vl)' 共現(xiàn) _18566 (v0, v2)=> 描寫 _83 (v0, vl)
[0141]々0.33 描寫 _83 (v0, vl)' 共現(xiàn) _38990 (v2, vl)=> 歌頌 _56 (v0, v2)
[0142]......[0143]如上所述，每個(gè)謂詞對(duì)應(yīng)唯一的概念搭配，比如表達(dá)_561(%^2)對(duì)應(yīng)表達(dá)_561 (文化/作品/篇章，實(shí)踐/心里活動(dòng)/情感)，其余類似，不再贅述。
[0144]步驟S825，解析所述步驟S824中得到的規(guī)則集合R，從中提取所有出現(xiàn)過(guò)的謂詞，繼而依據(jù)這些謂詞以及待泛化的實(shí)例，從事實(shí)庫(kù)中篩選相應(yīng)的結(jié)構(gòu)化元組，并得到用于泛化目標(biāo)實(shí)例的候選實(shí)例；
[0145]例如，利用謂詞“表達(dá)_561”和實(shí)例“詩(shī)詞_80”從事實(shí)庫(kù)中篩選得到如下結(jié)構(gòu)化元組，但不限于如下列出:
[0146]I)表達(dá)_561(夜聞子規(guī)_80，凄婉_202)
[0147]2)表達(dá) _561(錦瑟 _80，凄婉 _202)
[0148]3)表達(dá)_561(春夜喜雨_80，喜悅_202)
[0149]......[0150]其中，“夜聞子規(guī)_80”、“錦瑟_80”、“春夜喜雨_80”均可以視為用于泛化“詩(shī)詞_80”的候選實(shí)例。
[0151]步驟S826，統(tǒng)計(jì)所述步驟S825中候選實(shí)例在事實(shí)庫(kù)中出現(xiàn)的頻次，在上例中就是統(tǒng)計(jì)“夜聞子規(guī)_80”、“錦瑟_80”和“春夜喜雨_80”等實(shí)例出現(xiàn)的頻次。給定用于泛化的候選實(shí)例的頻次列表，選擇頻次排在前k列的實(shí)例用來(lái)對(duì)所述目標(biāo)元組中有概念但無(wú)證據(jù)的實(shí)例進(jìn)行泛化。如果實(shí)例個(gè)數(shù)小于k時(shí)，k則取為實(shí)例數(shù)目。假設(shè)目標(biāo)元組中存在兩個(gè)待泛化實(shí)例，那么經(jīng)過(guò)實(shí)例泛化后得到的結(jié)構(gòu)化元組個(gè)數(shù)為k*k。
[0152]例如，在上面的示例中，令k=3，則實(shí)例“詩(shī)詞_80”可以分別泛化為“古詩(shī)”、“唐詩(shī)”和“詩(shī)經(jīng)”，類似地，實(shí)例“杜鵑_8”可以分別泛化為“子規(guī)_8”、“猿_8”和“鴛鴦_8”，于是得到經(jīng)過(guò)泛化的結(jié)構(gòu)化元組如下:
[0153]+描寫_83(古詩(shī)_80，子規(guī)_8)
[0154]+描寫_83(唐詩(shī)_80，子規(guī)_8)
[0155]+描寫_83(詩(shī)經(jīng)_80，子規(guī)_8)
[0156]+描寫 _83(古詩(shī) _80，猿_8)
[0157]+描寫 _83 (唐詩(shī) _80，猿 _8)
[0158]+描寫 _83 (詩(shī)經(jīng) _80，猿 _8)
[0159]今描寫_83(古詩(shī)_80，鴛鴦_8)
[0160]?描寫_83(唐詩(shī)_80，鴛鴦_8)
[0161 ] +描寫_83 (詩(shī)經(jīng)_80，鴛鴦_8)
[0162]步驟S83，將所述目標(biāo)元組中有謂詞但無(wú)實(shí)例的概念泛化為相同謂詞約束下的若干相近并且存在實(shí)例描述的概念。
[0163]所述步驟S83進(jìn)一步包括以下步驟:
[0164]步驟S831，確定所述目標(biāo)元組中待泛化實(shí)例的所屬概念；
[0165]步驟S832，在當(dāng)前謂詞約束下，結(jié)合概念的屬性向量計(jì)算得到概念之間的語(yǔ)義相似度，直觀地，概念“生物/植物/蔬菜”和“物品/飲食/食品/水果”、概念“文化/作品”和“類別/領(lǐng)域/藝術(shù)”均具有一定的語(yǔ)義相似性，繼而根據(jù)相似度大小篩選用于泛化的概念。
[0166]例如，目標(biāo)元組的概念化形式“描寫_83 (s:文化/作品/篇章，O:生物/動(dòng)物)”中，根據(jù)相似度計(jì)算得到用于泛化概念“文化/作品/篇章”的概念為“文化/作品”和“文化/作品/書畫”，而用于泛化概念“生物/動(dòng)物”的概念為“生物”。
[0167]步驟S833，利用所述步驟S832中得到的泛化概念對(duì)所述目標(biāo)元組中的原始概念進(jìn)行替換，并且根據(jù)本體庫(kù)有標(biāo)識(shí)概念元組，對(duì)新生成的概念元組進(jìn)行標(biāo)識(shí)對(duì)齊。比如，如果將“描寫_83(s:文化/作品/篇章，0:生物/動(dòng)物)”中的“文化/作品/篇章”泛化為“文化/作品/書畫”，那么經(jīng)過(guò)標(biāo)識(shí)對(duì)齊后的概念元組為“描寫_17(s:文化/作品/書畫，O:生物/動(dòng)物)”。
[0168]步驟S834，在事實(shí)庫(kù)中搜索所述泛化概念(如上例中的“文化/作品/書畫”)的候選實(shí)例，并且根據(jù)候選實(shí)例在事實(shí)庫(kù)中出現(xiàn)的頻次，選擇排在前列的若干實(shí)例，分別用來(lái)實(shí)例化所述步驟S833中得到的概念元組。
[0169]仍然考慮上述例子，于是可以得到如下所示經(jīng)過(guò)泛化的結(jié)構(gòu)化元組:
[0170]+描寫_17(古畫_78，杜鵑_8)
[0171]+描寫_17(山水畫_78，杜鵑_8)
[0172]今描寫_17(漫畫_78，杜鵑_8)
[0173]......[0174]步驟S9，為了支撐高效率的推理，基于所述步驟S8得到的目標(biāo)元組集合，對(duì)規(guī)則庫(kù)中的邏輯規(guī)則進(jìn)行有效的激活、對(duì)事實(shí)庫(kù)中的結(jié)構(gòu)化元組，以及上下文知識(shí)進(jìn)行有效的激活，所述上下文知識(shí)為所述步驟S5中得到的結(jié)構(gòu)化元組中的非目標(biāo)元組集合，得到邏輯規(guī)則集合和支撐后續(xù)推理的證據(jù)元組集合；
[0175]所述步驟S9進(jìn)一步包括以下步驟:
[0176]步驟S91，根據(jù)所述目標(biāo)元組中的謂詞，在規(guī)則庫(kù)中循環(huán)提取規(guī)則子集，這一步驟與S823、S824類似，這里不再詳細(xì)描述。
[0177]步驟S92，對(duì)所提取的規(guī)則子集進(jìn)行啟發(fā)式過(guò)濾得到過(guò)濾后的規(guī)則子集，并構(gòu)成局部馬爾可夫邏輯網(wǎng)絡(luò)；
[0178]由于規(guī)則子集的規(guī)模可以達(dá)到上千甚至上萬(wàn)條，使得后續(xù)推理的計(jì)算復(fù)雜度指數(shù)量級(jí)增長(zhǎng)，非常不利于在線實(shí)時(shí)處理。為此從規(guī)則子集中抽取非目標(biāo)元組中涉及的謂詞，進(jìn)而從事實(shí)庫(kù)中提取包含這些謂詞的結(jié)構(gòu)化元組，如果這些結(jié)構(gòu)化元組中所包含實(shí)例與目標(biāo)元組中實(shí)例無(wú)關(guān)，則將該結(jié)構(gòu)化元組去掉，由此可以得到過(guò)濾后的謂詞，然后逐條掃描所述步驟S91中得到的規(guī)則子集，如果這些規(guī)則子集所包含的謂詞與過(guò)濾后謂詞沒有交集，那么過(guò)濾該條規(guī)則，否則將其激活。比如，規(guī)則“0.33描寫_83(V0，V1)~共現(xiàn)_38990(v2，vl)=>歌頌_56 (v0, v2) ”中非目標(biāo)元組所涉及的謂詞為“歌頌_56”和“共現(xiàn)_38990”，由于在事實(shí)庫(kù)中它們對(duì)應(yīng)的結(jié)構(gòu)化元組與實(shí)例“詩(shī)詞_80”或者“杜鵑_8”均無(wú)關(guān)，因此過(guò)濾掉該條規(guī)則。
[0179]步驟S93，基于所述步驟S92得到的規(guī)則子集，提取其中所有謂詞，并從事實(shí)庫(kù)中提取包含這些謂詞的所有結(jié)構(gòu)化元組；
[0180]步驟S94，對(duì)所述步驟S93所提取得到的結(jié)構(gòu)化元組集合進(jìn)行啟發(fā)式過(guò)濾，也就是檢測(cè)結(jié)構(gòu)化元組中是否有一個(gè)以上的實(shí)例出現(xiàn)頻次低于給定閾值，如果是，則將其過(guò)濾掉，否則將其激活，并將激活得到的結(jié)構(gòu)化元組作為支撐后續(xù)推理的證據(jù)元組的一部分。比如，結(jié)構(gòu)化元組“共現(xiàn)_38990(悲鳥_8，哀猿_8) ”中“悲鳥_8”在事實(shí)庫(kù)中出現(xiàn)的頻次低于給定閾值20，于是過(guò)濾掉該結(jié)構(gòu)化元組。[0181]步驟S95，生成所述目標(biāo)元組的上下文知識(shí)，所謂上下文知識(shí)指的是所述步驟S5中所生成結(jié)構(gòu)化元組中的非目標(biāo)元組集合，由于它們體現(xiàn)著上下文(語(yǔ)境)的知識(shí)，因此將其作為證據(jù)元組的一部分用于支撐語(yǔ)義推理。
[0182]比如例句中的“創(chuàng)作_23 (李商隱_4，錦瑟_80) ”元組為非目標(biāo)元組，因此可視為上下文知識(shí)，將上下文知識(shí)與所述S94步驟激活得到的結(jié)構(gòu)化元組合在一起，作為支撐后續(xù)推理的證據(jù)元組。在上例中，所生成的證據(jù)元組集合如下但又不限于如下所示:
[0183]+上下文知識(shí):創(chuàng)作_23 (李商隱_4，錦瑟_80)
[0184]今激活元組:描寫_83 (絕句_80，黃鸝_8)
[0185]今激活元組:描寫_83 (如夢(mèng)令_80，鷗鷺_8)
[0186]令激活元組:描寫_83 (詩(shī)經(jīng)_80，鴛鴦_8)
[0187]令激活元組:表達(dá)_561 (夜聞子規(guī)_80，凄婉_202)
[0188]+激活元組:表達(dá)_561 (錦瑟_80，凄婉_202)
[0189]......[0190]步驟S10，基于所述步驟S9中激活得到的證據(jù)元組集合，實(shí)例化所述步驟S9中激活得到的邏輯規(guī)則集合，即局部馬爾可夫邏輯網(wǎng)絡(luò)，同時(shí)利用推理技術(shù)比如MC-SAT(—種切片抽樣的馬爾可夫鏈蒙特卡羅算法)計(jì)算所述目標(biāo)元組成立的條件概率，得到待處理數(shù)據(jù)的最終處理結(jié)果。比如，對(duì)于上面詞義消歧的例子，可以計(jì)算得到目標(biāo)元組“描寫_83(s:詩(shī)詞_80，0:杜鵑_8)”、“描寫_69(s:詩(shī)詞_80，o:杜鵑_10)”和“描寫_18(8:詩(shī)詞_80，o:杜鵑_2) ”的條件概率分別為0.69,0.27和0.04，于是可以判斷文本中出現(xiàn)的杜鵑指的是“生物/動(dòng)物”。
[0191]需要說(shuō)明的是，上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案，而非對(duì)本發(fā)明的限制，本領(lǐng)域技術(shù)人員應(yīng)該理解，任何根據(jù)所述泛化和激活技術(shù)解決不確定推理(歸結(jié)為概率計(jì)算)的問(wèn)題，均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0192]圖5給出結(jié)合知識(shí)庫(kù)的深層語(yǔ)義分析系統(tǒng)結(jié)構(gòu)示意圖，根據(jù)本發(fā)明的另一方面，還提出一種結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理系統(tǒng)，該系統(tǒng)包括結(jié)構(gòu)化模塊、概念化模塊、目標(biāo)生成模塊、泛化模塊、激活模塊和概率計(jì)算模塊六個(gè)核心功能模塊，其中:
[0193]所述結(jié)構(gòu)化模塊用來(lái)生成非結(jié)構(gòu)化文本的結(jié)構(gòu)化表示，其由漢語(yǔ)分詞、詞性標(biāo)注和句式分析三個(gè)子模塊構(gòu)成，其中:漢語(yǔ)分詞子模塊用于將待處理數(shù)據(jù)比如文本語(yǔ)句轉(zhuǎn)化為詞語(yǔ)的有序元組；詞性標(biāo)注子模塊用于對(duì)有序元組中的每個(gè)詞語(yǔ)進(jìn)行詞性標(biāo)注；句式分析子模塊用于基于有詞性標(biāo)注的有序元組，實(shí)現(xiàn)結(jié)構(gòu)化元組的抽??；
[0194]所述概念化模塊與所述結(jié)構(gòu)化模塊連接，用于將所述結(jié)構(gòu)化模塊得到的結(jié)構(gòu)化元組分別映射到本體庫(kù)中對(duì)應(yīng)的概念元組上，其包括實(shí)例概念識(shí)別、概念元組生成和概念元組標(biāo)識(shí)三個(gè)子模塊，其中:實(shí)例概念識(shí)別子模塊用于對(duì)所述結(jié)構(gòu)化元組中出現(xiàn)的所有實(shí)例進(jìn)行一對(duì)多的概念映射；概念元組生成子模塊用于基于所述映射關(guān)系，獲得所述結(jié)構(gòu)化元組對(duì)應(yīng)的概念化表達(dá)；所述概念元組標(biāo)識(shí)子模塊用于基于本體庫(kù)，完成上述概念化表達(dá)的對(duì)齊和標(biāo)識(shí)；
[0195]所述目標(biāo)生成模塊與所述概念化模塊連接，用于基于所述結(jié)構(gòu)化和概念元組，根據(jù)待求解的應(yīng)用問(wèn)題，產(chǎn)生待推理的目標(biāo)元組；
[0196]所述泛化模塊與所述目標(biāo)生成模塊連接，用于從謂詞、實(shí)例和概念三個(gè)層面實(shí)現(xiàn)對(duì)所述目標(biāo)元組的語(yǔ)義泛化，用來(lái)解決知識(shí)庫(kù)不完備的情況，并由謂詞泛化、實(shí)例泛化和概念泛化三個(gè)子模塊構(gòu)成；
[0197]所述激活模塊用于生成支持高效率推理的證據(jù)元組和邏輯規(guī)則，其由上下文知識(shí)激活、邏輯規(guī)則激活和事實(shí)激活三個(gè)子模塊構(gòu)成，其中，上下文知識(shí)激活子模塊用于將所述結(jié)構(gòu)化和概念化模塊生成的非目標(biāo)元組進(jìn)行激活并視為證據(jù)集合的一部分；邏輯規(guī)則激活子模塊用于基于目標(biāo)元組及其泛化結(jié)果，對(duì)規(guī)則庫(kù)中的邏輯規(guī)則進(jìn)行啟發(fā)式過(guò)濾；事實(shí)激活子模塊用于基于篩選得到的邏輯規(guī)則，從事實(shí)庫(kù)中篩選得到部分結(jié)構(gòu)化元組并作為證據(jù)集合的一部分；
[0198]所述概率計(jì)算模塊用于根據(jù)所述激活模塊生成的邏輯規(guī)則和證據(jù)集合，對(duì)于相應(yīng)的局部馬爾可夫邏輯網(wǎng)絡(luò)進(jìn)行實(shí)例化，實(shí)現(xiàn)對(duì)目標(biāo)元組及其泛化結(jié)果的條件概率計(jì)算，并將最終的數(shù)據(jù)處理結(jié)果進(jìn)行輸出。
[0199]以上所述的具體實(shí)施例，對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說(shuō)明，所應(yīng)理解的是，以上所述僅為本發(fā)明的具體實(shí)施例而已，并不用于限制本發(fā)明，凡在本發(fā)明的精神和原則之內(nèi)，所做的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法，其特征在于，該方法包括以下步驟: 步驟S1，基于本體庫(kù)中概念的層次組織結(jié)構(gòu)，對(duì)于所述本體庫(kù)中的概念元組集合進(jìn)行歸并處理，這些元組的謂詞包括概念的屬性或者概念之間的關(guān)系；步驟S2，基于歸并處理后得到的概念元組集合，得到不同類型謂詞的鏈接路徑，以及相應(yīng)的邏輯規(guī)則集合；步驟S3，對(duì)所述邏輯規(guī)則集合進(jìn)行初步篩選，獲得候選規(guī)則集合；步驟S4,基于深層和積網(wǎng)絡(luò)(Sum-Product Network, SPN)得到用來(lái)計(jì)算所述候選規(guī)則集合不確定性的深層概率圖模型，繼而得到賦值權(quán)重的邏輯規(guī)則集合，即馬爾可夫邏輯網(wǎng)絡(luò)，并存儲(chǔ)于規(guī)則庫(kù)中；步驟S5，利用漢語(yǔ)分詞技術(shù)將待處理數(shù)據(jù)轉(zhuǎn)化為詞語(yǔ)的有序元組，并且每個(gè)詞語(yǔ)都具有相應(yīng)的詞性標(biāo)注，再結(jié)合基本的句式結(jié)構(gòu)提取得到結(jié)構(gòu)化元組；步驟S6，將所述步驟S5得到的所有結(jié)構(gòu)化元組中的實(shí)例分別映射到層次化概念空間中，依據(jù)實(shí)例所屬概念，以及謂詞對(duì)應(yīng)的概念搭配，對(duì)結(jié)構(gòu)化元組中的實(shí)例和謂詞分別進(jìn)行語(yǔ)義標(biāo)識(shí)；步驟S7，基于所述步驟S6得到的語(yǔ)義標(biāo)識(shí)結(jié)果，生成待推理的有標(biāo)識(shí)結(jié)構(gòu)化元組，即目標(biāo)元組；步驟S8，對(duì)所述步驟S7得到的目標(biāo)元組進(jìn)行語(yǔ)義泛化，并將泛化后產(chǎn)生的結(jié)構(gòu)化元組與原目標(biāo)元組一起形成目標(biāo)元組集合；步驟S9，基于所述步驟S8得到的目標(biāo)元組集合，對(duì)規(guī)則庫(kù)中的邏輯規(guī)則進(jìn)行有效的激活，對(duì)事實(shí)庫(kù)中的結(jié)構(gòu)化元組以及上下文知識(shí)進(jìn)行有效的激活，所述上下文知識(shí)為所述步驟S5中得到的結(jié)構(gòu)化元組中的非目標(biāo)元組集合，得到邏輯規(guī)則集合和支撐后續(xù)推理的證據(jù)元組集合；步驟S10，基于所述步驟S9中激活得到的證據(jù)元組集合，對(duì)所述步驟S9得到的邏輯規(guī)則集合進(jìn)行實(shí)例化，同時(shí)計(jì)算所述目標(biāo)元組成立的條件概率，得到待處理數(shù)據(jù)的最終處理結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟SI進(jìn)一步包括以下步驟: 步驟S11，根據(jù)所涉及謂詞的不同將所述概念元組集合劃分為若干子集T ；步驟S12，為每個(gè)子集T設(shè)置候選集r來(lái)記錄歸并處理過(guò)程中產(chǎn)生的中間結(jié)果，最終得到歸并后的概念元組集合，所述歸并為給定任意兩個(gè)具有相同謂詞的元組Yi和Yj，逐步掃描每個(gè)元組的語(yǔ)法成分，如果這些語(yǔ)法成分所對(duì)應(yīng)的兩個(gè)概念都具有上下位關(guān)系，則將下位概念分別替換為相應(yīng)的上位概念。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟S2進(jìn)一步包括以下步驟: 步驟S21，對(duì)于歸并處理后得到的概念元組集合f，令候選集r=f，從r中選取概念元組Y并添加到空路徑中，同時(shí)令r = r-{Y}；步驟S22，從所述概念元組集合f中搜索與當(dāng)前路徑中已有概念元組具有鏈接概念對(duì)的元組，將搜索到的概念元組遞歸地添加到當(dāng)前路徑中，直至鏈接路徑達(dá)到預(yù)定義最大長(zhǎng)度或者再無(wú)新的概念元組添加；步驟S23，利用邏輯運(yùn)算符將得到的鏈接路徑中的各個(gè)概念元組關(guān)聯(lián)起來(lái)，得到多種邏輯規(guī)則；步驟S24，重復(fù)所述步驟S21-S23，直到r = 0，得到多條鏈接路徑以及相應(yīng)的多種邏輯規(guī)則，組成邏輯規(guī)則集合。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟S3進(jìn)一步包括以下步驟: 步驟S31，將所述邏輯規(guī)則集合中的每條邏輯規(guī)則進(jìn)行實(shí)例化，使得所述邏輯規(guī)則中的每個(gè)實(shí)例結(jié)構(gòu)化元組與相應(yīng)的概念結(jié)構(gòu)化元組具有--映射關(guān)系；步驟S32，基于事實(shí)庫(kù)中的結(jié)構(gòu)化元組集合，統(tǒng)計(jì)實(shí)例化邏輯規(guī)則前提成立的次數(shù)及其前提和結(jié)論同時(shí)成立的次數(shù)，然后基于兩者的比值得到評(píng)測(cè)所述邏輯規(guī)則成立的置信度，并且將置信度超過(guò)某個(gè)給定閾值的邏輯規(guī)則篩選出來(lái)，得到候選規(guī)則集合。
5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟S4進(jìn)一步包括以下步驟: 步驟S41，將所述候選規(guī)則集合分解為大量不相交的候選規(guī)則子集；步驟S42，針對(duì)每個(gè)候選規(guī)則子集R={Rb:b=l，2，...，n}，其中，Rb表示候選規(guī)則子集R中的第b個(gè)候選規(guī)則，令X={Xb:b=l，2，...，n}表示二值隨機(jī)變量的集合，其中變量Xb取值為I對(duì)應(yīng)規(guī)則Rb取值為真的某實(shí)例化，取值為O對(duì)應(yīng)規(guī)則Rb取值為假的某實(shí)例化，這些變量分別作為SPN的終端結(jié)點(diǎn)，SPN中，求和與求積結(jié)點(diǎn)交替排列，其中求和結(jié)點(diǎn)的子結(jié)點(diǎn)為求積或者終端結(jié)點(diǎn)，同時(shí)邊上賦值非負(fù)參數(shù)w，而所有求積結(jié)點(diǎn)的子結(jié)點(diǎn)為求和，同時(shí)邊上賦值的默認(rèn)參數(shù)均為I ; 步驟S43，基于候選規(guī)則子集R中所涉及的語(yǔ)義謂詞從事實(shí)庫(kù)中篩選得到相關(guān)的結(jié)構(gòu)化元組，用來(lái)對(duì)R中的邏輯規(guī)則進(jìn)行實(shí)例化；步驟S44，估計(jì)非負(fù)參數(shù)W，最終得到計(jì)算所述候選規(guī)則集合不確定性的深層概率圖模型，繼而得到賦值權(quán)重的邏輯規(guī)則集合，即馬爾可夫邏輯網(wǎng)絡(luò)，并存儲(chǔ)于規(guī)則庫(kù)中。
6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟S6進(jìn)一步包括以下步驟: 步驟S61，針對(duì)所述結(jié)構(gòu)化元組中具有屬性信息的實(shí)例，利用歸納決策樹模型實(shí)現(xiàn)實(shí)例的層次概念化，該模型通過(guò)保證聚類內(nèi)方差最小為準(zhǔn)則啟發(fā)式地選擇合適的屬性作為分割點(diǎn)，從而得到上述實(shí)例的若干候選概念；步驟S62，針對(duì)所述結(jié)構(gòu)化元組中不具有屬性信息的實(shí)例，在多元謂詞及其所在元組的其他實(shí)例的概念約束下，通過(guò)本體庫(kù)中賦值權(quán)重的概念元組集合來(lái)判斷該實(shí)例可能的候選概念；步驟S63，基于上述實(shí)例的候選概念，對(duì)所述結(jié)構(gòu)化元組進(jìn)行一對(duì)多概念映射；步驟S64，基于本體庫(kù)中有標(biāo)識(shí)的概念元組，對(duì)所述步驟S63產(chǎn)生的概念元組進(jìn)行標(biāo)識(shí)對(duì)齊，并對(duì)相應(yīng)結(jié)構(gòu)化元組進(jìn)行語(yǔ)義標(biāo)識(shí)。
7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述語(yǔ)義泛化包括謂詞、實(shí)例和概念三個(gè)層面，所述步驟S8進(jìn)一步包括以下步驟:步驟S81，將所述目標(biāo)元組中無(wú)規(guī)則支持的謂詞泛化為具有相同概念搭配的同義謂詞；步驟S82，將所述目標(biāo)元組中有概念但無(wú)證據(jù)的實(shí)例泛化為同一概念下的若干相近實(shí)例；步驟S83，將所述目標(biāo)元組中有謂詞但無(wú)實(shí)例的概念泛化為相同謂詞約束下的若干相近并且存在實(shí)例描述的概念。
8.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟S9進(jìn)一步包括以下步驟: 步驟S91，根據(jù)所述目標(biāo)元組中的謂詞，在規(guī)則庫(kù)中循環(huán)提取規(guī)則子集；步驟S92，對(duì)所提取的規(guī)則子集進(jìn)行啟發(fā)式過(guò)濾得到過(guò)濾后的規(guī)則子集，并構(gòu)成局部馬爾可夫邏輯網(wǎng)絡(luò)；步驟S93，基于所述步驟S92得到的規(guī)則子集，提取其中所有謂詞，并從事實(shí)庫(kù)中提取包含這些謂詞的所有結(jié)構(gòu)化元組；步驟S94，對(duì)所述步驟S93所提取得到的結(jié)構(gòu)化元組集合進(jìn)行啟發(fā)式過(guò)濾，并將得到的結(jié)構(gòu)化元組作為證據(jù)元組的一部分；步驟S95，生成所述目標(biāo)元組的上下文知識(shí)，作為證據(jù)元組的一部分。
9.一種結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理系統(tǒng)，其特征在于，該系統(tǒng)包括結(jié)構(gòu)化模塊、概念化模塊、目標(biāo)生成模塊、泛化模塊、激活模塊和概率計(jì)算模塊，其中: 所述結(jié)構(gòu)化模塊用來(lái)生成非結(jié)構(gòu)化文本的結(jié)構(gòu)化表示；所述概念化模塊與所述結(jié)構(gòu)化模塊連接，用于將所述結(jié)構(gòu)化模塊得到的結(jié)構(gòu)化元組分別映射到本體庫(kù)中對(duì)應(yīng)的概念元組上；所述目標(biāo)生成模塊與所述概念化模塊連接，用于基于所述結(jié)構(gòu)化和概念元組，根據(jù)待求解的應(yīng)用問(wèn)題，產(chǎn)生待推理的目標(biāo)元組；所述泛化模塊與所述目標(biāo)生成模塊連接，用于從謂詞、實(shí)例和概念三個(gè)層面實(shí)現(xiàn)對(duì)所述目標(biāo)元組的語(yǔ)義泛化，用來(lái)解決知識(shí)庫(kù)不完備的情況；所述激活模塊用于生成支持高效率推理的證據(jù)元組和邏輯規(guī)則；所述概率計(jì)算模塊用于根據(jù)所述激活模塊生成的邏輯規(guī)則和證據(jù)集合，對(duì)于相應(yīng)的局部馬爾可夫邏輯網(wǎng)絡(luò)進(jìn)行實(shí)例化，實(shí)現(xiàn)對(duì)目標(biāo)元組及其泛化結(jié)果的條件概率計(jì)算，并將最終的數(shù)據(jù)處理結(jié)果進(jìn)行輸出。
10.根據(jù)權(quán)利要求9所述的系統(tǒng)，其特征在于，所述結(jié)構(gòu)化模塊由漢語(yǔ)分詞、詞性標(biāo)注和句式分析三個(gè)子模塊構(gòu)成，其中:漢語(yǔ)分詞子模塊用于將待處理數(shù)據(jù)轉(zhuǎn)化為詞語(yǔ)的有序元組；詞性標(biāo)注子模塊用于對(duì)有序元組中的每個(gè)詞語(yǔ)進(jìn)行詞性標(biāo)注；句式分析子模塊用于基于有詞性標(biāo)注的有序元組，實(shí)現(xiàn)結(jié)構(gòu)化元組的抽??；和/或所述概念化模塊包括實(shí)例概念識(shí)別、概念元組生成和概念元組標(biāo)識(shí)三個(gè)子模塊，其中:實(shí)例概念識(shí)別子模塊用于對(duì)所述結(jié)構(gòu)化元組中出現(xiàn)的所有實(shí)例進(jìn)行一對(duì)多的概念映射；概念元組生成子模塊用于基于所述映射關(guān)系，獲得所述結(jié)構(gòu)化元組對(duì)應(yīng)的概念化表達(dá)；所述概念元組標(biāo)識(shí)子模塊用于基于本體庫(kù)，完成上述概念化表達(dá)的對(duì)齊和標(biāo)識(shí)；和/或所述泛化模塊由謂詞泛化、實(shí)例泛化和概念泛化三個(gè)子模塊構(gòu)成；和/或所述激活模塊由上下文知識(shí)激活、邏輯規(guī)則激活和事實(shí)激活三個(gè)子模塊構(gòu)成，其中，上下文知識(shí)激活子模塊用于將所述結(jié)構(gòu)化和概念化模塊生成的非目標(biāo)元組進(jìn)行激活并視為證據(jù)集合的一部分；邏輯規(guī)則激活子模塊用于基于目標(biāo)元組及其泛化結(jié)果，對(duì)規(guī)則庫(kù)中的邏輯規(guī)則進(jìn)行啟發(fā)式過(guò)濾；事實(shí)激活子模塊用于基于篩選得到的邏輯規(guī)則，從事實(shí)庫(kù)中篩選得到部分結(jié)構(gòu)化元組并作為證據(jù)集合的一部分。
【文檔編號(hào)】G06F17/30GK103500208SQ201310459692
【公開日】2014年1月8日申請(qǐng)日期:2013年9月30日優(yōu)先權(quán)日:2013年9月30日
【發(fā)明者】郝紅衛(wèi), 孫正雅, 梁倩, 王桂香申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：郝紅衛(wèi);孫正雅;梁倩;王桂香
技術(shù)所有人：中國(guó)科學(xué)院自動(dòng)化研究所
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無(wú)損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無(wú)線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問(wèn)留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

dps數(shù)據(jù)處理系統(tǒng)相關(guān)技術(shù)

數(shù)據(jù)處理系統(tǒng)相關(guān)技術(shù)

dps數(shù)據(jù)處理系統(tǒng)64位相關(guān)技術(shù)

dps數(shù)據(jù)處理系統(tǒng)下載相關(guān)技術(shù)

工程測(cè)量數(shù)據(jù)處理系統(tǒng)相關(guān)技術(shù)

dps數(shù)據(jù)處理系統(tǒng)win10相關(guān)技術(shù)

電子數(shù)據(jù)處理系統(tǒng)相關(guān)技術(shù)

測(cè)量數(shù)據(jù)處理系統(tǒng)v2.0相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法和系統(tǒng)的制作方法