結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法和系統(tǒng)的制作方法
【專利摘要】本發(fā)明公開了一種結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法,該方法包括以下步驟:對(duì)于本體庫(kù)中的概念元組集合進(jìn)行歸并;得到不同類型謂詞的鏈接路徑和相應(yīng)的邏輯規(guī)則集合;對(duì)邏輯規(guī)則集合初步篩選獲得候選規(guī)則集合;得到深層概率圖模型;基于待處理數(shù)據(jù)得到結(jié)構(gòu)化元組并映射到層次化概念空間;生成目標(biāo)元組并進(jìn)行語(yǔ)義泛化;得到邏輯規(guī)則集合和證據(jù)元組集合;對(duì)馬爾可夫邏輯網(wǎng)絡(luò)進(jìn)行實(shí)例化,計(jì)算目標(biāo)元組成立的條件概率,得到數(shù)據(jù)處理結(jié)果。本發(fā)明還提供了一種深層數(shù)據(jù)處理系統(tǒng),該系統(tǒng)包括結(jié)構(gòu)化模塊、概念化模塊、目標(biāo)生成模塊、泛化模塊、激活模塊和概率計(jì)算模塊。利用本發(fā)明,可以充分融合上下文語(yǔ)境以及背景知識(shí),從而真正達(dá)到語(yǔ)義理解的目的。
【專利說(shuō)明】結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法和系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及自然語(yǔ)言處理和人工智能領(lǐng)域,更具體而言,涉及一種面向文本理解的結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法。
【背景技術(shù)】
[0002]隨著網(wǎng)絡(luò)信息化的日漸普及,數(shù)據(jù)正在以前所未有的廣度和深度迅猛膨脹,增強(qiáng)從非結(jié)構(gòu)化文本中分析萃取知識(shí)的能力變得愈發(fā)重要。來(lái)自真實(shí)世界的文本除了規(guī)模龐大,更為重要的挑戰(zhàn)就是表示和推理知識(shí)的復(fù)雜性和不確定性。前者體現(xiàn)在知識(shí)的高度異質(zhì)性,不僅包含關(guān)于各個(gè)對(duì)象的事實(shí)和概念,還包含一般的推理規(guī)則和本體關(guān)系;后者源于知識(shí)本身的客觀現(xiàn)實(shí)和對(duì)知識(shí)的主觀認(rèn)識(shí)水平,而且大量的知識(shí)可能是根據(jù)似然、統(tǒng)計(jì)或者聯(lián)想而得到的猜測(cè),因此預(yù)測(cè)是固有不確定的。在傳統(tǒng)人工智能框架下,復(fù)雜性和不確定性分屬于兩個(gè)獨(dú)立的研究分支,常用的計(jì)算模型分別是基于邏輯規(guī)則的分析模型和基于統(tǒng)計(jì)隨機(jī)的概率模型。
[0003]分析模型試圖把數(shù)據(jù)之間的依存關(guān)系用規(guī)則的形式表達(dá)出來(lái),然后通過(guò)構(gòu)造推理機(jī)制自動(dòng)地進(jìn)行數(shù)據(jù)解碼和理解,通常規(guī)則的構(gòu)造需要大量的人工操作,在提高規(guī)則完備性的同時(shí),不可避免地要面臨規(guī)則之間的相互沖突和不一致性,因此該模型只能在極其受限的子問(wèn)題中獲得有限的成功,代表系統(tǒng)包括20世紀(jì)70?80年代開發(fā)的LUNAR系統(tǒng)、SHRDLU系統(tǒng)、MARGIE系統(tǒng)、SAM系統(tǒng)和PAM系統(tǒng)等,并且大量地用于自然語(yǔ)言分析;概率模型則試圖從大量有標(biāo)簽數(shù)據(jù)資源中自動(dòng)學(xué)習(xí)包括依存結(jié)構(gòu)和數(shù)值參量在內(nèi)的各種知識(shí),并且保證在統(tǒng)計(jì)意義上具有可解釋性,非常適合于求解大規(guī)模真實(shí)數(shù)據(jù),但同時(shí)需要足夠多有標(biāo)簽樣本,否則將面臨嚴(yán)重的“數(shù)據(jù)稀疏”問(wèn)題,而且從可計(jì)算性角度,該模型不能考慮復(fù)雜的依存關(guān)系,代表系統(tǒng)包括由IBM于1994年開發(fā)的統(tǒng)計(jì)翻譯系統(tǒng),在完成從法語(yǔ)到英語(yǔ)的翻譯任務(wù)中取得了實(shí)質(zhì)性進(jìn)展。
[0004]從模型的可表達(dá)力和可計(jì)算性角度來(lái)看,無(wú)論是理性的分析模型還是經(jīng)驗(yàn)的概率模型都不足以解決復(fù)雜性和不確定性并存的挑戰(zhàn)。作為人工智能領(lǐng)域的新興研究方向,馬爾可夫邏輯結(jié)合了兩者的優(yōu)勢(shì),旨在建立融合邏輯規(guī)則與統(tǒng)計(jì)隨機(jī)的混合模型,被視為數(shù)據(jù)深度分析的最重要技術(shù)手段之一,同時(shí)也為文本理解提供了普遍有效的表示和推理框架,代表系統(tǒng)由華盛頓大學(xué)于2010年開發(fā)的OntoUSP機(jī)器閱讀系統(tǒng),與當(dāng)時(shí)最先進(jìn)系統(tǒng)相比取得了非常明顯的性能提升。然而為了使機(jī)器的語(yǔ)義認(rèn)知能力接近人類智能,系統(tǒng)不僅需要獲取關(guān)于外在世界的廣泛知識(shí),還需要運(yùn)用操作這些知識(shí)的能力,包括上下文(語(yǔ)境)的結(jié)合能力和背景知識(shí)的利用能力。目前在馬爾可夫邏輯框架下開發(fā)的自然語(yǔ)言系統(tǒng)還不能較好地解決這些需求,首先多層次是大規(guī)模知識(shí)表示的基本組織結(jié)構(gòu),但是在生成候選規(guī)則的過(guò)程中通常只考慮兩謂詞之間具有共同概念變量的情形,于是忽視了概念之間固有的層次關(guān)系以及所描述范圍可能存在的重疊和交叉現(xiàn)象,因此在給定規(guī)則長(zhǎng)度的約束下很容易損失掉大量重要的語(yǔ)義信息進(jìn)而影響所產(chǎn)生的邏輯規(guī)則的質(zhì)量;其次不確定規(guī)則作為知識(shí)表示的重要組成部分,其自動(dòng)獲取的規(guī)模直接受限于參數(shù)學(xué)習(xí)算法(也就是為邏輯規(guī)則賦值合適的權(quán)重)的復(fù)雜度,盡管原則上兩層足以表達(dá)任何函數(shù),但是在表達(dá)大多數(shù)函數(shù)時(shí)效率卻是非常低的,而且已有方法在優(yōu)化過(guò)程中通常需要計(jì)算所有候選子句的實(shí)例化及其取值情況,將消耗很大的時(shí)間和空間開銷,因此并不適宜大規(guī)模知識(shí)的自動(dòng)處理;再次泛化和激活是知識(shí)運(yùn)用能力的具體體現(xiàn),然而關(guān)于復(fù)雜關(guān)系的概率推理還沒有在實(shí)體或者關(guān)系層面充分考慮有效的知識(shí)泛化,于是難以應(yīng)對(duì)知識(shí)不完備比如證據(jù)覆蓋不全的問(wèn)題,另外目前的激活策略更多的是依據(jù)實(shí)例元組及其所在邏輯規(guī)則的取值情況,尚未考慮目標(biāo)元組與實(shí)例元組或者邏輯規(guī)則的相關(guān)度,于是容易產(chǎn)生大量弱關(guān)聯(lián)甚至無(wú)關(guān)的規(guī)則或者元組,從而為不確定推理帶來(lái)龐大的計(jì)算開銷,影響語(yǔ)義分析的效率。因此,現(xiàn)有語(yǔ)義分析系統(tǒng)在很多方面仍然存在不足。
【發(fā)明內(nèi)容】
[0005]鑒于以上提出的問(wèn)題,本發(fā)明提出一種面向文本理解的結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法和系統(tǒng),亦稱為計(jì)算大腦系統(tǒng),旨在克服現(xiàn)有技術(shù)中存在的問(wèn)題。
[0006]具體地,根據(jù)本發(fā)明的一個(gè)方面,提供了一種結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法,該方法包括以下步驟:
[0007]步驟SI,基于本體庫(kù)中概念的層次組織結(jié)構(gòu),對(duì)于所述本體庫(kù)中的概念元組集合進(jìn)行歸并處理,這些元組的謂詞包括概念的屬性或者概念之間的關(guān)系;
[0008]步驟S2,基于歸并處理后得到的概念元組集合,得到不同類型謂詞的鏈接路徑,以及相應(yīng)的邏輯規(guī)則集合;
[0009]步驟S3,對(duì)所述邏輯規(guī)則集合進(jìn)行初步篩選,獲得候選規(guī)則集合;
[0010]步驟S4,基于深層和積網(wǎng)絡(luò)(Sum-Product Network, SPN)得到用來(lái)計(jì)算所述候選規(guī)則集合不確定性的深層概率圖模型,繼而得到賦值權(quán)重的邏輯規(guī)則集合,即馬爾可夫邏輯網(wǎng)絡(luò),并存儲(chǔ)于規(guī)則庫(kù)中;
[0011]步驟S5,利用漢語(yǔ)分詞技術(shù)將待處理數(shù)據(jù)轉(zhuǎn)化為詞語(yǔ)的有序元組,并且每個(gè)詞語(yǔ)都具有相應(yīng)的詞性標(biāo)注,再結(jié)合基本的句式結(jié)構(gòu)提取得到結(jié)構(gòu)化元組;
[0012]步驟S6,將所述步驟S5得到的所有結(jié)構(gòu)化元組中的實(shí)例分別映射到層次化概念空間中,依據(jù)實(shí)例所屬概念,以及謂詞對(duì)應(yīng)的概念搭配,對(duì)結(jié)構(gòu)化元組中的實(shí)例和謂詞分別進(jìn)行語(yǔ)義標(biāo)識(shí);
[0013]步驟S7,基于所述步驟S6得到的語(yǔ)義標(biāo)識(shí)結(jié)果,生成待推理的有標(biāo)識(shí)結(jié)構(gòu)化元組,即目標(biāo)元組;
[0014]步驟S8,對(duì)所述步驟S7得到的目標(biāo)元組進(jìn)行語(yǔ)義泛化,并將泛化后產(chǎn)生的結(jié)構(gòu)化元組與原目標(biāo)元組一起形成目標(biāo)元組集合;
[0015]步驟S9,基于所述步驟S8得到的目標(biāo)元組集合,對(duì)規(guī)則庫(kù)中的邏輯規(guī)則進(jìn)行有效的激活,對(duì)事實(shí)庫(kù)中的結(jié)構(gòu)化元組以及上下文知識(shí)進(jìn)行有效的激活,所述上下文知識(shí)為所述步驟S5中得到的結(jié)構(gòu)化元組中的非目標(biāo)元組集合,得到邏輯規(guī)則集合和支撐后續(xù)推理的證據(jù)元組集合;
[0016]步驟S10,基于所述步驟S9中激活得到的證據(jù)元組集合,對(duì)所述步驟S9得到的邏輯規(guī)則集合進(jìn)行實(shí)例化,同時(shí)計(jì)算所述目標(biāo)元組成立的條件概率,得到待處理數(shù)據(jù)的最終
處理結(jié)果。[0017]根據(jù)本發(fā)明的另一個(gè)方面,提供了一種結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理系統(tǒng),該系統(tǒng)包括結(jié)構(gòu)化模塊、概念化模塊、目標(biāo)生成模塊、泛化模塊、激活模塊和概率計(jì)算模塊,其中:
[0018]所述結(jié)構(gòu)化模塊用來(lái)生成非結(jié)構(gòu)化文本的結(jié)構(gòu)化表示;
[0019]所述概念化模塊與所述結(jié)構(gòu)化模塊連接,用于將所述結(jié)構(gòu)化模塊得到的結(jié)構(gòu)化元組分別映射到本體庫(kù)中對(duì)應(yīng)的概念元組上;
[0020]所述目標(biāo)生成模塊與所述概念化模塊連接,用于基于所述結(jié)構(gòu)化和概念元組,根據(jù)待求解的應(yīng)用問(wèn)題,產(chǎn)生待推理的目標(biāo)元組;
[0021]所述泛化模塊與所述目標(biāo)生成模塊連接,用于從謂詞、實(shí)例和概念三個(gè)層面實(shí)現(xiàn)對(duì)所述目標(biāo)元組的語(yǔ)義泛化,用來(lái)解決知識(shí)庫(kù)不完備的情況;
[0022]所述激活模塊用于生成支持高效率推理的證據(jù)元組和邏輯規(guī)則;
[0023]所述概率計(jì)算模塊用于根據(jù)所述激活模塊生成的邏輯規(guī)則和證據(jù)集合,對(duì)于相應(yīng)的局部馬爾可夫邏輯網(wǎng)絡(luò)進(jìn)行實(shí)例化,實(shí)現(xiàn)對(duì)目標(biāo)元組及其泛化結(jié)果的條件概率計(jì)算,并將最終的數(shù)據(jù)處理結(jié)果進(jìn)行輸出。
[0024]利用本發(fā)明的方法和系統(tǒng),在知識(shí)獲取方面,可以在層次化概念空間中自動(dòng)歸納生成結(jié)構(gòu)化特征,也就是邏輯規(guī)則,克服單純依賴領(lǐng)域?qū)<液腿斯じ深A(yù)來(lái)設(shè)計(jì)特征的局限性,適應(yīng)數(shù)據(jù)類型多樣化、關(guān)系復(fù)雜化的特點(diǎn),并且在迭代過(guò)程中充分利用深層概率圖模型所具有的緊湊的函數(shù)表達(dá)形式以及在計(jì)算上的優(yōu)勢(shì),實(shí)現(xiàn)高效率的參數(shù)更新;在知識(shí)運(yùn)用方面,融合上下文(語(yǔ)境)和背景知識(shí)進(jìn)行語(yǔ)義推理的同時(shí),有效結(jié)合了知識(shí)泛化和激活策略,使得系統(tǒng)具備舉一反三的聚合思維的能力,從而更加接近人類的認(rèn)知水平,真正地在語(yǔ)義層次上實(shí)現(xiàn)非結(jié)構(gòu)化文本的自動(dòng)理解。
【專利附圖】
【附圖說(shuō)明】
[0025]圖1為根據(jù)本發(fā)明一個(gè)方面的結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法流程圖;
[0026]圖2為本發(fā)明一個(gè)優(yōu)選實(shí)施例的用于確定邏輯規(guī)則權(quán)重的深層概率圖模型示意圖;
[0027]圖3為本發(fā)明一個(gè)優(yōu)選實(shí)施例對(duì)不具有屬性的實(shí)體概念識(shí)別的例子;
[0028]圖4為本發(fā)明一個(gè)實(shí)施例對(duì)待推理元組進(jìn)行泛化的示意圖;
[0029]圖5為本發(fā)明一個(gè)方面的結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理系統(tǒng)結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0030]為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明進(jìn)一步詳細(xì)說(shuō)明。
[0031]首先需要說(shuō)明的是:計(jì)算大腦的知識(shí)庫(kù)由本體庫(kù)、事實(shí)庫(kù)和規(guī)則庫(kù)構(gòu)成,其中本體庫(kù)中存放的是概念之間的結(jié)構(gòu)化元組及其權(quán)重,事實(shí)庫(kù)中存放的是實(shí)例之間的結(jié)構(gòu)化元組,規(guī)則庫(kù)中存放的是邏輯規(guī)則及其權(quán)重,并且其中所有的謂詞、實(shí)例和概念均經(jīng)過(guò)唯一性的語(yǔ)義標(biāo)識(shí)。
[0032]圖1為根據(jù)本發(fā)明一個(gè)方面的結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法流程圖,接下來(lái)以語(yǔ)義分析為例對(duì)于本發(fā)明方法進(jìn)行說(shuō)明,如圖1所示,所述方法包括以下步驟:
[0033]步驟SI,基于本體庫(kù)中概念的層次組織結(jié)構(gòu),對(duì)于所述本體庫(kù)中的概念元組集合進(jìn)行歸并處理,這些元組的謂詞包括概念的屬性或者概念之間的關(guān)系;
[0034]所述步驟SI進(jìn)一步包括以下步驟:
[0035]步驟S11,根據(jù)所涉及謂詞的不同將所述概念元組集合劃分為若干子集T ;
[0036]步驟S12,為每個(gè)子集T設(shè)置候選集r來(lái)記錄歸并處理過(guò)程中產(chǎn)生的中間結(jié)果,最終得到歸并后的概念元組集合,所述歸并為給定任意兩個(gè)具有相同謂詞的元組Yi和Y」,逐步掃描每個(gè)元組的語(yǔ)法成分,如果這些語(yǔ)法成分所對(duì)應(yīng)的兩個(gè)概念都具有上下位關(guān)系,則將下位概念分別替換為相應(yīng)的上位概念,值得注意的是上位概念的屬性和關(guān)系對(duì)于所有子概念依然適用,于是可以得到更具概括意義的元組表示,比如元組“推廣(文化/媒體/互聯(lián)網(wǎng)/網(wǎng)站,物品/產(chǎn)品)”和“推廣(文化/媒體,物品/產(chǎn)品/電器)”可以歸并為“推廣(文化/媒體,物品/產(chǎn)品)”,其中斜杠“/”左側(cè)的實(shí)體是右側(cè)實(shí)體的上位概念。
[0037]所述步驟S12進(jìn)一步包括以下步驟:
[0038]步驟S121,初始化:令迭代步數(shù)T =0,候選集r =0子集T = { Y };
[0039]步驟S122,隨機(jī)選取YqG T構(gòu)成候選集r = Utl丨,同時(shí)令T = T-{Yq};
[0040]步驟S123,對(duì)于迭代步數(shù)T,選取元素Y T G T,將Y T與r中的所有元素進(jìn)行匹配;
[0041]步驟S124,如果G r與Y T滿足歸并條件并且得到歸并元組Y ’,則利用歸并元組Y ’替換Y。,同時(shí)令T = T-U J ;
[0042]步驟S125,重復(fù)所述步驟S123-S124直到T= 0則此時(shí)得到的候選集r即為最后的歸并結(jié)果;
[0043]步驟S126,重復(fù)所述步驟S121-S125,直至遍歷所有子集T,最終得到歸并后的概念元組集合f。這樣就可以在不損失語(yǔ)義的條件下大規(guī)模壓縮概念元組的規(guī)模,在一定程度上緩解指數(shù)量級(jí)搜索空間所帶來(lái)的龐大計(jì)算成本。
[0044]步驟S2,基于歸并處理后得到的概念元組集合甲,得到異質(zhì)(不同類型)謂詞的鏈接路徑,以及相應(yīng)的邏輯規(guī)則集合;
[0045]所述步驟S2進(jìn)一步包括以下步驟:
[0046]步驟S21,對(duì)于歸并處理后得到的概念元組集合令候選集r =T,從r中選取概念元組Y添加到空路徑中,同時(shí)令r = r-{Y};
[0047]步驟S22,從所述概念元組集合T中搜索與當(dāng)前路徑中已有概念元組具有鏈接概念對(duì)的元組,鏈接概念對(duì)中的兩概念既可以相同也可以具有上下位關(guān)系,并且將搜索到的概念元組遞歸地添加到當(dāng)前路徑中,直至鏈接路徑達(dá)到預(yù)定義最大長(zhǎng)度或者再無(wú)新的概念元組添加;
[0048]步驟S23,利用邏輯運(yùn)算符,比如“與”(~)、“或”(V)、“非”(!)、“條件”(=>)等,將得到的鏈接路徑中的各個(gè)概念元組關(guān)聯(lián)起來(lái),得到多種邏輯規(guī)則,所述邏輯規(guī)則比如可以為如下形式:
[0049]登錄(人物/用戶,文化/媒體/互聯(lián)網(wǎng)/網(wǎng)站)推廣(文化/媒體,物品/產(chǎn)品)
[0050]=>購(gòu)買(人物/用戶,物品/產(chǎn)品),[0051]其中,符號(hào)“=>”左側(cè)的部分稱為前提,右側(cè)的部分稱為結(jié)論。
[0052]步驟S24,重復(fù)所述步驟S21-S23,直到r = 0,得到多條鏈接路徑以及相應(yīng)的多種邏輯規(guī)則,組成邏輯規(guī)則集合。
[0053]步驟S3,對(duì)所述邏輯規(guī)則集合進(jìn)行初步篩選,獲得候選規(guī)則集合;
[0054]所述步驟S3進(jìn)一步包括以下步驟:
[0055]步驟S31,將所述邏輯規(guī)則集合中的每條邏輯規(guī)則進(jìn)行實(shí)例化,也就是將邏輯規(guī)則中的概念分別替換為相應(yīng)的實(shí)例,使得邏輯規(guī)則中的每個(gè)實(shí)例結(jié)構(gòu)化元組與相應(yīng)的概念結(jié)構(gòu)化元組具有一一映射關(guān)系,鏈接概念對(duì)所對(duì)應(yīng)的兩個(gè)實(shí)例既可以相同,也可以具有包含關(guān)系;
[0056]比如某一邏輯規(guī)則的一種實(shí)例化結(jié)果可表示為:
[0057]登錄(張三,天貓 推廣(淘寶網(wǎng),凈化器)=> 購(gòu)買(張三,凈化器).[0058]其中,實(shí)例“淘寶網(wǎng)”和“天貓”之間具有自頂向下的包含關(guān)系,從而使得概念的層次化組織結(jié)構(gòu)有效地融合到邏輯規(guī)則的自動(dòng)挖掘過(guò)程中。
[0059]步驟S32,基于事實(shí)庫(kù)中的結(jié)構(gòu)化元組集合,統(tǒng)計(jì)實(shí)例化邏輯規(guī)則前提成立(取值為真)的次數(shù)及其前提和結(jié)論同時(shí)成立的次數(shù),然后基于兩者的比值得到所述邏輯規(guī)則成立的置信度,并且將置信度超過(guò)某個(gè)給定閾值的邏輯規(guī)則篩選出來(lái),得到候選規(guī)則集合。
[0060]需要說(shuō)明的是,上述舉例僅為了更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何基于所述邏輯規(guī)則生成策略得到的表達(dá)形式(而不限于霍恩子句),根據(jù)所述置信度計(jì)算結(jié)果,來(lái)確定所述候選規(guī)則集合的自動(dòng)篩選方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。`
[0061]步驟S4,基于深層和積網(wǎng)絡(luò)(Sum-Product Network, SPN)得到用來(lái)計(jì)算所述候選規(guī)則集合不確定性的深層概率圖模型,繼而得到賦值權(quán)重的邏輯規(guī)則集合,即馬爾可夫邏輯網(wǎng)絡(luò),并存儲(chǔ)于規(guī)則庫(kù)中;
[0062]通常地,基于歸一化的因子乘積公式,概率圖模型可以緊湊地表示候選規(guī)則集合的聯(lián)合分布,然而計(jì)算歸一化函數(shù)往往需要對(duì)指數(shù)量級(jí)的乘積項(xiàng)進(jìn)行求和,成為影響概率推理進(jìn)而限制參數(shù)學(xué)習(xí)可擴(kuò)展性的重要計(jì)算瓶頸,為此從可表達(dá)力和可計(jì)算性的角度出發(fā),這里采用具有多層隱藏變量的概率圖模型實(shí)現(xiàn)參數(shù)學(xué)習(xí)。相對(duì)于深度置信網(wǎng)、深度玻爾茲曼機(jī)等深層學(xué)習(xí)結(jié)構(gòu),深層和積網(wǎng)絡(luò)可以視為一類新的深層結(jié)構(gòu),其中隱藏變量為求和或者求積,并且被交替排列在相鄰層次上,在計(jì)算上具有潛在的可擴(kuò)展性,也使得學(xué)習(xí)和推理更加便于處理。
[0063]所述步驟S4進(jìn)一步包括以下步驟:
[0064]步驟S41,將所述候選規(guī)則集合分解為大量不相交的候選規(guī)則子集,也就是任意兩個(gè)候選規(guī)則子集之間都不含有相同的概念元組;
[0065]步驟S42,針對(duì)每個(gè)候選規(guī)則子集R={Rb:b=l,2,...,n},其中,Rb表示候選規(guī)則子集R中的第b個(gè)候選規(guī)則,令X={Xb:b=l,2,...,n}表示二值隨機(jī)變量的集合,其中變量Xb取值為I對(duì)應(yīng)規(guī)則Rb取值為真的某實(shí)例化,取值為0對(duì)應(yīng)規(guī)則Rb取值為假的某實(shí)例化,這些變量分別作為深層和積網(wǎng)絡(luò)的終端結(jié)點(diǎn),不失一般性地,在所述SPN中,求和與求積結(jié)點(diǎn)交替排列,其中求和結(jié)點(diǎn)的子結(jié)點(diǎn)為求積或者終端結(jié)點(diǎn),同時(shí)邊上賦值非負(fù)參數(shù)W,而所有求積結(jié)點(diǎn)的子結(jié)點(diǎn)為求和,同時(shí)邊上賦值的默認(rèn)參數(shù)均為1,如圖2所示;[0066]步驟S43,基于候選規(guī)則子集R中所涉及的語(yǔ)義謂詞從事實(shí)庫(kù)中篩選得到相關(guān)的結(jié)構(gòu)化元組,用來(lái)對(duì)R中的邏輯規(guī)則進(jìn)行實(shí)例化;
[0067]步驟S44,估計(jì)非負(fù)參數(shù)W,最終得到計(jì)算所述候選規(guī)則集合不確定性的深層概率圖模型,繼而得到賦值權(quán)重的邏輯規(guī)則集合,即馬爾可夫邏輯網(wǎng)絡(luò),并存儲(chǔ)于規(guī)則庫(kù)中。
[0068]由于隨著SPN層數(shù)的增加,梯度信號(hào)迅速衰減為零,使得學(xué)習(xí)效果變差,而傳統(tǒng)的EM算法也存在這樣的問(wèn)題,于是本發(fā)明采用hard-EM算法進(jìn)行迭代優(yōu)化來(lái)估計(jì)非負(fù)參數(shù)W,在E步驟從根結(jié)點(diǎn)起自頂向下遞歸地選取求和結(jié)點(diǎn)中具有最大取值的子結(jié)點(diǎn)以及所有求積子結(jié)點(diǎn),同時(shí)記錄每個(gè)被選中的求和子結(jié)點(diǎn),在M步驟則簡(jiǎn)單地累計(jì)子結(jié)點(diǎn)被選中的次數(shù),經(jīng)過(guò)歸一化之后得到更新后的權(quán)重,兩個(gè)步驟交替循環(huán)直到收斂(如果訓(xùn)練數(shù)據(jù)可分解為不同的樣本,那么每個(gè)迭代步驟只需處理單個(gè)樣本,實(shí)現(xiàn)在線參數(shù)更新,從而避免完全實(shí)例化以及在此基礎(chǔ)上計(jì)算子句成立次數(shù)所帶來(lái)的龐大計(jì)算開銷),之后刪除權(quán)重為零的邊以及無(wú)父親非根結(jié)點(diǎn);最后計(jì)算SPN中終端結(jié)點(diǎn)的邊緣概率取值,由根節(jié)點(diǎn)輸出相應(yīng)邏輯規(guī)則的權(quán)重,這些賦值權(quán)重的邏輯規(guī)則集合稱為馬爾可夫邏輯網(wǎng)絡(luò),并且存儲(chǔ)于計(jì)算大腦的規(guī)則庫(kù)中。
[0069]需要說(shuō)明的是,上述過(guò)程僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何基于所述深層和積網(wǎng)絡(luò)模型,根據(jù)所述權(quán)重更新結(jié)果(亦適用于在線學(xué)習(xí)),來(lái)確定所述邏輯規(guī)則對(duì)應(yīng)參數(shù)的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0070]步驟S5,利用漢語(yǔ)分詞技術(shù)將待處理數(shù)據(jù),比如文本語(yǔ)句轉(zhuǎn)化為詞語(yǔ)的有序元組,并且每個(gè)詞語(yǔ)都具有相應(yīng)的詞性標(biāo)注,再結(jié)合基本的句式結(jié)構(gòu)提取得到結(jié)構(gòu)化元組,其中,這些基本句式包括:①NP+VP、②NP+[把+賓語(yǔ)]+VP、③NP+[被+賓語(yǔ)]+VP、④NPi+[是]+NP2等,其中NP表示名詞性短語(yǔ)、VP表示動(dòng)詞性短語(yǔ),并且抽取得到的結(jié)構(gòu)化元組分別對(duì)應(yīng)于:①VP中心詞(s:NP中心詞,o:VP賓語(yǔ))、②VP(s:NP中心詞,0:賓語(yǔ))、③VP(s:賓語(yǔ),o:NP中心詞)、④是(s:NPl中心詞,o:NP2中心詞),其中,s表示主語(yǔ),O表示賓語(yǔ)。
[0071]比如例句:中國(guó)古代許多著名詩(shī)詞都描寫了杜鵑,如陸游創(chuàng)作的《杜宇行》、李商隱創(chuàng)作的《錦瑟》等。
[0072]經(jīng)過(guò)漢語(yǔ)分詞后可以得到有序元組如下:
[0073]〈中國(guó)/ns,古代/t,許多/m,著名/a,詩(shī)詞/n,都/d,描寫/v,了 Aile,杜匿$/n,如/V,陸游/nr,創(chuàng)作/V,的/udeI,《/wkz,杜宇行/n,》/wky,李商隱/nr,創(chuàng)作/v,的/udel,《/wkz,錦瑟/n,》wky,等/udeng>,其中,ns表示地名,t表示時(shí)間,m表示數(shù)詞,a表示形容詞,n表示名詞,d表示副詞,V表示動(dòng)詞,ule表示助詞了,nr表示人名,udel表示助詞的,wkz表示左括號(hào),wky表示右括號(hào),udeng表示助詞等;
[0074]結(jié)合詞性標(biāo)注信息可以判斷上述例句符合句式①,于是可以抽取得到如下形式的結(jié)構(gòu)化元組:
[0075]+描寫(s:詩(shī)詞,O:杜醇,ns:中國(guó),t:古代)
[0076]今創(chuàng)作(s:陸游,0:杜宇行)
[0077]?創(chuàng)作(s:李商隱,O:錦瑟)
[0078]除此以外,為了保留盡可能多的語(yǔ)義信息,考慮“共現(xiàn)”關(guān)系的元組抽取,也就是通過(guò)依次抽取句子中的名詞性詞語(yǔ)得到“共現(xiàn)”關(guān)系的相關(guān)實(shí)體。對(duì)于上述例句,抽取得到的“共現(xiàn)”結(jié)構(gòu)化元組為:
[0079]+共現(xiàn)(中國(guó),古代,詩(shī)詞,杜鵑,陸游,杜宇行,李商隱,錦瑟)。
[0080]步驟S6,將所述步驟S5得到的所有結(jié)構(gòu)化元組中的實(shí)例分別映射到層次化概念空間中,依據(jù)實(shí)例所屬概念,以及謂詞對(duì)應(yīng)的概念搭配,對(duì)結(jié)構(gòu)化元組中的實(shí)例和謂詞分別進(jìn)行語(yǔ)義標(biāo)識(shí),支撐后續(xù)基于知識(shí)庫(kù)進(jìn)行的語(yǔ)義泛化、激活和概率計(jì)算;
[0081]所述步驟S6進(jìn)一步包括以下步驟:
[0082]步驟S61,針對(duì)所述結(jié)構(gòu)化元組中具有屬性信息的實(shí)例,利用歸納決策樹模型實(shí)現(xiàn)實(shí)例的層次概念化,該模型通過(guò)保證聚類內(nèi)方差最小為準(zhǔn)則啟發(fā)式地選擇合適的屬性作為分割點(diǎn),從而得到上述實(shí)例的若干候選概念,于是上面示例中的實(shí)例分別映射為:
[0083]今中國(guó):地理/地區(qū)/國(guó)家
[0084]今詩(shī)詞:文化/作品/篇章
[0085]今杜鵑:生物/人物、生物/植物/花、生物/動(dòng)物
[0086]々陸游:生物/人物/名家
[0087]令李商隱:生物/人物/名家
[0088]今錦瑟:文化/作品/篇章
[0089]由于實(shí)例的屬性描述往往可以離線抽取,比如來(lái)自百度百科和互動(dòng)百科等的信息框,那么上述過(guò)程可以離線執(zhí)行完成,并將產(chǎn)生的預(yù)測(cè)結(jié)果進(jìn)行存儲(chǔ)和索引,這樣在線分析時(shí)只需進(jìn)行直接查詢即可。
[0090]步驟S62,針對(duì)不具有屬性信息的實(shí)例,則在多元謂詞及其所在元組的其他實(shí)例的概念約束下,通過(guò)本體庫(kù)中賦值權(quán)重的概念元組集合來(lái)判斷該實(shí)例可能的候選概念。
[0091]比如,對(duì)于例句中的結(jié)構(gòu)化元組,實(shí)例“杜宇行”不具有屬性信息,但是該實(shí)例出現(xiàn)在結(jié)構(gòu)化元組“創(chuàng)作(s:陸游,O:杜宇行)”和“共現(xiàn)(中國(guó),古代,詩(shī)詞,杜鵑,陸游,杜宇行,李商隱,錦瑟)”中,此時(shí)基于概念元組及其頻次信息(如圖3所示)可以判斷該實(shí)例最有可能的三個(gè)候選概念為“文化/作品”、“物品/用品/器物”、“生物/人物”。如果該實(shí)例僅出現(xiàn)在共現(xiàn)元組中,那么利用最為鄰近的無(wú)歧義實(shí)例來(lái)判斷其候選概念。
[0092]需要說(shuō)明的是,上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)其他方式來(lái)綜合基于屬性的層次化分類以及概念元組匹配結(jié)果以得到候選概念的實(shí)現(xiàn)方式,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0093]步驟S63,基于上述實(shí)例的候選概念,對(duì)所述結(jié)構(gòu)化元組進(jìn)行一對(duì)多概念映射,假設(shè)結(jié)構(gòu)化元組中包含兩個(gè)實(shí)例,其中一個(gè)實(shí)例的候選概念個(gè)數(shù)為n,另一實(shí)例的候選概念個(gè)數(shù)為m,那么在同一謂詞約束下可以產(chǎn)生的概念元組個(gè)數(shù)為n*m。
[0094]舉例來(lái)講,對(duì)于例句中的結(jié)構(gòu)化元組“描寫(s:詩(shī)詞,0:杜鵑)”,由于“詩(shī)詞”的候選概念是“文化/作品/篇章”,“杜鵑”的候選概念是“生物/植物/花”、“生物/動(dòng)物”和“生物/人物”,那么該結(jié)構(gòu)化元組映射得到的概念元組如下:
[0095]+描寫(s:文化/作品/篇章,O:生物/植物/花)
[0096]+描寫(s:文化/作品/篇章,O:生物/動(dòng)物)
[0097]+描寫(s:文化/作品/篇章,0:生物/人物)
[0098]類似地,結(jié)構(gòu)化元組“創(chuàng)作(s:陸游,0:杜宇行)”、“創(chuàng)作(s:李商隱,0:錦瑟)”和“共現(xiàn)(中國(guó),古代,詩(shī)詞,杜鵑,陸游,杜宇行,李商隱,錦瑟)”可以分別映射為如下形式的概念元組:
[0099]今創(chuàng)作(s:生物/人物/名家,O:文化/作品/篇章)
[0100]+創(chuàng)作(s:生物/人物/名家,O:文化/作品)
[0101]+創(chuàng)作(s:生物/人物/名家,0:物品/用品/器物)
[0102]+創(chuàng)作(s:生物/人物/名家,O:生物/人物)
[0103]今共現(xiàn)(地理/地區(qū)/國(guó)家,古代,文化/作品/篇章,杜鵑,生物/人物/名
家,文化/作品,生物/人物/名家,文化/作品/篇章)
[0104]今共現(xiàn)(地理/地區(qū)/國(guó)家,時(shí)間/時(shí)期/古代,文化/作品/篇章,杜鵑,生物/人物/名家,物品/用品/器物,生物/人物/名家,文化/作品/篇章)
[0105]+共現(xiàn)(地理/地區(qū)/國(guó)家,時(shí)間/時(shí)期/古代,文化/作品/篇章,杜鵑,生物/人物/名家,生物/人物,生物/人物/名家,文化/作品/篇章)。
[0106]為了方便使用,通常根據(jù)實(shí)際需求將共現(xiàn)謂詞元組進(jìn)一步分解為但不限于三元組的形式。
[0107]步驟S64,基于本體庫(kù)中有標(biāo)識(shí)的概念元組,對(duì)所述步驟S63產(chǎn)生的概念元組進(jìn)行標(biāo)識(shí)對(duì)齊,也就是在保證謂詞一致的條件下,對(duì)齊概念子序列,其特殊情況就是概念完全對(duì)齊,通常地優(yōu)先選擇所有概念對(duì)齊下的謂詞和概念標(biāo)識(shí),并對(duì)相應(yīng)結(jié)構(gòu)化元組進(jìn)行標(biāo)注,同時(shí)這里的對(duì)齊考慮下位概念與上位概念的廣義匹配。
[0108]于是上例中經(jīng)過(guò)標(biāo)識(shí)對(duì)齊得到的事實(shí)元組如下:
[0109]+描寫 _69(s:詩(shī)詞 _80,o:杜鵑 _10,ns:中國(guó) _52,t:古代 _142)
[0110]+描寫 _83(s:詩(shī)詞 _80,o:杜鵑 _8,ns:中國(guó) _52,t:古代 _142)
[0111]今描寫_18 (s:詩(shī)詞 _80,O:杜鵑 _2,ns:中國(guó) _52,t:古代 _142)
[0112]+創(chuàng)作_30 (陸游_4,杜宇行_73)
[0113]+創(chuàng)作_171 (陸游_4,杜宇行_2)
[0114]+創(chuàng)作 _121(杜宇行 _22)
[0115]+創(chuàng)作_23(李商隱_4,錦瑟_80)
[0116]+共現(xiàn) _23231 (詩(shī)詞 _80,杜鵑 _10)
[0117]+共現(xiàn) _18852(詩(shī)詞 _80,杜鵑 _8)
[0118]今共現(xiàn)_3810(詩(shī)詞_80,杜鵑_2)
[0119]+共現(xiàn)_61303 (陸游_4,杜宇行_73)
[0120]+共現(xiàn)_33753 (陸游_4,杜宇行_22)
[0121 ] +共現(xiàn)_34462 (陸游_4,杜宇行_2)
[0122]一般地,在本體庫(kù)中謂詞的標(biāo)識(shí)記錄其對(duì)應(yīng)的各種不同搭配組合,實(shí)例的標(biāo)識(shí)即為該實(shí)例所屬概念的標(biāo)識(shí),并且每個(gè)標(biāo)識(shí)對(duì)應(yīng)唯一的語(yǔ)義,要說(shuō)明的是,事實(shí)庫(kù)中的結(jié)構(gòu)化元組也經(jīng)過(guò)了這樣的語(yǔ)義標(biāo)識(shí)。
[0123]步驟S7,基于所述步驟S6得到的語(yǔ)義標(biāo)識(shí)結(jié)果,生成待推理的有標(biāo)識(shí)的結(jié)構(gòu)化元組,也稱為目標(biāo)元組,通常所生成的目標(biāo)元組取決于實(shí)際的應(yīng)用問(wèn)題,比如對(duì)于詞義消歧問(wèn)題,目標(biāo)元組涉及有歧義實(shí)例或者謂詞;對(duì)于信息檢索問(wèn)題,目標(biāo)元組表征用戶查詢或者用戶意圖;對(duì)于情報(bào)分析問(wèn)題,目標(biāo)元組則表征文本背后隱含的語(yǔ)義知識(shí)等。事實(shí)上,目標(biāo)元組的生成并不限于上述應(yīng)用領(lǐng)域。
[0124]接下來(lái)在步驟S8中需要對(duì)所述步驟S7得到的目標(biāo)元組實(shí)施語(yǔ)義泛化,這樣原目標(biāo)元組可以泛化得到若干新的目標(biāo)元組,這些目標(biāo)元組之間具有某種語(yǔ)義相似性,一并用于后續(xù)的激活和概率計(jì)算,盡可能避免由于知識(shí)庫(kù)中規(guī)則不完備、或者證據(jù)覆蓋不全等問(wèn)題,導(dǎo)致對(duì)原目標(biāo)元組的推理結(jié)果為空或者可信度過(guò)低的情形。在本發(fā)明一實(shí)施例中,所述語(yǔ)義泛化包括謂詞、實(shí)例和概念在內(nèi)的三個(gè)層面,參照?qǐng)D4所示,并將泛化后產(chǎn)生的結(jié)構(gòu)化元組與原目標(biāo)元組一起形成目標(biāo)元組集合。下面結(jié)合具體實(shí)施例對(duì)目標(biāo)元組的泛化過(guò)程分別予以詳述。
[0125]如圖4所示,所述步驟S8進(jìn)一步包括以下步驟:
[0126]步驟S81,將所述目標(biāo)元組中無(wú)規(guī)則支持的謂詞泛化為具有相同概念搭配的同義謂詞;
[0127]所述步驟S81進(jìn)一步包括以下步驟:
[0128]步驟S811,判斷所述目標(biāo)元組中的帶標(biāo)識(shí)謂詞是否出現(xiàn)在規(guī)則庫(kù)中,如果否,則執(zhí)行步驟S812,如果是,則保留該謂詞,同時(shí)算法終止;
[0129]步驟S812,基于同義詞典獲取該謂詞的同義詞,比如“描寫”的同義詞有描繪、描述等;
[0130]步驟S813,利用同義詞分別替換目標(biāo)元組中相應(yīng)的謂詞,然后返回步驟S811。舉例來(lái)說(shuō),假如不包含謂詞“描寫_83”相關(guān)的邏輯規(guī)則,但包含“描繪_83”相關(guān)的邏輯規(guī)則,于是為了支持有效的推理,則將謂詞“描寫_83”泛化為“描繪_83”。
[0131]步驟S82,將所述目標(biāo)元組中有概念但無(wú)證據(jù)的實(shí)例泛化為同一概念下的若干相近實(shí)例;
[0132]所述步驟S82進(jìn)一步包括以下步驟:
[0133]步驟S821,判斷所述目標(biāo)元組中的實(shí)例是否出現(xiàn)在事實(shí)庫(kù)中,如果否,則執(zhí)行步驟S823,如果是,則執(zhí)行步驟S822 ;
[0134]步驟S822,判斷所述目標(biāo)元組中的謂詞是否出現(xiàn)在規(guī)則庫(kù)中,如果否,則執(zhí)行步驟S823,如果是,算法終止;
[0135]步驟S823,從規(guī)則庫(kù)中提取邏輯規(guī)則集合R,其中每條邏輯規(guī)則至少包含一次所述目標(biāo)元組中的謂詞;
[0136]步驟S824,從規(guī)則庫(kù)中提取邏輯規(guī)則集合R’,其中每條規(guī)則至少包含一次R中出現(xiàn)過(guò)的謂詞,并且令R=R U R’,重復(fù)執(zhí)行步驟S824,直到滿足預(yù)先設(shè)置的迭代次數(shù)T ,為了節(jié)省計(jì)算時(shí)間,T通常設(shè)置為2。舉例來(lái)說(shuō),給定目標(biāo)元組“描寫_83(8:詩(shī)詞_80,o:杜鵑_8)”,根據(jù)給定謂詞“描寫_83”經(jīng)過(guò)一輪提取的規(guī)則列表如下但不限于下面列出的內(nèi)容:
[0137]々1.00 表達(dá) _561 (v0, v2)' 象征 _134 (vl, v2)=> 描寫 _83 (v0, vl)
[0138]今0.93 創(chuàng)作 _23 (v2, v0) ~ 引用 _227 (v2, vl)=> 描寫 _83 (v0, vl)
[0139]今0.85 作者 _1 (v0, v2)' 喜愛 _37 (v2, vl)=> 描寫 _83 (v0, vl)
[0140]令0.50 描寫 _83 (v2, vl)' 共現(xiàn) _18566 (v0, v2)=> 描寫 _83 (v0, vl)
[0141]々0.33 描寫 _83 (v0, vl)' 共現(xiàn) _38990 (v2, vl)=> 歌頌 _56 (v0, v2)
[0142]......[0143]如上所述,每個(gè)謂詞對(duì)應(yīng)唯一的概念搭配,比如表達(dá)_561(%^2)對(duì)應(yīng)表達(dá)_561 (文化/作品/篇章,實(shí)踐/心里活動(dòng)/情感),其余類似,不再贅述。
[0144]步驟S825,解析所述步驟S824中得到的規(guī)則集合R,從中提取所有出現(xiàn)過(guò)的謂詞,繼而依據(jù)這些謂詞以及待泛化的實(shí)例,從事實(shí)庫(kù)中篩選相應(yīng)的結(jié)構(gòu)化元組,并得到用于泛化目標(biāo)實(shí)例的候選實(shí)例;
[0145]例如,利用謂詞“表達(dá)_561”和實(shí)例“詩(shī)詞_80”從事實(shí)庫(kù)中篩選得到如下結(jié)構(gòu)化元組,但不限于如下列出:
[0146]I)表達(dá)_561(夜聞子規(guī)_80,凄婉_202)
[0147]2)表達(dá) _561(錦瑟 _80,凄婉 _202)
[0148]3)表達(dá)_561(春夜喜雨_80,喜悅_202)
[0149]......[0150]其中,“夜聞子規(guī)_80”、“錦瑟_80”、“春夜喜雨_80”均可以視為用于泛化“詩(shī)詞_80”的候選實(shí)例。
[0151]步驟S826,統(tǒng)計(jì)所述步驟S825中候選實(shí)例在事實(shí)庫(kù)中出現(xiàn)的頻次,在上例中就是統(tǒng)計(jì)“夜聞子規(guī)_80”、“錦瑟_80”和“春夜喜雨_80”等實(shí)例出現(xiàn)的頻次。給定用于泛化的候選實(shí)例的頻次列表,選擇頻次排在前k列的實(shí)例用來(lái)對(duì)所述目標(biāo)元組中有概念但無(wú)證據(jù)的實(shí)例進(jìn)行泛化。如果實(shí)例個(gè)數(shù)小于k時(shí),k則取為實(shí)例數(shù)目。假設(shè)目標(biāo)元組中存在兩個(gè)待泛化實(shí)例,那么經(jīng)過(guò)實(shí)例泛化后得到的結(jié)構(gòu)化元組個(gè)數(shù)為k*k。
[0152]例如,在上面的示 例中,令k=3,則實(shí)例“詩(shī)詞_80”可以分別泛化為“古詩(shī)”、“唐詩(shī)”和“詩(shī)經(jīng)”,類似地,實(shí)例“杜鵑_8”可以分別泛化為“子規(guī)_8”、“猿_8”和“鴛鴦_8”,于是得到經(jīng)過(guò)泛化的結(jié)構(gòu)化元組如下:
[0153]+描寫_83(古詩(shī)_80,子規(guī)_8)
[0154]+描寫_83(唐詩(shī)_80,子規(guī)_8)
[0155]+描寫_83(詩(shī)經(jīng)_80,子規(guī)_8)
[0156]+描寫 _83(古詩(shī) _80,猿_8)
[0157]+描寫 _83 (唐詩(shī) _80,猿 _8)
[0158]+描寫 _83 (詩(shī)經(jīng) _80,猿 _8)
[0159]今描寫_83(古詩(shī)_80,鴛鴦_8)
[0160]?描寫_83(唐詩(shī)_80,鴛鴦_8)
[0161 ] +描寫_83 (詩(shī)經(jīng)_80,鴛鴦_8)
[0162]步驟S83,將所述目標(biāo)元組中有謂詞但無(wú)實(shí)例的概念泛化為相同謂詞約束下的若干相近并且存在實(shí)例描述的概念。
[0163]所述步驟S83進(jìn)一步包括以下步驟:
[0164]步驟S831,確定所述目標(biāo)元組中待泛化實(shí)例的所屬概念;
[0165]步驟S832,在當(dāng)前謂詞約束下,結(jié)合概念的屬性向量計(jì)算得到概念之間的語(yǔ)義相似度,直觀地,概念“生物/植物/蔬菜”和“物品/飲食/食品/水果”、概念“文化/作品”和“類別/領(lǐng)域/藝術(shù)”均具有 一定的語(yǔ)義相似性,繼而根據(jù)相似度大小篩選用于泛化的概念。
[0166]例如,目標(biāo)元組的概念化形式“描寫_83 (s:文化/作品/篇章,O:生物/動(dòng)物)”中,根據(jù)相似度計(jì)算得到用于泛化概念“文化/作品/篇章”的概念為“文化/作品”和“文化/作品/書畫”,而用于泛化概念“生物/動(dòng)物”的概念為“生物”。
[0167]步驟S833,利用所述步驟S832中得到的泛化概念對(duì)所述目標(biāo)元組中的原始概念進(jìn)行替換,并且根據(jù)本體庫(kù)有標(biāo)識(shí)概念元組,對(duì)新生成的概念元組進(jìn)行標(biāo)識(shí)對(duì)齊。比如,如果將“描寫_83(s:文化/作品/篇章,0:生物/動(dòng)物)”中的“文化/作品/篇章”泛化為“文化/作品/書畫”,那么經(jīng)過(guò)標(biāo)識(shí)對(duì)齊后的概念元組為“描寫_17(s:文化/作品/書畫,O:生物/動(dòng)物)”。
[0168]步驟S834,在事實(shí)庫(kù)中搜索所述泛化概念(如上例中的“文化/作品/書畫”)的候選實(shí)例,并且根據(jù)候選實(shí)例在事實(shí)庫(kù)中出現(xiàn)的頻次,選擇排在前列的若干實(shí)例,分別用來(lái)實(shí)例化所述步驟S833中得到的概念元組。
[0169]仍然考慮上述例子,于是可以得到如下所示經(jīng)過(guò)泛化的結(jié)構(gòu)化元組:
[0170]+描寫_17(古畫_78,杜鵑_8)
[0171]+描寫_17(山水畫_78,杜鵑_8)
[0172]今描寫_17(漫畫_78,杜鵑_8)
[0173]......[0174]步驟S9,為了支撐高效率的推理,基于所述步驟S8得到的目標(biāo)元組集合,對(duì)規(guī)則庫(kù)中的邏輯規(guī)則進(jìn)行有效的激活、對(duì)事實(shí)庫(kù)中的結(jié)構(gòu)化元組,以及上下文知識(shí)進(jìn)行有效的激活,所述上下文知識(shí)為所述步驟S5中得到的結(jié)構(gòu)化元組中的非目標(biāo)元組集合,得到邏輯規(guī)則集合和支撐后續(xù)推理的證據(jù)元組集合;
[0175]所述步驟S9進(jìn)一步包括以下步驟:
[0176]步驟S91,根據(jù)所述目標(biāo)元組中的謂詞,在規(guī)則庫(kù)中循環(huán)提取規(guī)則子集,這一步驟與S823、S824類似,這里不再詳細(xì)描述。
[0177]步驟S92,對(duì)所提取的規(guī)則子集進(jìn)行啟發(fā)式過(guò)濾得到過(guò)濾后的規(guī)則子集,并構(gòu)成局部馬爾可夫邏輯網(wǎng)絡(luò);
[0178]由于規(guī)則子集的規(guī)模可以達(dá)到上千甚至上萬(wàn)條,使得后續(xù)推理的計(jì)算復(fù)雜度指數(shù)量級(jí)增長(zhǎng),非常不利于在線實(shí)時(shí)處理。為此從規(guī)則子集中抽取非目標(biāo)元組中涉及的謂詞,進(jìn)而從事實(shí)庫(kù)中提取包含這些謂詞的結(jié)構(gòu)化元組,如果這些結(jié)構(gòu)化元組中所包含實(shí)例與目標(biāo)元組中實(shí)例無(wú)關(guān),則將該結(jié)構(gòu)化元組去掉,由此可以得到過(guò)濾后的謂詞,然后逐條掃描所述步驟S91中得到的規(guī)則子集,如果這些規(guī)則子集所包含的謂詞與過(guò)濾后謂詞沒有交集,那么過(guò)濾該條規(guī)則,否則將其激活。比如,規(guī)則“0.33描寫_83(V0,V1)~共現(xiàn)_38990(v2,vl)=>歌頌_56 (v0, v2) ”中非目標(biāo)元組所涉及的謂詞為“歌頌_56”和“共現(xiàn)_38990”,由于在事實(shí)庫(kù)中它們對(duì)應(yīng)的結(jié)構(gòu)化元組與實(shí)例“詩(shī)詞_80”或者“杜鵑_8”均無(wú)關(guān),因此過(guò)濾掉該條規(guī)則。
[0179]步驟S93,基于所述步驟S92得到的規(guī)則子集,提取其中所有謂詞,并從事實(shí)庫(kù)中提取包含這些謂詞的所有結(jié)構(gòu)化元組;
[0180]步驟S94,對(duì)所述步驟S93所提取得到的結(jié)構(gòu)化元組集合進(jìn)行啟發(fā)式過(guò)濾,也就是檢測(cè)結(jié)構(gòu)化元組中是否有一個(gè)以上的實(shí)例出現(xiàn)頻次低于給定閾值,如果是,則將其過(guò)濾掉,否則將其激活,并將激活得到的結(jié)構(gòu)化元組作為支撐后續(xù)推理的證據(jù)元組的一部分。比如,結(jié)構(gòu)化元組“共現(xiàn)_38990(悲鳥_8,哀猿_8) ”中“悲鳥_8”在事實(shí)庫(kù)中出現(xiàn)的頻次低于給定閾值20,于是過(guò)濾掉該結(jié)構(gòu)化元組。[0181]步驟S95,生成所述目標(biāo)元組的上下文知識(shí),所謂上下文知識(shí)指的是所述步驟S5中所生成結(jié)構(gòu)化元組中的非目標(biāo)元組集合,由于它們體現(xiàn)著上下文(語(yǔ)境)的知識(shí),因此將其作為證據(jù)元組的一部分用于支撐語(yǔ)義推理。
[0182]比如例句中的“創(chuàng)作_23 (李商隱_4,錦瑟_80) ”元組為非目標(biāo)元組,因此可視為上下文知識(shí),將上下文知識(shí)與所述S94步驟激活得到的結(jié)構(gòu)化元組合在一起,作為支撐后續(xù)推理的證據(jù)元組。在上例中,所生成的證據(jù)元組集合如下但又不限于如下所示:
[0183]+上下文知識(shí):創(chuàng)作_23 (李商隱_4,錦瑟_80)
[0184]今激活元組:描寫_83 (絕句_80,黃鸝_8)
[0185]今激活元組:描寫_83 (如夢(mèng)令_80,鷗鷺_8)
[0186]令激活元組:描寫_83 (詩(shī)經(jīng)_80,鴛鴦_8)
[0187]令激活元組:表達(dá)_561 (夜聞子規(guī)_80,凄婉_202)
[0188]+激活元組:表達(dá)_561 (錦瑟_80,凄婉_202)
[0189]......[0190]步驟S10,基于所述步驟S9中激活得到的證據(jù)元組集合,實(shí)例化所述步驟S9中激活得到的邏輯規(guī)則集合,即局部馬爾可夫邏輯網(wǎng)絡(luò),同時(shí)利用推理技術(shù)比如MC-SAT(—種切片抽樣的馬爾可夫鏈蒙特卡羅算法)計(jì)算所述目標(biāo)元組成立的條件概率,得到待處理數(shù)據(jù)的最終處理結(jié)果。比如,對(duì)于上面詞義消歧的例子,可以計(jì)算得到目標(biāo)元組“描寫_83(s:詩(shī)詞_80,0:杜鵑_8)”、“描寫_69(s:詩(shī)詞_80,o:杜鵑_10)”和“描寫_18(8:詩(shī)詞_80,o:杜鵑_2) ”的條件概率分別為0.69,0.27和0.04,于是可以判斷文本中出現(xiàn)的杜鵑指的是“生物/動(dòng)物”。
[0191]需要說(shuō)明的是,上述舉例僅為更好地說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)本發(fā)明的限制,本領(lǐng)域技術(shù)人員應(yīng)該理解,任何根據(jù)所述泛化和激活技術(shù)解決不確定推理(歸結(jié)為概率計(jì)算)的問(wèn)題,均應(yīng)包含在本發(fā)明的范圍內(nèi)。
[0192]圖5給出結(jié)合知識(shí)庫(kù)的深層語(yǔ)義分析系統(tǒng)結(jié)構(gòu)示意圖,根據(jù)本發(fā)明的另一方面,還提出一種結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理系統(tǒng),該系統(tǒng)包括結(jié)構(gòu)化模塊、概念化模塊、目標(biāo)生成模塊、泛化模塊、激活模塊和概率計(jì)算模塊六個(gè)核心功能模塊,其中:
[0193]所述結(jié)構(gòu)化模塊用來(lái)生成非結(jié)構(gòu)化文本的結(jié)構(gòu)化表示,其由漢語(yǔ)分詞、詞性標(biāo)注和句式分析三個(gè)子模塊構(gòu)成,其中:漢語(yǔ)分詞子模塊用于將待處理數(shù)據(jù)比如文本語(yǔ)句轉(zhuǎn)化為詞語(yǔ)的有序元組;詞性標(biāo)注子模塊用于對(duì)有序元組中的每個(gè)詞語(yǔ)進(jìn)行詞性標(biāo)注;句式分析子模塊用于基于有詞性標(biāo)注的有序元組,實(shí)現(xiàn)結(jié)構(gòu)化元組的抽??;
[0194]所述概念化模塊與所述結(jié)構(gòu)化模塊連接,用于將所述結(jié)構(gòu)化模塊得到的結(jié)構(gòu)化元組分別映射到本體庫(kù)中對(duì)應(yīng)的概念元組上,其包括實(shí)例概念識(shí)別、概念元組生成和概念元組標(biāo)識(shí)三個(gè)子模塊,其中:實(shí)例概念識(shí)別子模塊用于對(duì)所述結(jié)構(gòu)化元組中出現(xiàn)的所有實(shí)例進(jìn)行一對(duì)多的概念映射;概念元組生成子模塊用于基于所述映射關(guān)系,獲得所述結(jié)構(gòu)化元組對(duì)應(yīng)的概念化表達(dá);所述概念元組標(biāo)識(shí)子模塊用于基于本體庫(kù),完成上述概念化表達(dá)的對(duì)齊和標(biāo)識(shí);
[0195]所述目標(biāo)生成模塊與所述概念化模塊連接,用于基于所述結(jié)構(gòu)化和概念元組,根據(jù)待求解的應(yīng)用問(wèn)題,產(chǎn)生待推理的目標(biāo)元組;
[0196]所述泛化模塊與所述目標(biāo)生成模塊連接,用于從謂詞、實(shí)例和概念三個(gè)層面實(shí)現(xiàn)對(duì)所述目標(biāo)元組的語(yǔ)義泛化,用來(lái)解決知識(shí)庫(kù)不完備的情況,并由謂詞泛化、實(shí)例泛化和概念泛化三個(gè)子模塊構(gòu)成;
[0197]所述激活模塊用于生成支持高效率推理的證據(jù)元組和邏輯規(guī)則,其由上下文知識(shí)激活、邏輯規(guī)則激活和事實(shí)激活三個(gè)子模塊構(gòu)成,其中,上下文知識(shí)激活子模塊用于將所述結(jié)構(gòu)化和概念化模塊生成的非目標(biāo)元組進(jìn)行激活并視為證據(jù)集合的一部分;邏輯規(guī)則激活子模塊用于基于目標(biāo)元組及其泛化結(jié)果,對(duì)規(guī)則庫(kù)中的邏輯規(guī)則進(jìn)行啟發(fā)式過(guò)濾;事實(shí)激活子模塊用于基于篩選得到的邏輯規(guī)則,從事實(shí)庫(kù)中篩選得到部分結(jié)構(gòu)化元組并作為證據(jù)集合的一部分;
[0198]所述概率計(jì)算模塊用于根據(jù)所述激活模塊生成的邏輯規(guī)則和證據(jù)集合,對(duì)于相應(yīng)的局部馬爾可夫邏輯網(wǎng)絡(luò)進(jìn)行實(shí)例化,實(shí)現(xiàn)對(duì)目標(biāo)元組及其泛化結(jié)果的條件概率計(jì)算,并將最終的數(shù)據(jù)處理結(jié)果進(jìn)行輸出。
[0199]以上所述的具體實(shí)施例,對(duì)本發(fā)明的目的、技術(shù)方案和有益效果進(jìn)行了進(jìn)一步詳細(xì)說(shuō)明,所應(yīng)理解的是,以上所述僅為本發(fā)明的具體實(shí)施例而已,并不用于限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
【權(quán)利要求】
1.一種結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理方法,其特征在于,該方法包括以下步驟: 步驟S1,基于本體庫(kù)中概念的層次組織結(jié)構(gòu),對(duì)于所述本體庫(kù)中的概念元組集合進(jìn)行歸并處理,這些元組的謂詞包括概念的屬性或者概念之間的關(guān)系; 步驟S2,基于歸并處理后得到的概念元組集合,得到不同類型謂詞的鏈接路徑,以及相應(yīng)的邏輯規(guī)則集合; 步驟S3,對(duì)所述邏輯規(guī)則集合進(jìn)行初步篩選,獲得候選規(guī)則集合; 步驟S4,基于深層和積網(wǎng)絡(luò)(Sum-Product Network, SPN)得到用來(lái)計(jì)算所述候選規(guī)則集合不確定性的深層概率圖模型,繼而得到賦值權(quán)重的邏輯規(guī)則集合,即馬爾可夫邏輯網(wǎng)絡(luò),并存儲(chǔ)于規(guī)則庫(kù)中; 步驟S5,利用漢語(yǔ)分詞技術(shù)將待處理數(shù)據(jù)轉(zhuǎn)化為詞語(yǔ)的有序元組,并且每個(gè)詞語(yǔ)都具有相應(yīng)的詞性標(biāo)注,再結(jié)合基本的句式結(jié)構(gòu)提取得到結(jié)構(gòu)化元組; 步驟S6,將所述步驟S5得到的所有結(jié)構(gòu)化元組中的實(shí)例分別映射到層次化概念空間中,依據(jù)實(shí)例所屬概念,以及謂詞對(duì)應(yīng)的概念搭配,對(duì)結(jié)構(gòu)化元組中的實(shí)例和謂詞分別進(jìn)行語(yǔ)義標(biāo)識(shí); 步驟S7,基于所述步驟S6得到的語(yǔ)義標(biāo)識(shí)結(jié)果,生成待推理的有標(biāo)識(shí)結(jié)構(gòu)化元組,即目標(biāo)元組; 步驟S8,對(duì)所述步驟S7得到的目標(biāo)元組進(jìn)行語(yǔ)義泛化,并將泛化后產(chǎn)生的結(jié)構(gòu)化元組與原目標(biāo)元組一起形成目標(biāo)元組集合; 步驟S9,基于所述步驟S8得到的目標(biāo)元組集合,對(duì)規(guī)則庫(kù)中的邏輯規(guī)則進(jìn)行有效的激活,對(duì)事實(shí)庫(kù)中的結(jié)構(gòu)化元組以及上下文知識(shí)進(jìn)行有效的激活,所述上下文知識(shí)為所述步驟S5中得到的結(jié)構(gòu)化元組中的非目標(biāo)元組集合,得到邏輯規(guī)則集合和支撐后續(xù)推理的證據(jù)元組集合; 步驟S10,基于所述步驟S9中激活得到的證據(jù)元組集合,對(duì)所述步驟S9得到的邏輯規(guī)則集合進(jìn)行實(shí)例化,同時(shí)計(jì)算所述目標(biāo)元組成立的條件概率,得到待處理數(shù)據(jù)的最終處理結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟SI進(jìn)一步包括以下步驟: 步驟S11,根據(jù)所涉及謂詞的不同將所述概念元組集合劃分為若干子集T ; 步驟S12,為每個(gè)子集T設(shè)置候選集r來(lái)記錄歸并處理過(guò)程中產(chǎn)生的中間結(jié)果,最終得到歸并后的概念元組集合,所述歸并為給定任意兩個(gè)具有相同謂詞的元組Yi和Yj,逐步掃描每個(gè)元組的語(yǔ)法成分,如果這些語(yǔ)法成分所對(duì)應(yīng)的兩個(gè)概念都具有上下位關(guān)系,則將下位概念分別替換為相應(yīng)的上位概念。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S2進(jìn)一步包括以下步驟: 步驟S21,對(duì)于歸并處理后得到的概念元組集合f,令候選集r=f,從r中選取概念元組Y并添加到空路徑中,同時(shí)令r = r-{Y}; 步驟S22,從所述概念元組集合f中搜索與當(dāng)前路徑中已有概念元組具有鏈接概念對(duì)的元組,將搜索到的概念元組遞歸地添加到當(dāng)前路徑中,直至鏈接路徑達(dá)到預(yù)定義最大長(zhǎng)度或者再無(wú)新的概念元組添加; 步驟S23,利用邏輯運(yùn)算符將得到的鏈接路徑中的各個(gè)概念元組關(guān)聯(lián)起來(lái),得到多種邏輯規(guī)則; 步驟S24,重復(fù)所述步驟S21-S23,直到r = 0,得到多條鏈接路徑以及相應(yīng)的多種邏輯規(guī)則,組成邏輯規(guī)則集合。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S3進(jìn)一步包括以下步驟: 步驟S31,將所述邏輯規(guī)則集合中的每條邏輯規(guī)則進(jìn)行實(shí)例化,使得所述邏輯規(guī)則中的每個(gè)實(shí)例結(jié)構(gòu)化元組與相應(yīng)的概念結(jié)構(gòu)化元組具有--映射關(guān)系; 步驟S32,基于事實(shí)庫(kù)中的結(jié)構(gòu)化元組集合,統(tǒng)計(jì)實(shí)例化邏輯規(guī)則前提成立的次數(shù)及其前提和結(jié)論同時(shí)成立的次數(shù),然后基于兩者的比值得到評(píng)測(cè)所述邏輯規(guī)則成立的置信度,并且將置信度超過(guò)某個(gè)給定閾值的邏輯規(guī)則篩選出來(lái),得到候選規(guī)則集合。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S4進(jìn)一步包括以下步驟: 步驟S41,將所述候選規(guī)則集合分解為大量不相交的候選規(guī)則子集; 步驟S42,針對(duì)每個(gè)候選規(guī)則子集R={Rb:b=l,2,...,n},其中,Rb表示候選規(guī)則子集R中的第b個(gè)候選規(guī)則,令X={Xb:b=l,2,...,n}表示二值隨機(jī)變量的集合,其中變量Xb取值為I對(duì)應(yīng)規(guī)則Rb取值為真的某實(shí)例化,取值為O對(duì)應(yīng)規(guī)則Rb取值為假的某實(shí)例化,這些變量分別作為SPN的終端結(jié)點(diǎn),SPN中,求和與求積結(jié)點(diǎn)交替排列,其中求和結(jié)點(diǎn)的子結(jié)點(diǎn)為求積或者終端結(jié)點(diǎn),同時(shí)邊上賦值非負(fù)參數(shù)w,而所有求積結(jié)點(diǎn)的子結(jié)點(diǎn)為求和,同時(shí)邊上賦值的默認(rèn)參數(shù)均為I ; 步驟S43,基于候選規(guī)則子集R中所涉及的語(yǔ)義謂詞從事實(shí)庫(kù)中篩選得到相關(guān)的結(jié)構(gòu)化元組,用來(lái)對(duì)R中的邏輯規(guī)則進(jìn)行實(shí)例化; 步驟S44,估計(jì)非負(fù)參數(shù)W,最終得到計(jì)算所述候選規(guī)則集合不確定性的深層概率圖模型,繼而得到賦值權(quán)重的邏輯規(guī)則集合,即馬爾可夫邏輯網(wǎng)絡(luò),并存儲(chǔ)于規(guī)則庫(kù)中。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S6進(jìn)一步包括以下步驟: 步驟S61,針對(duì)所述結(jié)構(gòu)化元組中具有屬性信息的實(shí)例,利用歸納決策樹模型實(shí)現(xiàn)實(shí)例的層次概念化,該模型通過(guò)保證聚類內(nèi)方差最小為準(zhǔn)則啟發(fā)式地選擇合適的屬性作為分割點(diǎn),從而得到上述實(shí)例的若干候選概念; 步驟S62,針對(duì)所述結(jié)構(gòu)化元組中不具有屬性信息的實(shí)例,在多元謂詞及其所在元組的其他實(shí)例的概念約束下,通過(guò)本體庫(kù)中賦值權(quán)重的概念元組集合來(lái)判斷該實(shí)例可能的候選概念; 步驟S63,基于上述實(shí)例的候選概念,對(duì)所述結(jié)構(gòu)化元組進(jìn)行一對(duì)多概念映射; 步驟S64,基于本體庫(kù)中有標(biāo)識(shí)的概念元組,對(duì)所述步驟S63產(chǎn)生的概念元組進(jìn)行標(biāo)識(shí)對(duì)齊,并對(duì)相應(yīng)結(jié)構(gòu)化元組進(jìn)行語(yǔ)義標(biāo)識(shí)。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述語(yǔ)義泛化包括謂詞、實(shí)例和概念三個(gè)層面,所述步驟S8進(jìn)一步包括以下步驟:步驟S81,將所述目標(biāo)元組中無(wú)規(guī)則支持的謂詞泛化為具有相同概念搭配的同義謂詞; 步驟S82,將所述目標(biāo)元組中有概念但無(wú)證據(jù)的實(shí)例泛化為同一概念下的若干相近實(shí)例; 步驟S83,將所述目標(biāo)元組中有謂詞但無(wú)實(shí)例的概念泛化為相同謂詞約束下的若干相近并且存在實(shí)例描述的概念。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S9進(jìn)一步包括以下步驟: 步驟S91,根據(jù)所述目標(biāo)元組中的謂詞,在規(guī)則庫(kù)中循環(huán)提取規(guī)則子集; 步驟S92,對(duì)所提取的規(guī)則子集進(jìn)行啟發(fā)式過(guò)濾得到過(guò)濾后的規(guī)則子集,并構(gòu)成局部馬爾可夫邏輯網(wǎng)絡(luò); 步驟S93,基于所述步驟S92得到的規(guī)則子集,提取其中所有謂詞,并從事實(shí)庫(kù)中提取包含這些謂詞的所有結(jié)構(gòu)化元組; 步驟S94,對(duì)所述步驟S93所提取得到的結(jié)構(gòu)化元組集合進(jìn)行啟發(fā)式過(guò)濾,并將得到的結(jié)構(gòu)化元組作為證據(jù)元組的一部分; 步驟S95,生成所述目標(biāo)元組的上下文知識(shí),作為證據(jù)元組的一部分。
9.一種結(jié)合知識(shí)庫(kù)的深層數(shù)據(jù)處理系統(tǒng),其特征在于,該系統(tǒng)包括結(jié)構(gòu)化模塊、概念化模塊、目標(biāo)生成模塊、泛化模塊、激活模塊和概率計(jì)算模塊,其中: 所述結(jié)構(gòu)化模塊用來(lái)生成非結(jié)構(gòu)化文本的結(jié)構(gòu)化表示; 所述概念化模塊與所述結(jié)構(gòu)化模塊連接,用于將所述結(jié)構(gòu)化模塊得到的結(jié)構(gòu)化元組分別映射到本體庫(kù)中對(duì)應(yīng)的概念元組上; 所述目標(biāo)生成模塊與所述概念化模塊連接,用于基于所述結(jié)構(gòu)化和概念元組,根據(jù)待求解的應(yīng)用問(wèn)題,產(chǎn)生待推理的目標(biāo)元組; 所述泛化模塊與所述目標(biāo)生 成模塊連接,用于從謂詞、實(shí)例和概念三個(gè)層面實(shí)現(xiàn)對(duì)所述目標(biāo)元組的語(yǔ)義泛化,用來(lái)解決知識(shí)庫(kù)不完備的情況; 所述激活模塊用于生成支持高效率推理的證據(jù)元組和邏輯規(guī)則; 所述概率計(jì)算模塊用于根據(jù)所述激活模塊生成的邏輯規(guī)則和證據(jù)集合,對(duì)于相應(yīng)的局部馬爾可夫邏輯網(wǎng)絡(luò)進(jìn)行實(shí)例化,實(shí)現(xiàn)對(duì)目標(biāo)元組及其泛化結(jié)果的條件概率計(jì)算,并將最終的數(shù)據(jù)處理結(jié)果進(jìn)行輸出。
10.根據(jù)權(quán)利要求9所述的系統(tǒng),其特征在于, 所述結(jié)構(gòu)化模塊由漢語(yǔ)分詞、詞性標(biāo)注和句式分析三個(gè)子模塊構(gòu)成,其中:漢語(yǔ)分詞子模塊用于將待處理數(shù)據(jù)轉(zhuǎn)化為詞語(yǔ)的有序元組;詞性標(biāo)注子模塊用于對(duì)有序元組中的每個(gè)詞語(yǔ)進(jìn)行詞性標(biāo)注;句式分析子模塊用于基于有詞性標(biāo)注的有序元組,實(shí)現(xiàn)結(jié)構(gòu)化元組的抽??;和/或 所述概念化模塊包括實(shí)例概念識(shí)別、概念元組生成和概念元組標(biāo)識(shí)三個(gè)子模塊,其中:實(shí)例概念識(shí)別子模塊用于對(duì)所述結(jié)構(gòu)化元組中出現(xiàn)的所有實(shí)例進(jìn)行一對(duì)多的概念映射;概念元組生成子模塊用于基于所述映射關(guān)系,獲得所述結(jié)構(gòu)化元組對(duì)應(yīng)的概念化表達(dá);所述概念元組標(biāo)識(shí)子模塊用于基于本體庫(kù),完成上述概念化表達(dá)的對(duì)齊和標(biāo)識(shí);和/或所述泛化模塊由謂詞泛化、實(shí)例泛化和概念泛化三個(gè)子模塊構(gòu)成;和/或所述激活模塊由上下文知識(shí)激活、邏輯規(guī)則激活和事實(shí)激活三個(gè)子模塊構(gòu)成,其中,上下文知識(shí)激活子模塊用于將所述結(jié)構(gòu)化和概念化模塊生成的非目標(biāo)元組進(jìn)行激活并視為證據(jù)集合的一部分;邏輯規(guī)則激活子模塊用于基于目標(biāo)元組及其泛化結(jié)果,對(duì)規(guī)則庫(kù)中的邏輯規(guī)則進(jìn)行啟發(fā)式過(guò)濾;事實(shí)激活子模塊用于基于篩選得到的邏輯規(guī)則,從事實(shí)庫(kù)中篩選得到部分結(jié)構(gòu)化元組并作為證據(jù)集合的一部分。
【文檔編號(hào)】G06F17/30GK103500208SQ201310459692
【公開日】2014年1月8日 申請(qǐng)日期:2013年9月30日 優(yōu)先權(quán)日:2013年9月30日
【發(fā)明者】郝紅衛(wèi), 孫正雅, 梁倩, 王桂香 申請(qǐng)人:中國(guó)科學(xué)院自動(dòng)化研究所