專利名稱:一種基于置信度驗(yàn)證元組的控制方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語言處理、數(shù)據(jù)挖掘、數(shù)據(jù)存儲(chǔ)、數(shù)據(jù)的高可靠性計(jì)算等技術(shù)領(lǐng)域,具體來說,是一種基于互聯(lián)網(wǎng)的用于驗(yàn)證關(guān)系元組正確性的實(shí)用方法。
背景技術(shù):
近年來,互聯(lián)網(wǎng)以超乎想象的速度迅速發(fā)展,各種信息和數(shù)據(jù)陸續(xù)登陸互聯(lián)網(wǎng)。尤其是最近一段時(shí)間以來,互聯(lián)網(wǎng)逐漸成為了信息的源頭。然而,數(shù)據(jù)的極大豐富并不只是為人們的生產(chǎn)、生活和學(xué)習(xí)帶來便利,同時(shí)帶來的還有信息的冗余和查找數(shù)據(jù)的困難。因此,研究互聯(lián)網(wǎng)的數(shù)據(jù),并快速地為讀者提供其感興趣的信息成為了一個(gè)熱門的研究領(lǐng)域。自然語言處理是解決此類問題的關(guān)鍵研究領(lǐng)域,而自然語言處理技術(shù)是解決此類問題的核心技術(shù)。目前,監(jiān)督的學(xué)習(xí)算法、半監(jiān)督的學(xué)習(xí)算法、無監(jiān)督的學(xué)習(xí)算法、核方法和·基于統(tǒng)計(jì)的方法是研究的主流,廣泛地用于各種實(shí)驗(yàn)項(xiàng)目和應(yīng)用項(xiàng)目。通常來說,這些算法都有其優(yōu)點(diǎn)和不足,算法的整合通常能帶來實(shí)驗(yàn)和應(yīng)用效果的改善。關(guān)系挖掘是自然語言處理中的一個(gè)子任務(wù),其主要用于挖掘?qū)嶓w之間的關(guān)系。目前,關(guān)于關(guān)系挖掘的研究主要集中在尋找合適的挖掘算法。由于自然語言的復(fù)雜性,目前,還沒有一個(gè)公認(rèn)的完備的方法被所有研究者所認(rèn)可。因此,各種用于關(guān)系挖掘的算法都不能保證輸出元組的正確性。本文提出的基于互聯(lián)網(wǎng)的關(guān)系元組驗(yàn)證方法是用于驗(yàn)證元組正確性的算法。其實(shí)施的先決條件是信息的冗余。該方法通過為人工提供的種子元組構(gòu)建標(biāo)準(zhǔn)模板庫,并為待驗(yàn)證的元組構(gòu)建待驗(yàn)證模板庫來進(jìn)行關(guān)系元組的驗(yàn)證。因此,自然語言處理中的半監(jiān)督學(xué)習(xí)算法是其基本的構(gòu)建原理。同時(shí),該方法還運(yùn)用了數(shù)據(jù)挖掘技術(shù),數(shù)據(jù)存儲(chǔ)技術(shù)等基礎(chǔ)技術(shù)。通過為關(guān)系元組提供驗(yàn)證,有效地提高了輸出元組集合的正確率,改善了信息查詢精度和質(zhì)量。
發(fā)明內(nèi)容
針對(duì)現(xiàn)有關(guān)系挖掘研究中,僅注重尋找關(guān)系挖掘算法,忽略關(guān)系元組驗(yàn)證的不足,本發(fā)明旨在提出一種通用的面向互聯(lián)網(wǎng)的關(guān)系元組驗(yàn)證方法。根據(jù)本發(fā)明的一個(gè)方面,提供面向互聯(lián)網(wǎng)的關(guān)系元組驗(yàn)證方法,包括獲取模板的原理、獲取模板的方法、元組驗(yàn)證的方法,其中,獲取模板的原理包括進(jìn)行元組驗(yàn)證的先決條件,應(yīng)用的環(huán)境和進(jìn)行元組驗(yàn)證的基本理論基礎(chǔ);獲取模板的方法包括如何獲得元組的共現(xiàn)句,如何掃描和獲取模板;元組驗(yàn)證的方法包括,進(jìn)行模板匹配的方法,根據(jù)元組的置信度,判斷元組的正確性,以及更新種子模板庫。根據(jù)本發(fā)明的另一個(gè)方面,還提供一種在關(guān)系數(shù)據(jù)挖掘系統(tǒng)中基于置信度驗(yàn)證元組的控制方法,其特征在于,包括如下步驟a.提取待驗(yàn)證元組的最小覆蓋模板集;b.根據(jù)待驗(yàn)證元組的最小覆蓋模板集以及標(biāo)準(zhǔn)模板庫計(jì)算待驗(yàn)證元組的置信度;c.根據(jù)所述置信度確定所述待驗(yàn)證元組是否可信;以及d.根據(jù)確定為可信元組的待驗(yàn)證元組的最小覆蓋模板集更新所述標(biāo)準(zhǔn)模板庫。
根據(jù)本發(fā)明的另一個(gè)方面,還提供一種面向互聯(lián)網(wǎng)的關(guān)系元組驗(yàn)證方法,包括獲取模板的原理、獲取模板的方法和驗(yàn)證的方法,其特征在于,獲取模板的原理用于介紹進(jìn)行元組驗(yàn)證的條件、應(yīng)用環(huán)境和獲取模板的理論依據(jù)和原理;獲取模板的方法用于在原理的基礎(chǔ)上抽取合適的用于驗(yàn)證元組的模板,并向驗(yàn)證方法進(jìn)行模板輸送;元組驗(yàn)證的方法用于接收模板,并將由待驗(yàn)證元組生成的模板與由種子元組生成的模板進(jìn)行匹配,根據(jù)置信度判斷元組的正確性,最后,根據(jù)新產(chǎn)生的正確的元組生成的模板更新標(biāo)準(zhǔn)模板庫。優(yōu)選地,所述獲取模板的原理包括元組由一對(duì)實(shí)體關(guān)鍵詞和表示其關(guān)系的關(guān)系關(guān)鍵詞組成,進(jìn)行元組驗(yàn)證的前提條件是信息冗余,實(shí)現(xiàn)元組驗(yàn)證的應(yīng)用環(huán)境是開放的互聯(lián)網(wǎng)及廣泛使用的搜索引擎,獲取模板的原理是關(guān)系元組的文本最小覆蓋;所述獲取模板的方法包括得到關(guān)系元組的共現(xiàn)句的方法,對(duì)共現(xiàn)句進(jìn)行掃描和處理,得到用于驗(yàn)證元組正確性的模板的方法;所述驗(yàn)證的方法包括將由待驗(yàn)證元組生成的模板與由種子元組生成的模板進(jìn)行完全匹配,得出待驗(yàn)證元組的置信度,并根據(jù)其置信度判斷元組的正確性,最后,根據(jù)驗(yàn)證得到的新元組產(chǎn)生的模板更新標(biāo)準(zhǔn)模板庫。 優(yōu)選地,獲取模板的方法根據(jù)獲取模板的原理,生成用于驗(yàn)證的模板,驗(yàn)證的方法根據(jù)得到的模板對(duì)相應(yīng)的元組進(jìn)行置信度的計(jì)算,并更新標(biāo)準(zhǔn)模板庫。優(yōu)選地,關(guān)系元組由兩個(gè)實(shí)體關(guān)鍵詞和一個(gè)關(guān)系關(guān)鍵詞組成,具有如下結(jié)構(gòu)〈實(shí)體1,實(shí)體2,關(guān)系關(guān)鍵詞>。優(yōu)選地,獲取模板的原理指出,信息冗余是進(jìn)行關(guān)系元組驗(yàn)證的先決條件,開放的互聯(lián)網(wǎng)和搜索引擎是獲取相關(guān)信息的主要途徑。優(yōu)選地,覆蓋關(guān)系元組的最小文本片段,簡(jiǎn)稱最小覆蓋是面向互聯(lián)網(wǎng)的關(guān)系元組驗(yàn)證方法的模板獲取原理。優(yōu)選地,得到元組共現(xiàn)句的方法是將關(guān)系元組輸入搜索引擎,并得到所有包含元組的自然句。優(yōu)選地,對(duì)共現(xiàn)句進(jìn)行掃描和處理,得到驗(yàn)證模板,掃描共現(xiàn)句的方法是首先進(jìn)行前向掃描,之后,再對(duì)共現(xiàn)句進(jìn)行一次后向掃描。優(yōu)選地,初始標(biāo)準(zhǔn)模板庫由種子元組產(chǎn)生,由至少包含一個(gè)種子元組的最小覆蓋模板組成。優(yōu)選地,模板的匹配方法是完全匹配,當(dāng)且僅當(dāng)兩個(gè)模板完全一致時(shí),稱為一次有效匹配,否則稱為一次失配,失配對(duì)元組置信度的貢獻(xiàn)為O。優(yōu)選地,正確元組是其置信度值大于一個(gè)經(jīng)驗(yàn)閾值的元組。優(yōu)選地,根據(jù)新產(chǎn)生的正確元組的最小覆蓋模板更新標(biāo)準(zhǔn)模板庫。優(yōu)選地,模板庫的更新主要是更新模板的權(quán)重及添加新模板。優(yōu)選地,模板權(quán)重由其統(tǒng)計(jì)值表示。本發(fā)明以手工輸入的元組作為種子元組,以機(jī)器學(xué)習(xí)方法產(chǎn)生的元組作為待驗(yàn)證的對(duì)象,自動(dòng)地為種子和待驗(yàn)證元組構(gòu)建模板,并對(duì)待驗(yàn)證元組進(jìn)行評(píng)價(jià)。最后,本方法輸出置信度大于確定實(shí)驗(yàn)閾值的元組。
通過閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯圖I示出根據(jù)本發(fā)明的第一實(shí)施例的,一種在關(guān)系數(shù)據(jù)挖掘系統(tǒng)中基于置信度驗(yàn)證元組的控制方法的流程圖;圖2示出根據(jù)本發(fā)明的第一實(shí)施例的 ,生成所述標(biāo)準(zhǔn)模板庫的流程圖;圖3示出根據(jù)本發(fā)明的第一實(shí)施例的,生成所述最小覆蓋模板的流程圖;以及圖4示出根據(jù)本發(fā)明的第一實(shí)施例的,更新所述標(biāo)準(zhǔn)模板庫的的流程圖。
具體實(shí)施例方式本發(fā)明公開了一種基于互聯(lián)網(wǎng)的用于驗(yàn)證元組正確性的方法,這種方法不需要大量的人工參與,僅需要人工提供少量的種子元組,并具有較高的準(zhǔn)確性、可靠性和通用性。本發(fā)明充分利用了互聯(lián)網(wǎng)上的信息具有冗余性的特點(diǎn),同時(shí),充分地利用了以下的自然語言處理法則,即在相似上下文中出現(xiàn)的元組對(duì)傾向于具有相同的語義關(guān)系。因此,本發(fā)明采用互聯(lián)網(wǎng)和搜索引擎作為數(shù)據(jù)源。眾所周知,搜索引擎具有排序與搜索關(guān)鍵詞相關(guān)的網(wǎng)頁信息的能力,并且,搜索引擎返回的數(shù)據(jù)在一定程度上做到了差異性與冗余性相結(jié)合要求。差異性是指返回的數(shù)據(jù)應(yīng)該相互區(qū)別,即,返回的數(shù)據(jù)不能具有表述的一致性;冗余性是指返回的數(shù)據(jù)不應(yīng)具備相互獨(dú)立性,數(shù)據(jù)的出現(xiàn)頻率應(yīng)與其通用性成正比。搜索引擎返回的數(shù)據(jù)基本達(dá)到了差異性與冗余性的平衡。本發(fā)明主要利用淺層句法信息,不依賴于句法分析器和分詞軟件,完全獨(dú)立運(yùn)行,運(yùn)行效率高,并且不受關(guān)系類型的限制,具有比較高的準(zhǔn)確率和召回率。本發(fā)明對(duì)返回的包含元組對(duì)的自然句進(jìn)行掃描,找出元組對(duì)與關(guān)系關(guān)鍵詞的邊界,并將包含元組對(duì)和關(guān)系關(guān)鍵詞的最小文本片段從自然句中切割出來。本發(fā)明根據(jù)新產(chǎn)生的正確元組對(duì)的集合對(duì)標(biāo)準(zhǔn)模板庫進(jìn)行更新。在更新的過程中,充分考慮了新舊模板的權(quán)重,因此,保證了標(biāo)準(zhǔn)模板庫的權(quán)威性與準(zhǔn)確性,從而也保證了新產(chǎn)生的正確元組的正確性。通過閱讀參照以下附圖對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本發(fā)明的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯圖I示出根據(jù)本發(fā)明的第一實(shí)施例的,一種在關(guān)系數(shù)據(jù)挖掘系統(tǒng)中基于置信度驗(yàn)證元組的控制方法的流程圖。具體地說,圖I包括四個(gè)方面的內(nèi)容,標(biāo)準(zhǔn)模板庫的構(gòu)建與待驗(yàn)證元組的模板庫的構(gòu)建,元組置信度的計(jì)算和標(biāo)準(zhǔn)模板庫的更新。具體地,標(biāo)準(zhǔn)模板庫的建立主要包括以下內(nèi)容手工建立少量種子元組。這些種子元組具有如下的構(gòu)成形式〈實(shí)體1,實(shí)體2,關(guān)系關(guān)鍵詞〉,對(duì)應(yīng)于圖I中的〈el, e2, keyword〉。由于這部分?jǐn)?shù)據(jù)是手工給定的,因此,能夠保證其正確性。并且,為了保證種子元組具有相應(yīng)實(shí)體關(guān)系的代表性,因此,知名度是一個(gè)隱性的要求。將種子元組對(duì)和關(guān)系關(guān)鍵詞組成查詢關(guān)鍵詞串投入搜索引擎中,獲取包含至少一個(gè)種子元組對(duì)及其關(guān)系關(guān)鍵詞的自然句。對(duì)返回的自然句進(jìn)行簡(jiǎn)單地處理,去掉其中多余的網(wǎng)頁標(biāo)簽,丟棄不規(guī)范的不具有可操作性的自然句。對(duì)自然句進(jìn)行前向掃描,找到種子詞對(duì)及其關(guān)系關(guān)鍵詞的邊界,將該子句從自然句中分離出來。對(duì)包含種子詞對(duì)及其關(guān)系關(guān)鍵詞的子句進(jìn)行后向掃描,將包含種子詞對(duì)及其關(guān)系關(guān)鍵詞的子子句從子句中分離出來。子子句是包含種子詞對(duì)及其關(guān)系關(guān)鍵詞的最小文本片段。該片段由于包含種子詞對(duì)及其關(guān)系關(guān)鍵詞,因此,不具有泛化能力。將種子詞對(duì)用特殊字符進(jìn)行替換,并將關(guān)系關(guān)鍵詞用另一個(gè)特征字符進(jìn)行替換,從而得到最終的最小覆蓋模板,統(tǒng)計(jì)每一個(gè)最小覆蓋模板的出現(xiàn)頻率,將用該頻率表示其權(quán)重。待驗(yàn)證的元組的最小覆蓋模板的構(gòu)建方法與種子元組的最小覆蓋模板的構(gòu)建方法相同。元組置信度的計(jì)算主要包括以下內(nèi)容由于標(biāo)準(zhǔn)模板庫中具有大量的模板,而其中大多數(shù)的模板并不具有泛化能力,因此,這部分模板對(duì)驗(yàn)證新元組的正確性沒有幫助。本方法提出標(biāo)準(zhǔn)模板的取舍比例,根據(jù)該比例,排序在前80%的模板對(duì)模板的計(jì)算具有貢獻(xiàn)性。
Ei--. Occur Iioi — 0.8
IiJL1 Occur_no.j其中,m,n分別代表模板子集和模板全集中模板的數(shù)量。而模板子集中,每個(gè)模板的權(quán)重由下式?jīng)Q定
^OccurjiOiWeighti = J=
S^i^/OccMrjiOj新元組的置信度由下面的公式?jīng)Q定
m _
EOccmjiQj
we5ghti
I P*一 ^其中,t表示待驗(yàn)證元組的模板集合中模板數(shù)量。在上面的所有公式中,0ccur_no表示單個(gè)模板的出現(xiàn)頻率。標(biāo)準(zhǔn)模板庫的更新主要包括以下內(nèi)容標(biāo)準(zhǔn)模板庫的更新主要更新標(biāo)準(zhǔn)模板的權(quán)重,在本發(fā)明中,單個(gè)模板的出現(xiàn)頻率由其已有權(quán)重及新出現(xiàn)頻率兩部分組成,并由以下公式進(jìn)行計(jì)算0ccur_nOi new = Occui^noi old*0. 8+P^O. 2該出現(xiàn)頻率表達(dá)式表明,單個(gè)模板的新出現(xiàn)頻率的構(gòu)成比例為8 :2,其中舊權(quán)重占80%。該比例保證了標(biāo)準(zhǔn)模板和驗(yàn)證正確的元組的正確性。圖2示出根據(jù)本發(fā)明的第一實(shí)施例的,生成所述標(biāo)準(zhǔn)模板庫的流程圖。具體地,本圖示出了 4個(gè)步驟。首先是步驟S301選取種子元組。之后是步驟S302提取所述種子元組的最小覆蓋模板集作為所述標(biāo)準(zhǔn)模板庫。步驟S303將所述最小覆蓋模板集中的最小覆蓋模板按頻數(shù)從大到小排序。最后通過步驟S304生成標(biāo)準(zhǔn)模板庫,其提取最小覆蓋模板集中頻數(shù)總和與最小覆蓋模板集中所有最小覆蓋模板頻數(shù)總和為第一比例排序最前的最小覆蓋模板及其頻數(shù)的集合作為所述標(biāo)準(zhǔn)模板庫。具體地,本領(lǐng)域技術(shù)人員理解種子元組的選擇優(yōu)選地滿足當(dāng)前關(guān)系的元組就可以。如下面的例子夫婦關(guān)系(姚明,葉莉,夫婦);總統(tǒng)關(guān)系(奧巴馬,美國,總統(tǒng));校長(zhǎng)關(guān)系(俞立中,華東師范大學(xué),校長(zhǎng))。適當(dāng)考慮知名度,因?yàn)?,知名度高的元組,通常來說,有利于后續(xù)抽取工作的展開。更具體地,本領(lǐng)域技術(shù)人員理解模板子集從本質(zhì)上來說,是對(duì)原模板集的一個(gè)精化,因?yàn)楹芏嗄0鍍H出現(xiàn)一次,不具有泛化的能力,因此,這個(gè)模板僅對(duì)一個(gè)元組是有用的,而對(duì)其余的元組是無效的,這種模板的存在,不但不能對(duì)其余的元組進(jìn)行驗(yàn)證,而且,會(huì)影響驗(yàn)證的效果,所以,在進(jìn)行驗(yàn)證之前,我們將這部分模板舍去,優(yōu)選地,我們?nèi)∏?0%的模板。如下面的例子Template_l 40Template_2 20Template_3 10Template_4 10Template_5 5Template_6 5 Template_7 2Template_8 2Template_9 2Template_10 2Template_ll ITemplate_12 I那么,我們?nèi)∏?0%,則只取模板I到模板5,后面的模板由于缺少泛化能力被舍去。圖3示出根據(jù)本發(fā)明的第一實(shí)施例的,生成所述最小覆蓋模板的流程圖。具體地,本圖示出了 5個(gè)步驟,首選是步驟S401將所述種子元組中的實(shí)體詞對(duì)及其關(guān)系關(guān)鍵詞作為關(guān)鍵詞輸入搜索引擎。步驟S402,獲取種子元組中的實(shí)體詞對(duì)及其關(guān)系關(guān)鍵詞的共現(xiàn)句。之后為步驟S403獲取所述實(shí)體詞對(duì)及其關(guān)系關(guān)鍵詞在所述共現(xiàn)句中的邊界,提取所述邊界內(nèi)的短句,并將所述實(shí)體詞對(duì)替換為第一特征字符,將所述關(guān)系關(guān)鍵詞替換為第二特征字符生成所述最小覆蓋模板。步驟S404從所述共現(xiàn)句中提取最小覆蓋模板并記錄每個(gè)最小覆蓋模板的頻數(shù)并計(jì)算其權(quán)重。最后為步驟S405,根據(jù)所有搜索結(jié)果生成所述最小覆蓋模板集。具體地,本領(lǐng)域技術(shù)人員理解,上述步驟S403所述的特征字符是指一些特殊的字符串,用以區(qū)分實(shí)體對(duì)及關(guān)系特征詞。如實(shí)體一用X替換,實(shí)體二用Y替換,實(shí)體關(guān)系關(guān)鍵詞用K替換。這里,X,Y,K就是特征字符。因此,這里的特征字符其實(shí)就是指替換實(shí)體及其關(guān)系關(guān)鍵詞的字符串,可以是一個(gè)字符,也可以是多個(gè)。這樣做的目的是為了避免分詞軟件將實(shí)體詞切分開。更具體地,本領(lǐng)域技術(shù)人員理解,由于實(shí)體之間的關(guān)系可以有多種表達(dá)方式,所述元組與最小覆蓋模板之間形成一對(duì)多的關(guān)系。如元組姚明,葉莉,夫婦經(jīng)過處理的共現(xiàn)句為,姚明和葉莉結(jié)為夫婦。其最小模板X和Y結(jié)為K。經(jīng)過處理的共現(xiàn)句姚明和葉莉夫婦一起出席了晚會(huì)。其最小模板X和YX。圖4示出根據(jù)本發(fā)明的第一實(shí)施例的,更新所述標(biāo)準(zhǔn)模板庫的的流程圖。具體地,本圖示出了 4個(gè)步驟。首先是步驟S501,根據(jù)確定為可信元組待驗(yàn)證元組的最小覆蓋模板集合更新所述標(biāo)準(zhǔn)模板庫中最小覆蓋模板的頻數(shù)。之后為步驟S502,根據(jù)所述最小覆蓋模板更新的頻數(shù)更新所述最小覆蓋模板的權(quán)重。步驟S503,將頻數(shù)更新后標(biāo)準(zhǔn)模板庫中的最小覆蓋模板按頻數(shù)從大到小排序。最后執(zhí)行步驟S504,提取更新后標(biāo)準(zhǔn)模板庫中頻數(shù)總和與更新后標(biāo)準(zhǔn)模板庫中所有最小覆蓋模板頻數(shù)總和為第一比例排序最前的最小覆蓋模板及其頻數(shù)的集合作為進(jìn)一步更新后的標(biāo)準(zhǔn)模板庫。具體地,最小覆蓋模板的新頻數(shù)的更新按照第二比例結(jié)合所述標(biāo)準(zhǔn)模板庫中的最小覆蓋模板的頻數(shù)以及根據(jù)待驗(yàn)證元組生成的最小覆蓋模板的頻數(shù)進(jìn)行更新。
以上對(duì)本發(fā)明的具體實(shí)施例進(jìn)行了描述。需要理解的是,本發(fā)明并不局限于上述特定實(shí)施方式,本領(lǐng)域技術(shù)人員可以在權(quán)利要求的范圍內(nèi)做出各種變形或修改,這并不影響本發(fā)明的實(shí)質(zhì)內(nèi)容。
權(quán)利要求
1.一種在關(guān)系數(shù)據(jù)挖掘系統(tǒng)中基于置信度驗(yàn)證元組的控制方法,其特征在于,包括如下步驟 a.提取待驗(yàn)證元組的最小覆蓋模板集; b.根據(jù)待驗(yàn)證元組的最小覆蓋模板集以及標(biāo)準(zhǔn)模板庫計(jì)算待驗(yàn)證元組的置信度;以及 c.根據(jù)所述置信度確定所述待驗(yàn)證元組是否可信。
2.根據(jù)權(quán)利要求I所述的控制方法,其特征在于,所述步驟c之后還包括如下步驟 d.根據(jù)確定為可信元組的待驗(yàn)證元組的最小覆蓋模板集更新所述標(biāo)準(zhǔn)模板庫。
3.根據(jù)權(quán)利要求I所述的控制方法,其特征在于,所述步驟a之前還包括如下步驟 i.選取種子元組;以及 ii.提取所述種子元組的最小覆蓋模板集作為所述標(biāo)準(zhǔn)模板庫。
4.根據(jù)權(quán)利要求I至3任一項(xiàng)所述的控制方法,其特征在于,所述最小覆蓋模板集至少包括所述最小覆蓋模板以及每個(gè)最小覆蓋模板的頻數(shù)。
5.根據(jù)權(quán)利要求3所述的控制方法,其特征在于,所述步驟ii之后還包括如下步驟 iii.將所述最小覆蓋模板集中的最小覆蓋模板按頻數(shù)從大到小排序; iv.提取最小覆蓋模板集中頻數(shù)總和與最小覆蓋模板集中所有最小覆蓋模板頻數(shù)總和為第一比例排序最前的最小覆蓋模板及其頻數(shù)的集合作為所述標(biāo)準(zhǔn)模板庫。
6.根據(jù)權(quán)利要求I至5任一項(xiàng)所述的控制方法,其特征在于,所述待驗(yàn)證元組以及所述種子元組至少包括實(shí)體一,實(shí)體二以及關(guān)系關(guān)鍵詞。
7.根據(jù)權(quán)利要求3所述的控制方法,其特征在于,所述步驟ii包括如下步驟 111.將所述種子元組中的實(shí)體詞對(duì)及其關(guān)系關(guān)鍵詞作為關(guān)鍵詞輸入搜索引擎; 112.獲取種子元組中的實(shí)體詞對(duì)及其關(guān)系關(guān)鍵詞的共現(xiàn)句; 113.從所述共現(xiàn)句中提取最小覆蓋模板并記錄每個(gè)最小覆蓋模板的頻數(shù)并計(jì)算其權(quán)重;以及 114.生成所述最小覆蓋模板集。
8.根據(jù)權(quán)利要求7所述的控制方法,其特征在于,所述步驟ii3還包括如下步驟 1131.獲取所述實(shí)體詞對(duì)及其關(guān)系關(guān)鍵詞在所述共現(xiàn)句中的邊界; 1132.提取所述邊界內(nèi)的短句;以及 ii32.將所述實(shí)體詞對(duì)替換為第一特征字符,將所述關(guān)系關(guān)鍵詞替換為第二特征字符生成所述最小覆蓋模板。
9.根據(jù)權(quán)利要求I至8任一項(xiàng)所述的控制方法,其特征在于,所述待驗(yàn)證元組的最小覆蓋模板集生成方法與所述種子元組的最小覆蓋模板集相同。
10.根據(jù)權(quán)利要求I所述的控制方法,其特征在于,所述步驟b包括如下步驟 bl.根據(jù)所述待驗(yàn)證元組最小覆蓋模板集以及所述標(biāo)準(zhǔn)模板庫中各最小覆蓋模板的相關(guān)頻數(shù)和權(quán)重;以及 b2.根據(jù)所述頻數(shù)和權(quán)重計(jì)算所述待驗(yàn)證元組的置信度。
11.根據(jù)權(quán)利要求10任一項(xiàng)所述的控制方法,其特征在于,所述待驗(yàn)證元組的置信度至少根據(jù)如下因子計(jì)算 -所述待驗(yàn)證元組最小覆蓋模板集中每個(gè)最小覆蓋模板的頻數(shù);-所述標(biāo)準(zhǔn)模板庫中每個(gè)最小覆蓋模板的頻數(shù);以及 -所述標(biāo)準(zhǔn)模板庫中每個(gè)最小覆蓋模板的權(quán)重。
12.根據(jù)權(quán)利要求11所述的控制方法,其特征在于,所述標(biāo)準(zhǔn)模板庫中每個(gè)最小覆蓋模板的權(quán)重至少根據(jù)如下因子計(jì)算 -所述標(biāo)準(zhǔn)模板庫中每個(gè)最小覆蓋模板的頻數(shù);以及 -所述標(biāo)準(zhǔn)模板庫中每個(gè)最小覆蓋模板的頻數(shù)總和。
13.根據(jù)權(quán)利要求I所述的控制方法,其特征在于,所述步驟c包括如下步驟 Cl.判斷所述置信度是否大于第一閾值; c2.若所述置信度大于所述第一閾值,則確定所述待驗(yàn)證元組為可信元組;以及 c3.若所述置信度不大于所述第一閾值,則確定所述待驗(yàn)證元組為不可信元組。
14.根據(jù)權(quán)利要求2所述的控制方法,其特征在于,所述步驟d包括如下步驟 dl.根據(jù)確定為可信元組待驗(yàn)證元組的最小覆蓋模板集合更新所述標(biāo)準(zhǔn)模板庫中最小覆蓋模板的頻數(shù);以及 d2.根據(jù)所述最小覆蓋模板更新的頻數(shù)更新所述最小覆蓋模板的權(quán)重。
15.根據(jù)權(quán)利要求14所述的控制方法,其特征在于,所述步驟d2之后還包括如下步驟 d3.將頻數(shù)更新后標(biāo)準(zhǔn)模板庫中的最小覆蓋模板按頻數(shù)從大到小排序;以及d4.提取更新后標(biāo)準(zhǔn)模板庫中頻數(shù)總和與更新后標(biāo)準(zhǔn)模板庫中所有最小覆蓋模板頻數(shù)總和為第一比例排序最前的最小覆蓋模板及其頻數(shù)的集合作為進(jìn)一步更新后的標(biāo)準(zhǔn)模板庫。
16.根據(jù)權(quán)利要求14所述的控制方法,其特征在于,所述步驟dl還包括如下步驟 dll.按照第二比例結(jié)合所述標(biāo)準(zhǔn)模板庫中的最小覆蓋模板的頻數(shù)以及根據(jù)待驗(yàn)證元組生成的最小覆蓋模板的頻數(shù)作為該最小覆蓋模板更新的頻數(shù)。
全文摘要
本發(fā)明提供一種在關(guān)系數(shù)據(jù)挖掘系統(tǒng)中基于置信度驗(yàn)證元組的控制方法,其特征在于,包括如下步驟a.提取待驗(yàn)證元組的最小覆蓋模板集;b.根據(jù)待驗(yàn)證元組的最小覆蓋模板集以及標(biāo)準(zhǔn)模板庫計(jì)算待驗(yàn)證元組的置信度;c.根據(jù)所述置信度確定所述待驗(yàn)證元組是否可信;以及d.根據(jù)確定為可信元組的待驗(yàn)證元組的最小覆蓋模板集更新所述標(biāo)準(zhǔn)模板庫。將互聯(lián)網(wǎng)和搜索引擎作為數(shù)據(jù)源,通過構(gòu)建種子元組的模板庫來進(jìn)行元組驗(yàn)證,并不斷地更新標(biāo)準(zhǔn)模板庫,以求提高元組驗(yàn)證的準(zhǔn)確率和召回率。實(shí)踐證明,該方法具有準(zhǔn)確率高、通用性強(qiáng)、效率高的特點(diǎn)。
文檔編號(hào)G06F17/30GK102968432SQ201210349679
公開日2013年3月13日 申請(qǐng)日期2012年9月19日 優(yōu)先權(quán)日2012年9月19日
發(fā)明者陳超, 林欣 申請(qǐng)人:華東師范大學(xué)