本發(fā)明涉及信息驗(yàn)證技術(shù)領(lǐng)域,特別涉及一種信息真?zhèn)悟?yàn)證方法及系統(tǒng)。
背景技術(shù):
當(dāng)前,隨著信息時(shí)代的迅速發(fā)展,人們可以從許多不同的數(shù)據(jù)源處獲取到自己所需的信息,其中,互聯(lián)網(wǎng)已經(jīng)逐漸成為當(dāng)前人們獲取數(shù)據(jù)的主要來(lái)源,現(xiàn)在許多數(shù)據(jù)管理應(yīng)用都會(huì)利用互聯(lián)網(wǎng)這一數(shù)據(jù)源來(lái)收集數(shù)據(jù),由此可為用戶提供便捷的數(shù)據(jù)服務(wù)。
然而,對(duì)于現(xiàn)實(shí)世界中同一個(gè)實(shí)體的同一種屬性,不同數(shù)據(jù)源針對(duì)該屬性的描述可能是不一樣的,在這種情況下,如何對(duì)信息的真?zhèn)芜M(jìn)行有效地辨別便成為了當(dāng)前亟需解決的問(wèn)題。
技術(shù)實(shí)現(xiàn)要素:
有鑒于此,本發(fā)明的目的在于提供一種信息真?zhèn)悟?yàn)證方法及系統(tǒng),能夠?qū)崿F(xiàn)對(duì)信息的真?zhèn)芜M(jìn)行有效地辨別的目的。其具體方案如下:
一種信息真?zhèn)悟?yàn)證方法,包括:
從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值,得到相應(yīng)的屬性值集合;
從所述屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,并將該屬性值確定為所述特定屬性的正確屬性值。
可選的,所述從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值的過(guò)程,包括:
利用信息抽取技術(shù),從不同的html網(wǎng)頁(yè)和/或xml網(wǎng)頁(yè)中抽取出與所述特定屬性對(duì)應(yīng)的三元組信息,得到與所述特定屬性對(duì)應(yīng)的三元組信息集合;其中,所述特定屬性對(duì)應(yīng)的三元組信息包括所述目標(biāo)實(shí)體的名稱、所述特征屬性的名稱以及所述特征屬性的屬性值;
將所述三元組信息集合中的所有屬性值提取出來(lái),得到所述屬性值集合。
可選的,所述從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值的過(guò)程,包括:
利用信息抽取技術(shù),從不同的html網(wǎng)頁(yè)和/或xml網(wǎng)頁(yè)中抽取出與所述目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息,得到與所述目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息集合;其中,所述目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息包括所述目標(biāo)實(shí)體的名稱、所述目標(biāo)實(shí)體的任一屬性的名稱以及該屬性對(duì)應(yīng)的屬性值;
從所述三元組信息集合中篩選出與所述特征屬性對(duì)應(yīng)的三元組信息,得到目標(biāo)三元組信息集合;
將所述目標(biāo)三元組信息集合中的所有屬性值提取出來(lái),得到所述屬性值集合。
可選的,所述從所述屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,并將該屬性值確定為所述特定屬性的正確屬性值的過(guò)程,包括:
分別對(duì)所述屬性值集合中相同屬性值出現(xiàn)的頻次進(jìn)行統(tǒng)計(jì),得到所述屬性值集合中每種屬性值對(duì)應(yīng)的出現(xiàn)頻次;
將出現(xiàn)頻次最多的屬性值確定為所述特定屬性的正確屬性值。
可選的,所述從所述屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,并將該屬性值確定為所述特定屬性的正確屬性值的過(guò)程,包括:
對(duì)所述屬性值集合進(jìn)行分組處理,得到多組屬性值;其中,每組屬性值中的屬性值均相同;
將所述多組屬性值中屬性值數(shù)量最多的一組屬性值確定為目標(biāo)組;
將與所述目標(biāo)組對(duì)應(yīng)的屬性值確定為所述特定屬性的正確屬性值。
本發(fā)明還公開(kāi)了一種信息真?zhèn)悟?yàn)證系統(tǒng),包括:
屬性值選取模塊,用于從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值,得到相應(yīng)的屬性值集合;
正確屬性值確定模塊,用于從所述屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,并將該屬性值確定為所述特定屬性的正確屬性值。
可選的,所述屬性值選取模塊,包括:
第一信息抽取單元,用于利用信息抽取技術(shù),從不同的html網(wǎng)頁(yè)和/或xml網(wǎng)頁(yè)中抽取出與所述特定屬性對(duì)應(yīng)的三元組信息,得到與所述特定屬性對(duì)應(yīng)的三元組信息集合;其中,所述特定屬性對(duì)應(yīng)的三元組信息包括所述目標(biāo)實(shí)體的名稱、所述特征屬性的名稱以及所述特征屬性的屬性值;
第一提取單元,用于將所述三元組信息集合中的所有屬性值提取出來(lái),得到所述屬性值集合。
可選的,所述屬性值選取模塊,包括:
第二信息抽取單元,用于利用信息抽取技術(shù),從不同的html網(wǎng)頁(yè)和/或xml網(wǎng)頁(yè)中抽取出與所述目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息,得到與所述目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息集合;其中,所述目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息包括所述目標(biāo)實(shí)體的名稱、所述目標(biāo)實(shí)體的任一屬性的名稱以及該屬性對(duì)應(yīng)的屬性值;
信息篩選單元,用于從所述三元組信息集合中篩選出與所述特征屬性對(duì)應(yīng)的三元組信息,得到目標(biāo)三元組信息集合;
第二提取單元,用于將所述目標(biāo)三元組信息集合中的所有屬性值提取出來(lái),得到所述屬性值集合。
可選的,所述正確屬性值確定模塊,包括:
頻次統(tǒng)計(jì)單元,用于分別對(duì)所述屬性值集合中相同屬性值出現(xiàn)的頻次進(jìn)行統(tǒng)計(jì),得到所述屬性值集合中每種屬性值對(duì)應(yīng)的出現(xiàn)頻次;
第一屬性值確定單元,用于將出現(xiàn)頻次最多的屬性值確定為所述特定屬性的正確屬性值。
可選的,所述正確屬性值確定模塊,包括:
分組單元,用于對(duì)所述屬性值集合進(jìn)行分組處理,得到多組屬性值;其中,每組屬性值中的屬性值均相同;
目標(biāo)組確定單元,用于將所述多組屬性值中屬性值數(shù)量最多的一組屬性值確定為目標(biāo)組;
第二屬性值確定單元,用于將與所述目標(biāo)組對(duì)應(yīng)的屬性值確定為所述特定屬性的正確屬性值。
本發(fā)明中,信息真?zhèn)悟?yàn)證方法,包括:從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值,得到相應(yīng)的屬性值集合;從屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,并將該屬性值確定為特定屬性的正確屬性值。
可見(jiàn),本發(fā)明從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值之后,將會(huì)從上述得到的屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,由于該屬性值在上述屬性值集合中出現(xiàn)的次數(shù)最多,則意味著該屬性值最為公眾所認(rèn)可和采用,所以本發(fā)明便將該屬性值確定為上述特定屬性的正確屬性值,從而有利于大幅提升最終篩選到的信息的準(zhǔn)確性,也即,本發(fā)明能夠?qū)崿F(xiàn)對(duì)信息的真?zhèn)芜M(jìn)行有效地辨別,從而提升采集到的信息的準(zhǔn)確性。
附圖說(shuō)明
為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本發(fā)明實(shí)施例公開(kāi)的一種信息真?zhèn)悟?yàn)證方法流程圖;
圖2為本發(fā)明實(shí)施例公開(kāi)的一種具體的信息真?zhèn)悟?yàn)證方法流程圖;
圖3為本發(fā)明實(shí)施例公開(kāi)的一種具體的信息真?zhèn)悟?yàn)證方法流程圖;
圖4為本發(fā)明實(shí)施例公開(kāi)的一種信息真?zhèn)悟?yàn)證系統(tǒng)結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
本發(fā)明實(shí)施例公開(kāi)了一種信息真?zhèn)悟?yàn)證方法,參見(jiàn)圖1所示,該方法包括:
步驟s11:從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值,得到相應(yīng)的屬性值集合。
可以理解的是,本發(fā)明實(shí)施例中的數(shù)據(jù)源可以是互聯(lián)網(wǎng),當(dāng)然也可以是各種圖書(shū)、報(bào)刊等數(shù)據(jù)源。
步驟s12:從屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,并將該屬性值確定為特定屬性的正確屬性值。
可見(jiàn),本發(fā)明實(shí)施例從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值之后,將會(huì)從上述得到的屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,由于該屬性值在上述屬性值集合中出現(xiàn)的次數(shù)最多,則意味著該屬性值最為公眾所認(rèn)可和采用,所以本發(fā)明實(shí)施例便將該屬性值確定為上述特定屬性的正確屬性值,從而有利于大幅提升最終篩選到的信息的準(zhǔn)確性,也即,本發(fā)明實(shí)施例能夠?qū)崿F(xiàn)對(duì)信息的真?zhèn)芜M(jìn)行有效地辨別,從而提升采集到的信息的準(zhǔn)確性。
參見(jiàn)圖2所示,本發(fā)明實(shí)施例公開(kāi)了一種具體的信息真?zhèn)悟?yàn)證方法,包括如下步驟s21至s23:
步驟s21:利用信息抽取技術(shù),從不同的html網(wǎng)頁(yè)和/或xml網(wǎng)頁(yè)中抽取出與特定屬性對(duì)應(yīng)的三元組信息,得到與特定屬性對(duì)應(yīng)的三元組信息集合;其中,特定屬性對(duì)應(yīng)的三元組信息包括目標(biāo)實(shí)體的名稱、特征屬性的名稱以及特征屬性的屬性值。
例如,假設(shè)上述目標(biāo)實(shí)體是“美國(guó)”,上述特定屬性是“首都”,則與上述特定屬性對(duì)應(yīng)的正確的屬性值應(yīng)該為“華盛頓”,然而,可能在某些數(shù)據(jù)源中顯示的與上述特定屬性對(duì)應(yīng)的屬性值并非是“華盛頓”,而是“紐約”,此時(shí)該屬性值便是錯(cuò)誤的。
步驟s22:將三元組信息集合中的所有屬性值提取出來(lái),得到屬性值集合。
步驟s23:分別對(duì)屬性值集合中相同屬性值出現(xiàn)的頻次進(jìn)行統(tǒng)計(jì),得到屬性值集合中每種屬性值對(duì)應(yīng)的出現(xiàn)頻次,然后將出現(xiàn)頻次最多的屬性值確定為特定屬性的正確屬性值。
參見(jiàn)圖3所示,本發(fā)明實(shí)施例公開(kāi)了一種具體的信息真?zhèn)悟?yàn)證方法,包括如下步驟s31至s34:
步驟s31:利用信息抽取技術(shù),從不同的html網(wǎng)頁(yè)和/或xml網(wǎng)頁(yè)中抽取出與目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息,得到與目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息集合;其中,目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息包括目標(biāo)實(shí)體的名稱、目標(biāo)實(shí)體的任一屬性的名稱以及該屬性對(duì)應(yīng)的屬性值;
步驟s32:從三元組信息集合中篩選出與特征屬性對(duì)應(yīng)的三元組信息,得到目標(biāo)三元組信息集合;
步驟s33:將目標(biāo)三元組信息集合中的所有屬性值提取出來(lái),得到屬性值集合。
步驟s34:對(duì)屬性值集合進(jìn)行分組處理,得到多組屬性值;其中,每組屬性值中的屬性值均相同,接著將多組屬性值中屬性值數(shù)量最多的一組屬性值確定為目標(biāo)組,然后將與目標(biāo)組對(duì)應(yīng)的屬性值確定為特定屬性的正確屬性值。
可以理解的是,上述步驟s34與上一實(shí)施例中的步驟s23可以相互替換。
相應(yīng)的,本發(fā)明實(shí)施例公開(kāi)了一種信息真?zhèn)悟?yàn)證系統(tǒng),參見(jiàn)圖4所示,該系統(tǒng)包括:
屬性值選取模塊11,用于從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值,得到相應(yīng)的屬性值集合;
正確屬性值確定模塊12,用于從屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,并將該屬性值確定為特定屬性的正確屬性值。
在一種具體實(shí)施方式中,上述屬性值選取模塊11,可以包括第一信息抽取單元和第一提取單元;其中,
第一信息抽取單元,用于利用信息抽取技術(shù),從不同的html網(wǎng)頁(yè)和/或xml網(wǎng)頁(yè)中抽取出與特定屬性對(duì)應(yīng)的三元組信息,得到與特定屬性對(duì)應(yīng)的三元組信息集合;其中,特定屬性對(duì)應(yīng)的三元組信息包括目標(biāo)實(shí)體的名稱、特征屬性的名稱以及特征屬性的屬性值;
第一提取單元,用于將三元組信息集合中的所有屬性值提取出來(lái),得到屬性值集合。
在另一種具體實(shí)施方式中,上述屬性值選取模塊11,可以包括第二信息抽取單元、信息篩選單元和第二提取單元;其中,
第二信息抽取單元,用于利用信息抽取技術(shù),從不同的html網(wǎng)頁(yè)和/或xml網(wǎng)頁(yè)中抽取出與目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息,得到與目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息集合;其中,目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息包括目標(biāo)實(shí)體的名稱、目標(biāo)實(shí)體的任一屬性的名稱以及該屬性對(duì)應(yīng)的屬性值;
信息篩選單元,用于從三元組信息集合中篩選出與特征屬性對(duì)應(yīng)的三元組信息,得到目標(biāo)三元組信息集合;
第二提取單元,用于將目標(biāo)三元組信息集合中的所有屬性值提取出來(lái),得到屬性值集合。
在一種具體實(shí)施方式中,上述正確屬性值確定模塊12,可以包括頻次統(tǒng)計(jì)單元和第一屬性值確定單元;其中,
頻次統(tǒng)計(jì)單元,用于分別對(duì)屬性值集合中相同屬性值出現(xiàn)的頻次進(jìn)行統(tǒng)計(jì),得到屬性值集合中每種屬性值對(duì)應(yīng)的出現(xiàn)頻次;
第一屬性值確定單元,用于將出現(xiàn)頻次最多的屬性值確定為特定屬性的正確屬性值。
在另一種具體實(shí)施方式中,上述正確屬性值確定模塊12,可以包括分組單元、目標(biāo)組確定單元和第二屬性值確定單元;其中,
分組單元,用于對(duì)屬性值集合進(jìn)行分組處理,得到多組屬性值;其中,每組屬性值中的屬性值均相同;
目標(biāo)組確定單元,用于將多組屬性值中屬性值數(shù)量最多的一組屬性值確定為目標(biāo)組;
第二屬性值確定單元,用于將與目標(biāo)組對(duì)應(yīng)的屬性值確定為特定屬性的正確屬性值。
可見(jiàn),本發(fā)明實(shí)施例從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值之后,將會(huì)從上述得到的屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,由于該屬性值在上述屬性值集合中出現(xiàn)的次數(shù)最多,則意味著該屬性值最為公眾所認(rèn)可和采用,所以本發(fā)明實(shí)施例便將該屬性值確定為上述特定屬性的正確屬性值,從而有利于大幅提升最終篩選到的信息的準(zhǔn)確性,也即,本發(fā)明實(shí)施例能夠?qū)崿F(xiàn)對(duì)信息的真?zhèn)芜M(jìn)行有效地辨別,從而提升采集到的信息的準(zhǔn)確性。
最后,還需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。
以上對(duì)本發(fā)明所提供的一種信息真?zhèn)悟?yàn)證方法及系統(tǒng)進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。