亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種信息真?zhèn)悟?yàn)證方法及系統(tǒng)與流程

文檔序號(hào):11729447閱讀:220來(lái)源:國(guó)知局
一種信息真?zhèn)悟?yàn)證方法及系統(tǒng)與流程

本發(fā)明涉及信息驗(yàn)證技術(shù)領(lǐng)域,特別涉及一種信息真?zhèn)悟?yàn)證方法及系統(tǒng)。



背景技術(shù):

當(dāng)前,隨著信息時(shí)代的迅速發(fā)展,人們可以從許多不同的數(shù)據(jù)源處獲取到自己所需的信息,其中,互聯(lián)網(wǎng)已經(jīng)逐漸成為當(dāng)前人們獲取數(shù)據(jù)的主要來(lái)源,現(xiàn)在許多數(shù)據(jù)管理應(yīng)用都會(huì)利用互聯(lián)網(wǎng)這一數(shù)據(jù)源來(lái)收集數(shù)據(jù),由此可為用戶提供便捷的數(shù)據(jù)服務(wù)。

然而,對(duì)于現(xiàn)實(shí)世界中同一個(gè)實(shí)體的同一種屬性,不同數(shù)據(jù)源針對(duì)該屬性的描述可能是不一樣的,在這種情況下,如何對(duì)信息的真?zhèn)芜M(jìn)行有效地辨別便成為了當(dāng)前亟需解決的問(wèn)題。



技術(shù)實(shí)現(xiàn)要素:

有鑒于此,本發(fā)明的目的在于提供一種信息真?zhèn)悟?yàn)證方法及系統(tǒng),能夠?qū)崿F(xiàn)對(duì)信息的真?zhèn)芜M(jìn)行有效地辨別的目的。其具體方案如下:

一種信息真?zhèn)悟?yàn)證方法,包括:

從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值,得到相應(yīng)的屬性值集合;

從所述屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,并將該屬性值確定為所述特定屬性的正確屬性值。

可選的,所述從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值的過(guò)程,包括:

利用信息抽取技術(shù),從不同的html網(wǎng)頁(yè)和/或xml網(wǎng)頁(yè)中抽取出與所述特定屬性對(duì)應(yīng)的三元組信息,得到與所述特定屬性對(duì)應(yīng)的三元組信息集合;其中,所述特定屬性對(duì)應(yīng)的三元組信息包括所述目標(biāo)實(shí)體的名稱、所述特征屬性的名稱以及所述特征屬性的屬性值;

將所述三元組信息集合中的所有屬性值提取出來(lái),得到所述屬性值集合。

可選的,所述從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值的過(guò)程,包括:

利用信息抽取技術(shù),從不同的html網(wǎng)頁(yè)和/或xml網(wǎng)頁(yè)中抽取出與所述目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息,得到與所述目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息集合;其中,所述目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息包括所述目標(biāo)實(shí)體的名稱、所述目標(biāo)實(shí)體的任一屬性的名稱以及該屬性對(duì)應(yīng)的屬性值;

從所述三元組信息集合中篩選出與所述特征屬性對(duì)應(yīng)的三元組信息,得到目標(biāo)三元組信息集合;

將所述目標(biāo)三元組信息集合中的所有屬性值提取出來(lái),得到所述屬性值集合。

可選的,所述從所述屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,并將該屬性值確定為所述特定屬性的正確屬性值的過(guò)程,包括:

分別對(duì)所述屬性值集合中相同屬性值出現(xiàn)的頻次進(jìn)行統(tǒng)計(jì),得到所述屬性值集合中每種屬性值對(duì)應(yīng)的出現(xiàn)頻次;

將出現(xiàn)頻次最多的屬性值確定為所述特定屬性的正確屬性值。

可選的,所述從所述屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,并將該屬性值確定為所述特定屬性的正確屬性值的過(guò)程,包括:

對(duì)所述屬性值集合進(jìn)行分組處理,得到多組屬性值;其中,每組屬性值中的屬性值均相同;

將所述多組屬性值中屬性值數(shù)量最多的一組屬性值確定為目標(biāo)組;

將與所述目標(biāo)組對(duì)應(yīng)的屬性值確定為所述特定屬性的正確屬性值。

本發(fā)明還公開(kāi)了一種信息真?zhèn)悟?yàn)證系統(tǒng),包括:

屬性值選取模塊,用于從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值,得到相應(yīng)的屬性值集合;

正確屬性值確定模塊,用于從所述屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,并將該屬性值確定為所述特定屬性的正確屬性值。

可選的,所述屬性值選取模塊,包括:

第一信息抽取單元,用于利用信息抽取技術(shù),從不同的html網(wǎng)頁(yè)和/或xml網(wǎng)頁(yè)中抽取出與所述特定屬性對(duì)應(yīng)的三元組信息,得到與所述特定屬性對(duì)應(yīng)的三元組信息集合;其中,所述特定屬性對(duì)應(yīng)的三元組信息包括所述目標(biāo)實(shí)體的名稱、所述特征屬性的名稱以及所述特征屬性的屬性值;

第一提取單元,用于將所述三元組信息集合中的所有屬性值提取出來(lái),得到所述屬性值集合。

可選的,所述屬性值選取模塊,包括:

第二信息抽取單元,用于利用信息抽取技術(shù),從不同的html網(wǎng)頁(yè)和/或xml網(wǎng)頁(yè)中抽取出與所述目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息,得到與所述目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息集合;其中,所述目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息包括所述目標(biāo)實(shí)體的名稱、所述目標(biāo)實(shí)體的任一屬性的名稱以及該屬性對(duì)應(yīng)的屬性值;

信息篩選單元,用于從所述三元組信息集合中篩選出與所述特征屬性對(duì)應(yīng)的三元組信息,得到目標(biāo)三元組信息集合;

第二提取單元,用于將所述目標(biāo)三元組信息集合中的所有屬性值提取出來(lái),得到所述屬性值集合。

可選的,所述正確屬性值確定模塊,包括:

頻次統(tǒng)計(jì)單元,用于分別對(duì)所述屬性值集合中相同屬性值出現(xiàn)的頻次進(jìn)行統(tǒng)計(jì),得到所述屬性值集合中每種屬性值對(duì)應(yīng)的出現(xiàn)頻次;

第一屬性值確定單元,用于將出現(xiàn)頻次最多的屬性值確定為所述特定屬性的正確屬性值。

可選的,所述正確屬性值確定模塊,包括:

分組單元,用于對(duì)所述屬性值集合進(jìn)行分組處理,得到多組屬性值;其中,每組屬性值中的屬性值均相同;

目標(biāo)組確定單元,用于將所述多組屬性值中屬性值數(shù)量最多的一組屬性值確定為目標(biāo)組;

第二屬性值確定單元,用于將與所述目標(biāo)組對(duì)應(yīng)的屬性值確定為所述特定屬性的正確屬性值。

本發(fā)明中,信息真?zhèn)悟?yàn)證方法,包括:從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值,得到相應(yīng)的屬性值集合;從屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,并將該屬性值確定為特定屬性的正確屬性值。

可見(jiàn),本發(fā)明從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值之后,將會(huì)從上述得到的屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,由于該屬性值在上述屬性值集合中出現(xiàn)的次數(shù)最多,則意味著該屬性值最為公眾所認(rèn)可和采用,所以本發(fā)明便將該屬性值確定為上述特定屬性的正確屬性值,從而有利于大幅提升最終篩選到的信息的準(zhǔn)確性,也即,本發(fā)明能夠?qū)崿F(xiàn)對(duì)信息的真?zhèn)芜M(jìn)行有效地辨別,從而提升采集到的信息的準(zhǔn)確性。

附圖說(shuō)明

為了更清楚地說(shuō)明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖僅僅是本發(fā)明的實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。

圖1為本發(fā)明實(shí)施例公開(kāi)的一種信息真?zhèn)悟?yàn)證方法流程圖;

圖2為本發(fā)明實(shí)施例公開(kāi)的一種具體的信息真?zhèn)悟?yàn)證方法流程圖;

圖3為本發(fā)明實(shí)施例公開(kāi)的一種具體的信息真?zhèn)悟?yàn)證方法流程圖;

圖4為本發(fā)明實(shí)施例公開(kāi)的一種信息真?zhèn)悟?yàn)證系統(tǒng)結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

本發(fā)明實(shí)施例公開(kāi)了一種信息真?zhèn)悟?yàn)證方法,參見(jiàn)圖1所示,該方法包括:

步驟s11:從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值,得到相應(yīng)的屬性值集合。

可以理解的是,本發(fā)明實(shí)施例中的數(shù)據(jù)源可以是互聯(lián)網(wǎng),當(dāng)然也可以是各種圖書(shū)、報(bào)刊等數(shù)據(jù)源。

步驟s12:從屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,并將該屬性值確定為特定屬性的正確屬性值。

可見(jiàn),本發(fā)明實(shí)施例從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值之后,將會(huì)從上述得到的屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,由于該屬性值在上述屬性值集合中出現(xiàn)的次數(shù)最多,則意味著該屬性值最為公眾所認(rèn)可和采用,所以本發(fā)明實(shí)施例便將該屬性值確定為上述特定屬性的正確屬性值,從而有利于大幅提升最終篩選到的信息的準(zhǔn)確性,也即,本發(fā)明實(shí)施例能夠?qū)崿F(xiàn)對(duì)信息的真?zhèn)芜M(jìn)行有效地辨別,從而提升采集到的信息的準(zhǔn)確性。

參見(jiàn)圖2所示,本發(fā)明實(shí)施例公開(kāi)了一種具體的信息真?zhèn)悟?yàn)證方法,包括如下步驟s21至s23:

步驟s21:利用信息抽取技術(shù),從不同的html網(wǎng)頁(yè)和/或xml網(wǎng)頁(yè)中抽取出與特定屬性對(duì)應(yīng)的三元組信息,得到與特定屬性對(duì)應(yīng)的三元組信息集合;其中,特定屬性對(duì)應(yīng)的三元組信息包括目標(biāo)實(shí)體的名稱、特征屬性的名稱以及特征屬性的屬性值。

例如,假設(shè)上述目標(biāo)實(shí)體是“美國(guó)”,上述特定屬性是“首都”,則與上述特定屬性對(duì)應(yīng)的正確的屬性值應(yīng)該為“華盛頓”,然而,可能在某些數(shù)據(jù)源中顯示的與上述特定屬性對(duì)應(yīng)的屬性值并非是“華盛頓”,而是“紐約”,此時(shí)該屬性值便是錯(cuò)誤的。

步驟s22:將三元組信息集合中的所有屬性值提取出來(lái),得到屬性值集合。

步驟s23:分別對(duì)屬性值集合中相同屬性值出現(xiàn)的頻次進(jìn)行統(tǒng)計(jì),得到屬性值集合中每種屬性值對(duì)應(yīng)的出現(xiàn)頻次,然后將出現(xiàn)頻次最多的屬性值確定為特定屬性的正確屬性值。

參見(jiàn)圖3所示,本發(fā)明實(shí)施例公開(kāi)了一種具體的信息真?zhèn)悟?yàn)證方法,包括如下步驟s31至s34:

步驟s31:利用信息抽取技術(shù),從不同的html網(wǎng)頁(yè)和/或xml網(wǎng)頁(yè)中抽取出與目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息,得到與目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息集合;其中,目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息包括目標(biāo)實(shí)體的名稱、目標(biāo)實(shí)體的任一屬性的名稱以及該屬性對(duì)應(yīng)的屬性值;

步驟s32:從三元組信息集合中篩選出與特征屬性對(duì)應(yīng)的三元組信息,得到目標(biāo)三元組信息集合;

步驟s33:將目標(biāo)三元組信息集合中的所有屬性值提取出來(lái),得到屬性值集合。

步驟s34:對(duì)屬性值集合進(jìn)行分組處理,得到多組屬性值;其中,每組屬性值中的屬性值均相同,接著將多組屬性值中屬性值數(shù)量最多的一組屬性值確定為目標(biāo)組,然后將與目標(biāo)組對(duì)應(yīng)的屬性值確定為特定屬性的正確屬性值。

可以理解的是,上述步驟s34與上一實(shí)施例中的步驟s23可以相互替換。

相應(yīng)的,本發(fā)明實(shí)施例公開(kāi)了一種信息真?zhèn)悟?yàn)證系統(tǒng),參見(jiàn)圖4所示,該系統(tǒng)包括:

屬性值選取模塊11,用于從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值,得到相應(yīng)的屬性值集合;

正確屬性值確定模塊12,用于從屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,并將該屬性值確定為特定屬性的正確屬性值。

在一種具體實(shí)施方式中,上述屬性值選取模塊11,可以包括第一信息抽取單元和第一提取單元;其中,

第一信息抽取單元,用于利用信息抽取技術(shù),從不同的html網(wǎng)頁(yè)和/或xml網(wǎng)頁(yè)中抽取出與特定屬性對(duì)應(yīng)的三元組信息,得到與特定屬性對(duì)應(yīng)的三元組信息集合;其中,特定屬性對(duì)應(yīng)的三元組信息包括目標(biāo)實(shí)體的名稱、特征屬性的名稱以及特征屬性的屬性值;

第一提取單元,用于將三元組信息集合中的所有屬性值提取出來(lái),得到屬性值集合。

在另一種具體實(shí)施方式中,上述屬性值選取模塊11,可以包括第二信息抽取單元、信息篩選單元和第二提取單元;其中,

第二信息抽取單元,用于利用信息抽取技術(shù),從不同的html網(wǎng)頁(yè)和/或xml網(wǎng)頁(yè)中抽取出與目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息,得到與目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息集合;其中,目標(biāo)實(shí)體對(duì)應(yīng)的三元組信息包括目標(biāo)實(shí)體的名稱、目標(biāo)實(shí)體的任一屬性的名稱以及該屬性對(duì)應(yīng)的屬性值;

信息篩選單元,用于從三元組信息集合中篩選出與特征屬性對(duì)應(yīng)的三元組信息,得到目標(biāo)三元組信息集合;

第二提取單元,用于將目標(biāo)三元組信息集合中的所有屬性值提取出來(lái),得到屬性值集合。

在一種具體實(shí)施方式中,上述正確屬性值確定模塊12,可以包括頻次統(tǒng)計(jì)單元和第一屬性值確定單元;其中,

頻次統(tǒng)計(jì)單元,用于分別對(duì)屬性值集合中相同屬性值出現(xiàn)的頻次進(jìn)行統(tǒng)計(jì),得到屬性值集合中每種屬性值對(duì)應(yīng)的出現(xiàn)頻次;

第一屬性值確定單元,用于將出現(xiàn)頻次最多的屬性值確定為特定屬性的正確屬性值。

在另一種具體實(shí)施方式中,上述正確屬性值確定模塊12,可以包括分組單元、目標(biāo)組確定單元和第二屬性值確定單元;其中,

分組單元,用于對(duì)屬性值集合進(jìn)行分組處理,得到多組屬性值;其中,每組屬性值中的屬性值均相同;

目標(biāo)組確定單元,用于將多組屬性值中屬性值數(shù)量最多的一組屬性值確定為目標(biāo)組;

第二屬性值確定單元,用于將與目標(biāo)組對(duì)應(yīng)的屬性值確定為特定屬性的正確屬性值。

可見(jiàn),本發(fā)明實(shí)施例從不同的數(shù)據(jù)源中選取出與目標(biāo)實(shí)體的特定屬性對(duì)應(yīng)的屬性值之后,將會(huì)從上述得到的屬性值集合中篩選出具有最多出現(xiàn)頻次的屬性值,由于該屬性值在上述屬性值集合中出現(xiàn)的次數(shù)最多,則意味著該屬性值最為公眾所認(rèn)可和采用,所以本發(fā)明實(shí)施例便將該屬性值確定為上述特定屬性的正確屬性值,從而有利于大幅提升最終篩選到的信息的準(zhǔn)確性,也即,本發(fā)明實(shí)施例能夠?qū)崿F(xiàn)對(duì)信息的真?zhèn)芜M(jìn)行有效地辨別,從而提升采集到的信息的準(zhǔn)確性。

最后,還需要說(shuō)明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來(lái)將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開(kāi)來(lái),而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過(guò)程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒(méi)有明確列出的其他要素,或者是還包括為這種過(guò)程、方法、物品或者設(shè)備所固有的要素。在沒(méi)有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過(guò)程、方法、物品或者設(shè)備中還存在另外的相同要素。

以上對(duì)本發(fā)明所提供的一種信息真?zhèn)悟?yàn)證方法及系統(tǒng)進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說(shuō)明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在具體實(shí)施方式及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說(shuō)明書(shū)內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。

當(dāng)前第1頁(yè)1 2 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1