本發(fā)明屬于通信技術(shù)領(lǐng)域,具體涉及一種基于動(dòng)態(tài)信任模型的ip定位數(shù)據(jù)庫(kù)可信度評(píng)估方法。
背景技術(shù):
ip定位數(shù)據(jù)庫(kù)被廣泛應(yīng)用于網(wǎng)絡(luò)設(shè)備的ip地址到物理位置的映射。然而由于定位數(shù)據(jù)庫(kù)存在地理位置屬性值具有誤差且更新不及時(shí)等問(wèn)題,導(dǎo)致其對(duì)于部分ip地址無(wú)法提供準(zhǔn)確的定位信息,影響定位數(shù)據(jù)庫(kù)的可信度。
目前,在中國(guó)互聯(lián)網(wǎng)上主流且定位效果較好的數(shù)據(jù)庫(kù)有ip2location、純真、ip138、新浪及淘寶等。這些定位數(shù)據(jù)庫(kù)主要是利用cnnic(chinainternetnetworkinformationcenter,中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心)的分配信息、運(yùn)營(yíng)商的ip地址部署信息、用戶主動(dòng)反饋的ip信息,通過(guò)應(yīng)用程序獲取或者參考其他ip地址定位庫(kù)等方式構(gòu)建,存在數(shù)據(jù)獲取接口不一、數(shù)據(jù)呈現(xiàn)形式不同、定位精度不同,更新速度不同步,庫(kù)間定位不一致等諸多問(wèn)題,導(dǎo)致無(wú)法客觀準(zhǔn)確的評(píng)估各定位數(shù)據(jù)庫(kù)的可信度。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種基于動(dòng)態(tài)信任模型的ip定位數(shù)據(jù)庫(kù)可信度評(píng)估方法,以克服現(xiàn)有技術(shù)的缺陷。
本發(fā)明提供了一種基于動(dòng)態(tài)信任模型的ip定位數(shù)據(jù)庫(kù)可信度評(píng)估方法,其步驟包括:
1)基于地理位置屬性值對(duì)ip定位數(shù)據(jù)庫(kù)的一致性進(jìn)行分析;
2)基于ip定位數(shù)據(jù)庫(kù)的當(dāng)前行為和歷史行為的一致性確定其直接可信度;
3)基于第三方實(shí)體的推薦信任度確定ip定位數(shù)據(jù)庫(kù)的間接可信度;
4)基于ip定位數(shù)據(jù)庫(kù)的直接可信度和間接可信度確定其綜合可信度。
進(jìn)一步地,步驟1)中首先基于動(dòng)態(tài)信任模型分析ip定位數(shù)據(jù)庫(kù)的地理位置屬性值的一致性。將定位數(shù)據(jù)庫(kù)定義為獨(dú)立的實(shí)體,實(shí)體可以作為信任的主體,也可以作為信任的客體。系統(tǒng)中每一個(gè)實(shí)體都是相互獨(dú)立的,特定時(shí)段內(nèi),信任主體與每一個(gè)信任客體進(jìn)行交互評(píng)估,根據(jù)交互結(jié)果進(jìn)行定位數(shù)據(jù)庫(kù)的一致性分析。
進(jìn)一步地,步驟2)根據(jù)所述信任主體和信任客體之間的交互行為,確定信任主體和信任客體之間的當(dāng)前行為和歷史行為,并根據(jù)所述當(dāng)前行為和歷史行為確定交互一致的先驗(yàn)概率和標(biāo)準(zhǔn)似然度,基于所述先驗(yàn)概率和標(biāo)準(zhǔn)似然度采用貝葉斯推理確定信任主體的直接可信度。
進(jìn)一步地,步驟3)中實(shí)體的間接可信度是指基于第三方實(shí)體的間接推薦形成的信任度,可將其量化為實(shí)體a基于實(shí)體c的推薦概率而產(chǎn)生的對(duì)實(shí)體b在第n+1次評(píng)估行為中取得與實(shí)體a一致評(píng)估結(jié)果的概率估計(jì)。當(dāng)實(shí)體a與實(shí)體b之間同時(shí)存在多條可獲得間接信任值的路徑時(shí),對(duì)多條不同獨(dú)立路徑的間接可信度采用均值策略進(jìn)行融合。
進(jìn)一步地,根據(jù)所述信任主體和信任客體之間的直接可信度和間接可信度,采用權(quán)重分析法確定其綜合可信度,并通過(guò)獎(jiǎng)懲因子對(duì)綜合可信度進(jìn)行修正。
本發(fā)明的有益效果在于,實(shí)現(xiàn)了對(duì)于目前國(guó)內(nèi)主流ip定位數(shù)據(jù)庫(kù)在省級(jí)粒度上相對(duì)客觀的可信度評(píng)估,并且能夠準(zhǔn)確,靈敏的反映定位數(shù)據(jù)庫(kù)的可信度變化趨勢(shì)。它具有如下優(yōu)點(diǎn):
1)本發(fā)明采用動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)構(gòu)建可信度評(píng)估模型,動(dòng)態(tài)貝葉斯網(wǎng)絡(luò)利用采集到的樣本更新網(wǎng)絡(luò)結(jié)構(gòu)、先驗(yàn)分布及條件概率,該方法在推理過(guò)程具有前后連續(xù)性從而更符合客觀世界。
2)本發(fā)明采用獎(jiǎng)懲因子修正綜合可信度,可有效提高正確度較高的數(shù)據(jù)源的信任度,降低正確度較低的數(shù)據(jù)源的信任值,通過(guò)獎(jiǎng)懲機(jī)制實(shí)現(xiàn)了對(duì)信任模型的完善。
附圖說(shuō)明
圖1為根據(jù)本發(fā)明一個(gè)實(shí)施例的ip定位數(shù)據(jù)庫(kù)可信度評(píng)估方法的流程圖;
圖2為間接信任間的實(shí)體關(guān)系圖;
圖3為多條路徑的間接信任實(shí)體關(guān)系圖;
圖4為定位數(shù)據(jù)庫(kù)的直接可信度動(dòng)態(tài)調(diào)整圖;
圖5為定位數(shù)據(jù)庫(kù)的間接可信度動(dòng)態(tài)調(diào)整圖;
圖6為定位數(shù)據(jù)庫(kù)的綜合可信度動(dòng)態(tài)調(diào)整圖。
具體實(shí)施方式
下面詳細(xì)描述本發(fā)明的實(shí)施例,實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。
圖1為根據(jù)本發(fā)明一個(gè)實(shí)施例的ip定位數(shù)據(jù)庫(kù)可信度評(píng)估方法的流程圖。本實(shí)施例提供的一種基于動(dòng)態(tài)信任模型的ip定位數(shù)據(jù)庫(kù)可信度評(píng)估方法,可基于地理位置屬性值對(duì)ip定位數(shù)據(jù)庫(kù)的一致性進(jìn)行分析,并根據(jù)ip定位數(shù)據(jù)庫(kù)當(dāng)前和歷史行為的一致性確定其直接可信度,同時(shí)基于第三方實(shí)體的推薦信任度確定其間接可信度,并基于ip定位數(shù)據(jù)庫(kù)的直接可信度和間接可信度確定其綜合可信度。下面具體說(shuō)明各步驟。
步驟110,基于地理位置屬性值對(duì)ip定位數(shù)據(jù)庫(kù)的一致性進(jìn)行分析。
具體地,將定位數(shù)據(jù)庫(kù)定義為信任實(shí)體,將信任實(shí)體a與信任實(shí)體b之間的一致性分析定義為事件xab(i)。若信任實(shí)體a和信任實(shí)體b將ip地址解析為相同的地理位置屬性值,則其一致性定義為一致,xab(i)取值為1;若信任實(shí)體a和信任實(shí)體b將ip地址解析為不同的地理位置屬性值,則其一致性定義為不一致,xab(i)取值為-1;若其中一個(gè)信任實(shí)體的解析結(jié)果為空,則表示信任實(shí)體a和信任實(shí)體b之間的一致性分析失敗,其一致性定義為無(wú)效,xab(i)取值為0。
步驟120,基于信任實(shí)體的歷史行為和當(dāng)前行為的一致性確定其直接可信度。
具體地,將信任實(shí)體a和信任實(shí)體b之間所有的歷史行為表述為:
history:hab={xab(1),xab(2),…xab(n)}
其中xab(i)表示信任實(shí)體a和信任實(shí)體b之間第i次的一致性分析的交互行為,n表示信任實(shí)體a和信任實(shí)體b之間所有交互次數(shù),若采用p表示所有一致性分析中信任實(shí)體a和信任實(shí)體b具有相同結(jié)果的次數(shù),即交互一致的次數(shù);則信任實(shí)體a和信任實(shí)體b之間交互一致的先驗(yàn)概率
信任實(shí)體a和信任實(shí)體b之間的一致性分析是獨(dú)立的,則信任實(shí)體a和信任實(shí)體b之間所有的一致性分析中交互一致的標(biāo)準(zhǔn)似然度l(likelihood)為:
其中,h(history)表示信任實(shí)體a和信任實(shí)體b之間所有的歷史行為;
已知先驗(yàn)概率和標(biāo)準(zhǔn)似然度,其后驗(yàn)概率分布為:
其中c1、c2表示貝塔分布函數(shù)的參數(shù);
根據(jù)一階統(tǒng)計(jì)的后驗(yàn)概率估計(jì)可表示為:
因此信任實(shí)體a和信任實(shí)體b之間第n+1次一致性概率,即實(shí)體a對(duì)實(shí)體b在第n+1次一致性分析中的直接可信度dtdab(directtrustdegree)為:
因?yàn)樾湃螌?shí)體a和信任實(shí)體b在初次評(píng)估之前,可信度均勻分布在整個(gè)可信區(qū)間,因此將參數(shù)設(shè)置為c1=c2=1。
步驟130,基于第三方實(shí)體的間接推薦(推薦信任度)確定ip定位數(shù)據(jù)庫(kù)的間接可信度。
具體地,間接可信度itd(indirecttrustdegree)是指通過(guò)第三方實(shí)體的間接推薦形成的信任度,將其量化為實(shí)體a基于實(shí)體c的推薦概率而產(chǎn)生的對(duì)實(shí)體b在第n+1次一致性分析中取得與實(shí)體a相同結(jié)果的概率估計(jì),將實(shí)體a基于實(shí)體c的推薦得到實(shí)體b的間接可信度itd(a,b,c)量化為:
itd(a,b,c)=p(xab(n+1)=1|hac,hcb)
=p(xac(n+1)=1|hac)p(xcb(n+1)=1|hcb)
=racrcb(6)
其中hac表示實(shí)體a,c之間的一致性分析;hcb表示實(shí)體c,b之間的一致性分析;xab(n+1)表示實(shí)體a與實(shí)體b在第n+1次一致性分析行為,rac、rcb分別表示實(shí)體a對(duì)實(shí)體c的相對(duì)評(píng)價(jià)和實(shí)體c對(duì)實(shí)體b的相對(duì)評(píng)價(jià),其推薦關(guān)系如圖2所示。
當(dāng)實(shí)體a與實(shí)體b之間同時(shí)存在多條可獲得間接信任值的路徑時(shí),需對(duì)多條不同的獨(dú)立路徑的信任度進(jìn)行融合,多條路徑的間接信任實(shí)體關(guān)系如圖3所示。
在初次評(píng)估之前,所有實(shí)體的間接可信度是等概率均分的,因此采用均值策略對(duì)多條不同的獨(dú)立路徑的信任度進(jìn)行融合,將實(shí)體a基于第三方實(shí)體推薦而得到實(shí)體b的間接可信度itd(a,b)量化為
其中m表示除實(shí)體a之外其它所有第三方評(píng)估實(shí)體的總數(shù)。
步驟140,基于ip定位數(shù)據(jù)庫(kù)的直接可信度和間接可信度確定其綜合可信度。
具體地,綜合可信度ctd由直接可信度和間接可信度共同決定,將其量化為:
ctdab=ωdtdab+(1-ω)itdab(8)
其中ω∈[0.5,1],它保證直接可信度的權(quán)重始終大于間接可信度的權(quán)重。這符合人類社會(huì)的認(rèn)知習(xí)慣,人們總是優(yōu)先相信自己的直接判斷,盡可能地降低惡意推薦的風(fēng)險(xiǎn)。
上述信任模型具有一定的局限性。因?yàn)椴捎胋eta分布是基于bernoulli過(guò)程的,而bernoulli實(shí)驗(yàn)只有兩種結(jié)果。在beta分布中,同一類型結(jié)果的信任度之間是無(wú)差別的,僅僅是數(shù)量的累積并不能真正反映推薦的結(jié)果,因而可以通過(guò)一定的獎(jiǎng)勵(lì)和懲罰機(jī)制來(lái)對(duì)信任模型進(jìn)行完善,這樣可提高正確度較高的數(shù)據(jù)源的信任度,降低正確度較低的數(shù)據(jù)源的信任值。因此可將綜合可信度修正為:
其中rp(rewardsandpunishments)為獎(jiǎng)懲因子,它由定位數(shù)據(jù)庫(kù)的歷史行為和當(dāng)前行為共同確定。其中
本發(fā)明的實(shí)例:
為了驗(yàn)證本發(fā)明的有效性,我們采用目前中國(guó)互聯(lián)網(wǎng)上5種主流且定位效果較好的定位數(shù)據(jù)庫(kù)作為算法的定位數(shù)據(jù)庫(kù),包括ip2location、純真、ip138、新浪和淘寶。
采集300個(gè)確定為北京市的ip地址將其作為算法的原始數(shù)據(jù)集。為了保證采集的ip地址其定位地址確定為北京市,我們首先選擇了300家網(wǎng)絡(luò)接入點(diǎn)確定為北京市的單位,包括國(guó)家政府機(jī)關(guān),行政事業(yè)單位,科研機(jī)構(gòu)及高校等;然后基于相應(yīng)的域名反向解析獲取其ip地址。為保證ip地址的有效性,基于中國(guó)互聯(lián)網(wǎng)絡(luò)信息中心cnnic的ip地址備案數(shù)據(jù)庫(kù)對(duì)其進(jìn)行驗(yàn)證;對(duì)于備案庫(kù)中缺失的ip地址項(xiàng),使用traceroute方法獲取ip地址的路由信息,實(shí)現(xiàn)對(duì)ip地址定位信息的反向驗(yàn)證。驗(yàn)證的300個(gè)ip地址將作為算法的原始數(shù)據(jù)集。
我們將以30個(gè)ip地址作為示例,說(shuō)明定位數(shù)據(jù)庫(kù)交互評(píng)估行為的量化過(guò)程。首先將定位結(jié)果確定為北京市作為基準(zhǔn)數(shù)據(jù)即信任主體,5個(gè)定位數(shù)據(jù)庫(kù)作為信任客體。若信任客體與信任主體具有相同的地理位置屬性值,則本次交互行為被定義為一致,xab(i)取值為1;若信任客體與信任主體具有不同的地理位置屬性值,則本次交互行為被定義為不一致,xab(i)取值為-1。若信任客體返回值為空,則本次交互行為定義為失效,xab(i)取值為0。30個(gè)示例ip地址的交互評(píng)估行為xab(i)量化結(jié)果如表1所示。
表1.30個(gè)示例ip地址的交互評(píng)估行為xab(i)量化結(jié)果
信任主體在每輪與信任客體的交互評(píng)估行為結(jié)束之后,根據(jù)交互評(píng)估的結(jié)果,采用公式(5)動(dòng)態(tài)更新各定位數(shù)據(jù)庫(kù)的直接可信度。各定位數(shù)據(jù)庫(kù)對(duì)300個(gè)原始ip地址直接可信度的動(dòng)態(tài)調(diào)整過(guò)程如圖4所示。圖4表明各定位數(shù)據(jù)庫(kù)的直接可信度初期調(diào)整幅度較大,但隨著交互行為的增加,直接可信度趨于穩(wěn)定。
將5個(gè)定位數(shù)據(jù)庫(kù)分別作為信任主體,基于與其它定位數(shù)據(jù)庫(kù)交互評(píng)估的一致性,獲得其它定位數(shù)據(jù)庫(kù)對(duì)該信任主體的第三方推薦信任度,即定位數(shù)據(jù)庫(kù)的聲譽(yù)。同樣基于300個(gè)原始ip地址,各定位數(shù)據(jù)庫(kù)的間接可信度調(diào)整過(guò)程如圖5所示。圖5表明定位數(shù)據(jù)庫(kù)的間接可信度與直接可信度具有相似的變化趨勢(shì),均在交互初期具有較大的調(diào)整幅度,但隨著交互行為的增加,間接可信度趨于穩(wěn)定。且ip138,sina和chunzhen的間接可信度高于ip2locatoin和taobao。它表明ip138,sina和chunzhen三庫(kù)保持一致的概率大于其它兩個(gè)定位數(shù)據(jù)庫(kù)。
綜合可信度基于信任客體的歷史行為、當(dāng)前行為以及客體自身聲譽(yù)進(jìn)行動(dòng)態(tài)更新,由直接可信度和間接可信度的加權(quán)平均確定。5個(gè)定位數(shù)據(jù)庫(kù)分別對(duì)300個(gè)定位確定為北京市的ip地址進(jìn)行解析,采用本文提出的動(dòng)態(tài)信任模型對(duì)其產(chǎn)生的交互評(píng)估的結(jié)果進(jìn)行處理,結(jié)果如圖6所示。圖6表明綜合可信度與直接可信度具有相似的變化趨勢(shì),均在交互初期具有較大的調(diào)整幅度,但隨著交互行為的增加,綜合可信度趨于穩(wěn)定。但值得注意的是,由于獎(jiǎng)懲因子的引入,綜合可信度的波動(dòng)幅度遠(yuǎn)大于直接可信度。例如在對(duì)第65個(gè)ip地址112.125.157.134進(jìn)行交互評(píng)估之后,ip138的綜合可信度直接從0.95降低為0.82,而其對(duì)應(yīng)的直接可信度只是從0.91下降為0.89,其調(diào)整幅度遠(yuǎn)小于綜合可信度。因此綜合可信度可以更加準(zhǔn)確和靈敏的反應(yīng)定位數(shù)據(jù)庫(kù)的評(píng)估行為。
以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案而非對(duì)其進(jìn)行限制,本領(lǐng)域的普通技術(shù)人員可以對(duì)本發(fā)明的技術(shù)方案進(jìn)行修改或者等同替換,而不脫離本發(fā)明的精神和范圍,本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求書(shū)所述為準(zhǔn)。