一種人物信息的搜索方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種人物信息的搜索和裝置,包括:獲取多個網(wǎng)絡(luò)中的人物身份信息以及人物身份對應(yīng)關(guān)系;將已知人物身份對應(yīng)關(guān)系的人物身份信息集合作為訓(xùn)練集;構(gòu)建基于人物行為相似度的能量最低模型,獲取能量因子和匹配關(guān)系分類器;采用能量因子進(jìn)行能量填充形成能量矩陣,求解此能量矩陣得到單次預(yù)測的匹配結(jié)果;對多次求解的匹配結(jié)果進(jìn)行集成,得到人物身份對應(yīng)關(guān)系并確定具有相同人名人物的身份同一性;接收輸入的人名,在一個網(wǎng)頁中顯示同一人物在不同網(wǎng)絡(luò)中的身份信息。本發(fā)明的方法及裝置,能夠?qū)⒍鄠€網(wǎng)絡(luò)中具有不同身份信息但名字相同的信息進(jìn)行同一性確認(rèn),在一個網(wǎng)頁中顯示同一人物在不同網(wǎng)絡(luò)的身份信息,采用的算法高效,計算過程較快。
【專利說明】一種人物信息的搜索方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及互聯(lián)網(wǎng)搜索引擎【技術(shù)領(lǐng)域】,特別是指一種人物信息的搜索方法及裝 置。
【背景技術(shù)】
[0002] 利用搜索引擎檢索任務(wù)信息是互聯(lián)網(wǎng)人物的主要活動之一,然而,在現(xiàn)實世界中, 多個人物具有一個人名或同一個人物在不同網(wǎng)絡(luò)中注冊有不同的身份信息是一種很普遍 的現(xiàn)象。例如,在科學(xué)研究領(lǐng)域,往往會有大量科技工作者同時在多個科研團隊中協(xié)同工 作,由此導(dǎo)致在發(fā)表學(xué)術(shù)成果時同一個人所使用的個人信息,如電子信箱、單位、地址等,可 能并不相同,即相同人名具有不同身份信息。在對領(lǐng)域內(nèi)相關(guān)學(xué)術(shù)成果信息進(jìn)行匯總時,由 于難以判斷這些相同的人名是否為同一個人,這樣的冗余信息會直接影響統(tǒng)計結(jié)果的準(zhǔn)確 性??萍脊ぷ髡咴诓煌膱F隊中工作,同一個科技工作者的個人信息可能在多個網(wǎng)絡(luò)中出 現(xiàn),例如,某大學(xué)的網(wǎng)站、論文網(wǎng)、技術(shù)成果轉(zhuǎn)讓網(wǎng)、專利交易網(wǎng)等等,而此科技工作者在多 個網(wǎng)絡(luò)中的個人信息不一定完全相同。
[0003] 在檢索時,頁面只是簡單的羅列,忽略了人物可能會處于多個網(wǎng)絡(luò)中的關(guān)聯(lián)情況, 例如一個人物可以同時活躍于高校、國企科研機構(gòu)和社會性研究機構(gòu)中,并且在每個社會 網(wǎng)絡(luò)中擁有不同的身份、人際圈子和研究內(nèi)容,針對單一網(wǎng)絡(luò)的行為分析方法無法應(yīng)用于 這種多層網(wǎng)絡(luò)環(huán)境。在多個網(wǎng)絡(luò)中,各網(wǎng)絡(luò)中的節(jié)點可能具有截然不同的屬性,并且網(wǎng)絡(luò)與 網(wǎng)絡(luò)的節(jié)點之間存在相互依賴和協(xié)作等關(guān)聯(lián)關(guān)系。目前,在檢索時顯示的頁面只是簡單的 羅列,并沒有根據(jù)人物的特征進(jìn)行整理,人物無法對所述關(guān)注的人物的信息進(jìn)行清晰的把 握。
【發(fā)明內(nèi)容】
[0004] 有鑒于此,本發(fā)明的目的在于提出一種人物信息的搜索方法及裝置,能夠?qū)⒍鄠€ 網(wǎng)絡(luò)中具有不同身份信息但名字相同的信息進(jìn)行同一性確定并顯示。
[0005] 基于上述目的本發(fā)明提供一種人物信息的搜索方法,包括:獲取多個網(wǎng)絡(luò)中的人 物身份信息以及人物身份對應(yīng)關(guān)系;將已知人物身份對應(yīng)關(guān)系的人物身份信息集合作為訓(xùn) 練集;根據(jù)所述訓(xùn)練集中的所述人物身份信息構(gòu)建基于人物行為相似度的能量最低模型, 獲取能量因子和匹配關(guān)系分類器;根據(jù)所述匹配關(guān)系分類器將任意兩個人物身份信息進(jìn)行 匹配,并采用能量因子進(jìn)行能量填充形成能量矩陣,求解此能量矩陣得到單次預(yù)測的匹配 結(jié)果;對多次求解的匹配結(jié)果進(jìn)行集成,得到人物身份對應(yīng)關(guān)系并確定具有相同人名人物 的身份同一性;接收輸入的人名,從多個網(wǎng)絡(luò)中獲取與所述人名對應(yīng)的人物身份信息;根 據(jù)相同人名的人物的身份同一性,在一個網(wǎng)頁中顯示同一人物在不同網(wǎng)絡(luò)中的身份信息, 其中,身份信息包括:電子郵件、電話、單位。
[0006] 根據(jù)本發(fā)明的一個實施例,進(jìn)一步的,所述將已知人物身份對應(yīng)關(guān)系的所述人物 身份信息的集合作為訓(xùn)練集、根據(jù)所述訓(xùn)練集中的所述人物身份信息構(gòu)建基于人物行為 相似度的能量最低模型、獲取能量因子和匹配關(guān)系分類器包括:對于2個網(wǎng)絡(luò)P、Q中任意 給定的節(jié)點V(i),其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征向量為:f(i) = {f\,f2,…fd},其中,節(jié)點代表人 物身份信息,為節(jié)點基本屬性特征,包括:節(jié)點出度、入度、聚類系數(shù)、鄰居節(jié)點、平均 度、共同鄰居;建立節(jié)點對特征向量向量,對于2個網(wǎng)絡(luò)P、Q的節(jié)點對特征向量向量為: =廠0),(/) (/+)) = ! 量向量對匹配節(jié)點對進(jìn)行聚類,獲得各聚類類別C中所包含的具有相似特征節(jié)點的個數(shù), 將其作為粒子特征,節(jié)點對特征的分布情況作為能量因子,將具有相似網(wǎng)絡(luò)行為特征的人 k 物賦予等值的能量因子;構(gòu)建匹配節(jié)點對能量模型:min//= ZAa其中,I為相似特征 i=l . 的匹配節(jié)點對集合依據(jù)特征進(jìn)行聚類后的節(jié)點對個數(shù),e ,為該類別對應(yīng)的能量因子;根據(jù) 所述能量模型獲取每個聚類類別所對應(yīng)的能量因子:e = 1> i,e 2, . . .,e k},并將其作為 預(yù)測過程中節(jié)點對所屬類別的能量因子;根據(jù)聚類類別結(jié)果建立K分類器,并賦予每個節(jié) 點對類別編號。
[0007] 根據(jù)本發(fā)明的一個實施例,進(jìn)一步的,所述根據(jù)所述匹配關(guān)系分類器將任意兩個 人物身份信息進(jìn)行匹配、并采用能量因子進(jìn)行能量填充形成能量矩陣、求解此能量矩陣得 到單次預(yù)測的匹配結(jié)果包括:對網(wǎng)絡(luò)P、Q中未知身份對應(yīng)關(guān)系的節(jié)點分別提取其拓?fù)浣Y(jié)構(gòu) 特征:F P(i) = {fP(l),fP(2),? ? ?,fP(m)}和?(3(;〇 = {fQ(l),fQ(2),? ? ?,fQ(m)};對于任意未 知身份對應(yīng)關(guān)系的節(jié)點i e P,j G Q,構(gòu)建nXn個所有未知節(jié)點的匹配節(jié)點對特征向量: ^!'XViWoU)) = U,>(1),/,(2),...,/;,(//),/X mit K 點對特征向量進(jìn)行分類,得到每個節(jié)點對類別標(biāo)簽,構(gòu)建節(jié)點對類別矩陣;對類別矩陣進(jìn)行 能量因子填充,將類別矩陣中類別標(biāo)簽替換為該類別所對應(yīng)的能量因子e ,構(gòu)建能 量矩陣;計算能量矩陣的最佳匹配。
[0008] 根據(jù)本發(fā)明的一個實施例,進(jìn)一步的,計算該能量矩陣的最佳匹配的算法為:
【權(quán)利要求】
1. 一種人物信息的搜索方法,其特征在于,包括: 獲取多個網(wǎng)絡(luò)中的人物身份信息以及人物身份對應(yīng)關(guān)系; 將已知人物身份對應(yīng)關(guān)系的人物身份信息集合作為訓(xùn)練集; 根據(jù)所述訓(xùn)練集中的所述人物身份信息構(gòu)建基于人物行為相似度的能量最低模型,獲 取能量因子和匹配關(guān)系分類器; 根據(jù)所述匹配關(guān)系分類器將任意兩個人物身份信息進(jìn)行匹配,并采用能量因子進(jìn)行能 量填充形成能量矩陣,求解此能量矩陣得到單次預(yù)測的匹配結(jié)果; 對多次求解的匹配結(jié)果進(jìn)行集成,得到人物身份對應(yīng)關(guān)系并確定具有相同人名人物的 身份同一I"生; 接收輸入的人名,從多個網(wǎng)絡(luò)中獲取與所述人名對應(yīng)的人物身份信息; 根據(jù)相同人名的人物的身份同一性,在一個網(wǎng)頁中顯示同一人物在不同網(wǎng)絡(luò)中的身份 信息,其中,身份信息包括:電子郵件、電話、單位。
2. 如權(quán)利要求1所述的方法,其特征在于,所述將已知人物身份對應(yīng)關(guān)系的所述人物 身份信息的集合作為訓(xùn)練集、根據(jù)所述訓(xùn)練集中的所述人物身份信息構(gòu)建基于人物行為相 似度的能量最低模型、獲取能量因子和匹配關(guān)系分類器包括: 對于2個網(wǎng)絡(luò)P、Q中任意給定的節(jié)點V(i),其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征向量為:f(i)= {f\,f2,…fd},其中,節(jié)點代表人物身份信息,為節(jié)點基本屬性特征,包括:節(jié)點出度、入 度、聚類系數(shù)、鄰居節(jié)點、平均度、共同鄰居; 建立節(jié)點對特征向量向量,對于2個網(wǎng)絡(luò)P、Q的節(jié)點對特征向量向量為: j ^(/')) = !/41),/42),(^),/,(1), .4 ; 根據(jù)該節(jié)點對特征向量向量對匹配節(jié)點對進(jìn)行聚類,獲得各聚類類別C中所包含的具 有相似特征節(jié)點的個數(shù),將其作為粒子特征,節(jié)點對特征的分布情況作為能量因子,將具有 相似網(wǎng)絡(luò)行為特征的人物賦予等值的能量因子; k 構(gòu)建匹配節(jié)點對能量模型:minH=ZPi其中,1為相似特征的匹配節(jié)點對集合 i-\ . 依據(jù)特征進(jìn)行聚類后的節(jié)點對個數(shù),ε i為該類別對應(yīng)的能量因子; 根據(jù)所述能量模型獲取每個聚類類別所對應(yīng)的能量因子:ε = { ε ε 2, . . .,ε k},并 將其作為預(yù)測過程中節(jié)點對所屬類別的能量因子; 根據(jù)聚類類別結(jié)果建立K分類器,并賦予每個節(jié)點對類別編號。
3. 如權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述匹配關(guān)系分類器將任意兩個 人物身份信息進(jìn)行匹配、并采用能量因子進(jìn)行能量填充形成能量矩陣、求解此能量矩陣得 到單次預(yù)測的匹配結(jié)果包括: 對網(wǎng)絡(luò)P、Q中未知身份對應(yīng)關(guān)系的節(jié)點分別提取其拓?fù)浣Y(jié)構(gòu)特征:Fp⑴= {fP(l),fP(2),· ··,fP(m)}和卩々)={4(1),4(2),...,4(111)}; 對于任意未知身份對應(yīng)關(guān)系的節(jié)點i e P,j e Q,構(gòu)建nXn個所有未知節(jié)點的匹配節(jié) 點對特征向量: 巧 =八丨 > (/) j'y ⑴)={/p (I},從2),...,,以〃)Jy ⑴ 4 通過K分類器對匹配節(jié)點對特征向量進(jìn)行分類,得到每個節(jié)點對類別標(biāo)簽,構(gòu)建節(jié)點 對類別矩陣; 對類別矩陣進(jìn)行能量因子填充,將類別矩陣中類別標(biāo)簽替換為該類別所對應(yīng)的能量因 子,構(gòu)建能量矩陣; 計算能量矩陣的最佳匹配。
4. 如權(quán)利要求3所述的方法,其特征在于, 計算該能量矩陣的最佳匹配的算法為:
具甲,入ij衣不咧2谷P甲的卞點1與咧2谷G甲的卞點j是否存在--對應(yīng)關(guān)系,若 i 0 j的對應(yīng)關(guān)系被確立則標(biāo)記為1,否則標(biāo)記為〇,匹配結(jié)果表述為心(〇〇心(./+)。
5. 如權(quán)利要求3或4所述的方法,其特征在于,所述對多次求解的匹配結(jié)果進(jìn)行集成, 得到人物身份信息的對應(yīng)關(guān)系并確定具有相同人名的身份同一性包括: 得到ξ個預(yù)測結(jié)果,將每次預(yù)測結(jié)果在節(jié)點對匹配矩陣中進(jìn)行投票,得到投票矩陣 V-Matrix = (Vij); 求解該投票矩陣V-Matrix的最優(yōu)匹配問題,采用的算法為: 廠上
λ υ e {〇, 1}; 其中,k表示表示投票矩陣中第i行第j列的投票結(jié)果,λ u表示網(wǎng)絡(luò)P中的節(jié)點i 與網(wǎng)絡(luò)G中的節(jié)點j是否存在一一對應(yīng)關(guān)系,即表示節(jié)點對的最終匹配結(jié)果。
6. -種人物信息的搜索裝置,其特征在于,包括: 信息獲取單元,用于獲取多個網(wǎng)絡(luò)中的人物身份信息以及人物身份對應(yīng)關(guān)系; 訓(xùn)練集生成單元,用于將已知人物身份對應(yīng)關(guān)系的人物身份信息集合作為訓(xùn)練集;根 據(jù)所述訓(xùn)練集中的所述人物身份信息構(gòu)建基于人物行為相似度的能量最低模型,獲取能量 因子和匹配關(guān)系分類器; 匹配單元,用于根據(jù)所述匹配關(guān)系分類器將任意兩個人物身份信息進(jìn)行匹配,并采用 能量因子進(jìn)行能量填充形成能量矩陣,求解此能量矩陣得到單次預(yù)測的匹配結(jié)果; 集成單元,用于對多次求解的匹配結(jié)果進(jìn)行集成,得到人物身份對應(yīng)關(guān)系并確定具有 相同人名人物的身份同一'I"生。 搜索單元,用于接收輸入的人名,從多個網(wǎng)絡(luò)中獲取與所述人名對應(yīng)的人物身份信息 以;根據(jù)相同人名的人物的身份同一性,在一個網(wǎng)頁中顯示同一人物在不同網(wǎng)絡(luò)中的身份 信息; 其中,身份信息包括:電子郵件、電話、單位。
7. 如權(quán)利要求6所述的裝置,其特征在于: 所述訓(xùn)練集生成單元,包括: 節(jié)點對特征建立子模塊,用于對于2個網(wǎng)絡(luò)P、Q中任意給定的節(jié)點V(i),建立 其網(wǎng)絡(luò)拓?fù)浣Y(jié)構(gòu)特征向量為:f⑴={fi,f2,…fd},其中,節(jié)點代表人物身份信息, ?·Μ為節(jié)點基本屬性特征,包括:節(jié)點出度、人度、聚類系數(shù)、鄰居節(jié)點、平均度、共 同鄰居;建立節(jié)點對特征向量向量,對于2個網(wǎng)絡(luò)P、Q的節(jié)點對特征向量向量為: /'Xi;.(/) J ;(/)) = ⑴,Λ ⑵…從 量向量對匹配節(jié)點對進(jìn)行聚類,獲得各聚類類別C中所包含的具有相似特征節(jié)點的個數(shù), 將其作為粒子特征,節(jié)點對特征的分布情況作為能量因子,將具有相似網(wǎng)絡(luò)行為特征的人 物賦予等值的能量因子; 分類器生成子模塊,用于構(gòu)建匹配節(jié)點對能量模型:ηι?η//=?/^,其中,1為相似 z=l . 特征的匹配節(jié)點對集合依據(jù)特征進(jìn)行聚類后的節(jié)點對個數(shù),ε i為該類別對應(yīng)的能量因子; 根據(jù)所述能量模型獲取每個聚類類別所對應(yīng)的能量因子:ε = { ε ε 2, . . .,ε k},并將其 作為預(yù)測過程中節(jié)點對所屬類別的能量因子;根據(jù)聚類類別結(jié)果建立K分類器,并賦予每 個節(jié)點對類別編號。
8. 如權(quán)利要求6所述的裝置,其特征在于: 所述訓(xùn)練集生成單元,還包括: 節(jié)點對類別建立子模塊,用于對網(wǎng)絡(luò)P、Q中未知身份對應(yīng)關(guān)系的節(jié)點分別提取其拓?fù)?結(jié)構(gòu)特征:FP(i) = {fP(l),fP(2),· · ·,fP(m)}和?0(;〇 = {fQ(l),fQ(2),· · ·,fQ(m)};對于任 意未知身份對應(yīng)關(guān)系的節(jié)點i e P,j e Q,構(gòu)建nXn個所有未知節(jié)點的匹配節(jié)點對特征向 配節(jié)點對特征向量進(jìn)行分類,得到每個節(jié)點對類別標(biāo)簽,構(gòu)建節(jié)點對類別矩陣; 所述匹配單元,還用于對類別矩陣進(jìn)行能量因子填充,將類別矩陣中類別標(biāo)簽替換為 該類別所對應(yīng)的能量因子ε i = Mt()gOTy,構(gòu)建能量矩陣,計算能量矩陣的最佳匹配。
9. 如權(quán)利要求8所述的裝置,其特征在于, 所述匹配單元計算該能量矩陣的最佳匹配的算法為:
λ ij e {〇, 1}; 其中,Aij表示網(wǎng)絡(luò)ρ中的節(jié)點i與網(wǎng)絡(luò)G中的節(jié)點j是否存在--對應(yīng)關(guān)系,若 i 〇 j的對應(yīng)關(guān)系被確立則標(biāo)記為1,否則標(biāo)記為0,匹配結(jié)果表述為心(Ο ο k(./)。
10.如權(quán)利要求8或9所述的裝置,其特征在于: 所述集成單元,還用得到ξ個預(yù)測結(jié)果,將每次預(yù)測結(jié)果在節(jié)點對匹配矩陣中進(jìn)行投 票,得到投票矩陣V-Matrix = (Vij);求解該投票矩陣V-Matrix的最優(yōu)匹配問題,采用的公 式為:
其中,k表示表示投票矩陣中第i行第j列的投票結(jié)果,λ υ表示網(wǎng)絡(luò)P中的節(jié)點i 與網(wǎng)絡(luò)G中的節(jié)點j是否存在一一對應(yīng)關(guān)系,即表示節(jié)點對的最終匹配結(jié)果。
【文檔編號】G06F17/30GK104376116SQ201410720437
【公開日】2015年2月25日 申請日期:2014年12月1日 優(yōu)先權(quán)日:2014年12月1日
【發(fā)明者】王晶華, 陳晰, 郭光 , 謝乃博, 魏明磊 申請人:國家電網(wǎng)公司, 國網(wǎng)河北省電力公司, 國網(wǎng)河北省電力公司衡水供電分公司, 國家電網(wǎng)公司信息通信分公司