專利名稱:一種基于社會(huì)網(wǎng)絡(luò)和人名上下文的人物信息消歧處理方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種互聯(lián)網(wǎng)人物信息的消歧處理方法。
背景技術(shù):
由于通用搜索引擎對(duì)垂直領(lǐng)域相關(guān)知識(shí)的檢索結(jié)果遠(yuǎn)未達(dá)到人們的預(yù)期,垂直搜 索引擎技術(shù)應(yīng)運(yùn)而生。命名實(shí)體的研究作為垂直搜索引擎技術(shù)的核心,其研究也逐漸熱門 起來。命名實(shí)體是文本中承載信息的重要語言單位。實(shí)體概念在文本中的引用(entity mention,也可稱為指稱項(xiàng))可以有三種形式命名性指稱、名詞性指稱和代詞性指稱。圍繞 命名實(shí)體有一系列的研究任務(wù),例如命名實(shí)體的識(shí)別、排歧、屬性抽取、關(guān)系抽取等。其中, 命名實(shí)體識(shí)別任務(wù)是識(shí)別出文本中實(shí)體概念的命名性指稱項(xiàng),并標(biāo)明其類別(例如人名、 地名、機(jī)構(gòu)名、產(chǎn)品名等);命名實(shí)體排歧解決的是一個(gè)命名性指稱項(xiàng)指稱多個(gè)實(shí)體概念的 問題以及多個(gè)命名性指稱項(xiàng)指稱同一個(gè)實(shí)體概念的問題。利用搜索引擎檢索人物信息是互聯(lián)網(wǎng)用戶的主要活動(dòng)之一,然而現(xiàn)實(shí)世界中,多 個(gè)人物共用一個(gè)人名是很普遍的現(xiàn)象,根據(jù)國家語委1989年對(duì)第三次全國人口普查資料 進(jìn)行的抽樣調(diào)查,單名重名率為67.7%,雙名重名率為32.4%,這導(dǎo)致搜索引擎對(duì)某一特 定人名的檢索結(jié)果往往是共享這一人名的不同人物相關(guān)網(wǎng)頁的混合。例如,Google檢索 “王剛”返回的前10個(gè)結(jié)果中就有“國家著名演員”、“中央政治局委員”、“西北工業(yè)大學(xué)副 教授”、“山東黃金籃球隊(duì)隊(duì)員”、“建筑師”、“中國作家協(xié)會(huì)會(huì)員”等六位不同實(shí)體人物。雖然 現(xiàn)在有些系統(tǒng)能對(duì)檢索結(jié)果進(jìn)行聚類處理,例如mMiao、人立方等,但它們都把人名當(dāng)成普 通詞匯進(jìn)行處理,聚類結(jié)果的標(biāo)簽也是這個(gè)人名相關(guān)的一些詞匯,沒有對(duì)人名的重名結(jié)果 進(jìn)行區(qū)分。如在人立方六度空間中搜索“馬二磊”和“劉德華”的關(guān)系時(shí),系統(tǒng)會(huì)給出通過 “崔青”,“楊臣剛”建立聯(lián)系。因此有必要按照文檔中出現(xiàn)的某個(gè)指定的人名所指向的人進(jìn) 行聚類。最后,在每個(gè)類中,所有指定的人名都必須是指向現(xiàn)實(shí)生活中的同一個(gè)人,最終形 成的結(jié)果簡單、精煉、美觀,使用戶更快、更方便的得到所需搜索的人物信息。但現(xiàn)有技術(shù)達(dá) 不到上述要求。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種基于社會(huì)網(wǎng)絡(luò)和人名上下文的人物信息消歧處理方法, 以解決現(xiàn)有技術(shù)的搜索引擎對(duì)某一特定人名的檢索結(jié)果往往是共享這一人名的不同人物 相關(guān)網(wǎng)頁的混合的問題。它包括下述步驟一、用戶輸入一個(gè)要檢索的人名,利用搜索引擎 完成檢索,利用下載軟件把檢索到的網(wǎng)頁下載到本地計(jì)算機(jī);二、對(duì)上述網(wǎng)頁分別進(jìn)行正文 提取處理、分詞處理和詞性標(biāo)注的處理,形成文檔;三、利用人物領(lǐng)域信息先對(duì)文檔進(jìn)行分 類,再利用社會(huì)網(wǎng)絡(luò)和上下文信息對(duì)人物領(lǐng)域信息進(jìn)行聚類處理,最終顯示出每個(gè)人物領(lǐng) 域信息與實(shí)體人物之間的對(duì)應(yīng)關(guān)系,并且顯示出每個(gè)實(shí)體人物存在的社會(huì)網(wǎng)絡(luò)。由于本發(fā)明把檢索到的網(wǎng)頁進(jìn)行了正文提取、分詞和詞性標(biāo)注以及分類、聚類等 處理,最終確定了實(shí)體人物與人物領(lǐng)域信息的對(duì)應(yīng)關(guān)系并且顯示出每個(gè)實(shí)體人物存在的社會(huì)網(wǎng)絡(luò),從而每個(gè)實(shí)體人物所對(duì)應(yīng)的相關(guān)網(wǎng)頁都能夠被區(qū)分開,因而實(shí)現(xiàn)了人物信息的排 歧處理。
圖1是本發(fā)明的整體原理示意圖,圖2是已基于人物領(lǐng)域信息的預(yù)分類示意圖, 圖3是基于社會(huì)網(wǎng)絡(luò)和上下文信息的文檔處理示意圖。
具體實(shí)施例方式具體實(shí)施方式
一本實(shí)施方式包括下述步驟一、用戶輸入一個(gè)要檢索的人名,利 用搜索引擎,如Google API,(即谷歌公司提供的應(yīng)用編程接口)完成檢索,把檢索到的網(wǎng) 頁下載到本地計(jì)算機(jī);二、對(duì)上述網(wǎng)頁分別進(jìn)行正文提取、分詞和詞性標(biāo)注處理,形成文檔; 所述分詞即將每句話切分為具有獨(dú)立意義的詞條,詞性標(biāo)注是指同時(shí)標(biāo)記每個(gè)詞的如名 詞、動(dòng)詞等詞性,分詞和詞性標(biāo)注可分別采用廣泛使用的正向最大匹配方法及N元文法等。 三、利用人物領(lǐng)域信息先對(duì)文檔進(jìn)行分類,再利用社會(huì)網(wǎng)絡(luò)和上下文信息對(duì)人物領(lǐng)域信息 進(jìn)行聚類處理,最終顯示出每個(gè)人物領(lǐng)域信息與實(shí)體人物之間的對(duì)應(yīng)關(guān)系,并且顯示出每 個(gè)實(shí)體人物存在的社會(huì)網(wǎng)絡(luò)。
具體實(shí)施方式
二 本實(shí)施方式與實(shí)施方式一的不同點(diǎn)是在第三步驟中利用人物領(lǐng) 域信息進(jìn)行分類是這樣進(jìn)行的基于人物領(lǐng)域信息進(jìn)行預(yù)分類,將人物信息分為文娛、行 政、軍事、科教、體育、醫(yī)療、經(jīng)濟(jì)等七大類,對(duì)每個(gè)類,手工標(biāo)注若干篇代表性文檔,而后提 取每個(gè)領(lǐng)域類別的特征信息,形成一個(gè)領(lǐng)域特征庫,那么利用SVM進(jìn)行文檔分類處理,簡單 地把現(xiàn)實(shí)中的人物進(jìn)行分類。這樣,一個(gè)類型中的人物就和其他類型中的人物分開了,他們 之間就沒有可比性了,后續(xù)只要處理同一個(gè)領(lǐng)域類別中的人物信息就可以了,對(duì)同一個(gè)類 別中的人物進(jìn)行聚類處理,從而最終實(shí)現(xiàn)人物信息的排歧處理。
具體實(shí)施方式
三本實(shí)施方式與實(shí)施方式一的不同點(diǎn)是在第三步驟中利用社會(huì)網(wǎng) 絡(luò)和上下文信息對(duì)人物領(lǐng)域信息進(jìn)行聚類處理是這樣進(jìn)行的文檔中出現(xiàn)的其他人物信息 的上下文信息能很好的顯示了人物的一些用于區(qū)別他人的特有屬性。文檔中共現(xiàn)的人名組 成其社會(huì)網(wǎng)絡(luò),上下文信息構(gòu)成其社會(huì)屬性特征。檢索人名A,如果文檔Dl中出現(xiàn)人名A和 B,文檔D2中也出現(xiàn)人名A和B,那么文檔Dl和D2就是說的同一個(gè)現(xiàn)實(shí)中的人物實(shí)體,那么 他們對(duì)應(yīng)于同一個(gè)類別,否則D2中出現(xiàn)人名A和C,則認(rèn)為他們?yōu)椴煌娜宋镱悇e。并且在 處理過程中,其社會(huì)網(wǎng)絡(luò)是在不斷的擴(kuò)大的,即如果文檔Dl中出現(xiàn)人名A、B和C,文檔D2中 出現(xiàn)人名A、B和D,那么文檔Dl和文檔D2的社會(huì)網(wǎng)絡(luò)都將是A、B、C、D。但是在利用社會(huì) 網(wǎng)絡(luò)處理過程中會(huì)出現(xiàn)一篇文檔中只出現(xiàn)一個(gè)名字,那么社會(huì)網(wǎng)絡(luò)處理方法就會(huì)失效,這 時(shí)利用上下文信息,主要是對(duì)其社會(huì)屬性如職稱等信息進(jìn)行匹配進(jìn)行處理,如果文檔D4中 沒有出現(xiàn)其他共現(xiàn)人名的話,如果文檔D3和文檔D4中人名上下文信息匹配度高的話,就認(rèn) 為D3和D4是同一個(gè)類別,并且這樣可能把D3的社會(huì)網(wǎng)絡(luò)傳遞給了 D4。
具體實(shí)施方式
四據(jù)中華人民共和國國家統(tǒng)計(jì)局對(duì)于社會(huì)各個(gè)行業(yè)的劃分標(biāo)準(zhǔn), 本實(shí)施方式將“人物”劃分為七個(gè)類別,分別是文娛、行政、軍事、科教、體育、醫(yī)療、經(jīng)濟(jì)。本 實(shí)施方式根據(jù)文檔詞頻(DF)、信息增益(IG)、互信息(MI)、X2統(tǒng)計(jì)(CHI)、交叉熵法和優(yōu)勢(shì)率等統(tǒng)計(jì)量獲得文檔特征,然后采用基于屬性論的文本相似度方法來進(jìn)行人物信息的預(yù)分 類處理。
每個(gè)領(lǐng)域人物信息的特征庫是已知的一個(gè)文本信息向量,利用目標(biāo)文本向量與之 計(jì)算相似度,每個(gè)領(lǐng)域都計(jì)算一次,哪個(gè)相似度大就將其歸為哪一個(gè)類別。知道已知文本信息向量為d = U1W1, t2w2. . . tiWi. . . tnwn)其中t為特征詞,w為其 對(duì)應(yīng)的權(quán)重,在上面進(jìn)行特征庫構(gòu)建的過程中,其中η值為2000,選取詞的權(quán)重為詞頻,而 根據(jù)屬性論的方法,其權(quán)重為0-1之間的一個(gè)值,所以在這里對(duì)權(quán)重進(jìn)行處理;
權(quán)利要求
1.一種基于社會(huì)網(wǎng)絡(luò)和人名上下文的人物信息消歧處理方法,其特征在于它包括下述 步驟一、用戶輸入一個(gè)要檢索的人名,利用搜索引擎完成檢索,利用下載軟件把檢索到的 網(wǎng)頁下載到本地計(jì)算機(jī);二、對(duì)上述網(wǎng)頁分別進(jìn)行正文提取處理、分詞處理和詞性標(biāo)注的處 理,形成文檔;三、利用人物領(lǐng)域信息先對(duì)文檔進(jìn)行分類,再利用社會(huì)網(wǎng)絡(luò)和上下文信息對(duì) 人物領(lǐng)域信息進(jìn)行聚類處理,最終顯示出每個(gè)人物領(lǐng)域信息與實(shí)體人物之間的對(duì)應(yīng)關(guān)系, 并且顯示出每個(gè)實(shí)體人物存在的社會(huì)網(wǎng)絡(luò)。
2.根據(jù)權(quán)利要求1所述的一種基于社會(huì)網(wǎng)絡(luò)和人名上下文的人物信息消歧處理方法, 其特征在于在第三步驟中利用人物領(lǐng)域信息進(jìn)行分類是這樣進(jìn)行的基于人物領(lǐng)域信息 進(jìn)行預(yù)分類,將人物信息分為文娛、行政、軍事、科教、體育、醫(yī)療、經(jīng)濟(jì)七大類,根據(jù)手工標(biāo) 注的語料,提取每個(gè)領(lǐng)域類別的特征信息,形成一個(gè)領(lǐng)域特征庫,利用SVM進(jìn)行文檔分類處 理。
3.根據(jù)權(quán)利要求2所述的一種基于社會(huì)網(wǎng)絡(luò)和人名上下文的人物信息消歧處理方法, 其特征在于第三步驟中利用人物領(lǐng)域信息進(jìn)行分類是這樣進(jìn)行的根據(jù)文檔詞頻、信息增 益、互信息、X2統(tǒng)計(jì)、交叉熵法和優(yōu)勢(shì)率這些統(tǒng)計(jì)量獲得文檔特征,然后采用基于屬性論的 文本相似度方法來進(jìn)行人物信息的預(yù)分類處理;每個(gè)領(lǐng)域人物信息的特征庫是已知的一個(gè) 文本信息向量,利用目標(biāo)文本向量與之計(jì)算相似度,每個(gè)領(lǐng)域都計(jì)算一次,哪個(gè)相似度大就 將其歸為哪一個(gè)類別。
4.根據(jù)權(quán)利要求1所述的一種基于社會(huì)網(wǎng)絡(luò)和人名上下文的人物信息消歧處理方法, 其特征在于在第三步驟中利用社會(huì)網(wǎng)絡(luò)和上下文信息對(duì)人物領(lǐng)域信息進(jìn)行聚類處理是這 樣進(jìn)行的文檔中出現(xiàn)的其他人物信息及人名附件的上下文信息能很好的顯示了人物的一 些用于區(qū)別他人的特有屬性。文檔中共現(xiàn)的人名組成其社會(huì)網(wǎng)絡(luò),上下文信息構(gòu)成其社會(huì) 屬性特征。
全文摘要
一種基于社會(huì)網(wǎng)絡(luò)和人名上下文的人物信息消歧處理方法,本發(fā)明涉及一種互聯(lián)網(wǎng)人物信息的消歧處理方法。它解決了現(xiàn)有技術(shù)的搜索引擎對(duì)某一特定人名的檢索結(jié)果往往是共享這一人名的不同人物相關(guān)網(wǎng)頁的混合的問題。用于網(wǎng)絡(luò)人物信息檢索。它包括下述步驟一、用戶輸入一個(gè)要檢索的人名,利用搜索引擎完成檢索,利用下載軟件把檢索到的網(wǎng)頁下載到本地計(jì)算機(jī);二、對(duì)上述網(wǎng)頁分別進(jìn)行正文提取處理、分詞處理和詞性標(biāo)注的處理,形成文檔;三、利用人物領(lǐng)域信息先對(duì)文檔進(jìn)行分類,再利用社會(huì)網(wǎng)絡(luò)和上下文信息對(duì)人物領(lǐng)域信息進(jìn)行聚類處理,最終顯示出每個(gè)人物領(lǐng)域信息與實(shí)體人物之間的對(duì)應(yīng)關(guān)系,并且顯示出每個(gè)實(shí)體人物存在的社會(huì)網(wǎng)絡(luò)。
文檔編號(hào)G06F17/27GK102054029SQ20101059374
公開日2011年5月11日 申請(qǐng)日期2010年12月17日 優(yōu)先權(quán)日2010年12月17日
發(fā)明者劉秉權(quán), 劉遠(yuǎn)超, 劉銘, 單麗莉, 孫承杰, 林磊, 王曉龍 申請(qǐng)人:哈爾濱工業(yè)大學(xué)