個(gè)人主頁(yè)的查找方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及計(jì)算機(jī)網(wǎng)絡(luò)信息技術(shù)領(lǐng)域,具體涉及一種個(gè)人主頁(yè)的查找方法。
【背景技術(shù)】
[0002] 專家發(fā)現(xiàn)是信息檢索領(lǐng)域一個(gè)非常重要的方面[1]。從國(guó)家自然基金委的專家?guī)斓?國(guó)際會(huì)議的審稿人推薦系統(tǒng),以及普通人都能接觸到的醫(yī)療網(wǎng)站醫(yī)生推薦功能等很多應(yīng)用 都需要龐大的專家?guī)熘С帧L貏e是近期政府又出臺(tái)了《科技部辦公廳關(guān)于完善補(bǔ)充國(guó)家科 技專家?guī)鞂<倚畔⒌耐ㄖ?,可以看出完善專家信息,?gòu)建專家?guī)炀哂兄匾囊饬x。然而專 家?guī)旖ㄔO(shè),尤其對(duì)一些超過(guò)萬(wàn)人的大型專家?guī)欤瑢<覀€(gè)人信息維護(hù)更新是一個(gè)非常耗時(shí)耗 力卻又非常重要的任務(wù)。專家個(gè)人信息的準(zhǔn)確性及完備性對(duì)專家?guī)斓姆?wù)質(zhì)量有著重要的 影響。隨著互聯(lián)網(wǎng)的普及與發(fā)展,很多研究者都建立了個(gè)人主頁(yè)并保持個(gè)人信息實(shí)時(shí)更新, 這是快速獲取專家個(gè)人信息的重要渠道。在本專利中,我們提出了一種高準(zhǔn)確率且適應(yīng)性 強(qiáng)的個(gè)人主頁(yè)自動(dòng)查找方法。該方法結(jié)合信息自動(dòng)抽取技術(shù)及人工標(biāo)注工作,可以大大提 高專家?guī)熘袑<覀€(gè)人信息更新效率,進(jìn)而提高專家?guī)斓姆?wù)質(zhì)量。個(gè)人主頁(yè)查找。
[0003] 個(gè)人主頁(yè)查找,即對(duì)于一個(gè)給定姓名和工作單位的人,從互聯(lián)網(wǎng)的海量信息中找 到包含其個(gè)人信息的頁(yè)面,該頁(yè)面可以是其自己建立的web頁(yè)面,也可以是所在工作機(jī)構(gòu) 建立的介紹頁(yè)面。目前已存在一些類(lèi)似研究,如左南等人在研究中提到利用SVM查找對(duì)構(gòu) 建社會(huì)網(wǎng)絡(luò)有用的頁(yè)面 [2]。雖然方法類(lèi)似,但其個(gè)人主頁(yè)相比于有用頁(yè)面更加具體化,更 難發(fā)掘;唐杰等人[3' 4]的研究雖然具體到個(gè)人主頁(yè)層面,但僅僅止步于頁(yè)面分類(lèi),然而由于 Google摘要字?jǐn)?shù)的限制性以及人工標(biāo)注可能存在失誤,抽取結(jié)果仍有待提高。
[0004] 在本專利中,針對(duì)個(gè)人主頁(yè)的特點(diǎn)以及以往工作的不足,我們提出了一種規(guī)則結(jié) 合機(jī)器學(xué)習(xí)的個(gè)人主頁(yè)查找方法。該方法首先利用Google搜索引擎獲得可能包含個(gè)人主 頁(yè)的高質(zhì)量數(shù)據(jù)源,之后人工標(biāo)注部分?jǐn)?shù)據(jù)。因?yàn)閷?duì)任一個(gè)網(wǎng)頁(yè)來(lái)說(shuō)都有可能是期望的個(gè) 人主頁(yè),也有可能不是,所以個(gè)人主頁(yè)的查找可以看做是一個(gè)二分類(lèi)問(wèn)題。專利中采用分類(lèi) 算法中比較經(jīng)典的支持向量機(jī)SVM對(duì)標(biāo)注的數(shù)據(jù)進(jìn)行訓(xùn)練學(xué)習(xí)得到較理想的模型,最后結(jié) 合預(yù)先定義的規(guī)則過(guò)濾,從而找出期望的個(gè)人主頁(yè)。該方法有效的解決了由于Google搜索 結(jié)果反映網(wǎng)頁(yè)內(nèi)容的局限性而導(dǎo)致的分類(lèi)準(zhǔn)確率不夠高的問(wèn)題。
[0005] 參考文獻(xiàn):
[0006] [1]劉健,李綺,劉寶宏,張?jiān)苹谠掝}模型的專家發(fā)現(xiàn)方法國(guó)防科技大學(xué)學(xué)報(bào) Vol 35, No. 22013
[0007] [2]左南,李娟子,唐杰基于SVM的肖像照片抽取第三屆全國(guó)信息檢索與內(nèi)容安全 學(xué)術(shù)會(huì)議2007
[0008] [3] J. Tang, L Yaoj D. Zhang, and J. Zhang. A combination approach to web user profiling. ACM TKDDj 5 (I) : I - 44, 2010.
[0009] [4] J. Tang, J. Zhang, L. Yaoj J. Li, L. Zhang, and Z. Su. Arnetminer:Extraction and mining of academic social networks. KDDj pages 990 - 998,2008
【發(fā)明內(nèi)容】
[0010] 本發(fā)明旨在至少解決上述技術(shù)問(wèn)題之一。
[0011] 為此,本發(fā)明的目的在于提出一種個(gè)人主頁(yè)的查找方法。
[0012] 為了實(shí)現(xiàn)上述目的,本發(fā)明的第一方面的實(shí)施例公開(kāi)了一種個(gè)人主頁(yè)的查找方 法,包括以下步驟:A :在搜索引擎中輸入關(guān)鍵信息獲得搜索結(jié)果,采用所述搜索結(jié)果中最 接近所述關(guān)鍵信息的第一預(yù)設(shè)數(shù)量的搜索結(jié)果作為數(shù)據(jù)集;B :從所述數(shù)據(jù)集中抽取部分 數(shù)據(jù)文本進(jìn)行人工標(biāo)注,用于區(qū)分是否為目標(biāo)人物的個(gè)人主頁(yè);C :對(duì)已經(jīng)標(biāo)注過(guò)的所述數(shù) 據(jù)文本分為第二預(yù)設(shè)數(shù)量的訓(xùn)練集和第三預(yù)設(shè)數(shù)量的測(cè)試集;D :對(duì)所述訓(xùn)練集抽取訓(xùn)練 集特征信息;E :利用SVM對(duì)所述訓(xùn)練集特征信息進(jìn)行建模,得到第一模型;F :對(duì)所述測(cè)試 集抽取測(cè)試集特征信息;G :利用所述第一模型對(duì)所述測(cè)試集特征信息進(jìn)行分析,得到預(yù)測(cè) 結(jié)果;H :根據(jù)預(yù)設(shè)的個(gè)人主頁(yè)判斷規(guī)則對(duì)所述預(yù)測(cè)結(jié)果進(jìn)行判斷;I :采用十折交叉驗(yàn)證方 法對(duì)步驟C至步驟H進(jìn)行迭代,選取最優(yōu)模型;J :采用所述最優(yōu)模型判斷所述搜索結(jié)果是 否為目標(biāo)人物的個(gè)人主頁(yè)。
[0013] 根據(jù)本發(fā)明實(shí)施例的個(gè)人主頁(yè)的查找方法,能夠快速、準(zhǔn)確的根據(jù)給定的簡(jiǎn)單信 息找到某人的個(gè)人主頁(yè),進(jìn)而可以通過(guò)自動(dòng)算法或人工標(biāo)注方法提取此人的詳細(xì)信息包括 聯(lián)系方式(郵箱,電話,地址等),個(gè)人簡(jiǎn)介,研究興趣,承擔(dān)項(xiàng)目,論文列表等。這些詳細(xì)信 息是建立如專家智庫(kù),評(píng)審專家?guī)斓热瞬艓?kù)的重要條件,同時(shí)這些信息的完備程度對(duì)于如 專家推薦,審稿人推薦等應(yīng)用服務(wù)的效果有重要影響?,F(xiàn)在有很多大型的人才庫(kù)如自然科 學(xué)基金評(píng)審專家?guī)煊谐^(guò)14萬(wàn)人,這些專家的信息更新維護(hù)是一個(gè)非常耗時(shí)耗力卻又非 常重要的工程。應(yīng)用本發(fā)明實(shí)施例的個(gè)人主頁(yè)查找方法,結(jié)合自動(dòng)信息提取算法,可以大大 提高人才庫(kù)人員信息的更新效率,對(duì)于保持人才庫(kù)信息的實(shí)時(shí)性,提高人才庫(kù)服務(wù)質(zhì)量具 有重要意義。
[0014] 另外,根據(jù)本發(fā)明上述實(shí)施例的個(gè)人主頁(yè)的查找方法,還可以具有如下附加的技 術(shù)特征:
[0015] 進(jìn)一步地,在步驟A中,所述關(guān)鍵信息包括:第一搜索詞組,所述第一搜索詞組包 括目標(biāo)人物姓名和目標(biāo)人物所在單位;第二搜索詞組;所述第二搜索詞組包括所述目標(biāo)人 物姓名和主頁(yè);以及第三搜索詞組,所述第三搜索詞組包括所述目標(biāo)人物姓名和郵箱。
[0016] 進(jìn)一步地,在步驟D中,所述訓(xùn)練集特征信息包括所述訓(xùn)練集中每個(gè)詞的TFIDF 值,其中所述TFIDF的計(jì)算公式為:
[0017] tfidf(t,d, D) = tf (t, d) *idf (t, D)
[0018] 其中t為詞,d代表所述詞出現(xiàn)的文章,D為整個(gè)語(yǔ)料庫(kù),tf代表詞頻,IDF代表逆 向文件頻率:
[0019]
[0020]
[0021] 其中,對(duì)于任一篇文檔j中的詞i,所述詞i的詞頻tf為所述詞i在所述文檔j中 出現(xiàn)的次數(shù)Ii1,,除以所述文檔中的總詞數(shù);所述詞i的idf值為所述語(yǔ)料庫(kù)的文檔數(shù)除以 包含該詞的文檔數(shù)的log值;將所述搜索結(jié)果的標(biāo)題和網(wǎng)頁(yè)摘要作為兩個(gè)互不影響的語(yǔ)料 庫(kù),分別在各自的詞空間內(nèi)進(jìn)行TFIDF值的計(jì)算。
[0022] 進(jìn)一步地,所述訓(xùn)練集特征信息還包括詞性,使用漢語(yǔ)詞法分析系統(tǒng)對(duì)每條所述 搜索結(jié)果的標(biāo)題進(jìn)行詞性分析,統(tǒng)計(jì)各種詞性出現(xiàn)的次數(shù)。
[0023] 進(jìn)一步地,所述訓(xùn)練集特征信息還包括其它特征,所述其它特征包括:URL中是否 包含干擾詞;標(biāo)題中是否出現(xiàn)所述目標(biāo)人物姓名;以及網(wǎng)頁(yè)摘要中出現(xiàn)所述目標(biāo)人物姓名 的位置。
[0024] 進(jìn)一步地,在步驟E,采用SVM-Iight建立所述第一模型,在步驟G中,采用所述 SVM-Iight和所述第一模型對(duì)所述測(cè)試集特征信息進(jìn)行分析。
[0025] 進(jìn)一步地,在步驟H中,所述個(gè)人主頁(yè)判斷規(guī)則是:若出現(xiàn)以下任意一種情形,則 所述預(yù)測(cè)結(jié)果的權(quán)重減少,Hl :所述網(wǎng)頁(yè)摘要中包含年、月和日信息;H2 :所述目標(biāo)人物姓 名在所述網(wǎng)頁(yè)摘要中出現(xiàn)三次以上;H3 :所述目標(biāo)人物姓名出現(xiàn)在所述網(wǎng)頁(yè)摘要的后半部 分,并且僅出現(xiàn)在論文合作者中。
[0026] 本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變 得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。
【附圖說(shuō)明】
[0027] 本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變 得明顯和容易理解,其中:
[0028] 圖1是本發(fā)明一個(gè)實(shí)施例的主頁(yè)抽取流程圖。
【具體實(shí)施方式】
[0029] 下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終 相同或類(lèi)似的標(biāo)號(hào)表示相同或類(lèi)似的元件或具有相同或類(lèi)似功能的元件。下面通過(guò)參考附 圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。
[0030] 在本發(fā)明的描述中,需要理解的是,術(shù)語(yǔ)"中心"、"縱向"、"橫向"、"上"、"下"、"前"、 "后"、"左"、"右"、"豎直"、"水平"、"頂"、"底"、"內(nèi)"、"外"等指示的方位或位置關(guān)系為基于 附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明和簡(jiǎn)化描述,而不是指示或暗示所 指的裝置或元件必須具有特定的方位、以特定的方位構(gòu)造和操作,因此不能理解為對(duì)本發(fā) 明的限制。此外,術(shù)語(yǔ)"第一"、"第二"僅用于描述目的,而不能理解為指示或暗示相對(duì)重要 性。
[0031] 在本發(fā)明的描述中,需要說(shuō)明的是,除非另有明確的規(guī)定和限定,術(shù)語(yǔ)"安裝"、"相 連"、"連接"應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可 以是機(jī)械連接,也可以是電連接;可以是直接相連,也可以通過(guò)中間媒介間接相連,可以是 兩個(gè)元件內(nèi)部的連通。對(duì)于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語(yǔ)在本 發(fā)明中的具體含義。
[0032] 參照下面的描述和附圖,將清楚本發(fā)明的實(shí)施例的這些和其他方面。在這些描述 和附圖中,具體公開(kāi)了本發(fā)明的實(shí)施例中的一些特定實(shí)施方式,來(lái)表示實(shí)施本發(fā)明的實(shí)施 例的原理的一些方式,但是應(yīng)當(dāng)理解,本發(fā)明的實(shí)施例的范圍不受此限制。相反,本發(fā)明的 實(shí)施例包括落入所附加權(quán)利要求書(shū)的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0033] 以下結(jié)合附圖描述根據(jù)本發(fā)明實(shí)施例的個(gè)人主頁(yè)的查找方法。
[0034] 圖1是本發(fā)明一個(gè)實(shí)施例的主頁(yè)抽取流程圖,請(qǐng)參考圖1。
[0035] -、獲得高質(zhì)量的數(shù)據(jù)集
[0036] 隨著互聯(lián)網(wǎng)的發(fā)展,越來(lái)越多的信息足不出戶便可以從網(wǎng)上獲取。統(tǒng)計(jì)發(fā)現(xiàn),相當(dāng) 一部分研究者在網(wǎng)上都有自己的個(gè)人主頁(yè),而個(gè)人主頁(yè)上所列出的研究者相關(guān)信息是構(gòu)建 專家智庫(kù),評(píng)審專家?guī)斓热瞬艓?kù)的重要條件,同時(shí)這些信息的完備程度對(duì)于如專家推薦,審 稿人推薦等應(yīng)用服務(wù)的效果有重要影響,因此如何獲得個(gè)人主頁(yè)數(shù)據(jù)極為關(guān)鍵。得益于搜 索引擎的發(fā)展,通過(guò)合理的關(guān)鍵詞檢索,便可以獲得這些數(shù)據(jù)。目前比較流行的搜索引擎有 Baidu、Bing、Google三種,考慮到研究者的國(guó)際化,在本專利中使用全球最大的Google搜 索引擎作為獲得數(shù)據(jù)集的工具。通過(guò)使用Google Search API,以特定詞組作為搜索關(guān)鍵 詞,獲得可能包含研究者主頁(yè)的搜索結(jié)果。
[0037] Google Search API 的接 口地址如下:
[0038] http://ajax.googleapis.com/ajax/services/search/web ? v = 1.0 &hl = z