詞與網(wǎng)頁(yè)的關(guān)聯(lián)度計(jì)算方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及爬詞技術(shù)領(lǐng)域,具體的涉及一種詞與網(wǎng)頁(yè)的關(guān)聯(lián)度計(jì)算方法及裝置。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)的快速發(fā)展,每天都有海量新聞資訊產(chǎn)生,這些信息在互聯(lián)網(wǎng)上以 HTML網(wǎng)頁(yè)文檔的形式進(jìn)行傳播。但是海量的信息對(duì)用戶(hù)高效的檢索和獲取信息帶來(lái)了極大 挑戰(zhàn),各種搜索引擎與推薦系統(tǒng)等應(yīng)用的出現(xiàn)為其提供了有效的途徑,而建立詞與網(wǎng)頁(yè)之 間的關(guān)聯(lián)關(guān)系是這些應(yīng)用的基礎(chǔ)。詞與網(wǎng)頁(yè)之間的關(guān)聯(lián)關(guān)系通過(guò)關(guān)聯(lián)度來(lái)表示其關(guān)聯(lián)關(guān)系 的大小,目前詞與網(wǎng)頁(yè)之間的關(guān)聯(lián)度主要以詞在網(wǎng)頁(yè)正文中的TF-IDF(詞頻-逆向文件頻 率)值來(lái)表示。
[0003] 現(xiàn)有的以詞在網(wǎng)頁(yè)正文中的TF-IDF值作為文本的關(guān)聯(lián)度計(jì)算方法存在以下缺點(diǎn): 1、需要在文本集合上計(jì)算,所得結(jié)果易受文本集的內(nèi)容影響;2、IDF(逆文本頻度)的簡(jiǎn)單結(jié) 構(gòu)不能有效地反映詞的重要程度和分布情況,作為關(guān)聯(lián)度精度不高;3、只考慮了網(wǎng)頁(yè)正文 詞的統(tǒng)計(jì)信息,忽略了網(wǎng)頁(yè)標(biāo)題所包含的與網(wǎng)頁(yè)最相關(guān)的詞信息。
【發(fā)明內(nèi)容】
[0004] 本發(fā)明的目的在于提供一種詞與網(wǎng)頁(yè)的關(guān)聯(lián)度計(jì)算方法及裝置,該發(fā)明解決了現(xiàn) 有技術(shù)中關(guān)聯(lián)度計(jì)算結(jié)果易受文本集的內(nèi)容影響、IDF關(guān)聯(lián)度計(jì)算精度不高、忽略網(wǎng)頁(yè)標(biāo)題 所含信息的技術(shù)問(wèn)題。
[0005] 本發(fā)明的一方面提供一種詞與網(wǎng)頁(yè)的關(guān)聯(lián)度計(jì)算方法,包括以下步驟:
[0006] 步驟S100:讀取網(wǎng)頁(yè)的標(biāo)題和正文內(nèi)容,進(jìn)行分詞及詞性標(biāo)注,得到正文詞列表 130(171^81:和標(biāo)題詞列表1:;[1:161^81:,對(duì)正文分詞列表130(171^81:和標(biāo)題分詞列表1:;[1:161^81:分 別進(jìn)行過(guò)濾預(yù)處理;
[0007] 步驟S200:構(gòu)建詞連接集合1 inkMap;
[0008] 步驟S300:根據(jù)標(biāo)題詞列表titleList對(duì)詞連接集合linkMap進(jìn)行修正,得到修正 詞連接集合,利用修正詞連接集合計(jì)算網(wǎng)頁(yè)中每個(gè)詞的TextRank得分,得到每個(gè)詞的得分 集合scoreMap,過(guò)濾得分集合scoreMap中的常用詞,余下的得分集合scoreMap中的詞及其 TextRank得分,即為詞與網(wǎng)頁(yè)的關(guān)聯(lián)度。
[0009] 進(jìn)一步地,詞連接集合1 inkMap的構(gòu)建包括以下步驟:
[0010] 步驟S210:初始化隊(duì)列queue、詞連接集合linkMap和窗口大小N,遍歷正文詞列表 bodyList,將第i個(gè)詞A加入隊(duì)列queue的尾部,若隊(duì)列queue的長(zhǎng)度大于N,則將隊(duì)列queue的 隊(duì)首元素刪除,若第i個(gè)詞A不包含于詞連接集合linkMap中,則將第i個(gè)詞A加入詞連接集合 linkMap中并設(shè)置第i個(gè)詞A的值為空集合;步驟S220:對(duì)隊(duì)列queue中的所有任兩元素進(jìn)行 比較,如果二者不相同則分別加入任兩詞連接集合linkMap的連接詞集合中;步驟S230:遍 歷正文詞列表bodyList,重復(fù)步驟S210~S220得到詞連接集合linkMap。
[0011] 進(jìn)一步地,過(guò)濾預(yù)處理步驟包括過(guò)濾停用詞,并保留名詞、動(dòng)詞、形容詞及副詞。
[0012] 進(jìn)一步地,步驟S300包括以下步驟:
[0013] 步驟S310:計(jì)算詞連接集合linkMap中每個(gè)詞的連接詞集合大小的平均值記為M, 從詞連接集合linkMap中選取前M個(gè)連接詞集合最大的詞構(gòu)建詞集合reviseSet;
[0014] 步驟S320:遍歷標(biāo)題詞列表titleList中的標(biāo)題詞,若標(biāo)題詞不包含于詞連接集合 linkMap中,則將標(biāo)題詞加入詞連接集合linkMap并將詞集合reviseSet中的所有詞加入到 標(biāo)題詞的連接詞集合中;
[0015] 若標(biāo)題詞包含于詞連接集合linkMap中,則將詞集合reviseSet中除標(biāo)題詞之外的 所有詞加入標(biāo)題詞的連接詞集合中;
[0016] 步驟S330:遍歷reviseSet判斷其中每個(gè)詞是否是標(biāo)題詞,如果該詞不是標(biāo)題詞, 則將標(biāo)題詞加入該詞在詞連接集合1 inkMap中對(duì)應(yīng)的連接詞集合;否則,不做處理;
[0017] 步驟S340:遍歷標(biāo)題詞列表titleList,重復(fù)步驟S310~330得到修正詞連接集合。
[0018] 進(jìn)一步地,TextRank得分WS(Vi)的計(jì)算公式為:
[0020]其中,d為阻尼系數(shù),Vi表示詞連接集合linkMap中的第i個(gè)詞,Wji表示詞連接集合 linkMap中第i個(gè)詞與第j個(gè)詞的連接權(quán)重,In(Vi)表示詞連接集合linkMap中第i個(gè)詞的連 接詞集合,Out (Vj)表示linkMap第j個(gè)詞的連接詞集合,WS(Vj)表示第linkMap中第j個(gè)詞的 TextRank 得分。
[0021]本發(fā)明的另一方面還提供了一種如上述方法用的詞與網(wǎng)頁(yè)的關(guān)聯(lián)度計(jì)算裝置,包 括:
[0022]分詞預(yù)處理模塊,用于讀取網(wǎng)頁(yè)的標(biāo)題和正文內(nèi)容,進(jìn)行分詞及詞性標(biāo)注,得到正 文詞列表bodyList和標(biāo)題詞列表titleList,對(duì)正文分詞列表bodyList和標(biāo)題分詞列表 titleList分別進(jìn)行過(guò)濾預(yù)處理;
[0023]詞連接計(jì)算模塊:用于構(gòu)建詞連接集合linkMap,以鍵值對(duì)形存儲(chǔ),其中鍵為正文 分詞列表body Li s t中的當(dāng)前詞,值為與當(dāng)前詞有連接關(guān)系的連接詞集合;
[0024]關(guān)聯(lián)度計(jì)算模塊,用于根據(jù)標(biāo)題詞列表titleList對(duì)詞連接集合linkMap進(jìn)行修 正,得到修正詞連接集合,利用修正詞連接集合計(jì)算網(wǎng)頁(yè)中每個(gè)詞的TextRank得分,得到每 個(gè)詞的得分集合scoreMap,過(guò)濾得分集合scoreMap中的常用詞,余下的得分集合scoreMap 中的詞及其TextRank得分,即為詞與網(wǎng)頁(yè)的關(guān)聯(lián)度。
[0025] 進(jìn)一步地,TextRank得分WS(Vi)的計(jì)算公式為:
[00Z7]其中,d為阻尼系數(shù),Vi表示詞連接集合linkMap中的第i個(gè)詞,wji表示詞連接集合 linkMap中第i個(gè)詞與第j個(gè)詞的連接權(quán)重,In(Vi)表示詞連接集合linkMap中第i個(gè)詞的連 接詞集合,Out (Vj)表示linkMap第j個(gè)詞的連接詞集合,WS(Vj)表示第linkMap中第j個(gè)詞的 TextRank 得分。
[0028]本發(fā)明的技術(shù)效果:
[0029] 本發(fā)明提供一種詞與網(wǎng)頁(yè)的關(guān)聯(lián)度計(jì)算方法,將標(biāo)題與正文的詞信息同時(shí)用于關(guān) 聯(lián)度計(jì)算,并且采用詞得分作為關(guān)聯(lián)度的度量,可以提升詞與網(wǎng)頁(yè)關(guān)聯(lián)度的精度,并且對(duì)單 個(gè)網(wǎng)頁(yè)內(nèi)容進(jìn)行直接計(jì)算因此不受文本集合內(nèi)容的影響。
[0030] 本發(fā)明提供一種詞與網(wǎng)頁(yè)的關(guān)聯(lián)度計(jì)算裝置,采用TextRank得分作為關(guān)聯(lián)度,可 有效地反映詞與網(wǎng)頁(yè)的關(guān)聯(lián)關(guān)系,將標(biāo)題的詞用于修正基于正文的詞構(gòu)建的詞連接集合, 并使用修正后的詞連接集合計(jì)算詞的TextRank得分,充分考慮了標(biāo)題在網(wǎng)頁(yè)信息中的重要 性,有利于提升關(guān)聯(lián)精度?;趩蝹€(gè)網(wǎng)頁(yè)內(nèi)容計(jì)算,使得所得結(jié)果不受網(wǎng)頁(yè)之間內(nèi)容的影 響。
[0031]具體請(qǐng)參考根據(jù)本發(fā)明的詞與網(wǎng)頁(yè)的關(guān)聯(lián)度計(jì)算方法及裝置提出的各種實(shí)施例 的如下描述,將使得本發(fā)明的上述和其他方面顯而易見(jiàn)。
【附圖說(shuō)明】
[0032] 圖1是本發(fā)明優(yōu)選實(shí)施例詞與網(wǎng)頁(yè)的關(guān)聯(lián)度計(jì)算方法的流程示意圖;
[0033] 圖2是本發(fā)明優(yōu)選實(shí)施例詞與網(wǎng)頁(yè)的關(guān)聯(lián)度計(jì)算裝置的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0034] 構(gòu)成本申請(qǐng)的一部分的附圖用來(lái)提供對(duì)本發(fā)明的進(jìn)一步理解,本發(fā)明的示意性實(shí) 施例及其說(shuō)明用于解釋本發(fā)明,并不構(gòu)成對(duì)本發(fā)明的不當(dāng)限定。
[0035] 參見(jiàn)圖1,本發(fā)明一方面提供了一種詞與網(wǎng)頁(yè)的關(guān)聯(lián)度計(jì)算方法,包括以下步驟: [0036] 步驟S100:讀取網(wǎng)頁(yè)的標(biāo)題和正文內(nèi)容,進(jìn)行分詞及詞性標(biāo)注,得到正文詞列表 130(171^81:和標(biāo)題詞列表1:;[1:161^81:,對(duì)正文分詞列表130(171^81:和標(biāo)題分詞列表1:;[1:161^81:分 別進(jìn)行過(guò)濾預(yù)處理;
[0037] 步驟S200:構(gòu)建詞連接集合1 inkMap;
[0038] 步