1)。
[0065] 在具體實施例中,阻尼系數(shù)d取0.85,詞之間的連接權重wji取1,即對于任意詞i和 詞j其Wji = 1進行計算。
[0066]參見圖2,本發(fā)明的另一方面還提供了一種上述方法用詞與網(wǎng)頁的關聯(lián)度計算裝 置,包括:
[0067]分詞預處理模塊100,用于讀取網(wǎng)頁的標題和正文內(nèi)容,進行分詞及詞性標注,得 到正文詞列表bodyList和標題詞列表tit leList,對正文分詞列表bodyList和標題分詞列 表titleList分別進行過濾預處理;
[0068]詞連接計算模塊200:用于構建詞連接集合linkMap,以鍵值對形存儲,其中鍵為正 文分詞列表body Li s t中的當前詞,值為與當前詞有連接關系的連接詞集合;
[0069]關聯(lián)度計算模塊300,用于根據(jù)標題詞列表titleList對詞連接集合linkMap進行 修正,得到修正詞連接集合,利用修正詞連接集合計算網(wǎng)頁中每個詞的TextRank得分,得到 每個詞的得分集合scoreMap,過濾得分集合scoreMap中的常用詞,余下的得分集合 s cor eMap中的詞及其TextRank得分,即為詞與網(wǎng)頁的關聯(lián)度。
[0070] 采用該裝置將此類常用詞過濾掉,可減少網(wǎng)頁關聯(lián)的詞數(shù)量,提高所得網(wǎng)頁關聯(lián) 詞的精度,有利于后續(xù)檢索、推薦等對所得結(jié)果的二次使用,常用詞過濾可采用TF-IDF方法 和設置常用詞庫等常規(guī)方法進行。
[0071] 本領域技術人員將清楚本發(fā)明的范圍不限制于以上討論的示例,有可能對其進行 若干改變和修改,而不脫離所附權利要求書限定的本發(fā)明的范圍。盡管己經(jīng)在附圖和說明 書中詳細圖示和描述了本發(fā)明,但這樣的說明和描述僅是說明或示意性的,而非限制性的。 本發(fā)明并不限于所公開的實施例。
[0072] 通過對附圖,說明書和權利要求書的研究,在實施本發(fā)明時本領域技術人員可以 理解和實現(xiàn)所公開的實施例的變形。在權利要求書中,術語"包括"不排除其他步驟或元素, 而不定冠詞"一個"或"一種"不排除多個。在彼此不同的從屬權利要求中引用的某些措施的 事實不意味著這些措施的組合不能被有利地使用。權利要求書中的任何參考標記不構成對 本發(fā)明的范圍的限制。
【主權項】
1. 一種詞與網(wǎng)頁的關聯(lián)度計算方法,其特征在于,包括以下步驟: 步驟S100:讀取網(wǎng)頁的標題和正文內(nèi)容,進行分詞及詞性標注,得到正文詞列表 bodyList和標題詞列表titleList,對所述正文分詞列表bodyList和所述標題分詞列表 titleList分別進行過濾預處理; 步驟S200:構建詞連接集合1 inkMap; 步驟S300:根據(jù)所述標題詞列表titleList對所述詞連接集合linkMap進行修正,得到 修正詞連接集合,利用所述修正詞連接集合計算所述網(wǎng)頁中每個詞的TextRank得分,得到 每個詞的得分集合scoreMap,過濾所述得分集合scoreMap中的常用詞,余下的所述得分集 合scoreMap中的詞及其TextRank得分,即為詞與網(wǎng)頁的關聯(lián)度。2. 根據(jù)權利要求1所述的詞與網(wǎng)頁的關聯(lián)度計算方法,其特征在于,所述詞連接集合 1 inkMap的構建包括以下步驟: 步驟S210 :初始化隊列queue、詞連接集合1 inkMap和窗口大小N,遍歷正文詞列表 bodyList,將第i個詞A加入所述隊列queue的尾部,若所述隊列queue的長度大于N,則將所 述隊列queue的隊首元素刪除,若所述第i個詞A不包含于所述詞連接集合linkMap中,則將 所述第i個詞A加入詞連接集合linkMap中并設置所述第i個詞A的值為空集合; 步驟S220:對所述隊列queue中的所有任兩元素進行比較,如果二者不相同則分別加入 任兩所述詞連接集合linkMap的連接詞集合中; 步驟S230:遍歷所述正文詞列表bodyList,重復步驟S210~S220得到所述詞連接集合 1inkMap〇3. 根據(jù)權利要求1所述的詞與網(wǎng)頁的關聯(lián)度計算方法,其特征在于,所述過濾預處理步 驟包括過濾停用詞,并保留名詞、動詞、形容詞及副詞。4. 根據(jù)權利要求1所述的詞與網(wǎng)頁的關聯(lián)度計算方法,其特征在于,步驟S300包括以下 步驟: 步驟S310:計算所述詞連接集合linkMap中每個詞的連接詞集合大小的平均值記為Μ, 從所述詞連接集合linkMap中選取前Μ個連接詞集合最大的詞構建詞集合reviseSet; 步驟S320:遍歷所述標題詞列表titleList中的標題詞,若所述標題詞不包含于所述詞 連接集合linkMap中,則將所述標題詞加入所述詞連接集合linkMap并將所述詞集合 reviseSet中的所有詞加入到所述標題詞的連接詞集合中; 若所述標題詞包含于所述詞連接集合linkMap中,則將所述詞集合reviseSet中除所述 標題詞之外的所有詞加入所述標題詞的連接詞集合中; 步驟S330:遍歷reviseSet判斷其中每個詞是否是所述標題詞,如果該詞不是所述標題 詞,則將所述標題詞加入該詞在所述詞連接集合linkMap中對應的連接詞集合;否則,不做 處理; 步驟S340:遍歷所述標題詞列表titleList,重復步驟S310~330得到修正詞連接集合。5. 根據(jù)權利要求1所述的詞與網(wǎng)頁的關聯(lián)度計算方法,其特征在于,所述TextRank得分 WS(Vi)的計算公式為:其中,d為阻尼系數(shù),Vi表示所述詞連接集合linkMap中的第i個詞,Wjl表示所述詞連接 集合linkMap中第i個詞與第j個詞的連接權重,In(Vi)表示所述詞連接集合linkMap中第i 個詞的連接詞集合,Out(Vj)表示linkMap第j個詞的連接詞集合,WS(Vj)表示第linkMap中第 j個詞的TextRank得分。6. -種如權利要求1~5中任一項所述方法用的詞與網(wǎng)頁的關聯(lián)度計算裝置,其特征在 于,包括: 分詞預處理模塊,用于讀取網(wǎng)頁的標題和正文內(nèi)容,進行分詞及詞性標注,得到正文詞 列表bodyList和標題詞列表titleList,對正文分詞列表bodyList和標題分詞列表 titleList分別進行過濾預處理; 詞連接計算模塊:用于構建詞連接集合1 inkMap,以鍵值對形存儲,其中鍵為正文分詞 列表body Li s t中的當前詞,值為與當前詞有連接關系的連接詞集合; 關聯(lián)度計算模塊,用于根據(jù)標題詞列表titleList對詞連接集合linkMap進行修正,得 到修正詞連接集合,利用修正詞連接集合計算網(wǎng)頁中每個詞的TextRank得分,得到每個詞 的得分集合scoreMap,過濾得分集合scoreMap中的常用詞,余下的得分集合scoreMap中的 詞及其TextRank得分,即為詞與網(wǎng)頁的關聯(lián)度。7. 根據(jù)權利要求6所述的詞與網(wǎng)頁的關聯(lián)度計算裝置,其特征在于,所述TextRank得分 WS(Vi)的計算公式為其中,d為阻尼系數(shù),Vi表示所述詞連接集合linkMap中的第i個詞,表示所述詞連接 集合linkMap中第i個詞與第j個詞的連接權重,In(Vi)表示所述詞連接集合linkMap中第i 個詞的連接詞集合,Out (Vj)表示linkMap第j個詞的連接詞集合,WS(Vj)表示第linkMap中第 j個詞的TextRank得分。
【專利摘要】本發(fā)明提供一種詞與網(wǎng)頁的關聯(lián)度計算方法及裝置,本發(fā)明對網(wǎng)頁的標題和正文內(nèi)容進行分詞及預處理,使用標題詞與正文詞構建詞連接集合用于計算詞的TextRank得分,將TextRank得分作為詞與網(wǎng)頁的關聯(lián)度并保存到數(shù)據(jù)庫。該方法采用TextRank得分作為關聯(lián)度,可有效地反映詞與網(wǎng)頁的關聯(lián)關系,將標題的詞用于修正基于正文的詞構建的詞連接集合,并使用修正后的詞連接集合計算詞的TextRank得分,充分考慮了標題在網(wǎng)頁信息中的重要性,有利于提升關聯(lián)精度。
【IPC分類】G06F17/27
【公開號】CN105718445
【申請?zhí)枴緾N201610058722
【發(fā)明人】劉忠, 陳發(fā)君, 黃金才, 朱承, 修保新, 程光權, 陳超, 馮旸赫
【申請人】中國人民解放軍國防科學技術大學
【公開日】2016年6月29日
【申請日】2016年1月28日