一種基于內(nèi)容相似性的Web主題排序方法

文檔序號：6525278閱讀：215來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于內(nèi)容相似性的Web主題排序方法
【專利摘要】一種基于內(nèi)容相似性的Web主題排序方法，屬于網(wǎng)絡(luò)信息處理【技術(shù)領(lǐng)域】。通過網(wǎng)頁分析檢測篩選出包含相關(guān)Web主題的網(wǎng)頁，并進(jìn)行一次排序；對包含該主題的網(wǎng)頁內(nèi)容進(jìn)行相似性分析，并按照各內(nèi)容的相似性進(jìn)行相關(guān)排序，完成二次排序。本發(fā)明方法可以為用戶提供更加清晰明了的層次性的檢索結(jié)果，同時，能滿足用戶對該主題某一確定方面內(nèi)容的需求。由此可見，基于內(nèi)容相似性的Web主題排序的方法可以為用戶提供更優(yōu)質(zhì)高效的檢索需求。
【專利說明】一種基于內(nèi)容相似性的Web主題排序方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及一種基于內(nèi)容相似性的Web主題排序方法，屬于網(wǎng)絡(luò)信息處理【技術(shù)領(lǐng)域】。
【背景技術(shù)】
[0002]隨著因特網(wǎng)的發(fā)展，其上的信息呈爆炸式的增長，包括各種各樣的新聞，報告，論壇消息等。為了幫助用戶檢索出其所關(guān)心的主題內(nèi)容就需要對所有網(wǎng)頁信息進(jìn)行相關(guān)分析及排序，以供用戶查詢。
[0003]目前，排序方法有很多種，而且針對某一特定需求可能包括多種優(yōu)化的排序方法。用戶在查詢某一相關(guān)Web主題時，可能會重點關(guān)心該主題內(nèi)容中的某一方面，而現(xiàn)有的排序方法在檢索時會把所有與該主題相關(guān)的各個方面都按照關(guān)鍵字匹配的程度進(jìn)行排序，而不會針對某特定需求篩選出該主題的某一方面內(nèi)容并對其進(jìn)行排序。
[0004]為了獲取更好的排序效果，武漢大學(xué)申請了一種專利號為201110194133.3，發(fā)明名稱為“基于Web時間不一致的過時網(wǎng)頁自動發(fā)現(xiàn)與排序方法”的專利，采用該發(fā)明能對同類網(wǎng)站基于時間不一致度量進(jìn)行排序，如政府或大學(xué)網(wǎng)站在信息新鮮度方面的質(zhì)量進(jìn)行排序，同時該發(fā)明為搜索引擎提供時間敏感信息排序方法，使得用戶能夠更便利的搜索最新的信息，能提高網(wǎng)站的內(nèi)容的及時性。通過對比可以發(fā)現(xiàn)，上述專利所針對的是網(wǎng)站信息的實時性，而沒有注意到網(wǎng)頁內(nèi)容之間的相似度。

【發(fā)明內(nèi)容】

[0005]針對【背景技術(shù)】中涉及到的問題，本發(fā)明提供了一種基于內(nèi)容相似性的Web主題排序方法。
[0006]本發(fā)明的技術(shù)方案如下:
[0007]一種基于內(nèi)容相似性的Web主題排序方法，適用于用戶在利用搜索引擎查詢Web信息時為用戶提供優(yōu)質(zhì)的查詢結(jié)果，結(jié)合關(guān)鍵字匹配方法和相似性比較方法對查詢到的內(nèi)容進(jìn)行排序，該方法具體步驟如下:
[0008]I)確定所要篩選的Web主題
[0009]對所要查詢的Web主題進(jìn)行關(guān)鍵字檢測，確定該主題及主題向量模型q(k)，其中k代表關(guān)鍵字；
[0010]2)模糊關(guān)鍵字匹配檢測(一次排序)
[0011]2-1對不同網(wǎng)頁內(nèi)容進(jìn)行敏感性分析，包括網(wǎng)頁內(nèi)容的鏈接特性，新鮮度及是否過期的檢測，將符合條件的網(wǎng)頁依據(jù)其內(nèi)容提取其中的關(guān)鍵字形成該網(wǎng)頁的向量模型aj(k)，j表示第j個網(wǎng)頁內(nèi)容；
[0012]2-2將主題向量模型q(k)與所要排序的網(wǎng)頁向量模型a」(k)進(jìn)行模糊關(guān)鍵字匹配檢測，并估算出其相應(yīng)的匹配度Uj ；
[0013]2-3設(shè)置匹配度閾值U，匹配度Uj大于閾值U的網(wǎng)頁即視為該主題的相關(guān)網(wǎng)頁，并將其篩選出來；
[0014]2-4利用優(yōu)化的網(wǎng)頁排序算法即PageRank算法將篩選出來的網(wǎng)頁進(jìn)行一次排序；
[0015]3 )各網(wǎng)頁內(nèi)容相似度檢測(二次排序)
[0016]3-1將步驟2)中篩選得到的各網(wǎng)頁按匹配度Uj由大到小劃分為若干個區(qū)間Tm，其中m為區(qū)間的個數(shù)，可按需求自由設(shè)定，如DUjX).8為區(qū)間T1,0.8>υ」>0.6為區(qū)間T2,
0.6>Uj>0.5為區(qū)間T3,0.5>Uj>U為區(qū)間T4，其中閾值U<0.5 ；
[0017]3-2對步驟3-1設(shè)定的第η個區(qū)間Tn中的網(wǎng)頁內(nèi)容進(jìn)行相似度檢測，其中η < m，采用
[0018]Cosine相似度來計算:[0019]
【權(quán)利要求】
1.一種基于內(nèi)容相似性的Web主題排序方法，適用于用戶在利用搜索引擎查詢Web信息時為用戶提供優(yōu)質(zhì)的查詢結(jié)果，結(jié)合關(guān)鍵字匹配方法和相似性比較方法對查詢到的內(nèi)容進(jìn)行排序，該方法具體步驟如下: 1)確定所要篩選的Web主題對所要查詢的Web主題進(jìn)行關(guān)鍵字檢測，確定該主題及主題向量模型q(k)，其中k代表關(guān)鍵字； 2)模糊關(guān)鍵字匹配檢測即一次排序 2-1對不同網(wǎng)頁內(nèi)容進(jìn)行敏感性分析，包括網(wǎng)頁內(nèi)容的鏈接特性，新鮮度及是否過期的檢測，將符合條件的網(wǎng)頁依據(jù)其內(nèi)容提取其中的關(guān)鍵字形成該網(wǎng)頁的向量模型aj(k)，j表示第j個網(wǎng)頁內(nèi)容； 2-2將主題向量模型q(k)與所要排序的網(wǎng)頁向量模型aj(k)進(jìn)行模糊關(guān)鍵字匹配檢測，并估算出其相應(yīng)的匹配度Uj ； 2-3設(shè)置匹配度閾值U，匹配度Uj大于閾值U的網(wǎng)頁即視為該主題的相關(guān)網(wǎng)頁，并將其篩選出來； 2-4利用優(yōu)化的網(wǎng)頁排序算法即 PageRank算法將篩選出來的網(wǎng)頁進(jìn)行一次排序； 3)各網(wǎng)頁內(nèi)容相似度檢測即二次排序 3-1將步驟2)中篩選得到的各網(wǎng)頁按匹配度Uj由大到小劃分為若干個區(qū)間Tm，其中m為區(qū)間的個數(shù)，可按需求自由設(shè)定，如DUjX).8為區(qū)間T1,0.8>%>0.6為區(qū)間1'2，0.6>Uj>0.5為區(qū)間T3,0.5>Uj>U為區(qū)間T4，其中閾值U〈0.5 ； 3-2對步驟3-1設(shè)定的第η個區(qū)間Tn中的網(wǎng)頁內(nèi)容進(jìn)行相似度檢測，其中η < m，采用 Cosine相似度來計算:
【文檔編號】G06F17/30GK103646106SQ201310719507
【公開日】2014年3月19日申請日期:2013年12月23日優(yōu)先權(quán)日:2013年12月23日
【發(fā)明者】袁東風(fēng), 段秋丹, 朱麗娜申請人:山東大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：袁東風(fēng);段秋丹;朱麗娜
技術(shù)所有人：山東大學(xué)
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于內(nèi)容相似性的Web主題排序方法