專利名稱:一種基于關(guān)鍵字匹配的內(nèi)容推薦方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種網(wǎng)站中自動為用戶推薦用戶感興趣的相關(guān)內(nèi)容的方法。
背景技術(shù):
隨著網(wǎng)絡(luò)的發(fā)展及普及,互聯(lián)網(wǎng)上的信息資料呈指數(shù)增長,用戶在瀏覽網(wǎng)站時(shí)從大量的網(wǎng)絡(luò)信息中挑選自己需要的信息將會花費(fèi)大量時(shí)間。如何幫助用戶更快更方便的找到需要的信息一直是關(guān)注的焦點(diǎn)。 目前,很多網(wǎng)站是采用自己對信息進(jìn)行篩選然后推薦到網(wǎng)站首頁讓用戶瀏覽,這樣用戶就需要在網(wǎng)站進(jìn)行逐條查找自己感興趣的信息,這樣的方法造成用戶只能看到網(wǎng)站推薦給他的一些最新的信息,這些信息并非都是用戶感興趣的信息,而以前用戶感興趣的相關(guān)的信息則看不到,所以這種方法是網(wǎng)站按照自己的主觀意愿篩選的信息,不能夠滿足所有用戶的需求。這就需要一種能夠?yàn)橛脩艟珳?zhǔn)的推薦信息內(nèi)容的方法。
發(fā)明內(nèi)容
本發(fā)明針對上述現(xiàn)有技術(shù)中存在的不足,提供了一種在網(wǎng)站中為用戶瀏覽節(jié)約時(shí)間,并可精確為用戶推薦用戶感興趣的內(nèi)容的方法。本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的一種基于關(guān)鍵字匹配的內(nèi)容推薦方法,包括以下步驟步驟一 Web服務(wù)器根據(jù)用戶的登錄名或者瀏覽時(shí)所用的IP獲取用戶在網(wǎng)站中經(jīng)常瀏覽的信息,并把獲取到的信息數(shù)據(jù)存儲在數(shù)據(jù)庫中;步驟二 Web服務(wù)器分別對獲取到的每條信息進(jìn)行內(nèi)容分析,分析方法為把信息內(nèi)容正向拆分成多個(gè)關(guān)鍵字,然后統(tǒng)計(jì)每個(gè)關(guān)鍵字的數(shù)量,并計(jì)算該條信息中每個(gè)關(guān)鍵字?jǐn)?shù)量在所有關(guān)鍵字的數(shù)量總和中占的比例,然后根據(jù)分詞詞典把存在于分詞詞典中并且在該條信息中所占比例最高的關(guān)鍵字獲取到,最后把從這些信息中取到的關(guān)鍵字形成用戶關(guān)鍵字集合;步驟三:Web服務(wù)器對數(shù)據(jù)庫中所有的信息進(jìn)行分析,分析方法同步驟二中的分析方法一致,得到每條信息的關(guān)鍵字,形成系統(tǒng)關(guān)鍵字集合;步驟四Web服務(wù)器把從用戶經(jīng)常瀏覽信息得到的用戶關(guān)鍵字集合在系統(tǒng)關(guān)鍵字集合中進(jìn)行匹配,把系統(tǒng)關(guān)鍵字集合中與用戶關(guān)鍵字集合中相同的關(guān)鍵字形成推薦關(guān)鍵字集合;步驟五Web服務(wù)器根據(jù)推薦關(guān)鍵字集合從數(shù)據(jù)庫中所有的信息里得到對應(yīng)的推薦信息,然后把用戶瀏覽過的信息去除并按照信息的發(fā)布時(shí)間倒序排列生成信息推薦列表,并在網(wǎng)頁中特定的區(qū)域推薦給用戶;步驟六用戶再次根據(jù)用戶名登錄網(wǎng)站或者使用相同的IP地址訪問該網(wǎng)站時(shí),在上述特定區(qū)域就會看到更多相關(guān)的內(nèi)容。
作為優(yōu)選,在步驟二中,如果出現(xiàn)多個(gè)關(guān)鍵字在信息中占的比例都是最高時(shí),則按照如下方法確定關(guān)鍵字把信息內(nèi)容正向拆分成多個(gè)關(guān)鍵字,然后根據(jù)每個(gè)關(guān)鍵字在信息中的位置從頭到尾標(biāo)注序號,并取這些比例最高的關(guān)鍵字中序號最小的關(guān)鍵字做為該信息的關(guān)鍵字。采用了上述技術(shù)方案的本發(fā)明的原理及有益效果是本發(fā)明的核心思想是通過關(guān)鍵字把所有具有相同關(guān)鍵字的信息串聯(lián)起來,Web服務(wù)器獲取用戶經(jīng)常瀏覽的、感興趣的信息,并在數(shù)據(jù)庫中匹配查找類似的信息并將用戶沒有瀏覽過的類似信息推薦給用戶,為用戶瀏覽信息提供方便,用戶在瀏覽需要的信息時(shí)只需要在特定的推薦區(qū)域查看相關(guān)信息就可以獲取到整個(gè)網(wǎng)站中與正在瀏覽的信息相關(guān)的內(nèi)容,而且系統(tǒng)能夠保證推薦的內(nèi)容是用戶從未瀏覽過的,是用戶感興趣的內(nèi)容,不為用戶推薦無關(guān)的信息,為用戶節(jié)省時(shí)間。
圖I為本發(fā)明根據(jù)用戶瀏覽信息得到用戶關(guān)鍵字集合的流程圖;圖2為根據(jù)數(shù)據(jù)庫中所有的信息得到系統(tǒng)關(guān)鍵字集合的流程圖;圖3為根據(jù)用戶關(guān)鍵字集合在系統(tǒng)關(guān)鍵字集合中匹配得到推薦關(guān)鍵字集合的流程圖;圖4為根據(jù)推薦關(guān)鍵字集合生成信息推薦列表最終推薦給用戶的流程圖。
具體實(shí)施例方式本發(fā)明的具體實(shí)施方式
如下實(shí)施例本發(fā)明的一種基于關(guān)鍵字匹配的內(nèi)容推薦方法,包括以下步驟步驟一 Web服務(wù)器根據(jù)用戶A的登錄名或者瀏覽時(shí)所用的IP地址獲取用戶A在網(wǎng)絡(luò)中經(jīng)常瀏覽的信息Xp X2、X3,并把獲取到的信息數(shù)據(jù)存儲在數(shù)據(jù)庫中。步驟二 Web服務(wù)器對獲取到的信息XpX2、X3進(jìn)行分析,得到每條信息對應(yīng)的關(guān)鍵字分別為甲、乙、丙,形成用戶關(guān)鍵字集合{甲、乙、丙}。以獲取關(guān)鍵字“甲”為例,該獲取關(guān)鍵字的方法為把信息X1正向拆分為N個(gè)關(guān)鍵字,不論是否重復(fù),并根據(jù)每個(gè)關(guān)鍵字在信息中的位置從頭到尾標(biāo)注序號,其中關(guān)鍵字甲出現(xiàn)了 M次,序號分別為O:、02、…、0M(O1 < O2〈…< 0M);關(guān)鍵字甲!出現(xiàn)了 M1次,序號分別為P” P2,…、PM1 (P1 < P2〈…< Pmi);關(guān)鍵字甲2出現(xiàn)了 M2次,序號分別為Q1' Q2'…、Qm2 (Q1 < Q2〈…< Qm2),若只有關(guān)鍵字甲和甲2存在于分詞詞典中并且(M/N) > (M2/N)則取關(guān)鍵字甲為信息X1的關(guān)鍵字,若關(guān)鍵字甲和甲2存在于分詞詞典中并且(M/N) = (M2/N)時(shí)則根據(jù)關(guān)鍵字的序號來取序號小的關(guān)鍵字為信息X1的關(guān)鍵字,因?yàn)橹形男畔⒍际窃趦?nèi)容前段表明信息主題,所以當(dāng)P1 < Q1時(shí)則信息X1的關(guān)鍵字為關(guān)鍵字甲。上述中文分詞詞典,可以從邁點(diǎn)網(wǎng)站上下載到,下載頁面為http://papers.meadin. com/document/detail/9e2f3662-431e-4eal-b431-a9c77188e7bd ;該文檔上傳日期2012-05-17,資源大小776KB ;資源類型文檔;該中文分詞詞典收錄了大多數(shù)詞匯,并排除了諸如“的”、“地” “得”等沒有實(shí)質(zhì)意義的定語詞匯。
步驟三:Web服務(wù)器以相同的方法對數(shù)據(jù)庫中所有的信息進(jìn)行分析得到每條信息對應(yīng)的關(guān)鍵字,其中對應(yīng)關(guān)鍵字甲的信息有500條,對應(yīng)關(guān)鍵字乙的信息有600條,對應(yīng)關(guān)鍵字丙的信息有800條,對應(yīng)關(guān)鍵字丁的信息有700條,對應(yīng)關(guān)鍵字戊的信息有400條。Web服務(wù)器把數(shù)據(jù)庫中所有信息對應(yīng)的關(guān)鍵字形成系統(tǒng)關(guān)鍵字集合{甲、乙、丙、丁、戊}。步驟四Web服務(wù)器把從用戶A經(jīng)常瀏覽信息得到的用戶關(guān)鍵字集合中的關(guān)鍵字甲、乙、丙在系統(tǒng)關(guān)鍵字集合{甲、乙、丙、丁、戊}中進(jìn)行匹配,把系統(tǒng)關(guān)鍵字集合中與用戶關(guān)鍵字集合中相同的關(guān)鍵字甲、乙、丙形成推薦關(guān)鍵字集合{甲、乙、丙}。步驟五Web服務(wù)器根據(jù)推薦關(guān)鍵字集合{甲、乙、丙}得到對應(yīng)的信息,然后進(jìn)行去重排序生成信息推薦列表X,在網(wǎng)頁中特定的區(qū)域推薦給用戶A。
步驟六用戶A在瀏覽信息時(shí)就可以看到系統(tǒng)推薦的信息列表X,從而更方便快捷的得到大量需要的信息。通過本方法用再從大量的網(wǎng)絡(luò)信息中挑選自己需要的信息將會方便快捷,并且保證獲取到的信息的精準(zhǔn)。用戶在瀏覽信息時(shí)就可以看到更多相關(guān)的內(nèi)容,系統(tǒng)并且能夠保證推薦給用戶的是用戶從未瀏覽過的最新最及時(shí)的信息。從而用戶能夠更方便快捷的得到大量需要的信息。
權(quán)利要求
1.一種基于關(guān)鍵字匹配的內(nèi)容推薦方法,其特征是包括以下步驟 步驟ー Web服務(wù)器根據(jù)用戶的登錄名或者瀏覽時(shí)所用的IP獲取用戶在網(wǎng)站中經(jīng)常瀏覽的信息,并把獲取到的信息數(shù)據(jù)存儲在數(shù)據(jù)庫中; 步驟ニ Web服務(wù)器分別對獲取到的每條信息進(jìn)行內(nèi)容分析,分析方法為把信息內(nèi)容正向拆分成多個(gè)關(guān)鍵字,然后統(tǒng)計(jì)每個(gè)關(guān)鍵字的數(shù)量,并計(jì)算該條信息中每個(gè)關(guān)鍵字?jǐn)?shù)量在所有關(guān)鍵字的數(shù)量總和中占的比例,然后根據(jù)分詞詞典把存在于分詞詞典中并且在該條信息中所占比例最高的關(guān)鍵字獲取到,最后把從這些信息中取到的關(guān)鍵字形成用戶關(guān)鍵字集合; 步驟三:Web服務(wù)器對數(shù)據(jù)庫中所有的信息進(jìn)行分析,分析方法同步驟ニ中的分析方法一致,得到每條信息的關(guān)鍵字,形成系統(tǒng)關(guān)鍵字集合; 步驟四Web服務(wù)器把從用戶經(jīng)常瀏覽信息得到的用戶關(guān)鍵字集合在系統(tǒng)關(guān)鍵字集合中進(jìn)行匹配,把系統(tǒng)關(guān)鍵字集合中與用戶關(guān)鍵字集合中相同的關(guān)鍵字形成推薦關(guān)鍵字集合; 步驟五Web服務(wù)器根據(jù)推薦關(guān)鍵字集合從數(shù)據(jù)庫中所有的信息里得到對應(yīng)的推薦信息,然后把用戶瀏覽過的信息去除并按照信息的發(fā)布時(shí)間倒序排列生成信息推薦列表,并在網(wǎng)頁中特定的區(qū)域推薦給用戶; 步驟六用戶再次根據(jù)用戶名登錄網(wǎng)站或者使用相同的IP地址訪問該網(wǎng)站時(shí),在上述特定區(qū)域就會看到更多相關(guān)的內(nèi)容。
2.根據(jù)權(quán)利要求I所述的ー種基于關(guān)鍵字匹配的內(nèi)容推薦方法,其特征是 在步驟ニ中,如果出現(xiàn)多個(gè)關(guān)鍵字在信息中占的比例都是最高時(shí),則按照如下方法確定關(guān)鍵字把信息內(nèi)容正向拆分成多個(gè)關(guān)鍵字,然后根據(jù)每個(gè)關(guān)鍵字在信息中的位置從頭到尾標(biāo)注序號,并取這些比例最高的關(guān)鍵字中序號最小的關(guān)鍵字做為該信息的關(guān)鍵字。
全文摘要
本發(fā)明公開了一種基于關(guān)鍵字匹配的內(nèi)容推薦方法,包括Web服務(wù)器獲取用戶經(jīng)常瀏覽的信息,進(jìn)行分析并從這些信息中取到關(guān)鍵字形成用戶關(guān)鍵字集合;再對數(shù)據(jù)庫中所有的信息進(jìn)行分析,形成系統(tǒng)關(guān)鍵字集合;Web服務(wù)器把用戶關(guān)鍵字集合在系統(tǒng)關(guān)鍵字集合中進(jìn)行匹配,把兩個(gè)集合中相同的關(guān)鍵字形成推薦關(guān)鍵字集合;再根據(jù)推薦關(guān)鍵字集合從數(shù)據(jù)庫中得到對應(yīng)的推薦信息,把用戶瀏覽過的信息去除并生成信息推薦列表,在網(wǎng)頁中推薦給用戶。本發(fā)明是通過關(guān)鍵字把所有具有相同關(guān)鍵字的信息串聯(lián)起來,Web服務(wù)器獲取用戶經(jīng)常瀏覽的、感興趣的信息,并在數(shù)據(jù)庫中匹配查找類似的信息并將用戶沒有瀏覽過的類似信息推薦給用戶,為用戶瀏覽信息提供方便。
文檔編號G06F17/30GK102768685SQ20121027689
公開日2012年11月7日 申請日期2012年7月24日 優(yōu)先權(quán)日2012年7月24日
發(fā)明者萬仁良, 蒯斌毅 申請人:杭州東方網(wǎng)升科技有限公司