一種基于社會化標(biāo)注的個性化搜索方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種捜索方法及系統(tǒng),尤其是一種基于社會化標(biāo)注的個性化捜索方法 及系統(tǒng)。
【背景技術(shù)】
[0002] 近年來,隨著Web2.0的普及和推廣,越來越多基于此的應(yīng)用得到推廣W滿足用戶 對互聯(lián)網(wǎng)日益增加的需求。該其中,包括電子商務(wù)網(wǎng)站、博客W及社會化應(yīng)用,它們使網(wǎng)絡(luò) 進(jìn)化成為了社會化網(wǎng)絡(luò)。在社會化網(wǎng)絡(luò)中,用戶可W通過標(biāo)注等行為在自己感興趣的文檔 (包括網(wǎng)頁及網(wǎng)頁上的資源)上留下合適的記號。
[0003] 而社會化標(biāo)注對于個性化捜索是非常有用的資源。一方面,不同用戶從不同角度 提供的標(biāo)注對同一文檔而言是很好的總結(jié);另一方面,社會化標(biāo)注可W看作理想化的個性 化興趣數(shù)據(jù)。該主要是由于;1、社會化標(biāo)注由用戶直接提供,所W該些標(biāo)注可W被看作用戶 對于文檔的個人意見,收集該些意見可W得到用戶的興趣或偏好;2、標(biāo)注信息通常較易于 通過網(wǎng)絡(luò)得到并且很少包含敏感信息,所W使用標(biāo)注信息進(jìn)行個性化捜索并不需要額外的 人力和物力。
[0004] 由于網(wǎng)絡(luò)資源的急速增長,信息檢索的效率和準(zhǔn)確性都受到了不小的挑戰(zhàn),并且 由于每一個用戶的關(guān)注點(diǎn)及興趣都各不相同,所W如何讓每一個用戶都能快速準(zhǔn)確的找到 感興趣的捜索結(jié)果就成了一個重要的問題。傳統(tǒng)的方法不考慮用戶本身的興趣,只考慮查 詢與文檔之間的關(guān)系,雖然能使捜索結(jié)果的內(nèi)容準(zhǔn)確度有一個較好的水平,但依然無法讓 用戶最快速度或許自身能想要的結(jié)果。已經(jīng)有不少研究針對個性化捜索,但各種方法都存 在一定的缺點(diǎn),無法取得特別好的結(jié)果。
[0005] 現(xiàn)有的個性化捜索方法主要分為=種:
[0006] 1、通過調(diào)查問卷等形式讓用戶主動給出其興趣,并基于用戶給出的興趣對原始結(jié) 果進(jìn)行重新排序。該種方法能取得較好的效果,但由于需要對用戶進(jìn)行調(diào)查,所W需要額外 的開銷,同時也存在用戶不肯配合的情況。此外,由于調(diào)查問卷內(nèi)容設(shè)置的有限性,所W很 難涵蓋用戶興趣的各個方面,也很難跟進(jìn)用戶興趣的轉(zhuǎn)移。
[0007] 2、基于用戶的查詢歷史進(jìn)行興趣的構(gòu)建,之后結(jié)合興趣對文檔進(jìn)行打分。此種方 法不需要額外的開銷,但由于查詢歷史里經(jīng)常會包含用戶的隱私,所W使用此種方法可能 會帶來潛在的隱私問題。同時,由于用該種方法要求用戶曾經(jīng)有過查詢,所W冷啟動也是此 種方法需要解決的問題。
[0008] 3、基于用戶之間的相似度進(jìn)行協(xié)同過濾,此種方法通過用戶查詢歷史等信息計算 用戶之間的相似度,然后基于相似度對不同用戶的查詢結(jié)果進(jìn)行一定比例的融合,得出個 性化的捜索結(jié)果。此種方法同樣需要面對冷啟動的問題,同時由于其并不是基于用戶本身 的興趣進(jìn)行捜索,所W在捜索準(zhǔn)確度上存在一定的偏差。
【發(fā)明內(nèi)容】
[0009] 本發(fā)明的目的是提供一種提高用戶信息檢索的準(zhǔn)確性且克服現(xiàn)有技術(shù)中捜索結(jié) 果無法根據(jù)用戶興趣改變的缺陷的基于社會化標(biāo)注的個性化捜索方法及系統(tǒng)。
[0010] 本發(fā)明解決現(xiàn)有技術(shù)問題所采用的技術(shù)方案;一種基于社會化標(biāo)注的個性化捜索 方法,該方法包括W下步驟:
[0011] A、預(yù)處理網(wǎng)頁內(nèi)容;對網(wǎng)頁逐個進(jìn)行掃描,采集每個網(wǎng)頁中的標(biāo)識符、網(wǎng)頁文檔內(nèi) 容、類別、給過標(biāo)注的用戶及對應(yīng)用戶給出的標(biāo)簽并將它們保存下來;對于同一網(wǎng)頁,將標(biāo) 識符、網(wǎng)頁類別、網(wǎng)頁文檔內(nèi)容作為一組數(shù)據(jù)記錄,標(biāo)識符、給網(wǎng)頁標(biāo)注過的用戶及對應(yīng)用 戶給出的標(biāo)簽作為另一組數(shù)據(jù)記錄;將所有網(wǎng)頁的數(shù)據(jù)記錄分類匯總保存,并對其中的網(wǎng) 頁文檔內(nèi)容和標(biāo)簽對照停用詞表進(jìn)行去停用詞處理,并對網(wǎng)頁文檔內(nèi)容和標(biāo)簽進(jìn)行詞干化 處理,得到提取內(nèi)容集;
[0012] B、在提取內(nèi)容集中提取相關(guān)向量;所述相關(guān)向量包括文檔內(nèi)容向量、文檔標(biāo)簽向 量、用戶屬性向量W及用戶類別向量;
[0013] 文檔內(nèi)容向量的提取方法為所有網(wǎng)頁文檔內(nèi)容中出現(xiàn)過的詞作為向量空間, 對該網(wǎng)頁文檔內(nèi)容做tf-i壯統(tǒng)計,得到文檔內(nèi)容向量,向量每一維的權(quán)重為tf-i壯值;
[0014] 文檔標(biāo)簽向量的提取方法為;W所有網(wǎng)頁上的標(biāo)簽作為向量空間,對文檔被標(biāo)注 過的標(biāo)簽進(jìn)行詞頻統(tǒng)計,得到文檔標(biāo)簽向量,向量每一維的權(quán)重為該標(biāo)簽出現(xiàn)的次數(shù);
[0015] 用戶屬性向量的提取方法為:對每一個標(biāo)注過該文檔的用戶,W所有網(wǎng)頁上的標(biāo) 簽作為向量空間,對其在該文檔上給出的標(biāo)簽進(jìn)行頻率統(tǒng)計,得到用戶在該文檔上的文檔 標(biāo)簽向量,向量每一維的權(quán)重為用戶給出該標(biāo)簽的次數(shù);對于每一個用戶,將該用戶對應(yīng)的 所有在文檔上的文檔標(biāo)簽向量進(jìn)行累加,得到該用戶的用戶屬性向量;
[0016] 用戶類別向量的提取方法為所有網(wǎng)頁類別作為向量空間,對用戶標(biāo)注過的網(wǎng) 頁的類別進(jìn)行頻率統(tǒng)計,得到用戶類別向量,向量每一維的權(quán)重為該用戶標(biāo)注過的該類別 網(wǎng)頁的數(shù)量;
[0017] C、計算用戶相似度;對目標(biāo)用戶和其他任一用戶的用戶屬性向量求夾角余弦值得 到用戶屬性相似度;對目標(biāo)用戶和其他任一用戶的用戶類別向量求夾角余弦值得到用戶類 別相似度;然后將用戶屬性相似度乘W用戶類別相似度作為目標(biāo)用戶和其他任一用戶之間 的相似度,公式如下:
[001引 化rsim(u,,U) =Cos(Cu',Cu)XCos(Pu',Pu)
[0019] 其中,u為目標(biāo)用戶,u'為其他任一用戶,Persim(u',u)為兩者的相似度,Cu為目 標(biāo)用戶的類別向量,(V為其他用戶的類別向量,Pu為目標(biāo)用戶的屬性向量,Pul為其他任一 用戶的屬性向量,Cos(a,b)為a和b的夾角余弦值;
[0020] D、選取相似用戶;根據(jù)在0-1范圍內(nèi)預(yù)設(shè)的相似度闊值,選擇相似度值超過相似 度闊值的用戶為目標(biāo)用戶的相似用戶;
[0021] E、計算用戶對文檔的個性化標(biāo)簽向量;對任一篇文檔,將每一個目標(biāo)用戶與相似 用戶的相似度乘W對應(yīng)相似用戶在本篇文檔上的標(biāo)簽向量并求和,得到目標(biāo)用戶對文檔的 個性化標(biāo)簽向量;公式如下:
[0022]
【主權(quán)項(xiàng)】
1. 一種基于社會化標(biāo)注的個性化搜索方法,其特征在于,該方法包括以下步驟: A、 預(yù)處理網(wǎng)頁內(nèi)容:對網(wǎng)頁逐個進(jìn)行掃描,采集每個網(wǎng)頁中的標(biāo)識符、網(wǎng)頁文檔內(nèi)容、 類別、給過標(biāo)注的用戶及對應(yīng)用戶給出的標(biāo)簽并將它們保存下來;對于同一網(wǎng)頁,將標(biāo)識 符、網(wǎng)頁類別、網(wǎng)頁文檔內(nèi)容作為一組數(shù)據(jù)記錄,標(biāo)識符、給網(wǎng)頁標(biāo)注過的用戶及對應(yīng)用戶 給出的標(biāo)簽作為另一組數(shù)據(jù)記錄;將所有網(wǎng)頁的數(shù)據(jù)記錄分類匯總保存,并對其中的網(wǎng)頁 文檔內(nèi)容和標(biāo)簽對照停用詞表進(jìn)行去停用詞處理,并對網(wǎng)頁文檔內(nèi)容和標(biāo)簽進(jìn)行詞干化處 理,得到提取內(nèi)容集; B、 在提取內(nèi)容集中提取相關(guān)向量:所述相關(guān)向量包括文檔內(nèi)容向量、文檔標(biāo)簽向量、用 戶屬性向量以及用戶類別向量; 文檔內(nèi)容向量的提取方法為:以所有網(wǎng)頁文檔內(nèi)容中出現(xiàn)過的詞作為向量空間,對該 網(wǎng)頁文檔內(nèi)容做tf-idf統(tǒng)計,得到文檔內(nèi)容向量,向量每一維的權(quán)重為tf-idf值; 文檔標(biāo)簽向量的提取方法為:以所有網(wǎng)頁上的標(biāo)簽作為向量空間,對文檔被標(biāo)注過的 標(biāo)簽進(jìn)行詞頻統(tǒng)計,得到文檔標(biāo)簽向量,向量每一維的權(quán)重為該標(biāo)簽出現(xiàn)的次數(shù); 用戶屬性向量的提取方法為:對每一個標(biāo)注過該文檔的用戶,以所有網(wǎng)頁上的標(biāo)簽作 為向量空間,對其在該文檔上給出的標(biāo)簽進(jìn)行頻率統(tǒng)計,得到用戶在該文檔上的文檔標(biāo)簽 向量,向量每一維的權(quán)重為用戶給出該標(biāo)簽的次數(shù);對于每一個用戶,將該用戶對應(yīng)的所有 在文檔上的文檔標(biāo)簽向量進(jìn)行累加,得到該用戶的用戶屬性向量; 用戶類別向量的提取方法為:以所有網(wǎng)頁類別作為向量空間,對用戶標(biāo)注過的網(wǎng)頁的 類別進(jìn)行頻率統(tǒng)計,得到用戶類別向量,向量每一維的權(quán)重為該用戶標(biāo)注過的該類別網(wǎng)頁 的數(shù)量; C、 計算用戶相似度:對目標(biāo)用戶和其他任一用戶的用戶屬性向量求夾角余弦值得到用 戶屬性相似度;對目標(biāo)用戶和其他任一用戶的用戶類別向量求夾角余弦值得到用戶類別相 似度;然后將用戶屬性相似度乘以用戶類別相似度作為目標(biāo)用戶和其他任一用戶之間的相 似度,公式如下: Persim(u',u) = Cos (cu>, cu) X Cos (pu>, pu) 其中,u為目標(biāo)用戶,u'為其他任一用戶,PersimOi',u)為兩者的相似度,c