一種基于社會化標(biāo)注的個性化搜索方法及系統(tǒng)的制作方法

文檔序號：8543752閱讀：255來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

一種基于社會化標(biāo)注的個性化搜索方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明設(shè)及一種捜索方法及系統(tǒng)，尤其是一種基于社會化標(biāo)注的個性化捜索方法及系統(tǒng)。
【背景技術(shù)】
[0002] 近年來，隨著Web2.0的普及和推廣，越來越多基于此的應(yīng)用得到推廣W滿足用戶對互聯(lián)網(wǎng)日益增加的需求。該其中，包括電子商務(wù)網(wǎng)站、博客W及社會化應(yīng)用，它們使網(wǎng)絡(luò) 進(jìn)化成為了社會化網(wǎng)絡(luò)。在社會化網(wǎng)絡(luò)中，用戶可W通過標(biāo)注等行為在自己感興趣的文檔 (包括網(wǎng)頁及網(wǎng)頁上的資源）上留下合適的記號。
[0003] 而社會化標(biāo)注對于個性化捜索是非常有用的資源。一方面，不同用戶從不同角度提供的標(biāo)注對同一文檔而言是很好的總結(jié)；另一方面，社會化標(biāo)注可W看作理想化的個性化興趣數(shù)據(jù)。該主要是由于；1、社會化標(biāo)注由用戶直接提供，所W該些標(biāo)注可W被看作用戶對于文檔的個人意見，收集該些意見可W得到用戶的興趣或偏好；2、標(biāo)注信息通常較易于通過網(wǎng)絡(luò)得到并且很少包含敏感信息，所W使用標(biāo)注信息進(jìn)行個性化捜索并不需要額外的人力和物力。
[0004] 由于網(wǎng)絡(luò)資源的急速增長，信息檢索的效率和準(zhǔn)確性都受到了不小的挑戰(zhàn)，并且由于每一個用戶的關(guān)注點(diǎn)及興趣都各不相同，所W如何讓每一個用戶都能快速準(zhǔn)確的找到感興趣的捜索結(jié)果就成了一個重要的問題。傳統(tǒng)的方法不考慮用戶本身的興趣，只考慮查詢與文檔之間的關(guān)系，雖然能使捜索結(jié)果的內(nèi)容準(zhǔn)確度有一個較好的水平，但依然無法讓用戶最快速度或許自身能想要的結(jié)果。已經(jīng)有不少研究針對個性化捜索，但各種方法都存在一定的缺點(diǎn)，無法取得特別好的結(jié)果。
[0005] 現(xiàn)有的個性化捜索方法主要分為=種：
[0006] 1、通過調(diào)查問卷等形式讓用戶主動給出其興趣，并基于用戶給出的興趣對原始結(jié) 果進(jìn)行重新排序。該種方法能取得較好的效果，但由于需要對用戶進(jìn)行調(diào)查，所W需要額外的開銷，同時也存在用戶不肯配合的情況。此外，由于調(diào)查問卷內(nèi)容設(shè)置的有限性，所W很難涵蓋用戶興趣的各個方面，也很難跟進(jìn)用戶興趣的轉(zhuǎn)移。
[0007] 2、基于用戶的查詢歷史進(jìn)行興趣的構(gòu)建，之后結(jié)合興趣對文檔進(jìn)行打分。此種方法不需要額外的開銷，但由于查詢歷史里經(jīng)常會包含用戶的隱私，所W使用此種方法可能會帶來潛在的隱私問題。同時，由于用該種方法要求用戶曾經(jīng)有過查詢，所W冷啟動也是此種方法需要解決的問題。
[0008] 3、基于用戶之間的相似度進(jìn)行協(xié)同過濾，此種方法通過用戶查詢歷史等信息計算用戶之間的相似度，然后基于相似度對不同用戶的查詢結(jié)果進(jìn)行一定比例的融合，得出個性化的捜索結(jié)果。此種方法同樣需要面對冷啟動的問題，同時由于其并不是基于用戶本身的興趣進(jìn)行捜索，所W在捜索準(zhǔn)確度上存在一定的偏差。

【發(fā)明內(nèi)容】

[0009] 本發(fā)明的目的是提供一種提高用戶信息檢索的準(zhǔn)確性且克服現(xiàn)有技術(shù)中捜索結(jié) 果無法根據(jù)用戶興趣改變的缺陷的基于社會化標(biāo)注的個性化捜索方法及系統(tǒng)。
[0010] 本發(fā)明解決現(xiàn)有技術(shù)問題所采用的技術(shù)方案；一種基于社會化標(biāo)注的個性化捜索方法，該方法包括W下步驟：
[0011] A、預(yù)處理網(wǎng)頁內(nèi)容；對網(wǎng)頁逐個進(jìn)行掃描，采集每個網(wǎng)頁中的標(biāo)識符、網(wǎng)頁文檔內(nèi) 容、類別、給過標(biāo)注的用戶及對應(yīng)用戶給出的標(biāo)簽并將它們保存下來；對于同一網(wǎng)頁，將標(biāo) 識符、網(wǎng)頁類別、網(wǎng)頁文檔內(nèi)容作為一組數(shù)據(jù)記錄，標(biāo)識符、給網(wǎng)頁標(biāo)注過的用戶及對應(yīng)用戶給出的標(biāo)簽作為另一組數(shù)據(jù)記錄；將所有網(wǎng)頁的數(shù)據(jù)記錄分類匯總保存，并對其中的網(wǎng) 頁文檔內(nèi)容和標(biāo)簽對照停用詞表進(jìn)行去停用詞處理，并對網(wǎng)頁文檔內(nèi)容和標(biāo)簽進(jìn)行詞干化處理，得到提取內(nèi)容集；
[0012] B、在提取內(nèi)容集中提取相關(guān)向量；所述相關(guān)向量包括文檔內(nèi)容向量、文檔標(biāo)簽向量、用戶屬性向量W及用戶類別向量；
[0013] 文檔內(nèi)容向量的提取方法為所有網(wǎng)頁文檔內(nèi)容中出現(xiàn)過的詞作為向量空間，對該網(wǎng)頁文檔內(nèi)容做tf-i壯統(tǒng)計，得到文檔內(nèi)容向量，向量每一維的權(quán)重為tf-i壯值；
[0014] 文檔標(biāo)簽向量的提取方法為；W所有網(wǎng)頁上的標(biāo)簽作為向量空間，對文檔被標(biāo)注過的標(biāo)簽進(jìn)行詞頻統(tǒng)計，得到文檔標(biāo)簽向量，向量每一維的權(quán)重為該標(biāo)簽出現(xiàn)的次數(shù)；
[0015] 用戶屬性向量的提取方法為：對每一個標(biāo)注過該文檔的用戶，W所有網(wǎng)頁上的標(biāo) 簽作為向量空間，對其在該文檔上給出的標(biāo)簽進(jìn)行頻率統(tǒng)計，得到用戶在該文檔上的文檔標(biāo)簽向量，向量每一維的權(quán)重為用戶給出該標(biāo)簽的次數(shù)；對于每一個用戶，將該用戶對應(yīng)的所有在文檔上的文檔標(biāo)簽向量進(jìn)行累加，得到該用戶的用戶屬性向量；
[0016] 用戶類別向量的提取方法為所有網(wǎng)頁類別作為向量空間，對用戶標(biāo)注過的網(wǎng) 頁的類別進(jìn)行頻率統(tǒng)計，得到用戶類別向量，向量每一維的權(quán)重為該用戶標(biāo)注過的該類別網(wǎng)頁的數(shù)量；
[0017] C、計算用戶相似度；對目標(biāo)用戶和其他任一用戶的用戶屬性向量求夾角余弦值得到用戶屬性相似度；對目標(biāo)用戶和其他任一用戶的用戶類別向量求夾角余弦值得到用戶類別相似度；然后將用戶屬性相似度乘W用戶類別相似度作為目標(biāo)用戶和其他任一用戶之間的相似度，公式如下：
[001引化rsim(u，，U) =Cos(Cu'，Cu)XCos(Pu'，Pu)
[0019] 其中，u為目標(biāo)用戶，u'為其他任一用戶，Persim(u'，u)為兩者的相似度，Cu為目標(biāo)用戶的類別向量，(V為其他用戶的類別向量，Pu為目標(biāo)用戶的屬性向量，Pul為其他任一用戶的屬性向量，Cos(a,b)為a和b的夾角余弦值；
[0020] D、選取相似用戶；根據(jù)在0-1范圍內(nèi)預(yù)設(shè)的相似度闊值，選擇相似度值超過相似度闊值的用戶為目標(biāo)用戶的相似用戶；
[0021] E、計算用戶對文檔的個性化標(biāo)簽向量；對任一篇文檔，將每一個目標(biāo)用戶與相似用戶的相似度乘W對應(yīng)相似用戶在本篇文檔上的標(biāo)簽向量并求和，得到目標(biāo)用戶對文檔的個性化標(biāo)簽向量；公式如下：
[0022]
【主權(quán)項(xiàng)】
1. 一種基于社會化標(biāo)注的個性化搜索方法，其特征在于，該方法包括以下步驟： A、預(yù)處理網(wǎng)頁內(nèi)容：對網(wǎng)頁逐個進(jìn)行掃描，采集每個網(wǎng)頁中的標(biāo)識符、網(wǎng)頁文檔內(nèi)容、類別、給過標(biāo)注的用戶及對應(yīng)用戶給出的標(biāo)簽并將它們保存下來；對于同一網(wǎng)頁，將標(biāo)識符、網(wǎng)頁類別、網(wǎng)頁文檔內(nèi)容作為一組數(shù)據(jù)記錄，標(biāo)識符、給網(wǎng)頁標(biāo)注過的用戶及對應(yīng)用戶給出的標(biāo)簽作為另一組數(shù)據(jù)記錄；將所有網(wǎng)頁的數(shù)據(jù)記錄分類匯總保存，并對其中的網(wǎng)頁文檔內(nèi)容和標(biāo)簽對照停用詞表進(jìn)行去停用詞處理，并對網(wǎng)頁文檔內(nèi)容和標(biāo)簽進(jìn)行詞干化處理，得到提取內(nèi)容集； B、在提取內(nèi)容集中提取相關(guān)向量：所述相關(guān)向量包括文檔內(nèi)容向量、文檔標(biāo)簽向量、用戶屬性向量以及用戶類別向量；文檔內(nèi)容向量的提取方法為：以所有網(wǎng)頁文檔內(nèi)容中出現(xiàn)過的詞作為向量空間，對該網(wǎng)頁文檔內(nèi)容做tf-idf統(tǒng)計，得到文檔內(nèi)容向量，向量每一維的權(quán)重為tf-idf值；文檔標(biāo)簽向量的提取方法為：以所有網(wǎng)頁上的標(biāo)簽作為向量空間，對文檔被標(biāo)注過的標(biāo)簽進(jìn)行詞頻統(tǒng)計，得到文檔標(biāo)簽向量，向量每一維的權(quán)重為該標(biāo)簽出現(xiàn)的次數(shù)；用戶屬性向量的提取方法為：對每一個標(biāo)注過該文檔的用戶，以所有網(wǎng)頁上的標(biāo)簽作為向量空間，對其在該文檔上給出的標(biāo)簽進(jìn)行頻率統(tǒng)計，得到用戶在該文檔上的文檔標(biāo)簽向量，向量每一維的權(quán)重為用戶給出該標(biāo)簽的次數(shù)；對于每一個用戶，將該用戶對應(yīng)的所有在文檔上的文檔標(biāo)簽向量進(jìn)行累加，得到該用戶的用戶屬性向量；用戶類別向量的提取方法為：以所有網(wǎng)頁類別作為向量空間，對用戶標(biāo)注過的網(wǎng)頁的類別進(jìn)行頻率統(tǒng)計，得到用戶類別向量，向量每一維的權(quán)重為該用戶標(biāo)注過的該類別網(wǎng)頁的數(shù)量； C、計算用戶相似度：對目標(biāo)用戶和其他任一用戶的用戶屬性向量求夾角余弦值得到用戶屬性相似度；對目標(biāo)用戶和其他任一用戶的用戶類別向量求夾角余弦值得到用戶類別相似度；然后將用戶屬性相似度乘以用戶類別相似度作為目標(biāo)用戶和其他任一用戶之間的相似度，公式如下： Persim(u'，u) = Cos (cu>, cu) X Cos (pu>, pu) 其中，u為目標(biāo)用戶，u'為其他任一用戶，PersimOi'，u)為兩者的相似度，c

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：林鴻飛;管毅舟;
技術(shù)所有人：大連理工大學(xué);
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

社會化網(wǎng)絡(luò)營銷的方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于社會化標(biāo)注的個性化搜索方法及系統(tǒng)的制作方法