基于偏好的智能檢索方法及系統(tǒng)的制作方法

文檔序號：6518158閱讀：228來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

基于偏好的智能檢索方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及數(shù)據(jù)檢索領(lǐng)域，公開了一種基于偏好的智能檢索方法及系統(tǒng)。所述方法包括步驟：基于數(shù)據(jù)主題分類、用戶特征及操作日志，建立用戶主題偏好模型；利用用戶主題偏好模型及用戶檢索輸入，進(jìn)行查詢擴展獲得初次檢索結(jié)果；利用用戶主題偏好模型和數(shù)據(jù)在各個主題上的分布情況，進(jìn)行數(shù)據(jù)的主題偏好打分，對初次檢索結(jié)果進(jìn)行基于主題偏好的個性化檢索排序；利用相關(guān)反饋和偽相關(guān)反饋綜合模型對排序后的初次檢索結(jié)果進(jìn)行二次反饋檢索獲得最終檢索結(jié)果。本發(fā)明利用主題標(biāo)引技術(shù)確定數(shù)據(jù)資源的主題分布，使用基于主題的查詢擴展和相關(guān)反饋等技術(shù)構(gòu)建更能代表用戶需求的檢索向量，向用戶提供更符合其潛在需求的檢索結(jié)果。
【專利說明】基于偏好的智能檢索方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)檢索領(lǐng)域，尤其是涉及一種基于偏好的智能檢索方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著社會信息化程度的不斷提高以及IT設(shè)備的高速發(fā)展，信息的存儲量呈指數(shù)上升趨勢；而與此同時人們對信息的獲取要求越來越高，如何利用檢索技術(shù)快速找到所需的有用信息越來越困難。傳統(tǒng)的搜索引擎基于關(guān)鍵詞進(jìn)行檢索，但即便是采用多個關(guān)鍵詞進(jìn)行組合檢索，面對海量的網(wǎng)絡(luò)信息，所獲得結(jié)果的數(shù)量仍然是難以計數(shù)的，要從這些結(jié)果中找到最需要的信息對用戶來說也是項艱巨的工作。因此，當(dāng)前數(shù)據(jù)檢索最關(guān)鍵的問題就是如何從檢索結(jié)果中找到用戶最需要的信息。
[0003]現(xiàn)有技術(shù)中，搜索引擎或數(shù)據(jù)檢索系統(tǒng)會基于部分統(tǒng)計信息對檢索結(jié)果進(jìn)行排序，以爭取把相關(guān)度較高的結(jié)果優(yōu)先提供給用戶。類似的統(tǒng)計信息主要有關(guān)鍵詞出現(xiàn)頻率、匹配度和點擊率等，這些信息是對數(shù)據(jù)本身的確定內(nèi)容進(jìn)行統(tǒng)計，雖然處理量較大但內(nèi)容明確較易實現(xiàn)。此外，還有部分較先進(jìn)的系統(tǒng)進(jìn)行了更進(jìn)一步的優(yōu)化，比如基于各種文本語義的統(tǒng)計特征將數(shù)據(jù)分類或?qū)﹃P(guān)鍵詞進(jìn)行擴展等，力求使靠前的檢索結(jié)果與進(jìn)行檢索的關(guān)鍵詞的相關(guān)度盡可能地高。但是上述方式主要基于用戶單次提交的查詢請求中的描述信息(關(guān)鍵詞、時間、檢索范圍等要求的組合)和數(shù)據(jù)的文本信息，而由于上述兩種信息可用內(nèi)容有限，加上數(shù)據(jù)本身的信息無法體現(xiàn)用戶間的差異，即便采用現(xiàn)有技術(shù)的方式進(jìn)行優(yōu)化，檢索結(jié)果也難以全面地體現(xiàn)不同用戶的需求差異，這導(dǎo)致現(xiàn)有方式的檢索效率、精確度和用戶滿意度很難達(dá)到理想的狀態(tài)。

【發(fā)明內(nèi)容】

[0004]針對現(xiàn)有技術(shù)中存在的上述缺陷，本發(fā)明所要解決的技術(shù)問題是如何針對不同用戶的差異優(yōu)化檢索。
[0005]為解決上述技術(shù)問題，一方面，本發(fā)明提供了一種基于偏好的智能檢索方法，該方法包括步驟:
[0006]SI，基于數(shù)據(jù)主題分類、用戶特征及操作日志，建立用戶主題偏好模型；
[0007]S2，利用用戶主題偏好模型及用戶檢索輸入，進(jìn)行查詢擴展獲得初次檢索結(jié)果；
[0008]S3，利用用戶主題偏好模型和數(shù)據(jù)在各個主題上的分布情況，進(jìn)行數(shù)據(jù)的主題偏好打分，對初次檢索結(jié)果進(jìn)行基于主題偏好的個性化檢索排序；
[0009]S4，利用相關(guān)反饋和偽相關(guān)反饋綜合模型對排序后的初次檢索結(jié)果進(jìn)行二次反饋檢索獲得最終檢索結(jié)果。
[0010]優(yōu)選地，所述步驟SI中，所述建立用戶主題偏好模型包括步驟:
[0011]根據(jù)所述主題分類建立主題向量空間；
[0012]根據(jù)所述用戶特征確定用戶的預(yù)定義主題偏好向量；
[0013]根據(jù)所述操作日志確定用戶的歷史主題偏好向量；[0014]將所述預(yù)定義主題偏好向量和所述歷史主題偏好向量進(jìn)行加權(quán)，得到所述用戶主題偏好模型。
[0015]優(yōu)選地，所述步驟S2中，所述進(jìn)行擴展查詢包括步驟:
[0016]計算所述用戶檢索輸入中的檢索詞對應(yīng)數(shù)據(jù)集合中各詞項的概率分布；
[0017]計算所述用戶主題偏好模型的向量空間中各主題詞對應(yīng)數(shù)據(jù)集合中各詞項的概率分布；
[0018]衡量上述兩種概率分布的相互差異，選擇概率分布差異較小的主題詞，將其以一定權(quán)重加入檢索向量中。
[0019]優(yōu)選地，所述步驟S3中，所述個性化檢索排序包括步驟:
[0020]通過計算所述初次檢索結(jié)果中各結(jié)果與所述用戶主題偏好模型的向量相似度，評判所述各結(jié)果在用戶偏好的主題上的得分；
[0021]計算所述各結(jié)果的質(zhì)量評分；
[0022]根據(jù)所述向量相似度、所述在用戶偏好的主題上的得分及所述質(zhì)量評分的加權(quán)得到所述各結(jié)果的終排序得分，按照所述終排序得分對所述初次檢索結(jié)果中的各結(jié)果進(jìn)行排序。
[0023]優(yōu)選地，所述步驟S4中，所述二次反饋檢索包括步驟:
[0024]利用所述相關(guān)反饋確定所述初次檢索結(jié)果中的相關(guān)結(jié)果的向量集合；
[0025]利用所述偽相關(guān)反饋確定所述初次檢索結(jié)果中的不相關(guān)結(jié)果的向量集合；
[0026]將所述用戶主題偏好模型、所述相關(guān)結(jié)果的向量集合、所述不相關(guān)結(jié)果的向量集合與原始查詢向量結(jié)合進(jìn)行反饋查詢。
[0027]另一方面，本發(fā)明還同時提供了一種基于偏好的智能檢索系統(tǒng)，該系統(tǒng)包括:
[0028]用戶主題偏好識別模塊，用于基于數(shù)據(jù)主題分類、用戶特征及操作日志，建立用戶主題偏好模型；
[0029]查詢擴展模塊，利用用戶主題偏好模型及用戶檢索輸入，進(jìn)行查詢擴展獲得初次檢索結(jié)果；
[0030]檢索排序模塊，利用用戶主題偏好模型和數(shù)據(jù)在各個主題上的分布情況，進(jìn)行數(shù)據(jù)的主題偏好打分，對初次檢索結(jié)果進(jìn)行基于主題偏好的個性化檢索排序；
[0031]反饋檢索模塊，利用相關(guān)反饋和偽相關(guān)反饋綜合模型對排序后的初次檢索結(jié)果進(jìn)行二次反饋檢索獲得最終檢索結(jié)果。
[0032]優(yōu)選地，所述用戶主題偏好識別模塊中進(jìn)一步包括:
[0033]主題向量空間模塊，用于根據(jù)所述主題分類建立主題向量空間；
[0034]預(yù)定義偏好模塊，用于根據(jù)所述用戶特征確定用戶的預(yù)定義主題偏好向量；
[0035]歷史偏好模塊，用于根據(jù)所述操作日志確定用戶的歷史主題偏好向量；
[0036]偏好模型獲取模塊，用于將所述預(yù)定義主題偏好向量和所述歷史主題偏好向量進(jìn)行加權(quán)，得到所述用戶主題偏好模型。
[0037]優(yōu)選地，所述查詢擴展模塊進(jìn)一步包括:
[0038]檢索詞分布模塊，用于計算所述用戶檢索輸入中的檢索詞對應(yīng)數(shù)據(jù)集合中各詞項的概率分布；
[0039]主題詞分布模塊，用于計算所述用戶主題偏好模型的向量空間中各主題詞對應(yīng)數(shù)據(jù)集合中各詞項的概率分布；
[0040]擴展模塊，用于衡量上述兩種概率分布的相互差異，選擇概率分布差異較小的主題詞，將其以一定權(quán)重加入檢索向量中。
[0041]優(yōu)選地,所述檢索排序模塊進(jìn)一步包括:
[0042]主題得分模塊，用于通過計算所述初次檢索結(jié)果中各結(jié)果與所述用戶主題偏好模型的向量相似度，評判所述各結(jié)果在用戶偏好的主題上的得分；
[0043]質(zhì)量評分模塊，用于計算所述各結(jié)果的質(zhì)量評分；
[0044]排序模塊，用于根據(jù)所述向量相似度、所述在用戶偏好的主題上的得分及所述質(zhì)量評分的加權(quán)得到所述各結(jié)果的終排序得分，按照所述終排序得分對所述初次檢索結(jié)果中的各結(jié)果進(jìn)行排序。
[0045]優(yōu)選地，所述反饋檢索模塊進(jìn)一步包括:
[0046]相關(guān)反饋模塊，用于利用所述相關(guān)反饋確定所述初次檢索結(jié)果中的相關(guān)結(jié)果的向
量集合；
[0047]偽相關(guān)反饋模塊，用于利用所述偽相關(guān)反饋確定所述初次檢索結(jié)果中的不相關(guān)結(jié)果的向量集合；
[0048]反饋模塊，用于將所述用戶主題偏好模型、所述相關(guān)結(jié)果的向量集合、所述不相關(guān)結(jié)果的向量集合與原始查詢向量結(jié)合進(jìn)行反饋查詢。
[0049]本發(fā)明提供了一種基于偏好的智能檢索方法及系統(tǒng)，利用主題標(biāo)引技術(shù)確定數(shù)據(jù)資源的主題分布，使用基于主題的查詢擴展和相關(guān)反饋等技術(shù)構(gòu)建更能代表用戶需求的檢索向量，再通過結(jié)合了用戶主題偏好的智能排序模型，向用戶提供更符合其潛在需求的檢索結(jié)果。本發(fā)明所實現(xiàn)的算法和系統(tǒng)能夠識別用戶潛在的、基于專業(yè)主題詞表進(jìn)行描述的情報需求，因而具有更好的檢索效果。
【專利附圖】

【附圖說明】
[0050]圖1為本發(fā)明的一個實施例中基于偏好的智能檢索方法的流程示意圖；
[0051]圖2為本發(fā)明的一個優(yōu)選實施例中基于主題的查詢擴展算法流程示意圖；
[0052]圖3為本發(fā)明的一個優(yōu)選實施例中結(jié)合主題的相關(guān)反饋算法流程示意圖；
[0053]圖4位本發(fā)明的一個典型應(yīng)用場景中基于偏好的智能檢索系統(tǒng)的模塊結(jié)構(gòu)示意圖。
【具體實施方式】
[0054]下面將結(jié)合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述。顯然，所描述的實施例為實施本發(fā)明的較佳實施方式，所述描述是以說明本發(fā)明的一般原則為目的，并非用以限定本發(fā)明的范圍。本發(fā)明的保護范圍應(yīng)當(dāng)以權(quán)利要求所界定者為準(zhǔn)，基于本發(fā)明中的實施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。
[0055]現(xiàn)有技術(shù)主要針對被檢索數(shù)據(jù)進(jìn)行優(yōu)化，最理想的情況也只是對被檢索數(shù)據(jù)進(jìn)行了精確分類和擴展，然后再將其與用戶單次提交的查詢請求中的描述信息進(jìn)行匹配。這種方式雖然很大程度上提高了檢索的精確度，但其并未體現(xiàn)出用戶間的差異，只要查詢請求相同，檢索結(jié)果就會相同，這與實際情況中不同的用戶有著不同的需求的狀況存在著明顯的區(qū)別。
[0056]在本發(fā)明的實施例中，通過觀察分析用戶在較長一段時間內(nèi)的檢索行為來獲取用戶的潛在需求，將用戶需求與數(shù)據(jù)分類兩者結(jié)合，把顯性相關(guān)反饋與隱性相關(guān)反饋技術(shù)融入到檢索優(yōu)化中，準(zhǔn)確體現(xiàn)出了用戶的需求差異并有效提高了數(shù)據(jù)檢索的整體效率和精確度。
[0057]參見圖1，在本發(fā)明的一個實施例中，基于偏好的智能檢索方法包括步驟:
[0058]SI，基于數(shù)據(jù)主題分類、用戶特征及操作日志，建立用戶主題偏好模型；
[0059]S2，利用用戶主題偏好模型及用戶檢索輸入，進(jìn)行查詢擴展獲得初次檢索結(jié)果；
[0060]S3，利用用戶主題偏好模型和數(shù)據(jù)在各個主題上的分布情況，進(jìn)行數(shù)據(jù)的主題偏好打分，對初次檢索結(jié)果進(jìn)行基于主題偏好的個性化檢索排序；
[0061]S4，利用相關(guān)反饋和偽相關(guān)反饋綜合模型對排序后的初次檢索結(jié)果進(jìn)行二次反饋檢索獲得最終檢索結(jié)果。
[0062]以下對上述實施例的各種優(yōu)選方式做進(jìn)一步的擴展說明，在下文的優(yōu)選實施例中，為了進(jìn)一步突出本發(fā)明的技術(shù)規(guī)律和實際效果，將被檢索的數(shù)據(jù)范圍限定在技術(shù)情報信息中，但本領(lǐng)域相關(guān)技術(shù)人員應(yīng)該理解，技術(shù)情報信息只是全部數(shù)據(jù)中的一個具體分類，本發(fā)明的技術(shù)方案顯然可以直接應(yīng)用于各種數(shù)字信息中，下述優(yōu)選實施例不應(yīng)視作對本發(fā)明的限制。
[0063]用戶對數(shù)據(jù)資源的獲取存在潛在的主題需求，以科技文獻(xiàn)為例，不同領(lǐng)域的用戶對同一關(guān)鍵詞的需求有著顯著差異，使這種隱性的主題需求表現(xiàn)得更加明顯。在本發(fā)明的優(yōu)選實施例中，步驟Si里運用主題詞范疇表對用戶需求進(jìn)行映射，發(fā)現(xiàn)用戶在文獻(xiàn)資源分類上的偏好，從而為智能檢索提供良好的基礎(chǔ)。主題偏好主要從以下兩個方面進(jìn)行考慮:
[0064]一、用戶主題偏好的預(yù)定義
[0065]不同的用戶有著不同的特征，其中有不少可體現(xiàn)出用戶的潛在需求，因此，可以根據(jù)用戶特征(比如用戶的地域、職能信息或崗位文獻(xiàn)范疇等)預(yù)先定義一些用戶的主題偏好。具體來說，比如電力行業(yè)中高壓試驗崗位的用戶，對電力變壓器、斷路器、互感器等相關(guān)的文獻(xiàn)資源有特殊需求，因而可從這些崗位文獻(xiàn)中提取出主題詞，結(jié)合崗位職能描述信息，將其映射到規(guī)范的主題范疇上，作為用戶的需求偏好預(yù)定義。更優(yōu)選地，步驟Si中用向量空間模型來表示用戶的主題偏好:
[0066]首先,分析主題分布情況,建立N維主題向量空間[(IipW1), (k2, W2), *..(kN,wN)]；其中，kj為第i個主題,Wi為用戶在Ici上的偏好程度，i e 1,2,…，N。
[0067]然后，從用戶特征(如崗位職能描述信息、崗位文獻(xiàn)等)中提取主題詞，統(tǒng)計這些主題詞的頻率來計算其概率分布；其中，」為主題詞SUbi的詞頻，freqsub total為主題詞集合的總詞頻。
[0068]最后，將八叫經(jīng)過一定的系統(tǒng)調(diào)整后用來表征用戶在各個主題詞SUbi上的偏好程度，從而得到預(yù)定義的用戶主題偏好向量1； W1 2, ''',W1 n);其中 ,Wi=O- psub，I=1,2,…，n，表示用戶在主題匕上預(yù)定義的偏好程度。
[0069]二、從用戶操作日志中發(fā)現(xiàn)用戶主題偏好[0070]用戶的檢索行為是用戶獲取信息的整體行為中的一部分；相關(guān)的有用戶從系統(tǒng)中點擊、下載、收藏文獻(xiàn)等操作，這些操作都會被記錄在系統(tǒng)日志中。因而可以從用戶大量的操作日志信息中挖掘出用戶的主題偏好，為智能檢索提供基礎(chǔ)支撐。在上述方法的步驟SI中，還建立完備的操作日志收集機制，利用操作日志確定用戶主題偏好。
[0071]具體地，收集并分析日志，獲取用戶操作文獻(xiàn)的集合Dtjp= {(!_，d-，…，d_}。對
^di ^ Dop =，統(tǒng)計用戶對Cli的點擊、下載、收藏等操作頻次，并賦予不同操作權(quán)
重，加權(quán)后計算得到用戶對Cli的訪問頻率。根據(jù)文獻(xiàn)的主題標(biāo)引，可以得到Cli在主題詞上的分布，再結(jié)合Cli的訪問頻率，即可得到用戶在各個主題詞上的訪問頻率，將其作為用戶的主題偏好程度，對應(yīng)到主題向量空間中，從而得到用戶的主題偏好向量-,wn)。
[0072]最后，通過將以上兩種主題偏好進(jìn)行加權(quán)，從而確定用戶的主題偏好W=a j.Wpre+ a 2.Wop ;其中a ^ a 2是兩種向量各自的權(quán)重，根據(jù)偏重程度進(jìn)行預(yù)設(shè)或調(diào)整。需要注意的是，根據(jù)日志分析得到用戶偏好是隨著時間變化的，需要根據(jù)日志的更新情況進(jìn)行相應(yīng)的更新。
[0073]查詢請求是用戶查詢需求的直接反應(yīng)，其中同樣蘊含著潛在的主題需求，這種主題需求在一定程度上反應(yīng)了用戶對所需文獻(xiàn)的抽象和概括，更能反映用戶的需求。同時主題詞可以作為文獻(xiàn)資源的標(biāo)記，反應(yīng)了文獻(xiàn)的內(nèi)容核心及分類信息，能更好的表達(dá)文獻(xiàn)的本質(zhì)。綜合這兩方面進(jìn)行考慮，本發(fā)明的步驟S2中選擇主題詞進(jìn)行查詢擴展，從很大程度上提升了檢索的功效，其算法流程如圖2所示。
[0074]如果用戶的檢索輸入直接就是規(guī)范的主題詞，可以通過主題范疇表中的上位詞、下位詞等關(guān)聯(lián)關(guān)系，找到相關(guān)的主題詞進(jìn)行查詢擴展。但很多時候，用戶輸入的查詢請求與潛在主題需求之間沒有顯性的關(guān)聯(lián)，這時可以通過歷史檢索文獻(xiàn)以及主題標(biāo)引文獻(xiàn)為其建立關(guān)聯(lián)關(guān)系。如圖2所不,基本思想如下: [0075]記用戶檢索請求Q對應(yīng)的文檔集合為:Dqray= Wql, dq2,…，dqN}。通過對Dquery中各個文檔進(jìn)行分詞，得到一組Term集合，記為Tquea7=Itql, tq2,..., tqN}。對^tqi e Tquery (? = 1,2，...,#)，統(tǒng)計概率凡,.=freqt: Zfreqtotal，從而得到 Dquery 對應(yīng)的集合Tquery 的概
率分布，記為仄―=(P^，°其中，freqt 為 tqi 的詞頻，freqtotal 為 Tquery 中 Term 的詞頻總數(shù)。
[0076]對于主題向量空間的主題詞，通過文獻(xiàn)的主題標(biāo)引也可以得到一組文檔集合，記為Dsub_t={dsl，ds2，…，dsN}。類似地，通過文檔集合獲取詞條集合，再通過相應(yīng)詞頻的計算，
可以得到Dsubjeet對應(yīng)的詞條集合的概率分布，記為K^ect = (psll, Psh，...，pstN)。
[0077]在獲取了這兩方面的概率分布后，可以通過計算概率分布的相似性，找到與檢索詞最相關(guān)的主題詞，進(jìn)而用來做主題詞的查詢擴展。
[0078]在計算檢索詞和主題詞對應(yīng)的兩組文檔的概率分布相似性時，優(yōu)選考慮使用Kullback-Leibler 散度(Kullback-Leibler Divergence 的簡稱，也叫做相對熵 RelativeEntropy)進(jìn)行計算。
[0079]這樣,通過Dkl(Fsliject丨IFquery)即可計算出Fsu_相對于Ftw的概率分布差異，取差異較對于小的主題詞構(gòu)建查詢擴展[0080]
【權(quán)利要求】
1.一種基于偏好的智能檢索方法，其特征在于，所述方法包括步驟: S1，基于數(shù)據(jù)主題分類、用戶特征及操作日志，建立用戶主題偏好模型； S2，利用用戶主題偏好模型及用戶檢索輸入，進(jìn)行查詢擴展獲得初次檢索結(jié)果； S3，利用用戶主題偏好模型和數(shù)據(jù)在各個主題上的分布情況，進(jìn)行數(shù)據(jù)的主題偏好打分，對初次檢索結(jié)果進(jìn)行基于主題偏好的個性化檢索排序； S4，利用相關(guān)反饋和偽相關(guān)反饋綜合模型對排序后的初次檢索結(jié)果進(jìn)行二次反饋檢索獲得最終檢索結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟SI中，所述建立用戶主題偏好模型包括步驟: 根據(jù)所述主題分類建立主題向量空間；根據(jù)所述用戶特征確定用戶的預(yù)定義主題偏好向量；根據(jù)所述操作日志確定用戶的歷史主題偏好向量；將所述預(yù)定義主題偏好向量和所述歷史主題偏好向量進(jìn)行加權(quán)，得到所述用戶主題偏好模型。
3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟S2中，所述進(jìn)行擴展查詢包括步驟: 計算所述用戶檢索輸入中的檢索詞對應(yīng)數(shù)據(jù)集合中各詞項的概率分布；計算所述用戶主題偏好模型的向量空間中各主題詞對應(yīng)數(shù)據(jù)集合中各詞項的概率分布；衡量上述兩種概率分布的相互差異，選擇概率分布差異較小的主題詞，將其以一定權(quán)重加入檢索向量中。
4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟S3中，所述個性化檢索排序包括步驟: 通過計算所述初次檢索結(jié)果中各結(jié)果與所述用戶主題偏好模型的向量相似度，評判所述各結(jié)果在用戶偏好的主題上的得分；計算所述各結(jié)果的質(zhì)量評分；根據(jù)所述向量相似度、所述在用戶偏好的主題上的得分及所述質(zhì)量評分的加權(quán)得到所述各結(jié)果的終排序得分，按照所述終排序得分對所述初次檢索結(jié)果中的各結(jié)果進(jìn)行排序。
5.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述步驟S4中，所述二次反饋檢索包括步驟: 利用所述相關(guān)反饋確定所述初次檢索結(jié)果中的相關(guān)結(jié)果的向量集合；利用所述偽相關(guān)反饋確定所述初次檢索結(jié)果中的不相關(guān)結(jié)果的向量集合；將所述用戶主題偏好模型、所述相關(guān)結(jié)果的向量集合、所述不相關(guān)結(jié)果的向量集合與原始查詢向量結(jié)合進(jìn)行反饋查詢。
6.一種基于偏好的智能檢索系統(tǒng)，其特征在于，所述系統(tǒng)包括: 用戶主題偏好識別模塊，用于基于數(shù)據(jù)主題分類、用戶特征及操作日志，建立用戶主題偏好模型；查詢擴展模塊，利用用戶主題偏好模型及用戶檢索輸入，進(jìn)行查詢擴展獲得初次檢索結(jié)果;檢索排序模塊，利用用戶主題偏好模型和數(shù)據(jù)在各個主題上的分布情況，進(jìn)行數(shù)據(jù)的主題偏好打分，對初次檢索結(jié)果進(jìn)行基于主題偏好的個性化檢索排序；反饋檢索模塊，利用相關(guān)反饋和偽相關(guān)反饋綜合模型對排序后的初次檢索結(jié)果進(jìn)行二次反饋檢索獲得最終檢索結(jié)果。
7.根據(jù)權(quán)利要求6所述的系統(tǒng)，其特征在于，所述用戶主題偏好識別模塊中進(jìn)一步包括: 主題向量空間模塊，用于根據(jù)所述主題分類建立主題向量空間；預(yù)定義偏好模塊，用于根據(jù)所述用戶特征確定用戶的預(yù)定義主題偏好向量；歷史偏好模塊，用于根據(jù)所述操作日志確定用戶的歷史主題偏好向量；偏好模型獲取模塊，用于將所述預(yù)定義主題偏好向量和所述歷史主題偏好向量進(jìn)行加權(quán)，得到所述用戶主題偏好模型。
8.根據(jù)權(quán)利要求6所述的系統(tǒng)，其特征在于，所述查詢擴展模塊進(jìn)一步包括: 檢索詞分布模塊，用于計算所述用戶檢索輸入中的檢索詞對應(yīng)數(shù)據(jù)集合中各詞項的概率分布；主題詞分布模塊，用于計算所述用戶主題偏好模型的向量空間中各主題詞對應(yīng)數(shù)據(jù)集合中各詞項的概率分布；擴展模塊，用于衡量上述兩種概率分布的相互差異，選擇概率分布差異較小的主題詞，將其以一定權(quán)重加入檢索向量中。
9.根據(jù)權(quán)利要求6所述的系`統(tǒng)，其特征在于，所述檢索排序模塊進(jìn)一步包括: 主題得分模塊，用于通過計算所述初次檢索結(jié)果中各結(jié)果與所述用戶主題偏好模型的向量相似度，評判所述各結(jié)果在用戶偏好的主題上的得分；質(zhì)量評分模塊，用于計算所述各結(jié)果的質(zhì)量評分；排序模塊，用于根據(jù)所述向量相似度、所述在用戶偏好的主題上的得分及所述質(zhì)量評分的加權(quán)得到所述各結(jié)果的終排序得分，按照所述終排序得分對所述初次檢索結(jié)果中的各結(jié)果進(jìn)行排序。
10.根據(jù)權(quán)利要求6所述的系統(tǒng)，其特征在于，所述反饋檢索模塊進(jìn)一步包括: 相關(guān)反饋模塊，用于利用所述相關(guān)反饋確定所述初次檢索結(jié)果中的相關(guān)結(jié)果的向量集合；偽相關(guān)反饋模塊，用于利用所述偽相關(guān)反饋確定所述初次檢索結(jié)果中的不相關(guān)結(jié)果的向量集合；反饋模塊，用于將所述用戶主題偏好模型、所述相關(guān)結(jié)果的向量集合、所述不相關(guān)結(jié)果的向量集合與原始查詢向量結(jié)合進(jìn)行反饋查詢。
【文檔編號】G06F17/30GK103593425SQ201310549069
【公開日】2014年2月19日申請日期:2013年11月8日優(yōu)先權(quán)日:2013年11月8日
【發(fā)明者】李鵬, 周育忠, 王慶紅, 龔婷, 陳傳夫, 王平, 冉從敬, 吳江申請人:南方電網(wǎng)科學(xué)研究院有限責(zé)任公司, 武漢大學(xué)

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李鵬;周育忠;王慶紅;龔婷;陳傳夫;王平;冉從敬;吳江
技術(shù)所有人：南方電網(wǎng)科學(xué)研究院有限責(zé)任公司;武漢大學(xué)
我是此專利的發(fā)明人

上一篇：一種用于信息系統(tǒng)性能提升的對象化并行計算方法及系統(tǒng)的制作方法
上一篇：軟件在線升級方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

系統(tǒng)偏好設(shè)置在哪里相關(guān)技術(shù)

系統(tǒng)偏好設(shè)置相關(guān)技術(shù)

mac系統(tǒng)偏好設(shè)置有個1相關(guān)技術(shù)

蘋果系統(tǒng)偏好設(shè)置在哪相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于偏好的智能檢索方法及系統(tǒng)的制作方法