基于偏好的智能檢索方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明涉及數(shù)據(jù)檢索領(lǐng)域,公開了一種基于偏好的智能檢索方法及系統(tǒng)。所述方法包括步驟:基于數(shù)據(jù)主題分類、用戶特征及操作日志,建立用戶主題偏好模型;利用用戶主題偏好模型及用戶檢索輸入,進(jìn)行查詢擴展獲得初次檢索結(jié)果;利用用戶主題偏好模型和數(shù)據(jù)在各個主題上的分布情況,進(jìn)行數(shù)據(jù)的主題偏好打分,對初次檢索結(jié)果進(jìn)行基于主題偏好的個性化檢索排序;利用相關(guān)反饋和偽相關(guān)反饋綜合模型對排序后的初次檢索結(jié)果進(jìn)行二次反饋檢索獲得最終檢索結(jié)果。本發(fā)明利用主題標(biāo)引技術(shù)確定數(shù)據(jù)資源的主題分布,使用基于主題的查詢擴展和相關(guān)反饋等技術(shù)構(gòu)建更能代表用戶需求的檢索向量,向用戶提供更符合其潛在需求的檢索結(jié)果。
【專利說明】基于偏好的智能檢索方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)檢索領(lǐng)域,尤其是涉及一種基于偏好的智能檢索方法及系統(tǒng)。
【背景技術(shù)】
[0002]隨著社會信息化程度的不斷提高以及IT設(shè)備的高速發(fā)展,信息的存儲量呈指數(shù)上升趨勢;而與此同時人們對信息的獲取要求越來越高,如何利用檢索技術(shù)快速找到所需的有用信息越來越困難。傳統(tǒng)的搜索引擎基于關(guān)鍵詞進(jìn)行檢索,但即便是采用多個關(guān)鍵詞進(jìn)行組合檢索,面對海量的網(wǎng)絡(luò)信息,所獲得結(jié)果的數(shù)量仍然是難以計數(shù)的,要從這些結(jié)果中找到最需要的信息對用戶來說也是項艱巨的工作。因此,當(dāng)前數(shù)據(jù)檢索最關(guān)鍵的問題就是如何從檢索結(jié)果中找到用戶最需要的信息。
[0003]現(xiàn)有技術(shù)中,搜索引擎或數(shù)據(jù)檢索系統(tǒng)會基于部分統(tǒng)計信息對檢索結(jié)果進(jìn)行排序,以爭取把相關(guān)度較高的結(jié)果優(yōu)先提供給用戶。類似的統(tǒng)計信息主要有關(guān)鍵詞出現(xiàn)頻率、匹配度和點擊率等,這些信息是對數(shù)據(jù)本身的確定內(nèi)容進(jìn)行統(tǒng)計,雖然處理量較大但內(nèi)容明確較易實現(xiàn)。此外,還有部分較先進(jìn)的系統(tǒng)進(jìn)行了更進(jìn)一步的優(yōu)化,比如基于各種文本語義的統(tǒng)計特征將數(shù)據(jù)分類或?qū)﹃P(guān)鍵詞進(jìn)行擴展等,力求使靠前的檢索結(jié)果與進(jìn)行檢索的關(guān)鍵詞的相關(guān)度盡可能地高。但是上述方式主要基于用戶單次提交的查詢請求中的描述信息(關(guān)鍵詞、時間、檢索范圍等要求的組合)和數(shù)據(jù)的文本信息,而由于上述兩種信息可用內(nèi)容有限,加上數(shù)據(jù)本身的信息無法體現(xiàn)用戶間的差異,即便采用現(xiàn)有技術(shù)的方式進(jìn)行優(yōu)化,檢索結(jié)果也難以全面地體現(xiàn)不同用戶的需求差異,這導(dǎo)致現(xiàn)有方式的檢索效率、精確度和用戶滿意度很難達(dá)到理想的狀態(tài)。
【發(fā)明內(nèi)容】
[0004]針對現(xiàn)有技術(shù)中存在的上述缺陷,本發(fā)明所要解決的技術(shù)問題是如何針對不同用戶的差異優(yōu)化檢索。
[0005]為解決上述技術(shù)問題,一方面,本發(fā)明提供了一種基于偏好的智能檢索方法,該方法包括步驟:
[0006]SI,基于數(shù)據(jù)主題分類、用戶特征及操作日志,建立用戶主題偏好模型;
[0007]S2,利用用戶主題偏好模型及用戶檢索輸入,進(jìn)行查詢擴展獲得初次檢索結(jié)果;
[0008]S3,利用用戶主題偏好模型和數(shù)據(jù)在各個主題上的分布情況,進(jìn)行數(shù)據(jù)的主題偏好打分,對初次檢索結(jié)果進(jìn)行基于主題偏好的個性化檢索排序;
[0009]S4,利用相關(guān)反饋和偽相關(guān)反饋綜合模型對排序后的初次檢索結(jié)果進(jìn)行二次反饋檢索獲得最終檢索結(jié)果。
[0010]優(yōu)選地,所述步驟SI中,所述建立用戶主題偏好模型包括步驟:
[0011]根據(jù)所述主題分類建立主題向量空間;
[0012]根據(jù)所述用戶特征確定用戶的預(yù)定義主題偏好向量;
[0013]根據(jù)所述操作日志確定用戶的歷史主題偏好向量;[0014]將所述預(yù)定義主題偏好向量和所述歷史主題偏好向量進(jìn)行加權(quán),得到所述用戶主題偏好模型。
[0015]優(yōu)選地,所述步驟S2中,所述進(jìn)行擴展查詢包括步驟:
[0016]計算所述用戶檢索輸入中的檢索詞對應(yīng)數(shù)據(jù)集合中各詞項的概率分布;
[0017]計算所述用戶主題偏好模型的向量空間中各主題詞對應(yīng)數(shù)據(jù)集合中各詞項的概率分布;
[0018]衡量上述兩種概率分布的相互差異,選擇概率分布差異較小的主題詞,將其以一定權(quán)重加入檢索向量中。
[0019]優(yōu)選地,所述步驟S3中,所述個性化檢索排序包括步驟:
[0020]通過計算所述初次檢索結(jié)果中各結(jié)果與所述用戶主題偏好模型的向量相似度,評判所述各結(jié)果在用戶偏好的主題上的得分;
[0021]計算所述各結(jié)果的質(zhì)量評分;
[0022]根據(jù)所述向量相似度、所述在用戶偏好的主題上的得分及所述質(zhì)量評分的加權(quán)得到所述各結(jié)果的終排序得分,按照所述終排序得分對所述初次檢索結(jié)果中的各結(jié)果進(jìn)行排序。
[0023]優(yōu)選地,所述步驟S4中,所述二次反饋檢索包括步驟:
[0024]利用所述相關(guān)反饋確定所述初次檢索結(jié)果中的相關(guān)結(jié)果的向量集合;
[0025]利用所述偽相關(guān)反饋確定所述初次檢索結(jié)果中的不相關(guān)結(jié)果的向量集合;
[0026]將所述用戶主題偏好模型、所述相關(guān)結(jié)果的向量集合、所述不相關(guān)結(jié)果的向量集合與原始查詢向量結(jié)合進(jìn)行反饋查詢。
[0027]另一方面,本發(fā)明還同時提供了一種基于偏好的智能檢索系統(tǒng),該系統(tǒng)包括:
[0028]用戶主題偏好識別模塊,用于基于數(shù)據(jù)主題分類、用戶特征及操作日志,建立用戶主題偏好模型;
[0029]查詢擴展模塊,利用用戶主題偏好模型及用戶檢索輸入,進(jìn)行查詢擴展獲得初次檢索結(jié)果;
[0030]檢索排序模塊,利用用戶主題偏好模型和數(shù)據(jù)在各個主題上的分布情況,進(jìn)行數(shù)據(jù)的主題偏好打分,對初次檢索結(jié)果進(jìn)行基于主題偏好的個性化檢索排序;
[0031]反饋檢索模塊,利用相關(guān)反饋和偽相關(guān)反饋綜合模型對排序后的初次檢索結(jié)果進(jìn)行二次反饋檢索獲得最終檢索結(jié)果。
[0032]優(yōu)選地,所述用戶主題偏好識別模塊中進(jìn)一步包括:
[0033]主題向量空間模塊,用于根據(jù)所述主題分類建立主題向量空間;
[0034]預(yù)定義偏好模塊,用于根據(jù)所述用戶特征確定用戶的預(yù)定義主題偏好向量;
[0035]歷史偏好模塊,用于根據(jù)所述操作日志確定用戶的歷史主題偏好向量;
[0036]偏好模型獲取模塊,用于將所述預(yù)定義主題偏好向量和所述歷史主題偏好向量進(jìn)行加權(quán),得到所述用戶主題偏好模型。
[0037]優(yōu)選地,所述查詢擴展模塊進(jìn)一步包括:
[0038]檢索詞分布模塊,用于計算所述用戶檢索輸入中的檢索詞對應(yīng)數(shù)據(jù)集合中各詞項的概率分布;
[0039]主題詞分布模塊,用于計算所述用戶主題偏好模型的向量空間中各主題詞對應(yīng)數(shù)據(jù)集合中各詞項的概率分布;
[0040]擴展模塊,用于衡量上述兩種概率分布的相互差異,選擇概率分布差異較小的主題詞,將其以一定權(quán)重加入檢索向量中。
[0041]優(yōu)選地,所述檢索排序模塊進(jìn)一步包括:
[0042]主題得分模塊,用于通過計算所述初次檢索結(jié)果中各結(jié)果與所述用戶主題偏好模型的向量相似度,評判所述各結(jié)果在用戶偏好的主題上的得分;
[0043]質(zhì)量評分模塊,用于計算所述各結(jié)果的質(zhì)量評分;
[0044]排序模塊,用于根據(jù)所述向量相似度、所述在用戶偏好的主題上的得分及所述質(zhì)量評分的加權(quán)得到所述各結(jié)果的終排序得分,按照所述終排序得分對所述初次檢索結(jié)果中的各結(jié)果進(jìn)行排序。
[0045]優(yōu)選地,所述反饋檢索模塊進(jìn)一步包括:
[0046]相關(guān)反饋模塊,用于利用所述相關(guān)反饋確定所述初次檢索結(jié)果中的相關(guān)結(jié)果的向
量集合;
[0047]偽相關(guān)反饋模塊,用于利用所述偽相關(guān)反饋確定所述初次檢索結(jié)果中的不相關(guān)結(jié)果的向量集合;
[0048]反饋模塊,用于將所述用戶主題偏好模型、所述相關(guān)結(jié)果的向量集合、所述不相關(guān)結(jié)果的向量集合與原始查詢向量結(jié)合進(jìn)行反饋查詢。
[0049]本發(fā)明提供了一種基于偏好的智能檢索方法及系統(tǒng),利用主題標(biāo)引技術(shù)確定數(shù)據(jù)資源的主題分布,使用基于主題的查詢擴展和相關(guān)反饋等技術(shù)構(gòu)建更能代表用戶需求的檢索向量,再通過結(jié)合了用戶主題偏好的智能排序模型,向用戶提供更符合其潛在需求的檢索結(jié)果。本發(fā)明所實現(xiàn)的算法和系統(tǒng)能夠識別用戶潛在的、基于專業(yè)主題詞表進(jìn)行描述的情報需求,因而具有更好的檢索效果。
【專利附圖】
【附圖說明】
[0050]圖1為本發(fā)明的一個實施例中基于偏好的智能檢索方法的流程示意圖;
[0051]圖2為本發(fā)明的一個優(yōu)選實施例中基于主題的查詢擴展算法流程示意圖;
[0052]圖3為本發(fā)明的一個優(yōu)選實施例中結(jié)合主題的相關(guān)反饋算法流程示意圖;
[0053]圖4位本發(fā)明的一個典型應(yīng)用場景中基于偏好的智能檢索系統(tǒng)的模塊結(jié)構(gòu)示意圖。
【具體實施方式】
[0054]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進(jìn)行清楚、完整地描述。顯然,所描述的實施例為實施本發(fā)明的較佳實施方式,所述描述是以說明本發(fā)明的一般原則為目的,并非用以限定本發(fā)明的范圍。本發(fā)明的保護范圍應(yīng)當(dāng)以權(quán)利要求所界定者為準(zhǔn),基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動的前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0055]現(xiàn)有技術(shù)主要針對被檢索數(shù)據(jù)進(jìn)行優(yōu)化,最理想的情況也只是對被檢索數(shù)據(jù)進(jìn)行了精確分類和擴展,然后再將其與用戶單次提交的查詢請求中的描述信息進(jìn)行匹配。這種方式雖然很大程度上提高了檢索的精確度,但其并未體現(xiàn)出用戶間的差異,只要查詢請求相同,檢索結(jié)果就會相同,這與實際情況中不同的用戶有著不同的需求的狀況存在著明顯的區(qū)別。
[0056]在本發(fā)明的實施例中,通過觀察分析用戶在較長一段時間內(nèi)的檢索行為來獲取用戶的潛在需求,將用戶需求與數(shù)據(jù)分類兩者結(jié)合,把顯性相關(guān)反饋與隱性相關(guān)反饋技術(shù)融入到檢索優(yōu)化中,準(zhǔn)確體現(xiàn)出了用戶的需求差異并有效提高了數(shù)據(jù)檢索的整體效率和精確度。
[0057]參見圖1,在本發(fā)明的一個實施例中,基于偏好的智能檢索方法包括步驟:
[0058]SI,基于數(shù)據(jù)主題分類、用戶特征及操作日志,建立用戶主題偏好模型;
[0059]S2,利用用戶主題偏好模型及用戶檢索輸入,進(jìn)行查詢擴展獲得初次檢索結(jié)果;
[0060]S3,利用用戶主題偏好模型和數(shù)據(jù)在各個主題上的分布情況,進(jìn)行數(shù)據(jù)的主題偏好打分,對初次檢索結(jié)果進(jìn)行基于主題偏好的個性化檢索排序;
[0061]S4,利用相關(guān)反饋和偽相關(guān)反饋綜合模型對排序后的初次檢索結(jié)果進(jìn)行二次反饋檢索獲得最終檢索結(jié)果。
[0062]以下對上述實施例的各種優(yōu)選方式做進(jìn)一步的擴展說明,在下文的優(yōu)選實施例中,為了進(jìn)一步突出本發(fā)明的技術(shù)規(guī)律和實際效果,將被檢索的數(shù)據(jù)范圍限定在技術(shù)情報信息中,但本領(lǐng)域相關(guān)技術(shù)人員應(yīng)該理解,技術(shù)情報信息只是全部數(shù)據(jù)中的一個具體分類,本發(fā)明的技術(shù)方案顯然可以直接應(yīng)用于各種數(shù)字信息中,下述優(yōu)選實施例不應(yīng)視作對本發(fā)明的限制。
[0063]用戶對數(shù)據(jù)資源的獲取存在潛在的主題需求,以科技文獻(xiàn)為例,不同領(lǐng)域的用戶對同一關(guān)鍵詞的需求有著顯著差異,使這種隱性的主題需求表現(xiàn)得更加明顯。在本發(fā)明的優(yōu)選實施例中,步驟Si里運用主題詞范疇表對用戶需求進(jìn)行映射,發(fā)現(xiàn)用戶在文獻(xiàn)資源分類上的偏好,從而為智能檢索提供良好的基礎(chǔ)。主題偏好主要從以下兩個方面進(jìn)行考慮:
[0064]一、用戶主題偏好的預(yù)定義
[0065]不同的用戶有著不同的特征,其中有不少可體現(xiàn)出用戶的潛在需求,因此,可以根據(jù)用戶特征(比如用戶的地域、職能信息或崗位文獻(xiàn)范疇等)預(yù)先定義一些用戶的主題偏好。具體來說,比如電力行業(yè)中高壓試驗崗位的用戶,對電力變壓器、斷路器、互感器等相關(guān)的文獻(xiàn)資源有特殊需求,因而可從這些崗位文獻(xiàn)中提取出主題詞,結(jié)合崗位職能描述信息,將其映射到規(guī)范的主題范疇上,作為用戶的需求偏好預(yù)定義。更優(yōu)選地,步驟Si中用向量空間模型來表示用戶的主題偏好:
[0066]首先,分析主題分布情況,建立N維主題向量空間[(IipW1), (k2, W2), *..(kN,wN)];其中,kj為第i個主題,Wi為用戶在Ici上的偏好程度,i e 1,2,…,N。
[0067]然后,從用戶特征(如崗位職能描述信息、崗位文獻(xiàn)等)中提取主題詞,統(tǒng)計這些主題詞的頻率來計算其概率分布;其中,」為主題詞SUbi的詞頻,freqsub total為主題詞集合的總詞頻。
[0068]最后,將八叫經(jīng)過一定的系統(tǒng)調(diào)整后用來表征用戶在各個主題詞SUbi上的偏好程度,從而得到預(yù)定義的用戶主題偏好向量1; W1 2, ''',W1 n);其中 ,Wi=O- psub,I=1,2,…,n,表示用戶在主題匕上預(yù)定義的偏好程度。
[0069]二、從用戶操作日志中發(fā)現(xiàn)用戶主題偏好[0070]用戶的檢索行為是用戶獲取信息的整體行為中的一部分;相關(guān)的有用戶從系統(tǒng)中點擊、下載、收藏文獻(xiàn)等操作,這些操作都會被記錄在系統(tǒng)日志中。因而可以從用戶大量的操作日志信息中挖掘出用戶的主題偏好,為智能檢索提供基礎(chǔ)支撐。在上述方法的步驟SI中,還建立完備的操作日志收集機制,利用操作日志確定用戶主題偏好。
[0071]具體地,收集并分析日志,獲取用戶操作文獻(xiàn)的集合Dtjp= {(!_,d-,…,d_}。對
^di ^ Dop =,統(tǒng)計用戶對Cli的點擊、下載、收藏等操作頻次,并賦予不同操作權(quán)
重,加權(quán)后計算得到用戶對Cli的訪問頻率。根據(jù)文獻(xiàn)的主題標(biāo)引,可以得到Cli在主題詞上的分布,再結(jié)合Cli的訪問頻率,即可得到用戶在各個主題詞上的訪問頻率,將其作為用戶的主題偏好程度,對應(yīng)到主題向量空間中,從而得到用戶的主題偏好向量-,wn)。
[0072]最后,通過將以上兩種主題偏好進(jìn)行加權(quán),從而確定用戶的主題偏好W=a j.Wpre+ a 2.Wop ;其中a ^ a 2是兩種向量各自的權(quán)重,根據(jù)偏重程度進(jìn)行預(yù)設(shè)或調(diào)整。需要注意的是,根據(jù)日志分析得到用戶偏好是隨著時間變化的,需要根據(jù)日志的更新情況進(jìn)行相應(yīng)的更新。
[0073]查詢請求是用戶查詢需求的直接反應(yīng),其中同樣蘊含著潛在的主題需求,這種主題需求在一定程度上反應(yīng)了用戶對所需文獻(xiàn)的抽象和概括,更能反映用戶的需求。同時主題詞可以作為文獻(xiàn)資源的標(biāo)記,反應(yīng)了文獻(xiàn)的內(nèi)容核心及分類信息,能更好的表達(dá)文獻(xiàn)的本質(zhì)。綜合這兩方面進(jìn)行考慮,本發(fā)明的步驟S2中選擇主題詞進(jìn)行查詢擴展,從很大程度上提升了檢索的功效,其算法流程如圖2所示。
[0074]如果用戶的檢索輸入直接就是規(guī)范的主題詞,可以通過主題范疇表中的上位詞、下位詞等關(guān)聯(lián)關(guān)系,找到相關(guān)的主題詞進(jìn)行查詢擴展。但很多時候,用戶輸入的查詢請求與潛在主題需求之間沒有顯性的關(guān)聯(lián),這時可以通過歷史檢索文獻(xiàn)以及主題標(biāo)引文獻(xiàn)為其建立關(guān)聯(lián)關(guān)系。如圖2所不,基本思想如下: [0075]記用戶檢索請求Q對應(yīng)的文檔集合為:Dqray= Wql, dq2,…,dqN}。通過對Dquery中各個文檔進(jìn)行分詞,得到一組Term集合,記為Tquea7=Itql, tq2,..., tqN}。對^tqi e Tquery (? = 1,2,...,#),統(tǒng)計概率凡,.=freqt: Zfreqtotal,從而得到 Dquery 對應(yīng)的集合Tquery 的概
率分布,記為仄―=(P^,°其中,freqt 為 tqi 的詞頻,freqtotal 為 Tquery 中 Term 的詞頻總數(shù)。
[0076]對于主題向量空間的主題詞,通過文獻(xiàn)的主題標(biāo)引也可以得到一組文檔集合,記為Dsub_t={dsl,ds2,…,dsN}。類似地,通過文檔集合獲取詞條集合,再通過相應(yīng)詞頻的計算,
可以得到Dsubjeet對應(yīng)的詞條集合的概率分布,記為K^ect = (psll, Psh,...,pstN)。
[0077]在獲取了這兩方面的概率分布后,可以通過計算概率分布的相似性,找到與檢索詞最相關(guān)的主題詞,進(jìn)而用來做主題詞的查詢擴展。
[0078]在計算檢索詞和主題詞對應(yīng)的兩組文檔的概率分布相似性時,優(yōu)選考慮使用Kullback-Leibler 散度(Kullback-Leibler Divergence 的簡稱,也叫做相對熵 RelativeEntropy)進(jìn)行計算。
[0079]這樣,通過Dkl(Fsliject丨IFquery)即可計算出Fsu_相對于Ftw的概率分布差異,取差異較對于小的主題詞構(gòu)建查詢擴展[0080]
【權(quán)利要求】
1.一種基于偏好的智能檢索方法,其特征在于,所述方法包括步驟: S1,基于數(shù)據(jù)主題分類、用戶特征及操作日志,建立用戶主題偏好模型; S2,利用用戶主題偏好模型及用戶檢索輸入,進(jìn)行查詢擴展獲得初次檢索結(jié)果; S3,利用用戶主題偏好模型和數(shù)據(jù)在各個主題上的分布情況,進(jìn)行數(shù)據(jù)的主題偏好打分,對初次檢索結(jié)果進(jìn)行基于主題偏好的個性化檢索排序; S4,利用相關(guān)反饋和偽相關(guān)反饋綜合模型對排序后的初次檢索結(jié)果進(jìn)行二次反饋檢索獲得最終檢索結(jié)果。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟SI中,所述建立用戶主題偏好模型包括步驟: 根據(jù)所述主題分類建立主題向量空間; 根據(jù)所述用戶特征確定用戶的預(yù)定義主題偏好向量; 根據(jù)所述操作日志確定用戶的歷史主題偏好向量; 將所述預(yù)定義主題偏好向量和所述歷史主題偏好向量進(jìn)行加權(quán),得到所述用戶主題偏好模型。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S2中,所述進(jìn)行擴展查詢包括步驟: 計算所述用戶檢索輸入中的檢索詞對應(yīng)數(shù)據(jù)集合中各詞項的概率分布; 計算所述用戶主題偏好模型的向量空間中各主題詞對應(yīng)數(shù)據(jù)集合中各詞項的概率分布; 衡量上述兩種概率分布的相互差異,選擇概率分布差異較小的主題詞,將其以一定權(quán)重加入檢索向量中。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S3中,所述個性化檢索排序包括步驟: 通過計算所述初次檢索結(jié)果中各結(jié)果與所述用戶主題偏好模型的向量相似度,評判所述各結(jié)果在用戶偏好的主題上的得分; 計算所述各結(jié)果的質(zhì)量評分; 根據(jù)所述向量相似度、所述在用戶偏好的主題上的得分及所述質(zhì)量評分的加權(quán)得到所述各結(jié)果的終排序得分,按照所述終排序得分對所述初次檢索結(jié)果中的各結(jié)果進(jìn)行排序。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述步驟S4中,所述二次反饋檢索包括步驟: 利用所述相關(guān)反饋確定所述初次檢索結(jié)果中的相關(guān)結(jié)果的向量集合; 利用所述偽相關(guān)反饋確定所述初次檢索結(jié)果中的不相關(guān)結(jié)果的向量集合; 將所述用戶主題偏好模型、所述相關(guān)結(jié)果的向量集合、所述不相關(guān)結(jié)果的向量集合與原始查詢向量結(jié)合進(jìn)行反饋查詢。
6.一種基于偏好的智能檢索系統(tǒng),其特征在于,所述系統(tǒng)包括: 用戶主題偏好識別模塊,用于基于數(shù)據(jù)主題分類、用戶特征及操作日志,建立用戶主題偏好模型; 查詢擴展模塊,利用用戶主題偏好模型及用戶檢索輸入,進(jìn)行查詢擴展獲得初次檢索結(jié)果;檢索排序模塊,利用用戶主題偏好模型和數(shù)據(jù)在各個主題上的分布情況,進(jìn)行數(shù)據(jù)的主題偏好打分,對初次檢索結(jié)果進(jìn)行基于主題偏好的個性化檢索排序; 反饋檢索模塊,利用相關(guān)反饋和偽相關(guān)反饋綜合模型對排序后的初次檢索結(jié)果進(jìn)行二次反饋檢索獲得最終檢索結(jié)果。
7.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述用戶主題偏好識別模塊中進(jìn)一步包括: 主題向量空間模塊,用于根據(jù)所述主題分類建立主題向量空間; 預(yù)定義偏好模塊,用于根據(jù)所述用戶特征確定用戶的預(yù)定義主題偏好向量; 歷史偏好模塊,用于根據(jù)所述操作日志確定用戶的歷史主題偏好向量; 偏好模型獲取模塊,用于將所述預(yù)定義主題偏好向量和所述歷史主題偏好向量進(jìn)行加權(quán),得到所述用戶主題偏好模型。
8.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述查詢擴展模塊進(jìn)一步包括: 檢索詞分布模塊,用于計算所述用戶檢索輸入中的檢索詞對應(yīng)數(shù)據(jù)集合中各詞項的概率分布; 主題詞分布模塊,用于計算所述用戶主題偏好模型的向量空間中各主題詞對應(yīng)數(shù)據(jù)集合中各詞項的概率分布; 擴展模塊,用于衡量上述兩種概率分布的相互差異,選擇概率分布差異較小的主題詞,將其以一定權(quán)重加入檢索向量中。
9.根據(jù)權(quán)利要求6所述的系`統(tǒng),其特征在于,所述檢索排序模塊進(jìn)一步包括: 主題得分模塊,用于通過計算所述初次檢索結(jié)果中各結(jié)果與所述用戶主題偏好模型的向量相似度,評判所述各結(jié)果在用戶偏好的主題上的得分; 質(zhì)量評分模塊,用于計算所述各結(jié)果的質(zhì)量評分; 排序模塊,用于根據(jù)所述向量相似度、所述在用戶偏好的主題上的得分及所述質(zhì)量評分的加權(quán)得到所述各結(jié)果的終排序得分,按照所述終排序得分對所述初次檢索結(jié)果中的各結(jié)果進(jìn)行排序。
10.根據(jù)權(quán)利要求6所述的系統(tǒng),其特征在于,所述反饋檢索模塊進(jìn)一步包括: 相關(guān)反饋模塊,用于利用所述相關(guān)反饋確定所述初次檢索結(jié)果中的相關(guān)結(jié)果的向量集合; 偽相關(guān)反饋模塊,用于利用所述偽相關(guān)反饋確定所述初次檢索結(jié)果中的不相關(guān)結(jié)果的向量集合; 反饋模塊,用于將所述用戶主題偏好模型、所述相關(guān)結(jié)果的向量集合、所述不相關(guān)結(jié)果的向量集合與原始查詢向量結(jié)合進(jìn)行反饋查詢。
【文檔編號】G06F17/30GK103593425SQ201310549069
【公開日】2014年2月19日 申請日期:2013年11月8日 優(yōu)先權(quán)日:2013年11月8日
【發(fā)明者】李鵬, 周育忠, 王慶紅, 龔婷, 陳傳夫, 王平, 冉從敬, 吳江 申請人:南方電網(wǎng)科學(xué)研究院有限責(zé)任公司, 武漢大學(xué)