文檔查詢方法及裝置制造方法

文檔序號：6621071閱讀：265來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

文檔查詢方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種文檔查詢方法及裝置，屬于數(shù)據(jù)查詢領(lǐng)域。所述方法包括：通過獲取待查詢的文檔q和該文檔q對應(yīng)的類別Cp；通過與類別Cp對應(yīng)的詞-主題矩陣將該文檔q變換到主題空間上的最優(yōu)表示形式vq；根據(jù)vq在與類別Cp對應(yīng)的主題-文檔矩陣Vp中查詢與該文檔q相似的歷史文檔；其中，詞-主題矩陣和主題-文檔矩陣Vp是預(yù)先對各個歷史文檔按照不同類別進行組非負矩陣分解所得到的矩陣；本發(fā)明解決了目前查詢方法所查詢到的歷史文檔的結(jié)果不一定符合用戶預(yù)期的問題；達到了通過詞-主題矩陣和主題-文檔矩陣Vp來進行文檔查詢，提高了查詢的準確率，優(yōu)化了文檔查詢的結(jié)果。
【專利說明】文檔查詢方法及裝置

【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)查詢領(lǐng)域，特別涉及一種文檔查詢方法及裝置。

【背景技術(shù)】
[0002] CQA(Communityquestionanswering,社區(qū)問答）已經(jīng)成為了網(wǎng)絡(luò)上一個重要的信息資源。常見的社區(qū)問答網(wǎng)站有Yahoo!Answers(雅虎問答）、Quora網(wǎng)站和知乎網(wǎng)站。
[0003] 在社區(qū)問答網(wǎng)站中有大規(guī)模的歷史問題及答案，在用戶提出一個新問題時，使用這些歷史問題及答案來幫助用戶解答問題是非常有效的方式。目前的一種查詢方法，包括：用戶向服務(wù)器輸入一個問題；服務(wù)器將該問題中的關(guān)鍵字提取出來，然后根據(jù)該關(guān)鍵字在歷史問題中查詢相關(guān)聯(lián)的歷史問題；服務(wù)器將查詢到的歷史問題及答案反饋給用戶，用戶可以根據(jù)這些歷史問題及答案來獲取需要的信息。
[0004] 在實現(xiàn)本發(fā)明的過程中，發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題：由于問題中的關(guān)鍵字與該問題的實際含義并不一定是強相關(guān)的，所以上述查詢方法查詢到的歷史問題并不一定符合用戶的預(yù)期，查詢準確率較低。

【發(fā)明內(nèi)容】

[0005] 為了解決目前查詢歷史文檔不一定符合用戶預(yù)期，查詢準確率較低的問題，本發(fā) 明實施例提供了一種文檔查詢方法及裝置。所述技術(shù)方案如下：
[0006] 第一方面，提供了一種文檔查詢方法，所述方法包括：
[0007] 獲取待查詢的文檔q和所述文檔q對應(yīng)的類別Cp ;
[0008] 通過與所述類別Cp對應(yīng)的詞-主題矩陣將所述文檔q變換到主題空間上的最優(yōu) 表示形式 '，所述詞-主題矩陣包括詞和主題之間的對應(yīng)關(guān)系；
[0009] 根據(jù)所述Vq在與所述類別Cp對應(yīng)的主題-文檔矩陣Vp中查詢與所述文檔q相似的歷史文檔，所述主題-文檔矩陣Vp中的每一列對應(yīng)一個歷史文檔；
[0010] 其中，所述詞-主題矩陣和所述主題-文檔矩陣Vp是對各個歷史文檔按照不同類別進行組非負矩陣分解GNMFNC所得到的矩陣。
[0011] 第二方面，提供了一種文檔查詢裝置，所述裝置包括：
[0012] 獲取文檔模塊，用于獲取待查詢的文檔q和所述文檔q對應(yīng)的類別Cp;
[0013] 變換文檔模塊，用于通過與所述類別Cp對應(yīng)的詞-主題矩陣將所述文檔q變換到主題空間上的最優(yōu)表示形式V,，所述詞-主題矩陣包括詞和主題之間的對應(yīng)關(guān)系；
[0014] 查詢文檔模塊，用于根據(jù)所述Vq在與所述類別Cp對應(yīng)的主題-文檔矩陣Vp中查詢與所述文檔q相似的歷史文檔，所述主題-文檔矩陣Vp中的每一列對應(yīng)一個歷史文檔；
[0015] 其中，所述詞-主題矩陣和所述主題-文檔矩陣Vp是對各個歷史文檔按照不同類別進行組非負矩陣分解GNMFNC所得到的矩陣。
[0016] 本發(fā)明實施例提供的技術(shù)方案帶來的有益效果是：
[0017] 通過獲取待查詢的文檔q和該文檔q對應(yīng)的類別Cp ;通過與類別Cp對應(yīng)的詞-主題矩陣將該文檔q變換到主題空間上的最優(yōu)表示形式Vq ;根據(jù)Vq在與類別Cp對應(yīng)的主題-文檔矩陣Vp中查詢與該文檔q相似的歷史文檔；解決了目前查詢歷史文檔不一定符合用戶預(yù)期的問題；達到了根據(jù)詞-主題矩陣和主題-文檔矩陣來進行文檔查詢，提高了查詢的準確率，優(yōu)化了文檔查詢的結(jié)果。

【專利附圖】

【附圖說明】
[0018] 為了更清楚地說明本發(fā)明實施例中的技術(shù)方案，下面將對實施例描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。
[0019] 圖1是本發(fā)明一個實施例提供的文檔查詢方法的方法流程圖；
[0020] 圖2是本發(fā)明另一個實施例提供的文檔查詢方法的方法流程圖；
[0021] 圖3是本發(fā)明另一個實施例提供的文檔查詢方法所涉及的分解矩陣方法的方法流程圖；
[0022] 圖4是本發(fā)明另一個實施例提供的文檔查詢方法所涉及的使目標函數(shù)最小方法的方法流程圖；
[0023] 圖5是本發(fā)明另一個實施例提供的文檔查詢方法所涉及的查詢歷史文檔方法的方法流程圖；
[0024] 圖6是本發(fā)明一個實施例提供的文檔查詢裝置的結(jié)構(gòu)方框圖；
[0025] 圖7是本發(fā)明另一個實施例提供的文檔查詢裝置的結(jié)構(gòu)方框圖；
[0026] 圖8是本發(fā)明另一個實施例提供的文檔查詢裝置所涉及的分解矩陣方法裝置的結(jié)構(gòu)流程圖；
[0027] 圖9是本發(fā)明另一個實施例提供的文檔查詢裝置所涉及的使確定矩陣的結(jié)構(gòu)方框圖；
[0028] 圖10是本發(fā)明另一個實施例提供的文檔查詢裝置所涉及的查詢歷史文檔裝置的結(jié)構(gòu)方框圖；
[0029] 圖11是本發(fā)明另一個實施例提供的文檔查詢裝置所涉及的計算相似性的結(jié)構(gòu)方框圖。

【具體實施方式】
[0030] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚，下面將結(jié)合附圖對本發(fā)明實施方式作進一步地詳細描述。
[0031] 首先對本發(fā)明實施例中所涉及的基本概念進行闡述：
[0032] 社區(qū)問答檔案：社區(qū)問答網(wǎng)站中所有歷史文檔的集合。常見的社區(qū)問答網(wǎng)站有 Yahoo!Answers(雅虎問答）、Quora網(wǎng)站和知乎網(wǎng)站。
[0033] 文檔：由多個字符構(gòu)成的文本語義集合。在社區(qū)問答檔案中，一個問題就可以視為一個歷史文檔。此外，用戶輸入的新問題也視為文檔。比如：問題"2014年最好看的電影有哪些"，就可以視為一個文檔。又比如：問題"你最喜歡的書籍是什么，理由是什么？"，就可以視為另外一個文檔。當然，在不同的領(lǐng)域中，文檔的表現(xiàn)形式不局限于"問題"這一種形式。
[0034] 類別：用于對文檔進行分類的類別。在社區(qū)問答檔案中，比如在雅虎問答網(wǎng)站中，所有問題都被劃分至26個類別下進行存儲，每個類別還可以包括子類別。該26個類別可以包括：電影、美食、互聯(lián)網(wǎng)、閱讀等。類別是社區(qū)問答檔案組織時的主要層次結(jié)構(gòu)。
[0035] 由于不同類別下的文檔通常會涉及一些通用的主題，而每個類別下的文檔通常都還有自身特定的主題。主題可以認為是文檔實際含義的一種聚類。為了利用在不同類別下的文檔所涉及的這些共享主題和特定主題來幫助檢索，本發(fā)明中引入了GNMFNC(Gr〇Up Non-negativeMatrixFactorization,組非負矩陣分解）來對歷史文檔所對應(yīng)的詞-文檔矩陣進行分解。簡單來講，本發(fā)明包括兩個階段：
[0036] 1、預(yù)處理階段：
[0037] 將不同類別下的各個歷史文檔表示為詞-文檔矩陣，然后將該詞-文檔矩陣通過組非負矩陣分解，分解得到詞-主題矩陣和主題-文檔矩陣。其中，詞-主題矩陣包括詞和主題之間的對應(yīng)關(guān)系，可以分為詞-共享主題矩陣和詞-特定主題矩陣兩種。每個主題-文檔矩陣表示一個類別所對應(yīng)的主題空間，該主題-文檔矩陣中的每一列對應(yīng)一個歷史文檔。
[0038] 2、查詢階段。
[0039] 在用戶輸入一個文檔后，利用預(yù)處理階段得到的詞-主題矩陣和主題-文檔矩陣進行文檔查詢，得到與該文檔最接近的歷史文檔。
[0040] 請參考圖1，其示出了本發(fā)明一個實施例提供的文檔查詢方法的方法流程圖。本實施例以僅包括查詢階段來舉例說明。該方法，包括：
[0041] 步驟102,獲取待查詢的文檔q和該文檔q對應(yīng)的類別Cp;
[0042] 步驟104,通過與類別Cp對應(yīng)的詞-主題矩陣將該文檔q變換到主題空間上的最優(yōu)表示形式Vq，該詞-主題矩陣包括詞和主題之間的對應(yīng)關(guān)系；
[0043] 步驟106,根據(jù)Vq在與類別Cp對應(yīng)的主題-文檔矩陣Vp中查詢與該文檔q相似的歷史文檔，主題-文檔矩陣Vp中的每一列對應(yīng)一個歷史文檔。
[0044] 其中，詞-主題矩陣和主題-文檔矩陣Vp是預(yù)先將各個歷史文檔按照不同類別進行組非負矩陣分解所得到的矩陣。
[0045] 綜上所述，本實施例提供的文檔查詢方法，通過獲取待查詢的文檔q和該文檔q對應(yīng)的類別Cp ;通過與類別Cp對應(yīng)的詞-主題矩陣將該文檔q變換到主題空間上的最優(yōu)表示形式Vq ;根據(jù)Vq在與類別Cp對應(yīng)的主題-文檔矩陣Vp中查詢與該文檔q相似的歷史文檔；解決了目前查詢歷史文檔不一定符合用戶預(yù)期的問題；達到了根據(jù)詞-主題矩陣和主題-文檔矩陣來進行文檔查詢，提高了查詢的準確率，優(yōu)化了文檔查詢的結(jié)果。
[0046] 請參考圖2,其示出了本發(fā)明另一個實施例提供的文檔查詢方法的方法流程圖。本實施例以同時包括預(yù)處理過程和查詢過程來舉例說明，其中預(yù)處理過程可以只執(zhí)行一次，而查詢過程可以執(zhí)行多次。該方法，包括：
[0047] 一、預(yù)處理過程：
[0048] 步驟201，將各個歷史文檔表示為詞-文檔矩陣D，詞-文檔矩陣D中的每一行代表一個詞，每一列代表一個歷史文檔，歷史文檔對應(yīng)P個類別；
[0049] 各個歷史文檔可以是社區(qū)問答檔案中的歷史文檔。比如，將社區(qū)問答檔案中的每個歷史問題都作為一個歷史文檔。
[0050] 關(guān)于將社區(qū)問答檔案中的歷史文檔表示為詞-文檔矩陣D的方式，本實施例不作具體限定。按照不同的類別，詞-文檔矩陣D可以表示為{Dl，D2，…，Dp}， Dp = ，…，e 是對應(yīng)于類別Cp的術(shù)語問題矩陣，每一行代表一個詞，每一列代表一個問題。Np是類別Cp中問題的數(shù)量，這樣= ~ ?
[0051] 作為一種可能的實現(xiàn)方式，從各個歷史文檔中選取檢索詞，將檢索詞作為詞-文檔矩陣D的行，將各個歷史文檔作為詞-文檔矩陣D的列，將檢索詞在各個歷史文檔中的 TF_IDF(TermFrequency-InverseDocumentFrequency，詞頻-逆向文件頻率）值作為詞-文檔矩陣D中與該詞及歷史文檔對應(yīng)的元素的值，從而將各個歷史文檔表示為詞-文檔矩陣D。其中，檢索詞可以為每個歷史文檔中出現(xiàn)次數(shù)較多的詞，TF-IDF值為檢索詞的詞頻與檢索詞的逆向文件頻率的乘積；詞頻為檢索詞在歷史文檔中出現(xiàn)的次數(shù)，檢索詞的逆向文件頻率的計算公式為：Ig(所有歷史文檔的文檔數(shù)/出現(xiàn)該檢索詞的歷史文檔數(shù)），Ig 表示以10為底的常用對數(shù)。由于出現(xiàn)該檢索詞的歷史文檔數(shù)可能為零，導(dǎo)致上述檢索詞的逆向文件頻率的計算公式中的分母為零，則實際應(yīng)用中，還可使用公式：lg(所有歷史文檔的文檔數(shù)八出現(xiàn)該檢索詞的歷史文檔數(shù)+1))，計算檢索詞的逆向文件頻率，本實施例不對檢索詞的逆向文件頻率的計算方式進行限定。
[0052] 為了便于理解，以某一類別下的歷史文檔包括歷史文檔1至歷史文檔5為例進行說明。從各個歷史文檔中選取檢索詞：檢索詞1至檢索詞4 ;在歷史文檔1中，檢索詞1至檢索詞4出現(xiàn)的次數(shù)分別為2、0、0及2 ;在歷史文檔2中，檢索詞1至檢索詞4出現(xiàn)的次數(shù) 分別為1、2、0及0;在歷史文檔3中，檢索詞1至檢索詞4出現(xiàn)的次數(shù)分別為1、0、0及0;在歷史文檔4中，檢索詞1至檢索詞4出現(xiàn)的次數(shù)分別為0、0、0及0;在歷史文檔5中，檢索詞1至檢索詞4出現(xiàn)的次數(shù)分別為0、2、1及1。因此，在歷史文檔1中，檢索詞1至檢索詞 4的詞頻分別為2、0、0及2 ;在歷史文檔2中，檢索詞1至檢索詞4的詞頻分別1、2、0及0 ; 在歷史文檔3中，檢索詞1至檢索詞4的詞頻分別1、0、0及0;在文檔4中，檢索詞1至檢索詞4的詞頻分別0、0、0及0 ;在歷史文檔5中，檢索詞1至檢索詞4的詞頻分別0、2、1及1。通過計算可知，檢索詞1至檢索詞4的逆向文件頻率分別為0. 22、0. 22、0. 40、0. 40及0. 10，進而得到檢索詞1在歷史文檔1至歷史文檔5中的TF-IDF值分別為0. 44、0. 22、0. 22、0及 0,檢索詞2在歷史文檔1至歷史文檔5中的TF-IDF值分別為0、0. 44、0、0及0. 44,檢索詞 3在歷史文檔1至歷史文檔5中的TF-IDF值分別為0、0、0、0及0. 40,檢索詞4在歷史文檔 1至歷史文檔5中的TF-IDF值分別為0. 2、0、0、0及0. 1。根據(jù)各個檢索詞在各個歷史文檔的TF-IDF值可得到如下所示的詞-文檔矩陣D。該詞-文檔矩陣D為4*5的矩陣，詞-文檔矩陣D的行表示檢索詞1至檢索詞4,詞-文檔矩陣D的列表示歷史文檔1至歷史文檔5，矩陣中的任一元素Xij表示檢索詞i在歷史文檔j中的TF-IDF值，1彡i彡4, 1彡j彡5,i 和j均為整數(shù)。

【權(quán)利要求】
1. 一種文檔查詢方法，其特征在于，所述方法包括：獲取待查詢的文檔q和所述文檔q對應(yīng)的類別Cp ; 通過與所述類別Cp對應(yīng)的詞-主題矩陣將所述文檔q變換到主題空間上的最優(yōu)表示形式V,，所述詞-主題矩陣包括詞和主題之間的對應(yīng)關(guān)系；根據(jù)所述Vq在與所述類別Cp對應(yīng)的主題-文檔矩陣Vp中查詢與所述文檔q相似的歷史文檔，所述主題-文檔矩陣Vp中的每一列對應(yīng)一個歷史文檔；其中，所述詞-主題矩陣和所述主題-文檔矩陣Vp是對各個歷史文檔按照不同類別進行組非負矩陣分解GNMFNC所得到的矩陣。
2. 根據(jù)權(quán)利要求1所述的方法，其特征在于，所述通過與所述類別Cp對應(yīng)的詞-主題矩陣將所述文檔q變換到主題空間上的最優(yōu)表示形式Vq之前，還包括：將各個歷史文檔表示為詞-文檔矩陣D，所述詞-文檔矩陣D中的每一行代表一個詞，每一列代表一個歷史文檔，所述歷史文檔對應(yīng)P個類別；將所述詞-文檔矩陣D通過所述組非負矩陣分解得到1個詞-共享主題矩陣Us、P個詞-特定主題矩陣Up和P個所述主題-文檔矩陣Vp ; 其中，所述共享主題是所有類別所共享的主題，所述特定主題是一個類別所特有的主題。
3. 根據(jù)權(quán)利要求2所述的方法，其特征在于，所述將所述詞-文檔矩陣D通過組非負矩陣分解得到1個詞-共享主題矩陣Us、P個詞-特定主題矩陣Up和P個所述主題-文檔矩陣Vp，包括：獲取初始化的詞-共享文檔矩陣us、P個初始化的詞-特定主題矩陣Up和P個初始化的主題-文檔矩陣Vp ; 根據(jù)所述詞-文檔矩陣D、所述初始化的詞-共享文檔矩陣US、P個所述初始化的詞-特定主題矩陣Up和P個所述初始化的主題-文檔矩陣Vp確定出使目標函數(shù)最小的所述詞-共享文檔矩陣us、P個所述詞-特定主題矩陣Up和P個所述主題-文檔矩陣vp。
4. 根據(jù)權(quán)利要求3所述的方法，其特征在于，所述根據(jù)所述詞-文檔矩陣D、所述初始化的詞-共享文檔矩陣Us、P個所述初始化的詞-特定主題矩陣Up和P個所述初始化的主題-文檔矩陣Vp確定出使目標函數(shù)最小的所述詞-共享文檔矩陣Us、P個所述詞-特定主題矩陣Up和P個所述主題-文檔矩陣Vp，包括：使用所述詞-文檔矩陣D、上一次得到的詞-共享文檔矩陣Us、P個詞-特定主題矩陣Up和P個主題-文檔矩陣Vp進行迭代更新，得到更新后的詞-共享文檔矩陣US、P個詞-特定主題矩陣Up和P個主題-文檔矩陣Vp ; 使用規(guī)范化算子對所述更新后的詞-共享文檔矩陣Us的每一列、P個詞-特定主題矩陣Up的每一列和P個主題-文檔矩陣Vp的轉(zhuǎn)置矩陣F1T的每一列進行規(guī)范化，得到規(guī) 范化后的詞-共享文檔矩陣us、P個詞-特定主題矩陣Up和P個主題-文檔矩陣Vp ; 使用所述規(guī)范化后的詞-共享文檔矩陣us、P個詞-特定主題矩陣Up和P個主題-文檔矩陣Vp計算所述目標函數(shù)是否已最小化；若所述目標函數(shù)尚未最小化，則重新執(zhí)行上述三個步驟直至所述目標函數(shù)最小化。
5. 根據(jù)權(quán)利要求4所述的方法，其特征在于，所述使用所述詞-文檔矩陣D、上一次得到的詞-共享文檔矩陣Us、p個詞-特定主題矩陣Up和P個主題-文檔矩陣Vp進行迭代更新，得到更新后的詞-共享文檔矩陣Us、P個詞-特定主題矩陣Up和P個主題-文檔矩陣 vp，包括：使用下述公式對上一次得到的詞-共享文檔矩陣Us進行迭代更新；
使用下述公式對上一次得到的詞-特定主題矩陣Up進行迭代更新；
使用下述公式對上一次得到的主題-文檔矩陣Vp進行迭代更新；
其中，所述P代表各個類別，所述所述III^表示弗羅貝尼烏斯范數(shù)，所述Dp表示對應(yīng)于類別Cp的詞-文檔矩陣，所述表示Hp的轉(zhuǎn)置矩陣，所述Ifpe對應(yīng)所述Us的共享主題系數(shù)，所述U'p = [Us，Up]，所述VPT表示所述Vp的轉(zhuǎn)置矩陣，所述 .F/ W；：'],所述 < 表示Up的轉(zhuǎn)置矩陣，所述 < 表示W(wǎng)p的轉(zhuǎn)置矩陣，所述％ 6 /fd'+' 對應(yīng)所述Up的特定主題系數(shù)，所述//v = 所述W ,所述ui表示與類別一 [] C1對應(yīng)的詞-特定主題矩陣，所述αp和所述βi是正則化參數(shù)，運算符〇是點乘結(jié)果，Ii 是點除結(jié)果，并且，是點陣平方。
6.根據(jù)權(quán)利要求4所述的方法，其特征在于，所述規(guī)范化算子A是：
其中，〇=?{Λ?ιιa-+/?的凡).!， p~\ 所述 1(--)二ixili/fc/,,If+tA丨&，Tr( ·)表示一個矩陣的跡線，K， p=l =Ks+Kp，Ks表示共享主題的數(shù)目，Kp表示對應(yīng)于類別Cp的特定主題的數(shù)目，Np表示類別Cp 中歷史文檔的數(shù)目，并且AsERji^，是所述Us，所述Up和所述Vp各自等式約束的拉格朗日乘數(shù)，所述U1表示與類別C1對應(yīng)的詞-特定主題矩陣，所述P 代表各個類別，所述'匈DpIp,所述III^表示弗羅貝尼烏斯范數(shù)，所述Dp表示對應(yīng)于類別Cp的詞-文檔矩陣,所述(/f表示Us的轉(zhuǎn)置矩陣，所述表示所述Up的轉(zhuǎn)置矩陣，所述αρ和所述P1是正則化參數(shù)。
7. 根據(jù)權(quán)利要求3至6任一所述的方法，其特征在于，所述目標函數(shù)是：
所述U1表示與類別C1對應(yīng)的詞-特定主題矩陣，所述P代表各個類別，所述If2,所述III^表示弗羅貝尼烏斯范數(shù)，所述Dp表示對應(yīng)于類別Cp的詞-文檔矩陣，所述C/[表示Us的轉(zhuǎn)置矩陣，所述C/f表示Up的轉(zhuǎn)置矩陣，Ks表示共享主題的數(shù)目，Kp表示對應(yīng)于類別Cp的特定主題的數(shù)目，M表示詞的數(shù)目，Np表示類別Cp中歷史文檔的數(shù)目，所述％和所述。是正則化參數(shù)，
8. 根據(jù)權(quán)利要求1至7任一所述的方法，其特征在于，所述通過與所述類別Cp對應(yīng)的詞-主題矩陣將所述文檔q變換到主題空間上的最優(yōu)表示形式Vq，包括：通過下述公式將所述文檔q變換到主題空間上的最優(yōu)表示形式Vq ;
其中，q為所述文檔q的向量表示，所述V是所述文檔q在所述主題空間上的任何一種表示形式。
9. 根據(jù)權(quán)利要求1至7任一所述的方法，其特征在于，所述在與所述最接近的主題對應(yīng) 的主題-文檔矩陣Vp中查詢與所述文檔q相似的歷史文檔，包括：對于與所述類別Cp對應(yīng)的主題-文檔矩陣Vp中的每一列Vd，計算所述主題空間上的最優(yōu)表示形式Vq和所述Vd之間的相似性，所述Vd是一個歷史文檔在所述Vp中按列索引的表示；根據(jù)所述相似性由高到低的順序得出與所述文檔q相似的歷史文檔。
10. 根據(jù)權(quán)利要求9所述的方法，其特征在于，所述計算所述主題空間上的最優(yōu)表示形式Vq和所述Vd之間的相似性，包括：通過下述公式計算所述主題空間上的最優(yōu)表示形式Vn和所述Vd之間的相似性；
其中，SttjpiJq，d)中的q和d是基于主題的表示方法；或，通過下述公式計算所述主題空間上的最優(yōu)表示形式Vq和所述Vd之間的相似性； s(q,d) =YStopic (q,d)+ (1-Y)Sterm (q,d)；其中，參數(shù)Ye[〇，1]，所述\_。((1，(1)中的(1和(1是基于主題的表示方法，所述StOT(q，d)中的q和d是基于詞袋的表示方法。
11. 一種文檔查詢裝置，其特征在于，所述裝置包括：獲取文檔模塊，用于獲取待查詢的文檔q和所述文檔q對應(yīng)的類別Cp ; 變換文檔模塊，用于通過與所述類別Cp對應(yīng)的詞-主題矩陣將所述文檔q變換到主題空間上的最優(yōu)表示形式V,，所述詞-主題矩陣包括詞和主題之間的對應(yīng)關(guān)系；查詢文檔模塊，用于根據(jù)所述Vq在與所述類別Cp對應(yīng)的主題-文檔矩陣Vp中查詢與所述文檔q相似的歷史文檔，所述主題-文檔矩陣Vp中的每一列對應(yīng)一個歷史文檔；其中，所述詞-主題矩陣和所述主題-文檔矩陣Vp是對各個歷史文檔按照預(yù)定類別進行組非負矩陣分解GNMFNC所得到的矩陣。
12. 根據(jù)權(quán)利要求11所述的裝置，其特征在于，所述裝置，還包括：歷史文檔表示模塊，用于將各個歷史文檔表示為詞-文檔矩陣D，所述詞-文檔矩陣D中的每一行代表一個詞，每一列代表一個歷史文檔，所述歷史文檔對應(yīng)P個類別；分解矩陣模塊，用于將所述詞-文檔矩陣D通過所述組非負矩陣分解分解得到1個詞-共享主題矩陣Us、P個詞-特定主題矩陣Up和P個所述主題-文檔矩陣Vp ; 其中，所述共享主題是所有類別所共享的主題，所述特定主題是一個類別所特有的主題。
13. 根據(jù)權(quán)利要求12所述的裝置，其特征在于，所述分解矩陣模塊，包括：初始化矩陣單元，用于獲取初始化的詞-共享文檔矩陣US、P個初始化的詞-特定主題矩陣Up和P個初始化的主題-文檔矩陣Vp ; 確定矩陣單元，用于根據(jù)所述詞-文檔矩陣D、所述初始化的詞-共享文檔矩陣US、P個所述初始化的詞-特定主題矩陣Up和P個所述初始化的主題-文檔矩陣Vp確定出使目標函數(shù)最小的所述詞-共享文檔矩陣Us、P個所述詞-特定主題矩陣Up和P個所述主題-文檔矩陣Vp。
14. 根據(jù)權(quán)利要求13所述的裝置，其特征在于，所述確定矩陣單元，包括：迭代更新子單元，用于使用所述詞-文檔矩陣D、上一次得到的詞-共享文檔矩陣US、P個詞-特定主題矩陣Up和P個主題-文檔矩陣Vp進行迭代更新，得到更新后的詞-共享文檔矩陣Us、P個詞-特定主題矩陣Up和P個主題-文檔矩陣Vp ; 規(guī)范化矩陣子單元，用于使用規(guī)范化算子對所述更新后的詞-共享文檔矩陣Us的每一列、P個詞-特定主題矩陣Up的每一列和P個主題-文檔矩陣Vp的轉(zhuǎn)置矩陣G的每一列進行規(guī)范化，得到規(guī)范化后的詞-共享文檔矩陣Us、P個詞-特定主題矩陣Up和P個主題-文檔矩陣Vp ; 計算矩陣子單元，用于使用所述規(guī)范化后的詞-共享文檔矩陣Us、p個詞-特定主題矩陣Up和P個主題-文檔矩陣Vp計算所述目標函數(shù)是否已最小化；重新執(zhí)行子單元，用于若所述目標函數(shù)尚未最小化，則重新執(zhí)行上述三個步驟直至所述目標函數(shù)最小化。
15. 根據(jù)權(quán)利要求14所述的裝置，其特征在于，所述迭代更新子單元，用于：使用下述公式對上一次得到的詞-共享文檔矩陣U。進行迭代更新；
使用下述公式對上一次得到的詞-特定主題矩陣Up進行迭代更新；
使用下述公式對上一次得到的主題-文檔矩陣Vp進行迭代更新；
其中，所述P代表各個類別，所述,所述III^表示弗羅貝尼烏斯范數(shù)，所述Dp表示對應(yīng)于類別Cp的詞-文檔矩陣，所述表示Hp的轉(zhuǎn)置矩陣，所述Ifpe對應(yīng)所述Us的共享主題系數(shù)，所述U'p = [Us，Up]，所述VPT表示所述Vp的轉(zhuǎn)置矩陣，所述 FjWj]，所迷(/【表示Up的轉(zhuǎn)置矩陣,所述Iff表示W(wǎng)p的轉(zhuǎn)置矩陣,所述e嚴*··、·，對應(yīng)所述Up的特定主題系數(shù)，所述//s 所述妒= ，所述U1表示與類別C1對應(yīng)的詞-特定主題矩陣，所述CIp和所述P1是正則化參數(shù)，運算符〇是點乘結(jié) 果，M是點除結(jié)果，并且是點陣平方。
16. 根據(jù)權(quán)利要求14所述的裝置，其特征在于，所述規(guī)范化算子A是：
其中，化-[",巧>;||^+4?"4，廣· 所述Λ(?/,,Κ) =|χ11^/? |g_ +Σ爲IIC/別 ,Tr( ·)表示一個矩陣的跡線，K， p~l i-iJ-rp =Ks+Kp，Ks表示共享主題的數(shù)目，Kp表示對應(yīng)于類別Cp的特定主題的數(shù)目，Np表示類別Cp 中歷史文檔的數(shù)目，并且As€]?n，是所述Us，所述Up和所述Vp各自等式約束的拉格朗日乘數(shù)，所述U1表示與類別C1對應(yīng)的詞-特定主題矩陣，所述 P代表各個類別，所述弋^lDpIf，所述IIIIf表示弗羅貝尼烏斯范數(shù)，所述Dp表示對應(yīng)于類別Cp的詞-文檔矩陣，所述表示Us的轉(zhuǎn)置矩陣，所述#表示所述Up的轉(zhuǎn)置矩陣，所述αρ和所述P1是正則化參數(shù)。
17. 根據(jù)權(quán)利要求13至16任一所述的裝置，其特征在于，所述目標函數(shù)是： min〇 Us,up,Vp ^O
其中，o=f ||Dp-[t/、-,C/JCi?的，％)} P^i P P /^tZi5CZj=JX||?/『?/ρIl+Z爲||￡/】仏丨|所述U1表示與所述類別^對應(yīng)的詞-特 ρ-? ?~? Jf-ρ 定主題矩陣，所述P代表不同類別,所述Λ,_dPI2,所述111 ^表示弗羅貝尼烏斯范數(shù)，所述Dp表示對應(yīng)于類別Cp的詞-文檔矩陣，所述l/f表示Us的轉(zhuǎn)置矩陣，所述(< 表示Up的轉(zhuǎn) 置矩陣，Ks表示共享主題的數(shù)目，Kp表示對應(yīng)于類別Cp的特定主題的數(shù)目，M表示詞的數(shù)目， Np表示類別Cp中歷史文檔的數(shù)目，所述αp和所述βi是正則化參數(shù)，Vpwec
18. 根據(jù)權(quán)利要求11至17任一所述的裝置，其特征在于，所述變換文檔模塊，用于通過下述公式將所述文檔q變換到主題空間上的最優(yōu)表示形式Vq ; vv =arg^|i||f-[C/s,i/p]v^ 其中，q為所述文檔q的向量表示，所述v是所述文檔q在所述主題空間上的任何一種表示形式。
19. 根據(jù)權(quán)利要求11至17任一所述的裝置，其特征在于，所述查詢文檔模塊，包括：計算相似性單元，用于對于與所述類別Cp對應(yīng)的主題-文檔矩陣Vp中的每一列Vd，計算所述主題空間上的最優(yōu)表示形式Vq和所述Vd之間的相似性，所述Vd是一個歷史文檔在所述Vp中按列索引的表示；得出相似文檔單元，用于根據(jù)所述相似性由高到低的順序得出與所述文檔q相似的歷史文檔。
20.根據(jù)權(quán)利要求19所述的裝置，其特征在于，所述計算相似單元，包括：第一計算子單元，用于通過下述公式計算所述主題空間上的最優(yōu)表示形式 '和所述Vd 之間的相似性；
其中，S_e(q，d)中的q和d是基十主題的表不于早兀；或，第二計算子單元，用于通過下述公式計算所述主題空間上的最優(yōu)表示形式Vq和所述vd之間的相似性； s(q,d)= Y Stopic(q,d)+ (1-Y ) Sterm(q,d)；其中，參數(shù)Ye[〇，1]，所述Stopic;(q，d)中的q和d是基于主題的表示子單元，所述Stem(q，d)中的q和d是基于詞袋的表示子單元。
【文檔編號】G06F17/30GK104239402SQ201410353033
【公開日】2014年12月24日申請日期:2014年7月23日優(yōu)先權(quán)日:2014年7月23日
【發(fā)明者】周光有, 蔣杰, 王巨宏, 薛偉, 管剛, 趙軍申請人:中國科學(xué)院自動化研究所, 騰訊科技（深圳）有限公司

完整全部詳細技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：周光有;蔣杰;王巨宏;薛偉;管剛;趙軍
技術(shù)所有人：中國科學(xué)院自動化研究所;騰訊科技（深圳）有限公司
我是此專利的發(fā)明人

上一篇：混合整數(shù)線性規(guī)劃模型的求解方法
上一篇：海關(guān)在途監(jiān)管系統(tǒng)和方法

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機構(gòu)動力學(xué)與控制
3、袁老師：1.計算機視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機網(wǎng)絡(luò)安全 2.計算機仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文檔查詢方法及裝置制造方法