文檔查詢方法及裝置制造方法
【專利摘要】本發(fā)明公開了一種文檔查詢方法及裝置,屬于數(shù)據(jù)查詢領(lǐng)域。所述方法包括:通過獲取待查詢的文檔q和該文檔q對應(yīng)的類別Cp;通過與類別Cp對應(yīng)的詞-主題矩陣將該文檔q變換到主題空間上的最優(yōu)表示形式vq;根據(jù)vq在與類別Cp對應(yīng)的主題-文檔矩陣Vp中查詢與該文檔q相似的歷史文檔;其中,詞-主題矩陣和主題-文檔矩陣Vp是預(yù)先對各個歷史文檔按照不同類別進行組非負矩陣分解所得到的矩陣;本發(fā)明解決了目前查詢方法所查詢到的歷史文檔的結(jié)果不一定符合用戶預(yù)期的問題;達到了通過詞-主題矩陣和主題-文檔矩陣Vp來進行文檔查詢,提高了查詢的準確率,優(yōu)化了文檔查詢的結(jié)果。
【專利說明】文檔查詢方法及裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及數(shù)據(jù)查詢領(lǐng)域,特別涉及一種文檔查詢方法及裝置。
【背景技術(shù)】
[0002] CQA(Communityquestionanswering,社區(qū)問答)已經(jīng)成為了網(wǎng)絡(luò)上一個重要的 信息資源。常見的社區(qū)問答網(wǎng)站有Yahoo!Answers(雅虎問答)、Quora網(wǎng)站和知乎網(wǎng)站。
[0003] 在社區(qū)問答網(wǎng)站中有大規(guī)模的歷史問題及答案,在用戶提出一個新問題時,使用 這些歷史問題及答案來幫助用戶解答問題是非常有效的方式。目前的一種查詢方法,包括: 用戶向服務(wù)器輸入一個問題;服務(wù)器將該問題中的關(guān)鍵字提取出來,然后根據(jù)該關(guān)鍵字在 歷史問題中查詢相關(guān)聯(lián)的歷史問題;服務(wù)器將查詢到的歷史問題及答案反饋給用戶,用戶 可以根據(jù)這些歷史問題及答案來獲取需要的信息。
[0004] 在實現(xiàn)本發(fā)明的過程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下問題:由于問題中的 關(guān)鍵字與該問題的實際含義并不一定是強相關(guān)的,所以上述查詢方法查詢到的歷史問題并 不一定符合用戶的預(yù)期,查詢準確率較低。
【發(fā)明內(nèi)容】
[0005] 為了解決目前查詢歷史文檔不一定符合用戶預(yù)期,查詢準確率較低的問題,本發(fā) 明實施例提供了一種文檔查詢方法及裝置。所述技術(shù)方案如下:
[0006] 第一方面,提供了一種文檔查詢方法,所述方法包括:
[0007] 獲取待查詢的文檔q和所述文檔q對應(yīng)的類別Cp ;
[0008] 通過與所述類別Cp對應(yīng)的詞-主題矩陣將所述文檔q變換到主題空間上的最優(yōu) 表示形式 ',所述詞-主題矩陣包括詞和主題之間的對應(yīng)關(guān)系;
[0009] 根據(jù)所述Vq在與所述類別Cp對應(yīng)的主題-文檔矩陣Vp中查詢與所述文檔q相似 的歷史文檔,所述主題-文檔矩陣Vp中的每一列對應(yīng)一個歷史文檔;
[0010] 其中,所述詞-主題矩陣和所述主題-文檔矩陣Vp是對各個歷史文檔按照不同類 別進行組非負矩陣分解GNMFNC所得到的矩陣。
[0011] 第二方面,提供了一種文檔查詢裝置,所述裝置包括:
[0012] 獲取文檔模塊,用于獲取待查詢的文檔q和所述文檔q對應(yīng)的類別Cp;
[0013] 變換文檔模塊,用于通過與所述類別Cp對應(yīng)的詞-主題矩陣將所述文檔q變換到 主題空間上的最優(yōu)表示形式V,,所述詞-主題矩陣包括詞和主題之間的對應(yīng)關(guān)系;
[0014] 查詢文檔模塊,用于根據(jù)所述Vq在與所述類別Cp對應(yīng)的主題-文檔矩陣Vp中查 詢與所述文檔q相似的歷史文檔,所述主題-文檔矩陣Vp中的每一列對應(yīng)一個歷史文檔;
[0015] 其中,所述詞-主題矩陣和所述主題-文檔矩陣Vp是對各個歷史文檔按照不同類 別進行組非負矩陣分解GNMFNC所得到的矩陣。
[0016] 本發(fā)明實施例提供的技術(shù)方案帶來的有益效果是:
[0017] 通過獲取待查詢的文檔q和該文檔q對應(yīng)的類別Cp ;通過與類別Cp對應(yīng)的詞-主 題矩陣將該文檔q變換到主題空間上的最優(yōu)表示形式Vq ;根據(jù)Vq在與類別Cp對應(yīng)的主 題-文檔矩陣Vp中查詢與該文檔q相似的歷史文檔;解決了目前查詢歷史文檔不一定符合 用戶預(yù)期的問題;達到了根據(jù)詞-主題矩陣和主題-文檔矩陣來進行文檔查詢,提高了查詢 的準確率,優(yōu)化了文檔查詢的結(jié)果。
【專利附圖】
【附圖說明】
[0018] 為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例描述中所需要使 用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于 本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。
[0019] 圖1是本發(fā)明一個實施例提供的文檔查詢方法的方法流程圖;
[0020] 圖2是本發(fā)明另一個實施例提供的文檔查詢方法的方法流程圖;
[0021] 圖3是本發(fā)明另一個實施例提供的文檔查詢方法所涉及的分解矩陣方法的方法 流程圖;
[0022] 圖4是本發(fā)明另一個實施例提供的文檔查詢方法所涉及的使目標函數(shù)最小方法 的方法流程圖;
[0023] 圖5是本發(fā)明另一個實施例提供的文檔查詢方法所涉及的查詢歷史文檔方法的 方法流程圖;
[0024] 圖6是本發(fā)明一個實施例提供的文檔查詢裝置的結(jié)構(gòu)方框圖;
[0025] 圖7是本發(fā)明另一個實施例提供的文檔查詢裝置的結(jié)構(gòu)方框圖;
[0026] 圖8是本發(fā)明另一個實施例提供的文檔查詢裝置所涉及的分解矩陣方法裝置的 結(jié)構(gòu)流程圖;
[0027] 圖9是本發(fā)明另一個實施例提供的文檔查詢裝置所涉及的使確定矩陣的結(jié)構(gòu)方 框圖;
[0028] 圖10是本發(fā)明另一個實施例提供的文檔查詢裝置所涉及的查詢歷史文檔裝置的 結(jié)構(gòu)方框圖;
[0029] 圖11是本發(fā)明另一個實施例提供的文檔查詢裝置所涉及的計算相似性的結(jié)構(gòu)方 框圖。
【具體實施方式】
[0030] 為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對本發(fā)明實施方 式作進一步地詳細描述。
[0031] 首先對本發(fā)明實施例中所涉及的基本概念進行闡述:
[0032] 社區(qū)問答檔案:社區(qū)問答網(wǎng)站中所有歷史文檔的集合。常見的社區(qū)問答網(wǎng)站有 Yahoo!Answers(雅虎問答)、Quora網(wǎng)站和知乎網(wǎng)站。
[0033] 文檔:由多個字符構(gòu)成的文本語義集合。在社區(qū)問答檔案中,一個問題就可以視為 一個歷史文檔。此外,用戶輸入的新問題也視為文檔。比如:問題"2014年最好看的電影有 哪些",就可以視為一個文檔。又比如:問題"你最喜歡的書籍是什么,理由是什么?",就可 以視為另外一個文檔。當然,在不同的領(lǐng)域中,文檔的表現(xiàn)形式不局限于"問題"這一種形 式。
[0034] 類別:用于對文檔進行分類的類別。在社區(qū)問答檔案中,比如在雅虎問答網(wǎng)站中, 所有問題都被劃分至26個類別下進行存儲,每個類別還可以包括子類別。該26個類別可 以包括:電影、美食、互聯(lián)網(wǎng)、閱讀等。類別是社區(qū)問答檔案組織時的主要層次結(jié)構(gòu)。
[0035] 由于不同類別下的文檔通常會涉及一些通用的主題,而每個類別下的文檔通常都 還有自身特定的主題。主題可以認為是文檔實際含義的一種聚類。為了利用在不同類別 下的文檔所涉及的這些共享主題和特定主題來幫助檢索,本發(fā)明中引入了GNMFNC(Gr〇Up Non-negativeMatrixFactorization,組非負矩陣分解)來對歷史文檔所對應(yīng)的詞-文檔 矩陣進行分解。簡單來講,本發(fā)明包括兩個階段:
[0036] 1、預(yù)處理階段:
[0037] 將不同類別下的各個歷史文檔表示為詞-文檔矩陣,然后將該詞-文檔矩陣通過 組非負矩陣分解,分解得到詞-主題矩陣和主題-文檔矩陣。其中,詞-主題矩陣包括詞和 主題之間的對應(yīng)關(guān)系,可以分為詞-共享主題矩陣和詞-特定主題矩陣兩種。每個主題-文 檔矩陣表示一個類別所對應(yīng)的主題空間,該主題-文檔矩陣中的每一列對應(yīng)一個歷史文 檔。
[0038] 2、查詢階段。
[0039] 在用戶輸入一個文檔后,利用預(yù)處理階段得到的詞-主題矩陣和主題-文檔矩陣 進行文檔查詢,得到與該文檔最接近的歷史文檔。
[0040] 請參考圖1,其示出了本發(fā)明一個實施例提供的文檔查詢方法的方法流程圖。本實 施例以僅包括查詢階段來舉例說明。該方法,包括:
[0041] 步驟102,獲取待查詢的文檔q和該文檔q對應(yīng)的類別Cp;
[0042] 步驟104,通過與類別Cp對應(yīng)的詞-主題矩陣將該文檔q變換到主題空間上的最 優(yōu)表示形式Vq,該詞-主題矩陣包括詞和主題之間的對應(yīng)關(guān)系;
[0043] 步驟106,根據(jù)Vq在與類別Cp對應(yīng)的主題-文檔矩陣Vp中查詢與該文檔q相似的 歷史文檔,主題-文檔矩陣Vp中的每一列對應(yīng)一個歷史文檔。
[0044] 其中,詞-主題矩陣和主題-文檔矩陣Vp是預(yù)先將各個歷史文檔按照不同類別進 行組非負矩陣分解所得到的矩陣。
[0045] 綜上所述,本實施例提供的文檔查詢方法,通過獲取待查詢的文檔q和該文檔q對 應(yīng)的類別Cp ;通過與類別Cp對應(yīng)的詞-主題矩陣將該文檔q變換到主題空間上的最優(yōu)表 示形式Vq ;根據(jù)Vq在與類別Cp對應(yīng)的主題-文檔矩陣Vp中查詢與該文檔q相似的歷史文 檔;解決了目前查詢歷史文檔不一定符合用戶預(yù)期的問題;達到了根據(jù)詞-主題矩陣和主 題-文檔矩陣來進行文檔查詢,提高了查詢的準確率,優(yōu)化了文檔查詢的結(jié)果。
[0046] 請參考圖2,其示出了本發(fā)明另一個實施例提供的文檔查詢方法的方法流程圖。本 實施例以同時包括預(yù)處理過程和查詢過程來舉例說明,其中預(yù)處理過程可以只執(zhí)行一次, 而查詢過程可以執(zhí)行多次。該方法,包括:
[0047] 一、預(yù)處理過程:
[0048] 步驟201,將各個歷史文檔表示為詞-文檔矩陣D,詞-文檔矩陣D中的每一行代 表一個詞,每一列代表一個歷史文檔,歷史文檔對應(yīng)P個類別;
[0049] 各個歷史文檔可以是社區(qū)問答檔案中的歷史文檔。比如,將社區(qū)問答檔案中的每 個歷史問題都作為一個歷史文檔。
[0050] 關(guān)于將社區(qū)問答檔案中的歷史文檔表示為詞-文檔矩陣D的方式,本實施 例不作具體限定。按照不同的類別,詞-文檔矩陣D可以表示為{Dl,D2,…,Dp}, Dp = ,…,e 是對應(yīng)于類別Cp的術(shù)語問題矩陣,每一行代表一個詞,每一列代 表一個問題。Np是類別Cp中問題的數(shù)量,這樣= ~ ?
[0051] 作為一種可能的實現(xiàn)方式,從各個歷史文檔中選取檢索詞,將檢索詞作為詞-文 檔矩陣D的行,將各個歷史文檔作為詞-文檔矩陣D的列,將檢索詞在各個歷史文檔中的 TF_IDF(TermFrequency-InverseDocumentFrequency,詞頻-逆向文件頻率)值作為 詞-文檔矩陣D中與該詞及歷史文檔對應(yīng)的元素的值,從而將各個歷史文檔表示為詞-文 檔矩陣D。其中,檢索詞可以為每個歷史文檔中出現(xiàn)次數(shù)較多的詞,TF-IDF值為檢索詞的詞 頻與檢索詞的逆向文件頻率的乘積;詞頻為檢索詞在歷史文檔中出現(xiàn)的次數(shù),檢索詞的逆 向文件頻率的計算公式為:Ig(所有歷史文檔的文檔數(shù)/出現(xiàn)該檢索詞的歷史文檔數(shù)),Ig 表示以10為底的常用對數(shù)。由于出現(xiàn)該檢索詞的歷史文檔數(shù)可能為零,導(dǎo)致上述檢索詞的 逆向文件頻率的計算公式中的分母為零,則實際應(yīng)用中,還可使用公式:lg(所有歷史文檔 的文檔數(shù)八出現(xiàn)該檢索詞的歷史文檔數(shù)+1)),計算檢索詞的逆向文件頻率,本實施例不對 檢索詞的逆向文件頻率的計算方式進行限定。
[0052] 為了便于理解,以某一類別下的歷史文檔包括歷史文檔1至歷史文檔5為例進行 說明。從各個歷史文檔中選取檢索詞:檢索詞1至檢索詞4 ;在歷史文檔1中,檢索詞1至 檢索詞4出現(xiàn)的次數(shù)分別為2、0、0及2 ;在歷史文檔2中,檢索詞1至檢索詞4出現(xiàn)的次數(shù) 分別為1、2、0及0;在歷史文檔3中,檢索詞1至檢索詞4出現(xiàn)的次數(shù)分別為1、0、0及0;在 歷史文檔4中,檢索詞1至檢索詞4出現(xiàn)的次數(shù)分別為0、0、0及0;在歷史文檔5中,檢索 詞1至檢索詞4出現(xiàn)的次數(shù)分別為0、2、1及1。因此,在歷史文檔1中,檢索詞1至檢索詞 4的詞頻分別為2、0、0及2 ;在歷史文檔2中,檢索詞1至檢索詞4的詞頻分別1、2、0及0 ; 在歷史文檔3中,檢索詞1至檢索詞4的詞頻分別1、0、0及0;在文檔4中,檢索詞1至檢索 詞4的詞頻分別0、0、0及0 ;在歷史文檔5中,檢索詞1至檢索詞4的詞頻分別0、2、1及1。 通過計算可知,檢索詞1至檢索詞4的逆向文件頻率分別為0. 22、0. 22、0. 40、0. 40及0. 10, 進而得到檢索詞1在歷史文檔1至歷史文檔5中的TF-IDF值分別為0. 44、0. 22、0. 22、0及 0,檢索詞2在歷史文檔1至歷史文檔5中的TF-IDF值分別為0、0. 44、0、0及0. 44,檢索詞 3在歷史文檔1至歷史文檔5中的TF-IDF值分別為0、0、0、0及0. 40,檢索詞4在歷史文檔 1至歷史文檔5中的TF-IDF值分別為0. 2、0、0、0及0. 1。根據(jù)各個檢索詞在各個歷史文檔 的TF-IDF值可得到如下所示的詞-文檔矩陣D。該詞-文檔矩陣D為4*5的矩陣,詞-文 檔矩陣D的行表示檢索詞1至檢索詞4,詞-文檔矩陣D的列表示歷史文檔1至歷史文檔5, 矩陣中的任一元素Xij表示檢索詞i在歷史文檔j中的TF-IDF值,1彡i彡4, 1彡j彡5,i 和j均為整數(shù)。
【權(quán)利要求】
1. 一種文檔查詢方法,其特征在于,所述方法包括: 獲取待查詢的文檔q和所述文檔q對應(yīng)的類別Cp ; 通過與所述類別Cp對應(yīng)的詞-主題矩陣將所述文檔q變換到主題空間上的最優(yōu)表示 形式V,,所述詞-主題矩陣包括詞和主題之間的對應(yīng)關(guān)系; 根據(jù)所述Vq在與所述類別Cp對應(yīng)的主題-文檔矩陣Vp中查詢與所述文檔q相似的歷 史文檔,所述主題-文檔矩陣Vp中的每一列對應(yīng)一個歷史文檔; 其中,所述詞-主題矩陣和所述主題-文檔矩陣Vp是對各個歷史文檔按照不同類別進 行組非負矩陣分解GNMFNC所得到的矩陣。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過與所述類別Cp對應(yīng)的詞-主題 矩陣將所述文檔q變換到主題空間上的最優(yōu)表示形式Vq之前,還包括: 將各個歷史文檔表示為詞-文檔矩陣D,所述詞-文檔矩陣D中的每一行代表一個詞, 每一列代表一個歷史文檔,所述歷史文檔對應(yīng)P個類別; 將所述詞-文檔矩陣D通過所述組非負矩陣分解得到1個詞-共享主題矩陣Us、P個 詞-特定主題矩陣Up和P個所述主題-文檔矩陣Vp ; 其中,所述共享主題是所有類別所共享的主題,所述特定主題是一個類別所特有的主 題。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,所述將所述詞-文檔矩陣D通過組非負矩 陣分解得到1個詞-共享主題矩陣Us、P個詞-特定主題矩陣Up和P個所述主題-文檔矩 陣Vp,包括: 獲取初始化的詞-共享文檔矩陣us、P個初始化的詞-特定主題矩陣Up和P個初始化 的主題-文檔矩陣Vp ; 根據(jù)所述詞-文檔矩陣D、所述初始化的詞-共享文檔矩陣US、P個所述初始化的詞-特 定主題矩陣Up和P個所述初始化的主題-文檔矩陣Vp確定出使目標函數(shù)最小的所述詞-共 享文檔矩陣us、P個所述詞-特定主題矩陣Up和P個所述主題-文檔矩陣vp。
4. 根據(jù)權(quán)利要求3所述的方法,其特征在于,所述根據(jù)所述詞-文檔矩陣D、所述初始 化的詞-共享文檔矩陣Us、P個所述初始化的詞-特定主題矩陣Up和P個所述初始化的主 題-文檔矩陣Vp確定出使目標函數(shù)最小的所述詞-共享文檔矩陣Us、P個所述詞-特定主 題矩陣Up和P個所述主題-文檔矩陣Vp,包括: 使用所述詞-文檔矩陣D、上一次得到的詞-共享文檔矩陣Us、P個詞-特定主題矩陣Up和P個主題-文檔矩陣Vp進行迭代更新,得到更新后的詞-共享文檔矩陣US、P個詞-特 定主題矩陣Up和P個主題-文檔矩陣Vp ; 使用規(guī)范化算子對所述更新后的詞-共享文檔矩陣Us的每一列、P個詞-特定主 題矩陣Up的每一列和P個主題-文檔矩陣Vp的轉(zhuǎn)置矩陣F1T的每一列進行規(guī)范化,得到規(guī) 范化后的詞-共享文檔矩陣us、P個詞-特定主題矩陣Up和P個主題-文檔矩陣Vp ; 使用所述規(guī)范化后的詞-共享文檔矩陣us、P個詞-特定主題矩陣Up和P個主題-文 檔矩陣Vp計算所述目標函數(shù)是否已最小化; 若所述目標函數(shù)尚未最小化,則重新執(zhí)行上述三個步驟直至所述目標函數(shù)最小化。
5. 根據(jù)權(quán)利要求4所述的方法,其特征在于,所述使用所述詞-文檔矩陣D、上一次得 到的詞-共享文檔矩陣Us、p個詞-特定主題矩陣Up和P個主題-文檔矩陣Vp進行迭代更 新,得到更新后的詞-共享文檔矩陣Us、P個詞-特定主題矩陣Up和P個主題-文檔矩陣 vp,包括: 使用下述公式對上一次得到的詞-共享文檔矩陣Us進行迭代更新;
使用下述公式對上一次得到的詞-特定主題矩陣Up進行迭代更新;
使用下述公式對上一次得到的主題-文檔矩陣Vp進行迭代更新;
其中,所述P代表各個類別,所述所述III^表示弗羅貝尼烏斯范數(shù),所 述Dp表示對應(yīng)于類別Cp的詞-文檔矩陣,所述表示Hp的轉(zhuǎn)置矩陣,所述Ifpe對應(yīng)所述Us的共享主題系數(shù),所述U'p = [Us,Up],所述VPT表示所述Vp的轉(zhuǎn)置矩陣,所述 .F/ W;:'],所述 < 表示Up的轉(zhuǎn)置矩陣,所述 < 表示W(wǎng)p的轉(zhuǎn)置矩陣,所述% 6 /fd'+' 對應(yīng)所述Up的特定主題系數(shù),所述//v = 所述W ,所述ui表示與類別 一 [] C1對應(yīng)的詞-特定主題矩陣,所述αp和所述βi是正則化參數(shù),運算符〇是點乘結(jié)果,Ii 是點除結(jié)果,并且,是點陣平方。
6.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述規(guī)范化算子A是:
其中,〇=?{Λ?ιιa-+/?的凡).!, p~\ 所述 1(--)二ixili/fc/,,If+tA丨&,Tr( ·)表示一個矩陣的跡線,K, p=l =Ks+Kp,Ks表示共享主題的數(shù)目,Kp表示對應(yīng)于類別Cp的特定主題的數(shù)目,Np表示類別Cp 中歷史文檔的數(shù)目,并且AsERji^,是所述Us,所述Up和所述Vp各自等式約束的拉格朗日乘數(shù),所述U1表示與類別C1對應(yīng)的詞-特定主題矩陣,所述P 代表各個類別,所述'匈DpIp,所述III^表示弗羅貝尼烏斯范數(shù),所述Dp表示對應(yīng)于類 別Cp的詞-文檔矩陣,所述(/f表示Us的轉(zhuǎn)置矩陣,所述表示所述Up的轉(zhuǎn)置矩陣,所述αρ和所述P1是正則化參數(shù)。
7. 根據(jù)權(quán)利要求3至6任一所述的方法,其特征在于,所述目標函數(shù)是:
所述U1表示與類別C1對應(yīng)的詞-特定主題矩陣,所述P代表各個類別,所述If2,所述III^表示弗羅貝尼烏斯范數(shù),所述Dp表示對應(yīng)于類別Cp的詞-文檔矩 陣,所述C/[表示Us的轉(zhuǎn)置矩陣,所述C/f表示Up的轉(zhuǎn)置矩陣,Ks表示共享主題的數(shù)目,Kp表 示對應(yīng)于類別Cp的特定主題的數(shù)目,M表示詞的數(shù)目,Np表示類別Cp中歷史文檔的數(shù)目,所 述%和所述。是正則化參數(shù),
8. 根據(jù)權(quán)利要求1至7任一所述的方法,其特征在于,所述通過與所述類別Cp對應(yīng)的 詞-主題矩陣將所述文檔q變換到主題空間上的最優(yōu)表示形式Vq,包括: 通過下述公式將所述文檔q變換到主題空間上的最優(yōu)表示形式Vq ;
其中,q為所述文檔q的向量表示,所述V是所述文檔q在所述主題空間上的任何一種 表示形式。
9. 根據(jù)權(quán)利要求1至7任一所述的方法,其特征在于,所述在與所述最接近的主題對應(yīng) 的主題-文檔矩陣Vp中查詢與所述文檔q相似的歷史文檔,包括: 對于與所述類別Cp對應(yīng)的主題-文檔矩陣Vp中的每一列Vd,計算所述主題空間上的最 優(yōu)表示形式Vq和所述Vd之間的相似性,所述Vd是一個歷史文檔在所述Vp中按列索引的表 示; 根據(jù)所述相似性由高到低的順序得出與所述文檔q相似的歷史文檔。
10. 根據(jù)權(quán)利要求9所述的方法,其特征在于,所述計算所述主題空間上的最優(yōu)表示形 式Vq和所述Vd之間的相似性,包括: 通過下述公式計算所述主題空間上的最優(yōu)表示形式Vn和所述Vd之間的相似性;
其中,SttjpiJq,d)中的q和d是基于主題的表示方法; 或, 通過下述公式計算所述主題空間上的最優(yōu)表示形式Vq和所述Vd之間的相似性; s(q,d) =YStopic (q,d)+ (1-Y)Sterm (q,d); 其中,參數(shù)Ye[〇,1],所述\_。((1,(1)中的(1和(1是基于主題的表示方法,所述StOT(q,d)中的q和d是基于詞袋的表示方法。
11. 一種文檔查詢裝置,其特征在于,所述裝置包括: 獲取文檔模塊,用于獲取待查詢的文檔q和所述文檔q對應(yīng)的類別Cp ; 變換文檔模塊,用于通過與所述類別Cp對應(yīng)的詞-主題矩陣將所述文檔q變換到主題 空間上的最優(yōu)表示形式V,,所述詞-主題矩陣包括詞和主題之間的對應(yīng)關(guān)系; 查詢文檔模塊,用于根據(jù)所述Vq在與所述類別Cp對應(yīng)的主題-文檔矩陣Vp中查詢與 所述文檔q相似的歷史文檔,所述主題-文檔矩陣Vp中的每一列對應(yīng)一個歷史文檔; 其中,所述詞-主題矩陣和所述主題-文檔矩陣Vp是對各個歷史文檔按照預(yù)定類別進 行組非負矩陣分解GNMFNC所得到的矩陣。
12. 根據(jù)權(quán)利要求11所述的裝置,其特征在于,所述裝置,還包括: 歷史文檔表示模塊,用于將各個歷史文檔表示為詞-文檔矩陣D,所述詞-文檔矩陣D中的每一行代表一個詞,每一列代表一個歷史文檔,所述歷史文檔對應(yīng)P個類別; 分解矩陣模塊,用于將所述詞-文檔矩陣D通過所述組非負矩陣分解分解得到1個 詞-共享主題矩陣Us、P個詞-特定主題矩陣Up和P個所述主題-文檔矩陣Vp ; 其中,所述共享主題是所有類別所共享的主題,所述特定主題是一個類別所特有的主 題。
13. 根據(jù)權(quán)利要求12所述的裝置,其特征在于,所述分解矩陣模塊,包括: 初始化矩陣單元,用于獲取初始化的詞-共享文檔矩陣US、P個初始化的詞-特定主題 矩陣Up和P個初始化的主題-文檔矩陣Vp ; 確定矩陣單元,用于根據(jù)所述詞-文檔矩陣D、所述初始化的詞-共享文檔矩陣US、P個 所述初始化的詞-特定主題矩陣Up和P個所述初始化的主題-文檔矩陣Vp確定出使目標 函數(shù)最小的所述詞-共享文檔矩陣Us、P個所述詞-特定主題矩陣Up和P個所述主題-文 檔矩陣Vp。
14. 根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述確定矩陣單元,包括: 迭代更新子單元,用于使用所述詞-文檔矩陣D、上一次得到的詞-共享文檔矩陣US、P個詞-特定主題矩陣Up和P個主題-文檔矩陣Vp進行迭代更新,得到更新后的詞-共享文 檔矩陣Us、P個詞-特定主題矩陣Up和P個主題-文檔矩陣Vp ; 規(guī)范化矩陣子單元,用于使用規(guī)范化算子對所述更新后的詞-共享文檔矩陣Us的 每一列、P個詞-特定主題矩陣Up的每一列和P個主題-文檔矩陣Vp的轉(zhuǎn)置矩陣G的每一 列進行規(guī)范化,得到規(guī)范化后的詞-共享文檔矩陣Us、P個詞-特定主題矩陣Up和P個主 題-文檔矩陣Vp ; 計算矩陣子單元,用于使用所述規(guī)范化后的詞-共享文檔矩陣Us、p個詞-特定主題矩 陣Up和P個主題-文檔矩陣Vp計算所述目標函數(shù)是否已最小化; 重新執(zhí)行子單元,用于若所述目標函數(shù)尚未最小化,則重新執(zhí)行上述三個步驟直至所 述目標函數(shù)最小化。
15. 根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述迭代更新子單元,用于: 使用下述公式對上一次得到的詞-共享文檔矩陣U。進行迭代更新;
使用下述公式對上一次得到的詞-特定主題矩陣Up進行迭代更新;
使用下述公式對上一次得到的主題-文檔矩陣Vp進行迭代更新;
其中,所述P代表各個類別,所述,所述III^表示弗羅貝尼烏斯范數(shù),所 述Dp表示對應(yīng)于類別Cp的詞-文檔矩陣,所述表示Hp的轉(zhuǎn)置矩陣,所述Ifpe對應(yīng)所述Us的共享主題系數(shù),所述U'p = [Us,Up],所述VPT表示所述Vp的轉(zhuǎn)置矩陣,所述 FjWj],所迷(/【表示Up的轉(zhuǎn)置矩陣,所述Iff表示W(wǎng)p的轉(zhuǎn)置矩陣,所述e嚴*··、·, 對應(yīng)所述Up的特定主題系數(shù),所述//s 所述妒= ,所述U1表示與 類別C1對應(yīng)的詞-特定主題矩陣,所述CIp和所述P1是正則化參數(shù),運算符〇是點乘結(jié) 果,M是點除結(jié)果,并且是點陣平方。
16. 根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述規(guī)范化算子A是:
其中,化-[",巧>;||^+4?"4, 廣· 所述Λ(?/,,Κ) =|χ11^/? |g_ +Σ爲IIC/別 ,Tr( ·)表示一個矩陣的跡線,K, p~l i-iJ-rp =Ks+Kp,Ks表示共享主題的數(shù)目,Kp表示對應(yīng)于類別Cp的特定主題的數(shù)目,Np表示類別Cp 中歷史文檔的數(shù)目,并且As€]?n,是所述Us,所述Up和所 述Vp各自等式約束的拉格朗日乘數(shù),所述U1表示與類別C1對應(yīng)的詞-特定主題矩陣,所述 P代表各個類別,所述弋^lDpIf,所述IIIIf表示弗羅貝尼烏斯范數(shù),所述Dp表示對應(yīng)于 類別Cp的詞-文檔矩陣,所述表示Us的轉(zhuǎn)置矩陣,所述#表示所述Up的轉(zhuǎn)置矩陣,所述αρ和所述P1是正則化參數(shù)。
17. 根據(jù)權(quán)利要求13至16任一所述的裝置,其特征在于,所述目標函數(shù)是: min〇 Us,up,Vp ^O
其中,o=f ||Dp-[t/、-,C/JCi?的,%)} P^i P P /^tZi5CZj=JX||?/『?/ρIl+Z爲||£/】仏丨|所述U1表示與所述類別^對應(yīng)的詞-特 ρ-? ?~? Jf-ρ 定主題矩陣,所述P代表不同類別,所述Λ,_dPI2,所述111 ^表示弗羅貝尼烏斯范數(shù),所 述Dp表示對應(yīng)于類別Cp的詞-文檔矩陣,所述l/f表示Us的轉(zhuǎn)置矩陣,所述(< 表示Up的轉(zhuǎn) 置矩陣,Ks表示共享主題的數(shù)目,Kp表示對應(yīng)于類別Cp的特定主題的數(shù)目,M表示詞的數(shù)目, Np表示類別Cp中歷史文檔的數(shù)目,所述αp和所述βi是正則化參數(shù),Vpwec
18. 根據(jù)權(quán)利要求11至17任一所述的裝置,其特征在于,所述變換文檔模塊,用于通過 下述公式將所述文檔q變換到主題空間上的最優(yōu)表示形式Vq ; vv =arg^|i||f-[C/s,i/p]v^ 其中,q為所述文檔q的向量表示,所述v是所述文檔q在所述主題空間上的任何一種 表示形式。
19. 根據(jù)權(quán)利要求11至17任一所述的裝置,其特征在于,所述查詢文檔模塊,包括: 計算相似性單元,用于對于與所述類別Cp對應(yīng)的主題-文檔矩陣Vp中的每一列Vd,計 算所述主題空間上的最優(yōu)表示形式Vq和所述Vd之間的相似性,所述Vd是一個歷史文檔在 所述Vp中按列索引的表示; 得出相似文檔單元,用于根據(jù)所述相似性由高到低的順序得出與所述文檔q相似的歷 史文檔。
20.根據(jù)權(quán)利要求19所述的裝置,其特征在于,所述計算相似單元,包括: 第一計算子單元,用于通過下述公式計算所述主題空間上的最優(yōu)表示形式 '和所述Vd 之間的相似性;
其中,S_e(q,d)中的q和d是基十主題的表不于早兀; 或, 第二計算子單元,用于通過下述公式計算所述主題空間上的最優(yōu)表示形式Vq和所述vd之間的相似性; s(q,d)= Y Stopic(q,d)+ (1-Y ) Sterm(q,d); 其中,參數(shù)Ye[〇,1],所述Stopic;(q,d)中的q和d是基于主題的表示子單元,所述Stem(q,d)中的q和d是基于詞袋的表示子單元。
【文檔編號】G06F17/30GK104239402SQ201410353033
【公開日】2014年12月24日 申請日期:2014年7月23日 優(yōu)先權(quán)日:2014年7月23日
【發(fā)明者】周光有, 蔣杰, 王巨宏, 薛偉, 管剛, 趙軍 申請人:中國科學(xué)院自動化研究所, 騰訊科技(深圳)有限公司