索引用于文件檢索的文件的方法、裝置及計(jì)算機(jī)可讀媒介的制作方法
【專利摘要】多個(gè)實(shí)施方式提供了索引用于文件檢索的文件的方法。該文件可包括:產(chǎn)生文件向量,文件向量指示多個(gè)術(shù)語中的每個(gè)是否存在于文件中;使用文件向量和語義關(guān)系矩陣計(jì)算文件語義推斷向量,文件語義推斷向量用于文件中存在的多個(gè)術(shù)語中的每個(gè),語義關(guān)系矩陣辨別多個(gè)術(shù)語中不同術(shù)語之間的語義關(guān)系;以及使用基于文件語義推斷向量計(jì)算的文件語義背景推斷向量,索引文件。多個(gè)實(shí)施方式提供了對應(yīng)的裝置和計(jì)算機(jī)可讀媒介。
【專利說明】索引用于文件檢索的文件的方法、裝置及計(jì)算機(jī)可讀媒介
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及索引用于文件檢索的文件的方法、裝置以及計(jì)算機(jī)可讀媒介。
【背景技術(shù)】
[0002]說話是用于人與人和人與機(jī)器的相互作用的最方便的方式。在教育、商業(yè)和娛樂中應(yīng)用語音文件檢索(SDR)正在快速增長。成功的示例包括多語言口述歷史檔案訪問。
[0003]傳統(tǒng)手段聚焦在檢索信息并試圖滿足用戶的需求。由于語音的變化,難以直接比較語音查詢與數(shù)據(jù)庫中的語音文件。為了構(gòu)造高效且有效的檢索系統(tǒng),現(xiàn)有技術(shù)的語音文件檢索(SDR)技術(shù)采用從自動語音識別獲得的用于索引的轉(zhuǎn)換。向量空間模型和概率模型依賴于一些相似性功能,這些相似性功能假定如果文件包括查詢術(shù)語的更多次出現(xiàn),則該文件更有可能與查詢相關(guān)。[0004]基于文本的信息檢索的索引技術(shù)已廣泛地使用在語音文件檢索中。然而,由于不完美的語音識別、未登錄詞匯、同音字歧義以及詞語符號化,傳統(tǒng)的基于文本的索引技術(shù)的方法并不總是適于語音文件檢索。轉(zhuǎn)換錯(cuò)誤可致使不期望的語義與語法表達(dá),因此導(dǎo)致不充分的索引。已經(jīng)提出了多個(gè)手段以利用多種索引單元(如詞語,子詞、音素等)解決這些問題。
【發(fā)明內(nèi)容】
[0005]多個(gè)實(shí)施方式提供了索引用于文件檢索的文件的方法,其包括:產(chǎn)生文件向量,所述文件向量指示多個(gè)術(shù)語中的每個(gè)是否存在于所述文件中;使用所述文件向量和語義關(guān)系矩陣計(jì)算文件語義推斷向量,所述文件語義推斷向量用于所述文件中存在的所述多個(gè)術(shù)語中的一個(gè)或多個(gè),所述語義關(guān)系矩陣辨別所述多個(gè)術(shù)語中不同術(shù)語之間的語義關(guān)系;以及使用基于每個(gè)文件語義推斷向量計(jì)算的文件語義背景推斷向量,索引所述文件。
[0006]在一實(shí)施方式中,使用所述文件向量和語義關(guān)系矩陣計(jì)算文件語義推斷向量,以用于所述文件中存在的所述多個(gè)術(shù)語中的每個(gè)。
[0007]在一實(shí)施方式中,通過將所述文件語義推斷向量加起來,計(jì)算所述文件語義背景推斷向量。
[0008]在一實(shí)施方式中,產(chǎn)生所述語義關(guān)系矩陣還包括以下步驟:使用多個(gè)文件產(chǎn)生術(shù)語-文件矩陣,所述術(shù)語-文件矩陣辨別所述多個(gè)術(shù)語中的每個(gè)是否存在于所述多個(gè)文件的每個(gè)中;以及通過執(zhí)行所述術(shù)語-文件矩陣的奇異值分解產(chǎn)生術(shù)語-術(shù)語矩陣,所述術(shù)語-術(shù)語矩陣為所述語義關(guān)系矩陣。
[0009]在一實(shí)施方式中,對所述術(shù)語-文件矩陣應(yīng)用術(shù)語加權(quán)方案,以抑制噪音術(shù)語。
[0010]在一實(shí)施方式中,根據(jù)以下表達(dá)式應(yīng)用所述術(shù)語加權(quán)方案:
d tf(a, ,6/) + 1D
[0011]ak = 二:-X !og(—~—-)
4/UtlJ+.[0012]"</ = Σ# (A.k
[0013]其中ai力所述術(shù)語-文件矩陣W的被加權(quán)術(shù)語;D表示所述多個(gè)文件中文件的總數(shù);K為所述多個(gè)術(shù)語中術(shù)語的數(shù)目;tf(ak,d)表示術(shù)語(64在文件d中出現(xiàn)的次數(shù);df(ak)是所述術(shù)語adK至少出現(xiàn)一次的文件的數(shù)目。
[0014]在一實(shí)施方式中,根據(jù)以下表達(dá)式執(zhí)行所述術(shù)語-術(shù)語矩陣:
[0015]W=WWr
[0016]其中命為所述術(shù)語-術(shù)語矩陣;W為所述術(shù)語-文件矩陣;以及T表示矩陣轉(zhuǎn)置。
[0017]在一實(shí)施方式中,根據(jù)以下表達(dá)式執(zhí)行所述術(shù)語-術(shù)語矩陣的奇異值分解:
[0018]W = UEVr
[0019]其中V力所述術(shù)語-術(shù)語矩陣;U為左奇異矩陣;V為右奇異矩陣;Σ為RXR對角矩陣,該對角矩陣的非負(fù)值為以遞減次序排列的R個(gè)奇異值,R為分解的階數(shù);以及T表
示矩陣轉(zhuǎn)置。
[0020]在一實(shí)施方式中,基于以下表達(dá)式減少所述術(shù)語-文件矩陣的維數(shù):
【權(quán)利要求】
1.索引用于文件檢索的文件的方法,包括: 產(chǎn)生文件向量,所述文件向量指示多個(gè)術(shù)語中的每個(gè)是否存在于所述文件中; 使用所述文件向量和語義關(guān)系矩陣計(jì)算文件語義推斷向量,所述文件語義推斷向量用于所述文件中存在的所述多個(gè)術(shù)語中的一個(gè)或多個(gè),所述語義關(guān)系矩陣辨別所述多個(gè)術(shù)語中不同術(shù)語之間的語義關(guān)系;以及 使用基于每個(gè)文件語義推斷向量計(jì)算的文件語義背景推斷向量,索引所述文件。
2.根據(jù)權(quán)利要求1所述的方法,其中,使用所述文件向量和語義關(guān)系矩陣計(jì)算文件語義推斷向量,以用于所述文件中存在的所述多個(gè)術(shù)語中的每個(gè)。
3.根據(jù)權(quán)利要求2所述的方法,其中,通過將所述文件語義推斷向量加起來,計(jì)算所述文件語義背景推斷向量。
4.根據(jù)權(quán)利要求1至3中任一項(xiàng)所述的方法,還包括通過以下步驟產(chǎn)生所述語義關(guān)系矩陣: 使用多個(gè)文件產(chǎn)生術(shù)語-文件矩陣,所述術(shù)語-文件矩陣辨別所述多個(gè)術(shù)語中的每個(gè)是否存在于所述多個(gè)文件的每個(gè)中;以及, 通過執(zhí)行所述術(shù)語-文件矩陣的奇異值分解產(chǎn)生術(shù)語-術(shù)語矩陣,所述術(shù)語-術(shù)語矩陣為所述語義關(guān)系矩陣。
5.根據(jù)權(quán)利要求4所述的方法,其中,對所述術(shù)語-文件矩陣應(yīng)用術(shù)語加權(quán)方案,以抑制噪音術(shù)語。
6.根據(jù)權(quán)利要求5所述的方法,其中,根據(jù)以下表達(dá)式應(yīng)用所述術(shù)語加權(quán)方案: atjna^^g{ D_)
Hljdj (a,) + I
nd = YjIfia^d)
k 其中ag為所述術(shù)語-文件矩陣W的被加權(quán)術(shù)語;D表示所述多個(gè)文件中文件的總數(shù);K為所述多個(gè)術(shù)語中術(shù)語的數(shù)目;tf(ak,d)表示術(shù)語《I在文件d中出現(xiàn)的次數(shù);df(ak)是所述術(shù)語Uk至少出現(xiàn)一次的文件的數(shù)目。
7.根據(jù)權(quán)利要求4至6中任一項(xiàng)所述的方法,其中,根據(jù)以下表達(dá)式執(zhí)行所述術(shù)語-術(shù)語矩陣: W=WWr 其中#為所述術(shù)語-術(shù)語矩陣;w為所述術(shù)語-文件矩陣;以及τ表示矩陣轉(zhuǎn)置。
8.根據(jù)權(quán)利要求7所述的方法,其中,根據(jù)以下表達(dá)式執(zhí)行所述術(shù)語-術(shù)語矩陣的奇異值分解: W = UXV7 其中I為所述術(shù)語-術(shù)語矩陣;U為左奇異矩陣;V為右奇異矩陣;Σ為RXR對角矩陣,該對角矩陣的非負(fù)值為以遞減次序排列的R個(gè)奇異值,R為分解的階數(shù);以及T表示矩陣轉(zhuǎn)置。
9.根據(jù)權(quán)利要求8所述的方法,其中,基于以下表達(dá)式減少所述術(shù)語-文件矩陣的維數(shù):
10.根據(jù)權(quán)利要求9所述的方法,其中,根據(jù)以下表達(dá)式產(chǎn)生所述術(shù)語-術(shù)語矩陣:
11.根據(jù)上述權(quán)利要求中任一項(xiàng)所述的方法,還包括: 接收搜索查詢;以及, 基于使用所述文件語義背景推斷向量和所述搜索查詢的比較,檢索所述文件。
12.根據(jù)權(quán)利要求11所述的方法,其中,檢索所述文件還包括: 產(chǎn)生搜索查詢向量,所述搜索查詢向量指示所述多個(gè)術(shù)語中的每個(gè)是否存在于所述搜索查詢中; 使用所述搜索查詢向量和所述語義關(guān)系矩陣,計(jì)算搜索查詢語義推斷向量,所述搜索查詢語義推斷向量用于所述搜索查詢中存在的所述多個(gè)術(shù)語中的一個(gè)或多個(gè); 基于每個(gè)搜索查詢語義推斷向量,計(jì)算搜索查詢語義背景推斷向量;以及基于所述文件語義背景推斷向量與所述搜索查詢語義背景推斷向量之間的比較,檢索所述文件。
13.根據(jù)權(quán)利要求12所述的方法,其中,使用所述搜索查詢向量和語義關(guān)系矩陣計(jì)算搜索查詢語義推斷向量,以用于所述搜索查詢中存在的所述多個(gè)術(shù)語中的每個(gè)。
14.根據(jù)權(quán)利要求13所述的方法,其中,通過將所述搜索查詢語義推斷向量加起來,計(jì)算所述搜索查詢語義背景推斷向量。
15.根據(jù)權(quán)利要求12至14中任一項(xiàng)所述的方法,其中,根據(jù)以下表達(dá)式執(zhí)行所述文件語義背景推斷向量與所述搜索查詢語義背景推斷向量之間的所述比較:
16.根據(jù)上述權(quán)利要求中任一項(xiàng)所述的方法,其中,每個(gè)文件為語音文件。
17.根據(jù)上述權(quán)利要求中任一項(xiàng)所述的方法,其中,術(shù)語為詞語。
18.索引用于文件檢索的文件的裝置,包括: 至少一個(gè)處理器; 以及包括計(jì)算機(jī)程序代碼的至少一個(gè)存儲器, 利用所述至少一個(gè)處理器,所述至少一個(gè)存儲器和所述計(jì)算機(jī)程序代碼配置成致使所述裝置至少執(zhí)行: 產(chǎn)生文件向量,所述文件向量指示多個(gè)術(shù)語中的每個(gè)是否存在于所述文件中; 使用所述文件向量和語義關(guān)系矩陣計(jì)算文件語義推斷向量,所述文件語義推斷向量用于所述文件中存在的所述多個(gè)術(shù)語中的一個(gè)或多個(gè),所述語義關(guān)系矩陣辨別所述多個(gè)術(shù)語中不同術(shù)語之間的語義關(guān)系;以及 使用基于每個(gè)文件語義推斷向量計(jì)算的文件語義背景推斷向量,索引所述文件。
19.索引用于文件檢索的文件的計(jì)算機(jī)可讀媒介,所述計(jì)算機(jī)可讀媒介上存儲有計(jì)算機(jī)程序碼,當(dāng)通過計(jì)算機(jī)執(zhí)行所述計(jì)算機(jī)程序代碼時(shí),其致使所述計(jì)算機(jī)至少執(zhí)行: 產(chǎn)生文件向量,所述文件向量指示多個(gè)術(shù)語中的每個(gè)是否存在于所述文件中; 使用所述文件向量和語義關(guān)系矩陣計(jì)算文件語義推斷向量,所述文件語義推斷向量用于所述文件中存在的所述多個(gè)術(shù)語中的一個(gè)或多個(gè),所述語義關(guān)系矩陣辨別所述多個(gè)術(shù)語中不同術(shù)語之間的語義關(guān)系;以及 使用基于每個(gè)文件語義推斷 向量計(jì)算的文件語義背景推斷向量,索引所述文件。
【文檔編號】G06F17/30GK103548015SQ201280024604
【公開日】2014年1月29日 申請日期:2012年3月28日 優(yōu)先權(quán)日:2011年3月28日
【發(fā)明者】黃建霖, 馬斌, 李海州 申請人:新加坡科技研究局