亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種借助統(tǒng)計(jì)機(jī)器翻譯的答案檢索方法及裝置的制作方法

文檔序號(hào):6403056閱讀:157來源:國知局
專利名稱:一種借助統(tǒng)計(jì)機(jī)器翻譯的答案檢索方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域,是一種借助統(tǒng)計(jì)機(jī)器翻譯的答案檢索方法及
>J-U ρ α裝直。
背景技術(shù)
隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,基于用戶生成(User-Generated Content,UGC)的互聯(lián)網(wǎng)服務(wù)越來越流行。社區(qū)問答正是在這一背景下出現(xiàn)的一種新的以“提問-回答”為主的信息交流和知識(shí)分享系統(tǒng),例如Yahoo ! Answers、百度知道等。區(qū)別于自動(dòng)問答系統(tǒng),在社區(qū)問答上,用戶可以提出任何類型的問題,也可以回答其它用戶任何類型的問題。答案檢索是社區(qū)問答分析的基礎(chǔ),占有很重要的位置。答案檢索的任務(wù)是指從大規(guī)模的候選答案庫中檢索出與查詢問題在語義上相似或相近的答案,用戶回答該查詢問題。因此,答案檢索具有重要的理論意義和實(shí)用價(jià)值。目前答案檢索面臨的主要挑戰(zhàn)是查詢問題與候選答案之間的詞匯不匹配以及詞匯歧義問題。詞匯不匹配通常會(huì)引發(fā)答案檢索模型檢索出許多與用戶查詢意圖不匹配的答案,主要原因是社區(qū)問答中查詢問題和答案都是由用戶給出的,而用戶的查詢意圖高度多樣化。例如,依據(jù)不同的用戶,詞語“interest”既可以指“curiosity”也可以指“a chargefor borrowing money”?!霸~語歧義”是查詢問題與候選答案之間的常見現(xiàn)象,具體表現(xiàn)在,很多詞語在查詢問題和候選答案中出現(xiàn)的次數(shù)并不多,甚至都沒有在查詢問題或候選答案中出現(xiàn)過,無法用傳統(tǒng)的基于詞條匹配的方法。解決上述“詞匯歧義”和“詞匯鴻溝”問題的一個(gè)方法就是借助統(tǒng)計(jì)機(jī)器翻譯,將原始語言中的歧義詞 以及字面上表示不一樣的詞匯用它們對(duì)應(yīng)的翻譯來表示。而借助統(tǒng)計(jì)機(jī)器翻譯的方法前提是首先要建立一個(gè)合理的目標(biāo)函數(shù),將原始語言及其對(duì)應(yīng)的翻譯集成在一個(gè)框架中,其次是如何盡量減少統(tǒng)計(jì)機(jī)器翻譯帶來的噪聲,最后是如何設(shè)計(jì)一種快速的求解方法來解決上述目標(biāo)函數(shù)。而直接將得到的翻譯詞匯添加到原始語言中,答案檢索的準(zhǔn)確率會(huì)大打折扣,主要原因是將翻譯詞匯直接添加到原始語言中會(huì)大大增加計(jì)算的復(fù)雜度,同時(shí)機(jī)器翻譯的錯(cuò)誤也會(huì)帶來很多噪音。答案檢索的任務(wù)是指對(duì)用戶輸入的查詢問題,從答案文檔集合中檢索出能夠回答該查詢的答案。答案檢索面臨的主要困難是用戶查詢問題與候選答案在表達(dá)相同或相似的意思時(shí)使用不同的用詞形式,容易導(dǎo)致詞匯不匹配和詞匯歧義的問題。傳統(tǒng)的方法主要依靠挖掘單語之間的詞語關(guān)聯(lián),忽視了多語言信息之間的語義關(guān)聯(lián)。

發(fā)明內(nèi)容
為解決上述問題,本發(fā)明首先需要設(shè)計(jì)一個(gè)合理的目標(biāo)函數(shù),將原始語言及其對(duì)應(yīng)的翻譯有效地集成到一個(gè)框架中,同時(shí)在該框架下約束機(jī)器翻譯的噪聲對(duì)答案檢索的影響。然后根據(jù)建立的目標(biāo)函數(shù)及其約束,設(shè)計(jì)了一種快速的求解方法。通過對(duì)目標(biāo)函數(shù)的求解,得到原始語言及其對(duì)應(yīng)翻譯的隱含表示,最后在隱含空間上計(jì)算用戶查詢和候選答案之間的相似度。根據(jù)上述思路,本發(fā)明主要針對(duì)答案檢索存在的兩大難點(diǎn)問題入手,成功地將統(tǒng)計(jì)機(jī)器翻譯引入到答案檢索的過程中,通過實(shí)驗(yàn)證明,該方法有效地提高了答案檢索的準(zhǔn)確率。本發(fā)明的基本思想是充分借助統(tǒng)計(jì)機(jī)器翻譯,將原始語言中的歧義詞和字面上表示不一樣的詞匯用它們對(duì)應(yīng)的翻譯來表示,從而提高答案檢索的性能。本發(fā)明公開了一種借助統(tǒng)計(jì)機(jī)器翻譯的答案檢索方法,包括如下步驟:步驟1、借助統(tǒng)計(jì)機(jī)器翻譯工具將原始語言表示的所有候選答案翻譯成其它多種語H ;步驟2、將包括所述原始語言在內(nèi)的每種語言表示的候選答案集成到一個(gè)基于非負(fù)矩陣分解的框架;步驟3、利用最小二乘法快速梯度下降算法對(duì)所述基于非負(fù)矩陣分解的框架進(jìn)行求解,得到所有候選答案的所述每種語言表示的低維表達(dá);步驟4、借助統(tǒng)計(jì)機(jī)器翻譯工具將原始語言表示的查詢問題翻譯成其它多種語言翻譯;步驟5、利用步驟3中得到的所有候選答案的所述每種語言表示的低維表達(dá),將查詢問題及其它多種語言翻譯轉(zhuǎn)化到低維空間上;步驟6、根據(jù)所述查詢問題及其它多種語言翻譯、以及該查詢問題及其它多種語言翻譯對(duì)應(yīng)的候選答案的低維表達(dá),計(jì)算所述查詢問題及其它多種語言翻譯與它們對(duì)應(yīng)的候選答案之間的相似度,并根據(jù)相似度得到最終檢索結(jié)果。本發(fā)明還公開了一種借助統(tǒng)計(jì)機(jī)`器翻譯的答案檢索裝置,其包括:候選答案翻譯模塊,用于將候選答案翻譯成其它語言;矩陣分解模塊,將包括所述原始語言在內(nèi)的每種語言表示的候選答案集成到一個(gè)基于非負(fù)矩陣分解的框架;優(yōu)化求解模塊,利用最小二乘法快速梯度下降算法對(duì)所述基于非負(fù)矩陣分解的框架進(jìn)行求解,得到每一個(gè)問題的所有候選答案的所述每種語言表示的低維表達(dá);查詢問題翻譯模塊,用于將查詢問題翻譯成其它語言;基于低維空間的相似度計(jì)算模塊,其用于將查詢問題轉(zhuǎn)化到低維空間上,并計(jì)算查詢問題與候選答案在低維空間上的相似度;所述結(jié)果排序?qū)W習(xí)模塊,其用于根據(jù)所述相似度計(jì)算模塊計(jì)算得到的相似度,最終得到檢索答案。本發(fā)明采用借助統(tǒng)計(jì)機(jī)器翻譯的思想來提升答案檢索的性能。利用統(tǒng)計(jì)機(jī)器翻譯工具Google Translate,將原始語言中的歧義詞和字面上表示不一樣的詞匯用它們對(duì)應(yīng)的翻譯來表示,從而提高答案檢索的性能。


圖1是本發(fā)明中借助統(tǒng)計(jì)機(jī)器翻譯的答案檢索方法。圖2是本發(fā)明中借助統(tǒng)計(jì)機(jī)器翻譯的答案檢索裝置結(jié)構(gòu)圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚明白,以下結(jié)合具體實(shí)施例,并參照附圖,對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說明。本發(fā)明公開了一種借助統(tǒng)計(jì)機(jī)器翻譯的答案檢索方法及裝置。其可以分為離線過程和在線過程兩部分。離線過程分由三個(gè)模塊實(shí)現(xiàn),即候選答案翻譯模塊、矩陣分解模塊,優(yōu)化求解模塊。在線過程也分三個(gè)模塊進(jìn)行,即查詢問題翻譯模塊、基于低維空間的相似度計(jì)算模塊以及結(jié)果排序?qū)W習(xí)模塊。圖1示出了本發(fā)明提出的一種借助統(tǒng)計(jì)機(jī)器翻譯的答案檢索方法。如圖1所示,其包括離線部分和在線部分兩個(gè)階段。其中離線過程包括:步驟(I)、利用統(tǒng)計(jì)機(jī)器翻譯工具將用原始語言I1 (例如英語)表示的所有候選答案進(jìn)行翻譯,獲得L-1種不同語言的等價(jià)表示{11; I2,…,1M},其中L表示所有語言的數(shù)目,所述統(tǒng)計(jì)機(jī)器翻譯工具可選用Google Translate等。步驟(2)、對(duì)每種語言表示的候選答案集合表示成一AMpXN的詞-文檔矩陣萬丨,其中Mp表示第P種語言表示的候選答案集合中的所有詞匯,N表示候選答案集合中答案的數(shù)目。步驟(3)、設(shè)計(jì)一個(gè)新的目標(biāo)函數(shù),采用非負(fù)矩陣分解的方法將P種不同語言表示的候選答案集成到一個(gè)統(tǒng)一的框架中,并且采用正則化的策略來減少統(tǒng)計(jì)機(jī)器翻譯帶來的噪聲。步驟(4)、設(shè)計(jì)一 個(gè)基于最小二乘的快速梯度下降算法,通過對(duì)上述目標(biāo)函數(shù)求解得到L種不同語言的低維表示形式,即系數(shù)矩陣$和重構(gòu)矩陣Vp所述在線過程包括:步驟(I)、利用統(tǒng)計(jì)機(jī)器翻譯工具將原始語言I1 (例如英語)表示的查詢問題翻譯成L-1種不同語言的等價(jià)表示,所述統(tǒng)計(jì)機(jī)器翻譯工具可選用Google Translate等。步驟(2)、利用上述離線過程(4)中求解得到的系數(shù)矩陣尸SI),將查詢
問題及其對(duì)應(yīng)的L-1種翻譯表示轉(zhuǎn)化到低維空間上。;步驟(3)、在低維空間表示上計(jì)算查詢問題與候選答案的相似度。步驟(4)、采用線性排序?qū)W習(xí)的策略,將L種不同語言在低維空間表示的相似度進(jìn)行融合,得分最高的若干個(gè)候選答案作為最終的答案返回。圖2示出了本發(fā)明中提出的借助統(tǒng)計(jì)機(jī)器翻譯的答案檢索裝置。如圖2所示,該檢索裝置包括:候選答案翻譯模塊、矩陣分解模塊,優(yōu)化求解模塊、查詢問題翻譯模塊以及基于低維空間的相似度計(jì)算模塊。所述候選答案翻譯模塊,用于在離線階段時(shí),將用原始語言I1 (例如英語)表示的所有候選答案進(jìn)行翻譯,獲得L-1種不同語言的等價(jià)表示{11; I2,…,U,其中L表示所有語言的數(shù)目,即通過對(duì)候選答案集合D1翻譯得到另外L-1種語言表示的候選答案集合D2,…,Dl。候選答案翻譯是本發(fā)明的技術(shù)之一。為了將候選答案從一種語言翻譯成另外L-1種語言,采用人工翻譯費(fèi)時(shí)費(fèi)力,尤其是針對(duì)社區(qū)問答答案檢索這個(gè)真實(shí)任務(wù)來說,對(duì)大規(guī)模的候選答案進(jìn)行翻譯顯然是不現(xiàn)實(shí)的。幸運(yùn)的是,目前機(jī)器翻譯的水平在自然語言處理中得到了較好的發(fā)展,盡管在翻譯質(zhì)量上還不是令人十分滿意。目前已經(jīng)有許多公開的免費(fèi)翻譯工具提供日常翻譯服務(wù)。本發(fā)明優(yōu)選實(shí)施例中采用Google Translate,該翻譯工具利用統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法在構(gòu)建的大規(guī)模平行語料庫上訓(xùn)練翻譯模型,在從一種語言翻譯成另一種語言的過程中,可以考慮豐富的上下文信息,在眾多的翻譯工具中表現(xiàn)出了良好的翻譯性能。通過對(duì)候選答案集合D1翻譯后,可以得到另外L-1種語言表示的候選答案集合D2,…,Dl。所述矩陣分解模塊,用于在離線階段,對(duì)每種語言表示的候選答案集合表示成一個(gè)MpXN的詞-文檔矩陣
權(quán)利要求
1.一種借助統(tǒng)計(jì)機(jī)器翻譯的答案檢索方法,包括如下步驟: 步驟1、借助統(tǒng)計(jì)機(jī)器翻譯工具將原始語言表示的所有候選答案翻譯成其它多種語言; 步驟2、將包括所述原始語言在內(nèi)的每種語言表示的候選答案集成到一個(gè)基于非負(fù)矩陣分解的框架; 步驟3、利用最小二乘法快速梯度下降算法對(duì)所述基于非負(fù)矩陣分解的框架進(jìn)行求解,得到所有候選答案的所述每種語言表示的低維表達(dá); 步驟4、借助統(tǒng)計(jì)機(jī)器翻譯工具將原始語言表示的查詢問題翻譯成其它多種語言翻譯; 步驟5、利用步驟3中得到的所有候選答案的所述每種語言表示的低維表達(dá),將查詢問題及其它多種語言翻譯轉(zhuǎn)化到低維空間上; 步驟6、根據(jù)所述查詢問題及其它多種語言翻譯、以及該查詢問題及其它多種語言翻譯對(duì)應(yīng)的候選答案的低維表達(dá),計(jì)算所述查詢問題及其它多種語言翻譯與它們對(duì)應(yīng)的候選答案之間的相似度,并根據(jù)相似度得到最終檢索結(jié)果。
2.如權(quán)利要求1所述的方法,其特征在于,所述基于非負(fù)矩陣分解的框架具體如下表示:
3.如權(quán)利要求2所述的方法,其特征在于,利用所述基于最小二乘法的快速梯度下降算法對(duì)所述基于非負(fù)矩陣分解的框架進(jìn)行求解,具體為找到和的局部最優(yōu)解;其中,當(dāng)優(yōu)化第P個(gè)系數(shù)矩陣匕時(shí),保持K,…A和疚,...,%—U%+U...,広不變,對(duì)系數(shù)矩陣匕進(jìn)行迭代更新,上述目標(biāo)函數(shù)廣丨'...,「,)轉(zhuǎn)成為如下的優(yōu)化問題:
4.如權(quán)利要求3所述的方法,其特征在于,當(dāng)優(yōu)化第ρ個(gè)重構(gòu)矩陣時(shí),保持系數(shù)矩陣U1,…,Oi和重構(gòu)矩陣 ,. + #,...,Vi不變,對(duì)重構(gòu)矩陣己進(jìn)行迭代更新,上述目標(biāo)函數(shù)礦(反,…,^^,…,匕)轉(zhuǎn)成為如下兩類的優(yōu)化問題: 第一類優(yōu)化問題:當(dāng)P e [2,L],^(反,…,広名,…,匕)轉(zhuǎn)化為下面的目標(biāo)函數(shù):
5.如權(quán)利要求3所述的方法,其特征在于,對(duì)系數(shù)矩陣歹ρ進(jìn)行迭代更新時(shí),所述目標(biāo)函數(shù)的優(yōu)化問題分解成Mp個(gè)相互獨(dú)立的子優(yōu)化問題,每一個(gè)子優(yōu)化問題對(duì)應(yīng)系數(shù)矩陣的一行:
6.如權(quán)利要求4所述的方法,其特征在于,對(duì)重構(gòu)矩陣P-進(jìn)行迭代更新時(shí),所述第一類優(yōu)化問題分解成N個(gè)相互獨(dú)立的子優(yōu)化問題,每一個(gè)子優(yōu)化問題對(duì)應(yīng)重構(gòu)矩陣:的一列:
7.如權(quán)利要求5所述的方法,其特征在于,所述Mp個(gè)相互獨(dú)立的子優(yōu)化問題對(duì)應(yīng)的數(shù)值解為:mu
8.如權(quán)利要求6所述的方法,其特征在于,所述第一類子優(yōu)化問題對(duì)應(yīng)的數(shù)值解為:
9.如權(quán)利要求2所述的方法,其特征在于,步驟3中利用所述所有候選答案的所述每種語言表示的低維表達(dá)將查詢問題轉(zhuǎn)化到低維空間上,其計(jì)算方法如下:
10.如權(quán)利要求2所述的方法,其特征在于,步驟3中利用所述所有候選答案的所述每種語言表示的低維表達(dá),將其它多種語言翻譯轉(zhuǎn)化到低維空間上,具體如下表示:
11.如權(quán)利要求1所述的方法,其特征在于,查詢問題Q1與候選答案Cl1在低維空間上的相似度,如下計(jì)算:
12.—種借助統(tǒng)計(jì)機(jī)器翻譯的答案檢索裝置,其包括: 候選答案翻譯模塊,用于將候選答案翻譯成其它語言; 矩陣分解模塊,將包括所述原始語言在內(nèi)的每種語言表示的候選答案集成到一個(gè)基于非負(fù)矩陣分解的框架; 優(yōu)化求解模塊,利用最小二乘法快速梯度下降算法對(duì)所述基于非負(fù)矩陣分解的框架進(jìn)行求解,得到每一個(gè)問題的所有候選答案的所述每種語言表示的低維表達(dá); 查詢問題翻譯模塊,用于將查詢問題翻譯成其它語言; 基于低維空間的相似度計(jì)算模塊,其用于將查詢問題轉(zhuǎn)化到低維空間上,并計(jì)算查詢問題與候選答案在低維空間上的相似度; 所述結(jié)果排序?qū)W習(xí)模塊,其用于根據(jù)所述相似度計(jì)算模塊計(jì)算得到的相似度,最終得到檢索答案。
全文摘要
本發(fā)明公開了一種借助統(tǒng)計(jì)機(jī)器翻譯的答案檢索方法及裝置。首先利用統(tǒng)計(jì)機(jī)器翻譯工具將候選答案翻譯翻譯成其它若干種語言,得到候選答案的若干種等價(jià)表示。然后利用矩陣分解的方法,對(duì)候選答案的若干種等價(jià)表示進(jìn)行降維數(shù),得到低維的隱含表示形式。其次,利用統(tǒng)計(jì)機(jī)器翻譯和矩陣分解方法將查詢問題轉(zhuǎn)化成低維的隱含表示形式。最后,在隱含空間上計(jì)算查詢問題與候選答案之間的相似度,返回相似度最高的若干個(gè)候選答案作為該查詢問題的答案。本發(fā)明提出的方法,可以有效地解決詞匯不匹配和詞匯歧義的問題。經(jīng)過試驗(yàn)證明,在大規(guī)模的社區(qū)問答數(shù)據(jù)集中,答案檢索的性能提高了29.36%。
文檔編號(hào)G06F17/30GK103235833SQ20131018014
公開日2013年8月7日 申請(qǐng)日期2013年5月15日 優(yōu)先權(quán)日2013年5月15日
發(fā)明者周光有, 趙軍 申請(qǐng)人:中國科學(xué)院自動(dòng)化研究所
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1