專利名稱:激勵(lì)描述集合的制作方法
技術(shù)領(lǐng)域:
本文涉及激勵(lì)描述集合。
背景技術(shù):
構(gòu)建有用的機(jī)器翻譯系統(tǒng)需要大量數(shù)據(jù)。具體而言,數(shù)據(jù)不可能僅僅是一種語言的單詞翻譯成另一種語言的那些單詞,而是需要包括短語和句子以使得慮及多個(gè)單詞的上下文。雖然存在一些經(jīng)翻譯數(shù)據(jù)的源可用,諸如翻譯成不同語言的相同的網(wǎng)頁內(nèi)容,以及政府文件(例如,歐洲歐共體將文件轉(zhuǎn)換成多種語言),但是使用這些源存在缺陷。雖然大量并行文本以數(shù)字形式(web數(shù)據(jù)、掃描的書籍等等)存在,但是這樣數(shù)據(jù)的本質(zhì)是以各種方式偏斜的。例如,某些領(lǐng)域(例如,政府、科學(xué))傾向于被極好地表示,而其他(例如,娛樂、體育)不是足夠的。甚至更重要的是,特定語言對(duì)的偏斜;例如,雖然存在相當(dāng)量的數(shù)字形式的英語-西班牙語數(shù)據(jù)可用,存在極少的匈牙利語-西班牙語或越南語-西班牙語。當(dāng)考慮并行語音數(shù)據(jù)時(shí),問題甚至更大。存在相對(duì)少的口頭并行語音數(shù)據(jù), 并且由于語音抄錄的費(fèi)力的特性,收集其會(huì)是極度昂貴的。已作出嘗試來使用雙語說話者翻譯并將句子和短語從一種語言翻譯成另一種語言。然而,采用此類雙語說話者通常是高成本的,并且由此實(shí)際上僅以此種方式來收集有限量的數(shù)據(jù)。從公眾內(nèi)的雙語說話者聚集翻譯數(shù)據(jù)(“群眾外包(crowd-sourcing)”)在原理上可幫助收集大量并行數(shù)據(jù),但是這種辦法也是有問題的。舉例來說,翻譯質(zhì)量在說話者與說話者之間有極大的不同,并且激勵(lì)高技術(shù)水平的雙語貢獻(xiàn)者會(huì)是困難的。如果針對(duì)貢獻(xiàn)數(shù)據(jù)向翻譯者提供相當(dāng)量的財(cái)務(wù)獎(jiǎng)勵(lì),則欺騙會(huì)成為一個(gè)問題,例如,不道德的程序員會(huì)編寫自動(dòng)“蠅蛆(bot) ”,該蠅蛆簡(jiǎn)單地調(diào)用現(xiàn)有機(jī)器翻譯引擎來提供翻譯。釋義數(shù)據(jù)指的是不同的句子和短語,其意味著事物給定語言中大致相同。這通常類似于翻譯數(shù)據(jù),除了僅單語注釋者需要產(chǎn)生釋義數(shù)據(jù)之外。然而,收集釋義數(shù)據(jù)具有其自身的問題,包括將源句子或短語釋義成目標(biāo)數(shù)據(jù)的注釋者對(duì)于源句子/短語有偏差。例如, 許多人傾向于用不同的目標(biāo)名詞替代每個(gè)源名詞和/或每個(gè)源動(dòng)詞對(duì)應(yīng)于不同的目標(biāo)動(dòng)詞,類似于使用辭典。其他人發(fā)現(xiàn)一般難以構(gòu)造釋義,例如,就他們是否被假定為重新排序單詞、替代單詞和/或?qū)υ谋具M(jìn)行其他操作來提供目標(biāo)文本感到迷惑。至于翻譯數(shù)據(jù),極少的釋義數(shù)據(jù)就口語而言甚至更極端。實(shí)際上沒有可被用來訓(xùn)練以理解口頭單語發(fā)言為目的的模型的口頭釋義數(shù)據(jù)??傊?,用于收集翻譯或釋義數(shù)據(jù)的現(xiàn)有技術(shù)具有不利地影響可收集多少數(shù)據(jù)以及數(shù)據(jù)的質(zhì)量的大量缺點(diǎn)。然而,期望具有用于構(gòu)建基于機(jī)器的系統(tǒng)的大量良好質(zhì)量的翻譯和/或釋義數(shù)據(jù)。
發(fā)明內(nèi)容
提供本發(fā)明內(nèi)容以便以簡(jiǎn)化形式介紹將在以下的詳細(xì)描述中進(jìn)一步描述的一些代表性概念。本發(fā)明內(nèi)容不旨在標(biāo)識(shí)出所要求保護(hù)的主題的關(guān)鍵特征或必要特征,也不旨
4在以限制所要求保護(hù)的主題的范圍的任何方式來使用。簡(jiǎn)言之,本文中描述的主題的各個(gè)方面涉及用來通過向貢獻(xiàn)者顯示激勵(lì)——諸如向(例如,群眾外包服務(wù)的)的觀看者顯示視頻剪輯——來收集翻譯和釋義數(shù)據(jù),這些觀看者用以他們選擇的語言的此激勵(lì)的語言(文本和/或語音)描述來作響應(yīng)。數(shù)據(jù)貢獻(xiàn)者可以是完全單語的,并且每一塊所收集的數(shù)據(jù)是相同激勵(lì)的描述且由此彼此各塊相關(guān)聯(lián)。所收集的數(shù)據(jù)包括將各種語言的描述彼此進(jìn)行相關(guān)的翻譯數(shù)據(jù),以及將相同語言的描述就該語言彼此進(jìn)行相關(guān)的釋義數(shù)據(jù)。盡管這些描述在語言意義上并非恰好“并行”的,但是它們?cè)诟橄蟮恼Z義意義上是并行的,因?yàn)樗鼈円砸环N或多種語言描述相同的場(chǎng)景和動(dòng)作。翻譯數(shù)據(jù)中與不同語言相對(duì)應(yīng)的經(jīng)配對(duì)的描述可被用作被提供來訓(xùn)練機(jī)器翻譯系統(tǒng)的翻譯訓(xùn)練數(shù)據(jù)的基礎(chǔ)。釋義數(shù)據(jù)中的描述可被用作被提供給機(jī)器釋義系統(tǒng)的釋義訓(xùn)練數(shù)據(jù)的基礎(chǔ)。在一個(gè)方面,提供了用于評(píng)估機(jī)器釋義系統(tǒng)的質(zhì)量的機(jī)制。這包括用于就原始句子或短語測(cè)量機(jī)器生成的釋義的句子或短語的差異性的度量。另一度量可測(cè)量機(jī)器生成的釋義的句子或短語有多好地保持原始句子或短語的含義,并且這些度量可被組合以確定機(jī)器輸出的質(zhì)量。結(jié)合附圖閱讀以下詳細(xì)描述,本發(fā)明的其他優(yōu)點(diǎn)會(huì)變得顯而易見。
作為示例而非限制,在附圖中示出了本發(fā)明,附圖中相同的附圖標(biāo)記指示相同或相似的元素,附圖中圖1是表示用于從各個(gè)貢獻(xiàn)描述者收集包括視頻剪輯之類的相同激勵(lì)的描述以便作為翻譯數(shù)據(jù)和釋義數(shù)據(jù)來維護(hù)的示例組件的框圖。圖2是使用所搜集的翻譯數(shù)據(jù)來訓(xùn)練機(jī)器翻譯系統(tǒng)的表示。圖3是使用所收集的釋義數(shù)據(jù)來訓(xùn)練機(jī)器釋義系統(tǒng)以及用于評(píng)估機(jī)器釋義系統(tǒng)的質(zhì)量的機(jī)制的表示。圖4示出了可以將本發(fā)明的各個(gè)方面集成到其中的計(jì)算環(huán)境的說明性示例。
具體實(shí)施例方式本文中描述的技術(shù)的各個(gè)方面一般涉及在沒有雙語說話者的情況下收集翻譯數(shù)據(jù)以及在不向注釋者呈現(xiàn)源句子或短語來釋義的情況下收集自然釋義數(shù)據(jù)。為此,向大量貢獻(xiàn)者示出所選激勵(lì)(例如,視頻剪輯、靜止圖像或另一激勵(lì)),其一般旨在從貢獻(xiàn)者當(dāng)中引導(dǎo)出通用的響應(yīng)。貢獻(xiàn)者被要求以他們選擇的語言描述激勵(lì),例如,視頻中發(fā)生的主要?jiǎng)幼骰蚴录?,并且針?duì)每個(gè)激勵(lì)保存描述(文本和/或語音)。此組貢獻(xiàn)者可橫跨寬泛的范圍,諸如來自世界各地的貢獻(xiàn)者。由此,獲得以各種語言描述相同事件/激勵(lì)的翻譯數(shù)據(jù), 以及以相同語言描述相同事件/激勵(lì)的釋義數(shù)據(jù)。應(yīng)當(dāng)理解,此處的任何示例都是非限制性的。舉例而言,本文中許多示例描述了被顯示給貢獻(xiàn)者的簡(jiǎn)單視頻剪輯的形式的激勵(lì),這些貢獻(xiàn)者是此視頻的觀看者。然而,可采用導(dǎo)致所返回的翻譯和/或釋義數(shù)據(jù)的任何合適的激勵(lì),諸如一個(gè)或多個(gè)靜止照片,音頻(例如,“女聲低唱”、“犬吠”等)、香味、溫度和/或紋理。另一種類型的激勵(lì)包括由程序執(zhí)行的動(dòng)作,諸如讓貢獻(xiàn)者講述一些程序性行為,例如,在用于編輯照片的應(yīng)用程序中使某人的眼睛變得更大,并在隨后使用此數(shù)據(jù)來生成命令和控制界面;程序開發(fā)者可講述代碼片斷以學(xué)習(xí)代碼/意圖映射。如此,本發(fā)明不限于此處所描述的任何特定實(shí)施例、方面、概念、結(jié)構(gòu)、功能或示例。相反,此處所描述的實(shí)施例、方面、概念、結(jié)構(gòu)、功能或示例中的任一個(gè)都是非限制性的,并且本發(fā)明一般能夠以在計(jì)算方面提供好處和優(yōu)點(diǎn)的各種方式來使用。圖1是表示數(shù)據(jù)收集過程的各個(gè)方面的框圖。在此示例中為視頻剪輯102(諸如來自在線流送視頻源)的激勵(lì)被出示給使用各種語言的多個(gè)貢獻(xiàn)者(“描述者”)KM1-KMntl 包括向視頻游戲玩家進(jìn)行支付或諸如點(diǎn)數(shù)之類的其他補(bǔ)償?shù)娜罕娡獍谴祟惷枋稣咧械囊粋€(gè)源,然而也可構(gòu)想其他征募方法。例如,Microsoft Office Communicator的使用者和/或)(b0X Live⑧玩家可以是群眾外包貢獻(xiàn)者,其在收集數(shù)據(jù)時(shí)提供幫助,包括但不一定需要補(bǔ)償。每個(gè)描述者KM1-KMn輸出描述IOei-IOen,其包括關(guān)于什么視頻剪輯102被傳達(dá)給此描述者的文本和/或語音。每個(gè)描述者KM1-KMn以他或她選擇的語言提供描述 Ioe1-Ioen,描述者可指定該語言,或者該語言可被自動(dòng)檢測(cè)到。如圖1中例示的,數(shù)據(jù)收集機(jī)制108按各種語言對(duì)描述進(jìn)行分類,并按不同語言的描述者的語言以及按相同語言的不同描述者將不同的描述彼此對(duì)齊。結(jié)果是翻譯數(shù)據(jù)110 和釋義數(shù)據(jù)112。為此,如果相同視頻(或其他激勵(lì))的描述是不同語言的,則將它們作為彼此的近似翻譯來對(duì)待,而如果它們是相同語言的,則將它們作為彼此的近似釋義來對(duì)待。注意,處于簡(jiǎn)便起見,圖1僅示出了翻譯數(shù)據(jù)110中英語至其他語言的翻譯數(shù)據(jù), 然而,應(yīng)當(dāng)理解,可按這種方式提供任何可用的語言數(shù)據(jù)配對(duì),例如,中文至瑪雅語。類似地,僅在釋義數(shù)據(jù)112中示出英語-英語釋義數(shù)據(jù),然而,對(duì)于其有一種以上的描述的任何語言可具有為該語言生成的釋義數(shù)據(jù),例如,可以有相同激勵(lì)的多個(gè)德語描述,在此情形中,德語-德語釋義數(shù)據(jù)也可用。作為極小示例的示例,考慮向一組描述者顯示男人吃意大利面的簡(jiǎn)短視頻剪輯。 可對(duì)相同視頻剪輯收集以下英語描述,這些描述中的每一個(gè)都是彼此的釋義(允許存在相同的“釋義”)
權(quán)利要求
1.一種在計(jì)算環(huán)境中、至少部分地在至少一個(gè)處理器上執(zhí)行的方法,包括向貢獻(xiàn)者 (I(M1-KMn)呈現(xiàn)激勵(lì)(102),從每個(gè)響應(yīng)的貢獻(xiàn)者收集關(guān)于什么激勵(lì)被呈現(xiàn)給所述貢獻(xiàn)者的語言描述(Ioe1-Ioen),以及彼此關(guān)聯(lián)地維護(hù)與此激勵(lì)相對(duì)應(yīng)的所述語言學(xué)描述中的至少一些來作為用于訓(xùn)練翻譯引擎的翻譯數(shù)據(jù)(110),或者作為用于訓(xùn)練釋義系統(tǒng)的釋義數(shù)據(jù) (112),或者兩者都作為用于訓(xùn)練翻譯引擎的翻譯數(shù)據(jù)以及作為用于訓(xùn)練釋義系統(tǒng)的釋義數(shù)據(jù)。
2.如權(quán)利要求1所述的方法,其特征在于,彼此關(guān)聯(lián)地維護(hù)所述語言描述包括將一種語言的所述語言描述中的至少一個(gè)與另一種語言的所述語言描述中的至少一個(gè)進(jìn)行配對(duì), 或者彼此關(guān)聯(lián)地維護(hù)所述語言描述包括維護(hù)包括一種語言的描述的釋義數(shù)據(jù),或者兩者, 即維護(hù)彼此關(guān)聯(lián)的所述語言描述包括將一種語言的所述語言描述中的至少一個(gè)與另一種語言的所述語言描述中的至少一個(gè)進(jìn)行配對(duì),并且彼此關(guān)聯(lián)地維護(hù)所述語言描述包括維護(hù)包括一種語言的描述的釋義數(shù)據(jù)。
3.如權(quán)利要求1所述的方法,其特征在于,還包括使用所述釋義數(shù)據(jù)來提供用于訓(xùn)練機(jī)器釋義系統(tǒng)的訓(xùn)練數(shù)據(jù),通過測(cè)量原始句子或短語與機(jī)器生成的釋義的句子或短語的差異性來評(píng)估所述機(jī)器釋義系統(tǒng)的質(zhì)量,包括應(yīng)用用來測(cè)量所述機(jī)器生成的釋義的句子或短語有多好地保持原始句子或短語的含義的度量。
4.如權(quán)利要求1所述的方法,其特征在于,還包括將所述描述預(yù)處理成用于訓(xùn)練機(jī)器翻譯系統(tǒng)或機(jī)器釋義系統(tǒng)的訓(xùn)練數(shù)據(jù),或者兩者,即用于訓(xùn)練機(jī)器翻譯系統(tǒng)和用于訓(xùn)練機(jī)器釋義系統(tǒng)的訓(xùn)練數(shù)據(jù)。
5.—個(gè)或多個(gè)具有計(jì)算機(jī)可執(zhí)行指令的計(jì)算機(jī)可讀介質(zhì),所述計(jì)算機(jī)可執(zhí)行指令在被執(zhí)行時(shí)執(zhí)行過程的步驟,包括向機(jī)器釋義系統(tǒng)(320)輸入與一組單詞相對(duì)應(yīng)的輸入數(shù)據(jù)(331);從所述機(jī)器釋義系統(tǒng)接收與所述輸入數(shù)據(jù)的釋義相對(duì)應(yīng)的輸出數(shù)據(jù)(333);以及評(píng)估所述機(jī)器釋義系統(tǒng)的質(zhì)量(335),包括獲得表示所述輸出數(shù)據(jù)有多好地保持所述輸入數(shù)據(jù)的原始含義的第一分?jǐn)?shù),以及表示所述輸出數(shù)據(jù)與所述輸入數(shù)據(jù)有多不同的第二分?jǐn)?shù)。
6.如權(quán)利要求5所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,獲得所述第二分?jǐn)?shù)包括基于所述輸入數(shù)據(jù)與所述輸出數(shù)據(jù)之間的η元語法差異來計(jì)算相異性分?jǐn)?shù)。
7.如權(quán)利要求5所述的計(jì)算機(jī)可讀介質(zhì),其特征在于,具有進(jìn)一步計(jì)算機(jī)可執(zhí)行指令, 包括基于所述第一和第二分?jǐn)?shù)來選擇釋義,包括選擇基于所述第二分?jǐn)?shù)而與所述輸入數(shù)據(jù)最不相同且使所述輸入數(shù)據(jù)的原始含義保持在由所述第一分?jǐn)?shù)確定的范圍內(nèi)的釋義。
8.一種系統(tǒng)包括,向貢獻(xiàn)者提供激勵(lì)(10 的源,被配置成從每個(gè)貢獻(xiàn)者收集此激勵(lì)的語言描述的數(shù)據(jù)收集機(jī)制(108),所述數(shù)據(jù)收集機(jī)制還被配置成維護(hù)將此激勵(lì)的不同語言的語言描述彼此進(jìn)行關(guān)聯(lián),以及維護(hù)釋義數(shù)據(jù)(112),所述釋義數(shù)據(jù)(112)針對(duì)至少一種語言將此激勵(lì)的用此相同語言的語言描述彼此進(jìn)行關(guān)聯(lián)。
9.如權(quán)利要求8所述的系統(tǒng),其特征在于,還包括被配置成訪問所述翻譯數(shù)據(jù)以訓(xùn)練機(jī)器翻譯器的訓(xùn)練機(jī)制,或者被配置成訪問釋義數(shù)據(jù)以訓(xùn)練機(jī)器釋義系統(tǒng)的訓(xùn)練機(jī)制,或者兩者,即被配置成訪問所述翻譯數(shù)據(jù)以訓(xùn)練機(jī)器翻譯器的訓(xùn)練機(jī)制以及被配置成訪問釋義數(shù)據(jù)以訓(xùn)練機(jī)器釋義系統(tǒng)的訓(xùn)練機(jī)制。
10.如權(quán)利要求9所述的系統(tǒng),其特征在于,還包括被配置成執(zhí)行對(duì)所述機(jī)器釋義系統(tǒng)的質(zhì)量評(píng)估的釋義質(zhì)量測(cè)量機(jī)制,包括經(jīng)由所述釋義質(zhì)量測(cè)量機(jī)制的差異性度量。
全文摘要
本文描述了激勵(lì)描述集合。本公開一般描述了用來通過向(例如,群眾外包服務(wù)的)貢獻(xiàn)者顯示諸如視頻剪輯之類的激勵(lì)來收集文本和/或語音描述的技術(shù)。用每個(gè)貢獻(xiàn)者選擇的語言的描述具有相同激勵(lì),并且由此彼此相關(guān)聯(lián)。雖然每個(gè)貢獻(xiàn)者可以是單語的,但是該技術(shù)允許對(duì)近似雙語數(shù)據(jù)的收集,因?yàn)椴煌暙I(xiàn)者中可表示一種以上的語言。描述可被用作用于訓(xùn)練機(jī)器翻譯引擎的翻譯數(shù)據(jù),以及用于訓(xùn)練機(jī)器釋義系統(tǒng)的釋義數(shù)據(jù)(按相同語言進(jìn)行編組)。還描述了經(jīng)由差異性度量來評(píng)估機(jī)器釋義系統(tǒng)的質(zhì)量。
文檔編號(hào)G06F17/28GK102567311SQ20111035846
公開日2012年7月11日 申請(qǐng)日期2011年10月31日 優(yōu)先權(quán)日2010年11月1日
發(fā)明者D·L·陳, W·B·多蘭 申請(qǐng)人:微軟公司