本發(fā)明涉及計算機技術(shù)領(lǐng)域,尤其涉及一種基于人工智能的語言轉(zhuǎn)換處理方法、裝置及終端。
背景技術(shù):
人工智能(artificialintelligence,簡稱ai),是研究、開發(fā)用于模擬、延伸和擴(kuò)展人的智能的理論、方法、技術(shù)及應(yīng)用系統(tǒng)的一門新的技術(shù)科學(xué)。人工智能是計算機科學(xué)的一個分支,它企圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應(yīng)的智能機器,該領(lǐng)域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。
通常,用戶在進(jìn)行外語寫作時,會遇到整句中的大部分知道如何翻譯,但個別詞語不知如何翻譯的困擾。例如,用戶想要用英文表達(dá)“本文提出了一種將統(tǒng)計機器翻譯和神經(jīng)網(wǎng)絡(luò)機器翻譯相結(jié)合的新方法”時,知道該句子基本寫法為“thispaperproposesanovelmethodthat結(jié)合statisticalmachinetranslationandneuralmachinetranslation”,但是,不知道“結(jié)合”用哪個英文詞最恰當(dāng)。
現(xiàn)有技術(shù),需要用戶利用詞典,查詢整個待翻譯語句中的個別詞語;或者,使用機器翻譯工具,對整個待翻譯語句進(jìn)行翻譯。然而,通過個別詞語翻譯的方式,得到的翻譯結(jié)果可能為多個不同的結(jié)果,需要用戶從多個翻譯結(jié)果中,分析辨識出最符合上下文語境的目標(biāo)詞語;通過整句翻譯的方式,得到的翻譯結(jié)果可能存在語序或句式不正確等問題,需要用戶通過分析確定最終結(jié)果。因此,現(xiàn)有的語言轉(zhuǎn)換處理方法,用戶操作復(fù)雜,效率低,無法直接為用戶提供準(zhǔn)確的轉(zhuǎn)換結(jié)果,并不能滿足用戶的需求,用戶體驗差。
技術(shù)實現(xiàn)要素:
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本發(fā)明的第一個目的在于提出一種基于人工智能的語言轉(zhuǎn)換處理方法,該方法實現(xiàn)了將包括源語言詞語及目標(biāo)語言詞語的待轉(zhuǎn)換的語句,轉(zhuǎn)換為目標(biāo)語言類型的語句,減少了用戶操作,提高了轉(zhuǎn)換效率及轉(zhuǎn)換結(jié)果的準(zhǔn)確性,可以更好的滿足用戶需求,改善用戶體驗。
本發(fā)明的第二個目的在于提出一種基于人工智能的語言轉(zhuǎn)換處理裝置。
本發(fā)明的第三個目的在于提出一種終端。
本發(fā)明的第四個目的在于提出一種計算機可讀存儲介質(zhì)。
本發(fā)明的第五個目的在于提出一種計算機程序產(chǎn)品。
為達(dá)上述目的,本發(fā)明第一方面實施例提出了一種基于人工智能的語言轉(zhuǎn)換處理方法,包括:接收語言轉(zhuǎn)換請求,所述請求中包括待轉(zhuǎn)換的語句,且所述待轉(zhuǎn)換的語句中包括源語言詞語及目標(biāo)語言詞語;根據(jù)預(yù)設(shè)的規(guī)則,確定與所述源語言詞語對應(yīng)的各候選詞語;確定所述各候選詞語,分別在所述待轉(zhuǎn)換的語句中對應(yīng)的各分值;根據(jù)所述各候選詞語分別對應(yīng)的各分值,確定與所述源語言詞語對應(yīng)的目標(biāo)詞語。
本發(fā)明實施例的基于人工智能的語言轉(zhuǎn)換處理方法,首先根據(jù)接收到的語言轉(zhuǎn)換請求,然后根據(jù)預(yù)設(shè)的規(guī)則,確定與源語言詞語對應(yīng)的各候選詞語,再確定各候選詞語分別在待轉(zhuǎn)換的語句中對應(yīng)的各分值,最后根據(jù)各候選詞語分別對應(yīng)的各分值,確定與源語言詞語對應(yīng)的目標(biāo)詞語。由此,通過利用對齊模型及語言模型,實現(xiàn)了將包括源語言詞語及目標(biāo)語言詞語的待轉(zhuǎn)換的語句,轉(zhuǎn)換為目標(biāo)語言類型的語句,減少了用戶操作,提高了轉(zhuǎn)換效率及轉(zhuǎn)換結(jié)果的準(zhǔn)確性,可以更好的滿足用戶需求,改善用戶體驗。
為達(dá)上述目的,本發(fā)明第二方面實施例提出了一種基于人工智能的語言轉(zhuǎn)換處理裝置,包括:接收模塊,用于接收語言轉(zhuǎn)換請求,所述請求中包括待轉(zhuǎn)換的語句,且所述待轉(zhuǎn)換的語句中包括源語言詞語及目標(biāo)語言詞語;第一確定模塊,用于根據(jù)預(yù)設(shè)的規(guī)則,確定與所述源語言詞語對應(yīng)的各候選詞語;第二確定模塊,用于確定所述各候選詞語,分別在所述待轉(zhuǎn)換的語句中對應(yīng)的各分值;第三確定模塊,用于根據(jù)所述各候選詞語分別對應(yīng)的各分值,確定與所述源語言詞語對應(yīng)的目標(biāo)詞語。
本發(fā)明實施例的基于人工智能的語言轉(zhuǎn)換處理裝置,首先根據(jù)接收到的語言轉(zhuǎn)換請求,然后根據(jù)預(yù)設(shè)的規(guī)則,確定與源語言詞語對應(yīng)的各候選詞語,再確定各候選詞語分別在待轉(zhuǎn)換的語句中對應(yīng)的各分值,最后根據(jù)各候選詞語分別對應(yīng)的各分值,確定與源語言詞語對應(yīng)的目標(biāo)詞語。由此,通過利用對齊模型及語言模型,實現(xiàn)了將包括源語言詞語及目標(biāo)語言詞語的待轉(zhuǎn)換的語句,轉(zhuǎn)換為目標(biāo)語言類型的語句,減少了用戶操作,提高了轉(zhuǎn)換效率及轉(zhuǎn)換結(jié)果的準(zhǔn)確性,可以更好的滿足用戶需求,改善用戶體驗。
為達(dá)上述目的,本發(fā)明第三方面實施例提出了一種終端,包括:
存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,當(dāng)所述處理器執(zhí)行所述程序時實現(xiàn)如第一方面所述的基于人工智能的語言轉(zhuǎn)換處理方法。
為達(dá)上述目的,本發(fā)明第四方面實施例提出了一種計算機可讀存儲介質(zhì),當(dāng)所述存儲介質(zhì)中的指令由移動終端的處理器被執(zhí)行時,使得移動終端能夠執(zhí)如第一方面所述的基于人工智能的語言轉(zhuǎn)換處理方法。
為達(dá)上述目的,本發(fā)明第五方面實施例提出了一種計算機程序產(chǎn)品,當(dāng)所述計算機程序產(chǎn)品中的指令處理器執(zhí)行時,執(zhí)行如第一方面所述的基于人工智能的語言轉(zhuǎn)換處理方法。
附圖說明
本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中:
圖1是本發(fā)明一個實施例的基于人工智能的語言轉(zhuǎn)換處理方法的流程圖;
圖2是本發(fā)明一個實施例的確定各候選詞語,分別在待轉(zhuǎn)換的語句中對應(yīng)的各分值的方法的流程圖;
圖3是本發(fā)明cbow模型的結(jié)構(gòu)示意圖;
圖4是本發(fā)明一個實施例的基于人工智能的語言轉(zhuǎn)換處理裝置的結(jié)構(gòu)示意圖;
圖5是本發(fā)明另一個實施例的基于人工智能的語言轉(zhuǎn)換處理裝置的結(jié)構(gòu)示意圖。
具體實施方式
下面詳細(xì)描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
可以理解的是,用戶在進(jìn)行外語寫作時,可能會遇到的整句中的大部分知道如何翻譯,但個別詞語不知如何翻譯的困擾?,F(xiàn)有技術(shù),需要用戶利用詞典查詢整個待翻譯語句中的個別詞語,或者使用機器翻譯工具,對整個待翻譯語句進(jìn)行翻譯,用戶操作復(fù)雜,效率低,無法直接為用戶提供準(zhǔn)確的轉(zhuǎn)換結(jié)果,得到的翻譯結(jié)果不能滿足用戶需求,用戶體驗差。
具體的,本發(fā)明各實施例針對上述問題,提出一種基于人工智能的語言轉(zhuǎn)換處理方法。本發(fā)明實施例提供的基于人工智能的語言轉(zhuǎn)換處理方法,首先根據(jù)接收到的語言轉(zhuǎn)換請求,確定與源語言詞語對應(yīng)的各候選詞語,然后確定各候選詞語分別在待轉(zhuǎn)換的語句中對應(yīng)的各分值,再根據(jù)各候選詞語分別對應(yīng)的各分值,確定與源語言詞語對應(yīng)的目標(biāo)詞語。實現(xiàn)了將包括源語言詞語及目標(biāo)語言詞語的待轉(zhuǎn)換的語句,轉(zhuǎn)換為目標(biāo)語言類型的語句,減少了用戶操作,提高了轉(zhuǎn)換效率及轉(zhuǎn)換結(jié)果的準(zhǔn)確性,可以更好的滿足用戶需求,改善用戶體驗。
下面參考附圖描述本發(fā)明實施例的基于人工智能的語言轉(zhuǎn)換處理方法、裝置及終端。
圖1是本發(fā)明一個實施例的基于人工智能的語言轉(zhuǎn)換處理方法的流程圖。
如圖1所示,該基于人工智能的語言轉(zhuǎn)換處理方法包括:
步驟101,接收語言轉(zhuǎn)換請求,請求中包括待轉(zhuǎn)換的語句,且待轉(zhuǎn)換的語句中包括源語言詞語及目標(biāo)語言詞語。
其中,本發(fā)明實施例提供的基于人工智能的語言轉(zhuǎn)換處理方法的執(zhí)行主體為本發(fā)明實施例提供的基于人工智能的語言轉(zhuǎn)換處理裝置,該裝置可以被配置在任何終端中,以提高語言轉(zhuǎn)換的質(zhì)量,改善語言轉(zhuǎn)換效果。
具體實現(xiàn)時,可以在基于人工智能的語言轉(zhuǎn)換處理裝置中,設(shè)置用戶輸入界面,從而用戶在進(jìn)行外語寫作時,若遇到整句中的大部分知道如何翻譯,但個別詞語不知如何翻譯的困擾,可以在基于人工智能的語言轉(zhuǎn)換處理裝置的用戶輸入界面中,輸入待轉(zhuǎn)換的語句。其中,用戶輸入的待轉(zhuǎn)換的語句中包括源語言詞語及目標(biāo)語言詞語。即,用戶可以將自己翻譯的大部分結(jié)果與個別不知如何翻譯的詞語同時輸入到用戶輸入界面。
其中,源語言詞語指待轉(zhuǎn)換的源語言類型的詞語。
目標(biāo)語言詞語指用戶翻譯成的目標(biāo)語言類型的詞語。
例如,用戶想要將中文形式的“本文提出了一種將統(tǒng)計機器翻譯和神經(jīng)網(wǎng)絡(luò)機器翻譯相結(jié)合的新方法”用英文進(jìn)行表達(dá)時,知道該句子基本寫法為“thispaperproposesanovelmethodthat結(jié)合statisticalmachinetranslationandneuralmachinetranslation”,但是,不知道“結(jié)合”用哪個英文詞語最恰當(dāng)。則用戶可以將待轉(zhuǎn)換的語句“thispaperproposesanovelmethodthat結(jié)合statisticalmachinetranslationandneuralmachinetranslation”輸入到基于人工智能的語言轉(zhuǎn)換處理裝置的用戶輸入界面。其中,“結(jié)合”即為待轉(zhuǎn)換的語句中的源語言詞語,其它英文詞即為待轉(zhuǎn)換的語句中的目標(biāo)語言詞語。
具體實現(xiàn)時,為了保證語言轉(zhuǎn)換的速度及質(zhì)量,待轉(zhuǎn)換的語句中包括的源語言詞語不能過多。因此,在本發(fā)明實施例中,待轉(zhuǎn)換的語句中,源語言詞語與目標(biāo)語言詞語應(yīng)具有一定的比例,且該比例小于第一閾值。
其中,第一閾值,可以根據(jù)需要進(jìn)行確定。比如,為了保證語言轉(zhuǎn)換的速度及質(zhì)量,第一閾值可以設(shè)置為較小的數(shù),如40%。即,待轉(zhuǎn)換的語句中包括14個詞語時,源語言詞語的數(shù)量應(yīng)小于4個。
另外,用戶在基于人工智能的語言轉(zhuǎn)換處理裝置的用于界面中,輸入待轉(zhuǎn)換的語句時,可以設(shè)置源語言類型與目標(biāo)語言類型,從而使基于人工智能的語言轉(zhuǎn)換處理裝置接收到語言轉(zhuǎn)換請求后,可以將待轉(zhuǎn)換的語句中,與源語言類型和目標(biāo)語言類型分別對應(yīng)的詞語,確定為源語言詞語和目標(biāo)語言詞語。
或者,基于人工智能的語言轉(zhuǎn)換處理裝置接收到語言轉(zhuǎn)換請求后,也可以根據(jù)語言轉(zhuǎn)換請求中,待轉(zhuǎn)換的語句包括的各類型語言的詞語數(shù)量,確定源語言詞語及目標(biāo)語言詞語。
由于通常情況下,為了保證語言轉(zhuǎn)換的速度及質(zhì)量,待轉(zhuǎn)換的語句中,源語言詞語的數(shù)量小于目標(biāo)語言詞語的數(shù)量。因此,在本發(fā)明實施例中,可以將待轉(zhuǎn)換的語句中,詞語數(shù)量較少的語言類型對應(yīng)的詞語確定為源語言詞語,將詞語數(shù)量較多的語言類型對應(yīng)的詞語確定為目標(biāo)語言詞語。
舉例來說,假設(shè)語言轉(zhuǎn)換請求中,待轉(zhuǎn)換的語句為“thispaperproposesanovelmethodthat結(jié)合statisticalmachinetranslationandneuralmachinetranslation”。由于中文類型的詞語數(shù)量為1,英文類型的詞語數(shù)量為14,中文類型的詞語數(shù)量小于英文類型的詞語數(shù)量,則根據(jù)中文類型及英文類型的詞語數(shù)量,可以確定源語言詞語為中文類型的詞語,目標(biāo)語言詞語為英文類型的詞語。
步驟102,根據(jù)預(yù)設(shè)的規(guī)則,確定與源語言詞語對應(yīng)的各候選詞語。
具體的,可以根據(jù)以下多種方法,確定與源語言詞語對應(yīng)的各候選詞語。
方法一
根據(jù)預(yù)設(shè)的語言對齊模型,確定與源語言詞語對應(yīng)的各候選詞語。
其中,語言對齊模型,可以是統(tǒng)計詞對齊模型或其它對齊模型。
具體實現(xiàn)時,可以先訓(xùn)練生成語言對齊模型,再根據(jù)訓(xùn)練生成的語言對齊模型,確定與源語言詞語對應(yīng)的各候選詞語。即,根據(jù)預(yù)設(shè)的語言對齊模型,確定與源語言詞語對應(yīng)的各候選詞語之前,還可以包括:
獲取源語言類型詞語與目標(biāo)語言類型詞語,在通用領(lǐng)域中的平行語料;
對平行語料進(jìn)行訓(xùn)練,確定與源語言詞語對應(yīng)的對齊模型。
其中,通用領(lǐng)域,指包括學(xué)術(shù)論文、辦公文件、郵件及各種學(xué)科在內(nèi)的所有領(lǐng)域。
平行語料,包括兩種互譯語言類型的文本,且可以在多個層面上體現(xiàn)兩種互譯語言類型的對照信息,如詞、短語、句子等等。
另外,平行語料中,源語言類型詞語與目標(biāo)語言類型詞語可以是一對一、多對一、一對多、多對多的關(guān)系。
例如,假設(shè)源語言類型為中文類型,目標(biāo)語言類型為英文類型,則平行語料中,可以包括“結(jié)合”及對應(yīng)的“combine”、“combines”、“bindto”、“integrates”、“integrate”;“學(xué)習(xí)”及對應(yīng)的“l(fā)earning”、“l(fā)earn”、“study”、“betaught”、“betrained”、“cram”、“prep”、“revise”、“gainknowledge”;“學(xué)習(xí)”、“學(xué)”、“學(xué)會”、“得知”、“記住”、“知悉”、“讀”、“讀書”、“樹立”、“探析”及對應(yīng)的“l(fā)earn”,等等。
具體實現(xiàn)時,可以根據(jù)源語言詞語與目標(biāo)語言詞語的語言類型,獲取大量的源語言類型詞語與目標(biāo)語言類型詞語,在通用領(lǐng)域中的平行語料,并對平行語料進(jìn)行訓(xùn)練,生成語言對齊模型。從而在接收到語言轉(zhuǎn)換請求后,可以根據(jù)語言轉(zhuǎn)換請求中,待轉(zhuǎn)換的語句中包括的源語言詞語,利用短語抽取方法,確定與源語言詞語對應(yīng)的對齊模型。
確定了與源語言詞語對應(yīng)的對齊模型后,基于人工智能的語言轉(zhuǎn)換處理裝置即可根據(jù)該對齊模型,確定與源語言詞語的對齊概率大于第二閾值的詞語為候選詞語。
其中,對齊概率,指源語言詞語翻譯成對應(yīng)的目標(biāo)語言類型詞語的概率值。
可以理解的是,根據(jù)與源語言詞語對應(yīng)的對齊模型,可以獲取與源語言詞語對應(yīng)的多個目標(biāo)語言類型詞語,及各個目標(biāo)語言類型詞語分別與源語言詞語的對齊概率,根據(jù)各對齊概率,即可將與源語言詞語的對齊概率大于第二閾值的詞語為候選詞語。
例如,假設(shè)源語言類型為中文類型,目標(biāo)語言類型為英文類型,源語言詞語為“結(jié)合”,第二閾值為0.1。若根據(jù)與源語言詞語對應(yīng)的對齊模型,確定與源語言詞語“結(jié)合”對應(yīng)的多個目標(biāo)語言類型詞語為“combine”、“combines”、“bindto”、“integrates”、“integrate”,各個目標(biāo)語言類型詞語與源語言詞語的對齊概率分別為p1=0.2、p2=0.3、p3=0.05、p4=0.4、p5=0.05。由于p1、p2、p4大于0.1,即可將對齊概率p1、p2、p4分別對應(yīng)的目標(biāo)語言類型詞語“combine”、“combines”及“integrates”作為候選詞語。
需要說明的是,第二閾值,可以根據(jù)需要確定。比如,根據(jù)與源語言詞語對應(yīng)的對齊模型,確定的源語言詞語在通用領(lǐng)域的平行語料中的對齊結(jié)果,可能在特定領(lǐng)域的覆蓋不那么好,即,特定領(lǐng)域上所需的候選詞語出現(xiàn)的概率不高。則第二閾值,可以設(shè)置為較小的值,以避免與源語言詞語對應(yīng)的出現(xiàn)概率不高的候選詞語被直接過濾掉。
舉例來說,假設(shè)根據(jù)與源語言詞語對應(yīng)的對齊模型,確定的各個目標(biāo)語言類型詞語與源語言詞語的對齊概率分別為p1=0.05、p2=0.41、p3=0.39、p4=0.05、p5=0.07、p6=0.03,且p1、p4、p5及p6對應(yīng)的目標(biāo)語言類型詞語都為a領(lǐng)域的詞語,p2和p3對應(yīng)的目標(biāo)語言類型詞語為b領(lǐng)域的詞語。由于a領(lǐng)域中的各候選詞語出現(xiàn)的概率都較低,因此可以將第二閾值設(shè)置為較小的值,如0.01,從而避免a領(lǐng)域上的目標(biāo)語言類型詞語被直接過濾掉。
方法二
根據(jù)語言模型,確定與源語言詞語對應(yīng)的各候選詞語。
其中,語言模型,可以是n-gram模型、最大熵模型、最大熵馬爾科夫模型、神經(jīng)網(wǎng)絡(luò)模型,等等。
可以理解的是,利用語言模型,可以確定哪個詞語在句子中出現(xiàn)的可能性更大。因此,在本申請實施例中,可以先確定源語言詞語在目標(biāo)領(lǐng)域中對應(yīng)的各目標(biāo)語言類型詞語,再根據(jù)各目標(biāo)語言類型詞語,在目標(biāo)領(lǐng)域中的語言模型,確定上述各目標(biāo)語言類型詞語,在待轉(zhuǎn)換的語句中出現(xiàn)的可能性高低,從而將出現(xiàn)的可能性較高的各目標(biāo)語言類型詞語,確定為與源語言詞語對應(yīng)的候選詞語。
相應(yīng)的,在本發(fā)明實施例中,根據(jù)語言模型,確定與源語言詞語對應(yīng)的各候選詞語之前,還可以包括:
對待轉(zhuǎn)換的語句中的目標(biāo)語言詞語進(jìn)行解析,確定待轉(zhuǎn)換的語句所屬的目標(biāo)領(lǐng)域。
從而可以確定源語言詞語在目標(biāo)領(lǐng)域中對應(yīng)的各目標(biāo)語言類型詞語,并根據(jù)目標(biāo)領(lǐng)域,從預(yù)先基于各個領(lǐng)域的大規(guī)模單語語料,訓(xùn)練得到的各個領(lǐng)域的語言模型中,選取目標(biāo)領(lǐng)域上的語言模型,進(jìn)而根據(jù)選取的語言模型,確定與源語言詞語對應(yīng)的各候選詞語。
或者,由于給定若干個詞語,利用語言模型,可以預(yù)測下一個最可能出現(xiàn)的詞語。因此,在本申請實施例中,也可以根據(jù)目標(biāo)領(lǐng)域中的語言模型,預(yù)測待轉(zhuǎn)換的語句中,源語言詞語之前的目標(biāo)語言詞語出現(xiàn)后,可能會出現(xiàn)的目標(biāo)語言類型詞語。從而在確定了源語言詞語在目標(biāo)領(lǐng)域中對應(yīng)的各目標(biāo)語言類型詞語后,可以將確定的各目標(biāo)語言類型詞語與預(yù)測可能會出現(xiàn)的各目標(biāo)語言類型詞語進(jìn)行匹配,將匹配程度較高的各目標(biāo)語言類型詞語,確定為候選詞語。
或者,也可以綜合根據(jù)已確定的源語言詞語在目標(biāo)領(lǐng)域中對應(yīng)的各目標(biāo)語言類型詞語,在待轉(zhuǎn)換的語句中出現(xiàn)的可能性高低,及確定的源語言詞語在目標(biāo)領(lǐng)域中對應(yīng)的各目標(biāo)語言類型詞語,與預(yù)測可能會出現(xiàn)的目標(biāo)語言類型詞語的匹配程度,將出現(xiàn)的可能性較高,且匹配程度較高的目標(biāo)語言類型詞語確定為候選詞語。
需要說明的是,在本發(fā)明實施例中,確定與源語言詞語對應(yīng)的各候選詞語時,可以單獨使用方法一和方法二中的任一種方法,也可以結(jié)合兩種方法,共同確定與源語言詞語對應(yīng)的各候選詞語。
可以理解的是,若采用方法一確定與源語言詞語對應(yīng)的各候選詞語,若某個目標(biāo)語言類型詞語與源語言詞語的對齊概率比較小,但該目標(biāo)語言類型詞語為源語言詞語在整個待轉(zhuǎn)換的語句中,最正確的表達(dá)方式,則這種正確的表達(dá)方式有可能會被過濾掉。而使用方法二或結(jié)合兩種方法確定與源語言詞語對應(yīng)的各候選詞語,可以避免上述情況的發(fā)生,保證語言轉(zhuǎn)換的準(zhǔn)確性和可靠性。
步驟103,確定各候選詞語,分別在待轉(zhuǎn)換的語句中對應(yīng)的各分值。
步驟104,根據(jù)各候選詞語分別對應(yīng)的各分值,確定與源語言詞語對應(yīng)的目標(biāo)詞語。
可以理解的是,根據(jù)預(yù)設(shè)的規(guī)則,確定了各候選詞語后,即可確定待轉(zhuǎn)換的語句中,源語言詞語在上下語境下,被翻譯成各候選詞語的分值,并將分值最高的候選詞語,確定為與源語言詞語對應(yīng)的目標(biāo)詞語。進(jìn)而利用目標(biāo)詞語,替換源語言詞語,從而將包括源語言詞語及目標(biāo)語言詞語的待轉(zhuǎn)換的語句,轉(zhuǎn)換為目標(biāo)語言類型的語句。
本發(fā)明實施例的基于人工智能的語言轉(zhuǎn)換處理方法,首先根據(jù)接收到的語言轉(zhuǎn)換請求,然后根據(jù)預(yù)設(shè)的規(guī)則,確定與源語言詞語對應(yīng)的各候選詞語,再確定各候選詞語分別在待轉(zhuǎn)換的語句中對應(yīng)的各分值,最后根據(jù)各候選詞語分別對應(yīng)的各分值,確定與源語言詞語對應(yīng)的目標(biāo)詞語。由此,通過利用對齊模型及語言模型,實現(xiàn)了將包括源語言詞語及目標(biāo)語言詞語的待轉(zhuǎn)換的語句,轉(zhuǎn)換為目標(biāo)語言類型的語句,減少了用戶操作,提高了轉(zhuǎn)換效率及轉(zhuǎn)換結(jié)果的準(zhǔn)確性,可以更好的滿足用戶需求,改善用戶體驗。
通過上述分析可知,可以先確定待轉(zhuǎn)換的語句中,與源語言詞語對應(yīng)的各候選詞語,然后根據(jù)各候選詞語,在待轉(zhuǎn)換的語句中對應(yīng)的各分值,確定目標(biāo)詞語,從而將包括源語言詞語及目標(biāo)語言詞語的待轉(zhuǎn)換的語句,轉(zhuǎn)換為目標(biāo)語言類型的語句。下面結(jié)合圖2,對本申請實施例提供的基于人工智能的語言轉(zhuǎn)換處理方法中,確定各候選詞語,分別在待轉(zhuǎn)換的語句中對應(yīng)的各分值的方法進(jìn)行詳細(xì)說明。
圖2是本發(fā)明一個實施例的確定各候選詞語,分別在待轉(zhuǎn)換的語句中對應(yīng)的各分值的方法的流程圖。
如圖2所示,該方法包括:
步驟201,確定源語言詞語與第一候選詞語的第一對齊概率。
具體實現(xiàn)時,根據(jù)上述實施例中所述的,與源語言詞語對應(yīng)的對齊模型,即可確定源語言詞語與第一候選詞語的第一對齊概率。
步驟202,根據(jù)第一候選詞語在目標(biāo)領(lǐng)域中的第一語言模型,確定第一候選詞語在待轉(zhuǎn)換的語句中的第一分值。
其中,第一語言模型,可以是基于深度學(xué)習(xí)的詞向量表示和語言模型,也可以是基于詞的語言模型,此處不作限制。
本發(fā)明實施例中,可以采用連續(xù)詞袋(continuousbag-of-wordsmodel,簡稱cbow)模型,來確定第一候選詞語在待轉(zhuǎn)換的語句中的第一分值。
需要說明的是,在本發(fā)明實施例中,需要先基于各個領(lǐng)域的大規(guī)模單語語料,訓(xùn)練得到各個領(lǐng)域的語言模型。從而在對待轉(zhuǎn)換的語句中的目標(biāo)語言詞語進(jìn)行解析,確定待轉(zhuǎn)換的語句所屬的目標(biāo)領(lǐng)域后,即可從訓(xùn)練生成的各個領(lǐng)域的語言模型中,選取第一候選詞語在目標(biāo)領(lǐng)域中的第一語言模型,進(jìn)而根據(jù)第一語言模型,確定第一候選詞語在待轉(zhuǎn)換的語句中的第一分值。
下面結(jié)合圖3,對利用第一候選詞語在目標(biāo)領(lǐng)域中的cbow模型,確定第一候選詞語在待轉(zhuǎn)換的語句中的第一分值的過程進(jìn)行詳細(xì)說明。
如圖3所示,圖3為cbow模型的結(jié)構(gòu)示意圖,cbow主要包括輸入層(input),映射層(projection)和輸出層(output)三個階段。輸入層為詞語w(t)周圍的n-1個詞語的詞向量,假設(shè)n=5,w(t-2),w(t-1)為w(t)的前兩個詞語,w(t+1),w(t+2)為w(t)的后兩個詞語。
首先需要利用各個領(lǐng)域的大規(guī)模單語語料,訓(xùn)練得到各個領(lǐng)域的cbow模型,從而在接收到語言轉(zhuǎn)換請求,并對待轉(zhuǎn)換的語句中的目標(biāo)語言詞語進(jìn)行解析,確定待轉(zhuǎn)換的語句所屬的目標(biāo)領(lǐng)域后,可以從訓(xùn)練生成的各個領(lǐng)域的cbow模型中,選取第一候選詞語在目標(biāo)領(lǐng)域中的cbow模型,進(jìn)而根據(jù)選取的cbow模型,及待轉(zhuǎn)換的語句中,源語言詞語前后的目標(biāo)語言詞語,確定第一候選詞語在待轉(zhuǎn)換的語句中的第一分值。
步驟203,根據(jù)第一對齊概率和第一分值,確定候選詞語在待轉(zhuǎn)換的語句中對應(yīng)的分值。
具體的,可以根據(jù)第i個源語言詞語與第j個候選詞的對齊概率、預(yù)設(shè)參數(shù)及第j個候選詞在所述待轉(zhuǎn)換的語句中所屬的目標(biāo)領(lǐng)域中的分值,確定第i個源語言詞語對應(yīng)的第j個候選詞在待轉(zhuǎn)換的語句中的分值;
其中,所述第j個候選詞在所述待轉(zhuǎn)換的語句中所屬的目標(biāo)領(lǐng)域中的分值,是根據(jù)所述第j個候選詞在所述待轉(zhuǎn)換的語句所屬的目標(biāo)領(lǐng)域中的語言模型確定的。
具體實現(xiàn)時,確定了第i個源語言詞語與第j個候選詞的對齊概率、預(yù)設(shè)參數(shù)及第j個候選詞在所述待轉(zhuǎn)換的語句中所屬的目標(biāo)領(lǐng)域中的分值后,可以利用二維表的對數(shù)線性(log-linear)模型,確定第i個源語言詞語對應(yīng)的第j個候選詞語,在待轉(zhuǎn)換的語句中對應(yīng)的分值。
比如,根據(jù)f(si,tij,stn)=λlogft(si,tij)+(1-λ)logfl(tij,stn),確定第一候選詞語在待轉(zhuǎn)換的語句中對應(yīng)的分值。
其中,f(si,tij,stn)為第i個源語言詞語si對應(yīng)的第j個候選詞tij,在待轉(zhuǎn)換的語句stn中的分值,ft(si,tij)為第i個源語言詞語si與第j個候選詞tij的對齊概率,fl(tij,stn)為根據(jù)第j個候選詞tij在所述待轉(zhuǎn)換的語句stn所屬的目標(biāo)領(lǐng)域中的語言模型,確定的分值,λ為預(yù)設(shè)參數(shù)。
需要說明的是,本申請實施例中,還可以采用其他的計算方式,確定第一候選詞語在待轉(zhuǎn)換的語句中對應(yīng)的分值,本實施例對此不作限定。
具體的,λ可以根據(jù)需要進(jìn)行設(shè)置。
具體實現(xiàn)時,預(yù)先確定了λ的值后,則可以將第一對齊概率和第一分值,分別代入ft(si,tij)和fl(tij,stn),從而確定第一候選詞在待轉(zhuǎn)換的語句中的分值f(si,tij,stn)。
重復(fù)上述過程,即可確定上述實施例中確定的各候選詞語,分別在待轉(zhuǎn)換的語句中對應(yīng)的各分值,從而根據(jù)各分值,將分值最高的候選詞語,確定為與源語言詞語對應(yīng)的目標(biāo)詞語。
值得注意的是,在本發(fā)明實施例中,對待轉(zhuǎn)換的語句中的目標(biāo)語言詞語進(jìn)行解析,確定待轉(zhuǎn)換的語句所屬的目標(biāo)領(lǐng)域后,也可以直接根據(jù)各候選詞語在目標(biāo)領(lǐng)域中的語言模型,確定各候選詞語分別在待轉(zhuǎn)換的語句中的各分值。即,可以將f(si,tij,stn)=λlogft(si,tij)+(1-λ)logfl(tij,stn)中的λ設(shè)置為零,從而根據(jù)f(si,tij,stn)=logfl(tij,stn),確定各候選詞語分別在待轉(zhuǎn)換的語句中的各分值。
本發(fā)明實施例的基于人工智能的語言轉(zhuǎn)換處理方法,首先確定源語言詞語與第一候選詞語的第一對齊概率,然后根據(jù)第一候選詞語在目標(biāo)領(lǐng)域中的第一語言模型,確定第一候選詞語在待轉(zhuǎn)換的語句中的第一分值,最后根據(jù)第一對齊概率和第一分值,確定候選詞語在待轉(zhuǎn)換的語句中對應(yīng)的分值。由此,通過利用對齊模型及語言模型,確定各候選詞語在待轉(zhuǎn)換的語句中對應(yīng)的各分值,進(jìn)而確定與源語言詞語對應(yīng)的目標(biāo)詞語,實現(xiàn)了將包括源語言詞語及目標(biāo)語言詞語的待轉(zhuǎn)換的語句,轉(zhuǎn)換為目標(biāo)語言類型的語句,減少了用戶操作,提高了轉(zhuǎn)換效率及轉(zhuǎn)換結(jié)果的準(zhǔn)確性,可以更好的滿足用戶需求,改善用戶體驗。
圖4是本發(fā)明一個實施例的基于人工智能的語言轉(zhuǎn)換處理裝置的結(jié)構(gòu)示意圖。
如圖4所示,該基于人工智能的語言轉(zhuǎn)換處理裝置包括:
接收模塊41,用于接收語言轉(zhuǎn)換請求,所述請求中包括待轉(zhuǎn)換的語句,且所述待轉(zhuǎn)換的語句中包括源語言詞語及目標(biāo)語言詞語;
第一確定模塊42,用于根據(jù)預(yù)設(shè)的規(guī)則,確定與所述源語言詞語對應(yīng)的各候選詞語;
第二確定模塊43,用于確定所述各候選詞語,分別在所述待轉(zhuǎn)換的語句中對應(yīng)的各分值;
第三確定模塊44,用于根據(jù)所述各候選詞語分別對應(yīng)的各分值,確定與所述源語言詞語對應(yīng)的目標(biāo)詞語。
具體的,本實施例提供的基于人工智能的語言轉(zhuǎn)換處理裝置,可以被配置在任何終端中,用于執(zhí)行如上述實施例所示的基于人工智能的語言轉(zhuǎn)換處理方法,以提高語言轉(zhuǎn)換的質(zhì)量,改善語言轉(zhuǎn)換效果。
其中,上述待轉(zhuǎn)換的語句中包括的源語言詞語與目標(biāo)語言詞語的比例,小于第一閾值。
在本申請實施例一種可能的實現(xiàn)形式中,上述第一確定模塊42,具體用于:
根據(jù)預(yù)設(shè)的語言對齊模型,確定與所述源語言詞語對應(yīng)的各候選詞語;
或者,
根據(jù)語言模型,確定與所述源語言詞語對應(yīng)的各候選詞語。
在本申請實施例另一種可能的實現(xiàn)形式中,上述第一確定模塊42,還用于:
根據(jù)預(yù)設(shè)的語言對齊模型,確定與所述源語言詞語的對齊概率大于第二閾值的詞語為候選詞語。
在本申請實施例另一種可能的實現(xiàn)形式中,上述第一確定模塊42,還用于:
確定所述源語言詞語在目標(biāo)領(lǐng)域中對應(yīng)的各目標(biāo)語言類型詞語;
根據(jù)所述各目標(biāo)語言類型詞語,在目標(biāo)領(lǐng)域中的語言模型,確定與所述源語言詞語對應(yīng)的各候選詞語。
在本申請實施例另一種可能的實現(xiàn)形式中,上述第二確定模塊43,還用于:
確定所述源語言詞語與第一候選詞語的第一對齊概率;
根據(jù)所述第一候選詞語在目標(biāo)領(lǐng)域中的第一語言模型,確定所述第一候選詞語在所述待轉(zhuǎn)換的語句中的第一分值;
根據(jù)所述第一對齊概率和所述第一分值,確定所述候選詞語在所述待轉(zhuǎn)換的語句中對應(yīng)的分值。
在本申請實施例另一種可能的實現(xiàn)形式中,上述第二確定模塊43,還用于:
根據(jù)第i個源語言詞語與第j個候選詞的對齊概率、預(yù)設(shè)參數(shù)及第j個候選詞在所述待轉(zhuǎn)換的語句中所屬的目標(biāo)領(lǐng)域中的分值,確定第i個源語言詞語對應(yīng)的第j個候選詞在待轉(zhuǎn)換的語句中的分值;
其中,所述第j個候選詞在所述待轉(zhuǎn)換的語句中所屬的目標(biāo)領(lǐng)域中的分值,是根據(jù)所述第j個候選詞在所述待轉(zhuǎn)換的語句所屬的目標(biāo)領(lǐng)域中的語言模型確定的。
需要說明的是,前述對基于人工智能的語言轉(zhuǎn)換處理方法實施例的解釋說明也適用于該實施例的基于人工智能的語言轉(zhuǎn)換處理裝置,此處不再贅述。
本發(fā)明實施例的基于人工智能的語言轉(zhuǎn)換處理裝置,首先根據(jù)接收到的語言轉(zhuǎn)換請求,然后根據(jù)預(yù)設(shè)的規(guī)則,確定與源語言詞語對應(yīng)的各候選詞語,再確定各候選詞語分別在待轉(zhuǎn)換的語句中對應(yīng)的各分值,最后根據(jù)各候選詞語分別對應(yīng)的各分值,確定與源語言詞語對應(yīng)的目標(biāo)詞語。由此,通過利用對齊模型及語言模型,實現(xiàn)了將包括源語言詞語及目標(biāo)語言詞語的待轉(zhuǎn)換的語句,轉(zhuǎn)換為目標(biāo)語言類型的語句,減少了用戶操作,提高了轉(zhuǎn)換效率及轉(zhuǎn)換結(jié)果的準(zhǔn)確性,可以更好的滿足用戶需求,改善用戶體驗。
圖5是本發(fā)明另一個實施例的基于人工智能的語言轉(zhuǎn)換處理裝置的結(jié)構(gòu)示意圖。
如圖5所示,在圖4的基礎(chǔ)上,該基于人工智能的語言轉(zhuǎn)換處理裝置,還包括:
第四確定模塊51,用于根據(jù)所述待轉(zhuǎn)換的語句包括的各類型語言的詞語數(shù)量,確定源語言詞語及目標(biāo)語言詞語。
獲取模塊52,用于獲取所述源語言類型詞語與所述目標(biāo)語言類型詞語,在通用領(lǐng)域中的平行語料。
第五確定模塊53,用于對所述平行語料進(jìn)行訓(xùn)練,確定與所述源語言詞語對應(yīng)的對齊模型。
需要說明的是,前述對基于人工智能的語言轉(zhuǎn)換處理方法實施例的解釋說明也適用于該實施例的基于人工智能的語言轉(zhuǎn)換處理裝置,此處不再贅述。
本發(fā)明實施例的基于人工智能的語言轉(zhuǎn)換處理裝置,首先根據(jù)接收到的語言轉(zhuǎn)換請求,然后根據(jù)預(yù)設(shè)的規(guī)則,確定與源語言詞語對應(yīng)的各候選詞語,再確定各候選詞語分別在待轉(zhuǎn)換的語句中對應(yīng)的各分值,最后根據(jù)各候選詞語分別對應(yīng)的各分值,確定與源語言詞語對應(yīng)的目標(biāo)詞語。由此,通過利用對齊模型及語言模型,實現(xiàn)了將包括源語言詞語及目標(biāo)語言詞語的待轉(zhuǎn)換的語句,轉(zhuǎn)換為目標(biāo)語言類型的語句,減少了用戶操作,提高了轉(zhuǎn)換效率及轉(zhuǎn)換結(jié)果的準(zhǔn)確性,可以更好的滿足用戶需求,改善用戶體驗。
為達(dá)上述目的,本發(fā)明第三方面實施例提出了一種終端,包括:
存儲器、處理器及存儲在存儲器上并可在處理器上運行的計算機程序,當(dāng)上述處理器執(zhí)行所述程序時實現(xiàn)如前述實施例中的基于人工智能的語言轉(zhuǎn)換處理方法。
為達(dá)上述目的,本發(fā)明第四方面實施例提出了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,當(dāng)該程序被處理器執(zhí)行時實現(xiàn)如前述實施例中的基于人工智能的語言轉(zhuǎn)換處理方法。
為達(dá)上述目的,本發(fā)明第五方面實施例提出了一種計算機程序產(chǎn)品,當(dāng)所述計算機程序產(chǎn)品中的指令處理器執(zhí)行時,執(zhí)行如前述實施例中的基于人工智能的語言轉(zhuǎn)換處理方法。
在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不必須針對的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任一個或多個實施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實施例或示例以及不同實施例或示例的特征進(jìn)行結(jié)合和組合。
此外,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個該特征。在本發(fā)明的描述中,“多個”的含義是至少兩個,例如兩個,三個等,除非另有明確具體的限定。
流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)定制邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本發(fā)明的實施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認(rèn)為是用于實現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實現(xiàn)在任何計算機可讀介質(zhì)中,以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備(如基于計算機的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備取指令并執(zhí)行指令的系統(tǒng))使用,或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用。就本說明書而言,"計算機可讀介質(zhì)"可以是任何可以包含、存儲、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用的裝置。計算機可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下:具有一個或多個布線的電連接部(電子裝置),便攜式計算機盤盒(磁裝置),隨機存取存儲器(ram),只讀存儲器(rom),可擦除可編輯只讀存儲器(eprom或閃速存儲器),光纖裝置,以及便攜式光盤只讀存儲器(cdrom)。另外,計算機可讀介質(zhì)甚至可以是可在其上打印所述程序的紙或其他合適的介質(zhì),因為可以例如通過對紙或其他介質(zhì)進(jìn)行光學(xué)掃描,接著進(jìn)行編輯、解譯或必要時以其他合適方式進(jìn)行處理來以電子方式獲得所述程序,然后將其存儲在計算機存儲器中。
應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(pga),現(xiàn)場可編程門陣列(fpga)等。
本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。
此外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質(zhì)中。
上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。盡管上面已經(jīng)示出和描述了本發(fā)明的實施例,可以理解的是,上述實施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實施例進(jìn)行變化、修改、替換和變型。