專利名稱:輸入文本字符串的轉(zhuǎn)換的制作方法
技術(shù)領(lǐng)域:
本說明書涉及輸入字符串的轉(zhuǎn)換。
背景技術(shù):
傳統(tǒng)文本與特定形式相關(guān)聯(lián),例如與特定書寫系統(tǒng)和特定自然語言相關(guān)聯(lián)??梢允褂脮鴮懴到y(tǒng)來表示一種或多種語言。例如,(使用羅馬字符來表示的)拉丁書寫系統(tǒng)可以用于自然語言英語以及用于例如如在羅馬化中文(例如,拼音)中使用的自然語言中文。類似地,可以使用多個(gè)書寫系統(tǒng)來表示同一語言。例如,可以使用漢字和拼音書寫系統(tǒng)來表示中文。對(duì)輸入字符串在形式之間進(jìn)行轉(zhuǎn)換(例如,從一個(gè)書寫系統(tǒng)到另一個(gè)或從一種自然語言到另一種)會(huì)涉及輸入字符串的翻譯或音譯。
發(fā)明內(nèi)容
本說明書描述了與將文本輸入字符串從第一形式轉(zhuǎn)換成第二形式有關(guān)的技術(shù)。在文本和言語的國際化和翻譯中,某些詞基于其含義或語義被翻譯(例如,英語“high”可以被翻譯成日語“高P”,而英語“bridge”可以被翻譯成“橋”)。其他詞基于其發(fā)音或正字法,例如使用特定書寫系統(tǒng)來書寫語言的規(guī)則,被音譯。例如,英語名稱“Highbridge”被音譯成日語為”、彳7'.; 'y 7”,而不是翻譯形式“高橋”。混合形式包括在語義上翻譯輸入字符串的一部分,并且音譯該輸入字符串的其他部分。例如,"HighbridgePark”可以變成日語的混合形式‘~、^ 7'.; 夕公園”,其中‘~、^ -7-') 夕”是音譯部分以及“公園”是翻譯部分。本說明書描述了用于將詞語的輸入字符串從第一形式轉(zhuǎn)換成第二形式,例如從一種自然語言或書寫系統(tǒng)轉(zhuǎn)換成另一 種自然語言或書寫系統(tǒng)的技術(shù)??梢岳缡褂靡糇g和混合翻譯技術(shù)來執(zhí)行該轉(zhuǎn)換。將詞語的輸入字符串從第一形式轉(zhuǎn)換成第二形式可以包括從第一語言的書寫系統(tǒng)轉(zhuǎn)換成第二語言的書寫系統(tǒng)以及在同一語言的兩個(gè)書寫系統(tǒng)之間進(jìn)行轉(zhuǎn)換。在一些實(shí)施方式中,對(duì)于包括多個(gè)詞語的輸入字符串,執(zhí)行機(jī)器變換來將輸入字符串從一個(gè)形式轉(zhuǎn)換成另一個(gè)形式的輸出字符串。機(jī)器變換可以包括生成是輸入字符串中的詞語的音譯和翻譯的混合的輸出字符串。例如,對(duì)詞語的輸入字符串進(jìn)行轉(zhuǎn)換可以包括使用規(guī)則來確定一個(gè)或多個(gè)詞語是否待被翻譯,并且使用特定于語言的規(guī)則來對(duì)其他詞語執(zhí)行首譯。總的來說,在本說明書中描述的主題的一個(gè)方面可以在方法中具體化,所述方法包括以下動(dòng)作:接收具有多個(gè)詞語的輸入字符串,該輸入字符串為第一形式;將輸入字符串從第一形式變換成第二形式,其包括:將一個(gè)或多個(gè)規(guī)則應(yīng)用到輸入字符串來識(shí)別用于翻譯的一個(gè)或多個(gè)詞語,所識(shí)別的一個(gè)或多個(gè)詞語少于該多個(gè)詞語,將所識(shí)別的一個(gè)或多個(gè)詞語翻譯成第二形式的一個(gè)或多個(gè)翻譯詞語,以及將該多個(gè)詞語的剩余詞語音譯成第二形式的音譯詞語;以及連接翻譯和音譯詞語來形成第二形式的混合輸出字符串。本方面的其他實(shí)施例包括對(duì)應(yīng)的計(jì)算機(jī)系統(tǒng)、裝置以及記錄在一個(gè)或多個(gè)計(jì)算機(jī)存儲(chǔ)設(shè)備上的計(jì)算機(jī)程序,其每一個(gè)被配置成執(zhí)行所述方法的動(dòng)作。一個(gè)或多個(gè)計(jì)算機(jī)的系統(tǒng)可以被配置成通過使運(yùn)作時(shí)促使系統(tǒng)執(zhí)行動(dòng)作的軟件、固件、硬件或其組合安裝在系統(tǒng)上來執(zhí)行特定操作或動(dòng)作。一個(gè)或多個(gè)計(jì)算機(jī)程序可以被配置成通過包括當(dāng)被數(shù)據(jù)處理裝置執(zhí)行時(shí)促使所述裝置執(zhí)行動(dòng)作的指令來執(zhí)行特定操作或動(dòng)作。這些和其他實(shí)施例可以可選地包括下面特征中的一個(gè)或多個(gè)。第一形式和第二形式分別是第一書寫系統(tǒng)和第二書寫系統(tǒng)。第一形式和第二形式分別是第一自然語言和第二自然語言。輸入字符串包括類型,以及其中將一個(gè)或多個(gè)規(guī)則應(yīng)用到輸入字符串包括識(shí)別具有與輸入字符串的類型相匹配的類型的一個(gè)或多個(gè)規(guī)則;以及對(duì)于與輸入字符串的類型相匹配的規(guī)則,確定輸入字符串是否與相應(yīng)一個(gè)或多個(gè)匹配規(guī)則的字符串模式相匹配。每一個(gè)規(guī)則包括用于相應(yīng)輸出形式的多個(gè)相應(yīng)規(guī)則輸出。匹配規(guī)則包括待被從第一形式翻譯成第二形式的規(guī)則模式的一個(gè)或多個(gè)詞語。對(duì)剩余詞語進(jìn)行音譯包括:將字符串符號(hào)化成多個(gè)符號(hào);將每一個(gè)符號(hào)從第一形式音譯成第二形式;以及連接第二形式的音譯符號(hào)來形成第二形式的音譯的輸出字符串。總的來說,在本說明書中描述的主題的一個(gè)方面可以在方法中具體化,所述方法包括以下動(dòng)作:接收具有待被音譯的多個(gè)詞語的字符串,該字符串為第一形式;將該字符串符號(hào)化成多個(gè)符號(hào);將每一個(gè)符號(hào)從第一形式音譯成第二形式;將一個(gè)或多個(gè)特定于形式的規(guī)則應(yīng)用到第二形式的音譯符號(hào);以及連接第二形式的音譯符號(hào)來形成第二形式的音譯的輸出字符串。本方面的其他實(shí)施例包括對(duì)應(yīng)的計(jì)算機(jī)系統(tǒng)、裝置以及記錄在一個(gè)或多個(gè)計(jì)算機(jī)存儲(chǔ)設(shè)備上的計(jì)算機(jī)程序,其每一個(gè)被配置成執(zhí)行所述方法的動(dòng)作。一個(gè)或多個(gè)計(jì)算機(jī)的系統(tǒng)可以被配置成通過使運(yùn)作時(shí)促使系統(tǒng)執(zhí)行動(dòng)作的軟件、固件、硬件或其組合安裝在系統(tǒng)上來執(zhí)行特定操作或動(dòng)作。一個(gè)或多個(gè)計(jì)算機(jī)程序可以被配置成通過包括當(dāng)被數(shù)據(jù)處理裝置執(zhí)行時(shí)促使所述裝置執(zhí)行動(dòng)作的指令來執(zhí)行特定操作或動(dòng)作。這些和其他實(shí)施例可以可選地包括下面特征中的一個(gè)或多個(gè)。對(duì)字符串進(jìn)行符號(hào)化包括將字符串分成詞符號(hào)。第一形式是第一書寫系統(tǒng)以及第二形式是第二書寫系統(tǒng)。第一形式是第一自然語言以及第二形式是第二自然語言。特定于形式的規(guī)則涉及在語素或詞邊界處發(fā)生的多種語音處理。連接包括基于輸出形式和一個(gè)或多個(gè)語言規(guī)則來在一個(gè)或多個(gè)輸出詞語對(duì)之間添加另外字符。對(duì)每一個(gè)符號(hào)進(jìn)行音譯包括使用一個(gè)或多個(gè)有限狀態(tài)轉(zhuǎn)換器來生成第一形式和第二形式的語音表不??梢詫?shí)現(xiàn)在本說明書中描述的主題的特定實(shí)施例,以實(shí)現(xiàn)下面益處中的一個(gè)或多個(gè)。與純音譯或翻譯相比,使用音譯和語義翻譯的混合提高了變換的準(zhǔn)確性。與獨(dú)立翻譯單個(gè)詞語相比,使用其他詞語的語境改進(jìn)了音譯。合并關(guān)于其名稱被譯寫的實(shí)體的信息提高了音譯準(zhǔn)確性。例如,知道“Menlo Park”是指公園還是城市可以影響變換的輸出。在附圖和下面的描述中闡述了在本說明書中描述的主題的一個(gè)或多個(gè)實(shí)施例的細(xì)節(jié)。該主題的其他特征、方面和益處從描述、附圖和權(quán)利要求將變得顯而易見。
圖1是用于轉(zhuǎn)換輸入字符串的示例方法的流程圖。圖2是用于對(duì)輸入字符串進(jìn)行機(jī)器變換的示例方法的流程圖。
圖3是用于對(duì)輸入字符串的詞語進(jìn)行音譯的示例方法的流程圖。圖4是示例系統(tǒng)體系結(jié)構(gòu)。在各附圖中相同的參考數(shù)字和標(biāo)記指示相同的元素。
具體實(shí)施例方式圖1是用于對(duì)輸入字符串進(jìn)行轉(zhuǎn)換的示例方法100的流程圖。為了方便起見,將參考執(zhí)行方法100、包括一個(gè)或多個(gè)計(jì)算設(shè)備的系統(tǒng)描述方法100。具體地,方法100參考對(duì)地理數(shù)據(jù)進(jìn)行處理以(例如,在地圖視圖中)展示描述了操作,然而,可以對(duì)其他類型的數(shù)據(jù)執(zhí)行相似動(dòng)作。系統(tǒng)接收102在第一書寫系統(tǒng)中的一個(gè)或多個(gè)輸入字符串。所述輸入字符串待從第一形式被轉(zhuǎn)換成第二形式(例如,從第一書寫系統(tǒng)轉(zhuǎn)換成第二書寫系統(tǒng))。第一和第二形式可以表示相同或不同語言。在一些實(shí)施方式中,從地理特征集合(例如,從地理特征數(shù)據(jù)庫)接收該一個(gè)或多個(gè)輸入字符串。這些地理特征可以包括例如政治稱號(hào)(例如,用于城市或州的名稱)、旅游目的地或公園。每一個(gè)地理特征可以被注釋或另外標(biāo)記有關(guān)于物理世界中的對(duì)應(yīng)實(shí)體的信息(例如,特征類型)。該信息可以包括類型類別,例如“城市”、“公園”或“旅游勝地”。在一些實(shí)施方式中,分型是類型的簡單枚舉,而不是繼承。在其他實(shí)施方式中,使用單繼承樹層級(jí)來處理分型,其中除不是任何其他類型的子類型的一個(gè)或多個(gè)根類型外,每一個(gè)類型是另一個(gè)類型的子類型。在又一些其他實(shí)施方式中,使用多繼承樹來處理分型,其中類型可以是零個(gè)、一個(gè)或數(shù)個(gè)其他類型的子類型??梢允褂盟鎏卣鱽砩梢?guī)則,如在下面參考圖2更詳細(xì)描述的。另外,類型層級(jí)可以允許每描述特征類型的自由形式的文本的特征有多個(gè)類型標(biāo)簽。除分型外,特征還可以被標(biāo)記有關(guān)于所表示的物理實(shí)體的其他信息,例如,城市的人口計(jì)數(shù)或建筑物的高度。還可以使用該其他、非分型的信息來影響所生成的音譯,例如,當(dāng)將規(guī)則僅應(yīng)用到某一大小的城市或僅應(yīng)用到較大建筑物的名稱時(shí)。雖然使用了地理特征的示例,然而,可以以類似方式對(duì)其他數(shù)據(jù)進(jìn)行處理,例如,商業(yè)注冊(cè)中心或其中關(guān)于特定類型的外部信息是已知或可以被得到的其他數(shù)據(jù)(例如,產(chǎn)品名稱、個(gè)體)。例如,對(duì)于企業(yè),名稱可以與可以被應(yīng)用(例如,到作為識(shí)別公司的標(biāo)記“Inc”)的不同企業(yè)特征相關(guān)聯(lián)。系統(tǒng)可選地執(zhí)行預(yù)處理104。預(yù)處理可以包括對(duì)輸入字符串執(zhí)行的多個(gè)操作。預(yù)處理還可以使對(duì)輸入字符串直接執(zhí)行的動(dòng)作成為必要、或生成數(shù)據(jù)庫或其他信息集合(例如,詞典)以供稍后應(yīng)用到輸入字符串。在一些實(shí)施方式中,一些預(yù)處理步驟是用于對(duì)地理數(shù)據(jù)進(jìn)行處理以供展示的較大管線的一部分。例如,對(duì)于地理數(shù)據(jù),預(yù)處理可以包括合并和/或移除重復(fù)特征、拼接來自鄰近數(shù)據(jù)集的道路、從現(xiàn)有特征的形狀合成新的特征、清理幾何不規(guī)則性(例如,在所提供的數(shù)據(jù)中的錯(cuò)誤,諸如帶有單個(gè)點(diǎn)位置或不一致幾何的街道)或注入特征屬性。拼接來自鄰近數(shù)據(jù)集的道路是指校正在不同區(qū)域之間的地理數(shù)據(jù),其中可以使用不同數(shù)據(jù)集,例如,穿過在第一國家和第二國家之間的邊界的道路可能在用于第一國家的數(shù)據(jù)集和用于第二國家的數(shù)據(jù)集之間沒被對(duì)齊。該預(yù)處理操作可以是用于一般對(duì)地理數(shù)據(jù)進(jìn)行處理以供展示的管線的一部分。合成地理數(shù)據(jù)中的特征包括例如從國家和省份,例如美國加澳大利亞加新西蘭加加拿大減去魁北克,合成說英語區(qū)域的邊界。這幫助基于除國家或其他地理政治邊界外的信息來定義哪些區(qū)域需要對(duì)輸入字符串的變換以及可能不需要的一些。雖然被描述為預(yù)處理階段的一部分,然而,取決于被執(zhí)行的任務(wù)的類型,這些任務(wù)可以以復(fù)雜序列、作為稍后處理的一部分(例如,在音譯期間)或作為單獨(dú)操作來執(zhí)行。例如,可以在下面參考圖3描述的音譯操作期間應(yīng)用人類注入的翻譯。替選地,在一些實(shí)施方式中,不執(zhí)行預(yù)處理(例如,針對(duì)地圖特征的地理操作可以被單獨(dú)處理或?qū)Ψ堑乩頂?shù)據(jù)集是不必要的)。系統(tǒng)為輸入字符串識(shí)別106人類輸入的翻譯。這些是人類為具有不規(guī)則翻譯的眾所周知的詞語識(shí)別的翻譯。例如,對(duì)于其法語名稱是“GenSve”的瑞士城市,該步驟可以添加英語名稱“Geneva”、德語“Genf”、意大利語“Ginevra”、斯洛伐克語“Geneva”、俄語">K e η e B a”等。同樣,對(duì)于其英語名稱是“California”的美國州,該步驟可以添加德語名稱“Kalifornien”。這允許添加對(duì)應(yīng)詞語來校正輸入數(shù)據(jù),其減少了由于拼寫錯(cuò)誤或使用不被用來處理輸入文本的一個(gè)或多個(gè)規(guī)則識(shí)別的詞語的語言版本所致的糟糕轉(zhuǎn)換的可能性。例如,一個(gè)特定街道的名稱例如由于數(shù)據(jù)提供者問題可能具有打字錯(cuò)誤或被錯(cuò)誤命名。這些識(shí)別的翻譯被輸入數(shù)據(jù)庫或詞典,例如以供在執(zhí)行在下面參考圖2-3描述的音譯或翻譯操作時(shí)使用。系統(tǒng)為一個(gè)或多個(gè)詞語識(shí)別108詞典翻譯。對(duì)輸入文本集合中具有同一名稱的所有詞語應(yīng)用詞典翻譯。例如,在美國有被稱為“City Hall (市政廳)”的許多建筑物。詞典階段可以查找該名稱,并且將諸如德語“Rathaus”、法語“H6tel de Ville”、日語“役所”等的名稱注入到具有匹配名稱的每一個(gè)詞語。因此,識(shí)別用于特定特征或詞語的多個(gè)翻譯以供在對(duì)字符串進(jìn)行變換時(shí)使用。系統(tǒng)對(duì)每一個(gè)輸入字符串執(zhí)行機(jī)器變換110。機(jī)器變換將第一形式的輸入字符串的至少部分變換成第二形式。輸入字符串的機(jī)器變換包括根據(jù)一個(gè)或多個(gè)規(guī)則確定是否存在可以被翻譯的部分,以及執(zhí)行沒有被翻譯的任何部分的音譯。在下面參考圖2-3更詳細(xì)描述了輸入字符串的機(jī)器變換。系統(tǒng)可選地對(duì)轉(zhuǎn)換后的輸入字符串執(zhí)行后處理112。例如,可以使用后處理來將沒有正確處理的管線的一些早先部分的詞語或?qū)傩粤腥牒诿麊巍@纾鲇谡Z言原因(例如,南非具有是英語、荷蘭語和德語的組合的許多名稱,其使變換困難),對(duì)于特定地理區(qū)域,變換后的輸出字符串的質(zhì)量可以變化。結(jié)果,可以執(zhí)行對(duì)其中數(shù)據(jù)當(dāng)前是不可靠的變換后的詞語,例如街道名稱,列入黑名單。因此,在展示地圖數(shù)據(jù)的示例中,那些詞語將不被變換來供顯示,而是替代地,將使用原始輸入字符串。類似地,新加坡具有中文和英語兩者的許多街道,因此,不需要將那些英語街道名稱翻譯成中文。系統(tǒng)輸出114第二形式的轉(zhuǎn)換后的字符串。例如,可以(例如在數(shù)據(jù)庫或其他庫中)存儲(chǔ)轉(zhuǎn)換后的字符串以供稍后使用。在一些實(shí)施方式中,轉(zhuǎn)換后的字符串是當(dāng)請(qǐng)求對(duì)應(yīng)地圖數(shù)據(jù)供顯示時(shí)被檢索的地理標(biāo)記。例如,可以將帶有識(shí)別中文信息的地理數(shù)據(jù)的英語字符串的數(shù)據(jù)庫轉(zhuǎn)換成中文字符串以在對(duì)展示的中國地圖進(jìn)行標(biāo)記時(shí)使用。在另一個(gè)示例中,轉(zhuǎn)換后的字符串可以在被生成之后向用戶展示。在任一示例中,可以單獨(dú)(例如,變換后的文檔)或與其他數(shù)據(jù)(例如,地圖信息)一起展示轉(zhuǎn)換后的字符串中的一個(gè)或多個(gè)。圖2是用于對(duì)輸入字符串進(jìn)行機(jī)器變換的示例方法200的流程圖。為了方便起見,將參考執(zhí)行方法200、包括一個(gè)或多個(gè)計(jì)算設(shè)備的系統(tǒng)描述方法200。系統(tǒng)接收202輸入字符串。可以例如從待從第一形式轉(zhuǎn)換成第二形式的輸入字符串集合接收該輸入字符串。在一些實(shí)施方式中,該輸入字符串在被接收之前已經(jīng)歷了一個(gè)或多個(gè)預(yù)處理步驟,例如如圖1中所描述的。替選地,在沒有預(yù)處理的情況下,直接處理輸入字符串。系統(tǒng)將規(guī)則組應(yīng)用204到所接收的輸入字符串。規(guī)則識(shí)別特定特征類型,以及如果特征類型與該輸入字符串相匹配則待執(zhí)行的動(dòng)作。系統(tǒng)例如根據(jù)規(guī)則層級(jí)將每一個(gè)規(guī)則應(yīng)用到該輸入字符串。基于在輸入字符串中對(duì)特征的標(biāo)記,特征被匹配到特定特征類型。對(duì)于給定特征類型,規(guī)則可以具有與規(guī)則相匹配的一個(gè)或多個(gè)詞語的模式。如果輸入字符串與輸入模式相匹配,則規(guī)則匹配。在一些實(shí)施方式中,對(duì)于為給定語言或書寫系統(tǒng)定義的每一個(gè)規(guī)則,在相應(yīng)語言或書寫系統(tǒng)中存在一個(gè)或多個(gè)輸出模式。如果輸入字符串與輸入模式相匹配,則系統(tǒng)根據(jù)規(guī)則所定義的相應(yīng)輸出模式生成一個(gè)或多個(gè)輸出詞語。例如,為了將地理特征的英語(“en”)名稱變換成日語(“ja”)、韓語(“ko”)、吉爾吉斯語(“ky”)、俄語(“ru”)、簡體中文(“zh-Hans”)以及繁體中文(“zh-Hant”),在下面提供了三個(gè)示例規(guī)則結(jié)構(gòu)。為了清晰起見,簡化了這些示例規(guī)則。
權(quán)利要求
1.一種由數(shù)據(jù)處理裝置執(zhí)行的方法,所述方法包括: 接收具有多個(gè)詞語的輸入字符串,所述輸入字符串為第一形式; 將所述輸入字符串從所述第一形式變換成第二形式,包括: 將一個(gè)或多個(gè)規(guī)則應(yīng)用到所述輸入字符串來識(shí)別用于翻譯的一個(gè)或多個(gè)詞語,所識(shí)別的一個(gè)或多個(gè)的詞語少于所述多個(gè)詞語, 將所識(shí)別的一個(gè)或多個(gè)詞語翻譯成所述第二形式的一個(gè)或多個(gè)翻譯詞語,以及 將所述多個(gè)詞語的剩余詞語音譯成所述第二形式的音譯詞語;以及 連接所述翻譯和音譯詞語來形成所述第二形式的混合輸出字符串。
2.根據(jù)權(quán)利要求1所述的方法,其中所述第一形式和所述第二形式分別是第一書寫系統(tǒng)和第二書寫系統(tǒng)。
3.根據(jù)權(quán)利要求1所述的方法,其中所述第一形式和所述第二形式分別是第一自然語言和第二自然語言。
4.根據(jù)權(quán)利要求1所述的方法,其中所述輸入字符串包括類型,以及其中將一個(gè)或多個(gè)規(guī)則應(yīng)用到所述輸入字符串包括: 識(shí)別具有與所述輸入字符串的所述類型相匹配的類型的一個(gè)或多個(gè)規(guī)則;以及對(duì)于與所述輸入字符串的所述 類型相匹配的規(guī)則,確定所述輸入字符串是否與相應(yīng)一個(gè)或多個(gè)匹配規(guī)則的字符串模式相匹配。
5.根據(jù)權(quán)利要求4所述的方法,其中每一個(gè)規(guī)則包括用于相應(yīng)輸出形式的多個(gè)相應(yīng)規(guī)則輸出。
6.根據(jù)權(quán)利要求4所述的方法,其中匹配規(guī)則包括待被從所述第一形式翻譯成所述第二形式的所述規(guī)則模式的一個(gè)或多個(gè)詞語。
7.根據(jù)權(quán)利要求1所述的方法,其中對(duì)剩余詞語進(jìn)行音譯包括: 將所述字符串符號(hào)化成多個(gè)符號(hào); 將每一個(gè)符號(hào)從所述第一形式音譯成第二形式;以及 連接所述第二形式的音譯符號(hào)來形成所述第二形式的音譯的輸出字符串。
8.一種系統(tǒng),包括: 一個(gè)或多個(gè)計(jì)算機(jī),其可被操作來進(jìn)行交互以執(zhí)行操作,所述操作包括: 接收具有多個(gè)詞語的輸入字符串,所述輸入字符串為第一形式; 將所述輸入字符串從所述第一形式變換成第二形式,包括: 將一個(gè)或多個(gè)規(guī)則應(yīng)用到所述輸入字符串來識(shí)別用于翻譯的一個(gè)或多個(gè)詞語,所識(shí)別的一個(gè)或多個(gè)詞語少于所述多個(gè)詞語, 將所識(shí)別的一個(gè)或多個(gè)詞語翻譯成所述第二形式的一個(gè)或多個(gè)翻譯詞語,以及 將所述多個(gè)詞語的剩余詞語音譯成所述第二形式的音譯詞語;以及 連接所述翻譯和音譯詞語來形成所述第二形式的混合輸出字符串。
9.根據(jù)權(quán)利要求8所述的系統(tǒng),其中所述第一形式和所述第二形式分別是第一書寫系統(tǒng)和第二書寫系統(tǒng)。
10.根據(jù)權(quán)利要求8所述的系統(tǒng),其中所述第一形式和所述第二形式分別是第一自然語言和第二自然語言。
11.根據(jù)權(quán)利要求8所述的系統(tǒng),其中所述輸入字符串包括類型,以及其中將一個(gè)或多個(gè)規(guī)則應(yīng)用到所述輸入字符串包括: 識(shí)別具有與所述輸入字符串的所述類型相匹配的類型的一個(gè)或多個(gè)規(guī)則;以及對(duì)于與所述輸入字符串的所述類型相匹配的規(guī)則,確定所述輸入字符串是否與相應(yīng)一個(gè)或多個(gè)匹配規(guī)則的字符串模式相匹配。
12.根據(jù)權(quán)利要求11所述的系統(tǒng),其中每一個(gè)規(guī)則包括用于相應(yīng)輸出形式的多個(gè)相應(yīng)規(guī)則輸出。
13.根據(jù)權(quán)利要求11所述的系統(tǒng),其中匹配規(guī)則包括待被從所述第一形式翻譯成所述第二形式的所述規(guī)則模式的一個(gè)或多個(gè)詞語。
14.根據(jù)權(quán)利要求8所述的系統(tǒng),其中對(duì)剩余詞語進(jìn)行音譯包括: 將所述字符串符號(hào)化成多個(gè)符號(hào); 將每一個(gè)符號(hào)從所述第一形式音譯成第二形式;以及 連接所述第二形式的音譯符號(hào)來形成所述第二形式的音譯的輸出字符串。
15.一種編碼有計(jì)算機(jī)程序的計(jì)算機(jī)存儲(chǔ)介質(zhì),所述程序包括當(dāng)被數(shù)據(jù)處理裝置執(zhí)行時(shí)促使所述數(shù)據(jù)處理裝置執(zhí)行操作的指令,所述操作包括: 接收具有多個(gè)詞語的輸入字符串,所述輸入字符串為第一形式; 將所述輸入字符串從所述第一形式變換成第二形式,包括: 將一個(gè)或多個(gè)規(guī)則應(yīng)用到所述輸入字符串來識(shí)別用于翻譯的一個(gè)或多個(gè)詞語,所識(shí)別的一個(gè)或多個(gè)詞語少于所述多個(gè)詞語, 將所識(shí)別的一個(gè)或多個(gè)詞語翻譯成所述第二形式的一個(gè)或多個(gè)翻譯詞語,以及 將所述多個(gè)詞語的剩余詞語音譯成所述第二形式的音譯詞語;以及 連接所述翻譯和音譯詞語來形成所述第二形式的混合輸出字符串。
16.根據(jù)權(quán)利要求15所述的計(jì)算機(jī)存儲(chǔ)介質(zhì),其中所述第一形式和所述第二形式分別是第一書寫系統(tǒng)和第二書寫系統(tǒng)。
17.根據(jù)權(quán)利要求15所述的計(jì)算機(jī)存儲(chǔ)介質(zhì),其中所述第一形式和所述第二形式分別是第一自然語言和第二自然語言。
18.根據(jù)權(quán)利要求15所述的計(jì)算機(jī)存儲(chǔ)介質(zhì),其中所述輸入字符串包括類型,以及其中將一個(gè)或多個(gè)規(guī)則應(yīng)用到所述輸入字符串包括: 識(shí)別具有與所述輸入字符串的所述類型相匹配的類型的一個(gè)或多個(gè)規(guī)則;以及對(duì)于與所述輸入字符串的所述類型相匹配的規(guī)則,確定所述輸入字符串是否與相應(yīng)一個(gè)或多個(gè)匹配規(guī)則的字符串模式相匹配。
19.根據(jù)權(quán)利要求18所述的計(jì)算機(jī)存儲(chǔ)介質(zhì),其中每一個(gè)規(guī)則包括用于相應(yīng)輸出形式的多個(gè)相應(yīng)規(guī)則輸出。
20.根據(jù)權(quán)利要求18所述的計(jì)算機(jī)存儲(chǔ)介質(zhì),其中匹配規(guī)則包括待被從所述第一形式翻譯成所述第二形式的所述規(guī)則模式的一個(gè)或多個(gè)詞語。
21.根據(jù)權(quán)利要求15所述的計(jì)算機(jī)存儲(chǔ)介質(zhì),其中對(duì)剩余詞語進(jìn)行音譯包括: 將所述字符串符號(hào)化成多個(gè)符號(hào); 將每一個(gè)符號(hào)從所述第一形式音譯成第二形式;以及 連接所述第二形式的所述音譯符號(hào)來形成所述第二形式的音譯的輸出字符串。
全文摘要
用于對(duì)文本字符串進(jìn)行變換的方法、系統(tǒng)以及裝置,包括編碼在計(jì)算機(jī)存儲(chǔ)介質(zhì)上的計(jì)算機(jī)程序。總的來說,在本說明書中描述的主題的一個(gè)方面可以在方法中具體化,所述方法包括以下動(dòng)作接收具有多個(gè)詞語的輸入字符串,該輸入字符串為第一形式;將輸入字符串從第一形式變換成第二形式,其包括將一個(gè)或多個(gè)規(guī)則應(yīng)用到輸入字符串來識(shí)別用于翻譯的一個(gè)或多個(gè)詞語,所識(shí)別的該一個(gè)或多個(gè)詞語少于該多個(gè)詞語,將所識(shí)別的一個(gè)或多個(gè)詞語翻譯成第二形式的一個(gè)或多個(gè)翻譯詞語,以及將該多個(gè)詞語的剩余詞語音譯成第二形式的音譯詞語;以及連接翻譯和音譯詞語來形成第二形式的混合輸出字符串。
文檔編號(hào)G06F17/28GK103189859SQ201180041432
公開日2013年7月3日 申請(qǐng)日期2011年8月26日 優(yōu)先權(quán)日2010年8月26日
發(fā)明者薩斯卡·B·布拉韋爾, 馬丁·揚(yáng)斯什, 理查德·斯普羅特, 竹中浩, 寺島有為 申請(qǐng)人:谷歌公司