本發(fā)明涉及自然語(yǔ)言處理的技術(shù),具體而言,涉及對(duì)語(yǔ)音進(jìn)行翻譯的方法和裝置。
背景技術(shù):
會(huì)議已經(jīng)成為人們?nèi)粘9ぷ骱蜕钸M(jìn)行交流的重要手段。并且,隨著文化和經(jīng)濟(jì)的全球化,在具有不同母語(yǔ)的人員之間進(jìn)行的會(huì)議也越來(lái)越多,尤其是在大多數(shù)跨國(guó)公司中,經(jīng)常會(huì)有多語(yǔ)言的會(huì)議,例如參加會(huì)議的人員會(huì)使用不同的母語(yǔ)(例如,中文、日文、英文等)來(lái)進(jìn)行交流。
為此,利用語(yǔ)音識(shí)別和機(jī)器翻譯技術(shù)在多語(yǔ)言的會(huì)議中提供語(yǔ)音翻譯的服務(wù)也應(yīng)運(yùn)而生。為了提高專業(yè)術(shù)語(yǔ)的識(shí)別及翻譯精度,通常預(yù)先收集大量不同領(lǐng)域的詞匯庫(kù),在實(shí)際會(huì)議中,利用與本次會(huì)議相關(guān)的領(lǐng)域的詞匯庫(kù)進(jìn)行語(yǔ)言識(shí)別和機(jī)器翻譯。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明的發(fā)明人發(fā)現(xiàn),在實(shí)際會(huì)議應(yīng)用時(shí),現(xiàn)有技術(shù)的上述利用領(lǐng)域詞匯庫(kù)進(jìn)行翻譯的方法,由于領(lǐng)域詞匯庫(kù)龐大且不易動(dòng)態(tài)更新,顯得成本高,效率低下,效果也不明顯。另外,在實(shí)際會(huì)議中,根據(jù)會(huì)議的主題,參會(huì)者的不同,會(huì)議中會(huì)使用很多不同的專業(yè)術(shù)語(yǔ)或組織用語(yǔ),這將導(dǎo)致語(yǔ)音識(shí)別和機(jī)器翻譯的精度惡化,從而影響會(huì)議語(yǔ)音翻譯服務(wù)的質(zhì)量。
為了解決現(xiàn)有技術(shù)中存在的上述技術(shù)問(wèn)題中的至少一個(gè)問(wèn)題,本發(fā)明的實(shí)施方式提供以下技術(shù)方案。
[1]一種對(duì)語(yǔ)音進(jìn)行翻譯的方法,包括:
基于與會(huì)議相關(guān)的信息,從詞匯庫(kù)中提取用于該會(huì)議的詞匯;
將提取的詞匯發(fā)送給語(yǔ)音識(shí)別單元和機(jī)器翻譯單元;
接收會(huì)議中的第一語(yǔ)言的語(yǔ)音;
利用所述語(yǔ)音識(shí)別單元將所述第一語(yǔ)言的語(yǔ)音識(shí)別為所述第一語(yǔ)言的文本;和
利用所述機(jī)器翻譯單元將所述第一語(yǔ)言的文本翻譯為第二語(yǔ)言的文本。
上述方案[1]的對(duì)語(yǔ)音進(jìn)行翻譯的方法,基于會(huì)議的基本信息,提取僅適合本次會(huì)議的自適應(yīng)數(shù)據(jù)并實(shí)時(shí)登錄到語(yǔ)音識(shí)別單元和機(jī)器翻譯單元中,數(shù)據(jù)量小,成本低,效率高,能夠提供高質(zhì)量的語(yǔ)音翻譯服務(wù)。
[2]根據(jù)上述方案[1]所述的對(duì)語(yǔ)音進(jìn)行翻譯的方法,其中,
所述與會(huì)議相關(guān)的信息包括會(huì)議主題和用戶信息,所述詞匯庫(kù)包括用戶詞典、組詞典和用戶與組的關(guān)系信息,
所述從詞匯庫(kù)中提取用于該會(huì)議的詞匯的步驟包括:
基于用戶信息,從用戶詞典中提取與用戶相關(guān)的用戶詞匯;
基于用戶與組的關(guān)系信息,從組詞典中提取用戶所屬的組的組詞匯;和
基于會(huì)議主題,從提取的用戶詞匯和組詞匯中提取與會(huì)議相關(guān)的詞匯。
上述方案[2]的對(duì)語(yǔ)音進(jìn)行翻譯的方法,基于會(huì)議的主題和用戶信息,在詞匯庫(kù)中提取適合本次會(huì)議的專用詞匯,數(shù)據(jù)量小,成本低,效率高,能夠提高會(huì)議語(yǔ)音翻譯的質(zhì)量。
[3]根據(jù)上述方案[1]或[2]所述的對(duì)語(yǔ)音進(jìn)行翻譯的方法,其中,
所述從詞匯庫(kù)中提取用于該會(huì)議的詞匯的步驟還包括:
基于詞匯的原文、原文的發(fā)音和譯文之間的關(guān)系,對(duì)提取的詞匯進(jìn)行過(guò)濾。
[4]根據(jù)上述方案[3]所述的對(duì)語(yǔ)音進(jìn)行翻譯的方法,其中,
所述對(duì)提取的詞匯進(jìn)行過(guò)濾的步驟包括:
比較詞匯的原文的發(fā)音是否一致;
在原文的發(fā)音一致的情況下,比較原文和譯文是否一致;和
在原文和譯文都一致的情況下,對(duì)原文的發(fā)音、原文和譯文都一致的詞匯進(jìn)行過(guò)濾,在原文和譯文的至少一個(gè)不一致的情況下,基于使用頻率對(duì)原文的發(fā)音一致的詞匯進(jìn)行過(guò)濾。
[5]根據(jù)上述方案[3]或[4]所述的對(duì)語(yǔ)音進(jìn)行翻譯的方法,其中,
所述對(duì)提取的詞匯進(jìn)行過(guò)濾的步驟包括:
對(duì)過(guò)提取的詞匯按照使用頻率進(jìn)行排序;和
將使用頻率低于第一閾值的詞匯過(guò)濾,或者,將使用頻率低的預(yù)定數(shù)量或預(yù)定百分比的詞匯過(guò)濾。
上述方案[3]至[5]的對(duì)語(yǔ)音進(jìn)行翻譯的方法,通過(guò)對(duì)提取的詞匯進(jìn)行過(guò)濾,能夠進(jìn)一步縮減數(shù)據(jù)量,降低成本,提高效率。
[6]根據(jù)上述方案[1]至[5]的任一方案所述的對(duì)語(yǔ)音進(jìn)行翻譯的方法,還包括:
基于用戶在會(huì)議中的發(fā)言,積累新的用戶詞匯,向所述語(yǔ)音識(shí)別單元和所述機(jī)器翻譯單元發(fā)送。
上述方案[6]的對(duì)語(yǔ)音進(jìn)行翻譯的方法,通過(guò)在會(huì)議過(guò)程中積累新的詞匯,并自動(dòng)更新語(yǔ)音識(shí)別單元和機(jī)器翻譯單元,從而能夠使語(yǔ)音識(shí)別單元和機(jī)器翻譯單元根據(jù)會(huì)議過(guò)程中的發(fā)言內(nèi)容自動(dòng)調(diào)節(jié),實(shí)現(xiàn)動(dòng)態(tài)自適應(yīng)的語(yǔ)音翻譯效果。
[7]根據(jù)上述方案[1]至[6]的任一方案所述的對(duì)語(yǔ)音進(jìn)行翻譯的方法,還包括:
基于用戶在會(huì)議中的發(fā)言,積累新的用戶詞匯,向所述詞匯庫(kù)的用戶詞典中添加。
[8]根據(jù)上述方案[6]或[7]所述的對(duì)語(yǔ)音進(jìn)行翻譯的方法,其中,
所述積累新的用戶詞匯的步驟包括以下步驟的至少一個(gè):
手動(dòng)輸入所述新的用戶詞匯的原文、原文的發(fā)音和譯文;
手動(dòng)輸入所述新的用戶詞匯的原文,利用文本語(yǔ)音轉(zhuǎn)換模塊生成原文的發(fā)音,并利用機(jī)器翻譯單元生成譯文;
從用戶在會(huì)議中的發(fā)言中采集語(yǔ)音數(shù)據(jù),利用語(yǔ)音識(shí)別單元生成原文和原文的發(fā)音,并利用機(jī)器翻譯單元生成譯文;
在會(huì)議的語(yǔ)音識(shí)別結(jié)果和機(jī)器翻譯結(jié)果中選擇所述新的用戶詞匯;和
在會(huì)議的語(yǔ)音識(shí)別結(jié)果和機(jī)器翻譯結(jié)果中檢測(cè)未知詞匯,作為所述新的用戶詞匯。
[9]根據(jù)上述方案[7]或[8]所述的對(duì)語(yǔ)音進(jìn)行翻譯的方法,其中,
所述新的用戶詞匯包括會(huì)議主題信息和用戶信息。
[10]根據(jù)上述方案[7]至[9]的任一方案所述的對(duì)語(yǔ)音進(jìn)行翻譯的方法,還包括:
更新所述用戶詞典中的用戶詞匯的使用頻率。
[11]根據(jù)上述方案[7]至[10]的任一方案所述的對(duì)語(yǔ)音進(jìn)行翻譯的方法,還包括:
基于用戶詞匯向所述詞匯庫(kù)的組詞典中添加新的組詞匯。
[12]根據(jù)上述方案[11]所述的對(duì)語(yǔ)音進(jìn)行翻譯的方法,其中,
所述向所述詞匯庫(kù)的組詞典中添加新的組詞匯的步驟包括:
獲取屬于所述組的用戶的用戶詞匯;
計(jì)算相同用戶詞匯的用戶數(shù)和使用頻率;
將所述用戶數(shù)大于第二閾值和/或所述使用頻率大于第三閾值的用戶詞匯作為組詞匯添加到所述組詞典中。
上述方案[7]至[12]的對(duì)語(yǔ)音進(jìn)行翻譯的方法,通過(guò)在會(huì)議過(guò)程中積累新的詞匯,添加到詞匯庫(kù)中,并應(yīng)用到以后的會(huì)議中,能夠持續(xù)改善會(huì)議語(yǔ)音翻譯的質(zhì)量。
[13]一種對(duì)語(yǔ)音進(jìn)行翻譯的裝置,包括:
語(yǔ)音識(shí)別單元;
機(jī)器翻譯單元;
提取單元,其基于與會(huì)議相關(guān)的信息,從詞匯庫(kù)中提取用于該會(huì)議的詞匯,將提取的詞匯發(fā)送給所述語(yǔ)音識(shí)別單元和所述機(jī)器翻譯單元;和
接收單元,其接收會(huì)議中的第一語(yǔ)言的語(yǔ)音;
其中,所述語(yǔ)音識(shí)別單元將所述第一語(yǔ)言的語(yǔ)音識(shí)別為所述第一語(yǔ)言的文本,所述機(jī)器翻譯單元將所述第一語(yǔ)言的文本翻譯為第二語(yǔ)言的文本。
上述方案[13]的對(duì)語(yǔ)音進(jìn)行翻譯的裝置,基于會(huì)議的基本信息,提取僅適合本次會(huì)議的自適應(yīng)數(shù)據(jù)并實(shí)時(shí)登錄到語(yǔ)音識(shí)別單元和機(jī)器翻譯單元中,數(shù)據(jù)量小,成本低,效率高,能夠提供高質(zhì)量的語(yǔ)音翻譯服務(wù)。
[14]根據(jù)上述方案[13]所述的對(duì)語(yǔ)音進(jìn)行翻譯的裝置,其中,
所述與會(huì)議相關(guān)的信息包括會(huì)議主題和用戶信息,所述詞匯庫(kù)包括用戶詞典、組詞典和用戶與組的關(guān)系信息,
所述提取單元:
基于用戶信息,從用戶詞典中提取與用戶相關(guān)的用戶詞匯;
基于用戶與組的關(guān)系信息,從組詞典中提取用戶所屬的組的組詞匯;和
基于會(huì)議主題,從提取的用戶詞匯和組詞匯中提取與會(huì)議相關(guān)的詞匯。
上述方案[14]的對(duì)語(yǔ)音進(jìn)行翻譯的裝置,基于會(huì)議的主題和用戶信息,在詞匯庫(kù)中提取適合本次會(huì)議的專用詞匯,數(shù)據(jù)量小,成本低,效率高,能夠提高會(huì)議語(yǔ)音翻譯的質(zhì)量。
[15]根據(jù)上述方案[13]或[14]所述的對(duì)語(yǔ)音進(jìn)行翻譯的裝置,其中,
所述提取單元還包括:
過(guò)濾單元,其基于詞匯的原文、原文的發(fā)音和譯文之間的關(guān)系,對(duì)提取的詞匯進(jìn)行過(guò)濾。
[16]根據(jù)上述方案[15]所述的對(duì)語(yǔ)音進(jìn)行翻譯的裝置,其中,
所述過(guò)濾單元:
比較詞匯的原文的發(fā)音是否一致;
在原文的發(fā)音一致的情況下,比較原文和譯文是否一致;和
在原文和譯文都一致的情況下,對(duì)原文的發(fā)音、原文和譯文都一致的詞匯進(jìn)行過(guò)濾,在原文和譯文的至少一個(gè)不一致的情況下,基于使用頻率對(duì)原文的發(fā)音一致的詞匯進(jìn)行過(guò)濾。
[17]根據(jù)上述方案[15]或[16]所述的對(duì)語(yǔ)音進(jìn)行翻譯的裝置,其中,
所述過(guò)濾單元:
對(duì)過(guò)提取的詞匯按照使用頻率進(jìn)行排序;和
將使用頻率低于第一閾值的詞匯過(guò)濾,或者,將使用頻率低的預(yù)定數(shù)量或預(yù)定百分比的詞匯過(guò)濾。
上述方案[15]至[17]的對(duì)語(yǔ)音進(jìn)行翻譯的裝置,通過(guò)對(duì)提取的詞匯進(jìn)行過(guò)濾,能夠進(jìn)一步縮減數(shù)據(jù)量,降低成本,提高效率。
[18]根據(jù)上述方案[13]至[17]的任一方案所述的對(duì)語(yǔ)音進(jìn)行翻譯的裝置,還包括:
積累單元,其基于用戶在會(huì)議中的發(fā)言,積累新的用戶詞匯,向所述語(yǔ)音識(shí)別單元和所述機(jī)器翻譯單元發(fā)送。
上述方案[18]的對(duì)語(yǔ)音進(jìn)行翻譯的裝置,通過(guò)在會(huì)議過(guò)程中積累新的詞匯,并自動(dòng)更新語(yǔ)音識(shí)別單元和機(jī)器翻譯單元,從而能夠使語(yǔ)音識(shí)別單元和機(jī)器翻譯單元根據(jù)會(huì)議過(guò)程中的發(fā)言內(nèi)容自動(dòng)調(diào)節(jié),實(shí)現(xiàn)動(dòng)態(tài)自適應(yīng)的語(yǔ)音翻譯效果。
[19]根據(jù)上述方案[13]至[18]的任一方案所述的對(duì)語(yǔ)音進(jìn)行翻譯的裝置,還包括:
積累單元,其基于用戶在會(huì)議中的發(fā)言,積累新的用戶詞匯,向所述詞匯庫(kù)的用戶詞典中添加。
[20]根據(jù)上述方案[18]或[19]所述的對(duì)語(yǔ)音進(jìn)行翻譯的裝置,其中,
所述積累單元具有以下功能的至少一種:
手動(dòng)輸入所述新的用戶詞匯的原文、原文的發(fā)音和譯文;
手動(dòng)輸入所述新的用戶詞匯的原文,利用文本語(yǔ)音轉(zhuǎn)換模塊生成原文的發(fā)音,并利用機(jī)器翻譯單元生成譯文;
從用戶在會(huì)議中的發(fā)言中采集語(yǔ)音數(shù)據(jù),利用語(yǔ)音識(shí)別單元生成原文和原文的發(fā)音,并利用機(jī)器翻譯單元生成譯文;
在會(huì)議的語(yǔ)音識(shí)別結(jié)果和機(jī)器翻譯結(jié)果中選擇所述新的用戶詞匯;和
在會(huì)議的語(yǔ)音識(shí)別結(jié)果和機(jī)器翻譯結(jié)果中檢測(cè)未知詞匯,作為所述新的用戶詞匯。
[21]根據(jù)上述方案[19]或[20]所述的對(duì)語(yǔ)音進(jìn)行翻譯的裝置,其中,
所述新的用戶詞匯包括會(huì)議主題信息和用戶信息。
[22]根據(jù)上述方案[19]至[21]的任一方案所述的對(duì)語(yǔ)音進(jìn)行翻譯的裝置,還包括:
更新單元,其更新所述用戶詞典的用戶詞匯的使用頻率。
[23]根據(jù)上述方案[19]至[22]的任一方案所述的對(duì)語(yǔ)音進(jìn)行翻譯的裝置,還包括:
組詞匯添加單元,其基于用戶詞匯向所述詞匯庫(kù)的組詞典中添加新的組詞匯。
[24]根據(jù)上述方案[23]所述的對(duì)語(yǔ)音進(jìn)行翻譯的裝置,其中,
所述組詞匯添加單元:
獲取屬于所述組的用戶的用戶詞匯;
計(jì)算相同用戶詞匯的用戶數(shù)和使用頻率;
將所述用戶數(shù)大于第二閾值和/或所述使用頻率大于第三閾值的用戶詞匯作為組詞匯添加到所述組詞典中。
上述方案[19]至[24]的對(duì)語(yǔ)音進(jìn)行翻譯的裝置,通過(guò)在會(huì)議過(guò)程中積累新的詞匯,添加到詞匯庫(kù)中,并應(yīng)用到以后的會(huì)議中,能夠持續(xù)改善會(huì)議語(yǔ)音翻譯的質(zhì)量。
附圖說(shuō)明
圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法的示意流程圖。
圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法中對(duì)提取的詞匯進(jìn)行過(guò)濾的示意流程圖。
圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法中對(duì)提取的詞匯進(jìn)行過(guò)濾的另一示意流程圖。
圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法中對(duì)提取的詞匯進(jìn)行過(guò)濾的又一示意流程圖。
圖5是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法中對(duì)積累后的用戶詞匯的使用頻率進(jìn)行更新的示意流程圖。
圖6是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法中添加組詞匯的示意流程圖。
圖7是根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的裝置的框圖。
具體實(shí)施方式
下面就結(jié)合附圖對(duì)本發(fā)明的各個(gè)優(yōu)選實(shí)施方式進(jìn)行詳細(xì)地說(shuō)明。
<對(duì)語(yǔ)音進(jìn)行翻譯的方法>
圖1是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法的示意流程圖。
如圖1所示,本實(shí)施方式提供一種對(duì)語(yǔ)音進(jìn)行翻譯的方法,包括:步驟s101,基于與會(huì)議相關(guān)的信息10,從詞匯庫(kù)20中提取用于該會(huì)議的詞匯;步驟s105,將提取的詞匯發(fā)送給語(yǔ)音翻譯單元30中,所述語(yǔ)音翻譯單元30包括語(yǔ)音識(shí)別單元301和機(jī)器翻譯單元305;步驟s110,從會(huì)議中的語(yǔ)音40,接收會(huì)議中的第一語(yǔ)言的語(yǔ)音;步驟s115,利用所述語(yǔ)音識(shí)別引301將所述第一語(yǔ)言的語(yǔ)音識(shí)別為所述第一語(yǔ)言的文本;和步驟s120,利用所述機(jī)器翻譯引305將所述第一語(yǔ)言的文本翻譯為第二語(yǔ)言的文本。
在本實(shí)施方式中,會(huì)議是指廣義的會(huì)議,包括通常由至少兩方(或兩個(gè)人)參加的會(huì)議,也包括由至少一個(gè)人對(duì)一個(gè)以上的人進(jìn)行的演講或報(bào)告,甚至包括兩個(gè)以上的人之間的語(yǔ)音或視頻聊天,即只要是兩個(gè)以上的人通過(guò)語(yǔ)音進(jìn)行溝通或交流的場(chǎng)合,都屬于這里的會(huì)議。
在本實(shí)施方式中,會(huì)議可以是現(xiàn)場(chǎng)會(huì)議,例如在會(huì)議室中舉行的會(huì)議,會(huì)議參與者直接與其它會(huì)議參與者進(jìn)行交流,也可以是網(wǎng)絡(luò)會(huì)議,即會(huì)議參與者通過(guò)網(wǎng)絡(luò)來(lái)參加會(huì)議,在這種情況下,會(huì)議參與者的語(yǔ)音可以通過(guò)網(wǎng)絡(luò)傳送給其它會(huì)議參與者。
下面詳細(xì)說(shuō)明本實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法的各個(gè)步驟。
在步驟s101,基于與會(huì)議相關(guān)的信息10,從詞匯庫(kù)20中提取用于該會(huì)議的詞匯。
在本實(shí)施方式中,與會(huì)議相關(guān)的信息10優(yōu)選包括會(huì)議主題和用戶信息,用戶信息是會(huì)議參與者的信息。
詞匯庫(kù)20優(yōu)選包括用戶詞典、組詞典和用戶與組的關(guān)系信息。詞匯庫(kù)20中具有多個(gè)用戶詞典,每個(gè)用戶詞典包括與該用戶相關(guān)的詞匯,例如該用戶在歷史會(huì)議中積累的詞匯,該用戶的專用詞匯等。詞匯庫(kù)20中對(duì)多個(gè)用戶進(jìn)行了分組,每個(gè)組具有一個(gè)組詞典。詞典中的每個(gè)詞匯包括原文、原文的發(fā)音和譯文,其中譯文可以包括多個(gè)語(yǔ)言的譯文。
在本實(shí)施方式中,優(yōu)選通過(guò)以下方法從詞匯庫(kù)20中提取用于本次會(huì)議的詞匯。
首先,基于用戶信息,從詞匯庫(kù)20中的用戶詞典中提取與用戶相關(guān)的用戶詞匯,并基于用戶與組的關(guān)系信息,從組詞典中提取用戶所屬的組的組詞匯。
接著,在提取出用戶詞匯和組詞匯后,優(yōu)選,基于會(huì)議主題,從提取的用戶詞匯和組詞匯中提取與會(huì)議相關(guān)的詞匯。
另外,優(yōu)選,對(duì)提取的與會(huì)議相關(guān)的詞匯進(jìn)行過(guò)濾,優(yōu)選將相同詞匯和使用頻率低的詞匯過(guò)濾掉。
下面,參照附圖2-4對(duì)本實(shí)施方式中對(duì)提取的用戶詞匯和組詞匯進(jìn)行過(guò)濾的優(yōu)選方法進(jìn)行詳細(xì)說(shuō)明。圖2是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法中對(duì)提取的詞匯進(jìn)行過(guò)濾的方法的示意流程圖。圖3是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法中對(duì)提取的詞匯進(jìn)行過(guò)濾的方法的另一示意流程圖。圖4是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法中對(duì)提取的詞匯進(jìn)行過(guò)濾的方法的又一示意流程圖。
如圖2所示,在步驟s201,比較提取的詞匯60的原文的發(fā)音,在步驟s205,判斷原文的發(fā)音是否一致。在原文的發(fā)音信息不一致的情況下,視為不同詞匯。
在原文的發(fā)音一致的情況下,在步驟s215,比較原文的發(fā)音一致的詞匯的原文和譯文。在步驟s220,判斷原文和譯文是否一致,在原文發(fā)音一致,但原文或譯文不一致的情況下,在步驟s225,基于使用頻率進(jìn)行過(guò)濾。
對(duì)于用戶詞匯,其使用頻率例如可以是用戶在歷史發(fā)言中使用的次數(shù),對(duì)于組詞匯,其使用頻率例如可以是屬于該組的用戶在歷史發(fā)言中使用的次數(shù)。在步驟s225,將使用頻率低于一定閾值的詞匯過(guò)濾掉。另外,在步驟s225,也可以將與會(huì)議主題匹配且使用頻度最高的詞匯保留,將其他詞匯過(guò)濾掉。
在步驟s230,在原文的發(fā)音、原文和譯文都一致的情況下,視為相同詞匯,僅保留一個(gè)詞匯,將相同的其他詞匯過(guò)濾掉。
另外,也可以基于圖3或圖4的方法對(duì)提取的詞匯60進(jìn)行過(guò)濾,還可以在基于圖2的方法進(jìn)行過(guò)濾后,基于圖3或圖4的方法進(jìn)行二次過(guò)濾。也就是說(shuō),圖2、圖3、圖4的過(guò)濾方法可以單獨(dú)使用,也可以進(jìn)行任意組合。
下面詳細(xì)說(shuō)明圖3的絕對(duì)性過(guò)濾方法和圖4的相對(duì)性過(guò)濾方法。
如圖3所示,在步驟s301,按照使用頻率由高到低的順序?qū)μ崛〉脑~匯60進(jìn)行排序。接著,在步驟s305,將使用頻率低于一定閾值的詞匯過(guò)濾掉。
如圖4所示,在步驟s401,按照使用頻率由高到低的順序?qū)μ崛〉脑~匯60進(jìn)行排序。接著,在步驟s405,將使用頻率低的預(yù)定數(shù)量或預(yù)定百分比的詞匯過(guò)濾,例如將使用頻率低的1000個(gè)詞匯過(guò)濾掉,或者將使用頻率低的30%的詞匯過(guò)濾掉。
返回圖1,在步驟s105,將提取的詞匯加入語(yǔ)音翻譯單元30中。語(yǔ)音翻譯單元包括語(yǔ)音識(shí)別單元301和機(jī)器翻譯單元305。語(yǔ)音識(shí)別單元301和機(jī)器翻譯單元305可以是本領(lǐng)域的技術(shù)人員公知的任何語(yǔ)音識(shí)別單元和機(jī)器翻譯單元,本實(shí)施方式對(duì)此沒(méi)有任何限制。
在步驟s110,從會(huì)議中的語(yǔ)音40中接收會(huì)議中的第一語(yǔ)言的語(yǔ)音。
在本實(shí)施方式中,第一語(yǔ)言可以是人類語(yǔ)言中的任何一種語(yǔ)言,例如, 英語(yǔ)、漢語(yǔ)、日語(yǔ)等,第一語(yǔ)言的語(yǔ)音可以是由人來(lái)發(fā)出,也可以由機(jī)器來(lái)發(fā)出,例如會(huì)議參與者播放的錄音等,本實(shí)施方式對(duì)此沒(méi)有任何限制。
在步驟s115,利用語(yǔ)音識(shí)別單元301將第一語(yǔ)言的語(yǔ)音識(shí)別為所述第一語(yǔ)言的文本。在步驟s120,利用機(jī)器翻譯單元305將所述第一語(yǔ)言的文本翻譯為第二語(yǔ)言的文本。
在本實(shí)施方式中,第二語(yǔ)言可以是與第一語(yǔ)言不同的任何一種語(yǔ)言。
本實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法,基于會(huì)議的基本信息,提取僅適合本次會(huì)議的自適應(yīng)數(shù)據(jù)并實(shí)時(shí)登錄到語(yǔ)音翻譯單元中,數(shù)據(jù)量小,成本低,效率高,能夠提供高質(zhì)量的語(yǔ)音翻譯服務(wù)。進(jìn)而,本實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法,基于會(huì)議的主題和用戶信息,在詞匯庫(kù)中提取適合本次會(huì)議的專用詞匯,數(shù)據(jù)量小,成本低,效率高,能夠提高會(huì)議語(yǔ)音翻譯的質(zhì)量。進(jìn)而,本實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法,通過(guò)對(duì)提取的詞匯進(jìn)行過(guò)濾,能夠進(jìn)一步縮減數(shù)據(jù)量,降低成本,提高效率。
另外,優(yōu)選,在本實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法中,基于用戶在會(huì)議中的發(fā)言,積累新的用戶詞匯,向語(yǔ)音翻譯單元30發(fā)送。
另外,還優(yōu)選,在本實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法中,基于用戶在會(huì)議中的發(fā)言,積累新的用戶詞匯,向詞匯庫(kù)20的用戶詞典中添加。
下面具體說(shuō)明本實(shí)施方式中積累新的用戶詞匯的方法。
在本實(shí)施方式中,基于用戶在會(huì)議中的發(fā)言積累新的用戶詞匯的方法可以是以下方法的任何一種方法或以下方法的任意組合。
(1)基于用戶在會(huì)議中的發(fā)言,手動(dòng)輸入新的用戶詞匯的原文、原文的發(fā)音和譯文。
(2)基于用戶在會(huì)議中的發(fā)言,手動(dòng)輸入新的用戶詞匯的原文,利用字音轉(zhuǎn)化模塊(grapheme-to-phonememodule)和/或文本語(yǔ)音轉(zhuǎn)化模塊(text-to-phonememodule)生成原文的發(fā)音,并利用機(jī)器翻譯單元生成譯文,其中自動(dòng)生成的信息可以修改。
(3)從用戶在會(huì)議中的發(fā)言中采集語(yǔ)音數(shù)據(jù),利用語(yǔ)音識(shí)別單元生成原文和原文的發(fā)音,并利用機(jī)器翻譯單元生成譯文,其中自動(dòng)生成的信息 可以修改。
(4)在會(huì)議的語(yǔ)音識(shí)別結(jié)果和機(jī)器翻譯結(jié)果中選擇要錄入的用戶詞匯,優(yōu)選進(jìn)行校正后錄入。
(5)在會(huì)議的語(yǔ)音識(shí)別結(jié)果和機(jī)器翻譯結(jié)果中檢測(cè)未知詞匯,優(yōu)選進(jìn)行校正后錄入。
應(yīng)該理解,盡管可以基于以上優(yōu)選的方法積累新的用戶詞匯,但是也可以使用本領(lǐng)域的技術(shù)人員知曉的其他方法積累新的用戶詞匯,本實(shí)施方式對(duì)此沒(méi)有任何限制。
另外,在基于用戶在會(huì)議中的發(fā)言積累新的用戶詞匯的過(guò)程中,同時(shí)獲取與新的用戶相關(guān)的會(huì)議主題信息和用戶信息。
另外,在本實(shí)施例中,在將積累的新的用戶詞匯向詞匯庫(kù)20的用戶詞典中添加后,優(yōu)選實(shí)時(shí)或事后更新用戶詞匯的使用頻率。
下面參照?qǐng)D5詳細(xì)說(shuō)明更新用戶詞匯的使用頻率的方法。圖5是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法中對(duì)積累后的用戶詞匯的使用頻率進(jìn)行更新的方法的示意流程圖。
如圖5所示,在步驟s501,獲取用戶詞匯。接著,在步驟s505,將用戶詞匯與用戶的發(fā)言記錄進(jìn)行匹配,即針對(duì)一個(gè)用戶詞匯,在用戶的發(fā)言記錄中查找是否存在該用戶詞匯,如果存在,則在步驟s510,將匹配的次數(shù),即該用戶詞匯在用戶的發(fā)言記錄中出現(xiàn)的次數(shù),作為該用戶詞匯的使用頻率更新到數(shù)據(jù)庫(kù)中。接著,在步驟s515中,判斷是否對(duì)所有的用戶詞匯進(jìn)行匹配,如果匹配完,則結(jié)束,如果沒(méi)有匹配完,則返回步驟s505繼續(xù)進(jìn)行匹配。
另外,優(yōu)選,在本實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法中,基于用戶詞匯向詞匯庫(kù)20的組詞典中添加新的組詞匯。
下面參照?qǐng)D6詳細(xì)說(shuō)明在組詞典中添加新的組詞匯的方法。圖6是根據(jù)本發(fā)明的一個(gè)實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法中添加組詞匯的方法的示意流程圖。
如圖6所示,在步驟s601,獲取屬于一個(gè)組的用戶的用戶詞匯。
在步驟s605,計(jì)算相同用戶詞匯的用戶數(shù)和使用頻率。具體地,每個(gè)用戶詞匯的屬性信息包括用戶信息和使用頻率,將具有該用戶詞匯的用戶詞典的數(shù)量作為用戶數(shù),并將該用戶詞匯在每個(gè)用戶詞典中的使用頻率的和作為步驟s605中所計(jì)算的使用頻率。
接著,在步驟s510中比較用戶數(shù)是否大于第二閾值,并在步驟s520中比較使用頻率是否大于第三閾值。在用戶數(shù)大于第二閾值且使用頻率大于第三閾值的情況下,將該用戶詞匯作為組詞匯添加到組詞典中,在用戶數(shù)不大于第二閾值或者使用頻率不大于第三閾值的情況下,不將該用戶詞匯作為組詞匯添加到組詞典中。
本實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法,通過(guò)在會(huì)議過(guò)程中積累新的詞匯,并自動(dòng)更新語(yǔ)音翻譯單元,從而能夠使語(yǔ)音翻譯單元根據(jù)會(huì)議過(guò)程中的發(fā)言內(nèi)容自動(dòng)調(diào)節(jié),實(shí)現(xiàn)動(dòng)態(tài)自適應(yīng)的語(yǔ)音翻譯效果。另外,本實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的方法,通過(guò)在會(huì)議過(guò)程中積累新的詞匯,添加到詞匯庫(kù)中,并應(yīng)用到以后的會(huì)議中,能夠持續(xù)改善會(huì)議語(yǔ)音翻譯的質(zhì)量。
<對(duì)語(yǔ)音進(jìn)行翻譯的裝置>
在同一發(fā)明構(gòu)思下,圖7是根據(jù)本發(fā)明的另一個(gè)實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的裝置的框圖。下面就結(jié)合這些圖,對(duì)本實(shí)施方式進(jìn)行描述。對(duì)于那些與前面實(shí)施方式相同的部分,適當(dāng)省略其說(shuō)明。
如圖7所示,本實(shí)施方式提供一種生成會(huì)議記錄的裝置700,包括:語(yǔ)音翻譯單元30,其包括語(yǔ)音識(shí)別單元301和機(jī)器翻譯單元305;提取單元701,其基于與會(huì)議相關(guān)的信息10,從詞匯庫(kù)20中提取用于該會(huì)議的詞匯,將提取的詞匯加入所述語(yǔ)音翻譯單元30中;和接收單元710,其接收會(huì)議中的第一語(yǔ)言的語(yǔ)音;其中,所述語(yǔ)音識(shí)別單元301將所述第一語(yǔ)言的語(yǔ)音識(shí)別為所述第一語(yǔ)言的文本,所述機(jī)器翻譯單元305將所述第一語(yǔ)言的文本翻譯為第二語(yǔ)言的文本。另外,可選地,本實(shí)施方式的生成會(huì)議記錄的裝置700還可以包括積累單元720。
在本實(shí)施方式中,會(huì)議是指廣義的會(huì)議,包括通常由至少兩方(或兩 個(gè)人)參加的會(huì)議,也包括由至少一個(gè)人對(duì)一個(gè)以上的人進(jìn)行的演講或報(bào)告,甚至包括兩個(gè)以上的人之間的語(yǔ)音或視頻聊天,即只要是兩個(gè)以上的人通過(guò)語(yǔ)音進(jìn)行溝通或交流的場(chǎng)合,都屬于這里的會(huì)議。
在本實(shí)施方式中,會(huì)議可以是現(xiàn)場(chǎng)會(huì)議,例如在會(huì)議室中舉行的會(huì)議,會(huì)議參與者直接與其它會(huì)議參與者進(jìn)行交流,也可以是網(wǎng)絡(luò)會(huì)議,即會(huì)議參與者通過(guò)網(wǎng)絡(luò)來(lái)參加會(huì)議,在這種情況下,會(huì)議參與者的語(yǔ)音可以通過(guò)網(wǎng)絡(luò)傳送給其它會(huì)議參與者。
下面詳細(xì)說(shuō)明本實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的裝置700的各個(gè)單元和模塊。
提取單元701,基于與會(huì)議相關(guān)的信息10,從詞匯庫(kù)20中提取用于該會(huì)議的詞匯。
在本實(shí)施方式中,與會(huì)議相關(guān)的信息10優(yōu)選包括會(huì)議主題和用戶信息,用戶信息是會(huì)議參與者的信息。
詞匯庫(kù)20優(yōu)選包括用戶詞典、組詞典和用戶與組的關(guān)系信息。詞匯庫(kù)20中具有多個(gè)用戶詞典,每個(gè)用戶詞典包括與該用戶相關(guān)的詞匯,例如該用戶在歷史會(huì)議中積累的詞匯,該用戶的專用詞匯等。詞匯庫(kù)20中對(duì)多個(gè)用戶進(jìn)行了分組,每個(gè)組具有一個(gè)組詞典。詞典中的每個(gè)詞匯包括原文、原文的發(fā)音和譯文,其中譯文可以包括多個(gè)語(yǔ)言的譯文。
在本實(shí)施方式中,提取單元701通過(guò)以下方法從詞匯庫(kù)20中提取用于本次會(huì)議的詞匯。
首先,提取單元701,基于用戶信息,從詞匯庫(kù)20中的用戶詞典中提取與用戶相關(guān)的用戶詞匯,并基于用戶與組的關(guān)系信息,從組詞典中提取用戶所屬的組的組詞匯。
接著,提取單元701,在提取出用戶詞匯和組詞匯后,基于會(huì)議主題,從提取的用戶詞匯和組詞匯中提取與會(huì)議相關(guān)的詞匯,
另外,優(yōu)選,提取單元701包括過(guò)濾單元。過(guò)濾單元對(duì)提取的與會(huì)議相關(guān)的詞匯進(jìn)行過(guò)濾,優(yōu)選將相同詞匯和使用頻率低的詞匯過(guò)濾掉。
在本實(shí)施方式中,過(guò)濾單元對(duì)提取的與會(huì)議相關(guān)的詞匯進(jìn)行過(guò)濾的方 法與上述參照附圖2-4說(shuō)明的方法類似,下面參照?qǐng)D2-4進(jìn)行說(shuō)明。
如圖2所示,過(guò)濾單元首先比較提取的詞匯60的原文的發(fā)音,判斷原文的發(fā)音是否一致。在原文的發(fā)音信息不一致的情況下,視為不同詞匯。
在原文的發(fā)音一致的情況下,過(guò)濾單元,比較原文的發(fā)音一致的詞匯的原文和譯文,判斷原文和譯文是否一致,在原文發(fā)音一致,但原文或譯文不一致的情況下,過(guò)濾單元,基于使用頻率進(jìn)行過(guò)濾。
對(duì)于用戶詞匯,其使用頻率例如可以是用戶在歷史發(fā)言中使用的次數(shù),對(duì)于組詞匯,其使用頻率例如可以是屬于該組的用戶在歷史發(fā)言中使用的次數(shù)。過(guò)濾單元,將使用頻率低于一定閾值的詞匯過(guò)濾掉。另外,過(guò)濾單元,也可以將與會(huì)議主題匹配且使用頻度最高的詞匯保留,將其他詞匯過(guò)濾掉。
另外,過(guò)濾單元,在原文的發(fā)音、原文和譯文都一致的情況下,視為相同詞匯,僅保留一個(gè)詞匯,將相同的其他詞匯過(guò)濾掉。
另外,過(guò)濾單元也可以基于圖3或圖4的方法對(duì)提取的詞匯60進(jìn)行過(guò)濾,還可以在基于圖2的方法進(jìn)行過(guò)濾后,基于圖3或圖4的方法進(jìn)行二次過(guò)濾。也就是說(shuō),圖2、圖3、圖4的過(guò)濾方法可以單獨(dú)使用,也可以進(jìn)行任意組合。
下面詳細(xì)說(shuō)明圖3的絕對(duì)性過(guò)濾方法和圖4的相對(duì)性過(guò)濾方法。
如圖3所示,過(guò)濾單元,按照使用頻率由高到低的順序?qū)μ崛〉脑~匯60進(jìn)行排序。接著,過(guò)濾單元,將使用頻率低于一定閾值的詞匯過(guò)濾掉。
如圖4所示,過(guò)濾單元,按照使用頻率由高到低的順序?qū)μ崛〉脑~匯60進(jìn)行排序。接著,過(guò)濾單元,將使用頻率低的預(yù)定數(shù)量或預(yù)定百分比的詞匯過(guò)濾,例如將使用頻率低的1000個(gè)詞匯過(guò)濾掉,或者將使用頻率低的30%的詞匯過(guò)濾掉。
返回圖7,提取單元701在提取與會(huì)議相關(guān)的詞匯后,將提取的詞匯加入語(yǔ)音翻譯單元30中。語(yǔ)音翻譯單元包括語(yǔ)音識(shí)別單元301和機(jī)器翻譯單元305。語(yǔ)音識(shí)別單元301和機(jī)器翻譯單元305可以是本領(lǐng)域的技術(shù)人員公知的任何語(yǔ)音識(shí)別單元和機(jī)器翻譯單元,本實(shí)施方式對(duì)此沒(méi)有任何限 制。
接收單元710,從會(huì)議中的語(yǔ)音40中接收會(huì)議中的第一語(yǔ)言的語(yǔ)音。
在本實(shí)施方式中,第一語(yǔ)言可以是人類語(yǔ)言中的任何一種語(yǔ)言,例如,英語(yǔ)、漢語(yǔ)、日語(yǔ)等,第一語(yǔ)言的語(yǔ)音可以是由人來(lái)發(fā)出,也可以由機(jī)器來(lái)發(fā)出,例如會(huì)議參與者播放的錄音等,本實(shí)施方式對(duì)此沒(méi)有任何限制。
接收單元710將接收的第一語(yǔ)言的語(yǔ)音輸入語(yǔ)音識(shí)別單元301,語(yǔ)音識(shí)別單元301將第一語(yǔ)言的語(yǔ)音識(shí)別為所述第一語(yǔ)言的文本,之后,機(jī)器翻譯單元305將所述第一語(yǔ)言的文本翻譯為第二語(yǔ)言的文本。
在本實(shí)施方式中,第二語(yǔ)言可以是與第一語(yǔ)言不同的任何一種語(yǔ)言。
本實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的裝置700,基于會(huì)議的基本信息,提取僅適合本次會(huì)議的自適應(yīng)數(shù)據(jù)并實(shí)時(shí)登錄到語(yǔ)音翻譯單元中,數(shù)據(jù)量小,成本低,效率高,能夠提供高質(zhì)量的語(yǔ)音翻譯服務(wù)。進(jìn)而,本實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的裝置,基于會(huì)議的主題和用戶信息,在詞匯庫(kù)中提取適合本次會(huì)議的專用詞匯,數(shù)據(jù)量小,成本低,效率高,能夠提高會(huì)議語(yǔ)音翻譯的質(zhì)量。進(jìn)而,本實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的裝置,通過(guò)對(duì)提取的詞匯進(jìn)行過(guò)濾,能夠進(jìn)一步縮減數(shù)據(jù)量,降低成本,提高效率。
另外,優(yōu)選,本實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的裝置700包括積累單元720,其基于用戶在會(huì)議中的發(fā)言,積累新的用戶詞匯,向語(yǔ)音翻譯單元30發(fā)送。
另外,積累單元720,優(yōu)選,基于用戶在會(huì)議中的發(fā)言,積累新的用戶詞匯,向詞匯庫(kù)20的用戶詞典中添加。
下面具體說(shuō)明本實(shí)施方式中積累單元720積累新的用戶詞匯的功能。
在本實(shí)施方式中,積累單元720具有以下功能的至少一種。
(1)基于用戶在會(huì)議中的發(fā)言,手動(dòng)輸入新的用戶詞匯的原文、原文的發(fā)音和譯文。
(2)基于用戶在會(huì)議中的發(fā)言,手動(dòng)輸入新的用戶詞匯的原文,利用字音轉(zhuǎn)化模塊(grapheme-to-phonememodule)和/或文本語(yǔ)音轉(zhuǎn)化模塊(text-to-phonememodule)生成原文的發(fā)音,并利用機(jī)器翻譯單元生成 譯文,其中自動(dòng)生成的信息可以修改。
(3)從用戶在會(huì)議中的發(fā)言中采集語(yǔ)音數(shù)據(jù),利用語(yǔ)音識(shí)別單元生成原文和原文的發(fā)音,并利用機(jī)器翻譯單元生成譯文,其中自動(dòng)生成的信息可以修改。
(4)在會(huì)議的語(yǔ)音識(shí)別結(jié)果和機(jī)器翻譯結(jié)果中選擇要錄入的用戶詞匯,優(yōu)選進(jìn)行校正后錄入。
(5)在會(huì)議的語(yǔ)音識(shí)別結(jié)果和機(jī)器翻譯結(jié)果中檢測(cè)未知詞匯,優(yōu)選進(jìn)行校正后錄入。
應(yīng)該理解,積累單元720除了具有以上功能,還可以具有本領(lǐng)域的技術(shù)人員知曉的其他積累新的用戶詞匯的功能,本實(shí)施方式對(duì)此沒(méi)有任何限制。
另外,積累單元720,在基于用戶在會(huì)議中的發(fā)言積累新的用戶詞匯的過(guò)程中,同時(shí)獲取與新的用戶相關(guān)的會(huì)議主題信息和用戶信息。
另外,本實(shí)施例的對(duì)語(yǔ)音進(jìn)行翻譯的裝置700還優(yōu)選包括更新單元,其在積累單元720將積累的新的用戶詞匯向詞匯庫(kù)20的用戶詞典中添加后,實(shí)時(shí)或事后更新用戶詞匯的使用頻率。
在本實(shí)施方式中,更新單元對(duì)用戶詞匯的使用頻率進(jìn)行更新的方法與上述參照附圖5說(shuō)明的方法類似,在此參照?qǐng)D5進(jìn)行說(shuō)明。
如圖5所示,更新單元,獲取用戶詞匯。接著,更新單元,將用戶詞匯與用戶的發(fā)言記錄進(jìn)行匹配,即針對(duì)一個(gè)用戶詞匯,在用戶的發(fā)言記錄中查找是否存在該用戶詞匯,如果存在,更新單元將匹配的次數(shù),即該用戶詞匯在用戶的發(fā)言記錄中出現(xiàn)的次數(shù),作為該用戶詞匯的使用頻率更新到數(shù)據(jù)庫(kù)中。最后,更新單元判斷是否對(duì)所有的用戶詞匯進(jìn)行匹配,如果匹配完,則結(jié)束,如果沒(méi)有匹配完,則繼續(xù)進(jìn)行匹配。
另外,本實(shí)施例的對(duì)語(yǔ)音進(jìn)行翻譯的裝置700還優(yōu)選包括組詞匯添加單元,其基于用戶詞匯向詞匯庫(kù)20的組詞典中添加新的組詞匯。
在本實(shí)施方式中,組詞匯添加單元在組詞典中添新的加組詞匯的方法與上述參照附圖6說(shuō)明的方法類似,在此參照?qǐng)D6進(jìn)行說(shuō)明。
如圖6所示,組詞匯添加單元,獲取屬于一個(gè)組的用戶的用戶詞匯。
組詞匯添加單元,計(jì)算相同用戶詞匯的用戶數(shù)和使用頻率。具體地,每個(gè)用戶詞匯的屬性信息包括用戶信息和使用頻率,將具有該用戶詞匯的用戶詞典的數(shù)量作為用戶數(shù),并將該用戶詞匯在每個(gè)用戶詞典中的使用頻率的和作為使用頻率。
組詞匯添加單元,比較用戶數(shù)是否大于第二閾值,并比較使用頻率是否大于第三閾值。在用戶數(shù)大于第二閾值且使用頻率大于第三閾值的情況下,將該用戶詞匯作為組詞匯添加到組詞典中,在用戶數(shù)不大于第二閾值或者使用頻率不大于第三閾值的情況下,不將該用戶詞匯作為組詞匯添加到組詞典中。
本實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的裝置700,通過(guò)在會(huì)議過(guò)程中積累新的詞匯,并自動(dòng)更新語(yǔ)音翻譯單元,從而能夠使語(yǔ)音翻譯單元根據(jù)會(huì)議過(guò)程中的發(fā)言內(nèi)容自動(dòng)調(diào)節(jié),實(shí)現(xiàn)動(dòng)態(tài)自適應(yīng)的語(yǔ)音翻譯效果。另外,本實(shí)施方式的對(duì)語(yǔ)音進(jìn)行翻譯的裝置,通過(guò)在會(huì)議過(guò)程中積累新的詞匯,添加到詞匯庫(kù)中,并應(yīng)用到以后的會(huì)議中,能夠持續(xù)改善會(huì)議語(yǔ)音翻譯的質(zhì)量。
以上雖然通過(guò)一些示例性的實(shí)施方式詳細(xì)地描述了本發(fā)明的對(duì)語(yǔ)音進(jìn)行翻譯的方法和裝置,但是以上這些實(shí)施方式并不是窮舉的,本領(lǐng)域技術(shù)人員可以在本發(fā)明的精神和范圍內(nèi)實(shí)現(xiàn)各種變化和修改。因此,本發(fā)明并不限于這些實(shí)施方式,本發(fā)明的范圍僅由所附權(quán)利要求書為準(zhǔn)。