用于將包含文字的數(shù)據(jù)組轉(zhuǎn)為語音的方法和裝置制造方法
【專利摘要】本發(fā)明涉及一種用于將包含文本的數(shù)據(jù)組(2)語音化的方法和一種設(shè)置用于執(zhí)行該方法的裝置,其中,作為字素存在的數(shù)據(jù)組(2)被轉(zhuǎn)換成音素,并且作為語音化的數(shù)據(jù)組(8)存儲,其中,在預(yù)處理中為語音化準(zhǔn)備字素,特別是通過按語言定義和/或按用戶定義地修正字素的方式。設(shè)計的是,字素的預(yù)處理和字素到音素的轉(zhuǎn)換在不同的計算單元(5,6)上或者計算單元(5,6)的不同部分上并行地進(jìn)行。
【專利說明】用于將包含文字的數(shù)據(jù)組轉(zhuǎn)為語音的方法和裝置
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及一種用于將包含文字的數(shù)據(jù)組轉(zhuǎn)為語音的方法和裝置,特別是不同的 內(nèi)容,例如音樂標(biāo)題、音樂表演者、音樂專輯或電話號碼簿、聯(lián)系人名稱或者諸如此類,它們 在由語音控制的用戶端口中被用于控制特定的流程,在這些流程中,使用者將包含這些內(nèi) 容的語音指令轉(zhuǎn)達(dá)給用戶端口。本發(fā)明的一種優(yōu)選的應(yīng)用場合是機(jī)動車控制裝置領(lǐng)域,特 別是機(jī)動車內(nèi)的多媒體控制單元中,它們用于機(jī)動車內(nèi)的信息、娛樂和/或通信,同時本發(fā) 明不局限于這一種優(yōu)選的應(yīng)用場合。這類控制單元特別是可以包含音樂播放和電話功能。
【背景技術(shù)】
[0002] 在根據(jù)本發(fā)明提出的方法中,作為字素、作為成串的單個的字素符號、特別是作為 字母串或者標(biāo)準(zhǔn)化的字母串存在的數(shù)據(jù)組被轉(zhuǎn)化成音素,也就是成串的單個音素符號,并 且作為語音化的數(shù)據(jù)組存儲起來,特別是存儲在語音化的數(shù)據(jù)列表中。"音素"這個概念在 本文中特別是理解為成串的多個單個的音素符號。相應(yīng)地,對于在本文中特別是理解為成 串的單個字素符號的概念"字素"就是如此。類似于音素,字素(字素符號)是文本的圖形 表達(dá)中最小的、區(qū)分語義的單元,并且通常是文字的字母。
[0003] 在所提出的方法中,在預(yù)處理中為真正的語音化準(zhǔn)備字素,特別是為此在轉(zhuǎn)化為 音素之前,通過語言定義地和/或由用戶定義地修正字素的方法。例如語音化的數(shù)據(jù)組形 式的語音化的數(shù)據(jù)列表就能夠以公知的方式例如在由語音控制的用戶端口的語言識別中 使用。
[0004] 預(yù)處理的前提背景是,字素(還有音素)和語言有關(guān),具體視當(dāng)前使用的語言而 定。然而在數(shù)據(jù)組中恰恰經(jīng)常有不同的語言的條目,為了被語音化,它們必須被標(biāo)識出來并 且進(jìn)行匹配。相應(yīng)地,可以通過識別外語文本、但也可以通過替換縮略詞、刪除前綴(如"先 生""女士""博士",英文冠詞"the"或諸如此類)、擴(kuò)展首字母縮略詞和/或提供表達(dá)變化 方案實(shí)現(xiàn)預(yù)處理,這些都可以由用戶挑選。
[0005] 通過替換這些不被用于預(yù)處理的、與語言相關(guān)的不被聲學(xué)模型支持的字素的字 符,這種預(yù)處理可以至少部分地消除僅支持一定的預(yù)設(shè)數(shù)量的數(shù)字和需要用字母拼寫的字 符串的從字素到音素的轉(zhuǎn)換中的主要與語言有關(guān)的局限。
[0006] 然而,在現(xiàn)有的系統(tǒng)中,在預(yù)處理時存在以下問題,即,這些方法步驟是放在真正 的字素到音素轉(zhuǎn)換步驟之前的,需要用于預(yù)處理的時間增加了用于字素到音素的轉(zhuǎn)換的總 時間延遲。
[0007] 因?yàn)轭A(yù)處理根據(jù)運(yùn)行耗費(fèi)也可能需要大量的計算,所以或者會帶來長的時間延遲 或者會局限預(yù)處理的工作能力,例如因?yàn)樵谡Z音化過程中忽略了字素表達(dá)的不被支持的字 符。由于在預(yù)處理時的資源匱乏,所以公知的預(yù)處理的實(shí)施也只能在特定的情況下才能夠 適應(yīng)具體的應(yīng)用要求,并且特別是被固定地編程,特別是在變化方案和提供的替換方案或 修正方案的數(shù)量方面。
【發(fā)明內(nèi)容】
[0008] 因此,本發(fā)明的目的是提出一種語音化的方法,其中,用于預(yù)處理和接下來從字素 到音素的轉(zhuǎn)換所需要的時間減少。
[0009] 根據(jù)本發(fā)明,該目的通過具有權(quán)利要求1所述特征的方法、具有權(quán)利要求7所述特 征的裝置和具有權(quán)利要求8所述特征的計算機(jī)程序產(chǎn)品得以解決。
[0010] 在提出的方法中特別是設(shè)計的是,并行地在不同的計算單元或計算單元的各個分 部上,特別是在不同的處理器上或者處理器分部上進(jìn)行字素的預(yù)處理和從字素到音素的轉(zhuǎn) 換。不同的計算單元可以在不同的計算裝置中或者在一個計算裝置中實(shí)現(xiàn)為雙核或者多核 計算單元,特別是它們的雙核或多核處理器。
[0011] 特別是可以如下地完成字素的預(yù)處理和字素到音素的轉(zhuǎn)換的并行實(shí)施,即,在第 一步驟中在第一計算單元中預(yù)處理為了語音化而提供的字素,將其傳輸給第二計算單元并 且在第二計算單元中被語音化,也就是轉(zhuǎn)換成音素。然后,在第二計算單元中語音化字素期 間,緊接著可以在第一計算單元中處理為了語音化而提供的字素。
[0012] 正如已經(jīng)提及的那樣,這些數(shù)據(jù)組大部分作為字素存在,也就是作為成串的單個 字素符號(特別是字母),所以根據(jù)各個計算單元的容量,在每個計算單元中分別可以處理 一部分字素符號串,例如以FIFO緩存的方式(先進(jìn)先出first-in-first-out)。在特定情況 下,根據(jù)本發(fā)明可以在第一和第二計算單元之間設(shè)計中間存儲器,用于在時間上相互協(xié)調(diào) 兩個計算單元的計算處理工作,并且能夠通過中間存儲預(yù)處理過的字素短期地補(bǔ)償兩個計 算單元的計算能力的波動。
[0013] 根據(jù)本發(fā)明提出的方法的一種特別有利的應(yīng)用是在動態(tài)的語言識別中,其中在應(yīng) 用期間才從不斷改變的、包含文本的數(shù)據(jù)組中生成字素,這與利用靜態(tài)的數(shù)據(jù)庫的應(yīng)用不 同,在利用靜態(tài)的數(shù)據(jù)庫的應(yīng)用中,是一次性完成字素的語音化,然后語言控制系統(tǒng)引用固 定存儲的音素。
[0014] 根據(jù)提出的方法的一種特別優(yōu)選的實(shí)施方式,作為字素的、也就是作為成串的單 個字素符號存在的數(shù)據(jù)組被分解成字素分包(Graphem-Teilpakte),它們也可以被稱為字 素分串包,其中,分別在第一計算單元中預(yù)處理一個字素分包,并且緊接著在另一個第二計 算單元中被語音化,轉(zhuǎn)換成音素,此時,兩個計算單元被設(shè)置用于并行地(特別是同時地) 處理不同的字素分包。以數(shù)據(jù)包的形式劃分需要處理的數(shù)據(jù)使得能夠特別有效地利用提供 的處理器資源,使得能夠在時間上最優(yōu)化地完成包含預(yù)處理和轉(zhuǎn)換在內(nèi)的語音化工作。
[0015] 其中,根據(jù)本發(fā)明特別有利的是,當(dāng)預(yù)定了字素分包的大小,例如根據(jù)計算單元提 供的計算能力(也就是說與平臺有關(guān))。例如可以規(guī)定最大長度為50個條目(相當(dāng)于字 素符號)的字素分包。已經(jīng)發(fā)現(xiàn)的是,大小與平臺(計算單元)相適應(yīng)的字素分包能夠特 別有效地進(jìn)行預(yù)處理并且被轉(zhuǎn)換,因?yàn)樵谶@種情況下,需要進(jìn)行處理的數(shù)據(jù)數(shù)量與報文開 銷(Messaging Overhead)之間存在最佳的比例關(guān)系。因?yàn)椴煌挠嬎銌卧蛴嬎銌卧?各個分部之間交換數(shù)據(jù)包(字素分包),并且這些交換工作必須相互協(xié)調(diào)進(jìn)行,所以產(chǎn)生了 報文開銷。因?yàn)閮蓚€計算單元都必須中間存儲數(shù)據(jù),所以此外還必須限定分別被處理的字 素分包的數(shù)據(jù)量,從而能夠在所有計算單元內(nèi)實(shí)現(xiàn)有效且迅速的處理。
[0016] 在這個背景下,根據(jù)本發(fā)明也可以特別有利的是,通過運(yùn)用定義的規(guī)則,特別是在 進(jìn)行預(yù)處理之前或者在剛開始時確定包的大小,從而在進(jìn)行預(yù)處理和進(jìn)行轉(zhuǎn)換時考慮到單 個字素符號的內(nèi)容相關(guān)的前后關(guān)聯(lián)。這些規(guī)則例如可以代表識別特定的字素符號、空格符 或分隔符,和/或包含內(nèi)容上的評估,在特定的情況下與分串的最大(也有可能是最小)的 預(yù)設(shè)長度,也就是說用于分串的長度限定或者長度區(qū)間結(jié)合起來。通過最大預(yù)設(shè)的長度可 以特別是慮到計算單元的計算能力。預(yù)設(shè)的最小長度確保了對前后關(guān)聯(lián)敏感的預(yù)處理和/ 或轉(zhuǎn)換,在這個過程中也可以從內(nèi)容上評估并考慮連續(xù)的字素。
[0017] 在提出的方法的一種特別的實(shí)施方式中,預(yù)處理根據(jù)本發(fā)明可以包括基于語法的 語法分析器,它特別是包括用于文本修訂和/或表達(dá)變化的規(guī)則,其中,在特定情況下可以 考慮到不同的語言。特別優(yōu)選地例如可以通過預(yù)先確定包含規(guī)則的文件使這個基于語法的 語法分析器參數(shù)化。結(jié)果是,根據(jù)本發(fā)明能夠輕松地編輯、擴(kuò)展并更換用于模式匹配的規(guī)則 和/或規(guī)則的關(guān)聯(lián)。為此可以采用現(xiàn)有的軟件模塊,例如GNU語法分析器生成器Flex和 Bison,它們的應(yīng)用特別是對于動態(tài)的數(shù)據(jù)庫來說要通過根據(jù)本發(fā)明提出的對單個字符分 串進(jìn)行并行的預(yù)處理和轉(zhuǎn)換才有可能。
[0018] 提出的預(yù)處理的根據(jù)本發(fā)明的另一個方面在于,它可以包括將字素到音素轉(zhuǎn)換的 聲學(xué)模型(例如由于缺少語言支持)不支持的字符(例如另一種語言)到這種聲學(xué)模型支 持的字素符號轉(zhuǎn)換,特別是轉(zhuǎn)換成拉丁語的基礎(chǔ)字符或字母。由此能夠?qū)崿F(xiàn)用于內(nèi)容不同 的數(shù)據(jù)庫的靈活的語言支持,語言支持特別優(yōu)選地也可以根據(jù)前述方面被參數(shù)化和/或調(diào) 整,從而當(dāng)預(yù)設(shè)的數(shù)據(jù)內(nèi)容和因此被設(shè)計用于語音化的包含文本的數(shù)據(jù)組發(fā)生變化時,預(yù) 處理(例如在固件升級的框架內(nèi))就可以自動調(diào)節(jié)。
[0019] 本發(fā)明還涉及一種用于使包含文本的數(shù)據(jù)組語音化的裝置,例如在由語音控制的 用戶端口中,或者運(yùn)用在其中,如機(jī)動車的多媒體控制單元,特別是帶有音樂控制系統(tǒng)、車 上電話和/或免提通話裝置,其中,多媒體控制單元通過例如數(shù)據(jù)庫數(shù)據(jù)存儲器的使用包 含文本的數(shù)據(jù)組,其在特定情況下也可以在圖像類的用戶端口中顯示。該裝置配有用于輸 入或讀取例如列表條目形式的、包含文本的數(shù)據(jù)組的數(shù)據(jù)端口,并且具有計算裝置,它被設(shè) 置用于將以字素的形式存在的數(shù)據(jù)組轉(zhuǎn)換成音素,并且用于實(shí)現(xiàn)進(jìn)行預(yù)處理。根據(jù)本發(fā)明, 該計算裝置具有至少一個第一計算單元和一個第二計算單元,其中,第一和第二計算單元 被設(shè)置用于執(zhí)行預(yù)定的方法或其中的一部分。
[0020] 相應(yīng)地,本發(fā)明還涉及一種包含程序產(chǎn)品工具的計算機(jī)程序,這些程序產(chǎn)品裝置 適合用于設(shè)置具有兩個計算單元的、用于語音化包含文本的數(shù)據(jù)組的裝置的計算裝置,特 別是如前面所述的那樣,用于執(zhí)行先前所述的方法或者其中的一部分。
[0021] 從下面對實(shí)施例和附圖的描述中也可以得到本發(fā)明的其他優(yōu)點(diǎn)、特征和應(yīng)用可能 性。其中,所有描述的和/或用圖表示的特征本身或者以任意的組合方式都構(gòu)成本發(fā)明的 對象,無論在權(quán)利要求中或在引用它們時是如何對它們進(jìn)行總結(jié)的。
【專利附圖】
【附圖說明】
[0022] 唯一的圖1示意性地示出提出的裝置的一種實(shí)施方式,包含用于語音化包含文本 的數(shù)據(jù)組2的方法的流程。
【具體實(shí)施方式】
[0023] 圖1示出用于使包含文本的數(shù)據(jù)組2語音化的裝置1的一種特別優(yōu)選的實(shí)施方 式,這些數(shù)據(jù)組包含在數(shù)據(jù)存儲器或數(shù)據(jù)庫中。用于語音化的裝置1可以集成到由語音控 制的用戶端口中,如機(jī)動車的多媒體控制單元,并且具有用于輸入或者用于讀取包含文本 的數(shù)據(jù)組2的數(shù)據(jù)端口 3。此外,在這個裝置1中設(shè)計了計算裝置4,其被設(shè)置用于轉(zhuǎn)換以 字素的形式存在的、包含文本的數(shù)據(jù)組2,并且用于在轉(zhuǎn)換成音素之前預(yù)處理這些字素。在 圖1中,為了清楚起見在裝置1旁邊示出了計算裝置4的這個方面,盡管這個計算裝置4是 裝置1或包含這個裝置的用戶端口的一部分。
[0024] 計算裝置4具有第一計算單元5和第二計算單元6,它們根據(jù)本發(fā)明適合用于并行 地、相互獨(dú)立地處理數(shù)據(jù)。
[0025] 要指出的是,在圖1中所示的計算裝置4僅僅是根據(jù)本發(fā)明的解決方案的下面仍 需要更詳盡地進(jìn)行描述的功能,并且不反映所有在計算裝置4中或計算裝置4的計算單元 5,6中運(yùn)行的流程和方法。
[0026] 第一計算單元5被設(shè)置用于預(yù)處理字素,第二計算單元6被設(shè)置用于將字素轉(zhuǎn)換 為音素,其中,第二計算單元6優(yōu)選地也可以具有語音識別器,其通過由語音控制的用戶端 口得以應(yīng)用,并且引用存儲的、語音化的、例如語音化的數(shù)據(jù)列表形式的數(shù)據(jù)組。
[0027] 其中,如下地描述根據(jù)本發(fā)明提出的、用于語音化的方法:
[0028] 在通過數(shù)據(jù)端口 3將包含文本的數(shù)據(jù)組2讀入用于語音化的裝置1以后,這些字 素(也就是成串的單個字素符號)首先被分解成例如有50個字素符號或單元的、預(yù)定長度 的字素分串。這用箭頭7示出,這個箭頭在圖1中位于計算裝置4以外,盡管在計算裝置4 的可能也是附加的計算單元內(nèi)也進(jìn)行了分解7的流程,并且例如可以理解為預(yù)處理的第一 處理步驟。
[0029] 緊接著向第一計算單元5導(dǎo)入字素分串,第一計算單元負(fù)責(zé)字素的預(yù)處理。其中, 任何字素分串的字素都可以由語言定義地和/或由用戶定義地進(jìn)行修正,例如通過替換縮 略詞、識別外語文本、刪除前綴、擴(kuò)展首字母縮略詞和/或提供表達(dá)變化方案實(shí)現(xiàn)預(yù)處理, 這些都可以由用戶挑選。
[0030] 在第一計算單元5內(nèi)實(shí)施的預(yù)處理工作優(yōu)選地包括基于語法的語法分析,它包括 用于文本修正和/或表達(dá)變化方案的規(guī)則,其中,在特定情況下可以考慮不同的語言。此 夕卜,在第一計算單元5內(nèi)實(shí)施的預(yù)處理中,字素音素轉(zhuǎn)換的聲學(xué)模型不支持的字符被轉(zhuǎn)換 成被聲學(xué)模型支持的字素符號。
[0031] 在第一計算單元5中進(jìn)行了預(yù)處理以后,向第二計算單元6中輸入(經(jīng)過了預(yù)處 理的)字素分串,在這里發(fā)生了真正的字素到音素的轉(zhuǎn)換。這種方法被普遍公知,因此在這 里不必詳盡描述。
[0032] 作為在第二計算單元6內(nèi)將字素音素轉(zhuǎn)換的結(jié)果,生成了語音化的數(shù)據(jù)列表8,并 且將其存儲在計算裝置4內(nèi)或用于語音化的裝置1的存儲裝置內(nèi),使得由語音控制的用戶 端口能夠引用這個語音化的數(shù)據(jù)列表8。于是,這個語音化的數(shù)據(jù)列表8就是語音化的數(shù)據(jù) 組。
[0033] 因此,通過在不同的獨(dú)立計算單元內(nèi)并行地進(jìn)行預(yù)處理和轉(zhuǎn)換工作,在用于語音 化包含文本的數(shù)據(jù)組的總時間延遲上僅增加了用于第一數(shù)據(jù)包的等待時間,即使進(jìn)行了繁 瑣的預(yù)處理,預(yù)處理除了替換首字母縮略詞及諸如此類還可以包括將其他語言的、語音化 的語言模塊不支持的字符,根據(jù)語言轉(zhuǎn)換成拉丁基礎(chǔ)字符。通過并行處理還能夠進(jìn)行全面 的預(yù)處理,并且對其進(jìn)行可參數(shù)化的設(shè)置,使得能夠簡單地引導(dǎo)預(yù)處理規(guī)則進(jìn)入該系統(tǒng)。此 夕卜,很好地記錄了這些規(guī)則,并且這些規(guī)則作出的改變很容易理解。
[0034] 此外,根據(jù)本發(fā)明在語音化時能夠有效地充分利用處理器資源,使得盡管預(yù)處理 工作很繁瑣,但是用于準(zhǔn)備用來語音控制的語音化數(shù)據(jù)列表的等待時間的增加是非常不明 顯的。
[0035] 接下來還會描述一種具體的實(shí)施例,其中,在汽車娛樂設(shè)備中使用了根據(jù)本發(fā)明 的方法。汽車娛樂設(shè)備具有用于藍(lán)牙設(shè)備、USB數(shù)據(jù)載體、iPod設(shè)備或者諸如此類的端口。 其中包含的樂曲由汽車娛樂設(shè)備的被稱為Head Unit (主機(jī))的中央單元所讀取,其中,樂 曲的元屬性(Metaattribute)被存放在數(shù)據(jù)庫中??梢酝ㄟ^圖像端口搜索這個數(shù)據(jù)庫,并 且可以播放單個或多個標(biāo)題。除了通過觸摸選擇樂曲之外還可以基于語言操作這個汽車娛 樂設(shè)備,其中,應(yīng)該是通過它們的名稱完成對樂曲(專輯、歌手)的選擇。
[0036] 樂曲的元屬性經(jīng)常不適合用于語音操作,所以對于系統(tǒng)的使用者來說不可能或者 只能以不自然的方式輸入他的選擇。一種公知的用于解決這個問題的方案在于比較在系統(tǒng) 上播放的數(shù)據(jù)庫中的語音信號的特征,該數(shù)據(jù)庫向語音識別器提供元屬性,使得用戶能夠 簡單地選擇標(biāo)題。這種解決方案的缺點(diǎn)在于,數(shù)據(jù)庫不認(rèn)識新的標(biāo)題,因此必須常常更新。 此外需要支付許可證費(fèi)用,并且對于嵌入式系統(tǒng)提出很高的存儲要求,這種要求可能會提 高這種產(chǎn)品的固定成本。
[0037] 作為代替,采用了根據(jù)本發(fā)明的預(yù)處理法,它特別是具有以下方法步驟:
[0038] 1在車輛娛樂設(shè)備識別了插入的USB設(shè)備或諸如此類以后,用樂曲及其元屬性的 索引填充設(shè)備內(nèi)部的數(shù)據(jù)庫。
[0039] 2元屬性在按類別排序的情況下從車輛娛樂設(shè)備的數(shù)據(jù)庫中讀入車輛娛樂設(shè)備的 由語音控制的用戶端口。
[0040] 3利用通過由語音控制的用戶端口,將計算單元4合適地設(shè)置為用于語音化的裝 置1,它以數(shù)據(jù)包的形式讀取這些數(shù)據(jù),或者說將這些數(shù)據(jù)分解成預(yù)定義大小的單個數(shù)據(jù) 包,也就是說分解成字素分串或字素分包。字素分包被提供給預(yù)處理器(第一計算單元5)。
[0041] 4第一計算單元5 (預(yù)處理器)主要由語法分析模塊構(gòu)成,它根據(jù)一定的模式搜索 這些數(shù)據(jù)。這個模式部分地與語言有關(guān),因此根據(jù)所選擇的語言可以更換。作為輸入內(nèi)容, 第一計算單元5 (也就是預(yù)處理器)獲得來自數(shù)據(jù)庫的字素(原始字素)以及實(shí)時的分類 標(biāo)識符(Kategoriebezeichner) 〇
[0042] 5然后在預(yù)處理時,第一計算單元5提供備選文本,并且糾正原始字素。于是,例如 原始字素的經(jīng)常出現(xiàn)的后綴"feat.〈Artist〉"被擴(kuò)展成"featuring〈Artist>"。在代替方 案中,原始字素"feat.〈Artist〉"被去除。屬性通常包含標(biāo)題、專輯上的索引以及藝術(shù)家和 專輯名稱。然后清除原始字素中不必要的部分。這種情況沒有可代替方案。
[0043] 6預(yù)處理的字素分包被傳輸給語音識別器,它優(yōu)選地存在于另一個第二計算單元 6上。
[0044] 7與第二計算單元6內(nèi)繁瑣的語音化工作(g2p)并行地,在預(yù)處理器上(也就是在 第一計算單元5內(nèi))處理第二分包,或者一般化而言處理另一個字素分包。
[0045] 8與預(yù)處理器(第一計算單元5)和帶有字素到音素轉(zhuǎn)換功能的語音識別器(第二 計算單元6)并行地,由語言控制的用戶端口 1在數(shù)據(jù)庫處詢問接下來的數(shù)據(jù)包,使得由語 言控制的用戶端口 1上連接一連串的數(shù)據(jù)包處理。數(shù)據(jù)庫詢問、預(yù)處理和語音化這些并行 的工作步驟中,語音化是進(jìn)行的最慢的。由于預(yù)處理器和語音識別器是并行工作的,所以不 會產(chǎn)生比第一分包的預(yù)處理更長的附加的時間延遲。
[0046] 結(jié)果是,在該實(shí)施例中形成為用戶改良的操作,而不會造成時間延遲顯著的惡化 或者存儲消耗量的提升。
【權(quán)利要求】
1. 一種用于使包含文本的數(shù)據(jù)組(2)語音化的方法,其中,作為字素存在的數(shù)據(jù)組(2) 轉(zhuǎn)換成音素,并且作為語音化的數(shù)據(jù)組(8)存儲下來,其中,為了語音化在預(yù)處理中準(zhǔn)備所 述字素,特別是通過語言定義和/或用戶定義地修正所述字素,其特征在于,所述字素的所 述預(yù)處理和所述字素到音素的所述轉(zhuǎn)換在不同的計算單元(5,6)上或者在所述計算單元 (5,6)的不同部分上并行地進(jìn)行。
2. 根據(jù)權(quán)利要求1所述的方法,其特征在于,作為字素存在的所述數(shù)據(jù)組(2)分解成字 素分包,其中,在一個計算單元(5)中預(yù)處理相應(yīng)的字素分包,并且緊接著在另一個計算單 元(6)中語音化,并且兩個計算單元(5,6)設(shè)置用于并行地處理不同的字素分串。
3. 根據(jù)權(quán)利要求2所述的方法,其特征在于,預(yù)定分包的大小,特別是通過與所述計算 單元(5)有關(guān)的、所述字素分包的數(shù)據(jù)量相對于在兩個所述計算單元(5,6)之間進(jìn)行通信 時形成的報文開銷的恒量。
4. 根據(jù)權(quán)利要求2或3所述的方法,其特征在于,通過采用定義的規(guī)則確定數(shù)據(jù)包的大 小。
5. 根據(jù)前述權(quán)利要求中任一項所述的方法,其特征在于,所述預(yù)處理包括基于語法的 語法分析器。
6. 根據(jù)前述權(quán)利要求中任一項所述的方法,其特征在于,所述預(yù)處理包括將不由字素 音素轉(zhuǎn)換的聲學(xué)模型支持的字符轉(zhuǎn)換成所述聲學(xué)模型的字素符號。
7. -種用于使包含文本的數(shù)據(jù)組(2)語音化的裝置,其具有用于輸入所述包含文本的 數(shù)據(jù)組(2)的數(shù)據(jù)端口(3),并且具有設(shè)置用于使作為字素存在的數(shù)據(jù)組轉(zhuǎn)換成音素并且 預(yù)處理這所述字素的計算裝置(4),其特征在于,所述計算裝置(4)具有至少一個第一計算 單元(5)和第二計算單元(6),其中,所述第一計算單元和所述第二計算單元(5,6)設(shè)置用 于執(zhí)行根據(jù)權(quán)利要求1至6中任一項所述的方法。
8. -種具有程序代碼工具的計算機(jī)程序產(chǎn)品,所述計算機(jī)程序產(chǎn)品適合用于設(shè)置一種 具有至少兩個計算單元(5,6)的、用于使包含文本的數(shù)據(jù)組(2)語音化的裝置(1)的計算 裝置(4),用于執(zhí)行根據(jù)權(quán)利要求1至6中任一項所述的方法。
【文檔編號】G10L13/04GK104115222SQ201380008815
【公開日】2014年10月22日 申請日期:2013年2月11日 優(yōu)先權(quán)日:2012年2月16日
【發(fā)明者】延斯·瓦爾特 申請人:大陸汽車有限責(zé)任公司