專利名稱:語音識別多信息文本獲取裝置及方法
技術(shù)領(lǐng)域:
本發(fā)明涉及計(jì)算機(jī)語音識別技術(shù)領(lǐng)域,特別涉及一種語音識別多信息文本獲取裝置及方法。
背景技術(shù):
近二十年來,語音識別技術(shù)取得顯著進(jìn)步,已經(jīng)獲得越來越廣泛的應(yīng)用。預(yù)計(jì)在未來10年內(nèi),語音識別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費(fèi)電子產(chǎn)品等各個(gè)領(lǐng)域。所謂語音識別,是指計(jì)算機(jī)或機(jī)械等自動(dòng)理解人的語音。例如,通過利用語音識別,使計(jì)算機(jī)或機(jī)械能夠根據(jù)人的語音進(jìn)行動(dòng)作,或者能夠使人的語音變換為文字。語音識別中主要采用的方法是,抽取發(fā)出的語音所具有的頻譜等物理特征,與預(yù)先存儲(chǔ)的母音、子音或單詞的物理特征模型進(jìn)行比較,最終得到同人的語音內(nèi)容相同的表達(dá)信息。但現(xiàn)有技術(shù)中,通過語音識別技術(shù)獲取的文本信息通常只能是純文本信息,所述純文本信息是指文字大小格式統(tǒng)一、除標(biāo)點(diǎn)符號外沒有特殊符號的文本信息,說明書中所有提及純文本信息之處均指此意。因此語音中的很多有價(jià)值的信息,例如說話人的語速、重音、音調(diào)等信息,無法在語音識別后的純文本信息中表現(xiàn)出來。
發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題是提供一種語音識別多信息文本獲取裝置及方法,以解決現(xiàn)有技術(shù)中通過語音識別技術(shù)獲取的文本信息通常只能是純文本信息,語音中的很多有價(jià)值的信息無法在語音識別后的文本信息中變現(xiàn)出來的問題。為解決上述技術(shù)問題,本發(fā)明提供一種語言識別多信息文本獲取裝置,包括純文本信息及單字發(fā)音時(shí)間生成模塊,用于通過語音識別將語音音頻轉(zhuǎn)換為純文本信息,同時(shí)用于獲得語音音頻中的單字發(fā)音時(shí)間,通過所述單字發(fā)音時(shí)間的長短確定單字發(fā)音語速;多信息文本生成模塊,用于將所述純文本信息生成多信息的文本信息??蛇x的,還包括單字發(fā)音強(qiáng)度計(jì)算模塊,用于依據(jù)所述單字發(fā)音時(shí)間計(jì)算得到單字發(fā)音強(qiáng)度。可選的,所述多信息文本生成模塊用于在所述純文本信息中整合所述單字發(fā)音語速和/或所述單字發(fā)音強(qiáng)度的信息生成多信息的文本信息??蛇x的,還包括單字語調(diào)計(jì)算模塊,用于依據(jù)所述單字發(fā)音時(shí)間計(jì)算得到單字發(fā)
音語調(diào)??蛇x的,所述多信息文本生成模塊用于在所述純文本信息中整合所述單字發(fā)音語速和/或所述單字發(fā)音強(qiáng)度和/或單字發(fā)音語調(diào)的信息生成多信息的文本信息。本發(fā)明還提供一種語音識別多信息文本獲取方法,包括以下步驟步驟一,通過語音識別將語音音頻轉(zhuǎn)換為純文本信息,同時(shí)獲得語音音頻中的單
3字發(fā)音時(shí)間,進(jìn)而通過所述單字發(fā)音時(shí)間的長短確定單字發(fā)音語速;步驟二,將所述純文本信息生成多信息的文本信息??蛇x的,所述步驟二中,在所述純文本信息中整合所述單字發(fā)音語速的信息生成多信息的文本信息??蛇x的,在所述步驟一和步驟二之間還包括依據(jù)所述單字發(fā)音時(shí)間計(jì)算得到單字發(fā)音強(qiáng)度和/或單字發(fā)音語調(diào)的步驟??蛇x的,所述步驟二中,在所述純文本信息中整合所述單字發(fā)音語速和/或所述單字發(fā)音強(qiáng)度和/或所述單字發(fā)音語調(diào)的信息生成多信息的文本信息??蛇x的,所述單字發(fā)音語調(diào)利用所述單字發(fā)音時(shí)間通過基頻提取技術(shù)計(jì)算得到??蛇x的,所述單字發(fā)音強(qiáng)度通過計(jì)算所述單字發(fā)音時(shí)間內(nèi)發(fā)音強(qiáng)度的均值而得到。本發(fā)明的語音識別多信息文本獲取裝置及方法在通過語音識別將語音音頻轉(zhuǎn)換為純文本信息之后,還將語音音頻中的單字發(fā)音語速、單字發(fā)音強(qiáng)度、單字發(fā)音語調(diào)通過一定表現(xiàn)方式整合至初始生成的純文本信息中生成多信息的文本信息。本發(fā)明的語音識別多信息文本獲取裝置及方法可廣泛應(yīng)用于微博、短信和簽名檔等信息發(fā)布平臺(tái)。
圖1為本發(fā)明的語音識別多信息文本獲取裝置的一實(shí)施例架構(gòu)示意圖;圖2為本發(fā)明的語音識別多信息文本獲取裝置的另一實(shí)施例架構(gòu)示意圖;圖3為本發(fā)明的語音識別多信息文本獲取方法一實(shí)施例流程示意圖;圖4為本發(fā)明的語音識別多信息文本獲取方法另一實(shí)施例流程示意圖; 圖5為本發(fā)明的一種多信息的文本信息的示意圖6為本發(fā)明的另一種多信息的文本信息的示意圖。
具體實(shí)施例方式為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面對本發(fā)明的具體實(shí)施方式
做詳細(xì)的說明。本發(fā)明所述的多信息的文本信息表示系統(tǒng)及方法可利用多種替換方式實(shí)現(xiàn),下面是通過較佳的實(shí)施例來加以說明,當(dāng)然本發(fā)明并不局限于該具體實(shí)施例,本領(lǐng)域內(nèi)的普通技術(shù)人員所熟知的一般的替換無疑涵蓋在本發(fā)明的保護(hù)范圍內(nèi)。本發(fā)明提供一種語言識別多信息文本獲取裝置。實(shí)施例一請參看圖1,圖1為本發(fā)明的語音識別多信息文本獲取裝置的一實(shí)施例架構(gòu)示意圖。如圖1所示,本發(fā)明的語音識別多信息文本獲取裝置包括純文本信息及單字發(fā)音時(shí)間生成模塊,用于通過語音識別將語音音頻轉(zhuǎn)換為純文本信息,同時(shí)用于獲得語音音頻中的單字發(fā)音時(shí)間,即單字發(fā)音的開始時(shí)間和結(jié)束時(shí)間,進(jìn)而通過所述單字發(fā)音時(shí)間的長短確定單字發(fā)音語速。所述單字發(fā)音時(shí)間在語音識別的過程中隨著將語音音頻轉(zhuǎn)換為純文本信息的同時(shí)自動(dòng)得到。多信息文本生成模塊,用于在所述純文本信息中整合單字發(fā)音語速的信息生成多信息的文本信息。依據(jù)得到的單字發(fā)音語速,通過變化純文本信息中的文字間距或文字寬度來表示語速,或者通過加入符號來表示語速,或者以上幾種方法的結(jié)合。例如,通過所述語音識別純文本信息生成模塊的生成得到的純文本信息為好爽啊,抽獎(jiǎng)抽到手機(jī)了。通過變化純文本信息的文字間距表示語速,得到多信息的文本信息好爽啊,抽獎(jiǎng)抽到手機(jī)了。通過變化純文本信息的文字寬度表示語速,得到多信息的文本信息好爽啊,抽獎(jiǎng)抽到手機(jī)了。通過在純文本信息中加入符號來表示語速,得到多信息的文本信息好 爽啊, 抽獎(jiǎng) 抽到手機(jī) 了。實(shí)施例二請參看圖2,圖2為本發(fā)明的語音識別多信息文本獲取裝置的另一實(shí)施例架構(gòu)示意圖。如圖2所示,本發(fā)明的語音識別多信息文本獲取裝置包括純文本信息及單字發(fā)音時(shí)間生成模塊,用于通過語音識別將語音音頻轉(zhuǎn)換為純文本信息,同時(shí)用于獲得語音音頻中的單字發(fā)音時(shí)間,即單字發(fā)音的開始時(shí)間和結(jié)束時(shí)間, 進(jìn)而通過所述單字發(fā)音時(shí)間的長短確定單字發(fā)音語速。所述單字發(fā)音時(shí)間在語音識別的過程中隨著將語音音頻轉(zhuǎn)換為純文本信息的同時(shí)自動(dòng)得到。單字發(fā)音強(qiáng)度計(jì)算模塊,用于依據(jù)得到的單字發(fā)音時(shí)間計(jì)算得到單字發(fā)音強(qiáng)度。 利用獲得的所述單字發(fā)音時(shí)間,計(jì)算單字發(fā)音時(shí)間段內(nèi)發(fā)音強(qiáng)度的均值,可以得到每個(gè)字的發(fā)音強(qiáng)度。單字語調(diào)計(jì)算模塊,用于依據(jù)得到的單字發(fā)音時(shí)間計(jì)算得到單字發(fā)音語調(diào)。所述單字發(fā)音語調(diào)通過基頻提取技術(shù)得到?;l提取技術(shù)中的基頻是指發(fā)音過程中發(fā)濁音時(shí)聲帶振動(dòng)的頻率?,F(xiàn)有技術(shù)中已有多種基頻提取算法,主要有時(shí)域的自相關(guān)法、頻域的倒譜法寸寸。多信息文本生成模塊,用于在所述純文本信息中整合單字發(fā)音語速、和/或單字發(fā)音強(qiáng)度、和/或單字發(fā)音語調(diào)的信息生成多信息的文本信息。所述多信息的文本信息為包含有表示發(fā)音語速和/或發(fā)音語調(diào)和/或發(fā)音強(qiáng)度含義內(nèi)容的文本信息。1)依據(jù)得到的單字發(fā)音語速,通過變化純文本信息中的文字間距或文字寬度來表示語速,或者通過加入符號來表示語速,或者以上幾種方法的結(jié)合。例如,通過所述語音識別純文本信息生成模塊的生成得到的純文本信息為好爽啊,抽獎(jiǎng)抽到手機(jī)了。通過變化純文本信息的文字間距表示語速,得到多信息的文本信息好爽啊,抽獎(jiǎng)抽到手機(jī)了。通過變化純文本信息的文字寬度表示語速,得到多信息的文本信息好爽啊,抽獎(jiǎng)抽到手機(jī)了。通過在純文本信息中加入符號來表示語速,得到多信息的文本信息好 爽啊, 抽獎(jiǎng) 抽到手機(jī) 了。2)依據(jù)得到的單字發(fā)音強(qiáng)度,通過變化純文本信息中的文字大小或文字顏色或文字字體粗細(xì)來表示發(fā)音強(qiáng)度,或者以上方法的結(jié)合。例如,通過所述語音識別純文本信息生成模塊的處理后得到的純文本信息為好爽啊,抽獎(jiǎng)抽到手機(jī)了。通過變化純文本信息的文字大小表示發(fā)音強(qiáng)度,得到多信息的文本信息好爽啊, 抽獎(jiǎng)抽到手機(jī)了。通過變化純文本信息的文字顏色表示發(fā)音強(qiáng)度,得到多信息的文本信息好(紅色)爽啊(藍(lán)色),抽(棕色)獎(jiǎng)抽(紅色)到手機(jī)(紅色)了。通過變化純文本信息的文字字體粗細(xì)表示發(fā)音強(qiáng)度,得到多信息的文本信息好爽啊,抽獎(jiǎng)抽到手機(jī)了。3)依據(jù)得到的單字發(fā)音語調(diào),通過在純文本信息中的每個(gè)字的上部或下部加入曲線表示發(fā)音語調(diào)。例如,通過所述語音識別純文本信息生成模塊的處理后得到的純文本信息為好爽啊,抽獎(jiǎng)抽到手機(jī)了。通過在純文本信息中文字上部或下部加入代表發(fā)音語調(diào)的曲線,得到如圖5所示的多信息的文本信息。4)同時(shí)使用上述1)至幻中描述的方法,將單字發(fā)音語速、單字發(fā)音強(qiáng)度和單字發(fā)音語調(diào)都整合至純文本信息中生成多信息的文本信息。例如,通過所述語音識別純文本信息生成模塊的處理后得到的純文本信息為好爽啊,抽獎(jiǎng)抽到手機(jī)了。最終生成如圖6所示的多信息文本信息。本發(fā)明還提供一種語音識別多信息文本獲取方法。實(shí)施例三請參看圖3,圖3為本發(fā)明的語音識別多信息文本獲取方法一實(shí)施例流程示意圖。 如圖3所示,本發(fā)明提供一種語音識別多信息文本獲取方法,包括以下步驟步驟一,通過語音識別將語音音頻轉(zhuǎn)換為純文本信息,同時(shí)獲得語音音頻中的單字發(fā)音時(shí)間,即單字發(fā)音的開始時(shí)間和結(jié)束時(shí)間,進(jìn)而通過所述單字發(fā)音時(shí)間的長短確定單字發(fā)音的語速。所述單字發(fā)音時(shí)間在語音識別的過程中隨著將語音音頻轉(zhuǎn)換為純文本信息的同時(shí)自動(dòng)得到。步驟二,在所述純文本信息中整合單字發(fā)音語速的信息生成多信息的文本信息。實(shí)施例四請參看圖4,圖4為本發(fā)明的語音識別多信息文本獲取方法另一實(shí)施例流程示意圖。如圖4所示,本發(fā)明提供一種語音識別多信息文本獲取方法,包括以下步驟步驟一,通過語音識別將語音音頻轉(zhuǎn)換為純文本信息,同時(shí)獲得語音音頻中的單字發(fā)音時(shí)間,即單字發(fā)音的開始時(shí)間和結(jié)束時(shí)間,進(jìn)而通過所述單字發(fā)音時(shí)間的長短確定單字發(fā)音的語速。所述單字發(fā)音時(shí)間在語音識別的過程中隨著將語音音頻轉(zhuǎn)換為純文本信息的同時(shí)自動(dòng)得到。步驟二,依據(jù)得到的單字發(fā)音時(shí)間計(jì)算得到單字發(fā)音強(qiáng)度和/或單字發(fā)音語調(diào)。
計(jì)算所述單字發(fā)音強(qiáng)度時(shí),利用獲得的所述單字發(fā)音時(shí)間,計(jì)算單字發(fā)音時(shí)間段
內(nèi)發(fā)音強(qiáng)度的均值,可以得到每個(gè)字的發(fā)音強(qiáng)度。 所述單字發(fā)音語調(diào)通過基頻提取技術(shù)計(jì)算得到。步驟三,在所述純文本信息中整合單字發(fā)音語速、和/或單字發(fā)音強(qiáng)度、和/或單字發(fā)音語調(diào)的信息生成多信息的文本信息。本發(fā)明的語音識別多信息文本獲取裝置及方法在通過語音識別將語音音頻轉(zhuǎn)換為純文本信息之后,還將語音音頻中的單字發(fā)音語速、單字發(fā)音強(qiáng)度、單字發(fā)音語調(diào)通過一定表現(xiàn)方式整合至初始生成的純文本信息中生成多信息的文本信息。本發(fā)明的語音識別多信息文本獲取裝置及方法可廣泛應(yīng)用于微博、短信和簽名檔等信息發(fā)布平臺(tái)。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。
權(quán)利要求
1.一種語言識別多信息文本獲取裝置,其特征在于,包括純文本信息及單字發(fā)音時(shí)間生成模塊,用于通過語音識別將語音音頻轉(zhuǎn)換為純文本信息,同時(shí)用于獲得所述語音音頻中的單字發(fā)音時(shí)間,通過所述單字發(fā)音時(shí)間的長短確定單字發(fā)音語速;多信息文本生成模塊,用于將所述純文本信息生成多信息的文本信息。
2.如權(quán)利要求1所述的語言識別多信息文本獲取裝置,其特征在于,還包括單字發(fā)音強(qiáng)度計(jì)算模塊,用于依據(jù)所述單字發(fā)音時(shí)間計(jì)算得到單字發(fā)音強(qiáng)度。
3.如權(quán)利要求2所述的語言識別多信息文本獲取裝置,其特征在于,所述多信息文本生成模塊用于在所述純文本信息中整合所述單字發(fā)音語速和/或所述單字發(fā)音強(qiáng)度的信息生成多信息的文本信息。
4.如權(quán)利要求1或2所述的語言識別多信息文本獲取裝置,其特征在于,還包括單字語調(diào)計(jì)算模塊,用于依據(jù)所述單字發(fā)音時(shí)間計(jì)算得到單字發(fā)音語調(diào)。
5.如權(quán)利要求4所述的語言識別多信息文本獲取裝置,其特征在于,所述多信息文本生成模塊用于在所述純文本信息中整合所述單字發(fā)音語速和/或所述單字發(fā)音強(qiáng)度和/或單字發(fā)音語調(diào)的信息生成多信息的文本信息。
6.一種語音識別多信息文本獲取方法,其特征在于,包括以下步驟步驟一,通過語音識別將語音音頻轉(zhuǎn)換為純文本信息,同時(shí)獲得語音音頻中的單字發(fā)音時(shí)間,進(jìn)而通過所述單字發(fā)音時(shí)間的長短確定單字發(fā)音語速;步驟二,將所述純文本信息生成多信息的文本信息。
7.如權(quán)利要求6所述的語言識別多信息文本獲取裝置,其特征在于,所述步驟二中,在所述純文本信息中整合所述單字發(fā)音語速的信息生成多信息的文本信息。
8.如權(quán)利要求6所述的語言識別多信息文本獲取裝置,其特征在于,在所述步驟一和步驟二之間還包括依據(jù)所述單字發(fā)音時(shí)間計(jì)算得到單字發(fā)音強(qiáng)度和/或單字發(fā)音語調(diào)的步驟。
9.如權(quán)利要求8所述的語言識別多信息文本獲取裝置,其特征在于,所述步驟二中,在所述純文本信息中整合所述單字發(fā)音語速和/或所述單字發(fā)音強(qiáng)度和/或所述單字發(fā)音語調(diào)的信息生成多信息的文本信息。
10.如權(quán)利要求8所述的語言識別多信息文本獲取裝置,其特征在于,所述單字發(fā)音語調(diào)利用所述單字發(fā)音時(shí)間通過基頻提取技術(shù)計(jì)算得到。
11.如權(quán)利要求8所述的語言識別多信息文本獲取裝置,其特征在于,所述單字發(fā)音強(qiáng)度通過計(jì)算所述單字發(fā)音時(shí)間內(nèi)發(fā)音強(qiáng)度的均值而得到。
全文摘要
本發(fā)明提供一種語音識別多信息文本獲取裝置及方法,在通過語音識別將語音音頻轉(zhuǎn)換為純文本信息之后,還將語音音頻中的單字發(fā)音語速、單字發(fā)音強(qiáng)度、單字發(fā)音語調(diào)通過一定表現(xiàn)方式整合至初始生成的純文本信息中生成多信息的文本信息。本發(fā)明的語音識別多信息文本獲取裝置及方法可廣泛應(yīng)用于微博、短信和簽名檔等信息發(fā)布平臺(tái)。
文檔編號G10L15/02GK102237088SQ20111016510
公開日2011年11月9日 申請日期2011年6月17日 優(yōu)先權(quán)日2011年6月17日
發(fā)明者張峰, 黃偉 申請人:盛樂信息技術(shù)(上海)有限公司