語音處理器及語音處理方法

文檔序號：2827355閱讀：213來源：國知局

語音處理器及語音處理方法
【專利摘要】一種語音處理器包括呈現(xiàn)單元、語音獲取單元、識別單元、確定單元、頻率獲取單元、和得分計算器。該呈現(xiàn)單元被配置成給操作員呈現(xiàn)文本。語音獲取單元被配置為獲取朗讀文本的操作員的語音。識別單元被配置為識別包含在操作員的語音中的音素的輸出間隔。確定單元被配置為確定每個輸出間隔的時間長度是否正常。頻率獲取單元被配置為獲取分別表示分別對應于音素的上下文的出現(xiàn)頻率的頻率值。該上下文包括音素以及與音素的至少一側相鄰的另一個音素。得分計算器被配置基于輸出間隔的時間長度的確定結果以及分別對應于音素的所獲取的上下文的頻率值，來計算代表操作員的語音的正確性的得分。
【專利說明】語音處理器及語音處理方法
[0001] 相關申請的交叉引用
[0002] 本申請是基于并要求于2013年6月3日提交的日本專利申請N0. 2013-117261的優(yōu)先權；該日本專利申請的全部內(nèi)容通過引用并入本文。

【技術領域】
[0003] 本文所描述的實施例大體涉及語音處理器，和語音處理方法。

【背景技術】
[0004] 語音處理，例如語音識別或語音合成需要獲取大量的用于例如學習或評估的語音。作為獲取語音的方式之一，可以構建一個通過互聯(lián)網(wǎng)從大量操作員獲取語音并作為他們的工作的報酬給操作員獎勵的系統(tǒng)。例如，JP-A2003-186489公開了一種語音獲取系統(tǒng)，它使發(fā)聲者能夠通過顯示將被說出的字符串及對發(fā)聲者的指導信息來自己執(zhí)行記錄。這樣的系統(tǒng)可以以在時間和經(jīng)濟方面的較低成本來獲取大量語音。
[0005] 在這樣的系統(tǒng)中，操作員酌情朗讀（read aloud)所呈現(xiàn)的文本并同時進行錄制工作。因此，當操作員無法朗讀文本時，操作員可以在不再次朗讀文本的情況下發(fā)送語音，不與文本一致的低質量語音可以被獲取到系統(tǒng)中。由于朗讀中的錯誤導致使用包括大量的如此低質量語音的語音引起了語音處理精度惡化。

【發(fā)明內(nèi)容】

[0006] 實施例的目的是提供一種能夠以高精確度計算出代表操作員朗讀文本的語音的正確性的得分的語音處理器。
[0007] 根據(jù)一種語音處理器，包括呈現(xiàn)單元、語音獲取單元、識別單元、確定單元、頻率獲取單元，和得分計算器。呈現(xiàn)單元被配置為將文本呈現(xiàn)給操作員。語音獲取單元用于獲取朗讀文本的操作員的語音。識別單元被配置為識別包含在操作員的語音中的音素的輸出間隔。確定單元被配置為確定每個輸出間隔的時間長度是否是正常的。頻率獲取單元被配置為獲取分別表示分別對應于音素的上下文（context)的出現(xiàn)頻率的頻率值。上下文包括音素以及與該音素的至少一側相鄰的另一音素。得分計算器被配置為基于輸出間隔的時間長度的確定結果和分別對應于音素的所獲取的上下文的頻率值，計算出代表操作員的語音正確性的得分。
[0008] 根據(jù)上文描述的語音處理器，可以以高精度計算出代表朗讀文本操作員的語音的正確性的得分。

【專利附圖】

【附圖說明】
[0009] 圖1是語音處理系統(tǒng)的示例性結構圖；
[0010] 圖2是語音處理器和終端設備的示例性結構圖；
[0011] 圖3是由語音處理器執(zhí)行的處理的示例性流程圖；
[0012] 圖4是示出當選擇了日語文本時的音素串的示例圖；
[0013] 圖5是示出當選擇了日語文本時的上下文的示例圖；
[0014] 圖6是示出了文本呈現(xiàn)屏幕的示例性示意圖；
[0015] 圖7是示出了當選擇了日語文本時音素的輸出間隔的示例圖；
[0016] 圖8是示出了當選擇了日語文本時各音素的時間長度的確定結果的示例圖；
[0017] 圖9是示出了當選擇了日語文本時上下文的頻率值的示例圖；
[0018] 圖10是示出了當選擇了日語文本時各音素的權重的示例圖；
[0019] 圖11是示出了其上顯示得分的文本呈現(xiàn)屏幕的示例性示意圖；
[0020] 圖12是用于計算相應音素的權重的處理的示例性流程圖；
[0021] 圖13是用于計算得分的處理的示例性流程圖；
[0022] 圖14是用來選擇文本的處理的示例性流程圖；
[0023] 圖15是示出了上下文的出現(xiàn)位置的示例圖；
[0024] 圖16是示出了當選擇英文文本時的音素串和上下文的示例圖；
[0025] 圖17是示出了當選擇英語文本時的音素的輸出間隔的示例圖；
[0026] 圖18是示出了當選擇英語文本時的各音素的時間長度的確定結果的示例圖；
[0027] 圖19是示出了當選擇英語文本時的上下文的頻率值的示例圖；
[0028] 圖20是示出了當選擇英語文本時的各音素的權重的示例圖；以及
[0029] 圖21是語音處理器的示例性硬件結構圖。

【具體實施方式】
[0030] 下面參照附圖來描述實施例。
[0031] 圖1說明了根據(jù)實施例的語音處理系統(tǒng)10的結構。語音處理系統(tǒng)10向多個操作員呈現(xiàn)文本，并要求操作員朗讀文本。該文本是字符串，如任何語言的詞或句子。語音處理系統(tǒng)10把由操作員朗讀的語音轉換成信號并獲取該信號。在下文中，從語音轉換的所獲取的信號也被稱為所獲取的語音。語音處理系統(tǒng)10使得所獲取的語音能夠以如此方式被用于語音處理(例如語音識別或語音合成）中的學習或評估。
[0032] 語音處理系統(tǒng)10包括語音處理器20和多個終端設備30。語音處理器20是連接到網(wǎng)絡(如因特網(wǎng)）的計算機。每個終端設備30的是由操作員操作的計算機。語音處理器 20和各個終端設備30通過網(wǎng)絡彼此耦合。
[0033] 語音處理器20通過其相應的終端設備30向操作員呈現(xiàn)文本，并指示相應操作員朗讀所呈現(xiàn)的文本。語音處理器20將由相應操作員朗讀的語音獲取為信號并且存儲所獲取的語音。
[0034] 語音處理器20計算代表所獲取的語音的正確性的得分。例如，語音處理器20通過終端設備30向每個操作員通知得分。語音處理器20互相關聯(lián)地存儲得分和所獲取的語音。例如，得分的較大值表明該操作員更正確地朗讀文本，而在朗讀文本時具有更少錯誤。換句話說，例如，得分的較小值表明由于朗讀中的錯誤而導致操作員的語音是不正確的。
[0035] 因此構成的語音處理系統(tǒng)10可以通過通知操作員得分來使操作員意識到朗讀中的正確性。因此構成的互相關聯(lián)地存儲獲取的語音和得分的語音處理系統(tǒng)10還能夠通過使具有高得分的語音被用于例如語音處理中的學習或評估來提高語音處理中的準確性。
[0036] 圖2示出根據(jù)本實施例的語音處理器20和終端設備30的結構。
[0037] 終端設備30包括顯示器41，輸入單元42,麥克風43,和信息處理器44。顯示器41 顯示從語音處理器20獲取的文本。顯示器41顯示從語音處理器20獲取的得分。
[0038] 為鍵盤或鼠標的輸入單元42例如接收操作員的操作。麥克風43將朗讀文本的操作員的語音轉換為信號。
[0039] 信息處理器44包括中央處理單元（CPU)，并且完全控制終端設備30。信息處理器 44通過網(wǎng)絡接收來自語音處理器20的文本和得分，并使顯示器41顯示接收到的文本和得分。信息處理器44通過網(wǎng)絡將由麥克風43從語音轉換的信號傳輸?shù)秸Z音處理器20。
[0040] 語音處理器20包括文本選擇器51，音素串轉換器52,上下文生成器53,呈現(xiàn)單元 54,語音獲取單元55,識別單元56,確定單元57,頻率存儲單元58,頻率獲取單元59,權重計算器60,得分計算器61，通知器62,點加法器63,更新單元64和記錄器65。
[0041] 文本選擇器51選擇將要呈現(xiàn)給操作員的文本。文本選擇器51可以讀出由系統(tǒng)管理員預先選定的文本，例如，或從多個候選文本中選擇出將要呈現(xiàn)給操作員的文本。
[0042] 音素串轉換器52把文本選擇器51選擇的文本轉換為音素串。音素是聲音的最小單位以識別由人說出的話語的含義。音素串轉換器52將文本轉換為符號序列，該符號序列基于文本和音素串的對應表來表現(xiàn)各音素。音素系統(tǒng)根據(jù)語言和理論的解釋而變化。只要音素系統(tǒng)對應于所選文本的語言，音素串轉換器52可以根據(jù)任何解釋將文本轉換成音素字符串。
[0043] 上下文生成器53生成與包含于通過利用音素串轉換器52的轉換而得的音素字符串中的各音素對應的上下文。上下文代表某一音素和與該某一音素的至少一側相鄰的相鄰音素（即緊接在某一音素之前的相鄰音素以及緊接在某一音素之后的相鄰音素)的組合。被稱為雙音素和三音素的上下文是已知的。雙音素是表示某一音素與緊接在該某一因素之前的音素的組合的上下文。三音素是表示某一音素與緊接在該某一因素之前及之后的音素的組合的上下文。上下文生成器53可以生成雙音素或三音素。
[0044] 呈現(xiàn)單元54向操作員呈現(xiàn)由文本選擇器51選擇的文本。例如，呈現(xiàn)單元54通過網(wǎng)絡將該文本發(fā)送到終端設備30,并使終端設備30的顯示器41顯示該文本。
[0045] 語音獲取單元55獲取朗讀所呈現(xiàn)的文本的操作員的語音。例如，語音獲取單元55 接收由終端設備30的麥克風43從語音轉換的信號，并將該信號存儲到存儲器中。
[0046] 識別單元56識別包含在操作員的語音中的各個音素的輸出間隔。具體來說，識別單元56檢測包括在操作員的語音內(nèi)的音素的分離，并識別每個音素的開始時間和結束時間。
[0047] 識別單元56使用強制對準技術（forced alignment technique)基于通過利用音素串轉換器52的轉換而獲得的音素字符串，來分析由語音獲取單元55獲取的語音并識別每個音素的輸出間隔。強制對準技術例如使用過去獲取的音素的波形或類似物，來識別音素的輸出間隔。在強制對準技術中，極可能的是，與過去獲取更少的音素的輸出間隔相比，過去獲取更多的音素的輸出間隔能被更正確地識別。
[0048] 確定單元57確定每個音素的由識別單元56識別的輸出間隔的時間長度是否正常。確定單元57然后將確定結果與包含在語音中的相應音素關聯(lián)起來。具體來說，確定單元57將標記與相應的音素關聯(lián)起來，該標記表明該時間長度是正常還是異常（S卩，該時間長度是不正常的)。
[0049] 包含在由人發(fā)出的語音中的每個音素的時間長度通常是在一定的范圍內(nèi)的。因此，當音素的輸出間隔的由識別單元56識別出的時間長度在一定范圍之外時，所識別的音素的輸出間隔的時間長度被估計為異常。確定單元57因此針對每個音素確定音素的輸出間隔的時間長度是否在預定范圍內(nèi)，并且如果音素的輸出間隔的時間長度是在預定范圍內(nèi)，則確定該音素為正常，并且如果該時間長度在預定范圍之外時，確定該音素為異常。換句話說，如果音素的輸出間隔的時間長度等于或大于預定下限時間長度，且等于或小于預定上限時間長度時，則確定單元57確定該音素為正常，而如果該時間長度是小于該下限時間長度或大于該上限時間長度時，則確定單元57確定該音素為異常。
[0050] 被確定為正常的每個音素的時間長度所在的范圍可以是相同的，而不管音素的種類如何；或者被確定為正常的每個音素的時間長度所在的范圍也可能根據(jù)音素的類型而變化。被確定為正常的每個音素的時間長度所在的范圍可能根據(jù)語言而變化。
[0051] 頻率存儲單元58針對每個上下文，在其中儲存了表示包含在過去獲取的語音中的上下文的出現(xiàn)頻率的值作為頻率值。當上下文被包括在過去獲取的語音中的次數(shù)為大時，頻率值是大的，而當上下文被包括在過去獲取的語音中的次數(shù)為小時，則頻率值是小的。
[0052] 過去獲取的語音可能是由語音處理系統(tǒng)10獲取的語音或是由另一系統(tǒng)獲取的語音。過去取得的語音可能既包括由語音處理系統(tǒng)10獲取的語音，也包括由另一系統(tǒng)獲取的語音。
[0053] 頻率值并不必須是直接代表出現(xiàn)頻率的值，只要其代表出現(xiàn)頻率。頻率值的實例包括將出現(xiàn)頻率分成約10個級別而獲得的級別的代表值，以及出現(xiàn)頻率的歸一化值。
[0054] 頻率獲取單元59從頻率存儲單元58獲取與通過音素串轉換器52的轉換而得到的各音素相對應的上下文的頻率值。具體來說，頻率獲取單元59從頻率存儲單元58中讀出與由上下文生成器53產(chǎn)生的相應文本相對應的頻率值。
[0055] 權重計算器60根據(jù)頻率獲取單元59獲取的文本的頻率值計算出與通過音素串轉換器52的轉換而得的音素相對應的權重。權重是由例如數(shù)值表示的系數(shù)。例如，頻率值越大，權重計算器60計算出的權重值就越大，而頻率值越小，權重計算器60計算出的權重值就越小。
[0056] 得分計算器61基于確定單元57關于音素輸出間隔的時間長度的確定結果和權重計算器60計算的分別對應于音素的權重來計算代表朗讀文本的操作員的語音的正確性的得分結果。
[0057] 具體來說，得分計算器61利用對應的相應權重來對音素的確定結果進行加權。然后得分計算器61在加權之后計算被確定為正常的音素的確定結果的數(shù)量與確定結果的總數(shù)量的比率，來作為得分。得分計算器61能在得分上反映出具有大權重的音素（即具有大出現(xiàn)頻率的音素）的確定結果以及具有小加權音素（即具有小的出現(xiàn)頻率的音素）的確定結果。
[0058] 通知器62根據(jù)由評分計算器61計算的得分通知操作員其內(nèi)容。例如，通知器62 通過網(wǎng)絡發(fā)送得分到終端設備30,并使終端設備30的顯示器41顯示得分。通知器62可以將得分轉換為分類成兩級或三級(例如，評估等級A，評估等級B，和評估等級C)的評估值，并例如使顯示器41顯示出評估值。作為結果，通知器62可以使操作員意識到朗讀文本的操作員的語音的正確性。
[0059] 分數(shù)加法器63例如，訪問外部分數(shù)管理服務器，并且向操作員增加了分數(shù)以作為對朗讀工作的報酬。例如，該分數(shù)可以是現(xiàn)金或電子貨幣?？商娲?，例如，分數(shù)加法器63 可以將對應量的貨幣轉移到操作員的銀行賬戶。
[0060] 分數(shù)加法器63可以按照得分來改變分數(shù)。例如當操作員的語音的計算得分等于或大于預先設定的閾值時，分數(shù)加法器63可以在常規(guī)分數(shù)之前將獎勵分數(shù)加給朗讀文本的操作員。作為結果，分數(shù)加法器63可以激勵操作員更正確地朗讀文本。
[0061] 更新單元64更新存儲在頻率存儲單元58中的與朗讀文本的操作員的語音中包括的相應音素對應的上下文的頻率值。在這種情況下，更新單元64在得分等于或大于某一閾值時，可更新上下文的頻率值。作為結果，更新單元64可以在文本被不正確地朗讀時，防止頻率值被反映在頻率存儲單元58上。
[0062] 記錄器65在內(nèi)部或外部存儲設備中存儲由語音獲取單元55獲取的語音和識別單元56所識別的相應音素的輸出間隔。作為結果，記錄器65可以使獲取的語音被用于語音處理。
[0063] 在這種情況下，記錄器65還可以進一步與語音相關聯(lián)地存儲得分。作為結果，記錄器65可使具有高得分的語音（S卩，正確的語音）被用于語音處理。記錄器65可以通過分析具有低得分的語音來使其朗讀中的錯誤的原因被分析。
[0064] 圖3示出根據(jù)本實施例的語音處理器20執(zhí)行的處理流程。下面參照圖3描述了由語音處理器20執(zhí)行的處理過程。
[0065] 在步驟S11，文本選擇器51選擇將要呈現(xiàn)給操作員的文本。舉個例子，文本選擇器 51選擇日語詞語的"mottsuarera (英文中的mozzarella)"的文本。
[0066] 在步驟S12,音素串轉換器52將選定的文本轉換成音素串。在本例中，音素串轉換器52將文本"mottsuarera"轉換成〃m-〇-Q-cw-a-r-e-r-a〃的詞素串，其是由如圖4所示的9個音素構成。
[0067] 在步驟S13,上下文生成器53產(chǎn)生與音素串中包含的相應音素對應的上下文作為轉換結果。在該示例中，上下文生成器53產(chǎn)生被稱為雙音素的上下文。
[0068] 具體而言，如圖5所示，上下文生成器53產(chǎn)生與"m"的音素對應的"sil-m"的上下文。符號"sil"表示silence (沉默)。
[0069] 上下文生成器53產(chǎn)生對應于音素"〇"的上下文"m-o"。上下文生成器53產(chǎn)生對應于音素"Q"的上下文"〇-Q"。上下文生成器53產(chǎn)生對應于音素"cw"的上下文"Q-cw"。上下文生成器53產(chǎn)生對應于音素"a"的上下文"cw-a"。上下文生成器53產(chǎn)生對應于音素 "r"的上下文"a-r"。上下文生成器53產(chǎn)生對應于音素"e"的上下文"r-e"。上下文生成器53產(chǎn)生對應于音素"r"的上下文"e-r"。上下文生成器53產(chǎn)生對應于音素"a"的上下文 "r-a"。
[0070] 在步驟S14,呈現(xiàn)單元54使終端設備30的顯示器41顯示所選擇的文本。在該示例中，如圖6所示，呈現(xiàn)單元54使顯示器41顯示包括文本"mottsuarera"的呈現(xiàn)屏幕70。
[0071] 指示對朗讀文本的獎勵的分數(shù)(例如，"5分數(shù)"）可與文本一起顯示在呈現(xiàn)屏幕70 上。例如，在呈現(xiàn)屏幕70上，顯示了啟動語音記錄的記錄按鈕71。一旦記錄按鈕71被操作員按壓，終端設備30通過麥克風43開始記錄操作員的語音。
[0072] 在步驟S15,語音獲取單元55通過網(wǎng)絡獲取由終端設備30記錄的語音。隨后例如，語音獲取單位55將獲取的語音存儲在存儲器中。
[0073] 在步驟S16,識別單元56識別包括在所獲取的語音內(nèi)的相應音素的輸出間隔。在本例中，識別單元56使用強制對準技術來識別相應音素的輸出間隔。識別單元56使用過去獲取的相應音素的波形或類似物來識別與從呈現(xiàn)的文本轉換成的相應音素相對應的輸出間隔。
[0074] 在本例中，如圖7所示，識別單元56識別相應音素"m"，"〇"，"Q"，"cw"，"a"，"r"， "e"，"r"和"a"的開始時間和結束時間。例如，識別單元56關于第一個音素"m"識別開始時間是1. 20秒并且結束時間為1. 29秒。作為另一示例，識別單元56關于第四音素"cw" 識別了開始時間為1. 43秒并且結束時間為1. 47秒。
[0075] 開始時間和結束時間的參照可被設定為任何時間。在該示例中，開始時間和結束時間的參考是開始記錄的時間。
[0076] 在步驟S17,確定單元57確定每個相應的音素的識別的輸出間隔的時間長度是否正常。如圖8所示，在本例中，當音素的從開始時間到結束時間的時間長度等于或大于0.05 秒且等于或小于〇. 15秒時，確定單元57確定該音素為正常。換句話說，當音素的開始時間到結束時間的時間長度是小于〇. 05秒或者比0. 15秒更大時，則確定單元57確定該音素為異常。例如，確定單元57確定為第一個音素"m"是正常的，因為時間長度為0.09秒。作為另一示例，確定單元57確定第四個音素"cw"為異常，因為時間長度為0. 04秒。
[0077] 如圖8所示，確定單元57將每一個指示正?；虍惓５臉擞浥c相應的音素關聯(lián)起來。
[0078] 在步驟S18,頻率獲取單元59從頻率存儲單元58獲取與從呈現(xiàn)的文本轉換而成的相應音素相對應的上下文的頻率值。在該示例中，頻率獲取單元59獲取與圖9所示的相應上下文 " si 1 -m"、"m-o "、" o-Q"、" Q-cw"、" cw-a"、" a-r "、"r-e "、" e-r " 和 "r-a" 相對應的頻率值。例如，頻率獲取單元59獲取" 1000000"作為與第一個音素"m"所對應的上下文 "sil-m"的頻率值。作為另一示例，頻率獲取單元59獲取"1000"作為與第四個音素"cw" 相對應的上下文"Q-cw"的頻率值。
[0079] 在步驟S19,權重計算器60根據(jù)所獲取的上下文的頻率值，計算與從所呈現(xiàn)的文本轉換的相應音素相對應的權重。如圖10所示，權重計算器60將與其上下文具有比預定參考值小的頻率的音素所對應的權重計算為第一值(例如，〇. 1)，同時權重計算器60將與其上下文具有大于或等于預定參考值的頻率值的音素相對應的權重，計算為第二值(例如， 1. 0)，在本示例中，第二值大于第一值。例如，權重計算器60將對應于第一個音素"m"的權重計算為第二值（1.0)。作為另一示例，權重計算器60將與第四個音素"cw"相應的權重計算為第一值（〇. 1)。
[0080] 權重計算器60在該例中，設置第一值與第二個值之間的比率為10倍。這個比率可以是大于或小于10倍。在步驟S19的具體處理將在后面參照圖12中來描述。
[0081] 在步驟S20,得分計算器61基于相應音素的輸出間隔的時間長度的確定結果和與各音素相對應的計算而得的權重，來計算得分。在例子中，得分計算器61計算由0到100 的任何數(shù)字值表示的得分。步驟S20的具體處理將在后面參照圖13進行描述。
[0082] 在步驟S21，通知器62使終端設備30的顯示器41顯示得分，從而將得分通知操作員。如該圖11所示，在該示例中，通知器62使顯示器41顯示得分窗72,將得分顯示在呈現(xiàn) 屏幕70的一部分上。分數(shù)加法器63訪問分數(shù)管理服務器，例如，并將該分數(shù)加給操作員。 [0083] 當?shù)梅值扔诨虼笥陬A先設定的閾值時，通知器62除了常規(guī)分數(shù)之外將獎勵分數(shù) 加給操作員。在這種情況下，如圖11所示，通知器62使顯示器41將獎勵分數(shù)的值顯示在得分窗72上，從而通知操作員該獎勵分數(shù)被添加。
[0084] 在步驟S22,更新單元64在得分等于或大于某一閾值的條件下，將存儲在頻率存儲單元58的頻率值進行更新。記錄器65將所獲取的語音及相應音素的輸出間隔存儲在內(nèi) 部或外部存儲設備中。在這種情況下，記錄器65與語音相關聯(lián)地存儲得分。
[0085] 在步驟S22的處理完成后，語音處理器20結束該流程的處理。
[0086] 圖12是用來計算音素的權重的處理流程。權重計算器60在圖3的步驟S19處執(zhí) 行圖12中所示的處理。
[0087] 在步驟S191中，權重計算器60從頻率存儲單元58獲取由頻率獲取單元50獲取的上下文的頻率值中的最大值。如圖9所示，在該示例中，權重計算器60獲得"2000000"，其是與第七音素"e"對應的上下文"r-e"的最大的頻率值。
[0088] 在步驟S192,權重計算器60確定在從所呈現(xiàn)的文本轉換成的音素中是否剩余待選擇的任何音素。如果沒有待選擇的音素剩余(步驟S192的否)，則權重計算器60結束該流程，并且該處理返回到主流程。如果剩余待選擇的任何音素(步驟S192的是)，則權重計算器60前進到步驟S193。
[0089] 在步驟S193,權重計算器60從剩余待選的音素中選出任何一個音素作為處理對象。
[0090] 在步驟S194,權重計算器60將與待選的音素相對應的上下文的頻率值進行歸一化。具體來說，權重計算器60在歸一化處理中，與被選的音素相對應的上下文的頻率值除以在步驟S191中獲取的最大值。在圖9所示的該示例中，當?shù)谝粋€音素"m"被選擇時，歸一化的頻率值被如下計算：1000000/2000000=0. 5。在圖9所示的該示例中，當?shù)谒囊羲?cw" 被選擇時，則歸一化的頻率值被如下計算：1000/2000000=0. 0005。
[0091] 在步驟S195中，權重計算器60將歸一化的頻率值與預先設定的參考值進行比較，并計算與所選擇的音素相對應的權重。具體地，當歸一化的頻率值比參考值小時，權重計算器60將對應于所選擇的音素計算為第一值（0. 1)。當歸一化的頻率值等于或大于參考值時，權重計算器60將與所選音素相對應的權重計算為第二值（1.0)，該第二值比第一值大。
[0092] 在該示例中，參考值被設置為"0. 1"。如圖10所示，當?shù)谝粋€音素"m"被選擇時，由于歸一化的頻率值是比參考值大的"0. 5"，故權重計算器60將權重計算為第二值（1. 0)。當選擇第四個音素"cw"時，權重計算器60將權重計算為第一值（0. 1 )，因為歸一化的頻率值是比參考值小的"〇. 0005"。
[0093] 權重計算器60可使用不僅僅兩個值，而是三個或更多的值來計算權重。權重計算器60可以計算歸一化的頻率值的對數(shù)值作為權重。
[0094] 在步驟S196,權重計算器60將計算出的權重與選擇的音素關聯(lián)地存儲。然后權重計算器60返回到步驟S192,并繼續(xù)從步驟S192到步驟S196的處理，直到?jīng)]有待選擇的音素剩余。
[0095] 圖13示出用于計算得分的處理流程。得分計算器61在圖3所示的步驟S20處執(zhí) 行圖13所示的處理。
[0096] 在步驟S201，得分計算器61代入"0"用于變量W和T。
[0097] 在步驟S202,得分計算器61確定從文本轉換而來的音素中是否剩余任何待選擇的音素。如果沒有剩余音素待選擇(步驟S202的否)，則得分計算器61前進到步驟S208。如果剩余任何音素待選擇(步驟S202的是)，則得分計算器61前進到步驟S203。
[0098] 在步驟S203,得分計算器61從剩余待選擇的音素中選擇任一個音素作為處理目標。
[0099] 在步驟S204,得分計算器61獲取對應于所選擇的音素的權重Wi。例如，當選擇了第一個音素"m"時，得分計算器61獲得如圖10所示的"權重Wl=l. 0"。作為另一示例，當?shù)?四音素"cw"被選擇時，得分計算器61獲取如圖10所示的"權重w4=0. 1"。
[0100] 在步驟S205,得分計算器61執(zhí)行W=w+Wi的算術運算。換句話說，該得分計算器61 將所選音素的權重wi加到變量W。
[0101] 在步驟S206,得分計算器61獲取與所選的音素相對應的標記li。例如，當選擇第一個音素"m"時，得分計器部61獲得如圖8所示的"標記1 1=正常"。再如，當選擇第四個音素"cw"時，得分計算器61獲得如圖8所示的"標記14=異常"。
[0102] 在步驟S207,得分計算器61執(zhí)行算術運算"T=T+I (If正常）XWi"。I (X)是函數(shù)。當X為真時，I (x)=l，而當X為假時，I (x)=〇。當標記li是正常時，得分計算器61 將&加到T，而當標記^是異常時，得分計算61不將值加到T。
[0103] 在完成步驟S207處的處理之后，得分計算器61返回到步驟S202,并且重復從步驟 S202至步驟S207的處理，直到?jīng)]有音素剩余待選擇為止。如果沒有音素剩余待選擇，則得分計算器61前進到步驟S208。
[0104] 在步驟S208,得分計算器61執(zhí)行算術運算"S= (T/W) X 100"來計算得分S。W表示與各個音素相對應的權重之和。τ代表與被確定為正常的音素對應的權重之和。
[0105] 得分計算器61因此在算術運算"S=(T/W) X 100"中，通過將對應于被確定為正常的各音素的權重之和與對應于各個音素的權重之和的比率乘以1〇〇,來計算得分S。
[0106] 從步驟S201到步驟S208的處理由下面的表達式（1)表示。
[0107]

【權利要求】
1. 一種語音處理器，包括：被配置成將文本呈現(xiàn)給操作員的呈現(xiàn)單元；被配置成獲取朗讀所述文本的操作員的語音的語音獲取單元；被配置成識別包含在所述操作員的所述語音中的音素的輸出間隔的識別單元；被配置成確定所述輸出間隔的時間長度中的每一個是否正常的確定單元；被配置為獲取分別代表分別與所述音素相對應的上下文的出現(xiàn)頻率的頻率值的頻率獲取單元，所述上下文包括所述音素以及與所述音素的至少一側相鄰的另一個音素；以及得分計算器，其被配置為基于所述輸出間隔的所述時間長度的確定結果以及分別對應于所述音素的所獲取的上下文的頻率值，來計算代表所述操作員的所述語音的正確性的得分。
2. 根據(jù)權利要求1所述的語音處理器，還包括：被配置為根據(jù)所述上下文的所述頻率值來計算對應于每個所述音素的權重的權重計算器，其中所述得分計算器計算與對應于被確定為正常的正常音素的所述權重之和與對應于多個音素的所述權重之和的比率相對應的值，作為所述得分。
3. 根據(jù)權利要求2所述的語音處理器，其中，所述權重計算器計算所述權重，使得與上下文的頻率值等于或大于參考值的音素相對應的權重，比與上下文的頻率值小于所述參考值的音素相對應的權重更大。
4. 根據(jù)權利要求1所述的語音處理器，還包括被配置為向所述操作員通知根據(jù)所述得分的內(nèi)容的通知器。
5. 根據(jù)權利要求1所述的語音處理器，還包括：頻率存儲單元，其被配置為在其中存儲包括在過去獲取的語音中的多個上下文的出現(xiàn) 頻率作為所述頻率值；更新單元，其被配置來根據(jù)所述得分來更新與朗讀所述文本的所述操作員的所述語音中包括的所述音素相對應的所述上下文的存儲在所述頻率存儲單元中的所述頻率值；以及文本選擇器，其被配置為從多個候選文本中選擇一個文本作為所述文本，其中所述文本選擇器基于當所述候選文本被朗讀時與包括在所述候選文本中的多個音素相對應的上下文的頻率值來選擇所述文本。
6. 根據(jù)權利要求5所述的語音處理器，其中，所述文本選擇器選擇優(yōu)先于其他候選文本的候選文本，優(yōu)選的候選文本在文本的開頭和結尾處包括上下文的頻率值大于閾值的音素，并且在文本中除了文本的開頭和結尾之外的部分處包括上下文的頻率值小于所述閾值的音素。
7. -種語音處理方法，包括：將文本呈現(xiàn)給操作員；獲取朗讀所述文本的所述操作員的語音；識別包括在所述操作員的所述語音內(nèi)的音素的輸出間隔；確定所述輸出間隔的時間長度中的每一個是否正常；獲取分別代表分別對應于所述音素的上下文的出現(xiàn)頻率的頻率值，所述上下文包括對應的音素和與所述音素的至少一側相鄰的另一個音素；以及基于所述輸出間隔的所述時間長度的確定結果和分別對應于所述音素獲得的所述上下文的所述頻率值，來計算代表所述操作員的所述語音的正確性的得分。
【文檔編號】G10L15/32GK104217716SQ201410093682
【公開日】2014年12月17日申請日期:2014年3月13日優(yōu)先權日:2013年6月3日
【發(fā)明者】中田康太申請人:株式會社東芝

完整全部詳細技術資料下載