聲音同時(shí)處理裝置、方法及程序的制作方法
【專利摘要】本發(fā)明涉及聲音同時(shí)處理裝置、方法及程序。將發(fā)聲聲音的識(shí)別結(jié)果分割為適當(dāng)?shù)奶幚韱挝?。包括:取得部,取得聲音信?hào);聲音識(shí)別部,生成聲音信號(hào)中聲音識(shí)別處理結(jié)束后變換為字符串的聲音區(qū)間對(duì)應(yīng)的字符串即確定字符串和為后續(xù)于確定字符串的聲音區(qū)間的、處于聲音識(shí)別處理途中且未確定作為變換結(jié)果的字符串的聲音區(qū)間對(duì)應(yīng)的一個(gè)以上的候補(bǔ)字符串;檢測(cè)部,對(duì)分別連接確定字符串和一個(gè)以上的候補(bǔ)字符串而成的一個(gè)以上的組合字符串,由表示成為自然語言處理中處理單位的開始位置的詞素的位置的分割點(diǎn)分割該組合字符串時(shí),在存在在組合字符串的各個(gè)中相同的包括于確定字符串的字符串時(shí),將該字符串檢測(cè)為處理單位字符串;輸出部,輸出處理單位字符串。
【專利說明】聲音同時(shí)處理裝置、方法及程序
【技術(shù)領(lǐng)域】
[0001 ] 本發(fā)明的實(shí)施方式涉及聲音同時(shí)處理裝置、方法及程序。
【背景技術(shù)】
[0002]近年,伴隨聲音處理技術(shù)的提高,應(yīng)用接收人的發(fā)聲而工作的各種服務(wù)例如聲音指令、聲音檢索及聲音對(duì)話等的系統(tǒng)。人的發(fā)聲即口頭語言中沒有書面語言所包括的標(biāo)點(diǎn)符號(hào)那樣的明確的斷句(劃分)處,為了提供上述服務(wù),必須將接收的發(fā)聲分割為適于該服務(wù)的單位。作為分割為適于服務(wù)的處理單位的方法,存在將包括無聲區(qū)間即停頓的發(fā)聲分割為處理單位的方法。
【發(fā)明內(nèi)容】
[0003]但是,上述的方法中,由于將因講話者和/或講話方式的差異而變化大的停頓用作發(fā)聲的斷句信息,因此有時(shí)無法檢測(cè)適當(dāng)?shù)奶幚韱挝?。例如,將以預(yù)先確定的長(zhǎng)度的停頓長(zhǎng)度斷句的聲音區(qū)間中的聲音識(shí)別結(jié)果的字符串分割為處理單位時(shí),事先應(yīng)提供的適當(dāng)?shù)耐nD長(zhǎng)度因講話者而異,而且,即使是同一講話者也不一定總是采用一定的停頓長(zhǎng)度,因此無法檢測(cè)出適當(dāng)?shù)奶幚韱挝弧?br>
[0004]另外,增大停頓長(zhǎng)度的閾值時(shí),直到確定處理單位為止的時(shí)間增加,因此,對(duì)原始發(fā)聲的后續(xù)處理的同步性降低。另一方面,減小停頓長(zhǎng)度的閾值時(shí),同步性提高,但是,由于通過停頓而斷句的單位增加,因此,檢測(cè)到零碎的處理單位,后續(xù)處理的精度降低。
[0005]本發(fā)明為解決上述問題而提出,目的是提供可以將發(fā)聲聲音的識(shí)別結(jié)果分割為適當(dāng)?shù)奶幚韱挝坏穆曇敉瑫r(shí)處理裝置、方法及程序。
[0006]本發(fā)明的一實(shí)施方式的聲音同時(shí)處理裝置包括取得部、聲音識(shí)別部、檢測(cè)部和輸出部。取得部取得聲音信號(hào)。聲音識(shí)別部生成:上述聲音信號(hào)中的聲音識(shí)別處理結(jié)束后變換為字符串的聲音區(qū)間所對(duì)應(yīng)的字符串即確定字符串,和為后續(xù)于該確定字符串的聲音區(qū)間的、處于聲音識(shí)別的處理途中而未確定作為變換結(jié)果的字符串的聲音區(qū)間所對(duì)應(yīng)的一個(gè)以上的候補(bǔ)字符串。檢測(cè)部對(duì)于將上述確定字符串和一個(gè)以上的上述候補(bǔ)字符串分別連接而成的一個(gè)以上的組合字符串,在通過表示成為自然語言處理中的處理單位的開始位置的詞素的位置的分割點(diǎn)分割該組合字符串時(shí),在存在在上述組合字符串的各個(gè)中相同的、包括于上述確定字符串的字符串的情況下,將該字符串檢測(cè)為處理單位字符串。輸出部輸出上述處理單位字符串。
[0007]根據(jù)上述構(gòu)成的聲音同時(shí)處理裝置,可以將發(fā)聲聲音的識(shí)別結(jié)果分割為適當(dāng)?shù)奶幚韱挝弧?br>
【專利附圖】
【附圖說明】
[0008]圖1是表示第I實(shí)施方式的聲音同時(shí)處理裝置的框圖。
[0009]圖2是表示第I實(shí)施方式的聲音同時(shí)處理裝置的工作的流程圖。
[0010]圖3是表示識(shí)別結(jié)果存儲(chǔ)部存儲(chǔ)的確定字符串和候補(bǔ)字符串的第I例的示圖。
[0011]圖4是表示組合字符串的分割點(diǎn)的檢測(cè)結(jié)果的第I例的示圖。
[0012]圖5是表示第I實(shí)施方式中的處理單位存儲(chǔ)部存儲(chǔ)的處理單位字符串的示圖。
[0013]圖6是表示識(shí)別結(jié)果存儲(chǔ)部存儲(chǔ)的確定字符串和候補(bǔ)字符串的第2例的示圖。
[0014]圖7是表示組合字符串的分割點(diǎn)的檢測(cè)結(jié)果的第2例的示圖。
[0015]圖8是表示第2實(shí)施方式的聲音同時(shí)處理裝置的框圖。
[0016]圖9是表示第2實(shí)施方式的聲音同時(shí)處理裝置的工作的流程圖。
[0017]圖10是表示第2實(shí)施方式的處理單位存儲(chǔ)部存儲(chǔ)的處理單位信息的第I例的示圖。
[0018]圖11是表示再處理單位字符串的分割點(diǎn)的檢測(cè)結(jié)果的示圖。
[0019]圖12是表示處理單位存儲(chǔ)部存儲(chǔ)的處理單位信息的第2例的示圖。
[0020]圖13是表示處理單位存儲(chǔ)部存儲(chǔ)的處理單位信息的第3例的示圖。
[0021]圖14是表示再處理單位字符串的分割點(diǎn)的檢測(cè)結(jié)果的示圖。
[0022]圖15是表示更新后的處理單位信息的一例的示圖。
【具體實(shí)施方式】
[0023]以下,參照附圖詳細(xì)說明本公開的一實(shí)施方式的聲音同時(shí)處理裝置、方法及程序。另外,以下的實(shí)施方式中,附同一編號(hào)的部分進(jìn)行同樣的工作,將重復(fù)的說明省略。
[0024](第I實(shí)施方式)
[0025]參照?qǐng)D1的框圖說明第I實(shí)施方式的聲音同時(shí)處理裝置。
[0026]本實(shí)施方式的聲音同時(shí)處理裝置100包括取得部101、聲音識(shí)別部102、識(shí)別結(jié)果存儲(chǔ)部103、檢測(cè)部104、處理單位存儲(chǔ)部105及輸出部106。
[0027]取得部101取得講話者發(fā)出的聲音作為聲音信號(hào)。聲音信號(hào)可以例如通過麥克風(fēng)集音并將其通過模擬及數(shù)字變換器(A/D變換器)處理而獲得。另外,也可以將預(yù)先在記錄介質(zhì)等錄音的聲音通過再現(xiàn)器件等讀入記錄介質(zhì)并再現(xiàn)而取得為聲音信號(hào)。
[0028]聲音識(shí)別部102從取得部101接收聲音信號(hào),對(duì)聲音信號(hào)進(jìn)行聲音識(shí)別處理,將聲音信號(hào)變換為文本字符串。聲音識(shí)別處理例如以采用隱馬爾可夫模型(Hidden MarkovModel:HMM)等的一般方法進(jìn)行即可,因此這里省略詳細(xì)說明。另外,聲音識(shí)別部102生成:聲音識(shí)別處理結(jié)束后變換為字符串的聲音區(qū)間所對(duì)應(yīng)的字符串即確定字符串;為后續(xù)于該確定字符串的聲音區(qū)間的、處于聲音識(shí)別的處理途中并且作為變換結(jié)果的字符串未確定的聲音區(qū)間所對(duì)應(yīng)的一個(gè)以上的候補(bǔ)字符串。
[0029]確定字符串及候補(bǔ)字符串的生成方法生成例如聲音信號(hào)中的一定的無聲期間(停頓)作為斷句處即可。即,將比停頓時(shí)間性靠前的區(qū)間的聲音所對(duì)應(yīng)的確定了一個(gè)以上的候補(bǔ)的狀態(tài)下的最大似然的字符串設(shè)為確定字符串,將比停頓靠后的區(qū)間的聲音所對(duì)應(yīng)的一個(gè)以上的字符串設(shè)為候補(bǔ)字符串即可。以下,將候補(bǔ)字符串的集合稱為候補(bǔ)字符串集口 ο
[0030]另外,確定字符串可以僅僅是相對(duì)于確定的聲音區(qū)間的最大似然的字符串,也可以以包括與確定的聲音區(qū)間對(duì)應(yīng)的其他候補(bǔ)的形式如字符串點(diǎn)陣(lattice)形式生成。同樣,候補(bǔ)字符串集合也可以按每個(gè)候補(bǔ)字符串區(qū)別生成,也可以以字符串點(diǎn)陣形式輸出。
[0031]另外,作為確定字符串及候補(bǔ)字符串的生成方法的其他例,也可以通過:采用與聲音識(shí)別處理中的聲音相當(dāng)?shù)淖址蜓a(bǔ)達(dá)到預(yù)定單詞數(shù)的位置來取代停頓、采用字符串候補(bǔ)的生成概率超過一定的閾值的位置來取代停頓,生成確定字符串及候補(bǔ)字符串。
[0032]識(shí)別結(jié)果存儲(chǔ)部103從聲音識(shí)別部102接收確定字符串及一個(gè)以上的候補(bǔ)字符串,分別對(duì)應(yīng)地存儲(chǔ)。另外,本實(shí)施方式中,確定字符串及候補(bǔ)字符串假定是單詞信息未附屬的明碼電文,但是也可以存儲(chǔ)按單詞斷句的系列來作為聲音識(shí)別部102的聲音識(shí)別處理結(jié)果。
[0033]檢測(cè)部104從識(shí)別結(jié)果存儲(chǔ)部103取得確定字符串及候補(bǔ)字符串集合。檢測(cè)部104將確定字符串和候補(bǔ)字符串集合所包括的各個(gè)候補(bǔ)字符串連接,獲得一個(gè)以上的組合字符串。檢測(cè)部104分析各個(gè)組合字符串,在可成為后續(xù)的自然語言處理的處理單位的開始位置的詞素的位置,檢測(cè)一個(gè)以上表示將組合字符串分割為部分字符串的位置的分割點(diǎn)。檢測(cè)部104在通過分割點(diǎn)分割組合字符串時(shí),在存在在各個(gè)組合字符串中相同的、包括于確定字符串的字符串的情況下,將確定字符串所包括的字符串檢測(cè)為處理單位字符串。另外,各個(gè)組合字符串的集合也稱為組合字符串集合。
[0034]這里,處理單位是指:表示對(duì)于與聲音同時(shí)處理裝置100連接的其他器件的工作最佳的字符串,例如,與機(jī)器翻譯裝置連接時(shí)是同時(shí)并行地譯出向機(jī)器翻譯裝置輸入的聲音而獲得最佳的翻譯結(jié)果那樣的翻譯單位。另外,在對(duì)發(fā)聲要求高追隨性的同聲翻譯等的聲音對(duì)話時(shí),作為除了翻譯結(jié)果的品質(zhì)之外還以相對(duì)于發(fā)聲的遲延時(shí)間為變量而實(shí)現(xiàn)最佳口譯精度和口譯時(shí)間的單位,同時(shí)并行地將聲音作為聲音對(duì)話的任務(wù)而處理的單位與之相當(dāng)。
[0035]另外,檢測(cè)部104中,例如,可以用帶條件的隨機(jī)域(Condit1ning Random Field,條件隨機(jī)域)隨機(jī)地推定成為處理單位的分割點(diǎn)。機(jī)器學(xué)習(xí)中,也可以采用被賦予理想的處理單位的信息的學(xué)習(xí)數(shù)據(jù)(語料庫)來學(xué)習(xí)分割點(diǎn),或者,在未被賦予理想的處理單位的信息的數(shù)據(jù)中,也可以學(xué)習(xí)使與本實(shí)施方式的聲音同時(shí)處理裝置連接的裝置理想地工作的概率最大化的分割點(diǎn)。
[0036]機(jī)器學(xué)習(xí)方法除了本實(shí)施方式說明的帶條件隨機(jī)域之外,也可以采用HMM、支持向量機(jī)(Support Vector Machine: SVM)這樣的其他模型來推定分割點(diǎn),不限于上述的實(shí)現(xiàn)方式。另外,除了統(tǒng)計(jì)地檢測(cè)分割點(diǎn)的方法以外,例如,也可以應(yīng)用基于詞素系列中的圖形匹配的方法和/或采用語法信息的方法等。
[0037]處理單位存儲(chǔ)部105從檢測(cè)部104接收處理單位字符串并存儲(chǔ)。
[0038]輸出部106從識(shí)別結(jié)果存儲(chǔ)部103接收確定字符串及候補(bǔ)字符串、從處理單位存儲(chǔ)部105接收處理單位字符串,向外部輸出。向外部的輸出可以在每次處理單位字符串生成時(shí)輸出,也可以在積累某種程度的處理單位字符串后匯總輸出。另外,也可以包? LCD (Liquid crystal display:液晶顯不器)和 / 或 0LED(organic light emittingd1de:有機(jī)發(fā)光二極管)顯示器這樣的顯示器件、和/或打印器件、揚(yáng)聲器等的聲音器件、硬盤驅(qū)動(dòng)器等的存儲(chǔ)介質(zhì)的存儲(chǔ)器件。
[0039]接著,參照?qǐng)D2的流程圖說明第I實(shí)施方式的聲音同時(shí)處理裝置100的工作。
[0040]步驟S201中,聲音識(shí)別部102對(duì)取得部101取得的聲音進(jìn)行聲音識(shí)別處理,獲得確定字符串和候補(bǔ)字符串集合。
[0041]步驟S202中,檢測(cè)部104將確定字符串和候補(bǔ)字符串集合所包括的各個(gè)候補(bǔ)字符串連接,生成組合字符串,獲得以組合字符串為要素的組合字符串集合。這里,生成與候補(bǔ)字符串的數(shù)目對(duì)應(yīng)的組合字符串。
[0042]步驟S203中,檢測(cè)部104在由分割點(diǎn)分割各個(gè)組合字符串時(shí),判定是否存在:使得存在在各個(gè)組合字符串中相同的、包括于確定字符串的字符串那樣的分割點(diǎn)。若有使得存在在各個(gè)組合字符串中相同的、包括于確定字符串的字符串那樣的分割點(diǎn),則進(jìn)入步驟S204,若沒有使得存在在各個(gè)組合字符串中相同的、包括于確定字符串的字符串那樣的分割點(diǎn),則結(jié)束處理。
[0043]步驟S204中,處理單位存儲(chǔ)部105將確定字符串所包括的字符串存儲(chǔ)為處理單位字符串。
[0044]步驟S205中,輸出部106參照處理單位存儲(chǔ)部105,向外部輸出未輸出的處理單位字符串。以上,第I實(shí)施方式的聲音同時(shí)處理裝置100的工作結(jié)束。
[0045]接著,參照?qǐng)D3到圖5說明第I實(shí)施方式的聲音同時(shí)處理裝置100的工作的具體例。這里,表示對(duì)聲音同時(shí)處理裝置100連接從日語翻譯為英語的機(jī)器翻譯裝置的例。
[0046]這里,假定下述狀況:講話者連續(xù)地發(fā)出“千葉市內(nèi)T (V)予約(V) tz
妒良P * r > f見ο If X (Y) i b I t /V分,,的內(nèi)容,聲音同時(shí)處理裝置100取得該發(fā)聲。記號(hào)(V)表示聲音同時(shí)處理裝置100識(shí)別為無聲區(qū)間(停頓)的位置。
[0047]首先,發(fā)聲為“千葉市內(nèi)T (V)”時(shí),聲音識(shí)別部102進(jìn)行聲音識(shí)別處理,生成確定字符串和一個(gè)以上的候補(bǔ)字符串。參照?qǐng)D3說明識(shí)別結(jié)果存儲(chǔ)部103存儲(chǔ)的確定字符串和候補(bǔ)字符串。
[0048]在識(shí)別結(jié)果存儲(chǔ)部103,確定字符串301和一個(gè)以上的候補(bǔ)字符串302對(duì)應(yīng)地存儲(chǔ)。這里,相對(duì)于確定字符串301 “千葉市內(nèi)C”,分別對(duì)應(yīng)有候補(bǔ)字符串302 “火照3 &”、“ * r ”、“掘ο T ^ & ”、“補(bǔ)填Θ ”。通過連接確定字符串301和各個(gè)候補(bǔ)字符串302,可以獲得組合字符串。即,獲得“千葉市內(nèi)T火照石&”、“千葉市內(nèi)O * ^ “千葉市內(nèi)讀。又^ 3 &”、“千葉市內(nèi)T補(bǔ)填O”作為組合字符串,這4個(gè)組合字符串的集合成為組合字符串集合。
[0049]接著,檢測(cè)部104分析各個(gè)組合字符串,檢測(cè)分割點(diǎn)。分割點(diǎn)的檢測(cè)結(jié)果參照?qǐng)D4說明。
[0050]圖4表示采用帶條件隨機(jī)域向組合字符串401所包括的詞素賦予表示分割點(diǎn)對(duì)處理單位的候補(bǔ)位置的標(biāo)簽402的例?!癇”表示成為處理單位的開始位置的詞素的位置,“I”表示處于處理單位的途中的詞素的位置。
[0051]例如,對(duì)于組合字符串401 “千葉市內(nèi)T火照石Iv ”,可以在標(biāo)簽402的“B”的分割點(diǎn)的位置分割為部分字符串,因此,可知可以分割為“千葉市內(nèi)^ ”和“火照石的字符串。同樣,對(duì)于組合字符串“千葉市內(nèi)T > O”,可以在標(biāo)簽402 “B”的分割點(diǎn)的位置分割為“千葉市內(nèi)T ”和虧 > 乃”。
[0052]這里,檢測(cè)部104檢測(cè)使得存在在各個(gè)組合字符串401中相同的、包括于確定字符串的字符串那樣的分割點(diǎn)。圖4的例中,分割點(diǎn)中,可用標(biāo)簽402 “B”分割,使得存在在各個(gè)組合字符串401中相同的、包括于確定字符串的字符串。即,由于存在確定字符串即“千葉市內(nèi)T ”,因此將“千葉市內(nèi)T ”檢測(cè)為處理單位字符串。
[0053]圖5表示將檢測(cè)部104獲得的處理單位字符串存儲(chǔ)在處理單位存儲(chǔ)部105的一例。如圖5所示,存儲(chǔ)處理單位字符串501“千葉市內(nèi)C”。然后,輸出部106向外部輸出處理單位字符串“千葉市內(nèi)C”。
[0054]圖6表示:接著繼續(xù)發(fā)聲,取得部101取得“ * r 予約(V) ”的發(fā)聲,通過聲音識(shí)別部102的處理獲得確定字符串和候補(bǔ)字符串集合的處理結(jié)果。
[0055]這里,假定下述情況:獲得確定字符串601 “ * r 予約”和與確定字符串601對(duì)應(yīng)的一個(gè)以上的候補(bǔ)字符串602。如圖6所示,作為候補(bǔ)字符串602,獲得^ “退院”、“夕 ^ d > F”。
[0056]圖7表示:接著,檢測(cè)部104連接圖6所示的確定字符串和各個(gè)候補(bǔ)字符串,生成組合字符串,對(duì)各個(gè)組合字符串檢測(cè)分割點(diǎn)的結(jié)果。
[0057]如圖7所示,組合字符串701 “ * f > O予約f L.tz ^ L,,’在開頭的“ * f 以外不存在與標(biāo)簽702 “B”對(duì)應(yīng)的分割點(diǎn),因此無法分割為部分字符串。另一方面,組合字符串701 “ * r > Q予約f 退院”,在開頭以外存在與標(biāo)簽702 “B”對(duì)應(yīng)的分割點(diǎn),因此可以分割為AG予約& 和“退院”的字符串。另外,關(guān)于與候補(bǔ)字符串的開頭的字符串部分相符的標(biāo)簽702,字符串“夕^ 取得為標(biāo)簽702 “B”,字符串^ >卜取得為標(biāo)簽 702 “ I ”。
[0058]該情況下,在全部的組合字符串701中相同并且以分割點(diǎn)分割的結(jié)果包括于確定字符串那樣的字符串,即,在各個(gè)組合字符串中標(biāo)簽702在“B”處相同的分割點(diǎn),并不存在。因此不生成新的處理單位字符串,不向處理單位存儲(chǔ)部105追加。
[0059]采用現(xiàn)有的以發(fā)聲中的停頓為線索的方法時(shí),“ * r > co予約& 1.(V) ”的發(fā)聲對(duì)應(yīng)的“ * f Θ予約f ”的部分被檢測(cè)為處理單位,因此,導(dǎo)致將后續(xù)的“ h P & T + ift 二 (二行# 作為其他處理單位被分開進(jìn)行處理。這表示將分割的字符串作為機(jī)器翻譯裝置的處理單位時(shí),作為翻譯結(jié)果,導(dǎo)致分離為“I book a hotel”和“I want, but whereshould I go”,無法正確反映原來的發(fā)聲所具有的意圖。
[0060]另一方面,第I實(shí)施方式的聲音同時(shí)處理裝置中,分析發(fā)聲的上下文而檢測(cè)處理單位,因此,可以抑制無法正確反映原來的發(fā)聲具有的意圖的處理單位的輸出。
[0061]S卩,根據(jù)第I實(shí)施方式,可以將發(fā)聲聲音的識(shí)別結(jié)果分割為適當(dāng)?shù)奶幚韱挝?,例如與機(jī)器翻譯裝置連接時(shí)可以按處理單位字符串進(jìn)行適當(dāng)?shù)姆g,因此,即使在發(fā)聲途中也可以追隨并漸進(jìn)地輸出。
[0062](第2實(shí)施方式)
[0063]第2實(shí)施方式中,與第I實(shí)施方式的不同點(diǎn)在于:根據(jù)發(fā)聲的狀況,更新處理單位字符串相關(guān)的信息。這樣,即使因后續(xù)的聲音的識(shí)別結(jié)果導(dǎo)致適當(dāng)?shù)奶幚韱挝桓淖儠r(shí),也可以輸出正確反映原來的發(fā)聲具有的意圖的處理單位。
[0064]參照?qǐng)D8說明第2實(shí)施方式的聲音同時(shí)處理裝置的框圖。
[0065]第2實(shí)施方式的聲音同時(shí)處理裝置800包括:取得部101、識(shí)別結(jié)果存儲(chǔ)部103、檢測(cè)部104、輸出部106、聲音識(shí)別部801、處理單位存儲(chǔ)部802及更新部803。
[0066]取得部101、識(shí)別結(jié)果存儲(chǔ)部103、檢測(cè)部104及輸出部106,與第I實(shí)施方式進(jìn)行同樣的工作,因此這里的說明省略。
[0067]聲音識(shí)別部801進(jìn)行與第I實(shí)施方式的聲音識(shí)別部102同樣的處理,但是,不同點(diǎn)在于:取得聲音發(fā)出的時(shí)刻相關(guān)的時(shí)間信息和發(fā)出聲音的講話者的講話速度(以下稱為語速)。
[0068]處理單位存儲(chǔ)部802進(jìn)行與第I實(shí)施方式的處理單位存儲(chǔ)部105同樣的處理,但是,不同點(diǎn)在于:將處理單位字符串和檢測(cè)處理單位字符串的區(qū)間所對(duì)應(yīng)的聲音的時(shí)間信息對(duì)應(yīng)地作為處理單位信息而存儲(chǔ)。
[0069]更新部803參照處理單位存儲(chǔ)部802存儲(chǔ)的處理單位信息,在新的處理單位信息向處理單位存儲(chǔ)部802追加了時(shí),判定是否是:時(shí)間上先于追加的處理單位信息的、與預(yù)先設(shè)定的時(shí)間內(nèi)連續(xù)發(fā)聲的聲音區(qū)間對(duì)應(yīng)的處理單位信息。該判定也可以從聲音識(shí)別部801接收時(shí)間信息及語速的至少任一個(gè),參照接收的信息進(jìn)行判定。
[0070]而且,更新部803,在存在先于追加的處理單位信息的、與預(yù)先設(shè)定的時(shí)間內(nèi)連續(xù)發(fā)聲的聲音區(qū)間對(duì)應(yīng)的處理單位信息時(shí),將對(duì)應(yīng)的處理單位信息所包括的處理單位字符串按時(shí)間序列順序連接,生成再處理單位字符串。而且,再處理單位字符串的分割點(diǎn)和處理單位存儲(chǔ)部802存儲(chǔ)的處理單位字符串的分割點(diǎn)不同時(shí),將連接的以前的處理單位信息所包括的處理單位字符串和時(shí)間信息置換為再處理單位字符串和與再處理單位字符串對(duì)應(yīng)的時(shí)間信息。
[0071]確定連續(xù)發(fā)聲的聲音區(qū)間時(shí)所采用的閾值,在參照例如時(shí)間信息時(shí),也可以根據(jù)在先的處理單位信息對(duì)應(yīng)的聲音的結(jié)束時(shí)刻和后續(xù)的處理單位信息對(duì)應(yīng)的聲音的開始時(shí)刻的差來設(shè)定。另外,也可以根據(jù)成為評(píng)價(jià)對(duì)象的連續(xù)的處理單位信息的時(shí)間長(zhǎng)度的和來設(shè)定。
[0072]另外,參照語速時(shí),可以根據(jù)一個(gè)以上的講話者的語速的統(tǒng)計(jì)值來確定停頓的長(zhǎng)度的閾值,也可以預(yù)先取得每個(gè)講話者的語速,按每個(gè)講話者設(shè)定閾值。另外,閾值可以是事先設(shè)定的值,也可以根據(jù)發(fā)聲的狀況而動(dòng)態(tài)地設(shè)定。
[0073]接著,參照?qǐng)D9的流程圖說明第2實(shí)施方式的聲音同時(shí)處理裝置800的工作。
[0074]步驟S201到步驟S203為止及步驟S205的處理,與第I實(shí)施方式的聲音同時(shí)處理裝置100的工作同樣,因此說明省略。
[0075]步驟S901中,處理單位存儲(chǔ)部802將處理單位字符串和與處理單位字符串對(duì)應(yīng)的聲音區(qū)間的時(shí)間信息對(duì)應(yīng)地作為處理單位信息存儲(chǔ)。
[0076]步驟S902中,更新部803判定未輸出的處理單位信息是否存在。未輸出的處理單位信息存在時(shí),進(jìn)入步驟S903,未輸出的處理單位信息不存在時(shí),進(jìn)入步驟S205。
[0077]步驟S903中,預(yù)先設(shè)定的時(shí)間內(nèi)連續(xù)發(fā)聲的處理單位字符串若為多個(gè),則將多個(gè)處理單位字符串按時(shí)間序列順序連接,生成再處理單位字符串。
[0078]步驟S904中,更新部803對(duì)再處理單位字符串,檢測(cè)分割點(diǎn)。分割點(diǎn)的檢測(cè)方法采用與檢測(cè)部104中的分割點(diǎn)的算出方法同樣的方法即可。
[0079]步驟S905中,更新部803對(duì)再處理單位字符串,判定是否檢測(cè)到與處理單位存儲(chǔ)部802存儲(chǔ)的處理單位字符串的分割點(diǎn)不同的分割點(diǎn)。檢測(cè)到不同分割點(diǎn)時(shí),進(jìn)入步驟S906,未檢測(cè)到不同分割點(diǎn)時(shí),進(jìn)入步驟S205。
[0080]步驟S906中,更新部803用包括再處理單位字符串的新的處理單位信息更新處理單位存儲(chǔ)部802存儲(chǔ)的處理單位信息,進(jìn)入步驟S205。以上,第2實(shí)施方式的聲音同時(shí)處理裝置800的工作結(jié)束。
[0081]接著,參照?qǐng)D10說明第2實(shí)施方式的處理單位存儲(chǔ)部802存儲(chǔ)的處理單位信息的一例。
[0082]圖10是表示處理單位信息1000的表,處理單位字符串501和時(shí)間信息1001對(duì)應(yīng)地存儲(chǔ),作為處理單位信息1000。這里,作為時(shí)間信息1001,檢測(cè)到處理單位字符串501的區(qū)間所對(duì)應(yīng)的聲音的開始時(shí)刻1002和結(jié)束時(shí)刻1003,與處理單位字符串501對(duì)應(yīng)。具體地說,圖10所示處理單位字符串501 “千葉市內(nèi)T ”和開始時(shí)刻1002 “10:03:31.21”、結(jié)束時(shí)刻 1003 “10:03:32.73” 對(duì)應(yīng)。
[0083]接著,參照?qǐng)D11到圖15說明第2實(shí)施方式的聲音同時(shí)處理裝置800的工作的具體例。
[0084]首先,假定:圖10所示處理單位信息1000所包括的處理單位字符串“千葉市內(nèi)未輸出,預(yù)先設(shè)定的時(shí)間內(nèi)連續(xù)的發(fā)聲所對(duì)應(yīng)的字符串僅僅為“千葉市內(nèi)T ”。此時(shí),更新部803的步驟S902的處理中,判定為存在未輸出的處理單位信息,對(duì)處理單位字符串“千葉市內(nèi)檢測(cè)分割點(diǎn)。
[0085]對(duì)再處理單位字符串檢測(cè)分割點(diǎn)的結(jié)果如圖11所示。再處理單位字符串1101“千葉市內(nèi)T ”所對(duì)應(yīng)的標(biāo)簽1102與對(duì)圖5所示的處理單位字符串501檢測(cè)的分割點(diǎn)的標(biāo)簽(圖4的“千葉市內(nèi)的標(biāo)簽“B,I,I”)相同,因此更新部803的處理結(jié)束。
[0086]圖12表示下述例子:進(jìn)而,發(fā)聲繼續(xù),后續(xù)于第I實(shí)施方式中發(fā)出的聲音,聲音識(shí)別部102取得聲音“ tz H f才ff'良P * f f見? (V) ”,檢測(cè)部104進(jìn)行分析,處理單位存儲(chǔ)部802將“良P * f &見? ”存儲(chǔ)為處理單位信息。
[0087]這里,假定為圖12所示處理單位信息從輸出部106全部輸出了的狀態(tài),S卩,“千葉市內(nèi)T ”、“ * r ^ 0予約f 亡P I T t作”、“良P* f f見ο (少? ”按順序輸出了的狀態(tài)。聲音同時(shí)處理裝置800與機(jī)器翻譯裝置連接時(shí),假定輸出“In Chiba city”、“I’d liketo make a hotel reservat1n.,,、“Please find a good hotel.”。
[0088]接著,取得部101取得聲音“ ? 6 λ f姑/l.分”,通過聲音識(shí)別部102及檢測(cè)部104的處理獲得“ ? 6 λ々”,作為新的發(fā)聲的處理單位字符串。圖13表示下述例子:其后,將該處理單位字符串對(duì)應(yīng)的聲音區(qū)間的開始時(shí)刻和結(jié)束時(shí)刻對(duì)應(yīng)地作為處理單位信息,在處理單位存儲(chǔ)部802存儲(chǔ)。
[0089]圖9所示更新部803的更新處理中,處理單位信息1301 “ ? 6 λ t姑&分”未輸出,因此,處理單位信息1301 h Ii 分”成為處理對(duì)象。此時(shí),是否連續(xù)發(fā)聲的閾值為I秒時(shí),處理單位信息1302 “千葉市內(nèi)T ”和處理單位信息1303 “ * r 予約L.tzH f才if ”的發(fā)聲間的差為0.05秒,處理單位信息1303“ * r 予約作”和處理單位信息1304 “良P* f f見? ”的差為0.17秒,處理單位信息1304 “良P* r ^ ?,,和處理單位信息1301 u i b I ± /V分,,的差為0.31秒,因此,這些處理單位信息對(duì)應(yīng)的發(fā)聲確定為在預(yù)先設(shè)定的時(shí)間內(nèi)連續(xù)發(fā)聲。從而,這些處理單位字符串按時(shí)間序列順序連接而成的組合字符串“千葉市內(nèi)T f > O予約I L.tz作良P
^作為再處理單位字符串而生成。
[0090]圖14表示:接著,對(duì)再處理單位字符串“千葉市內(nèi)T f > O予約& I tz ^ L V十#良P*亍> f ? O (少? ? 6無f姑&分,,檢測(cè)分割點(diǎn)的結(jié)果。
[0091]如圖14所示作為分割點(diǎn)的檢測(cè)結(jié)果,檢測(cè)到不同于圖13所示處理單位字符串“良P *亍卟奩見O (少? ”和“毛6無f姑/分”的處理單位字符串“良P *亍卟奩見O (少? I
6無t姑九分”。
[0092]最終更新的處理單位存儲(chǔ)部802的處理單位信息如圖15所示。
[0093]作為處理單位信息,將圖13所示處理單位信息1304 “良P * f f見? ”和處理單位信息1301 ui b l± /V分”,更新為圖15所示處理單位信息1501 “良P * r A奩見ο (少?6無f姑九分,,。另外,處理單位字符串“良P *亍卟奩見ο (少?毛b I ±
^力、”的聲音對(duì)應(yīng)的開始時(shí)刻1002和結(jié)束時(shí)刻1003,被更新為處理單位信息1304 “良^ *亍> f見ο汁?,,的開始時(shí)刻“10:03:37.72,,和處理單位信息1301 “ ? 6 λ t姑九分,,的結(jié)束時(shí)刻 “10:03:41.97”。
[0094]另外,沒有更新部803時(shí),不進(jìn)行處理單位的更新,從而,圖13所示處理單位信息對(duì)應(yīng)的全部的處理單位字符串輸出,因此,形成“In Chiba city”、“I’d like to make ahotel reservat1n,,、“Please find a good hotel,,、“I cannot get it ?,,這一系列翻譯,可能多余地生成原來的發(fā)聲中不存在的“ ? ^ λ々P T +? ”這一含義的翻譯。另一方面,第2實(shí)施方式的聲音同時(shí)處理裝置中,作為處理單位字符串的機(jī)器翻譯,獲得“良P * r A全見分”,因此,這里,向機(jī)器翻譯裝置提供處理單位字符串時(shí),例如,獲得 “Could you find a good hotel for me ? ”這一譯文。
[0095]根據(jù)以上所示的第2實(shí)施方式,即使因后續(xù)的發(fā)聲的識(shí)別結(jié)果導(dǎo)致適當(dāng)?shù)奶幚韱挝桓淖儠r(shí),也可以輸出正確反映原來的發(fā)聲的意圖的處理單位。
[0096]上述的實(shí)施方式中所示的處理步驟所示的指示,可以根據(jù)軟件即程序而執(zhí)行。通用的計(jì)算機(jī)系統(tǒng)通過預(yù)先存儲(chǔ)該程序并讀取該程序,也可以獲得與上述聲音同時(shí)處理裝置的效果同樣的效果。上述的實(shí)施方式記述的指示,作為可使計(jì)算機(jī)執(zhí)行的程序,在磁盤(軟盤、硬盤等)、光盤(CD-ROM、CD-R、CD-RW、DVD-ROM、DVD±R、DVD 土 RW、Blu-ray (注冊(cè)商標(biāo))Disc等)、半導(dǎo)體存儲(chǔ)器或類似其的記錄介質(zhì)記錄。只要是計(jì)算機(jī)或插入系統(tǒng)可讀取的記錄介質(zhì),則存儲(chǔ)形式可以是任意的方式。計(jì)算機(jī)若從該記錄介質(zhì)讀入程序,根據(jù)該程序由(PU執(zhí)行程序所記述的指示,則可以實(shí)現(xiàn)與上述實(shí)施方式的聲音同時(shí)處理裝置同樣的工作。當(dāng)然,計(jì)算機(jī)取得或讀入程序時(shí)也可以通過網(wǎng)絡(luò)取得或讀入。
[0097]另外,也可以根據(jù)從記錄介質(zhì)向計(jì)算機(jī)和/或插入系統(tǒng)安裝的程序的指示,由計(jì)算機(jī)上運(yùn)行的OS(操作系統(tǒng))和/或數(shù)據(jù)庫管理軟件、網(wǎng)絡(luò)等的MW(中間件)等,執(zhí)行用于實(shí)現(xiàn)本實(shí)施方式的各處理的一部分。
[0098]而且,本實(shí)施方式中的記錄介質(zhì)不限于與計(jì)算機(jī)或者插入系統(tǒng)獨(dú)立的介質(zhì),也包括下載并存儲(chǔ)或暫時(shí)存儲(chǔ)有由LAN和/或因特網(wǎng)等傳輸?shù)某绦虻挠涗浗橘|(zhì)。
[0099]另外,記錄介質(zhì)不限于一個(gè),即使從多個(gè)介質(zhì)執(zhí)行本實(shí)施方式中的處理時(shí),也包括在本實(shí)施方式中的記錄介質(zhì)中,介質(zhì)的構(gòu)成可以是任意構(gòu)成。
[0100]另外,本實(shí)施方式中的計(jì)算機(jī)或插入系統(tǒng)是用于根據(jù)記錄介質(zhì)存儲(chǔ)的程序來執(zhí)行本實(shí)施方式中的各處理的裝置,也可以是包括個(gè)人計(jì)算機(jī)、微計(jì)算機(jī)等的一個(gè)的裝置、多個(gè)裝置網(wǎng)絡(luò)連接而成的系統(tǒng)等的任意構(gòu)成。
[0101]另外,本實(shí)施方式中的計(jì)算機(jī)不限于個(gè)人計(jì)算機(jī),也包括信息處理設(shè)備所包括的運(yùn)算處理裝置、微計(jì)算機(jī)等,是可通過程序?qū)崿F(xiàn)本實(shí)施方式中的功能的設(shè)備、裝置的總稱。
[0102]雖然說明了本發(fā)明的幾個(gè)實(shí)施方式,但是這些實(shí)施方式只是例示,而不是限定發(fā)明的范圍。這些新實(shí)施方式能以其他各種方式實(shí)施,在不脫離發(fā)明的要旨的范圍,可以進(jìn)行各種省略、置換、變更。這些實(shí)施方式和/或其變形包括于發(fā)明的范圍和/或要旨中,也包括于技術(shù)方案記載的發(fā)明及其均等的范圍中。
【權(quán)利要求】
1.一種聲音同時(shí)處理裝置,其特征在于,具備: 取得聲音信號(hào)的取得部; 聲音識(shí)別部,其生成:上述聲音信號(hào)中的聲音識(shí)別處理結(jié)束而變換為字符串的聲音區(qū)間所對(duì)應(yīng)的字符串即確定字符串;和為后續(xù)于該確定字符串的聲音區(qū)間的、處于聲音識(shí)別的處理途中而未確定作為變換結(jié)果的字符串的聲音區(qū)間所對(duì)應(yīng)的一個(gè)以上的候補(bǔ)字符串; 檢測(cè)部,其對(duì)于分別連接上述確定字符串和一個(gè)以上的上述候補(bǔ)字符串而成的一個(gè)以上的組合字符串,在由分割點(diǎn)分割該組合字符串時(shí),在存在在上述組合字符串的各個(gè)中相同的、包括于上述確定字符串的字符串的情況下,將該字符串檢測(cè)為處理單位字符串,上述分割點(diǎn)表示成為自然語言處理中的處理單位的開始位置的詞素的位置;以及 輸出上述處理單位字符串的輸出部。
2.權(quán)利要求1所述的聲音同時(shí)處理裝置,其特征在于, 還具備更新部,該更新部根據(jù)新取得的第1處理單位字符串和之前取得的第2處理單位字符串的關(guān)系,在上述分割點(diǎn)的位置變化時(shí),更新上述第2處理單位字符串。
3.權(quán)利要求1所述的聲音同時(shí)處理裝置,其特征在于,還具備: 存儲(chǔ)部,其將上述處理單位字符串和發(fā)出該處理單位字符串的聲音區(qū)間所對(duì)應(yīng)的聲音信號(hào)的時(shí)間信息對(duì)應(yīng)地存儲(chǔ)為處理單位信息;和 更新部,其向上述存儲(chǔ)部追加新的處理單位信息即第1處理單位信息時(shí),在存在先于該第1處理單位信息且在閾值以內(nèi)的時(shí)間連續(xù)發(fā)聲的聲音區(qū)間所對(duì)應(yīng)的第2處理單位信息時(shí),將該第2處理單位信息和上述第1處理單位信息所包括的處理單位字符串按時(shí)間序列順序連接,來生成再處理單位字符串,用該再處理單位字符串及該再處理單位字符串所對(duì)應(yīng)的時(shí)間信息來更新上述存儲(chǔ)部所存儲(chǔ)的處理單位信息。
4.權(quán)利要求3所述的聲音同時(shí)處理裝置,其特征在于, 上述聲音識(shí)別部取得與發(fā)出上述處理單位字符串的時(shí)間相關(guān)的時(shí)間信息, 上述更新部參照上述時(shí)間信息,判定是否存在上述第2處理單位信息。
5.權(quán)利要求3所述的聲音同時(shí)處理裝置,其特征在于, 上述聲音識(shí)別部取得講話者的講話速度即語速, 上述更新部參照上述語速,判定是否存在上述第2處理單位信息。
6.權(quán)利要求1到5的任一項(xiàng)所述的聲音同時(shí)處理裝置,其特征在于, 上述自然語言處理為機(jī)器翻譯時(shí),上述處理單位是適于將上述聲音信號(hào)同時(shí)并行譯出的翻譯單位。
7.權(quán)利要求1到5的任一項(xiàng)所述的聲音同時(shí)處理裝置,其特征在于, 上述自然語言處理為聲音對(duì)話時(shí),上述處理單位是將上述聲音信號(hào)作為聲音對(duì)話的任務(wù)同時(shí)并行輸出的單位。
8.—種聲音同時(shí)處理方法,其特征在于, 取得聲音信號(hào), 生成:上述聲音信號(hào)中的聲音識(shí)別處理結(jié)束而變換為字符串的聲音區(qū)間所對(duì)應(yīng)的字符串即確定字符串;和為后續(xù)于該確定字符串的聲音區(qū)間的、處于聲音識(shí)別的處理途中而未確定作為變換結(jié)果的字符串的聲音區(qū)間所對(duì)應(yīng)的一個(gè)以上的候補(bǔ)字符串; 對(duì)于分別連接上述確定字符串和一個(gè)以上的上述候補(bǔ)字符串而成的一個(gè)以上的組合字符串,在由分割點(diǎn)分割該組合字符串時(shí),在存在在上述組合字符串的各個(gè)中相同的、包括于上述確定字符串的字符串的情況下,將該字符串檢測(cè)為處理單位字符串,上述分割點(diǎn)表示成為自然語言處理中的處理單位的開始位置的詞素的位置; 輸出上述處理單位字符串。
9.一種聲音同時(shí)處理程序,其特征在于, 用于使計(jì)算機(jī)作為以下單元發(fā)揮功能: 取得聲首彳目號(hào)的取得單兀; 聲音識(shí)別單兀,其生成:上述聲音信號(hào)中的聲音識(shí)別處理結(jié)束而變換為字符串的聲音區(qū)間所對(duì)應(yīng)的字符串即確定字符串;和為后續(xù)于該確定字符串的聲音區(qū)間的、處于聲音識(shí)別的處理途中而未確定作為變換結(jié)果的字符串的聲音區(qū)間所對(duì)應(yīng)的一個(gè)以上的候補(bǔ)字符串; 檢測(cè)單元,其對(duì)于分別連接上述確定字符串和一個(gè)以上的上述候補(bǔ)字符串而成的一個(gè)以上的組合字符串,在由分割點(diǎn)分割該組合字符串時(shí),在存在在上述組合字符串的各個(gè)中相同的、包括于上述確定字符串的字符串的情況下,將該字符串檢測(cè)為處理單位字符串,上述分割點(diǎn)表示成為自然語言處理中的處理單位的開始位置的詞素的位置;以及輸出上述處理單位字符串的輸出單元。
【文檔編號(hào)】G10L15/26GK104464734SQ201410465639
【公開日】2015年3月25日 申請(qǐng)日期:2014年9月12日 優(yōu)先權(quán)日:2013年9月19日
【發(fā)明者】釜谷聰史, 坂本明子 申請(qǐng)人:株式會(huì)社東芝