利用語音辨識以選取聲音內(nèi)容的系統(tǒng)及其方法

文檔序號：2822456閱讀：236來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

專利名稱：利用語音辨識以選取聲音內(nèi)容的系統(tǒng)及其方法
技術(shù)領(lǐng)域：
本發(fā)明涉及一種選取聲音內(nèi)容的系統(tǒng)及其方法，本發(fā)明尤其涉及一種利用語音辨識技術(shù)以在聲音內(nèi)容中選取出特定聲音片段而可進(jìn)一步進(jìn)行其后續(xù)處理的系統(tǒng)及其方法。
背景技術(shù)：
現(xiàn)行的資訊表達(dá)形式多以書面文字的內(nèi)容(content)為主，而在此書面的文字內(nèi)容之中常常有一些重要或是關(guān)鍵性的文字語句，對于這些關(guān)鍵語句(key phrases)可以透過系統(tǒng)主動加上標(biāo)記來便于讓使用者識別，這些標(biāo)記像是反白、底線、引號、不同的顏色或是字體變更，或是由使用者主動以鍵盤、鼠標(biāo)或輸入筆等各式選取工具加以移動標(biāo)記而選取出，被選取的關(guān)鍵語句可以用來作為進(jìn)階搜尋(advanced search)或是關(guān)鍵詞索引(keyword index)等等用途。譬如系統(tǒng)可以在互聯(lián)網(wǎng)的網(wǎng)站中對于其網(wǎng)頁內(nèi)容中的關(guān)鍵語句加上超鏈接，點(diǎn)選后可鏈接至其他的網(wǎng)頁，而一般使用者則是可在電腦屏幕上觀看一篇書面文章時，也可將一段關(guān)鍵語句以鼠標(biāo)選取后，轉(zhuǎn)貼到互聯(lián)網(wǎng)上的各式搜尋引擎中以尋找出相關(guān)的對應(yīng)文章。
由于，現(xiàn)行的資訊內(nèi)容多是以文字呈現(xiàn)為主，對于純粹只有聲音表現(xiàn)的資訊內(nèi)容仍是屬于少數(shù)，但是在各式移動裝置愈來愈普及的情況下，由于屏幕大小的限制，有些訊息由“看”改成“聽”更為方便，再加上藍(lán)牙耳機(jī)與無限上網(wǎng)等技術(shù)的逐漸普及，愈來愈多的資訊表達(dá)形式是采用“聽”的聲音內(nèi)容，而對于在這些聲音內(nèi)容中如何去選取關(guān)鍵語句(key phrase)成了需要解決的問題。
此外，因?yàn)榍笆龅牟捎谩翱础钡臅嫖淖謨?nèi)容是以并行的方式(parallel)來表達(dá)其訊息，而“聽”的聲音內(nèi)容卻是以順序的方式(sequential)來表示其資訊內(nèi)容，因此顯然無法像對書面的文字內(nèi)容一樣使用既有選取工具，如超鏈接或是由鼠標(biāo)選取其關(guān)鍵語句等等方式，來選取聲音內(nèi)容，因此使用者如何與聲音內(nèi)容有效進(jìn)行互動成了逐漸增加的需求。
綜上所述，由于現(xiàn)今聲音內(nèi)容在選取其關(guān)鍵語句的技術(shù)仍有不足之處，因此發(fā)明人有鑒于上述現(xiàn)有技術(shù)的缺點(diǎn)而發(fā)明出本發(fā)明“利用語音辨識以選取聲音內(nèi)容的系統(tǒng)及其方法”。

發(fā)明內(nèi)容
本發(fā)明的主要目的在于提供一種利用語音辨識以選取聲音內(nèi)容的系統(tǒng)及其方法，其可以利用現(xiàn)有的語音辨識方法并經(jīng)過適當(dāng)搭配運(yùn)用以達(dá)到聲音內(nèi)容與使用者的有效互動。
本發(fā)明的另一目的在于提供一種利用語音辨識以選取聲音內(nèi)容的系統(tǒng)及其方法，其在播放一段聲音內(nèi)容后，對使用者所發(fā)出的語音輸入語句與該使用者發(fā)出語音輸入語句前的指定區(qū)間內(nèi)所播出的聲音內(nèi)容來進(jìn)行語音辨識，而選取出此段聲音內(nèi)容中的特定聲音語句，進(jìn)而進(jìn)行后續(xù)的處理。
本發(fā)明的又一目的為提供選取聲音內(nèi)容的系統(tǒng)，用以在依序播放的一聲音內(nèi)容中取得一聲音語句，進(jìn)而于一處理系統(tǒng)中進(jìn)行處理，其包含一播放模組，用以播放該聲音內(nèi)容；一接收模組，用以即時接收一使用者所發(fā)出的一語音輸入語句；一緩沖模組，用以暫存該播放模組所播放的一指定區(qū)間內(nèi)的該聲音內(nèi)容與該使用者所發(fā)出的該語音輸入語句；一辨識模組，用以擷取該緩沖模組中該指定區(qū)間中的該聲音內(nèi)容與該語音輸入語句而進(jìn)行語音辨識，進(jìn)而比對辨識出該指定區(qū)間的該聲音內(nèi)容中最符合該使用者所發(fā)出的該語音輸入語句的該聲音語句；以及一轉(zhuǎn)換模組，與該辨識模組連接，用以依照該辨識模組所比對出的最符合該語音輸入語句的該聲音語句而轉(zhuǎn)換出對應(yīng)該聲音語句的一文字語句，藉以傳送至該處理系統(tǒng)進(jìn)行處理。
根據(jù)上述構(gòu)想，該系統(tǒng)還包含一來源數(shù)據(jù)庫，而該來源數(shù)據(jù)庫可以包含有多個文字內(nèi)容，因此該轉(zhuǎn)換模組還可與該來源數(shù)據(jù)庫和該播放模組連接，用以擷取該來源數(shù)據(jù)庫的一文字內(nèi)容并轉(zhuǎn)換成該聲音內(nèi)容而透過該播放模組播放。
根據(jù)上述構(gòu)想，該來源數(shù)據(jù)庫也可以是包含有多個文字內(nèi)容與語音資訊，因此該播放模組則是該播放模組擷取該來源數(shù)據(jù)庫的語音數(shù)據(jù)以播出該聲音內(nèi)容。
根據(jù)上述構(gòu)想，該指定區(qū)間為當(dāng)該接收模組接收的該語音輸入語句時該播放模組在一最后指定時間內(nèi)所播放的該聲音內(nèi)容，而其最后指定時間為20秒。
根據(jù)上述構(gòu)想，該處理系統(tǒng)為一語音對話系統(tǒng)、一索引分類系統(tǒng)、一操控系統(tǒng)或是一進(jìn)階搜尋系統(tǒng)，倘若該處理系統(tǒng)為該進(jìn)階搜尋系統(tǒng)，則可以透過一檢索模組以檢索出對應(yīng)該文字語句的相關(guān)文字或是語音資訊以供該使用者使用。
本案的又一目的為提供一種選取聲音內(nèi)容的系統(tǒng)，用以在依序播放的一聲音內(nèi)容中取得一聲音語句，其中該聲音內(nèi)容更具有多個聲音標(biāo)記，用以標(biāo)記出該聲音內(nèi)容中的多個關(guān)鍵用語，其包含一播放模組，用以播放帶有該聲音標(biāo)記的該聲音內(nèi)容；一接收模組，用以即時接收一使用者所發(fā)出的一語音輸入語句；一辨識模組，對該聲音內(nèi)容的多個關(guān)鍵用語與該語音輸入語句進(jìn)行語音辨識，進(jìn)而比對辨識出該等關(guān)鍵用語中最符合該使用者所發(fā)出的該語音輸入語句的該聲音語句；以及一轉(zhuǎn)換模組，用以依照該辨識模組所比對出的最符合該語音輸入語句的該聲音語句而轉(zhuǎn)換出對應(yīng)該聲音語句的一文字語句。
根據(jù)上述構(gòu)想，該系統(tǒng)還包含一緩沖模組，用以暫存該播放模組所播放的一指定區(qū)間內(nèi)的該聲音內(nèi)容與該使用者所發(fā)出的該語音輸入語句，于是該辨識模組則擷取該緩沖模組中的指定區(qū)間內(nèi)的該聲音內(nèi)容與該使用者所發(fā)出的該語音輸入語句進(jìn)行辨識。
根據(jù)上述構(gòu)想，該辨識模組透過一直接聲波比對方式或是以一聲學(xué)模型比對方式來進(jìn)行語音辨識。
該根據(jù)上述構(gòu)想，該聲學(xué)模型比對方式透過選自一隱藏式馬可夫模型(Hidden Markov Model，HMM)、一神經(jīng)網(wǎng)絡(luò)(NeuralNetworks)、一動態(tài)時間校準(zhǔn)(Dynamic Time Warping，DTW)和一語音模版比對(Template Matching)其中的任一聲學(xué)模型來進(jìn)行語音辨識。
根據(jù)上述構(gòu)想，該聲音標(biāo)記為以不同快慢、不同聲調(diào)或不同音量來表示該關(guān)鍵用語或是對該關(guān)鍵用語的前后加上提示音的方法標(biāo)記。
根據(jù)上述構(gòu)想，該轉(zhuǎn)換模組所轉(zhuǎn)換出的該文字語句，進(jìn)而可以于一處理系統(tǒng)中進(jìn)行后續(xù)處理。
本案的又一目的為提供一種選取聲音內(nèi)容的方法，用以在依序播放的一聲音內(nèi)容中取得一聲音語句，進(jìn)而進(jìn)行一后續(xù)處理程序，其包含下列步驟(a)播放該聲音內(nèi)容；(b)接收一使用者所發(fā)出的一語音輸入語句；(c)將該語音輸入語句與在一指定區(qū)間內(nèi)所播放的該聲音內(nèi)容進(jìn)行語音辨識；以及(d)從指定區(qū)間內(nèi)的該聲音內(nèi)容中比對出最符合該使用者所發(fā)出的該語音輸入語句的該聲音內(nèi)容，進(jìn)而進(jìn)行該后續(xù)處理程序。
根據(jù)上述構(gòu)想，該聲音內(nèi)容還具有多個聲音標(biāo)記，用以標(biāo)記出該聲音內(nèi)容中的多個關(guān)鍵用語，因此根據(jù)上述構(gòu)想，該步驟(c)還包含將該語音輸入語句與該指定區(qū)間內(nèi)的該聲音內(nèi)容中帶有該多個其中之一的關(guān)鍵用語進(jìn)行語音辨識。
根據(jù)上述構(gòu)想，該步驟(d)還包含由該多個其中之一的關(guān)鍵用語中比對出最符合該使用者所發(fā)出的該語音輸入語句的該聲音語句。
根據(jù)上述構(gòu)想，該步驟(c)透過一直接聲波比對方式或是以一聲學(xué)模型比對方式來進(jìn)行語音辨識。
根據(jù)上述構(gòu)想，該步驟(d)還包含一步驟(d1)轉(zhuǎn)換該聲音內(nèi)容為一文字語句。
根據(jù)上述構(gòu)想，該后續(xù)處理步驟為一進(jìn)階搜尋步驟、一關(guān)鍵字索引步驟、一語音對話系統(tǒng)或是一操控程序。
本案的功效與目的，可藉由下列實(shí)施方式說明，對其有更深入的了解。

圖1(A)為本發(fā)明第一較佳實(shí)施例的一種利用語音辨識以選取聲音內(nèi)容的系統(tǒng)的簡要配置架構(gòu)示意圖。
圖1(B)為本發(fā)明第二較佳實(shí)施例的一種利用語音辨識以選取聲音內(nèi)容的系統(tǒng)的簡要配置架構(gòu)示意圖。
圖2為本發(fā)明較佳實(shí)施例的一種利用語音辨識以選取聲音內(nèi)容的方法的流程示意圖。
具體實(shí)施例方式
對于下文中說明本發(fā)明，本領(lǐng)域普通技術(shù)人員須了解下文中的說明僅作為例證用，而不用于限制本發(fā)明。
以下針對本案較佳實(shí)施例的利用語音辨識以選取聲音內(nèi)容的系統(tǒng)及其方法進(jìn)行描述，但實(shí)際架構(gòu)與所采行的方法并不必須完全符合描述的架構(gòu)與方法，本領(lǐng)域普通技術(shù)人員當(dāng)能在不脫離本發(fā)明的實(shí)際精神及范圍的情況下，做出種種變化及修改。
請參閱圖1(A)和(B)，其分別為本發(fā)明所揭示的一種利用語音辨識以選取聲音內(nèi)容的系統(tǒng)及其方法的簡要系統(tǒng)架構(gòu)示意圖。本發(fā)明的選取系統(tǒng)10包含有一播放模組11、一接收模組12、一緩沖模組13、一辨識模組14、一轉(zhuǎn)換模組15和一來源數(shù)據(jù)庫16，其借著從該播放模組11所播放出的聲音內(nèi)容中選取出一聲音語句，進(jìn)而可提供給一處理系統(tǒng)17進(jìn)行一后續(xù)處理。
其中，由該播放模組11是用來播放出該聲音內(nèi)容以讓一使用者依照時間順序聽到該聲音內(nèi)容，而該接收模組12則是用以即時接收該使用者所發(fā)出的一語音輸入語句，此外，該緩沖模組13則是暫存著該播放模組11所播放的一指定區(qū)間內(nèi)的該聲音內(nèi)容與由該接收模組12所接收的該使用者所發(fā)出的該語音輸入語句，因此，該辨識模組14是擷取該緩沖模組13中該指定區(qū)間中的該聲音內(nèi)容與該語音輸入語句而進(jìn)行語音辨識，進(jìn)而比對辨識出該指定區(qū)間的該聲音內(nèi)容中最符合該使用者所發(fā)出的該語音輸入語句的該聲音語句，于是，該轉(zhuǎn)換模組15是用以依照該辨識模組14所比對出的最符合該語音輸入語句的該聲音語句而轉(zhuǎn)換出對應(yīng)該聲音語句的一文字語句，而該來源數(shù)據(jù)庫16則是提供該播放模組11所播放的聲音內(nèi)容來源。
此外，根據(jù)該來源數(shù)據(jù)庫16的所儲存資訊的種類不同，該選取系統(tǒng)10的組成架構(gòu)亦略有不同。
于是，請參閱圖1(A)，其為本案第一實(shí)施例的選取系統(tǒng)10，其中該來源數(shù)據(jù)庫16包含有多個文字內(nèi)容，因此該轉(zhuǎn)換模組15還可與該來源數(shù)據(jù)庫16和該播放模組11相互連接，而該轉(zhuǎn)換模組15可擷取該來源數(shù)據(jù)庫16中多個文字內(nèi)容其中的一文字內(nèi)容并轉(zhuǎn)換成該聲音內(nèi)容而透過該播放模組11來播出，同時，透過該轉(zhuǎn)換模組15，同時也可將欲播放的聲音內(nèi)容儲存在該緩沖模組13中。
此外，若是該來源數(shù)據(jù)庫16是包含有多個文字內(nèi)容與語音資訊時，在此情況下，請參閱圖1(B)，該來源數(shù)據(jù)庫16則是無須與該轉(zhuǎn)換模組15連接，而是直接可以由該播放模組11擷取該來源數(shù)據(jù)庫16中的語音數(shù)據(jù)而播放的該聲音內(nèi)容，且該來源數(shù)據(jù)庫16也可將欲播放的聲音內(nèi)容儲存在該緩沖模組13中。
且由于使用者是以時間順序聽到該聲音內(nèi)容，因此該使用者所發(fā)出的語音輸入語句通常是屬于剛聽過的聲音內(nèi)容，因此本發(fā)明設(shè)定出該指定區(qū)間為當(dāng)該接收模組12接收到該語音輸入語句時，該播放模組11在一最后指定時間內(nèi)所播放的該聲音內(nèi)容，并且將該指定區(qū)間的聲音內(nèi)容暫存在該緩沖模組13中，其中該最后指定時間可以設(shè)定為20秒或是其他的任意時間。此外，當(dāng)該接收模組12接收到該使用者所發(fā)出的該語音輸入語句時，該語音輸入語句也會儲存在該緩沖模組13，于是該辨識模組14只要擷取該緩沖模組13所儲存的該聲音內(nèi)容與該語音輸入語句并利用語音辨識技術(shù)加以比對選取出在該指定區(qū)間的該聲音內(nèi)容中最符合該使用者所發(fā)出的該語音輸入語句的該聲音語句，同時也可透過該轉(zhuǎn)換模組15將所比對選取出的該聲音語句轉(zhuǎn)換為一文字語句，進(jìn)而提供給該處理系統(tǒng)17進(jìn)行處理。
其中該處理系統(tǒng)17可以是一語音對話系統(tǒng)、一索引分類系統(tǒng)、一操控系統(tǒng)或是一進(jìn)階搜尋系統(tǒng)等等，可以根據(jù)不同需求而進(jìn)行不同的后續(xù)處理程序，譬如該語音對話系統(tǒng)可以依據(jù)該文字語句的涵義而進(jìn)行一語音對話、該索引分類系統(tǒng)可以將其聲音內(nèi)容進(jìn)行關(guān)鍵字索引程序、該操控系統(tǒng)則是可以透過了解其文字語句意義而進(jìn)而去操控其他程序、或是該進(jìn)階搜尋系統(tǒng)可將其文字語句透過一檢索模組(圖中未揭示)以檢索出對應(yīng)該文字語句的相關(guān)文字或是語音資訊以供該使用者使用。
且因該處理系統(tǒng)17是因應(yīng)不同需求而進(jìn)行不同的后續(xù)處理程序，譬如若該處理系統(tǒng)17是該索引分類系統(tǒng)，則可以僅需要該選取系統(tǒng)10提供該聲音內(nèi)容以來進(jìn)行索引分類，而若該處理系統(tǒng)17是該語音對話系統(tǒng)、該操控系統(tǒng)或是該進(jìn)階搜尋系統(tǒng)，則可能需要該選取系統(tǒng)10提供該文字語句以供該處理系統(tǒng)17進(jìn)一步判斷分析。于是，該選取系統(tǒng)10即可因應(yīng)該處理系統(tǒng)17的不同類型而傳送該聲音語句或是該文字語句至該處理系統(tǒng)17中來進(jìn)行后續(xù)處理，而在其實(shí)際資訊流傳送流程上，倘若該選取系統(tǒng)10欲傳送該聲音語句至該處理系統(tǒng)17中，則是可以由該辨識模組14傳送該聲音語句至該處理系統(tǒng)17，反之，若是該選取系統(tǒng)10欲傳送該文字語句至該處理系統(tǒng)17中，則可以透過該轉(zhuǎn)換模組15傳送轉(zhuǎn)換后的文字語句至該處理系統(tǒng)17中。
再則，該辨識模組14是透過一直接聲波比對方式或是以一聲學(xué)模型比對方式來進(jìn)行語音辨識，其中該直接聲波比對方式即是直接比對雙方的聲音波形，而比對出最相近的可能，而該聲學(xué)模型比對方式則是透過一隱藏式馬可夫模型(Hidden Markov Model，HMM)、一神經(jīng)網(wǎng)絡(luò)(Neural Networks)、一動態(tài)時間校準(zhǔn)(DynamicTime Warping，DTW)或是一語音模版比對(Template Matching)等各式聲學(xué)模型來進(jìn)行語音辨識。
請?jiān)賲㈤唸D2，其為本發(fā)明利用語音辨識以選取聲音內(nèi)容的系統(tǒng)及其方法的實(shí)施方法流程圖。本發(fā)明方法先由系統(tǒng)播放一段聲音內(nèi)容21，隨后再接收使用者所發(fā)出的語音輸入語句22，且將該語音輸入語句與該段播放聲音內(nèi)容中的一指定區(qū)間內(nèi)的聲音內(nèi)容進(jìn)行語音辨識23，并從該指定區(qū)間內(nèi)的該聲音內(nèi)容中比對選取出最符合該使用者所發(fā)出的該語音輸入語句的該聲音內(nèi)容24，進(jìn)而進(jìn)行一后續(xù)處理程序25，其中該后續(xù)處理程序可以是一進(jìn)階搜尋步驟、一關(guān)鍵字索引步驟、一語音對話系統(tǒng)或是一操控程序，且如上面內(nèi)容所述，當(dāng)該后續(xù)處理程序需要利用文字資訊來進(jìn)行時，則本發(fā)明方法還可以將該聲音內(nèi)容轉(zhuǎn)換成一文字語句以供該后續(xù)處理程序進(jìn)行處理。
此外，為了讓語音辨識的效率更高，本發(fā)明還可以對該聲音內(nèi)容主動加上標(biāo)記，以使該聲音內(nèi)容擁有多個聲音標(biāo)記來標(biāo)記出該聲音內(nèi)容中的多個關(guān)鍵用語，如此可以讓使用者在聽的時候知道這是屬于關(guān)鍵用語，其中該聲音標(biāo)記為以不同快慢、不同聲調(diào)或不同音量來表示該關(guān)鍵用語或是對該關(guān)鍵用語的前后加上提示音的方法標(biāo)記。
其中該聲音標(biāo)示可以儲存在如圖1(A)和(B)所示的來源數(shù)據(jù)庫16中，無論該來源數(shù)據(jù)庫16所儲存是純?yōu)槲淖謨?nèi)容或是同時擁有文字內(nèi)容和語音資訊，只要透過系統(tǒng)的簡單設(shè)定(譬如在語音資訊中可以直接儲存帶有特定聲音標(biāo)記的語音關(guān)鍵語句，而在文字內(nèi)容中則是可以直接對文字內(nèi)容中的特定文字片段直接標(biāo)注出欲標(biāo)記的聲音形式，以便于以后文字轉(zhuǎn)語音時可以播出該特定聲音標(biāo)記)，即可播放出帶有聲音標(biāo)記的聲音內(nèi)容。
于是，其語音辨識方式即可以只對該指定區(qū)間內(nèi)的帶有聲音標(biāo)記的該聲音內(nèi)容進(jìn)行語音辨識，因此不但有效節(jié)省辨識時間，且辨識率也會相對提高。然而，若單純以技術(shù)討論，本發(fā)明的選取系統(tǒng)也可以無須特別指定聲音內(nèi)容的區(qū)間，而可以直接將全部的聲音內(nèi)容與其語音輸入語句進(jìn)行比對，或是將這些全部的聲音內(nèi)容中帶有聲音標(biāo)記的關(guān)鍵用語與該語音輸入語句進(jìn)行比對。
因此，根據(jù)本發(fā)明所提供的聲音內(nèi)容選取技術(shù)來即時選取適當(dāng)?shù)穆曇粽Z句，其提供了一種便利的互動機(jī)制以讓使用者與以順序方式呈現(xiàn)的(sequential)聲音內(nèi)容有效互動，大幅改善了過去使用者只能一直處在被動的立場傾聽該聲音內(nèi)容來擷取資訊，且改進(jìn)了過去的聲音內(nèi)容不能像以并行方式呈現(xiàn)(parallel)的書面文字內(nèi)容一樣同樣擁有很多的工具幫助人與其內(nèi)容的互動。
于是在實(shí)際應(yīng)用上，本發(fā)明可適用在各種以聲音內(nèi)容傳達(dá)資訊的各式互動設(shè)備(如移動裝置、藍(lán)牙設(shè)備或上網(wǎng)裝置)中，只要透過本發(fā)明所提供的聲音內(nèi)容選取機(jī)制，就可以讓使用者在聲音內(nèi)容中輕易的選取出所欲指定的聲音語句，進(jìn)而可提供作為后續(xù)的相關(guān)處理或服務(wù)項(xiàng)目中，而此使用者并不需要特別的訓(xùn)練或是記憶特殊的操作指令。
綜上所述，本案確實(shí)可提供一種利用語音辨識以選取聲音內(nèi)容的系統(tǒng)及其方法，其突破了在固有播放聲音內(nèi)容無法與使用者進(jìn)行互動的問題，而是利用既有語音識別的技術(shù)并搭配適當(dāng)?shù)馁Y訊存取技術(shù)以及特殊的語音標(biāo)記模式，以讓使用者所發(fā)出的語音輸入語句和所播放的聲音內(nèi)容進(jìn)行語音辨識，進(jìn)而選取出此段聲音內(nèi)容中的特定聲音語句，進(jìn)而進(jìn)行后續(xù)的各式處理程序，此技術(shù)無須增加許多繁復(fù)的軟硬體設(shè)備，而實(shí)施成本極為低廉。因此，本發(fā)明聲音內(nèi)容選取系統(tǒng)及其選取聲音內(nèi)容的方法的技術(shù)相對簡單但卻可提供極高的便利性，使用者無須特別訓(xùn)練或?qū)W習(xí)并可運(yùn)用到各種以聲音表達(dá)資訊的領(lǐng)域，且可以有效增進(jìn)產(chǎn)業(yè)的進(jìn)步，本發(fā)明技術(shù)簡單，可運(yùn)用領(lǐng)域廣泛，實(shí)具產(chǎn)業(yè)的價值，遂依法提出發(fā)明專利申請。
以上所述利用較佳實(shí)施例詳細(xì)說明本發(fā)明，而非限制本發(fā)明的范圍，因此本領(lǐng)域普通技術(shù)人員應(yīng)能明了，適當(dāng)而作些微小的改變與調(diào)整，仍將不失本發(fā)明的要義所在，也不脫離本發(fā)明的精神和范圍，故都應(yīng)視為本發(fā)明的進(jìn)一步實(shí)施狀況。
本發(fā)明所主張的范圍應(yīng)以權(quán)利要求書中的權(quán)利要求所述的為準(zhǔn)。
權(quán)利要求
1.一種選取聲音內(nèi)容的系統(tǒng)，用以在依序播放的一聲音內(nèi)容中取得一聲音語句，進(jìn)而于一處理系統(tǒng)中進(jìn)行處理，包含一播放模組，用以播放所述聲音內(nèi)容；一接收模組，用以即時接收一使用者所發(fā)出的一語音輸入語句；一緩沖模組，用以暫存所述播放模組所播放的一指定區(qū)間內(nèi)的所述聲音內(nèi)容與所述使用者所發(fā)出的所述語音輸入語句；一辨識模組，用以擷取所述緩沖模組中所述指定區(qū)間中的所述聲音內(nèi)容與所述語音輸入語句而進(jìn)行語音辨識，進(jìn)而比對辨識出所述指定區(qū)間的所述聲音內(nèi)容中最符合所述使用者所發(fā)出的所述語音輸入語句的所述聲音語句；以及一轉(zhuǎn)換模組，與所述辨識模組連接，用以依照所述辨識模組所比對出的最符合所述語音輸入語句的所述聲音語句而轉(zhuǎn)換出對應(yīng)所述聲音語句的一文字語句，藉以傳送至所述處理系統(tǒng)進(jìn)行處理。
2.如權(quán)利要求1所述的系統(tǒng)，其特征在于還包含一來源數(shù)據(jù)庫，其具有多個文字內(nèi)容，其中所述轉(zhuǎn)換模組還與所述來源數(shù)據(jù)庫和所述播放模組連接，用以擷取所述來源數(shù)據(jù)庫的一文字內(nèi)容并轉(zhuǎn)換成所述聲音內(nèi)容而透過所述播放模組播放；及/或一來源數(shù)據(jù)庫，其具有多個文字內(nèi)容與語音資訊，其中所述播放模組擷取所述來源數(shù)據(jù)庫的語音數(shù)據(jù)以播出所述聲音內(nèi)容。
3.如權(quán)利要求1所述的系統(tǒng)，其特征在于所述指定區(qū)間為當(dāng)所述接收模組接收的所述語音輸入語句時所述播放模組在一最后指定時間內(nèi)所播放的所述聲音內(nèi)容，其中所述最后指定時間為20秒；所述處理系統(tǒng)為一進(jìn)階搜尋系統(tǒng)，其中所述處理系統(tǒng)透過一檢索模組以檢索出對應(yīng)所述文字語句的相關(guān)文字或是語音資訊以供該使用者使用；及/或所述處理系統(tǒng)為選自一語音對話系統(tǒng)、一索引分類系統(tǒng)和一操控系統(tǒng)其中之一。
4.一種選取聲音內(nèi)容的系統(tǒng)，用以在依序播放的一聲音內(nèi)容中取得一聲音語句，其中所述聲音內(nèi)容還具有多個聲音標(biāo)記，用以標(biāo)記出所述聲音內(nèi)容中的多個關(guān)鍵用語，其包含一播放模組，用以播放帶有所述聲音標(biāo)記的所述聲音內(nèi)容；一接收模組，用以即時接收一使用者所發(fā)出的一語音輸入語句；一辨識模組，對所述聲音內(nèi)容的多個關(guān)鍵用語與所述語音輸入語句進(jìn)行語音辨識，進(jìn)而比對辨識出所述這些關(guān)鍵用語中最符合所述使用者所發(fā)出的所述語音輸入語句的所述聲音語句；以及一轉(zhuǎn)換模組，用以依照所述辨識模組所比對出的最符合所述語音輸入語句的所述聲音語句而轉(zhuǎn)換出對應(yīng)所述聲音語句的一文字語句。
5.如權(quán)利要求4所述的系統(tǒng)，其特征在于還包含一緩沖模組，用以暫存所述播放模組所播放的一指定區(qū)間內(nèi)的所述聲音內(nèi)容與所述使用者所發(fā)出的所述語音輸入語句，其中所述辨識模組擷取所述緩沖模組中的指定區(qū)間內(nèi)的所述聲音內(nèi)容與所述使用者所發(fā)出的所述語音輸入語句進(jìn)行辨識。
6.如權(quán)利要求4所述的系統(tǒng)，其特征在于所述辨識模組透過一直接聲波比對方式或是以一聲學(xué)模型比對方式來進(jìn)行語音辨識；所述聲學(xué)模型比對方式透過選自一隱藏式馬可夫模型、一神經(jīng)網(wǎng)絡(luò)、一動態(tài)時間校準(zhǔn)和一語音模版比對其中的任一聲學(xué)模型來進(jìn)行語音辨識；所述聲音標(biāo)記為以不同快慢、不同聲調(diào)或不同音量來表示所述關(guān)鍵用語或是對所述關(guān)鍵用語的前后加上提示音的方法標(biāo)記；及/或所述轉(zhuǎn)換模組所轉(zhuǎn)換出的所述文字語句，進(jìn)而可以在一處理系統(tǒng)中進(jìn)行后續(xù)處理。
7.一種選取聲音內(nèi)容的方法，用以在依序播放的一聲音內(nèi)容中取得一聲音語句，進(jìn)而進(jìn)行一后續(xù)處理程序，其包含下列步驟(a)播放所述聲音內(nèi)容；(b)接收一使用者所發(fā)出的一語音輸入語句；(c)將所述語音輸入語句與在一指定區(qū)間內(nèi)所播放的所述聲音內(nèi)容進(jìn)行語音辨識；以及(d)從指定區(qū)間內(nèi)的所述聲音內(nèi)容中比對出最符合所述使用者所發(fā)出的所述語音輸入語句的所述聲音內(nèi)容，進(jìn)而進(jìn)行所述后續(xù)處理程序。
8.如權(quán)利要求7所述的方法，其特征在于所述聲音內(nèi)容還具有多個聲音標(biāo)記，用以標(biāo)記出所述聲音內(nèi)容中的多個關(guān)鍵用語；所述步驟(c)還包含將所述語音輸入語句與所述指定區(qū)間內(nèi)的所述聲音內(nèi)容中帶有所述多個其中之一的關(guān)鍵用語進(jìn)行語音辨識；所述步驟(d)還包含由所述多個其中之一的關(guān)鍵用語中比對出最符合所述使用者所發(fā)出的所述語音輸入語句的所述聲音語句；及/或所述聲音標(biāo)記透過不同快慢、不同聲調(diào)或不同音量來表示所述關(guān)鍵用語或是對所述關(guān)鍵用語的前后加上提示音的方法標(biāo)記。
9.如權(quán)利要求7所述的方法，其特征在于所述步驟(c)透過一直接聲波比對方式或是以一聲學(xué)模型比對方式來進(jìn)行語音辨識；及/或所述聲學(xué)模型比對方式透過選自一隱藏式馬可夫模型、一神經(jīng)網(wǎng)絡(luò)、一動態(tài)時間校準(zhǔn)和一語音模版比對其中的任一聲學(xué)模型來進(jìn)行語音辨識。
10.如權(quán)利要求7所述的方法，其特征在于所述步驟(d)還包含一步驟(d1)轉(zhuǎn)換所述聲音內(nèi)容為一文字語句；及/或所述后續(xù)處理步驟為一進(jìn)階搜尋步驟、一關(guān)鍵字索引步驟、一語音對話系統(tǒng)或是一操控程序。
全文摘要
本發(fā)明為一種利用語音辨識以選取聲音內(nèi)容的系統(tǒng)及其方法，用以在依序播放的一聲音內(nèi)容中取得一聲音語句，進(jìn)而于一處理系統(tǒng)中進(jìn)行處理，該系統(tǒng)包含一播放模組，用以播放該聲音內(nèi)容；一接收模組，用以即時接收一使用者所發(fā)出的一語音輸入語句；一緩沖模組，用以暫存該播放模組所播放的一指定區(qū)間內(nèi)的該聲音內(nèi)容與該使用者所發(fā)出的該語音輸入語句；一辨識模組，用以擷取該緩沖模組中該指定區(qū)間中的該聲音內(nèi)容與該語音輸入語句而進(jìn)行語音辨識；以及一轉(zhuǎn)換模組，用以依照該辨識模組所比對出的最符合該語音輸入語句的該聲音語句而轉(zhuǎn)換出對應(yīng)該聲音語句的一文字語句，藉以傳送至該處理系統(tǒng)進(jìn)行處理。
文檔編號G10L15/00GK1924996SQ20051009911
公開日2007年3月7日申請日期2005年8月31日優(yōu)先權(quán)日2005年8月31日
發(fā)明者沈家麟, 洪健洲申請人:臺達(dá)電子工業(yè)股份有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：沈家麟、洪健洲
技術(shù)所有人：臺達(dá)電子工業(yè)股份有限公司
我是此專利的發(fā)明人

上一篇：背帶接合件的制作方法
上一篇：用戶識別方法、用戶識別裝置、電子設(shè)備和電子系統(tǒng)的制作方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

語音辨識相關(guān)技術(shù)

聲音辨識度相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

利用語音辨識以選取聲音內(nèi)容的系統(tǒng)及其方法