一種語音識別系統(tǒng)及方法與流程

文檔序號：12475938閱讀：287來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及語音識別技術(shù)，具體的講是一種語音識別系統(tǒng)及方法。

背景技術(shù)：

現(xiàn)有技術(shù)中，語音識別應(yīng)用有兩類，一類是基于個人終端(手機、個人電腦等)通過調(diào)用設(shè)備音頻采集功能，提交云端語音識別服務(wù)器完成識別，識別結(jié)果返回終端；另一類是基于企事業(yè)單位內(nèi)部的應(yīng)用，聲音數(shù)據(jù)來源為專用音視頻編碼設(shè)備，企業(yè)專用識別服務(wù)器通過網(wǎng)絡(luò)獲取音視頻編碼設(shè)備的音頻數(shù)據(jù)實現(xiàn)識別，識別結(jié)果輸出給專用記錄軟件終端。

針對以上第二類應(yīng)用，在所采集的聲音數(shù)據(jù)為混音數(shù)據(jù)時，識別結(jié)果(即輸出的文字內(nèi)容)無法區(qū)分出說話人員的身份，導(dǎo)致識別文檔的可讀性差，可用性極低。如果采用每一個話筒單獨編一路音頻，以此來區(qū)分發(fā)言人身份的話，要增設(shè)專用設(shè)備，對現(xiàn)有硬件、布線等進行相應(yīng)改造。

技術(shù)實現(xiàn)要素：

為實現(xiàn)在完成語音識別生成文字的同時，對識別的文字內(nèi)容區(qū)分講話人角色，提高識別內(nèi)容的可讀性和可用性，本發(fā)明實施例提供了一種語音識別系統(tǒng)，系統(tǒng)包括：音頻采集裝置、應(yīng)用客戶端以及語音識別裝置，其中，

所述音頻采集裝置，用于采集音頻數(shù)據(jù)并向應(yīng)用客戶端發(fā)送激勵碼，所述激勵碼用于標(biāo)識有聲音輸入的音頻采集裝置；

所述應(yīng)用客戶端，用于根據(jù)所述的激勵碼和預(yù)存儲的用戶身份與音頻采集裝置對應(yīng)關(guān)系確定用戶身份；

所述語音識別裝置，將所述的音頻數(shù)據(jù)轉(zhuǎn)換成文字內(nèi)容，并根據(jù)確定的用戶身份生成包含用戶身份的語音識別結(jié)果。

本發(fā)明實施例中，應(yīng)用客戶端包括：

接收模塊，用于接收所述的激勵碼；

存儲模塊，用于預(yù)存儲用戶身份與音頻采集裝置對應(yīng)關(guān)系；

身份確定模塊，用于根據(jù)接收到的激勵碼和預(yù)存儲的用戶身份與音頻采集裝置對應(yīng)關(guān)系確定用戶身份；

發(fā)送模塊，用于將確定的用戶身份結(jié)果發(fā)送至所述語音識別裝置。

本發(fā)明實施例中，客戶端還包括：

任務(wù)發(fā)起模塊，獲取所述的音頻采集裝置的音頻流地址，并通過所述發(fā)送模塊將包含音頻流地址的任務(wù)發(fā)起請求發(fā)送到所述語音識別裝置。

本發(fā)明實施例中，語音識別裝置包括：

接口模塊，接收所述用戶身份結(jié)果和任務(wù)發(fā)起請求；

拉流模塊，用于根據(jù)所述任務(wù)發(fā)起請求建立音頻流連接獲取所述音頻數(shù)據(jù)；

識別模塊，用于將音頻數(shù)據(jù)轉(zhuǎn)換為文字內(nèi)容；

結(jié)果生成模塊，用于根據(jù)所述用戶身份結(jié)果和文字內(nèi)容生成包含用戶身份的語音識別結(jié)果。

本發(fā)明實施例中，語音識別裝置還包括：

時長確定模塊，用于根據(jù)建立的音頻流連接確定音頻流時長。

本發(fā)明實施例中，應(yīng)用客戶端還包括：

切換時長確定模塊，根據(jù)所述的音頻流時長和對應(yīng)該音頻流后接收到的第一次激勵碼的時間確定聲音輸入時長。

本發(fā)明實施例中，所述的身份確定模塊根據(jù)對應(yīng)該音頻流后接收到的第一次激勵碼確定用戶身份；

所述的發(fā)送模塊將確定的聲音輸入時長和確定的用戶身份發(fā)送至所述語音識別裝置。

本發(fā)明實施例中，語音識別裝置包括：

切換時間確定模塊，根據(jù)聲音輸入時長確定音頻數(shù)據(jù)的切換時間。

本發(fā)明實施例中，所述的識別模塊，根據(jù)確定的切換時間將該切換時間前的音頻數(shù)據(jù)轉(zhuǎn)換為文字內(nèi)容。

同時，本發(fā)明還提供一種語音識別方法，利用上述的語音識別系統(tǒng)進行語音識別。

本發(fā)明基于音視頻編碼設(shè)備的語音激勵機制，通過合理定義同一計時原點，實現(xiàn)精確區(qū)分聲音流中講話人的角色，從而實現(xiàn)識別結(jié)果分角色展現(xiàn)講話內(nèi)容，極大增強了識別輸出文本的易讀和可用性。

為讓本發(fā)明的上述和其他目的、特征和優(yōu)點能更明顯易懂，下文特舉較佳實施例，并配合所附圖式，作詳細說明如下。

附圖說明

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1為本發(fā)明公開的一種語音識別系統(tǒng)的框圖；

圖2為本發(fā)明實施例公開的一種語音識別系統(tǒng)的框圖；

圖3為本發(fā)明實施方式的示意圖；

圖4為本發(fā)明實施方式中的示意圖。

具體實施方式

下面將結(jié)合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。

本發(fā)明旨在解決音視頻編解碼設(shè)備提供的混音數(shù)據(jù)流，在完成語音識別生成文字的同時，對識別內(nèi)容區(qū)分出講話人角色，提高識別內(nèi)容的可讀性和可用性。從而工作人員對庭審、會議等應(yīng)用識別系統(tǒng)實現(xiàn)記錄自動生成完整可用的記錄文檔。如圖1所示，為本發(fā)明公開的一種語音識別系統(tǒng)的框圖，該系統(tǒng)包括：音頻采集裝置101、應(yīng)用客戶端102以及語音識別裝置103；

音頻采集裝置101，用于采集音頻數(shù)據(jù)并向應(yīng)用客戶端發(fā)送激勵碼，所述激勵碼用于標(biāo)識有聲音輸入的音頻采集裝置；

所述應(yīng)用客戶端102，用于根據(jù)激勵碼和預(yù)存儲的用戶身份與音頻采集裝置對應(yīng)關(guān)系確定用戶身份；

所述語音識別裝置103，將所述的音頻數(shù)據(jù)轉(zhuǎn)換成文字內(nèi)容，并根據(jù)確定的用戶身份生成包含用戶身份的語音識別結(jié)果。

如圖2所示，本發(fā)明實施例中的應(yīng)用客戶端102包括：

接收模塊1021，用于接收所述的激勵碼；

存儲模塊1022，用于預(yù)存儲用戶身份與音頻采集裝置對應(yīng)關(guān)系；

身份確定模塊1023，用于根據(jù)接收到的激勵碼和預(yù)存儲的用戶身份與音頻采集裝置對應(yīng)關(guān)系確定用戶身份；

發(fā)送模塊1024，用于將確定的用戶身份結(jié)果發(fā)送至所述語音識別裝置。

本發(fā)明實施例中，應(yīng)用客戶端還包括：

任務(wù)發(fā)起模塊1025，獲取所述的音頻采集裝置的音頻流地址，并通過所述發(fā)送模塊1024將包含音頻流地址的任務(wù)發(fā)起請求發(fā)送到語音識別裝置。

本發(fā)明實施例中，語音識別裝置103包括：

接口模塊1031，接收所述用戶身份結(jié)果和任務(wù)發(fā)起請求；

拉流模塊1032，用于根據(jù)所述任務(wù)發(fā)起請求建立音頻流連接獲取所述音頻數(shù)據(jù)；

識別模塊1033，用于將音頻數(shù)據(jù)轉(zhuǎn)換為文字內(nèi)容；

結(jié)果生成模塊1034，用于根據(jù)所述用戶身份結(jié)果和文字內(nèi)容生成包含用戶身份的語音識別結(jié)果。

本發(fā)明實施例中，語音識別裝置103還包括：

時長確定模塊1035，用于根據(jù)建立的音頻流連接確定音頻流時長。

本發(fā)明實施例中，應(yīng)用客戶端102還包括：

切換時長確定模塊1026，根據(jù)所述的音頻流時長和對應(yīng)該音頻流后接收到的第一次激勵碼的時間確定聲音輸入時長。

本發(fā)明實施例中，身份確定模塊1023根據(jù)對應(yīng)該音頻流后接收到的第一次激勵碼確定用戶身份；發(fā)送模塊1024將確定的聲音輸入時長和確定的用戶身份發(fā)送至所述語音識別裝置。

本發(fā)明實施例中，語音識別裝置1031包括：

切換時間確定模塊1036，根據(jù)聲音輸入時長確定音頻數(shù)據(jù)的切換時間。識別模塊，根據(jù)確定的切換時間將該切換時間前的音頻數(shù)據(jù)轉(zhuǎn)換為文字內(nèi)容。

本發(fā)明實施例中，可采用音視頻編解碼設(shè)備作為音頻采集裝置，本發(fā)明實施例中，音視頻編解碼設(shè)備上，通過音頻板卡接入多路話筒，每個話筒有聲音輸入時會生成一個激勵碼(即標(biāo)識哪個話筒開始有聲音輸入)，并通過網(wǎng)絡(luò)將激勵碼發(fā)給業(yè)務(wù)應(yīng)用客戶端，應(yīng)用客戶端轉(zhuǎn)譯為身份識別碼后轉(zhuǎn)發(fā)給語音識別裝置，語音識別裝置根據(jù)收到不同的身份識別碼，將識別結(jié)果增加身份標(biāo)識并發(fā)送給應(yīng)用客戶端，應(yīng)用客戶端將身份碼轉(zhuǎn)換為實際名稱(人名或角色名)輸出到最終文檔記錄中。如圖3所示，為本發(fā)明實施方式的示意圖。

1、聲音數(shù)據(jù)由音視頻采集設(shè)備配套話筒完成音視頻數(shù)據(jù)，編碼后生成實時音頻流及對應(yīng)流地址。

2、應(yīng)用客戶端，本發(fā)明實施例通過應(yīng)用客戶端實現(xiàn)對話筒和對應(yīng)角色名稱進行配置，并控制識別開始、結(jié)束和轉(zhuǎn)發(fā)語音激勵碼等功能，同時識別結(jié)果的顯示以及最終文件的保存都是該客戶端完成。

3、本發(fā)明實施例中的識別后臺服務(wù)由識別服務(wù)器和文字轉(zhuǎn)發(fā)服務(wù)器兩部分組成，識別服務(wù)器通過拉取客戶端提供的音頻流，識別轉(zhuǎn)換成文字內(nèi)容，發(fā)送文字轉(zhuǎn)發(fā)服務(wù)器，文字轉(zhuǎn)發(fā)服務(wù)器負責(zé)將文字發(fā)送應(yīng)用客戶端顯示使用。

本發(fā)明實施例在實施過程中，語音和激勵碼幾乎是即時發(fā)送，識別服務(wù)器能夠?qū)崟r收到激勵碼，但識別服務(wù)器接收到的音頻數(shù)據(jù)中途需要進行編碼處理，從而存在一定的延遲，且相對于識別服務(wù)器接收到的語音激勵碼時間的延遲不是一個固定值，同時識別服務(wù)器獲取流之后，再提交識別服務(wù)器的識別引擎也需要時間，從而直接根據(jù)絕對時間插入到識別內(nèi)容中，存在明顯誤差，識別結(jié)果會把前一個人說話的后半部分內(nèi)容截取到后一個人的內(nèi)容之中，對此本發(fā)明實施例中，以業(yè)務(wù)驅(qū)動為軸設(shè)定一個相對起始時間，實現(xiàn)步驟如下：

1、應(yīng)用客戶端發(fā)起識別任務(wù)，同時發(fā)送音頻流地址(音頻流地址來源于音頻采集設(shè)備)給到識別服務(wù)器。

2、識別服務(wù)器接到識別任務(wù)請求之后，接口服務(wù)器通過識別服務(wù)器的拉流專用應(yīng)用服務(wù)，使用上一步獲取到的音頻流地址，建立識別服務(wù)器與音頻采集裝置的音頻編碼器的連接，從而獲取聲音數(shù)據(jù)。

3、音頻流鏈接建立成功后，識別服務(wù)器發(fā)送識別任務(wù)創(chuàng)建成功的消息給到應(yīng)用客戶端。

4、識別服務(wù)器第一次發(fā)送識別結(jié)果給到應(yīng)用客戶端，并同步發(fā)送本次識別內(nèi)容對應(yīng)音頻流時常(t)。此時應(yīng)用客戶端接收到識別服務(wù)器第一次返回的識別結(jié)果時間設(shè)定為計時原點(T0)。本發(fā)明實施例中，在第一次收到識別結(jié)果之前，應(yīng)用客戶端收到設(shè)備語音激勵碼時不予處理。

5、在計時原點(T0)之后，下一次收到語音激勵碼時點(T1)，應(yīng)用客戶端計算該時點與計時原點的時間長度以及第一次未計時識別音頻留時長之和(t1＝T1-T0+t)與身份標(biāo)識碼(假設(shè)此時講話人身份為A)同步發(fā)送識別服務(wù)器。識別服務(wù)器收到的根據(jù)從客戶端獲取的時間信息，得出聲音切換在音頻流中時間點Ta1，如圖4所示。

6、以此類推，識別服務(wù)器能夠準(zhǔn)確獲取語音激勵第二次切換時點Ta2，第三次切換時點Ta3……Tan。

這樣通過上述方法，消除了由于音頻流、協(xié)議信息通過網(wǎng)絡(luò)傳輸而產(chǎn)生的時間差，實現(xiàn)識別應(yīng)用客戶端、識別服務(wù)器以及編解碼設(shè)備之間，對同一事件(語音激勵)的準(zhǔn)確定位，區(qū)分出發(fā)言人身份；

本文主要給出了，在識別服務(wù)器只能拉到混音聲音數(shù)據(jù)時，基于音視頻編碼設(shè)備的語音激勵機制，通過合理定義同一計時原點，實現(xiàn)精確區(qū)分聲音流中講話人的角色，從而實現(xiàn)識別結(jié)果分角色展現(xiàn)講話內(nèi)容，極大增強了識別輸出文本的易讀和可用性。

同時，本發(fā)明還公開一種利用前述的語音識別系統(tǒng)進行語音識別的方法，其解決問題的原理與上述方法的實現(xiàn)相似，不再贅述。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白，本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此，本發(fā)明可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且，本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、CD-ROM、光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。

本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合?？商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器，使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。

這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中，使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品，該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。

這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上，使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理，從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。

本發(fā)明中應(yīng)用了具體實施例對本發(fā)明的原理及實施方式進行了闡述，以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想；同時，對于本領(lǐng)域的一般技術(shù)人員，依據(jù)本發(fā)明的思想，在具體實施方式及應(yīng)用范圍上均會有改變之處，綜上所述，本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2 3