一種語音識別中便于人工修改文字的方法與流程

文檔序號：11521410閱讀：676來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

本發(fā)明涉及一種語音識別中便于人工修改文字的方法，主要涉及語音識別技術(shù)領(lǐng)域。

背景技術(shù)：

目前語音識別成文字的技術(shù)發(fā)展越來越快，技術(shù)也越來越好，語音識別成文字的速度和效果都有很大的提高。人們已經(jīng)逐漸開始習(xí)慣于使用一些即時(shí)通訊軟件，把說的話轉(zhuǎn)換成文字信息發(fā)送出去，或是把一段語音轉(zhuǎn)換成文字。但是，識別結(jié)果不可避免地會出現(xiàn)錯(cuò)誤，這時(shí)卻沒有很好的方法進(jìn)行修改，通常是要將其從頭到尾讀一遍，才能知道哪些地方識別錯(cuò)誤。而要將這種識別技術(shù)用于對長篇演講之類的語音進(jìn)行識別，其錯(cuò)誤的修改就更為麻煩。人們不知道錯(cuò)誤分布在何處，往往得從頭到尾對聽著語音資料來看一遍文字資料，才能找出其中的錯(cuò)誤，或修改不合適的語詞，往往費(fèi)時(shí)費(fèi)力。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明實(shí)施例提供一種語音識別中便于人工修改文字的方法，以便于對語音識別出的文字進(jìn)行高效快捷地修改。

本發(fā)明實(shí)施例提供了一種語音識別中便于人工修改文字的方法，其特征可以是：

對語音識別結(jié)果預(yù)設(shè)若干閾值范圍；語音識別時(shí)，將其中一個(gè)或多個(gè)所述閾值范圍內(nèi)的語音片段轉(zhuǎn)換成文字，而將此一個(gè)或多個(gè)所述閾值范圍外的語音識別結(jié)果標(biāo)記出來，供人工修改。

可選的，所述閾值范圍，可以具體指，語詞匹配閾值范圍，或語段理解閾值范圍，或語詞匹配與語段理解相結(jié)合的閾值。

可選的，所述將此一個(gè)或多個(gè)所述閾值范圍外的語音識別結(jié)果標(biāo)記出來，可以具體為：(1)根據(jù)所述解閾值范圍對識別出的文字進(jìn)行顯性標(biāo)識；或，(2)不顯示文字識別結(jié)果，而是將這些不顯示文字的識別結(jié)果對應(yīng)的語音片段錄制、復(fù)制或剪貼出來，按照它在所述語音文件中的時(shí)間順序，置于已經(jīng)轉(zhuǎn)換成的文字之間。

可選的，所述進(jìn)行顯性標(biāo)識，可以具體為：進(jìn)行顏色區(qū)分、字體區(qū)分、字號區(qū)分、圖案區(qū)分、亮度區(qū)分、背景色區(qū)分或下劃線來標(biāo)識。

可選的，所述方法還可以包括：在對文字進(jìn)行顯性標(biāo)識時(shí)，錄制、復(fù)制或剪貼對應(yīng)的語音片段，以便人工對顯性標(biāo)識的文字進(jìn)行處理。

可選的，所述錄制、復(fù)制或剪貼對應(yīng)的語音片段，以便人工對顯性標(biāo)識的文字進(jìn)行處理，可以具體為：錄制、復(fù)制或剪貼對應(yīng)的語音片段，與顯性標(biāo)識的文字建立對應(yīng)或響應(yīng)關(guān)系，當(dāng)人工處理帶有顯性標(biāo)識的文字時(shí)，可播放所述對應(yīng)的語音片段。

可選的，所述置于已經(jīng)轉(zhuǎn)換成的文字之間，具體可以為：(1)在所述已經(jīng)轉(zhuǎn)換成的文字之間做鑲嵌節(jié)點(diǎn)，當(dāng)鑲嵌節(jié)點(diǎn)被激活時(shí)，直接播放所述被錄制、復(fù)制或剪貼出來的語音片段；或，(2)在所述已經(jīng)轉(zhuǎn)換成的文字之間做鏈接節(jié)點(diǎn)，當(dāng)鏈接節(jié)點(diǎn)被激活時(shí)，在新窗口或播放窗口中播放所述被錄制、復(fù)制或剪貼出來的語音片段。

本發(fā)明所提供的實(shí)施例中，在語音識別成文字的同時(shí)，根據(jù)預(yù)設(shè)匹配閾值范圍，對那些被判斷為不完全與語音內(nèi)容相同的的語音識別結(jié)果進(jìn)行標(biāo)記，便于修改者一目了然地知道哪些地方應(yīng)該修改，從而能提高文字修改的速度和效率。

附圖說明

附圖1：本發(fā)明的一種實(shí)施例的一個(gè)示意圖

具體實(shí)施方式

下面結(jié)合本發(fā)明實(shí)施例，對本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述，顯然，所描述的實(shí)施例僅是本發(fā)明的一部分而非全部的實(shí)施例。基于本發(fā)明中的實(shí)施例，本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例，都屬于本發(fā)明保護(hù)的范圍。

本發(fā)明實(shí)施例提供了一種語音識別中便于人工修改文字的方法，其特征可以是，對語音識別結(jié)果預(yù)設(shè)若干閾值范圍；語音識別時(shí)，將其中一個(gè)或多個(gè)所述閾值范圍內(nèi)的語音片段轉(zhuǎn)換成文字，而將此一個(gè)或多個(gè)所述閾值范圍外的語音識別結(jié)果標(biāo)記出來，供人工修改。

傳統(tǒng)的基于hmm的語音識別大致可分為四個(gè)步驟：第一步，對語音分幀(把聲音切分成一小段一小段，每小段稱為一幀)；第二步，把幀識別成狀態(tài)(極小的語音單位，通常一個(gè)音素包含三個(gè)狀態(tài))；第三步，把狀態(tài)組合成音素；第四步，把音素組合成詞。這個(gè)過程中，會涉及累積概率問題，即觀察概率(每幀和每個(gè)狀態(tài)對應(yīng)的概率)、轉(zhuǎn)移概率(每個(gè)狀態(tài)轉(zhuǎn)移到自身或轉(zhuǎn)移到下個(gè)狀態(tài)的概率)、語言概率(根據(jù)語言統(tǒng)計(jì)規(guī)律得到的概率)，其中前兩種概率從聲學(xué)模型中獲取，最后一種概率從語言模型中獲取。聲學(xué)模型里面儲存著大量參數(shù)，通過這些參數(shù)，就可以知道幀和狀態(tài)對應(yīng)的概率。獲取大量參數(shù)的方法叫訓(xùn)練，需要使用巨大的語音數(shù)據(jù)。語言模型是使用大量的文本訓(xùn)練出來的，可以利用某門語言本身的統(tǒng)計(jì)規(guī)律來幫助提升識別正確率。當(dāng)代語音識別技術(shù)與傳統(tǒng)技術(shù)在技術(shù)原理和表現(xiàn)形式上大同小異，這樣，就可以在語音識別的過程中，對發(fā)生的各類概率進(jìn)行統(tǒng)計(jì)分析，從而對識別率進(jìn)行分級，給出預(yù)設(shè)語詞匹配閾值范圍，比如依據(jù)綜合數(shù)據(jù)，可將匹配度分為[0,20％)、[20,50)、[50,80)、[80,100]這四個(gè)閾值范圍(或只預(yù)設(shè)[80,100]這個(gè)閾值范圍)，將[80,100]這個(gè)閾值范圍的語音片段轉(zhuǎn)換成文字，而將此閾值外的，也就是[0,20％)、[20,50)、[50,80)、[80,100]這三個(gè)閾值范圍內(nèi)的語音識別結(jié)果標(biāo)記出來。這樣，修改者就能一目了然地知道哪些地方應(yīng)該修改，從而能提高文字修改的速度和效率。

所述閾值范圍，具體可以指，語詞匹配閾值范圍，或語段理解閾值范圍，或語詞匹配與語段理解相結(jié)合的閾值，還可以是其他范圍，本發(fā)明不做具體限定。

由于語音識別是一個(gè)認(rèn)知過程，常常與語言的語法、語義和語用結(jié)構(gòu)聯(lián)系在一起，在此我們可以將這三類結(jié)構(gòu)或其中的一到兩種統(tǒng)稱為語段理解。這樣，在語音識別的過程中，人的言語就與語段理解之間存在著一個(gè)匹配度的問題。有的匹配度高，有的匹配度低，因此也可以對其進(jìn)行統(tǒng)計(jì)分析，從而對匹配度進(jìn)行分級，比如依據(jù)綜合數(shù)據(jù)(可以是語段理解自身的，也可以是和詞語匹配相結(jié)合的)，可將匹配度分為[0,40％)、[40,70)、[70,100]這三個(gè)閾值范圍，將[70,100]這個(gè)閾值范圍的語音片段轉(zhuǎn)換成文字，而將此閾值外的，也就是[0,40％)、[40,70)這兩個(gè)閾值范圍內(nèi)的語音識別結(jié)果標(biāo)記出來。這樣，修改者就能一目了然地知道哪些地方應(yīng)該修改，從而能提高文字修改的速度和效率。

所述將此一個(gè)或多個(gè)所述閾值范圍外的語音識別結(jié)果標(biāo)記出來，可以具體為：(1)根據(jù)所述解閾值范圍對識別出的文字進(jìn)行顯性標(biāo)識；或，(2)不顯示文字識別結(jié)果，而是將這些不顯示文字的識別結(jié)果對應(yīng)的語音片段錄制、復(fù)制或剪貼出來，按照它在所述語音文件中的時(shí)間順序，置于已經(jīng)轉(zhuǎn)換成的文字之間。

所述顯性標(biāo)識，可以是進(jìn)行顏色區(qū)分、字體區(qū)分、字號區(qū)分、圖案區(qū)分、亮度區(qū)分或背景色區(qū)分來標(biāo)識，也可以是采用下劃線標(biāo)識，還可以采用其他標(biāo)識形式。比如上述[0,20％)、[20,50)、[50,80)這三個(gè)閾值范圍可用紅、黃、藍(lán)三種顏色進(jìn)行標(biāo)記，而[0,40％)、[40,70)這兩個(gè)閾值范圍可用不同的下劃線來標(biāo)記，從而能使修改者對所要修改的內(nèi)容一目了然。

所述方法還可以包括：在對文字進(jìn)行顯性標(biāo)識時(shí)，錄制、復(fù)制或剪貼對應(yīng)的語音片段，以便人工對顯性標(biāo)識的文字進(jìn)行處理。

當(dāng)語音識別成文字時(shí)，可對語音與文字進(jìn)行時(shí)點(diǎn)對應(yīng)。比如一句話“我們準(zhǔn)備回家吃飯”的語音處于4分28秒至4分31秒，那么識別出的這句話也處于4分28秒至4分31秒，并可再細(xì)分成每個(gè)詞處于幾分幾秒。當(dāng)某些字詞被進(jìn)行顯性標(biāo)識的同時(shí)，也即是這些字詞被判定處于某一閾值范圍的同時(shí)，可以從被標(biāo)識的第一個(gè)字詞的時(shí)點(diǎn)開始，至被標(biāo)識的最后一個(gè)字詞的時(shí)點(diǎn)結(jié)束，或向前和/或向后擴(kuò)展若干秒，將與之時(shí)點(diǎn)對應(yīng)的語音片段錄制、復(fù)制或剪貼出來，以便用戶在進(jìn)行修改時(shí)，打開對應(yīng)的語音片段作參照。錄制、復(fù)制或剪貼與顯性標(biāo)識的文字對應(yīng)的語音片段的具體方法，本發(fā)明不作具體限制。

所述錄制、復(fù)制或剪貼對應(yīng)的語音片段，以便人工對顯性標(biāo)識的文字進(jìn)行處理，可以具體為：錄制、復(fù)制或剪貼對應(yīng)的語音片段，與顯性標(biāo)識的文字建立對應(yīng)或響應(yīng)關(guān)系，當(dāng)人工處理帶有顯性標(biāo)識的文字時(shí)，可播放所述對應(yīng)的語音片段。

在錄制、復(fù)制或剪貼出與某一顯性標(biāo)識的文字相對應(yīng)的語音片段之后，可在此顯性標(biāo)識的文字和語音片段之間建立某種對應(yīng)或響應(yīng)關(guān)系。比如，將語音片段復(fù)制到某一文件夾里，并以該顯性標(biāo)識的文字及其在文中的順序命名，如此文字是“未來發(fā)展”，且是第四個(gè)顯性標(biāo)識，則其語音片段命名為“4.未來發(fā)展”，修改者可以打開這個(gè)語音片段來聽。比如，直接將顯性標(biāo)識的文字和與之對應(yīng)的語音片段建立鏈接關(guān)系，當(dāng)修改者把手指或光標(biāo)移動(dòng)到有顯性標(biāo)識的文字上時(shí)，文字對應(yīng)的語音片段就被激活自動(dòng)播放，以便修改者及時(shí)方便地參照著進(jìn)行修改。具體如何建立對應(yīng)或響應(yīng)關(guān)系，本發(fā)明不作具體限制。

所述置于已經(jīng)轉(zhuǎn)換成的文字之間，具體可以為：(1)在所述已經(jīng)轉(zhuǎn)換成的文字之間做鑲嵌節(jié)點(diǎn)，當(dāng)鑲嵌節(jié)點(diǎn)被激活時(shí)，直接播放所述被錄制、復(fù)制或剪貼出來的語音片段；或，(2)在所述已經(jīng)轉(zhuǎn)換成的文字之間做鏈接節(jié)點(diǎn)，當(dāng)鏈接節(jié)點(diǎn)被激活時(shí)，在新窗口或播放窗口中播放所述被錄制、復(fù)制或剪貼出來的語音片段。

語音識別時(shí)，可以將其中一個(gè)或多個(gè)所述閾值范圍內(nèi)的語音片段轉(zhuǎn)換成文字，但不將此一個(gè)或多個(gè)所述閾值范圍外的語音片段轉(zhuǎn)換成文字，換句話說也就是不顯示文字識別結(jié)果，而是將這些不顯示文字的識別結(jié)果對應(yīng)的語音片段錄制、復(fù)制或剪貼出來，插在已經(jīng)轉(zhuǎn)換成的文字之間。如附圖1所示，作為一個(gè)圖標(biāo)(即鑲嵌節(jié)點(diǎn)，如圖中所示的八邊形圖標(biāo))，當(dāng)用戶用手指或鼠標(biāo)或類似方法觸及它時(shí)，播放器(如圖中所示的小喇叭)直接播放相應(yīng)的語音片段。或者沒有圖中的小喇叭，當(dāng)用戶觸及圖標(biāo)(此時(shí)即鏈接節(jié)點(diǎn))時(shí)，會彈出播放窗口，或打開可以播放相應(yīng)語音片段的窗口、播放器、鏈接等。這樣，用戶能很快找到需要修改的位置，并及時(shí)處理。

以上對本發(fā)明所提供的一種語音識別中便于人工修改文字的方法進(jìn)行了詳細(xì)介紹，應(yīng)用了具體實(shí)施例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述，以上實(shí)施例僅為本發(fā)明較佳的具體實(shí)施方式，用于幫助理解本發(fā)明的方法及核心思想，但本發(fā)明的保護(hù)范圍并不局限于此，任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員，依據(jù)本發(fā)明的思想，在本發(fā)明揭露的技術(shù)范圍內(nèi)，輕易想到的變化或替換，均應(yīng)涵蓋在本發(fā)明的保護(hù)范圍內(nèi)。綜上所述，本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制，本發(fā)明的保護(hù)范圍以權(quán)利要求的保護(hù)范圍為準(zhǔn)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：不公告發(fā)明人
技術(shù)所有人：王道平
我是此專利的發(fā)明人

上一篇：語音評測方法及系統(tǒng)與流程
上一篇：彎曲式聲學(xué)蜂窩結(jié)構(gòu)的拼接的制造方法與工藝

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

語音識別文字相關(guān)技術(shù)

語音識別成文字相關(guān)技術(shù)

視頻語音識別成文字相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種語音識別中便于人工修改文字的方法與流程