亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種語音識別中便于人工修改文字的方法與流程

文檔序號:11521410閱讀:676來源:國知局

本發(fā)明涉及一種語音識別中便于人工修改文字的方法,主要涉及語音識別技術(shù)領(lǐng)域。



背景技術(shù):

目前語音識別成文字的技術(shù)發(fā)展越來越快,技術(shù)也越來越好,語音識別成文字的速度和效果都有很大的提高。人們已經(jīng)逐漸開始習(xí)慣于使用一些即時(shí)通訊軟件,把說的話轉(zhuǎn)換成文字信息發(fā)送出去,或是把一段語音轉(zhuǎn)換成文字。但是,識別結(jié)果不可避免地會出現(xiàn)錯(cuò)誤,這時(shí)卻沒有很好的方法進(jìn)行修改,通常是要將其從頭到尾讀一遍,才能知道哪些地方識別錯(cuò)誤。而要將這種識別技術(shù)用于對長篇演講之類的語音進(jìn)行識別,其錯(cuò)誤的修改就更為麻煩。人們不知道錯(cuò)誤分布在何處,往往得從頭到尾對聽著語音資料來看一遍文字資料,才能找出其中的錯(cuò)誤,或修改不合適的語詞,往往費(fèi)時(shí)費(fèi)力。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明實(shí)施例提供一種語音識別中便于人工修改文字的方法,以便于對語音識別出的文字進(jìn)行高效快捷地修改。

本發(fā)明實(shí)施例提供了一種語音識別中便于人工修改文字的方法,其特征可以是:

對語音識別結(jié)果預(yù)設(shè)若干閾值范圍;語音識別時(shí),將其中一個(gè)或多個(gè)所述閾值范圍內(nèi)的語音片段轉(zhuǎn)換成文字,而將此一個(gè)或多個(gè)所述閾值范圍外的語音識別結(jié)果標(biāo)記出來,供人工修改。

可選的,所述閾值范圍,可以具體指,語詞匹配閾值范圍,或語段理解閾值范圍,或語詞匹配與語段理解相結(jié)合的閾值。

可選的,所述將此一個(gè)或多個(gè)所述閾值范圍外的語音識別結(jié)果標(biāo)記出來,可以具體為:(1)根據(jù)所述解閾值范圍對識別出的文字進(jìn)行顯性標(biāo)識;或,(2)不顯示文字識別結(jié)果,而是將這些不顯示文字的識別結(jié)果對應(yīng)的語音片段錄制、復(fù)制或剪貼出來,按照它在所述語音文件中的時(shí)間順序,置于已經(jīng)轉(zhuǎn)換成的文字之間。

可選的,所述進(jìn)行顯性標(biāo)識,可以具體為:進(jìn)行顏色區(qū)分、字體區(qū)分、字號區(qū)分、圖案區(qū)分、亮度區(qū)分、背景色區(qū)分或下劃線來標(biāo)識。

可選的,所述方法還可以包括:在對文字進(jìn)行顯性標(biāo)識時(shí),錄制、復(fù)制或剪貼對應(yīng)的語音片段,以便人工對顯性標(biāo)識的文字進(jìn)行處理。

可選的,所述錄制、復(fù)制或剪貼對應(yīng)的語音片段,以便人工對顯性標(biāo)識的文字進(jìn)行處理,可以具體為:錄制、復(fù)制或剪貼對應(yīng)的語音片段,與顯性標(biāo)識的文字建立對應(yīng)或響應(yīng)關(guān)系,當(dāng)人工處理帶有顯性標(biāo)識的文字時(shí),可播放所述對應(yīng)的語音片段。

可選的,所述置于已經(jīng)轉(zhuǎn)換成的文字之間,具體可以為:(1)在所述已經(jīng)轉(zhuǎn)換成的文字之間做鑲嵌節(jié)點(diǎn),當(dāng)鑲嵌節(jié)點(diǎn)被激活時(shí),直接播放所述被錄制、復(fù)制或剪貼出來的語音片段;或,(2)在所述已經(jīng)轉(zhuǎn)換成的文字之間做鏈接節(jié)點(diǎn),當(dāng)鏈接節(jié)點(diǎn)被激活時(shí),在新窗口或播放窗口中播放所述被錄制、復(fù)制或剪貼出來的語音片段。

本發(fā)明所提供的實(shí)施例中,在語音識別成文字的同時(shí),根據(jù)預(yù)設(shè)匹配閾值范圍,對那些被判斷為不完全與語音內(nèi)容相同的的語音識別結(jié)果進(jìn)行標(biāo)記,便于修改者一目了然地知道哪些地方應(yīng)該修改,從而能提高文字修改的速度和效率。

附圖說明

附圖1:本發(fā)明的一種實(shí)施例的一個(gè)示意圖

具體實(shí)施方式

下面結(jié)合本發(fā)明實(shí)施例,對本發(fā)明的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅是本發(fā)明的一部分而非全部的實(shí)施例。基于本發(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

本發(fā)明實(shí)施例提供了一種語音識別中便于人工修改文字的方法,其特征可以是,對語音識別結(jié)果預(yù)設(shè)若干閾值范圍;語音識別時(shí),將其中一個(gè)或多個(gè)所述閾值范圍內(nèi)的語音片段轉(zhuǎn)換成文字,而將此一個(gè)或多個(gè)所述閾值范圍外的語音識別結(jié)果標(biāo)記出來,供人工修改。

傳統(tǒng)的基于hmm的語音識別大致可分為四個(gè)步驟:第一步,對語音分幀(把聲音切分成一小段一小段,每小段稱為一幀);第二步,把幀識別成狀態(tài)(極小的語音單位,通常一個(gè)音素包含三個(gè)狀態(tài));第三步,把狀態(tài)組合成音素;第四步,把音素組合成詞。這個(gè)過程中,會涉及累積概率問題,即觀察概率(每幀和每個(gè)狀態(tài)對應(yīng)的概率)、轉(zhuǎn)移概率(每個(gè)狀態(tài)轉(zhuǎn)移到自身或轉(zhuǎn)移到下個(gè)狀態(tài)的概率)、語言概率(根據(jù)語言統(tǒng)計(jì)規(guī)律得到的概率),其中前兩種概率從聲學(xué)模型中獲取,最后一種概率從語言模型中獲取。聲學(xué)模型里面儲存著大量參數(shù),通過這些參數(shù),就可以知道幀和狀態(tài)對應(yīng)的概率。獲取大量參數(shù)的方法叫訓(xùn)練,需要使用巨大的語音數(shù)據(jù)。語言模型是使用大量的文本訓(xùn)練出來的,可以利用某門語言本身的統(tǒng)計(jì)規(guī)律來幫助提升識別正確率。當(dāng)代語音識別技術(shù)與傳統(tǒng)技術(shù)在技術(shù)原理和表現(xiàn)形式上大同小異,這樣,就可以在語音識別的過程中,對發(fā)生的各類概率進(jìn)行統(tǒng)計(jì)分析,從而對識別率進(jìn)行分級,給出預(yù)設(shè)語詞匹配閾值范圍,比如依據(jù)綜合數(shù)據(jù),可將匹配度分為[0,20%)、[20,50)、[50,80)、[80,100]這四個(gè)閾值范圍(或只預(yù)設(shè)[80,100]這個(gè)閾值范圍),將[80,100]這個(gè)閾值范圍的語音片段轉(zhuǎn)換成文字,而將此閾值外的,也就是[0,20%)、[20,50)、[50,80)、[80,100]這三個(gè)閾值范圍內(nèi)的語音識別結(jié)果標(biāo)記出來。這樣,修改者就能一目了然地知道哪些地方應(yīng)該修改,從而能提高文字修改的速度和效率。

所述閾值范圍,具體可以指,語詞匹配閾值范圍,或語段理解閾值范圍,或語詞匹配與語段理解相結(jié)合的閾值,還可以是其他范圍,本發(fā)明不做具體限定。

由于語音識別是一個(gè)認(rèn)知過程,常常與語言的語法、語義和語用結(jié)構(gòu)聯(lián)系在一起,在此我們可以將這三類結(jié)構(gòu)或其中的一到兩種統(tǒng)稱為語段理解。這樣,在語音識別的過程中,人的言語就與語段理解之間存在著一個(gè)匹配度的問題。有的匹配度高,有的匹配度低,因此也可以對其進(jìn)行統(tǒng)計(jì)分析,從而對匹配度進(jìn)行分級,比如依據(jù)綜合數(shù)據(jù)(可以是語段理解自身的,也可以是和詞語匹配相結(jié)合的),可將匹配度分為[0,40%)、[40,70)、[70,100]這三個(gè)閾值范圍,將[70,100]這個(gè)閾值范圍的語音片段轉(zhuǎn)換成文字,而將此閾值外的,也就是[0,40%)、[40,70)這兩個(gè)閾值范圍內(nèi)的語音識別結(jié)果標(biāo)記出來。這樣,修改者就能一目了然地知道哪些地方應(yīng)該修改,從而能提高文字修改的速度和效率。

所述將此一個(gè)或多個(gè)所述閾值范圍外的語音識別結(jié)果標(biāo)記出來,可以具體為:(1)根據(jù)所述解閾值范圍對識別出的文字進(jìn)行顯性標(biāo)識;或,(2)不顯示文字識別結(jié)果,而是將這些不顯示文字的識別結(jié)果對應(yīng)的語音片段錄制、復(fù)制或剪貼出來,按照它在所述語音文件中的時(shí)間順序,置于已經(jīng)轉(zhuǎn)換成的文字之間。

所述顯性標(biāo)識,可以是進(jìn)行顏色區(qū)分、字體區(qū)分、字號區(qū)分、圖案區(qū)分、亮度區(qū)分或背景色區(qū)分來標(biāo)識,也可以是采用下劃線標(biāo)識,還可以采用其他標(biāo)識形式。比如上述[0,20%)、[20,50)、[50,80)這三個(gè)閾值范圍可用紅、黃、藍(lán)三種顏色進(jìn)行標(biāo)記,而[0,40%)、[40,70)這兩個(gè)閾值范圍可用不同的下劃線來標(biāo)記,從而能使修改者對所要修改的內(nèi)容一目了然。

所述方法還可以包括:在對文字進(jìn)行顯性標(biāo)識時(shí),錄制、復(fù)制或剪貼對應(yīng)的語音片段,以便人工對顯性標(biāo)識的文字進(jìn)行處理。

當(dāng)語音識別成文字時(shí),可對語音與文字進(jìn)行時(shí)點(diǎn)對應(yīng)。比如一句話“我們準(zhǔn)備回家吃飯”的語音處于4分28秒至4分31秒,那么識別出的這句話也處于4分28秒至4分31秒,并可再細(xì)分成每個(gè)詞處于幾分幾秒。當(dāng)某些字詞被進(jìn)行顯性標(biāo)識的同時(shí),也即是這些字詞被判定處于某一閾值范圍的同時(shí),可以從被標(biāo)識的第一個(gè)字詞的時(shí)點(diǎn)開始,至被標(biāo)識的最后一個(gè)字詞的時(shí)點(diǎn)結(jié)束,或向前和/或向后擴(kuò)展若干秒,將與之時(shí)點(diǎn)對應(yīng)的語音片段錄制、復(fù)制或剪貼出來,以便用戶在進(jìn)行修改時(shí),打開對應(yīng)的語音片段作參照。錄制、復(fù)制或剪貼與顯性標(biāo)識的文字對應(yīng)的語音片段的具體方法,本發(fā)明不作具體限制。

所述錄制、復(fù)制或剪貼對應(yīng)的語音片段,以便人工對顯性標(biāo)識的文字進(jìn)行處理,可以具體為:錄制、復(fù)制或剪貼對應(yīng)的語音片段,與顯性標(biāo)識的文字建立對應(yīng)或響應(yīng)關(guān)系,當(dāng)人工處理帶有顯性標(biāo)識的文字時(shí),可播放所述對應(yīng)的語音片段。

在錄制、復(fù)制或剪貼出與某一顯性標(biāo)識的文字相對應(yīng)的語音片段之后,可在此顯性標(biāo)識的文字和語音片段之間建立某種對應(yīng)或響應(yīng)關(guān)系。比如,將語音片段復(fù)制到某一文件夾里,并以該顯性標(biāo)識的文字及其在文中的順序命名,如此文字是“未來發(fā)展”,且是第四個(gè)顯性標(biāo)識,則其語音片段命名為“4.未來發(fā)展”,修改者可以打開這個(gè)語音片段來聽。比如,直接將顯性標(biāo)識的文字和與之對應(yīng)的語音片段建立鏈接關(guān)系,當(dāng)修改者把手指或光標(biāo)移動(dòng)到有顯性標(biāo)識的文字上時(shí),文字對應(yīng)的語音片段就被激活自動(dòng)播放,以便修改者及時(shí)方便地參照著進(jìn)行修改。具體如何建立對應(yīng)或響應(yīng)關(guān)系,本發(fā)明不作具體限制。

所述置于已經(jīng)轉(zhuǎn)換成的文字之間,具體可以為:(1)在所述已經(jīng)轉(zhuǎn)換成的文字之間做鑲嵌節(jié)點(diǎn),當(dāng)鑲嵌節(jié)點(diǎn)被激活時(shí),直接播放所述被錄制、復(fù)制或剪貼出來的語音片段;或,(2)在所述已經(jīng)轉(zhuǎn)換成的文字之間做鏈接節(jié)點(diǎn),當(dāng)鏈接節(jié)點(diǎn)被激活時(shí),在新窗口或播放窗口中播放所述被錄制、復(fù)制或剪貼出來的語音片段。

語音識別時(shí),可以將其中一個(gè)或多個(gè)所述閾值范圍內(nèi)的語音片段轉(zhuǎn)換成文字,但不將此一個(gè)或多個(gè)所述閾值范圍外的語音片段轉(zhuǎn)換成文字,換句話說也就是不顯示文字識別結(jié)果,而是將這些不顯示文字的識別結(jié)果對應(yīng)的語音片段錄制、復(fù)制或剪貼出來,插在已經(jīng)轉(zhuǎn)換成的文字之間。如附圖1所示,作為一個(gè)圖標(biāo)(即鑲嵌節(jié)點(diǎn),如圖中所示的八邊形圖標(biāo)),當(dāng)用戶用手指或鼠標(biāo)或類似方法觸及它時(shí),播放器(如圖中所示的小喇叭)直接播放相應(yīng)的語音片段。或者沒有圖中的小喇叭,當(dāng)用戶觸及圖標(biāo)(此時(shí)即鏈接節(jié)點(diǎn))時(shí),會彈出播放窗口,或打開可以播放相應(yīng)語音片段的窗口、播放器、鏈接等。這樣,用戶能很快找到需要修改的位置,并及時(shí)處理。

以上對本發(fā)明所提供的一種語音識別中便于人工修改文字的方法進(jìn)行了詳細(xì)介紹,應(yīng)用了具體實(shí)施例對本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例僅為本發(fā)明較佳的具體實(shí)施方式,用于幫助理解本發(fā)明的方法及核心思想,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員,依據(jù)本發(fā)明的思想,在本發(fā)明揭露的技術(shù)范圍內(nèi),輕易想到的變化或替換,均應(yīng)涵蓋在本發(fā)明的保護(hù)范圍內(nèi)。綜上所述,本說明書內(nèi)容不應(yīng)理解為對本發(fā)明的限制,本發(fā)明的保護(hù)范圍以權(quán)利要求的保護(hù)范圍為準(zhǔn)。

當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1