一種錄音文件索引的裝置及方法_3

文檔序號：9887828閱讀：來源：國知局

[0077]分區(qū)與頻率分配的交叉可以被稱為CDMA信道。BS270也可以被稱為基站收發(fā)器子系統(tǒng)(BTS)或者其它等效術(shù)語。在這樣的情況下，術(shù)語"基站"可以用于籠統(tǒng)地表示單個BSC275和至少一個BS270?；疽部梢员环Q為〃蜂窩站〃?；蛘撸囟˙S270的各分區(qū)可以被稱為多個蜂窩站。
[0078]如圖2中所示，廣播發(fā)射器(BT)295將廣播信號發(fā)送給在系統(tǒng)內(nèi)操作的移動終端100。如圖1中所示的廣播接收模塊111被設(shè)置在移動終端100處以接收由BT295發(fā)送的廣播信號。在圖2中，示出了幾個全球定位系統(tǒng)(GPS)衛(wèi)星300。衛(wèi)星300幫助定位多個移動終端100中的至少一個。
[0079]在圖2中，描繪了多個衛(wèi)星300，但是理解的是，可以利用任何數(shù)目的衛(wèi)星獲得有用的定位信息。如圖1中所示的GPS模塊115通常被構(gòu)造為與衛(wèi)星300配合以獲得想要的定位信息。替代GPS跟蹤技術(shù)或者在GPS跟蹤技術(shù)之外，可以使用可以跟蹤移動終端的位置的其它技術(shù)。另外，至少一個GPS衛(wèi)星300可以選擇性地或者額外地處理衛(wèi)星DMB傳輸。
[0080]作為無線通信系統(tǒng)的一個典型操作，BS270接收來自各種移動終端100的反向鏈路信號。移動終端100通常參與通話、消息收發(fā)和其它類型的通信。特定基站270接收的每個反向鏈路信號被在特定BS270內(nèi)進(jìn)行處理。獲得的數(shù)據(jù)被轉(zhuǎn)發(fā)給相關(guān)的BSC275 ASC提供通話資源分配和包括BS270之間的軟切換過程的協(xié)調(diào)的移動管理功能。BSC275還將接收到的數(shù)據(jù)路由到MSC280，其提供用于與PSTN290形成接口的額外的路由服務(wù)。類似地，PSTN290與MSC280形成接口，MSC與BSC275形成接口，并且BSC275相應(yīng)地控制BS270以將正向鏈路信號發(fā)送到移動終端100。
[0081]基于上述移動終端硬件結(jié)構(gòu)以及通信系統(tǒng)，提出本發(fā)明的錄音文件索引的方法的各個實(shí)施例。
[0082]請參考圖3，其是本發(fā)明的一種錄音文件索引的方法第一實(shí)施例的方法流程圖，如圖所示，該方法包括以下步驟:
[0083]Sll:開啟錄音和語音識別，獲取錄音文件和對應(yīng)的語音識別文本。
[0084]僅就錄音過程采用現(xiàn)有技術(shù)中常用的錄音即可，與常規(guī)的錄音不同的是，本方案中在錄音的同時對錄音的內(nèi)容進(jìn)行語音識別，最終錄音過程會生成對應(yīng)的錄音文件，語音識別最后會生成對應(yīng)的語音識別文本。
[0085]語音識別可以直接調(diào)用移動終端中常備的語音助手實(shí)現(xiàn)。具體語音識別的方法，例如隱式馬爾科夫模型技術(shù)的成熟和不斷完善成為語音識別的主流方法;又例如以知識為基礎(chǔ)的語音識別，以知識為基礎(chǔ)的語音識別在進(jìn)行連續(xù)語音識別的時候，除了識別聲學(xué)信息外，還會利用諸如構(gòu)詞、句法、語義、對話背景方面等語言學(xué)的知識來幫助進(jìn)一步對語音作出識別和理解，在此基礎(chǔ)上進(jìn)一步產(chǎn)生了基于統(tǒng)計(jì)概率的語言模型；又例如基于反向傳播算法的多層感知網(wǎng)絡(luò)實(shí)現(xiàn)的語音識別。
[0086]具體語音識別的過程不是本方案的探討重點(diǎn)，在此不做深入闡述。通過語音識別獲取到錄音文件對應(yīng)的語音識別文本即可。
[0087]S12:將錄音文件的時間軸映射到語音識別文本中。
[0088]錄音文件的時間軸是連續(xù)的，而語音識別文本得到的時間則與錄音文件的時間軸存在一定的異步情況，雖然現(xiàn)有的語音識別技術(shù)一般能夠從語音中快速識別出文字，兩者可以說具有相似的時間軸，但是如果是較長時間的錄音，可能會將這種異步放大，最后導(dǎo)致錄音文件的時間軸和語音識別文本的時間軸異步很明顯。為了提高時間軸的同步程度，在將錄音文件的時間軸映射到語音識別文本時，一般需要對識別出的語音識別文本進(jìn)行一定的修正，使得語音識別文本盡可能對應(yīng)識別出該語音識別文本的整句。簡單而言，00:00:00開始錄音的整句得到的語音識別文件最好也映射到00:00:00這一時刻，00:00:17開始錄音的整句得到的語音識別文件最好也映射到00:00:17這一時刻。具體例如可以通過經(jīng)驗(yàn)值修正的方式或計(jì)時修正的方式實(shí)現(xiàn)。
[0089]通過經(jīng)驗(yàn)值修正是指估算識別出某一整句對應(yīng)的語音識別文件所花的時間，將該整句對應(yīng)的語音識別文件對應(yīng)的時長去掉識別所花的時間，基本實(shí)現(xiàn)與錄音文件的同步。
[0090]計(jì)時修正是指將整句的錄音過程和對應(yīng)的語音識別過程當(dāng)成兩個具有先后順序的操作，在整句的錄音結(jié)束后再對其進(jìn)行語音識別，將兩個操作作為一個完整的整體進(jìn)行計(jì)時，并將其中語音識別的過程單獨(dú)計(jì)時，最后兩個計(jì)時結(jié)果的差值即為整句錄音和對應(yīng)的語音識別文本的時間軸變量。
[0091 ] S13:將語音識別文本及其對應(yīng)于時間軸中的時間對應(yīng)保存為文本文件。
[0092]將語音識別文本對應(yīng)于時間軸中的時間對應(yīng)保存，得到一文本文件，文本文件中記錄的時間軸即為語音識別文本和錄音文件中的紐帶。由此，內(nèi)容無法直觀預(yù)覽的錄音文件可以通過語音識別文本進(jìn)行直觀呈現(xiàn)，并通過語音識別文本中對應(yīng)記錄的時間軸之間將錄音文件調(diào)整到對應(yīng)的時間軸進(jìn)行播放。
[0093]本實(shí)施例的錄音文件索引的方法，通過在錄制錄音文件時對錄音進(jìn)行語音識別，將錄音文件中的時間軸映射到語音識別文件中，將語音識別文件及其對應(yīng)于時間軸中的時間對應(yīng)保存，建立文本和時間軸之間的關(guān)聯(lián)，通過文本實(shí)現(xiàn)對錄音文件的索引，實(shí)現(xiàn)了對錄音文件中內(nèi)容的快速查看和切換，提高了對錄音文件的瀏覽的效率。
[0094]請參考圖4，其是本發(fā)明的一種錄音文件索引的方法第二實(shí)施例的方法流程圖，如圖所示，該方法包括以下步驟:
[0095]S21:開啟錄音，同時開啟計(jì)時器用于記錄錄音過程中整句音頻數(shù)據(jù)的起始時間和整句結(jié)束時間。
[0096]本實(shí)施例中對于時間修正的過程采用的是計(jì)時修正的方式。當(dāng)用戶開始錄音時，立即啟動語音助手進(jìn)行語音識別操作，同時定時器開始計(jì)時，將當(dāng)前時間:時、分、秒分別設(shè)置三個變量，時間軸格式即為hh:mm:ss，當(dāng)檢測到斷句時，此時可認(rèn)為用戶說完了一句話，得到整句音頻數(shù)據(jù)，記錄當(dāng)前的時間存入時間軸變量HH: MM: SS，由此我們可以得到整個句子所用的時間為t ime ο
[0097]S22:將整句音頻數(shù)據(jù)發(fā)送到語音識別服務(wù)器進(jìn)行語音識別，并記錄整句音頻數(shù)據(jù)的發(fā)送時間和對應(yīng)的語音識別文本的接收時間。
[0098]S23:根據(jù)發(fā)送時間和接收時間的時間差對整句結(jié)束時間進(jìn)行修正，得到整句音頻數(shù)據(jù)的結(jié)束時間。
[0099]為準(zhǔn)確記錄語音識別的時間，將整句音頻數(shù)據(jù)發(fā)送到語音識別服務(wù)器進(jìn)行語音識另IJ。上傳語音信息時記錄時間為delay_timel，當(dāng)?shù)玫秸Z音識別服務(wù)器返回字符串的時，記錄定時器時間為delay_time2，所以識別所用延時delay_time= (delay_time2)-(delay_timel)，因?yàn)檎鋾r間的終止時間會有包含識別所用時間，所以此數(shù)值作為整句時間的補(bǔ)償，最終可以獲得準(zhǔn)確的整句時間，也就是整句音頻數(shù)據(jù)的結(jié)束時間。
[0100]S24:根據(jù)起始時間和結(jié)束時間對整句音頻數(shù)據(jù)對應(yīng)的語音識別文本的起始時間點(diǎn)和結(jié)尾時間點(diǎn)進(jìn)行標(biāo)記。
[0101]—種簡單的標(biāo)記方式，直接基于整句進(jìn)行時間標(biāo)記，也就是標(biāo)記整句音頻數(shù)據(jù)對應(yīng)的語音識別文本的起始時間點(diǎn)和結(jié)尾時間點(diǎn)。這一標(biāo)記方式是逐句建立時間索引。
[0102]更細(xì)致的方式是:統(tǒng)計(jì)整句音頻數(shù)據(jù)對應(yīng)的語音識別文本中的字符;根據(jù)起始時間和結(jié)束時間計(jì)算出語音識別文本中每個字符的平均時長;根據(jù)平均時長對每個字符進(jìn)行時間軸標(biāo)記，其中語音識別文本中的第一個字符標(biāo)記起始時間點(diǎn)，最后一個字符標(biāo)記為結(jié)尾時間點(diǎn)。這一標(biāo)記方式是逐字建立時間索引。
[0103]不論是逐句建立時間索引和逐句建立時間索引，最終創(chuàng)建成一個特定記錄格式的文本文件。
[0104]S25:將語音識別文本及其對應(yīng)于時間軸中的時間對應(yīng)保存為文本文件。
[0105]S26:播放錄音文件時，顯示文本文件中記錄的語音識別文本，并突出顯示錄音文件的時間軸當(dāng)前對應(yīng)的語音識別文本。
[0106]在正常播放錄音文件時，顯示文本文件中記錄的語音識別文本?？梢愿鶕?jù)時間軸顯示整句對應(yīng)的語音識別文件;也可全文顯示或顯示播放進(jìn)度前后的語音識別文件，并突出顯示當(dāng)前對應(yīng)的語音識別文本，例如高亮顯示，放大字體等。
[0107]S27:當(dāng)顯示的語音識別文本檢測到索引指令時，將錄音文件切換到索引指令指向的語音識別文本對應(yīng)的時間。
[0108]從數(shù)據(jù)響應(yīng)的角度而言，根據(jù)整個索引，也就是文本文件的終止時間來設(shè)定setMax(int max)函數(shù)的值；當(dāng)顯示的語音識別文本檢測到索引指令時，根據(jù)該索引指令指向的語音識別文本，也就是將用戶期望字符位置的時間值轉(zhuǎn)化成setProgress(int value)函數(shù)的格式，將value送入該函數(shù)，從而達(dá)到根據(jù)文字內(nèi)容，快速定位音頻內(nèi)容的目的。
[0109]本實(shí)施例的錄音文件索引的方法，通過在錄制錄音文件時對錄音進(jìn)行語音識別，將錄音文件中的時間軸映射到語音識別文件中，將語音識別文件及其對應(yīng)于時間軸中的時間對應(yīng)保存，建立文本和時間軸之間的關(guān)聯(lián)，通過文本實(shí)現(xiàn)對錄音文件的索引，實(shí)現(xiàn)了對錄音文件中內(nèi)容的快速查看和切換，提高了對錄音文件的瀏覽的效率。逐字建立的索引使得索引的結(jié)構(gòu)更加細(xì)致，后續(xù)對索引的響應(yīng)進(jìn)一步完善了錄音文件的播放和控制過程，實(shí)現(xiàn)了錄音文件中的高效快速查找。
[0110]本發(fā)明進(jìn)一步提供了一種錄音文件索引的裝置，裝置的實(shí)施例基于前述的方法的實(shí)施例實(shí)現(xiàn)，在裝置的實(shí)施例中未盡的描述，請參考前述的方法的實(shí)施例。
[0111]請參考圖5，其是本發(fā)明的一種錄音文件索引的裝置第一實(shí)施例的結(jié)構(gòu)方框圖，如圖所示，該裝置，包括:
[0112]文件生成單元10，用于開啟錄音和語音識別，獲取錄音文件和對應(yīng)的語音識別文本；
[0113]時間映射單元20，用于將錄音文件的時間軸映射到語音識別文本中；
[0114

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第3頁1 2 3 4

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種錄音文件索引的裝置及方法_3