本發(fā)明屬于截取語音的技術(shù)領(lǐng)域,尤其涉及一種截斷語音文件的方法、終端設(shè)備及計算機存儲介質(zhì)。
背景技術(shù):
目前人們獲取電教產(chǎn)品中同步教材的點讀數(shù)據(jù),需要把教材中的內(nèi)容進(jìn)行拆解并復(fù)制到電子表格中。拆解后的每個單詞或短語、每個語句分別占用電子表格中的一行,且每行對應(yīng)一個相應(yīng)的編號。將表格中的內(nèi)容再按照人物角色進(jìn)行分類,由不同音色的錄音員對照表格進(jìn)行錄音后生成整段語音。人工將上述整段語音截斷生成語句文件,每個語音文件匹配表格中的編號進(jìn)行命名。最后,將這些語音文件導(dǎo)入點讀數(shù)據(jù)中,達(dá)到點擊單句聽取單句的語音效果。這種截音方法效率低,且語音文件與相應(yīng)的語音編號易錯位匹配。
上述問題亟待解決。
技術(shù)實現(xiàn)要素:
針對現(xiàn)有截音方法效率低,且語音文件與相應(yīng)的語音編號易錯位匹配的缺陷,本發(fā)明提供一種截斷語音文件的方法、終端設(shè)備及計算機存儲介質(zhì)。
本發(fā)明實施例的第一方面提供了一種截斷語音文件的方法,包括:
將語音文件按照語句轉(zhuǎn)換為文本文件,并記錄文本文件中每個語句停頓時的文本時間點;
將轉(zhuǎn)換后的文本文件與語音文件按照語句進(jìn)行匹配成功后,將匹配成功后的文本文件中每個語句對應(yīng)的文本時間點記錄為停頓時間點;
收集記錄的所有停頓時間點,生成時間點信息文件;
將語音文件按照時間點信息文件進(jìn)行截音,生成語句文件。
進(jìn)一步地,將語音文件按照語句轉(zhuǎn)換為文本文件,并記錄文本文件中每個語句停頓時的文本時間點之前包括:
錄制語音文件時,錄入錄音者在語句與語句之間做語氣的停頓。
進(jìn)一步地,將語音文件按照語句轉(zhuǎn)換為文本文件,并記錄文本文件中每個語句停頓時的文本時間點包括:
將語音文件導(dǎo)入語音識別工具;
記錄通過語音識別工具識別出的文本文件,以及文本文件中每個語句的開始/停止的文本時間點;
進(jìn)一步地,將轉(zhuǎn)換后的文本文件與語音文件按照語句進(jìn)行匹配成功后,將匹配成功后的文本文件中每個語句對應(yīng)的文本時間點記錄為停頓時間點包括:
將轉(zhuǎn)換后的文本文件與語音文件按照語句逐一進(jìn)行匹配,若成功,則將匹配成功后的文本文件中每個語句對應(yīng)的文本時間點記錄為停頓時間點;
若失敗,則重復(fù)將語音文件按照語句轉(zhuǎn)換為文本文件,直至與語音文件按照語句匹配成功;
進(jìn)一步地,將語音文件按照時間點信息文件進(jìn)行截音,生成語句文件包括:
將時間點信息文件導(dǎo)入語音截音工具;
語音截音工具通過批處理將語音文件根據(jù)時間點信息文件截斷,生成語句文件。
本發(fā)明實施例的第二方面提供了一種截斷語音文件的裝置,包括:
記錄模塊,用于將語音文件按照語句轉(zhuǎn)換為文本文件,并記錄文本文件中每個語句停頓時的文本時間點;
匹配模塊,用于將轉(zhuǎn)換后的文本文件與語音文件按照語句進(jìn)行匹配成功后,將匹配成功后的文本文件中每個語句對應(yīng)的文本時間點記錄為停頓時間點;
收集模塊,用于收集記錄的所有停頓時間點,生成時間點信息文件;
截音模塊,用于將語音文件按照時間點信息文件進(jìn)行截音,生成語句文件。
進(jìn)一步地,記錄模塊包括:
第一導(dǎo)入單元,用于將語音文件導(dǎo)入語音識別工具;
記錄單元,用于記錄通過語音識別工具識別出的文本文件,以及文本文件中每個語句的開始/停止的文本時間點。
進(jìn)一步地,截音模塊包括:
第二導(dǎo)入單元,用于將時間點信息文件導(dǎo)入語音截音工具;
截斷單元,用于語音截音工具通過批處理將語音文件根據(jù)時間點信息文件截斷,生成語句文件。
本發(fā)明實施例的第三方面提供了一種截斷語音文件的終端設(shè)備,包括存儲器、處理器以及存儲在存儲器中并可在處理器上運行的計算機程序,處理器執(zhí)行計算機程序時實現(xiàn)以下步驟:
將語音文件按照語句轉(zhuǎn)換為文本文件,并記錄文本文件中每個語句停頓時的文本時間點;
將轉(zhuǎn)換后的文本文件與語音文件按照語句進(jìn)行匹配成功后,將匹配成功后的文本文件中每個語句對應(yīng)的文本時間點記錄為停頓時間點;
收集記錄的所有停頓時間點,生成時間點信息文件;
將語音文件按照時間點信息文件進(jìn)行截音,生成語句文件。
本發(fā)明實施例的第四方面提供了一種截斷語音文件的計算機可讀存儲介質(zhì),計算機可讀存儲介質(zhì)存儲有計算機程序,計算機程序被處理器執(zhí)行時實現(xiàn)以下步驟:
將語音文件按照語句轉(zhuǎn)換為文本文件,并記錄文本文件中每個語句停頓時的文本時間點;
將轉(zhuǎn)換后的文本文件與語音文件按照語句進(jìn)行匹配成功后,將匹配成功后的文本文件中每個語句對應(yīng)的文本時間點記錄為停頓時間點;
收集記錄的所有停頓時間點,生成時間點信息文件;
將語音文件按照時間點信息文件進(jìn)行截音,生成語句文件。
本發(fā)明實施例與現(xiàn)有技術(shù)相比存在的有益效果是:本發(fā)明通過停頓時間點將語音文件進(jìn)行截音生成單個的語句文件,可以實現(xiàn)批處理整段語音文件,提高了截音效率,降低了語句文件的制作成本,使得語句文件的生成過程更加簡單化。
附圖說明
為了更清楚地說明本發(fā)明實施例中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明實施例提供的截斷語音文件的方法的實現(xiàn)流程示意圖;
圖2是本實施例提供的時間點信息文件的記錄表;
圖3是本發(fā)明另一實施例提供的截斷語音文件的方法的實現(xiàn)流程示意圖;
圖4是本發(fā)明實施例提供的截斷語音文件的裝置的示意圖;
圖5是本發(fā)明另一實施例提供的截斷語音文件的裝置的示意圖;
圖6是本發(fā)明實施例提供的截斷語音文件的終端設(shè)備的示意圖。
具體實施方式
以下描述中,為了說明而不是為了限定,提出了諸如特定系統(tǒng)結(jié)構(gòu)、技術(shù)之類的具體細(xì)節(jié),以便透徹理解本發(fā)明實施例。然而,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)清楚,在沒有這些具體細(xì)節(jié)的其它實施例中也可以實現(xiàn)本發(fā)明。在其它情況中,省略對眾所周知的系統(tǒng)、裝置、電路以及方法的詳細(xì)說明,以免不必要的細(xì)節(jié)妨礙本發(fā)明的描述。
為了說明本發(fā)明的技術(shù)方案,下面通過具體實施例來進(jìn)行說明。
圖1是本發(fā)明實施例提供的截斷語音文件的方法的實現(xiàn)流程示意圖。本實施例提供的截斷語音文件的方法,其執(zhí)行主體可以是終端設(shè)備。圖1示例的方法主要包括以下步驟:
101、將語音文件按照語句轉(zhuǎn)換為文本文件,并記錄文本文件中每個語句停頓時的文本時間點;
具體的,上述步驟包括:
將語音文件導(dǎo)入語音識別工具;
記錄通過語音識別工具識別出的文本文件,以及文本文件中每個語句的開始/停止的文本時間點。
102、將轉(zhuǎn)換后的文本文件與語音文件按照語句進(jìn)行匹配成功后,將匹配成功后的文本文件中每個語句對應(yīng)的文本時間點記錄為停頓時間點;
具體的,上述步驟包括:
將轉(zhuǎn)換后的文本文件與語音文件按照語句逐一進(jìn)行匹配,若成功,則將匹配成功后的文本文件中每個語句對應(yīng)的文本時間點記錄為停頓時間點;
若失敗,則重復(fù)將語音文件按照語句轉(zhuǎn)換為文本文件,直至與語音文件按照語句匹配成功。
103、收集記錄的所有停頓時間點,生成時間點信息文件;
具體的,圖2是本實施例提供的時間點信息文件的記錄表,圖如2所示,該方法記錄了將語音文件轉(zhuǎn)換為文本文件時,每個文本文件里語句開始的時間。
104、將語音文件按照時間點信息文件進(jìn)行截音,生成語句文件。
具體的,上述步驟包括:
將時間點信息文件導(dǎo)入語音截音工具;
語音截音工具通過批處理將語音文件根據(jù)時間點信息文件截斷,生成語句文件。
應(yīng)理解,上述實施例中各步驟的序號的大小并不意味著執(zhí)行順序的先后,各過程的執(zhí)行順序應(yīng)以其功能和內(nèi)在邏輯確定,而不應(yīng)對本發(fā)明實施例的實施過程構(gòu)成任何限定。
由以上實施例可看出,本發(fā)明實施例提供的方法通過停頓時間點將語音文件進(jìn)行截音生成單個的語句文件,可以實現(xiàn)批處理整段語音文件,提高了截音效率,降低了語句文件的制作成本,使得語句文件的生成過程更加簡單化。
圖3是本發(fā)明另一實施例提供的截斷語音文件的方法的實現(xiàn)流程示意圖。本實施例提供的截斷語音文件的方法,其執(zhí)行主體可以是終端設(shè)備。如圖3所示,將語音文件按照語句轉(zhuǎn)換為文本文件,并記錄文本文件中每個語句停頓時的文本時間點之前可以包括:
301、錄制語音文件時,錄入錄音者在語句與語句之間做語氣的停頓。
具體的,錄音者在錄音棚錄音過程中,遇到錄音稿中間的逗號時做短暫停頓,在語句與語句之間的停頓稍長。
應(yīng)理解,上述實施例中各步驟的序號的大小并不意味著執(zhí)行順序的先后,各過程的執(zhí)行順序應(yīng)以其功能和內(nèi)在邏輯確定,而不應(yīng)對本發(fā)明實施例的實施過程構(gòu)成任何限定。
相對于上一實施例,本實施例通過錄音者在語句之間做短暫停頓,增強了對于語句之間根據(jù)停頓時間點進(jìn)行斷句的辨識度,減少了因斷句不當(dāng)產(chǎn)生的錯誤,提高了截斷語句的成功率。
圖4是本發(fā)明實施例提供的截斷語音文件的裝置的示意圖;如圖4所示,本發(fā)明還提供一種截斷語音文件的裝置可以是終端設(shè)備或者其中的功能模塊。圖4示例的裝置主要可以包括:
記錄模塊41,用于將語音文件按照語句轉(zhuǎn)換為文本文件,并記錄文本文件中每個語句停頓時的文本時間點;
匹配模塊42,用于將轉(zhuǎn)換后的文本文件與語音文件按照語句進(jìn)行匹配成功后,將匹配成功后的文本文件中每個語句對應(yīng)的文本時間點記錄為停頓時間點;
收集模塊43,用于收集記錄的所有停頓時間點,生成時間點信息文件;
截音模塊44,用于將語音文件按照時間點信息文件進(jìn)行截音,生成語句文件。
需要說明的是,本發(fā)明實施例提供的裝置,由于與本發(fā)明方法實施例基于同一構(gòu)思,其帶來的技術(shù)效果與本發(fā)明方法實施例相同,具體內(nèi)容可參見本發(fā)明方法實施例中的敘述,此處不再贅述。
因此,可以看出本發(fā)明實施例提供的裝置同樣可以通過停頓時間點將語音文件進(jìn)行截音生成單個的語句文件,可以實現(xiàn)批處理整段語音文件,提高了截音效率,降低了語句文件的制作成本,使得語句文件的生成過程更加簡單化。
圖5是本發(fā)明另一實施例提供的截斷語音文件的裝置的示意圖;如圖5所示,本發(fā)明還提供一種截斷語音文件的裝置可以是終端設(shè)備或者其中的功能模塊。圖5示例的裝置中的記錄模塊主要可以包括:
第一導(dǎo)入單元511,用于將語音文件導(dǎo)入語音識別工具;
記錄單元512,用于記錄通過語音識別工具識別出的文本文件,以及文本文件中每個語句的開始/停止的文本時間點。
具體的,語音識別技術(shù),也被稱為自動語音識別(automaticspeechrecognition,asr),其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進(jìn)制編碼或者字符序列。語音識別技術(shù)就是讓機器通過識別和理解過程把語音信號轉(zhuǎn)變?yōu)橄鄳?yīng)的文本或命令的技術(shù)。語音識別是一門交叉學(xué)科。近二十年來,語音識別技術(shù)取得顯著進(jìn)步,開始從實驗室走向市場。人們預(yù)計,未來10年內(nèi),語音識別技術(shù)將進(jìn)入工業(yè)、家電、通信、汽車電子、醫(yī)療、家庭服務(wù)、消費電子產(chǎn)品等各個領(lǐng)域?,F(xiàn)市面上具有多個語音識別工具可應(yīng)用于本實施例。
在記錄通過語音識別工具識別出的文本文件的同時,記錄以及文本文件中每個語句的開始/停止的文本時間點,用于后續(xù)將語音文件根據(jù)文本時間點拆解為單個語句。
相對于上一實施例,本實施例提供的裝置可以通過將語音文件導(dǎo)入語音識別工具,生成終端設(shè)備可識別的文本文件,方便終端設(shè)備對文本文件做進(jìn)一步處理。
圖6是本發(fā)明一實施例提供的截斷語音文件的終端設(shè)備的示意圖。如圖6所示,該實施例的截斷語音文件的終端設(shè)備6包括:處理器60、存儲器61以及存儲在存儲器61中并可在處理器60上運行的計算機程序62,例如截斷語音文件的程序。處理器60執(zhí)行計算機程序62時實現(xiàn)上述各個截斷語音文件的方法實施例中的步驟,例如圖1所示的步驟101至104?;蛘撸幚砥?0執(zhí)行計算機程序62時實現(xiàn)上述各裝置實施例中各模塊/單元的功能,例如圖5所示模塊51至54的功能。
本實施例提供的計算機程序62的步驟主要包括:將語音文件按照語句轉(zhuǎn)換為文本文件,并記錄文本文件中每個語句停頓時的文本時間點;將轉(zhuǎn)換后的文本文件與語音文件按照語句進(jìn)行匹配成功后,將匹配成功后的文本文件中每個語句對應(yīng)的文本時間點記錄為停頓時間點;收集記錄的所有停頓時間點,生成時間點信息文件;將語音文件按照時間點信息文件進(jìn)行截音,生成語句文件。計算機程序62可以被分割成一個或多個模塊/單元,一個或者多個模塊/單元被存儲在存儲器61中,并由處理器60執(zhí)行,以完成本發(fā)明。一個或多個模塊/單元可以是能夠完成特定功能的一系列計算機程序指令段,該指令段用于描述計算機程序62在截斷語音文件的終端設(shè)備6中的執(zhí)行過程。例如,計算機程序62可以被分割成同步模塊、匯總模塊、獲取模塊、返回模塊(虛擬裝置中的模塊),各模塊具體功能如下:
截斷語音文件的終端設(shè)備6可以是桌上型計算機、筆記本、掌上電腦及云端服務(wù)器等計算設(shè)備。截斷語音文件的終端設(shè)備可包括,但不僅限于,處理器60、存儲器61。本領(lǐng)域技術(shù)人員可以理解,圖6僅僅是截斷語音文件的終端設(shè)備6的示例,并不構(gòu)成對截斷語音文件的終端設(shè)備6的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件,例如截斷語音文件的終端設(shè)備還可以包括輸入輸出設(shè)備、網(wǎng)絡(luò)接入設(shè)備、總線等。
所稱處理器60可以是中央處理單元(centralprocessingunit,cpu),還可以是其他通用處理器、數(shù)字信號處理器(digitalsignalprocessor,dsp)、專用集成電路(applicationspecificintegratedcircuit,asic)、現(xiàn)成可編程門陣列(field-programmablegatearray,fpga)或者其他可編程邏輯器件、分立門或者晶體管邏輯器件、分立硬件組件等。通用處理器可以是微處理器或者該處理器也可以是任何常規(guī)的處理器等。
存儲器61可以是截斷語音文件的終端設(shè)備6的內(nèi)部存儲單元,例如截斷語音文件的終端設(shè)備6的硬盤或內(nèi)存。存儲器61也可以是截斷語音文件的終端設(shè)備6的外部存儲設(shè)備,例如截斷語音文件的終端設(shè)備6上配備的插接式硬盤,智能存儲卡(smartmediacard,smc),安全數(shù)字(securedigital,sd)卡,閃存卡(flashcard)等。進(jìn)一步地,存儲器61還可以既包括截斷語音文件的終端設(shè)備6的內(nèi)部存儲單元也包括外部存儲設(shè)備。存儲器61用于存儲計算機程序以及截斷語音文件的終端設(shè)備所需的其他程序和數(shù)據(jù)。存儲器61還可以用于暫時地存儲已經(jīng)輸出或者將要輸出的數(shù)據(jù)。
所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為了描述的方便和簡潔,僅以上述各功能單元、模塊的劃分進(jìn)行舉例說明,實際應(yīng)用中,可以根據(jù)需要而將上述功能分配由不同的功能單元、模塊完成,即將裝置的內(nèi)部結(jié)構(gòu)劃分成不同的功能單元或模塊,以完成以上描述的全部或者部分功能。實施例中的各功能單元、模塊可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中,上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。另外,各功能單元、模塊的具體名稱也只是為了便于相互區(qū)分,并不用于限制本申請的保護(hù)范圍。上述系統(tǒng)中單元、模塊的具體工作過程,可以參考前述方法實施例中的對應(yīng)過程,在此不再贅述。
在上述實施例中,對各個實施例的描述都各有側(cè)重,某個實施例中沒有詳述或記載的部分,可以參見其它實施例的相關(guān)描述。
本領(lǐng)域普通技術(shù)人員可以意識到,結(jié)合本文中所公開的實施例描述的各示例的單元及算法步驟,能夠以電子硬件、或者計算機軟件和電子硬件的結(jié)合來實現(xiàn)。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計約束條件。專業(yè)技術(shù)人員可以對每個特定的應(yīng)用來使用不同方法來實現(xiàn)所描述的功能,但是這種實現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。
在本發(fā)明所提供的實施例中,應(yīng)該理解到,所揭露的終端設(shè)備和方法,可以通過其它的方式實現(xiàn)。例如,以上所描述的終端設(shè)備實施例僅僅是示意性的,例如,模塊或單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式,例如多個單元或組件可以結(jié)合或者可以集成到另一個系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點,所顯示或討論的相互之間的耦合或直接耦合或通訊連接可以是通過一些接口,裝置或單元的間接耦合或通訊連接,可以是電性,機械或其它的形式。
作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡(luò)單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。
另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用軟件功能單元的形式實現(xiàn)。
集成的模塊/單元如果以軟件功能單元的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,可以存儲在一個計算機可讀取存儲介質(zhì)中?;谶@樣的理解,本發(fā)明實現(xiàn)上述實施例方法中的全部或部分流程,也可以通過計算機程序來指令相關(guān)的硬件來完成,的計算機程序可存儲于一計算機可讀存儲介質(zhì)中,該計算機程序在被處理器執(zhí)行時,可實現(xiàn)上述各個方法實施例的步驟。。其中,計算機程序包括計算機程序代碼,計算機程序代碼可以為源代碼形式、對象代碼形式、可執(zhí)行文件或某些中間形式等。計算機可讀介質(zhì)可以包括:能夠攜帶計算機程序代碼的任何實體或裝置、記錄介質(zhì)、u盤、移動硬盤、磁碟、光盤、計算機存儲器、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、電載波信號、電信信號以及軟件分發(fā)介質(zhì)等。需要說明的是,計算機可讀介質(zhì)包含的內(nèi)容可以根據(jù)司法管轄區(qū)內(nèi)立法和專利實踐的要求進(jìn)行適當(dāng)?shù)脑鰷p,例如在某些司法管轄區(qū),根據(jù)立法和專利實踐,計算機可讀介質(zhì)不包括是電載波信號和電信信號。以上實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述實施例對本發(fā)明進(jìn)行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進(jìn)行修改,或者對其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的精神和范圍,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。