一種配音方法、裝置及系統(tǒng)與流程

文檔序號：11524778閱讀：246來源：國知局

本發(fā)明涉及視頻處理領域，尤其涉及一種配音方法、裝置及系統(tǒng)。

背景技術：

網(wǎng)絡上現(xiàn)有的一些由用戶配音完成的視頻文件一般都需要用戶選擇某些特定電影片段或者自拍的視頻文件，通過使用電腦上的配音軟件制作完成。用戶在制作這些視頻文件時，不僅需要具備一定的專業(yè)知識和專業(yè)技能，還只能使用特定的視頻資源，導致了選擇具有局限性。

隨著電視行業(yè)的快速發(fā)展，電視作為視頻的主要載體之一走進了千家萬戶，但是目前尚不能直接使用電視中的視頻資源進行配音，從而流失了大量潛在的視頻資源。

技術實現(xiàn)要素：

本發(fā)明提出了一種配音方法、裝置及系統(tǒng)。

本發(fā)明具體是以如下技術方案實現(xiàn)的：

一種配音方法，所述方法包括：

第一客戶端響應于用戶指令，得到待配音視頻；將所述待配音視頻發(fā)送至服務器；

所述服務器獲取所述待配音視頻；根據(jù)所述待配音視頻生成目標視頻；生成與所述目標視頻對應的管理標識，并得到與所述管理標識對應的交互標識；將所述交互標識發(fā)送至第一客戶端；

所述第一客戶端獲取來自所述服務器的所述交互標識，并使得所述交互標識能夠被第二客戶端獲??；

所述第二客戶端根據(jù)所述交互標識從所述服務器得到所述目標視頻和所述管理標識；響應于配音指令，生成與所述管理標識對應的音頻文件并將所述音頻文件發(fā)送至所述服務器；

所述服務器根據(jù)對應于所述管理標識的音頻文件和對應于所述管理標識的目標視頻生成配音后的視頻文件。

一種配音方法，所述方法包括：

獲取來自第一客戶端的待配音視頻；

根據(jù)所述待配音視頻生成目標視頻；

生成與所述目標視頻對應的管理標識，并得到與所述管理標識對應的交互標識以使得第二客戶端能夠根據(jù)所述交互標識得到所述目標視頻和所述管理標識；

獲取來自第二客戶端的與所述管理標識對應的音頻文件；

根據(jù)對應于所述管理標識的音頻文件和對應于所述管理標識的目標視頻生成配音后的視頻文件。

一種配音裝置，包括：

待配音視頻獲取模塊，用于獲取來自第一客戶端的待配音視頻；

目標視頻生成模塊，用于根據(jù)所述待配音視頻生成目標視頻；

標識生成模塊，用于生成與所述目標視頻對應的管理標識，并得到與所述管理標識對應的交互標識以使得第二客戶端能夠根據(jù)所述交互標識得到目標視頻和管理標識；

音頻文件獲取模塊，用于獲取來自第二客戶端的與所述管理標識對應的音頻文件；

合成模塊，用于根據(jù)對應于所述管理標識的音頻文件和對應于所述管理標識的目標視頻生成配音后的視頻文件。

一種配音系統(tǒng)，所述系統(tǒng)第一客戶端、第二客戶端和服務器，所述服務器為上述的一種配音裝置；

所述第一客戶端包括：

視頻標識選擇模塊，用于獲取用戶選擇的視頻標識；

時間點獲取模塊，用于獲取用戶選擇的視頻起始點與視頻終止點；

待配音視頻獲取模塊，用于在與所述視頻標識對應的視頻文件中，拷貝所述視頻起始點和視頻終止點之間的視頻內容，得到待配音視頻；

所述第二客戶端包括：

交互標識獲取模塊，用于獲取交互標識；

交互結果獲取模塊，用于根據(jù)所述交互標識從服務器得到目標視頻和管理標識；

音頻文件獲取模塊，用于生成與所述管理標識對應的音頻文件；

音頻文件發(fā)送模塊，用于將所述音頻文件發(fā)送至所述服務器。

本發(fā)明的一種配音方法、裝置及系統(tǒng)，具有如下有益效果：

(1)配音的具體工作在服務器端完成，用戶只需選取待配音視頻并錄制音頻文件即可，從而簡化用戶配音流程。

(2)對于待配音視頻的具體內容和格式不做限制，用戶可以任意選擇視頻進行配音，可以在任意時刻進行配音，從而提升用戶體驗。

附圖說明

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案，下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領域普通技術人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其它附圖。

圖1是本發(fā)明實施例提供的實施環(huán)境的示意圖；

圖2是本發(fā)明實施例提供的服務器集群架構示意圖；

圖3是本發(fā)明實施例提供的配音方法的流程圖；

圖4是本發(fā)明實施例提供的第一客戶端得到待配音視頻的方法的流程圖；

圖5是本發(fā)明實施例提供的視頻編輯方法；

圖6是本發(fā)明實施例提供的對視頻進行編輯的流程示意圖；

圖7是本發(fā)明實施例提供的配音方法流程圖；

圖8是本發(fā)明實施例提供的目標視頻生成方法流程圖；

圖9是本發(fā)明實施例提供的字幕獲取方法的流程圖；

圖10是本發(fā)明實施例提供的語音識別的方法的流程圖；

圖11是本發(fā)明實施例提供的配音裝置框圖；

圖12是本發(fā)明實施例提供的目標視頻生成模塊的框圖；

圖13是本發(fā)明實施例提供的標識生成模塊的框圖；

圖14是本發(fā)明實施例提供的終端的結構框圖；

圖15是本發(fā)明實施例提供的服務器的結構框圖。

具體實施方式

下面將結合本發(fā)明實施例中的附圖，對本發(fā)明實施例中的技術方案進行清楚、完整地描述，顯然，所描述的實施例僅僅是本發(fā)明一部分實施例，而不是全部的實施例?；诒景l(fā)明中的實施例，本領域普通技術人員在沒有作出創(chuàng)造性勞動的前提下所獲得的所有其他實施例，都屬于本發(fā)明保護的范圍。

請參考圖1，其示出了本發(fā)明一個實施例提供的實施環(huán)境的示意圖。該實施環(huán)境包括：第一終端120、服務器140和第二終端160。

第一終端120中運行有第一客戶端。第一終端120可以是手機、平板電腦、電視機、mp4(movingpictureexpertsgroupaudiolayeriv，動態(tài)影像專家壓縮標準音頻層面4)播放器、膝上型便攜計算機和臺式計算機等等。

服務器140可以是一臺服務器，也可以是由若干臺服務器組成的服務器集群，或者是一個云計算服務中心。

第二終端160中運行有第二客戶端。第二終端160可以是手機、平板電腦、膝上型便攜計算機和臺式計算機等等。

服務器140可以通過通信網(wǎng)絡分別與第一終端120和第二終端160建立通信連接。該網(wǎng)絡可以是無線網(wǎng)絡，也可以是有線網(wǎng)絡。

在本發(fā)明實施例中，第一客戶端可以是任何具有用戶界面(userinterface，ui)接口并能夠與服務器140通信的客戶端。例如，第一客戶端可以是視頻服務類客戶端、有線電視客戶端、游戲客戶端、瀏覽器、專用于視頻配音的客戶端等等。

在本發(fā)明實施例中，第二客戶端可以是任何具有用戶界面(userinterface，ui)接口并能夠與服務器140通信的客戶端。例如，第二客戶端可以是視頻編輯類客戶端、社交類應用客戶端、即時通信客戶端、支付類應用客戶端、專用于視頻配音的客戶端等等。

在實際應用中，第一客戶端和第二客戶端可以是兩個具有不同功能的客戶端，第一客戶端和第二客戶端也可以是兩個具有相同功能的客戶端。相應地，第一終端和第二終端均為終端設備。當該終端設備中運行的客戶端用于實現(xiàn)本發(fā)明方法示例中第一客戶端側的功能時，該終端設備即作為第一終端；當該終端設備中運行的客戶端用于實現(xiàn)本發(fā)明方法示例中第二客戶端側的功能時，該終端設備即作為第二終端。在實際應用中，對于同一個客戶端來講，其可以作為第一客戶端，也可以作為第二客戶端。對于同一臺終端，其可以作為第一終端，也可以作為第二終端。

在一個示例中，如圖2所示，當后臺服務器140為集群架構時，后臺服務器140可以包括：通訊服務器142、管理服務器144和視頻服務器146。

通訊服務器142用于提供與第一客戶端和與第二客戶端的通訊服務，還用于提供與管理服務器144和視頻服務器146的通信服務。

管理服務器144用于提供對視頻文件以及音頻文件進行管理的功能。

視頻服務器146用于提供對視頻進行編輯和配音功能。

上述各個服務器之間可通過通信網(wǎng)絡建立通信連接。該網(wǎng)絡可以是無線網(wǎng)絡，也可以是有線網(wǎng)絡。

請參考圖3，其示出了本發(fā)明一個實施例提供的配音方法的流程圖。該方法可應用于圖1所示實施環(huán)境中。該方法可以包括如下步驟。

步驟301，第一客戶端響應于用戶指令，得到待配音視頻。

若第一客戶端運行于電視機、臺式機或便攜式計算機等帶有按鍵和屏幕的終端設備之上，所述用戶指令可以通過按下或長按指定按鈕的方式觸發(fā)，也可以通過單擊或雙擊指定圖標的方式觸發(fā)；若第一客戶端運行于手機或平板電腦上，所述用戶指令也可以通過單擊、雙擊、活動、拖動等手勢觸發(fā)。響應于所述用戶指令，第一客戶端進入配音模式。請參考圖4，其示出了在所述配音模式下，第一客戶端得到待配音視頻的方法的流程圖。

步驟3011，獲取用戶選擇的視頻標識；

步驟3012，獲取用戶選擇的視頻起始點與視頻終止點；

步驟3012，在與所述視頻標識對應的視頻文件中，拷貝所述視頻起始點和視頻終止點之間的視頻內容，得到待配音視頻。

步驟302，第一客戶端將所述待配音視頻發(fā)送至服務器。

進一步地，所述第一客戶端在將所述待配音視頻發(fā)送至服務器之前，還可以在本地保存所述待配音視頻。

步驟303，服務器獲取所述待配音視頻，服務器根據(jù)所述待配音視頻生成目標視頻。

具體地，若所述待配音視頻符合目標視頻的相關限定，則所述待配音視頻可以直接作為目標視頻；若所述待配音視頻不符合目標視頻的相關限定，則對所述待配音視頻進行編輯后生成目標視頻。所述目標視頻的相關限定包括但不限于所述目標視頻中無音頻數(shù)據(jù)。

步驟304，服務器生成與所述目標視頻對應的管理標識，并得到與所述管理標識對應的交互標識。

具體地，所述管理標識可以為用于標識目標視頻的id(identification)號或key值(鍵值)。所有與所述目標視頻相關的音頻文件和視頻文件均具有同樣的管理標識，服務器根據(jù)所述管理標識對視頻文件和/或音頻文件進行管理。

所述交互標識用于使得第二客戶端能夠獲取服務器生成的目標視頻以及所述管理標識；所述交互標識可以與所述管理標識相同，也可以與所述管理標識不同。所述交互標識根據(jù)所述管理標識生成，所述交互標識包括但不限于網(wǎng)址、二維碼、條形碼以及它們的組合等形式。

本發(fā)明的一個實施例中，所述交互標識包括與管理標識對應的網(wǎng)址以及以二維碼形式表示的所述網(wǎng)址。所述網(wǎng)址所在位置下，存儲有所述目標視頻以及所述管理標識。

步驟305，服務器將所述交互標識發(fā)送至第一客戶端。

步驟306，第一客戶端獲取來自所述服務器的所述交互標識，并使得所述交互標識能夠被第二客戶端獲取。

步驟307，第二客戶端根據(jù)所述交互標識從所述服務器得到所述目標視頻和所述管理標識。

第一客戶端獲取所述二維碼，所述第二客戶端即可通過掃碼的方式得到所述二維碼，通過所述二維碼，所述第二客戶端即可登錄所述二維碼表示的網(wǎng)址，從而獲取所述目標視頻以及所述管理標識。

進一步地，第二客戶端還可以對于所述目標視頻進行編輯操作，所述編輯操作包括但不限于畫面裁剪、視頻裁減、視頻增加、消音、配音及圖形處理，從而得到編輯后的目標視頻，并將編輯后的目標視頻以及所述管理標識發(fā)送至服務器以替換服務器端與所述管理標識對應的目標視頻。

進一步地，第二客戶端還可以通過與服務器交互，向服務器發(fā)布視頻編輯指令，所述編輯指令中還包括所述管理標識。由服務器對與所述管理標識對應的目標視頻進行編輯操作，所述編輯操作包括但不限于畫面裁剪、視頻裁減、視頻增加、消音、配音及圖形處理。服務器得到編輯后的目標視頻，并以編輯后的目標視頻替換原目標視頻，并將編輯后的目標視頻推送至第二客戶端。

步驟308，響應于配音指令，生成與所述管理標識對應的音頻文件并將所述音頻文件發(fā)送至所述服務器。

具體地，響應于配音指令，第二客戶端可以通過錄制音頻文件、選取已有音頻文件等方式以獲取音頻文件，并將所述音頻文件與所述管理標識發(fā)送至服務器使得服務器能夠獲取所述音頻文件。

進一步地，若通過錄制音頻文件的形式生成音頻文件，則在錄制過程中，播放目標視頻以便用戶進行配音；若在步驟308之前，所述第二客戶端通過與服務器交互的方式，或通過自身的編輯功能編輯過目標視頻，則在錄制過程中，播放編輯后的目標視頻以便用戶進行配音。

步驟309，服務器根據(jù)對應于所述管理標識的音頻文件和對應于所述管理標識的目標視頻生成配音后的視頻文件。

若在步驟308之前，所述第二客戶端通過與服務器交互的方式，或通過自身的編輯功能編輯過目標視頻，則服務器中的目標視頻已經(jīng)被替換，則服務器根據(jù)所述音頻文件與被替換過的目標視頻得到配音后的視頻文件。

進一步地，響應于第二客戶端的發(fā)送指令，服務器可以將所述視頻文件發(fā)送至第二客戶端。

進一步地，響應于第二客戶端發(fā)送的分享指令，服務器還可以將所述視頻文件分享至其它用戶。

綜上所述，本實施例提供的方法，通過第一客戶端、第二客戶端與服務器之間的三方交互，實現(xiàn)了對于視頻的配音。配音的具體工作在服務器端完成，用戶只需選取待配音視頻并錄制音頻文件即可，從而簡化用戶配音流程。進一步地，待配音視頻的來源不限，可以為用戶在某些視頻庫中選取的視頻資源，也可以用戶在電視機上觀看的視頻資源，比如ott視頻。

ott是“overthetop”的縮寫，是指通過互聯(lián)網(wǎng)向用戶提供各種應用服務。這種應用和目前運營商所提供的通信業(yè)務不同，它僅利用運營商的網(wǎng)絡，而服務由運營商之外的第三方提供。目前，典型的ott業(yè)務有互聯(lián)網(wǎng)電視業(yè)務，蘋果應用商店等?；ヂ?lián)網(wǎng)企業(yè)利用電信運營商的寬帶網(wǎng)絡發(fā)展自己的業(yè)務，如國外的谷歌、蘋果、skype、netflix、國內的qq等。netflix網(wǎng)絡視頻以及各種移動應用商店里的應用都是ott。本發(fā)明實施例可以直接基于ott視頻進行配音，從而顯著拓寬配音素材的來源。

進一步地，在步驟308之前，所述目標視頻可以被服務器或第二客戶端編輯，請參考圖5，其示出本發(fā)明的視頻編輯方法，包括以下步驟：

步驟s310，對所述目標視頻按照時間軸先后順序逐幀分解為視頻幀的組合；所述時間軸指的是兩個以上時間點按先后順序排列而成的直線。

根據(jù)所述視頻幀的組合生成分解后的臨時文件，所述視頻幀中包括圖形數(shù)據(jù)。

步驟s320，接收視頻編輯指令，并根據(jù)所述視頻編輯指令，對所述按幀分解的視頻幀進行編輯。

步驟s330，根據(jù)編輯結果得到編輯后的目標視頻。

以畫面裁剪為例，若視頻編輯指令為畫面裁剪指令，則所述畫面裁剪指令包括視頻畫面的寬度數(shù)據(jù)和高度數(shù)據(jù)。

(1)若畫面剪輯在第二客戶端完成，則由第二客戶端直接根據(jù)所述視頻畫面的寬度數(shù)據(jù)和高度數(shù)據(jù)對臨時文件中的每一個視頻幀進行編輯，并根據(jù)編輯結果得到畫面裁剪后的目標文件。

(2)若畫面剪輯在服務器端完成，則第二客戶端響應于畫面裁剪指令，得到畫面裁剪后的視頻畫面的寬度數(shù)據(jù)和高度數(shù)據(jù)；將所述寬度數(shù)據(jù)和所述高度數(shù)據(jù)傳輸至服務器使得所述服務器按照所述寬度數(shù)據(jù)和所述高度數(shù)據(jù)對服務器中的目標視頻進行畫面裁剪，所述畫面裁剪的方法與(1)一致。

進一步地，還可以接收用戶的其它視頻編輯指令，包括視頻裁減、視頻增加、消音、配音及圖形處理等。

本發(fā)明實施例通過對目標視頻進行多種編輯，可以滿足用戶的多種編輯需求，最終取得更好的配音效果；通過進行畫面裁剪，可以去掉目標視頻中的原有字幕。

進一步的，對于視頻裁減、視頻增加、消音、配音及圖形處理等視頻編輯指令，參照圖6，其示出根據(jù)視頻裁減、視頻增加、消音、配音及圖形處理等視頻編輯指令對視頻進行編輯的流程示意圖。上述步驟s320具體包括：

s3201、接收視頻編輯指令，其中所述視頻編輯指令包括視頻編輯的起點與終點以及視頻編輯的類型；

s3022、將所述起點及終點分別與所述時間軸上的時間點進行匹配，獲取與起點對應的第一匹配時間點和與終點對應的第二匹配時間點；

s3203、查找與所述第一匹配時間點對應的第一視頻幀和與所述第二匹配時間點對應的第二視頻幀；

s3204、根據(jù)所述視頻編輯的類型，對所第一視頻幀與第二視頻幀之間的視頻幀進行編輯。

下面將根據(jù)具體地視頻編輯的類型對步驟s320進行描述。

(一)視頻裁剪處理

若視頻編輯的類型為視頻裁剪處理，則將所述起點及終點分別與所述時間軸上的時間點進行匹配，獲取與起點對應的第一匹配時間點和與終點對應的第二匹配時間點；查找與所述第一匹配時間點對應的第一視頻幀和與所述第二匹配時間點對應的第二視頻幀，對在所述臨時文件中將第一視頻幀與第二視頻幀中的視頻幀進行裁剪。

(二)視頻增加處理

若視頻編輯的類型為視頻增加處理，則將所述起點及終點分別與所述時間軸上的時間點進行匹配，獲取與起點對應的第一匹配時間點和與終點對應的第二匹配時間點；查找與所述第一匹配時間點對應的第一視頻幀和與所述第二匹配時間點對應的第二視頻幀。若起點與終點為相鄰兩幀圖像數(shù)據(jù)所對應的時間點，則將待添加的視頻幀，插入至第一視頻幀和第二視頻幀之間。若起點與終點之間包括多幀圖形數(shù)據(jù)所對應的時間點，則可以按照預設規(guī)則插入至第一視頻幀和第二視頻幀之間的預設位置。

(三)消音處理

若視頻編輯的類型為消音處理，則將所述起點及終點分別與所述時間軸上的時間點進行匹配，獲取與起點對應的第一匹配時間點和與終點對應的第二匹配時間點；查找與所述第一匹配時間點對應的第一視頻幀和與所述第二匹配時間點對應的第二視頻幀。然后，將第一視頻幀和第二視頻幀間聲音數(shù)據(jù)刪除。

(四)配音處理

若視頻編輯的類型為配音處理，則將所述起點及終點分別與所述時間軸上的時間點進行匹配，獲取與起點對應的第一匹配時間點和與終點對應的第二匹配時間點；查找與所述第一匹配時間點對應的第一視頻幀和與所述第二匹配時間點對應的第二視頻幀。然后，將第一視頻幀和第二視頻幀之間加入用戶所選的聲音數(shù)據(jù)，若第一視頻幀和第二視頻幀之間的視頻幀中原本帶有聲音數(shù)據(jù)，則將原本帶有的聲音數(shù)據(jù)抹除，然后加入用戶所選的聲音數(shù)據(jù)。

(五)圖形處理

若視頻編輯的類型為圖形處理，則將所述起點及終點分別與所述時間軸上的時間點進行匹配，獲取與起點對應的第一匹配時間點和與終點對應的第二匹配時間點；查找與所述第一匹配時間點對應的第一視頻幀和與所述第二匹配時間點對應的第二視頻幀。然后，對第一視頻幀和第二視頻幀之間的視頻幀之間的圖像數(shù)據(jù)的對比度，亮度，以及色飽和度進行調整。

當然，步驟s320的視頻編輯處理不限定于上述幾種處理。也可以包括其他的處理。而且上述處理可以靈活組合，例如可以先對視頻幀進行消音處理，然后再對消音處理的視頻幀進行配音處理；或者先對視頻幀進行視頻裁剪，然后再對裁剪處理后的視頻幀的對應位置插入待添加的視頻幀等等。在這里需要說明的是，若視頻編輯指令中，不包括起點及終點，則該起點默認設置為整個視頻幀時間軸的起始時間點，終點默認設置為整個視頻信號時間軸的最后一時間點。

本發(fā)明實施例通過將需處理的目標視頻逐幀進行分解，從而使得目標視頻進行編輯處理時可以精確到每一幀，提高了視頻處理的精確度，改善了編輯效果。

請參考圖7，其示出了一種配音方法，所述方法包括如下步驟：

步驟s401，獲取來自第一客戶端的待配音視頻。

步驟s402，根據(jù)所述待配音視頻生成目標視頻。

請參考圖8，其示出了目標視頻生成方法：

s4021，判斷所述待配音視頻中是否還有音頻數(shù)據(jù)；

s4022，若是，則消除所述待配音視頻中的音頻數(shù)據(jù)，得到目標視頻；

s4023，若否，直接將所述待配音視頻作為目標視頻。

具體地，所述消除所述待配音視頻中的音頻數(shù)據(jù)可以通過下述兩種方式實現(xiàn)：

(1)解碼所述待配音視頻所在的文件，得到視頻數(shù)據(jù)和音頻數(shù)據(jù)；根據(jù)得到的視頻數(shù)據(jù)重新編碼得到目標視頻；

(2)采用數(shù)字過濾的方式直接消除所述待配音視頻中的音頻數(shù)據(jù)，得到目標視頻。

步驟s403，生成與所述目標視頻對應的管理標識，并得到與所述管理標識對應的交互標識以使得第二客戶端能夠根據(jù)所述交互標識得到所述目標視頻和所述管理標識。

本發(fā)明實施例中可以按照預設的標識生成方法生成與所述目標視頻對應的管理標識。所述標識生成方法包括但不限于隨機生成標識，根據(jù)目標視頻生成時間生成標識，根據(jù)目標視頻生成時間以及其它屬性參數(shù)生成標識。

本發(fā)明實施例中可以根據(jù)所述管理標識與預設的網(wǎng)址生成算法生成網(wǎng)址。生成的網(wǎng)址即為一種交互標識，所述網(wǎng)址與所述管理標識一一對應。所述網(wǎng)址生成后被推送至第一客戶端。進一步地，推送至第一客戶端的網(wǎng)址可以為字符串形式，也可以為二維碼或條形碼形式。

步驟s404，獲取來自第二客戶端的與所述管理標識對應的音頻文件。

步驟s405，根據(jù)對應于所述管理標識的音頻文件和對應于所述管理標識的目標視頻生成配音后的視頻文件。

進一步地，請參考圖9，其示出了字幕獲取方法的流程圖。響應于字幕生成指令，所述獲取來自第二客戶端的與所述管理標識對應的音頻文件之后，還包括：

步驟s410，對所述音頻文件中的音頻進行語音識別。

具體地，請參考圖10，其示出了對所述音頻文件中的音頻進行語音識別的方法的流程圖，步驟s410包括如下步驟：

步驟s4101，得到音頻文件中的音頻數(shù)據(jù)。

步驟s4102，根據(jù)說話的時間間隔對音頻數(shù)據(jù)進行切分，得到音頻數(shù)據(jù)段，并記錄音頻數(shù)據(jù)段的時間信息。

具體地，根據(jù)說話的時間間隔對音頻數(shù)據(jù)進行切分是根據(jù)音頻數(shù)據(jù)中音頻的波形圖通過語音識別來判斷應該斷句位置。由于人聲的語速快慢不同，有一般語速、較快語速以及較慢語速，為了進一步的實現(xiàn)斷句的精確性，可以根據(jù)音頻數(shù)據(jù)中人聲的語速分別設置停頓時間間隔、每段語音的時間間隔。其中，對音頻數(shù)據(jù)進行切分以得到音頻數(shù)據(jù)段保證了音視頻畫面中呈現(xiàn)出的字幕閱讀量能夠使得觀看者感到舒適、方便消化理解字幕內容。

步驟s4103，通過語音識別得到對應的文本數(shù)據(jù)段。

具體地，將音頻數(shù)據(jù)段通過語音識別得到對應的文本數(shù)據(jù)段，包括：將所述音頻數(shù)據(jù)段與詞庫進行匹配，得到對應音頻數(shù)據(jù)段的分類詞庫；根據(jù)所匹配的分類詞庫進行語音識別。該分類詞庫包括：兩種以上的語種分類詞庫、及兩種以上的專業(yè)學科分類詞庫。通過將音頻數(shù)據(jù)段與詞庫進行匹配可以得到與音頻數(shù)據(jù)中原聲語種對應語種分類詞庫，并可以利用該語種分類詞庫中的詞匯進一步加快語音識別得到對應的文本數(shù)據(jù)、還可以通過將音頻數(shù)據(jù)段與詞庫進行匹配得到與音頻數(shù)據(jù)中的專業(yè)學科對應專業(yè)學科分類詞庫，例如歷史題材的音頻數(shù)據(jù)可以匹配到歷史專業(yè)學科分類詞庫，可利用該專業(yè)學科分類詞庫中的詞匯進一步加快語音識別得到對應的文本數(shù)據(jù)。

具體地，將音頻數(shù)據(jù)段通過語音識別得到對應的文本數(shù)據(jù)段可以是將音頻數(shù)據(jù)段中的音頻內容直接識別成原聲對應語言的文本數(shù)據(jù)，當然，也可將音頻數(shù)據(jù)段中的音頻內容識別成其它語言的文字。將音頻數(shù)據(jù)段中的音頻內容識別成其它語言的文字的具體過程為：獲取用戶選擇的語言類別，將音頻數(shù)據(jù)段識別成原聲對應語言的文本數(shù)據(jù)，然后將識別出的原聲對應語言的文本數(shù)據(jù)翻譯成用戶所選擇的用戶選擇的語言類別的文本數(shù)據(jù)。

在本實施例中，根據(jù)說話的時間間隔的長短，在對應的文本數(shù)據(jù)段中添加間隔標識符。由于通過語音識別得到文本數(shù)據(jù)段中包含了大量的標點符號，其很多標點符號不符合上下文的語境，為了方便進一步校對文本數(shù)據(jù)段，可對音識別得到文本數(shù)據(jù)段進行過濾，將文本數(shù)據(jù)段中標點符號所占字節(jié)轉換成對應字節(jié)的間隔標識符。以方便人工校對時，修改成符合語境的標點符號。

具體地，通過語音識別得到文本數(shù)據(jù)段，可以是根據(jù)每段文本數(shù)據(jù)段的開始時間和結束時間將文本數(shù)據(jù)進行分割和換行，形成對應于音頻文件中的音頻數(shù)據(jù)的字幕文本。具體地，將文本數(shù)據(jù)進行分割和換行的標準主要依據(jù)音視頻中字幕與音頻的配合。

步驟s420，根據(jù)識別的結果生成與管理標識對應的字幕文件。

以字幕文件的形式記錄上述文本數(shù)據(jù)段。需要說明的是，生成音視頻數(shù)據(jù)的字幕文件后，可以根據(jù)實際情況選擇字幕文件的輸出方式，字幕文件的輸出方式包括但不限于：生成特定格式、符合字幕格式標準的字幕文件；在播放視頻時，將字幕文件整合到音視頻輸出流中，讓播放器去做字幕顯示工作。

步驟s430，將所述字幕文件傳輸至第二客戶端使得第二客戶端能夠對所述字幕文件進行校正并返回修正結果。

步驟s440，根據(jù)所述修正結果得到目標字幕文件。

所述修正結果包括確認指令或修正后的字幕文件。若第二客戶端對字幕文件進行了修正，則返回修正后的字幕文件，并以所述修正后的字幕文件作為目標字幕文件；若第二客戶端對字幕文件沒有修正，則直接返回確認指令，則以原字幕文件作為目標字幕文件。目標字幕文件也與管理標識對應。

進一步地，獲取目標字幕文件后，在步驟s405中，即可將對應于相同管理標識的音頻文件、目標視頻以及目標字幕文件合成，得到配音后的視頻文件。

本實施例提供了一種配音方法，通過語音識別的方式自動生成字幕文件，并基于管理標識生成了配音文件，用戶只需錄入對應于目標視頻的聲音得到音頻文件，即可自動完成配音工作，并自動生成字幕，從而避免用戶過多的接觸復雜的配音文件生成工作，提升用戶體驗。

下述為本發(fā)明裝置實施例，可以用于執(zhí)行本發(fā)明方法實施例。對于本發(fā)明裝置實施例中未披露的細節(jié)，請參照本發(fā)明方法實施例。

請參考圖11，其示出了一種配音裝置，該裝置具有實現(xiàn)上述方法示例中服務器的功能，所述功能可以由硬件實現(xiàn)，也可以由硬件執(zhí)行相應的軟件實現(xiàn)。該裝置可以包括：

待配音視頻獲取模塊501，用于獲取來自第一客戶端的待配音視頻?？梢杂糜趫?zhí)行上述步驟303和步驟401。

目標視頻生成模塊502，用于根據(jù)所述待配音視頻生成目標視頻。可以用于執(zhí)行上述步驟303和步驟402。

標識生成模塊503，用于生成與所述目標視頻對應的管理標識，并得到與所述管理標識對應的交互標識以使得第二客戶端能夠根據(jù)所述交互標識得到所述目標視頻和所述管理標識?？梢杂糜趫?zhí)行上述步驟304和步驟403。

音頻文件獲取模塊504，用于獲取來自第二客戶端的與所述管理標識對應的音頻文件?？梢杂糜趫?zhí)行上述步驟308和步驟404。

合成模塊505，用于根據(jù)對應于所述管理標識的音頻文件和對應于所述管理標識的目標視頻生成配音后的視頻文件?？梢杂糜趫?zhí)行上述步驟309和步驟405。

具體地，請參考圖12，其示出了目標視頻生成模塊的框圖。所述目標視頻生成模塊502可以包括：

判斷單元5021，用于判斷所述待配音視頻中是否還有音頻數(shù)據(jù)?？梢杂糜趫?zhí)行上述步驟4021。

消音單元5022，用于消除所述待配音視頻中的音頻數(shù)據(jù)。可以用于執(zhí)行上述步驟3022。

具體地，請參考圖13，其使出了標識生成模塊的框圖。所述標識生成模塊503可以包括：

管理標識生成單元5031，用于按照預設的標識生成方法生成與所述目標視頻對應的管理標識。可以用于執(zhí)行上述步驟304和步驟403。

網(wǎng)址生成單元5032，用于根據(jù)所述管理標識與預設的網(wǎng)址生成算法生成網(wǎng)址?？梢杂糜趫?zhí)行上述步驟304和步驟403。

二維碼生成單元5033，用于根據(jù)所述網(wǎng)址生成二維碼?？梢杂糜趫?zhí)行上述步驟304和步驟403。

相應的，本裝置還可以包括：二維碼推送模塊506，用于將所述二維碼推送至所述第一客戶端?？梢杂糜趫?zhí)行上述步驟304。

進一步地，本裝置還可以包括：

語音識別模塊507，用于對所述音頻文件中的音頻進行語音識別。可以用于執(zhí)行上述步驟410。

字幕文件生成模塊508，用于根據(jù)識別的結果生成字幕文件。可以用于執(zhí)行上述步驟420。

進一步地，本裝置還可以包括：

視頻編輯模塊509，用于進行視頻編輯。

視頻文件發(fā)送模塊510，用于將配音后的視頻文件發(fā)送至第二客戶端。

視頻文件分享模塊511，用于將配音后的視頻文件分享至其它用戶。

本發(fā)明一示例性實施例還提供了一種配音系統(tǒng)，所述系統(tǒng)包括第一客戶端601、第二客戶端602和服務器603；

所述第一客戶端601，用于響應于用戶指令，得到待配音視頻；將所述待配音視頻發(fā)送至服務器；獲取來自所述服務器的交互標識，并使得所述交互標識能夠被第二客戶端獲?。?/p>

所述第二客戶端602，用于根據(jù)所述交互標識從所述服務器獲取目標視頻；響應于配音指令，生成與管理標識對應的音頻文件并將所述音頻文件發(fā)送至所述服務器；

所述服務器603，用于獲取所述待配音視頻；根據(jù)所述待配音視頻生成目標視頻；生成與所述目標視頻對應的管理標識，并得到與所述管理標識對應的交互標識；將所述交互標識發(fā)送至第一客戶端；向第二客戶端發(fā)送目標視頻；根據(jù)所述音頻文件與服務器中的目標視頻得到配音后的視頻文件。

具體地，所述服務器603可以為上述的配音裝置；

所述第一客戶端601可以包括：

視頻標識選擇模塊6011，用于獲取用戶選擇的視頻標識；

時間點獲取模塊6012，用于獲取用戶選擇的視頻起始點與視頻終止點；

待配音視頻獲取模塊6013，用于在與所述視頻標識對應的視頻文件中，拷貝所述視頻起始點和視頻終止點之間的視頻內容，得到待配音視頻；

所述第二客戶端602可以包括：

交互標識獲取模塊6021，用于獲取交互標識；

交互結果獲取模塊6022，用于根據(jù)所述交互標識從服務器得到目標視頻和管理標識；

音頻文件獲取模塊6023，用于生成與所述管理標識對應的音頻文件；

音頻文件發(fā)送模塊6024，用于將所述音頻文件發(fā)送至所述服務器。

進一步地，所述第二客戶端還可以包括：

畫面裁剪模塊6025，響應于畫面裁剪指令，得到畫面裁剪后的視頻畫面的寬度數(shù)據(jù)和高度數(shù)據(jù)。

需要說明的是，上述實施例提供的裝置和系統(tǒng)，在實現(xiàn)其功能時，僅以上述各功能模塊的劃分進行舉例說明，實際應用中，可以根據(jù)需要而將上述功能分配由不同的功能模塊完成，即將設備的內部結構劃分成不同的功能模塊，以完成以上描述的全部或者部分功能。另外，上述實施例提供的裝置與方法實施例屬于同一構思，其具體實現(xiàn)過程詳見方法實施例，這里不再贅述。

請參考圖14，其示出了本發(fā)明一個實施例提供的終端的結構示意圖。該終端用于實施上述實施例中提供的配音方法。

所述終端可以包括rf(radiofrequency，射頻)電路110、包括有一個或一個以上計算機可讀存儲介質的存儲器120、輸入單元130、顯示單元140、傳感器150、音頻電路160、wifi(wirelessfidelity，無線保真)模塊170、包括有一個或者一個以上處理核心的處理器180、以及電源190等部件。本領域技術人員可以理解，圖14中示出的終端結構并不構成對終端的限定，可以包括比圖示更多或更少的部件，或者組合某些部件，或者不同的部件布置。其中：

rf電路110可用于收發(fā)信息或通話過程中，信號的接收和發(fā)送，特別地，將基站的下行信息接收后，交由一個或者一個以上處理器180處理；另外，將涉及上行的數(shù)據(jù)發(fā)送給基站。通常，rf電路110包括但不限于天線、至少一個放大器、調諧器、一個或多個振蕩器、用戶身份模塊(sim)卡、收發(fā)信機、耦合器、lna(lownoiseamplifier，低噪聲放大器)、雙工器等。此外，rf電路110還可以通過無線通信與網(wǎng)絡和其他設備通信。所述無線通信可以使用任一通信標準或協(xié)議，包括但不限于gsm(globalsystemofmobilecommunication，全球移動通訊系統(tǒng))、gprs(generalpacketradioservice，通用分組無線服務)、cdma(codedivisionmultipleaccess，碼分多址)、wcdma(widebandcodedivisionmultipleaccess,寬帶碼分多址)、lte(longtermevolution,長期演進)、電子郵件、sms(shortmessagingservice，短消息服務)等。

存儲器120可用于存儲軟件程序以及模塊，處理器180通過運行存儲在存儲器120的軟件程序以及模塊，從而執(zhí)行各種功能應用以及數(shù)據(jù)處理。存儲器120可主要包括存儲程序區(qū)和存儲數(shù)據(jù)區(qū)，其中，存儲程序區(qū)可存儲操作系統(tǒng)、功能所需的應用程序等；存儲數(shù)據(jù)區(qū)可存儲根據(jù)所述終端的使用所創(chuàng)建的數(shù)據(jù)等。此外，存儲器120可以包括高速隨機存取存儲器，還可以包括非易失性存儲器，例如至少一個磁盤存儲器件、閃存器件、或其他易失性固態(tài)存儲器件。相應地，存儲器120還可以包括存儲器控制器，以提供處理器180和輸入單元130對存儲器120的訪問。

輸入單元130可用于接收輸入的數(shù)字或字符信息，以及產(chǎn)生與用戶設置以及功能控制有關的鍵盤、鼠標、操作桿、光學或者軌跡球信號輸入。具體地，輸入單元130可包括觸敏表面131以及其他輸入設備132。觸敏表面131，也稱為觸摸顯示屏或者觸控板，可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸敏表面131上或在觸敏表面131附近的操作)，并根據(jù)預先設定的程式驅動相應的連接裝置?？蛇x的，觸敏表面131可包括觸摸檢測裝置和觸摸控制器兩個部分。其中，觸摸檢測裝置檢測用戶的觸摸方位，并檢測觸摸操作帶來的信號，將信號傳送給觸摸控制器；觸摸控制器從觸摸檢測裝置上接收觸摸信息，并將它轉換成觸點坐標，再送給處理器180，并能接收處理器180發(fā)來的命令并加以執(zhí)行。此外，可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實現(xiàn)觸敏表面131。除了觸敏表面131，輸入單元130還可以包括其他輸入設備132。具體地，其他輸入設備132可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關按鍵等)、軌跡球、鼠標、操作桿等中的一種或多種。

顯示單元140可用于顯示由用戶輸入的信息或提供給用戶的信息以及所述終端的各種圖形用戶接口，這些圖形用戶接口可以由圖形、文本、圖標、視頻和其任意組合來構成。顯示單元140可包括顯示面板141，可選的，可以采用lcd(liquidcrystaldisplay，液晶顯示器)、oled(organiclight-emittingdiode,有機發(fā)光二極管)等形式來配置顯示面板141。進一步的，觸敏表面131可覆蓋顯示面板141，當觸敏表面131檢測到在其上或附近的觸摸操作后，傳送給處理器180以確定觸摸事件的類型，隨后處理器180根據(jù)觸摸事件的類型在顯示面板141上提供相應的視覺輸出。雖然在圖14中，觸敏表面131與顯示面板141是作為兩個獨立的部件來實現(xiàn)輸入和輸入功能，但是在某些實施例中，可以將觸敏表面131與顯示面板141集成而實現(xiàn)輸入和輸出功能。

所述終端還可包括至少一種傳感器150，比如光傳感器、運動傳感器以及其他傳感器。具體地，光傳感器可包括環(huán)境光傳感器及接近傳感器，其中，環(huán)境光傳感器可根據(jù)環(huán)境光線的明暗來調節(jié)顯示面板141的亮度，接近傳感器可在所述終端移動到耳邊時，關閉顯示面板141和/或背光。作為運動傳感器的一種，重力加速度傳感器可檢測各個方向上(一般為三軸)加速度的大小，靜止時可檢測出重力的大小及方向，可用于識別終端姿態(tài)的應用(比如橫豎屏切換、相關游戲、磁力計姿態(tài)校準)、振動識別相關功能(比如計步器、敲擊)等；至于所述終端還可配置的陀螺儀、氣壓計、濕度計、溫度計、紅外線傳感器等其他傳感器，在此不再贅述。

音頻電路160、揚聲器161，傳聲器162可提供用戶與所述終端之間的音頻接口。音頻電路160可將接收到的音頻數(shù)據(jù)轉換后的電信號，傳輸?shù)綋P聲器161，由揚聲器161轉換為聲音信號輸出；另一方面，傳聲器162將收集的聲音信號轉換為電信號，由音頻電路160接收后轉換為音頻數(shù)據(jù)，再將音頻數(shù)據(jù)輸出處理器180處理后，經(jīng)rf電路110以發(fā)送給比如另一終端，或者將音頻數(shù)據(jù)輸出至存儲器120以便進一步處理。音頻電路160還可能包括耳塞插孔，以提供外設耳機與所述終端的通信。

wifi屬于短距離無線傳輸技術，所述終端通過wifi模塊170可以幫助用戶收發(fā)電子郵件、瀏覽網(wǎng)頁和訪問流式媒體等，它為用戶提供了無線的寬帶互聯(lián)網(wǎng)訪問。雖然圖14示出了wifi模塊170，但是可以理解的是，其并不屬于所述終端的必須構成，完全可以根據(jù)需要在不改變發(fā)明的本質的范圍內而省略。

處理器180是所述終端的控制中心，利用各種接口和線路連接整個終端的各個部分，通過運行或執(zhí)行存儲在存儲器120內的軟件程序和/或模塊，以及調用存儲在存儲器120內的數(shù)據(jù)，執(zhí)行所述終端的各種功能和處理數(shù)據(jù)，從而對終端進行整體監(jiān)控。可選的，處理器180可包括一個或多個處理核心；優(yōu)選的，處理器180可集成應用處理器和調制解調處理器，其中，應用處理器主要處理操作系統(tǒng)、用戶界面和應用程序等，調制解調處理器主要處理無線通信。可以理解的是，上述調制解調處理器也可以不集成到處理器180中。

所述終端還包括給各個部件供電的電源190(比如電池)，優(yōu)選的，電源可以通過電源管理系統(tǒng)與處理器180邏輯相連，從而通過電源管理系統(tǒng)實現(xiàn)管理充電、放電、以及功耗管理等功能。電源190還可以包括一個或一個以上的直流或交流電源、再充電系統(tǒng)、電源故障檢測電路、電源轉換器或者逆變器、電源狀態(tài)指示器等任意組件。

盡管未示出，所述終端還可以包括攝像頭、藍牙模塊等，在此不再贅述。具體在本實施例中，終端的顯示單元是觸摸屏顯示器，終端還包括有存儲器，以及一個或者一個以上的程序，其中一個或者一個以上程序存儲于存儲器中，且經(jīng)配置以由一個或者一個以上處理器執(zhí)行述一個或者一個以上程序包含用于執(zhí)行上述配音方法的指令。

請參考圖15，其示出了本發(fā)明一個實施例提供的服務器的結構示意圖。該服務器用于實施上述實施例中提供的服務器的配音方法。具體來講：

所述服務器1200包括中央處理單元(cpu)1201、包括隨機存取存儲器(ram)1202和只讀存儲器(rom)1203的系統(tǒng)存儲器1204，以及連接系統(tǒng)存儲器1204和中央處理單元1201的系統(tǒng)總線1205。所述服務器1200還包括幫助計算機內的各個器件之間傳輸信息的基本輸入/輸出系統(tǒng)(i/o系統(tǒng))1206，和用于存儲操作系統(tǒng)1213、應用程序1214和其他程序模塊1215的大容量存儲設備1207。

所述基本輸入/輸出系統(tǒng)1206包括有用于顯示信息的顯示器1208和用于用戶輸入信息的諸如鼠標、鍵盤之類的輸入設備1209。其中所述顯示器1208和輸入設備1209都通過連接到系統(tǒng)總線1205的輸入輸出控制器1210連接到中央處理單元1201。所述基本輸入/輸出系統(tǒng)1206還可以包括輸入輸出控制器1210以用于接收和處理來自鍵盤、鼠標、或電子觸控筆等多個其他設備的輸入。類似地，輸入輸出控制器1210還提供輸出到顯示屏、打印機或其他類型的輸出設備。

所述大容量存儲設備1207通過連接到系統(tǒng)總線1205的大容量存儲控制器(未示出)連接到中央處理單元1201。所述大容量存儲設備1207及其相關聯(lián)的計算機可讀介質為服務器1200提供非易失性存儲。也就是說，所述大容量存儲設備1207可以包括諸如硬盤或者cd-rom驅動器之類的計算機可讀介質(未示出)。

不失一般性，所述計算機可讀介質可以包括計算機存儲介質和通信介質。計算機存儲介質包括以用于存儲諸如計算機可讀指令、數(shù)據(jù)結構、程序模塊或其他數(shù)據(jù)等信息的任何方法或技術實現(xiàn)的易失性和非易失性、可移動和不可移動介質。計算機存儲介質包括ram、rom、eprom、eeprom、閃存或其他固態(tài)存儲其技術，cd-rom、dvd或其他光學存儲、磁帶盒、磁帶、磁盤存儲或其他磁性存儲設備。當然，本領域技術人員可知所述計算機存儲介質不局限于上述幾種。上述的系統(tǒng)存儲器1204和大容量存儲設備1207可以統(tǒng)稱為存儲器。

根據(jù)本發(fā)明的各種實施例，所述服務器1200還可以通過諸如因特網(wǎng)等網(wǎng)絡連接到網(wǎng)絡上的遠程計算機運行。也即服務器1200可以通過連接在所述系統(tǒng)總線1205上的網(wǎng)絡接口單元1211連接到網(wǎng)絡1212，或者說，也可以使用網(wǎng)絡接口單元1211來連接到其他類型的網(wǎng)絡或遠程計算機系統(tǒng)(未示出)。

所述存儲器還包括一個或者一個以上的程序，所述一個或者一個以上程序存儲于存儲器中，且經(jīng)配置以由一個或者一個以上處理器執(zhí)行。上述一個或者一個以上程序包含用于執(zhí)行上述服務器的方法的指令。

在示例性實施例中，還提供了一種包括指令的非臨時性計算機可讀存儲介質，例如包括指令的存儲器，上述指令可由終端的處理器執(zhí)行以完成上述方法實施例中的各個步驟，或者上述指令由服務器的處理器執(zhí)行以完成上述方法實施例中后臺服務器側的各個步驟。例如，所述非臨時性計算機可讀存儲介質可以是rom、隨機存取存儲器(ram)、cd-rom、磁帶、軟盤和光數(shù)據(jù)存儲設備等。

應當理解的是，在本文中提及的“多個”是指兩個或兩個以上?！昂?或”，描述關聯(lián)對象的關聯(lián)關系，表示可以存在三種關系，例如，a和/或b，可以表示：單獨存在a，同時存在a和b，單獨存在b這三種情況。字符“/”一般表示前后關聯(lián)對象是一種“或”的關系。

上述本發(fā)明實施例序號僅僅為了描述，不代表實施例的優(yōu)劣。

本領域普通技術人員可以理解實現(xiàn)上述實施例的全部或部分步驟可以通過硬件來完成，也可以通過程序來指令相關的硬件完成，所述的程序可以存儲于一種計算機可讀存儲介質中，上述提到的存儲介質可以是只讀存儲器，磁盤或光盤等。

以上所述僅為本發(fā)明的較佳實施例，并不用以限制本發(fā)明，凡在本發(fā)明的精神和原則之內，所作的任何修改、等同替換、改進等，均應包含在本發(fā)明的保護范圍之內。

完整全部詳細技術資料下載

當前第1頁1 2