本發(fā)明涉及一種切割音視訊信號技術(shù),尤指一種利用語者識別的切割音視訊片段的方法。
背景技術(shù):現(xiàn)今視訊內(nèi)容來源隨著時間漸趨豐富,內(nèi)容更加多樣化,如何從各式各樣且大量的視訊內(nèi)容快速地取得重要的內(nèi)容已然成為視訊觀眾日益關(guān)注的議題。一般而言,來自電腦網(wǎng)絡(luò)的視訊內(nèi)容大多數(shù)為經(jīng)由人工切割的影片片段,較容易滿足用戶對視訊內(nèi)容的需求。然為處理大量影音內(nèi)容,自動切割音視訊技術(shù)則更顯其重要性。一般現(xiàn)有自動切割音視訊技術(shù)大多利用其視訊訊號,偵測特定影像畫面進(jìn)行分析并分類,進(jìn)而分割音視訊片段。一種偵測新聞主播的影音特征以將電視新聞分段的方法揭露于臺灣發(fā)明專利公告號I283375中,如圖1所示,包括下列步驟:利用第一水平掃描線來掃描該影像畫面的像素,判斷該像素的顏色是否落于預(yù)定顏色范圍內(nèi);利用復(fù)數(shù)個連續(xù)的影像畫面中位于該第一水平掃描線上的像素來產(chǎn)生色彩地圖;如果色彩地圖顯示預(yù)定數(shù)目的連續(xù)影像畫面中,皆包含穩(wěn)定的像素區(qū)域,并且該像素皆落于該預(yù)定的顏色范圍,則將目前的影像段落標(biāo)示為候選的影像段落;以及對該穩(wěn)定的像素區(qū)域執(zhí)行色譜曲線顏色比較,以偵測鏡頭轉(zhuǎn)換。并可進(jìn)一步分析該影像片段的聲音訊號以驗證該候選的影像段落。然該方法以影像掃瞄線分析影像畫面中色彩分布,仰賴像素區(qū)域作為影片分段依據(jù),若影片中畫面變動頻繁,其精準(zhǔn)度將不如預(yù)期。利用音訊訊號切割影片為另一種自動切割音視訊片段的現(xiàn)有方法,如美國專利公告號US7181393B2所揭露的一種即時語者變換偵測及語者追蹤的方法,如圖2所示,該方法包含有兩個階段:在預(yù)分段程序(pre-segmentationprocess)中,計算相鄰兩片段的距離,粗略判斷是否為可能的語者變換點,若不是則將該片段的數(shù)據(jù)加入原有語者模型中,更新語者模型;若是則執(zhí)行精煉程序(refinementprocess),加入其他音訊特征算出混合機率,以特定的機率決策機制再次確認(rèn)是否為語者變換點。然該方法計算多種音訊特征于相鄰兩片段間的距離,所需運算量龐大,增加其實施的困難度。
技術(shù)實現(xiàn)要素:本發(fā)明是關(guān)于一種利用語者識別的切割音視訊片段的方法,通過此方法可依據(jù)語者音訊切割音訊片段,并將該音訊片段對應(yīng)至音視訊訊號,產(chǎn)生音視訊片段。本發(fā)明通過即時訓(xùn)練語者模型,相較于傳統(tǒng)的語者辨識方法需事先搜集語者音訊訊號訓(xùn)練語者聲音模型的不便,利用與來源音視訊相同的音訊訊號訓(xùn)練語者模型,大幅簡化訓(xùn)練模型的繁復(fù)過程。本發(fā)明提出語者模型即時累進(jìn)訓(xùn)練方法,即時擷取非特定語者特征音訊訊號,快速學(xué)習(xí)強健性語者音訊模型,解決即時訓(xùn)練無法取得語者音訊訊號問題,同時克服無法取得足夠訓(xùn)練模型樣本問題。本發(fā)明所提出的累進(jìn)訓(xùn)練方法,不需等待搜集完整語者特征音訊訊號,即時以語者模型切割音訊片段,解決搜集完整語者特征音訊訊號所需時間產(chǎn)生的系統(tǒng)延遲。相較于以往需訓(xùn)練特定語者,僅以特定語者模型進(jìn)行偵測音視訊片段,本發(fā)明通過即時訓(xùn)練語者模型,可利用即時訓(xùn)練的特性用于偵測非特定語者及其對應(yīng)的音視訊片段,提升語者偵測技術(shù)的實用性。本發(fā)明通過即時訓(xùn)練語者模型,可去除傳統(tǒng)事先訓(xùn)練語者模型方法所造成的聲音背景環(huán)境差異,提升語者辨識的正確率,同時,更可依據(jù)所辨識的語者音訊結(jié)果切割音視訊片段,克服傳統(tǒng)音視訊切割方法需于離線模式切割片段及僅能用于隨選影片的缺點,可用于切割電視頻道即時音視訊片段。本發(fā)明的利用語者識別的切割音視訊片段的方法以遞增的未知語者來源音訊即時訓(xùn)練非特定語者模型,并利用語者識別的結(jié)果決定音視訊片段,其中音視訊片段可為重復(fù)出現(xiàn)的語者所對應(yīng)的音視訊片段,亦可為重復(fù)出現(xiàn)的語者所對應(yīng)的音視訊片段的起始時間點間所涵蓋的音視訊范圍。本發(fā)明的利用語者識別的切割音視訊片段的方法,包含但不限于切割新聞類型影片。本發(fā)明的利用語者識別的切割音視訊片段的方法,利用語者模型決定音視訊片段,其中語者模型可為音視訊片段中重復(fù)出現(xiàn)的語者即時訓(xùn)練的音訊模型如新聞主播模型。本發(fā)明的利用語者識別的切割音視訊片段方法更含下列步驟:(1)即時訓(xùn)練非特定語者模型;(2)依據(jù)該語者模型決定來源音訊非特定語者片段;(3)依來源音訊非特定語者片段更新語者模型。其中步驟(1)的即時訓(xùn)練非特定語者模型方式為由來源音訊中擷取一段固定時間長度的語者音訊訊號。步驟(2)的來源音訊非特定語者片段長度大于訓(xùn)練該語者模型的音訊長度,且依據(jù)該語者模型決定來源音訊語者片段包含下列步驟:計算來源音訊與語者模型的相似度;選取相似度大于臨界值的片段。本發(fā)明的一種利用語者識別的切割音視訊片段的方法,是以遞增的未知語者來源音訊即時訓(xùn)練非特定語者模型,并利用語者識別的結(jié)果決定音視訊片段。其中,音視訊片段為重復(fù)出現(xiàn)的語者所對應(yīng)的音視訊片段,亦為重復(fù)出現(xiàn)的語者所對應(yīng)的音視訊片段的起始時間點間所涵蓋的音視訊范圍。其中,音視訊片段內(nèi)容包含新聞類型影片。其中,語者模型為新聞主播模型。一種切割音視訊片段的方法,步驟如下:A.即時訓(xùn)練非特定語者模型;B.依據(jù)該語者模型決定來源音訊非特定語者片段;以及C.依來源音訊非特定語者片段更新語者模型。其中,步驟A的即時訓(xùn)練非特定語者模型為由來源音訊中擷取一段固定時間長度的語者音訊訊號。其中,步驟B的來源音訊非特定語者片段長度大于訓(xùn)練該語者模型的音訊長度。其中,步驟B包含下列步驟:D.計算來源音訊與語者模型的相似度;以及E.選取相似度大于臨界值的片段。其中,步驟D的計算來源音訊與語者模型的相似度,包含依據(jù)語者模型,計算來源音訊相似于語者模型的機率值。其中,步驟E的臨界值隨語者音訊訊號數(shù)量的增加提高數(shù)值。一種利用語者識別的切割音視訊片段的方法,還包含下列步驟:事先訓(xùn)練混和模型;其中,步驟依據(jù)該語者模型決定來源音訊非特定語者片段,包含下列步驟:F.計算來源音訊與語者模型相較于混合模型的相似度;以及G.選取相似度大于臨界值的片段。其中,事先訓(xùn)練混和模型由非來源音訊中擷取任意時間長度的混合音訊訊號,并讀取混合音訊訊號訓(xùn)練為混合模型。其中,混合音訊訊號的內(nèi)容包含復(fù)數(shù)名語者音訊訊號、音樂聲、廣告音訊訊號及新聞類型影片中采訪畫面的音訊訊號。其中,步驟F的計算來源音訊與語者模型相較于混合模型的相似度,包含依據(jù)語者模型與混和模型,分別計算來源音訊與語者模型的相似度及來源音訊與混合模型的相似度,并以前者相似度減去后者相似度。一種利用語者識別的切割音視訊片段的方法,還包含下列步驟:事先訓(xùn)練混和模型;更新混合模型;其中步驟依據(jù)該語者模型決定來源音訊非特定語者片段,包含下列步驟:H.計算來源音訊與語者模型相較于混合模型的相似度;以及I.選取相似度大于臨界值的片段。其中,更新混合模型為結(jié)合兩則已切割片段的起始時間點間的混合音訊訊號與由非來源音訊中擷取的混合音訊訊號,將混合音訊訊號訓(xùn)練為混合模型。一種利用語者識別的切割音視訊片段的方法,還包含下列步驟:分解音視訊訊號;由音訊特征尋找語者音訊訊號;將音訊片段對應(yīng)至音視訊訊號;以及播放音視訊片段。其中,步驟分解音視訊訊號為將音視訊訊號分隔為來源音訊與來源視訊。其中,步驟由音訊特征尋找語者音訊訊號的音訊特征包含固定出現(xiàn)的提示音(cuetone)、關(guān)鍵詞及音樂聲。其中,步驟將音訊片段對應(yīng)至音視訊訊號的方式為將音訊片段的起始時間碼與結(jié)束時間碼分別對應(yīng)至音視訊訊號,產(chǎn)生音視訊片段。其中,步驟播放音視訊片段的方式為參照音訊片段起始時間碼與結(jié)束時間碼播放音視訊片段。附圖說明圖1為現(xiàn)有技術(shù)方塊圖;圖2為現(xiàn)有技術(shù)流程圖;圖3為本發(fā)明的未知語者來源音訊的遞增音訊實施方式示意圖;圖4為本發(fā)明的切割音視訊片段的方法步驟實施方式流程圖;圖5為本發(fā)明的切割音視訊片段的方法進(jìn)一步驟實施方式流程圖;圖6為本發(fā)明的非特定語者片段的決定方式音訊實施方式示意圖;圖7為本發(fā)明的第一實施例的裝置方塊圖;圖8為本發(fā)明的第二實施例的流程圖;圖9為本發(fā)明的第三實施例的流程圖;圖10為本發(fā)明的第四實施例的流程圖;圖11為本發(fā)明的第五實施例的流程圖;圖12為本發(fā)明的第六實施例的架構(gòu)圖。附圖標(biāo)記說明301~303音訊示意圖401~403步驟流程4021~4022步驟流程601~603音訊示意圖701語者音訊模型訓(xùn)練單元702~704語者音訊片段辨識單元705~706語者音訊模型更新單元707~709時間延遲器801~804步驟流程8031~8032步驟流程901~905步驟流程9031~9032步驟流程1001~1007步驟流程1101~1106步驟流程11041~11043步驟流程1201片段剪輯服務(wù)器1202時間碼供應(yīng)服務(wù)器1203片段信息儲存裝置1204串流服務(wù)器1205音視訊儲存裝置1206多媒體機上盒具體實施方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,下面結(jié)合附圖及實施例,對本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明:本發(fā)明的利用語者識別的切割音視訊片段的方法,以遞增的未知語者來源音訊即時訓(xùn)練非特定語者模型,并利用語者識別的結(jié)果決定音視訊片段。本發(fā)明的利用語者識別的切割音視訊片段的方法,未知語者來源音訊的遞增如圖3所示,來源音訊隨著時間逐漸增加,如圖3中音訊示意圖302的音訊長度大于音訊示意圖301的音訊長度,又音訊示意圖303的音訊長度大于音訊示意圖302的音訊長度。音訊示意圖301中的格紋區(qū)塊代表第一次進(jìn)行語者識別所決定的非特定語者片段,并以該則非特定語者片段即時訓(xùn)練非特定語者模型。音訊示意圖302中的格紋區(qū)塊代表利用第一次即時訓(xùn)練的非特定語者模型進(jìn)行語者識別所決定的兩則非特定語者片段,并以該兩則非特定語者片段即時訓(xùn)練非特定語者模型。音訊示意圖303中的格紋區(qū)塊代表利用第二次即時訓(xùn)練的非特定語者模型進(jìn)行語者識別所決定的三則非特定語者片段,并以該三則非特定語者片段即時訓(xùn)練非特定語者模型。非特定語者片段可隨未知語者來源音訊及語者識別次數(shù)的增加逐次遞增。本發(fā)明的利用語者識別的切割音視訊片段的方法,其中音視訊片段可為重復(fù)出現(xiàn)的非特定語者所對應(yīng)的音視訊片段,亦可為重復(fù)出現(xiàn)的非特定語者所對應(yīng)的音視訊片段的起始時間點間所涵蓋的音視訊范圍。本發(fā)明的利用語者識別的切割音視訊片段的方法,包含但不限于切割新聞類型影片。本發(fā)明利用語者模型決定音視訊片段,其中語者模型可為音視訊片段中重復(fù)出現(xiàn)的語者即時訓(xùn)練的音訊模型如新聞主播模型。本發(fā)明的切割音視訊片段的方法實施步驟如圖4所示,包含即時訓(xùn)練非特定語者模型401、依據(jù)該語者模型決定來源音訊非特定語者片段402、依來源音訊非特定語者片段更新語者模型403。其中即時訓(xùn)練非特定語者模型401即時訓(xùn)練非特定語者模型,由來源音訊中擷取一段固定時間長度的語者音訊訊號,并讀取該語者音訊訊號訓(xùn)練為語者音訊模型,其中語者模型包含高斯混合模型(GuassianMixtureModel,簡稱為GMM)與隱藏式馬可夫模型(HiddenMarkovModel,簡稱為HMM),固定時間長度的音訊訊號可確保提供足夠的語者相關(guān)信息。依據(jù)該語者模型決定來源音訊非特定語者片段402,其中來源音訊非特定語者片段長度大于訓(xùn)練該語者模型的音訊長度,且依據(jù)該語者模型決定來源音訊非特定語者片段402更包含圖5所示的計算來源音訊與語者模型的相似度4021及選取相似度大于臨界值的片段4022。計算來源音訊與語者模型的相似度4021,包含但不限于依據(jù)語者模型,計算來源音訊相似于語者模型的機率值。選取相似度大于臨界值的片段4022可為人工選定的數(shù)值,該臨界值的數(shù)值大小將影響音視訊片段的選取時間范圍及準(zhǔn)確率,臨界值越大則所選取的音視訊片段時間范圍越小。依來源音訊非特定語者片段更新語者模型403,讀取非特定語者片段的語者音訊訊號并訓(xùn)練為語者模型。依據(jù)該語者模型決定來源音訊非特定語者片段402、依來源音訊非特定語者片段更新語者模型403可依序重復(fù)執(zhí)行,重復(fù)執(zhí)行次數(shù)越多,語者音訊訊號數(shù)量越多,且選取相似度大于臨界值的片段4022所述的臨界值可隨語者音訊訊號數(shù)量的增加提高數(shù)值,同時,語者音訊訊號數(shù)量越多,所訓(xùn)練的語者模型越貼近該語者說話的方式及特征,判斷音視訊片段的準(zhǔn)確率亦將隨之提升。本發(fā)明的利用語者識別的切割音視訊片段的方法,非特定語者片段的決定方式如圖6所示,來源音訊隨著時間逐漸增加,如音訊示意圖602的音訊長度大于音訊示意圖601的音訊長度,又音訊示意圖603的音訊長度大于音訊示意圖602的音訊長度。音訊示意圖601為第一次執(zhí)行依據(jù)該語者模型決定來源音訊非特定語者片段402所決定的非特定語者片段,斜紋區(qū)塊為相似度大于臨界值的音訊范圍,選取該音訊范圍為非特定語者片段,并執(zhí)行依來源音訊非特定語者片段更新語者模型403,讀取該非特定語者片段的音訊訊號訓(xùn)練為非特定語者模型。音訊示意圖602為第二次執(zhí)行依據(jù)該語者模型決定來源音訊非特定語者片段402所決定的兩則非特定語者片段,斜紋區(qū)塊為相似度大于臨界值的音訊范圍,選取該兩段音訊范圍為非特定語者片段,并執(zhí)行依來源音訊非特定語者片段更新語者模型403,讀取該兩則非特定語者片段的音訊訊號訓(xùn)練為非特定語者模型,其中臨界值可與第一次所選取的臨界值不同。音訊示意圖603為第三次執(zhí)行依據(jù)該語者模型決定來源音訊非特定語者片段402所決定的三則非特定語者片段,斜紋區(qū)塊為相似度大于臨界值的音訊范圍,選取該三段音訊范圍為非特定語者片段,并執(zhí)行依來源音訊非特定語者片段更新語者模型403,讀取該三則非特定語者片段的音訊訊號訓(xùn)練為非特定語者模型,其中臨界值可與前兩次所選取的臨界值不同。隨著未知語者來源音訊增加可反復(fù)執(zhí)行依據(jù)該語者模型決定來源音訊非特定語者片段402與依來源音訊非特定語者片段更新語者模型403,逐次遞增非特定語者片段,即時訓(xùn)練語者模型,并利用語者識別的結(jié)果決定音視訊片段。本發(fā)明的第一實施例的裝置圖如圖7所示,包含語者音訊模型訓(xùn)練單元701用以執(zhí)行即時訓(xùn)練非特定語者模型401、語者音訊片段辨識單元702~704用以執(zhí)行依據(jù)該語者模型決定來源音訊非特定語者片段402、語者音訊模型更新單元705~706用以執(zhí)行依來源音訊非特定語者片段更新語者模型403及時間延遲器707~709。語者音訊模型訓(xùn)練單元701,由來源音訊訊號擷取一段固定時間長度的語者音訊訊號,并讀取該語者音訊訊號訓(xùn)練為語者音訊模型。語者音訊片段辨識單元702用以執(zhí)行依據(jù)該語者模型決定來源音訊非特定語者片段402,其中來源音訊非特定語者片段大于訓(xùn)練該語者模型的音訊長度。語者音訊片段辨識單元接收來源音訊訊號及經(jīng)過時間延遲器而產(chǎn)生時間延遲的來源音訊訊號,計算來源音訊與語者模型的相似度,并選取相似度大于臨界值的片段為來源音訊非特定語者片段,其中相似度計算方式包含但不限于依據(jù)語者模型,計算來源音訊相似于語者模型的機率值。來源音訊非特定語者片段可輸入語者音訊模型更新單元705,亦可同時作為輸出片段,語者音訊片段辨識單元703與語者音訊模型更新單元706亦同。語者音訊模型更新單元705,讀取語者音訊片段辨識單元702輸出的非特定語者片段的語者音訊訊號并訓(xùn)練為新的語者模型。該新的語者模型可輸入語者音訊片段辨識單元703,作為下次決定來源音訊非特定語者片段時的參考依據(jù),語者音訊模型更新單元706與語者音訊片段辨識單元704亦同。訓(xùn)練語者模型所使用的音訊訊號數(shù)量越多,所訓(xùn)練的語者模型越貼近該語者說話的方式及特征,判斷音視訊片段的準(zhǔn)確率亦將隨之提升。本發(fā)明的第二較施例的實施步驟如圖8,包含事先訓(xùn)練混合模型801、即時訓(xùn)練非特定語者模型802、依據(jù)該語者模型決定來源音訊非特定語者片段803、依來源音訊非特定語者片段更新語者模型804。其中事先訓(xùn)練混和模型801,由非來源音訊中擷取任意時間長度的混合音訊訊號,并讀取混合音訊訊號訓(xùn)練為混合模型,且混合音訊訊號的內(nèi)容包含復(fù)數(shù)名語者音訊訊號、音樂聲、廣告音訊訊號及新聞類型影片中采訪畫面的音訊訊號。即時訓(xùn)練非特定語者模型802,即時訓(xùn)練非特定語者模型,由來源音訊中擷取一段固定時間長度的語者音訊訊號,并讀取該語者音訊訊號訓(xùn)練為語者音訊模型,其中語者模型包含高斯混合模型與隱藏式馬可夫模型,固定時間長度的音訊訊號可確保提供足夠的語者相關(guān)信息。依據(jù)該語者模型決定來源音訊非特定語者片段803包含計算來源音訊與語者模型相較于混合模型的相似度8031及選取相似度大于臨界值的片段8032。計算來源音訊與語者模型相較于混合模型的相似度8031方式,包含但不限于依據(jù)語者模型與混和模型,分別計算來源音訊與語者模型的相似度及來源音訊與混合模型的相似度,并以前者相似度減去后者相似度,計算方式如第(1)式:S(i)=Sa(i)-Sm(i)......(1)其中S(i)其中代表來源音訊第i個時間點與語者模型相較于混合模型的相似度,Sa(i)代表來源音訊第i個時間點與語者模型的相似度,Sm(i)代表來源音訊第i個時間點與混合模型的相似度。來源音訊與語者模型的相似度包含來源音訊相似于語者模型的對數(shù)機率值,來源音訊與混合模型的相似度包含來源音訊相似于混合模型的對數(shù)機率值,因此來源音訊與語者模型相較于混合模型的相似度若以機率值方式計算亦可表示如第(2)式:S(i)=exp(logPa(i)-logPm(i))......(2)其中Pa(i)代表來源音訊第i個時間點相似于語者模型的機率值,Pm(i)代表來源音訊第i個時間點相似于混合模型的機率值。選取相似度大于臨界值的片段8032,可為人工選定的數(shù)值,該臨界值的數(shù)值大小將影響音視訊片段的選取時間范圍及準(zhǔn)確率,臨界值越大則所選取的音視訊片段時間范圍越小。依據(jù)該語者模型決定來源音訊非特定語者片段804,是讀取非特定語者片段的語者音訊訊號并訓(xùn)練為語者模型。依據(jù)該語者模型決定來源音訊非特定語者片段803、依來源音訊非特定語者片段更新語者模型804可依序重復(fù)執(zhí)行,重復(fù)執(zhí)行次數(shù)越多,語者音訊訊號數(shù)量越多,且選取相似度大于臨界值的片段8032所述的臨界值可隨語者音訊訊號數(shù)量的增加提高數(shù)值,同時,語者音訊訊號數(shù)量越多,所訓(xùn)練的語者模型越貼近該語者說話的方式及特征,判斷音視訊片段的準(zhǔn)確率亦將隨之提升。本發(fā)明的第三實施例的實施步驟可參照圖9,包含事先訓(xùn)練混合模型901、即時訓(xùn)練非特定語者模型902、依據(jù)該語者模型決定來源音訊非特定語者片段903、更新混合模型904、依來源音訊非特定語者片段更新語者模型905。其中事先訓(xùn)練混合模型901、即時訓(xùn)練非特定語者模型902、依據(jù)該語者模型決定來源音訊非特定語者片段903的說明可參照圖8的事先訓(xùn)練混合模型801、即時訓(xùn)練非特定語者模型802、依據(jù)該語者模型決定來源音訊非特定語者片段803。更新混合模型904,結(jié)合兩則已切割片段的起始時間點間的混合音訊訊號與事先訓(xùn)練混合模型901所擷取的混合音訊訊號,將混合音訊訊號訓(xùn)練為混合模型,且該混合音訊訊號的內(nèi)容包含復(fù)數(shù)名語者音訊訊號、音樂聲、廣告音訊訊號及新聞類型影片中采訪畫面的音訊訊號。依來源音訊非特定語者片段更新語者模型905的說明可參照圖8的依來源音訊非特定語者片段更新語者模型804。本發(fā)明的第四實施例的實施步驟可參照圖10,包含分解音視頻信號1001、由音訊特征尋找語者音訊訊號1002、即時訓(xùn)練非特定語者模型1003、依據(jù)該語者模型決定來源音訊非特定語者片段1004、依來源音訊非特定語者片段更新語者模型1005、將音訊片段對應(yīng)至音視頻信號1006、播放音視訊片段1007。其中分解音視頻信號1001,將音視頻信號分隔為來源音訊與來源視訊,來源音訊僅包含聲音、語音的訊號,來源視訊則僅包含影像訊號。由音訊特征尋找語者音訊訊號1002,藉由于大多數(shù)音視頻信號中固定出現(xiàn)的音訊特征尋找語者音訊訊號所在時間點位置,且音訊特征包含固定出現(xiàn)的提示音、關(guān)鍵詞及音樂聲。即時訓(xùn)練非特定語者模型1003、依據(jù)該語者模型決定來源音訊非特定語者片段1004、依來源音訊非特定語者片段更新語者模型1005的說明可參圖4的即時訓(xùn)練非特定語者模型401、依據(jù)該語者模型決定來源音訊非特定語者片段402、依來源音訊非特定語者片段更新語者模型403。將音訊片段對應(yīng)至音視頻信號1006,將音訊片段的起始時間碼與結(jié)束時間碼分別對應(yīng)至音視頻信號,其對應(yīng)至音視頻信號可為音視頻信號中所記載的絕對時間,或為以音視頻信號的起始時間為起算點的相對時間,產(chǎn)生音視訊片段。播放音視訊片段1007,為播放將音訊片段對應(yīng)至音視頻信號1006所對應(yīng)的音視訊片段內(nèi)容。本發(fā)明的第五實施例的實施步驟如圖11,包含分解音視頻信號1101、事先訓(xùn)練混合模型1102、由音訊特征尋找語者音訊訊號1103、決定與取得所有來源音訊非特定語者片段1104、將音訊片段對應(yīng)至音視頻信號1105、播放音視訊片段1106。其中分解音視頻信號1101,將音視頻信號分隔為來源音訊與來源視訊,來源音訊僅包含聲音、語音的訊號,來源視訊則僅包含影像訊號。事先訓(xùn)練混和模型1102,由非來源音訊中擷取任意時間長度的混合音訊訊號,并讀取混合音訊訊號訓(xùn)練為混合模型,且混合音訊訊號的內(nèi)容包含復(fù)數(shù)名語者音訊訊號、音樂聲、廣告音訊訊號及新聞類型影片中采訪畫面的音訊訊號。由音訊特征尋找語者音訊訊號1103,藉由于大多數(shù)音視頻信號中固定出現(xiàn)的音訊特征尋找語者音訊訊號所在時間點位置,且音訊特征包含固定出現(xiàn)的提示音、關(guān)鍵詞及音樂聲。決定與取得所有來源音訊非特定語者片段1104包含即時訓(xùn)練非特定語者模型11041、依據(jù)該語者模型決定來源音訊非特定語者片段11042與依來源音訊非特定語者片段更新語者模型11043,其中即時訓(xùn)練非特定語者模型11041、依據(jù)該語者模型決定來源音訊非特定語者片段11042與依來源音訊非特定語者片段更新語者模型11043的說明可參照圖8的即時訓(xùn)練非特定語者模型802、依據(jù)該語者模型決定來源音訊非特定語者片段803與依來源音訊非特定語者片段更新語者模型804。將音訊片段對應(yīng)至音視頻信號1105、播放音視訊片段1106的說明可參照圖10的將音訊片段對應(yīng)至音視頻信號1006、播放音視訊片段1007。本發(fā)明的第六實施例的系統(tǒng)架構(gòu)可參照圖12,該系統(tǒng)包含片段剪輯服務(wù)器1201、時間碼供應(yīng)服務(wù)器1202、片段信息儲存裝置1203、串流服務(wù)器1204、音視訊儲存裝置1205。片段剪輯服務(wù)器1201分解音視頻信號以擷取來源音訊訊號,決定與取得所有來源音訊非特定語者片段,并儲存所有片段起始時間碼與結(jié)束時間碼于片段信息儲存裝置1203,其中決定與取得所有來源音訊非特定語者片段執(zhí)行即時訓(xùn)練非特定語者模型401、依據(jù)該語者模型決定來源音訊非特定語者片段402、依來源音訊非特定語者片段更新語者模型403。時間碼供應(yīng)服務(wù)器1202依據(jù)所選擇的音視訊片段,至片段信息儲存裝置1203中搜尋該片段并取得該片段起始時間碼與結(jié)束時間碼。多媒體機上盒1206經(jīng)由電腦網(wǎng)絡(luò)與時間碼供應(yīng)服務(wù)器1202建立聯(lián)機,并向時間碼供應(yīng)服務(wù)器1202送出播放音視訊片段的要求,時間碼供應(yīng)服務(wù)器1202取得該片段起始時間碼與結(jié)束時間碼后,進(jìn)行音視訊片段的傳送。音視訊片段傳送方式之一為時間碼供應(yīng)服務(wù)器1202通知串流服務(wù)器1204片段起始時間碼與結(jié)束時間碼,向多媒體機上盒1206傳送儲存于音視訊儲存裝置1205的音視訊片段,并由多媒體機頂盒1206于接收音視訊片段后播放;另一音視訊片段傳送方式為時間碼供應(yīng)服務(wù)器1202向多媒體機上盒1206傳送片段起始時間碼與結(jié)束時間碼,多媒體機上盒1206向串流服務(wù)器1204要求傳送儲存于音視訊儲存裝置1205的音視訊片段,多媒體機頂盒1206于接收音視訊片段后播放。以上僅為本發(fā)明的較佳實施例,并非用來限定本發(fā)明的實施范圍;如果不脫離本發(fā)明的精神和范圍,對本發(fā)明進(jìn)行修改或者等同替換,均應(yīng)涵蓋在本發(fā)明申請專利范圍的保護范圍當(dāng)中。