視頻定位方法和裝置的制造方法
【專利摘要】本發(fā)明提供了一種視頻定位方法和裝置,所述方法包括:解析待定位視頻生成聲紋庫(kù)集合;獲取用戶語(yǔ)音指令;依據(jù)所述用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,得到定位時(shí)間坐標(biāo)集合;獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示以供用戶進(jìn)行選擇。與傳統(tǒng)技術(shù)中用戶需要多次調(diào)整進(jìn)度條進(jìn)行幀預(yù)覽來定位方法比較而言,本發(fā)明通過聲紋匹配,直接顯示多個(gè)匹配的位置幀畫面,用戶可以直接選擇,簡(jiǎn)化了視頻定位步驟,節(jié)省了視頻定位的時(shí)間,從而提高了視頻定位效率,優(yōu)化了用戶不斷調(diào)整進(jìn)度條預(yù)覽定位的過程。
【專利說明】
視頻定位方法和裝置
技術(shù)領(lǐng)域
[0001]本發(fā)明涉及通信技術(shù)領(lǐng)域,特別是涉及一種視頻定位方法和裝置。
【背景技術(shù)】
[0002]當(dāng)下,觀看視頻已成為人們?nèi)粘I钪械谋仨殻窒硪曨l圖片的需求也越來越多,如何更便捷的將視頻定位到用戶想要的位置或者直接獲取用戶想要分享處的視頻圖片仍沒有太好的方法。
[0003]目前視頻定位主要方式是幀預(yù)覽加用戶選擇的方式,這樣的方式用戶一般需要多次調(diào)整進(jìn)度條進(jìn)行幀預(yù)覽來選擇,視頻定位耗時(shí)長(zhǎng),定位效率不高,操作繁瑣,用戶體驗(yàn)差。
【發(fā)明內(nèi)容】
[0004]本發(fā)明提供了一種視頻定位方法和裝置,以解決視頻定位效率低的問題。
[0005]為了解決上述問題,本發(fā)明公開了一種視頻定位方法,包括:
[0006]解析待定位視頻生成聲紋庫(kù)集合;
[0007]獲取用戶語(yǔ)音指令;
[0008]依據(jù)所述用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,得到定位時(shí)間坐標(biāo)集合;
[0009]獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示以供用戶進(jìn)行選擇。
[0010]本發(fā)明還公開了一種視頻定位裝置,包括:
[0011]集合生成模塊,用于解析待定位視頻生成聲紋庫(kù)集合;
[0012]指令獲取模塊,用于獲取用戶語(yǔ)音指令;
[0013]匹配模塊,用于依據(jù)所述用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,得到定位時(shí)間坐標(biāo)集合;
[0014]顯示模塊,用于獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示以供用戶進(jìn)行選擇。
[0015]與現(xiàn)有技術(shù)相比,本發(fā)明至少包括以下優(yōu)點(diǎn):
[0016]本發(fā)明首先解析待定位視頻生成聲紋庫(kù)集合,其次獲取用戶語(yǔ)音指令,再次依據(jù)所述用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,得到定位時(shí)間坐標(biāo)集合,最后獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示以供用戶進(jìn)行選擇。與傳統(tǒng)的用戶需要多次調(diào)整進(jìn)度條進(jìn)行幀預(yù)覽來定位方法比較而言,本發(fā)明通過聲紋匹配,直接顯示多個(gè)匹配的位置幀畫面,用戶可以直接選擇,簡(jiǎn)化了視頻定位步驟,節(jié)省了視頻定位的時(shí)間,從而提高了視頻定位效率,優(yōu)化了用戶不斷調(diào)整進(jìn)度條預(yù)覽定位的過程。并且依據(jù)用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,提高了視頻定位的準(zhǔn)確性。
【附圖說明】
[0017]圖1是本發(fā)明實(shí)施例一中一種視頻定位方法的流程圖;
[0018]圖2是本發(fā)明實(shí)施例二中一種視頻定位方法的流程圖;
[0019]圖3是本發(fā)明實(shí)施例三中一種視頻定位方法的流程圖;
[0020]圖4是本發(fā)明實(shí)施例四中一種視頻定位裝置的結(jié)構(gòu)框圖;
[0021]圖5是本發(fā)明實(shí)施例四中另一種視頻定位裝置的結(jié)構(gòu)框圖。
【具體實(shí)施方式】
[0022]為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和【具體實(shí)施方式】對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說明。
[0023]實(shí)施例一:
[0024]參照?qǐng)D1,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種視頻定位方法實(shí)施例的步驟流程圖,具體可以包括如下步驟:
[0025]步驟101,解析待定位視頻生成聲紋庫(kù)集合。
[0026]需要說明的是視頻中的音視頻通路本身就是分開的,本實(shí)施例可以通過解析待定位視頻,得到音頻通路信息,音頻通路信息具體可以包括時(shí)間戳、音頻波形等信息。其中時(shí)間戳通常是一個(gè)字符序列,唯一地標(biāo)識(shí)某一刻的時(shí)間。音頻通路信息和視頻通路信息中的時(shí)間戳都和一個(gè)時(shí)間參考線對(duì)應(yīng),因此才能同步。具體實(shí)現(xiàn)時(shí)可以通過分割所述音頻通路信息得到聲紋庫(kù)集合,例如聲紋庫(kù)集合T {tl,t2,…tn},其中(tl+t2+*"+tn為完整音頻,tl中存儲(chǔ)O?t時(shí)間的音頻波形,t2中存儲(chǔ)t?2*t時(shí)間的音頻波形,以此類推。
[0027]步驟102,獲取用戶語(yǔ)音指令。
[0028]本實(shí)施例中用戶語(yǔ)音指令具體可以是待定位視頻的一段錄音,用戶啟動(dòng)錄音開始聲音采集,用戶停止錄音結(jié)束聲音采集。采集到的音頻定義為X,將音頻X按步驟101中類似的分割方法處理為集合X 1x1,x2,…xn},然后將X作為用戶語(yǔ)音指令。需要說明的是,本步驟在獲取用戶語(yǔ)音指令時(shí),對(duì)所采集的錄音進(jìn)行分割時(shí)采用的單位時(shí)間,與步驟101中生成聲紋庫(kù)集合時(shí)采用的單位時(shí)間必須相同。
[0029]步驟103,依據(jù)所述用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,得到定位時(shí)間坐標(biāo)集合。
[0030]本步驟是將步驟102中獲取到的用戶語(yǔ)音指令,與步驟101中生成的聲紋庫(kù)集合進(jìn)行匹配,在所述待定位視頻中將匹配到的視頻所對(duì)應(yīng)的時(shí)間坐標(biāo)記錄下來,得到定位時(shí)間坐標(biāo)集合。即將X{xl, x2,."Xnl與T{tl, t2,…tn}進(jìn)行逐段比對(duì)(默認(rèn)T>X)。
[0031]步驟104,獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示以供用戶進(jìn)行選擇。
[0032]本實(shí)施例可以通過開始時(shí)間從所述待定位視頻中獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示出來,用戶可以直接從中進(jìn)行選擇。至于幀畫面的具體顯示方式,本實(shí)施例對(duì)此不做限制。
[0033]本實(shí)施例首先解析待定位視頻生成聲紋庫(kù)集合,其次獲取用戶語(yǔ)音指令,再次依據(jù)所述用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,得到定位時(shí)間坐標(biāo)集合,最后獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示以供用戶進(jìn)行選擇。與傳統(tǒng)的用戶需要多次調(diào)整進(jìn)度條進(jìn)行幀預(yù)覽來定位方法比較而言,本實(shí)施例通過聲紋匹配,直接顯示多個(gè)匹配的位置幀畫面,用戶可以直接選擇,簡(jiǎn)化了視頻定位步驟,節(jié)省了視頻定位的時(shí)間,從而提高了視頻定位效率,優(yōu)化了用戶不斷調(diào)整進(jìn)度條預(yù)覽定位的過程。并且依據(jù)用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,提高了視頻定位的準(zhǔn)確性。
[0034]實(shí)施例二:
[0035]在上述實(shí)施例的基礎(chǔ)上,本實(shí)施例繼續(xù)說明視頻定位方法。
[0036]參照?qǐng)D2,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種視頻定位方法實(shí)施例的步驟流程圖,具體可以包括如下步驟:
[0037]步驟201,解析待定位視頻獲取音頻通路信息。
[0038]需要說明的是視頻中的音視頻通路本身就是分開的,本實(shí)施例可以通過解析待定位視頻,得到音頻通路信息,音頻通路信息具體可以包括時(shí)間戳、音頻波形等信息。其中時(shí)間戳通常是一個(gè)字符序列,唯一地標(biāo)識(shí)某一刻的時(shí)間。音頻通路信息和視頻通路信息中的時(shí)間戳都和一個(gè)時(shí)間參考線對(duì)應(yīng),因此才能同步。
[0039]本實(shí)施例中所述解析待定位視頻獲取音頻通路信息,具體可以通過以下方式來實(shí)現(xiàn):首先,解析待定位視頻獲取時(shí)間戳和音頻波形;其次,將所述時(shí)間戳和音頻波形作為音頻通路信息。
[0040]步驟202,將所述音頻通路信息收集成聲紋集合并記錄對(duì)應(yīng)的時(shí)間數(shù)據(jù)。
[0041]本實(shí)施例中所述將所述音頻通路信息收集成聲紋集合并記錄對(duì)應(yīng)的時(shí)間數(shù)據(jù),具體可以通過以下方式來實(shí)現(xiàn):首先,根據(jù)所述時(shí)間戳將所述音頻波形按單位時(shí)間平均分割為聲紋集合;其次,記錄所述單位時(shí)間內(nèi)的聲紋集合對(duì)應(yīng)的時(shí)間數(shù)據(jù)。
[0042]本實(shí)施例實(shí)現(xiàn)時(shí)可以根據(jù)所述時(shí)間戳將所述音頻波形按單位時(shí)間平均分割為聲紋集合,例如:根據(jù)時(shí)間戳將音頻信息按單位時(shí)間t平均分割為集合T {tl,t2,…tn},其中(tl+t2+-+tn為完整音頻,tl中存儲(chǔ)O?t時(shí)間的音頻波形,t2中存儲(chǔ)t?2*t時(shí)間的音頻波形,以此類推。接著記錄所述單位時(shí)間內(nèi)的聲紋集合對(duì)應(yīng)的時(shí)間數(shù)據(jù)。
[0043]步驟203,將所述聲紋集合與對(duì)應(yīng)的時(shí)間數(shù)據(jù)關(guān)聯(lián)生成對(duì)應(yīng)的聲紋庫(kù)集合。
[0044]本實(shí)施例中將步驟202中的聲紋集合與對(duì)應(yīng)的時(shí)間數(shù)據(jù)進(jìn)行關(guān)聯(lián)處理,生成聲紋庫(kù)集合,其中所述聲紋庫(kù)集合中包括多個(gè)聲紋集合與其對(duì)應(yīng)的時(shí)間數(shù)據(jù),且所述聲紋集合與所述時(shí)間數(shù)據(jù)一一對(duì)應(yīng)。本實(shí)施例對(duì)于具體的關(guān)聯(lián)方式不做限制。需要說明的是,在本發(fā)明的可選實(shí)施例中,所述步驟202中的聲紋集合為對(duì)應(yīng)的視頻聲紋集合,關(guān)聯(lián)聲紋庫(kù)后,需要先在聲紋庫(kù)中根據(jù)視頻名稱進(jìn)行檢索,若有匹配的項(xiàng),則使用該項(xiàng)為該視頻的聲紋集合 Map0
[0045]步驟204,獲取用戶語(yǔ)音指令。
[0046]本實(shí)施例中所述獲取用戶語(yǔ)音指令,具體可以通過以下方式來實(shí)現(xiàn):首先,啟動(dòng)錄音,采集語(yǔ)音信息;其次,將所述語(yǔ)音信息按單位時(shí)間平均分割為語(yǔ)音集合;再次,記錄所述單位時(shí)間內(nèi)的語(yǔ)音集合對(duì)應(yīng)的時(shí)間數(shù)據(jù);最后,將所述語(yǔ)音集合與對(duì)應(yīng)的時(shí)間數(shù)據(jù)關(guān)聯(lián)生成對(duì)應(yīng)的語(yǔ)音庫(kù)集合,并將所述語(yǔ)音庫(kù)集合作為用戶語(yǔ)音指令。例如:用戶啟動(dòng)錄音一開始聲音采集,用戶停止錄音一結(jié)束聲音采集。采集到的音頻定義為語(yǔ)音信息,將語(yǔ)音信息按步驟步驟202中類似的分割方法處理為語(yǔ)音集合X{xl,x2, -xn},即根據(jù)所述時(shí)間戳將所述語(yǔ)音信息按單位時(shí)間t平均分割為語(yǔ)音集合X {xl,x2,…xn},然后將語(yǔ)音集合X作為用戶語(yǔ)音指令。需要說明的是,本步驟在獲取用戶語(yǔ)音指令時(shí),對(duì)所采集的錄音進(jìn)行分割時(shí)采用的單位時(shí)間,與步驟202中生成聲紋庫(kù)集合時(shí)采用的單位時(shí)間必須相同。
[0047]需要說明的是,用戶語(yǔ)音指令具體可以是待定位視頻的一段錄音,用戶啟動(dòng)錄音開始聲音采集,用戶停止錄音結(jié)束聲音采集。本實(shí)施例僅以用戶語(yǔ)音信息為例進(jìn)行說明,并非對(duì)用戶語(yǔ)音指令的具體限定。
[0048]步驟205,依據(jù)所述用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,得到定位時(shí)間坐標(biāo)集合。
[0049]本實(shí)施例中所述依據(jù)所述用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,得到定位時(shí)間坐標(biāo)集合,具體可以包括以下子步驟:子步驟一,將所述用戶語(yǔ)音指令與所述聲紋庫(kù)集合按照所述單位時(shí)間進(jìn)行逐段比對(duì)。子步驟二,獲取每段比對(duì)后的相似度,將相似度達(dá)到相似閾值的聲紋集合對(duì)應(yīng)的時(shí)間數(shù)據(jù)保存為定位時(shí)間坐標(biāo)集合。即將步驟204中獲取到的用戶語(yǔ)音指令,與步驟203中生成的聲紋庫(kù)集合進(jìn)行匹配,在所述待定位視頻中將匹配到的視頻所對(duì)應(yīng)的時(shí)間坐標(biāo)記錄下來,得到定位時(shí)間坐標(biāo)集合。也就是說將X {xI,x2,…xn}與T{tl,t2,一tn}進(jìn)行逐段比對(duì)(默認(rèn)T>X)。當(dāng)然也可以采取其他方式進(jìn)行匹配,本實(shí)施例并非對(duì)具體匹配方式的限定。
[0050]在本發(fā)明的可選實(shí)施例中,將X{xl, x2,."Xnl與T {tl, t2,…tn}進(jìn)行逐段比對(duì)之后,還可以獲取每段比對(duì)后的相似度,并通過開始時(shí)間從視頻中獲取對(duì)應(yīng)的視頻幀并保存為集合 M{(sl, yl), (s2, y2),…(sm, yn)} (yl 為第一段相似度)。
[0051]步驟206,獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示以供用戶進(jìn)行選擇。
[0052]本實(shí)施例可以通過開始時(shí)間從所述待定位視頻中獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示出來,用戶可以直接從中進(jìn)行選擇。至于幀畫面的具體顯示方式,本實(shí)施例對(duì)此不做限制。
[0053]本實(shí)施例中所述獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示以供用戶進(jìn)行選擇,具體可以通過以下方式來實(shí)現(xiàn):首先,獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面;其次,按照相似度從高到低的順序顯示所述幀畫面以供用戶進(jìn)行選擇。例如,通過開始時(shí)間從視頻中獲取對(duì)應(yīng)的視頻幀并保存為集合M {(si, yl), (s2, y2),…(sm, yn)} (yl為第一段相似度),然后可以將M按相似度從高到低排序并劃分為N個(gè)等級(jí),例如0%?100%分為10個(gè)等級(jí),每10 %為一級(jí)。在顯示時(shí)可以按等級(jí)顯示,如70 %?80 %相似度有5段,則此等級(jí)下顯示5個(gè)視頻幀供用戶預(yù)覽選擇。需要說明的是,具體實(shí)現(xiàn)時(shí),也可以采用其他方式對(duì)匹配到的視頻幀進(jìn)行顯示,本實(shí)施例并非對(duì)具體顯示方式的限定。
[0054]本實(shí)施例通過解析待定位視頻獲取音頻通路信息,接著將所述音頻通路信息收集成聲紋集合并記錄對(duì)應(yīng)的時(shí)間數(shù)據(jù),然后將所述聲紋集合與對(duì)應(yīng)的時(shí)間數(shù)據(jù)關(guān)聯(lián)生成對(duì)應(yīng)的聲紋庫(kù)集合。然后獲取用戶語(yǔ)音指令,依據(jù)所述用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,得到定位時(shí)間坐標(biāo)集合,最后獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示以供用戶進(jìn)行選擇。本實(shí)施例針對(duì)無字幕視頻的匹配問題,通過上述解析待定位視頻獲取音頻通路信息,接著將所述音頻通路信息收集成聲紋集合并記錄對(duì)應(yīng)的時(shí)間數(shù)據(jù),然后將所述聲紋集合與對(duì)應(yīng)的時(shí)間數(shù)據(jù)關(guān)聯(lián)生成對(duì)應(yīng)的聲紋庫(kù)集合的方式生成聲紋庫(kù)集合,然后將采集的語(yǔ)音信息與聲紋庫(kù)匹配來進(jìn)行視頻定位和獲取視頻圖片,與傳統(tǒng)的用戶需要多次調(diào)整進(jìn)度條進(jìn)行幀預(yù)覽來定位方法比較而言,直接顯示多個(gè)匹配的位置幀畫面,用戶可以直接選擇,簡(jiǎn)化了視頻定位步驟,節(jié)省了視頻定位的時(shí)間,從而提高了視頻定位效率,優(yōu)化了用戶不斷調(diào)整進(jìn)度條預(yù)覽定位的過程。并且依據(jù)用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,提高了視頻定位的準(zhǔn)確性。
[0055]實(shí)施例三:
[0056]在上述實(shí)施例的基礎(chǔ)上,本實(shí)施例針對(duì)已有聲紋的視頻繼續(xù)說明視頻定位方法。
[0057]參照?qǐng)D3,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種視頻定位方法實(shí)施例的步驟流程圖,具體可以包括如下步驟:
[0058]步驟301,關(guān)聯(lián)聲紋庫(kù),初始化聲紋集合Map (包含聲紋與時(shí)間信息)。
[0059]需要說明的是,本實(shí)施例是針對(duì)已有聲紋的視頻進(jìn)行的視頻定位方法,本實(shí)施例中所述聲紋集合為對(duì)應(yīng)的視頻聲紋集合,關(guān)聯(lián)聲紋庫(kù)后,需要先在聲紋庫(kù)中根據(jù)視頻名稱進(jìn)行檢索,若有匹配的項(xiàng),則使用該項(xiàng)為該視頻的聲紋集合Map。
[0060]步驟302,獲取用戶語(yǔ)音指令。
[0061]本實(shí)施例中所述獲取用戶語(yǔ)音指令,具體可以通過以下方式來實(shí)現(xiàn):首先,啟動(dòng)錄音,采集語(yǔ)音信息;其次,將所述語(yǔ)音信息按單位時(shí)間平均分割為語(yǔ)音集合;再次,記錄所述單位時(shí)間內(nèi)的語(yǔ)音集合對(duì)應(yīng)的時(shí)間數(shù)據(jù);最后,將所述語(yǔ)音集合與對(duì)應(yīng)的時(shí)間數(shù)據(jù)關(guān)聯(lián)生成對(duì)應(yīng)的語(yǔ)音庫(kù)集合,并將所述語(yǔ)音庫(kù)集合作為用戶語(yǔ)音指令。需要說明的是,本步驟獲取用戶語(yǔ)音指令與步驟204獲取用戶語(yǔ)音指令的類似,具體內(nèi)容可參見步驟204的相關(guān)描述,本實(shí)施例在此不做贅述。
[0062]步驟303,依據(jù)所述用戶語(yǔ)音指令檢索Map進(jìn)行匹配處理,得到定位時(shí)間坐標(biāo)集入口 ο
[0063]本實(shí)施例中所述依據(jù)所述用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,得到定位時(shí)間坐標(biāo)集合,具體可以包括以下子步驟:子步驟一,將所述用戶語(yǔ)音指令與所述聲紋庫(kù)集合按照所述單位時(shí)間進(jìn)行逐段比對(duì)。子步驟二,獲取每段比對(duì)后的相似度,將相似度達(dá)到相似閾值的聲紋集合對(duì)應(yīng)的時(shí)間數(shù)據(jù)保存為定位時(shí)間坐標(biāo)集合{Tl...Τη}。需要說明的是,本步驟進(jìn)行匹配處理得到定位時(shí)間坐標(biāo)集合與步驟205依據(jù)所述用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,得到定位時(shí)間坐標(biāo)集合類似,具體內(nèi)容可參見步驟205的相關(guān)描述,本實(shí)施例在此不做贅述。
[0064]步驟304,獲取定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示供用戶選擇。
[0065]本實(shí)施例中所述獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示以供用戶進(jìn)行選擇,具體可以通過以下方式來實(shí)現(xiàn):首先,獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面;其次,按照相似度從高到低的順序顯示所述幀畫面以供用戶進(jìn)行選擇。例如,通過開始時(shí)間從視頻中獲取對(duì)應(yīng)的視頻幀并保存為集合M {(si, yl), (s2, y2),…(sm, yn)} (yl為第一段相似度),然后可以將M按相似度從高到低排序并劃分為N個(gè)等級(jí),例如0%?100%分為10個(gè)等級(jí),每10 %為一級(jí)。在顯示時(shí)可以按等級(jí)顯示,如70 %?80 %相似度有5段,則此等級(jí)下顯示5個(gè)視頻幀供用戶預(yù)覽選擇。需要說明的是,具體實(shí)現(xiàn)時(shí),也可以采用其他方式對(duì)匹配到的視頻幀進(jìn)行顯示,本實(shí)施例并非對(duì)具體顯示方式的限定。需要說明的是,本步驟獲取定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示供用戶選擇與步驟206獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示以供用戶進(jìn)行選擇類似,具體內(nèi)容可參見步驟206的相關(guān)描述,本實(shí)施例在此不做贅述。
[0066]本實(shí)施例對(duì)于已有聲紋的視頻,采用了首先關(guān)聯(lián)聲紋庫(kù),初始化聲紋集合Map ;其次獲取用戶語(yǔ)音指令;再次依據(jù)所述用戶語(yǔ)音指令檢索Map進(jìn)行匹配處理,得到定位時(shí)間坐標(biāo)集合;最后獲取定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示供用戶選擇的方式進(jìn)行視頻定位,省去了生成聲紋庫(kù)集合的步驟,即簡(jiǎn)化了視頻定位的步驟,節(jié)省了視頻定位的時(shí)間,從而提高了視頻定位效率,有定位時(shí)間短、匹配更準(zhǔn)確的優(yōu)勢(shì)。
[0067]對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說明書中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。
[0068]實(shí)施例四:
[0069]在上述實(shí)施例的基礎(chǔ)上,本實(shí)施例還公開了一種視頻定位裝置。
[0070]參照?qǐng)D4,示出了根據(jù)本發(fā)明一個(gè)實(shí)施例的一種視頻定位裝置實(shí)施例的結(jié)構(gòu)框圖,具體可以包括:集合生成模塊401、指令獲取模塊402、匹配模塊403和顯示模塊404,其中,
[0071]集合生成模塊401,用于解析待定位視頻生成聲紋庫(kù)集合。
[0072]指令獲取模塊402,用于獲取用戶語(yǔ)音指令。
[0073]匹配模塊403,用于依據(jù)所述用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,得到定位時(shí)間坐標(biāo)集合。
[0074]顯示模塊404,用于獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示以供用戶進(jìn)行選擇。
[0075]在本發(fā)明如圖5所示的一種可選實(shí)施例中,所述集合生成模塊401包括:解析子模塊4011,用于解析待定位視頻獲取音頻通路信息;收集子模塊4012,用于將所述音頻通路信息收集成聲紋集合并記錄對(duì)應(yīng)的時(shí)間數(shù)據(jù);生成子模塊4013,用于將所述聲紋集合與對(duì)應(yīng)的時(shí)間數(shù)據(jù)關(guān)聯(lián)生成對(duì)應(yīng)的聲紋庫(kù)集合。
[0076]在本發(fā)明的一種可選實(shí)施例中,所述解析子模塊,具體用于解析待定位視頻獲取時(shí)間戳和音頻波形;將所述時(shí)間戳和音頻波形作為音頻通路信息。
[0077]在本發(fā)明的一種可選實(shí)施例中,所述收集子模塊,具體用于根據(jù)所述時(shí)間戳將所述音頻波形按單位時(shí)間平均分割為聲紋集合;記錄所述單位時(shí)間內(nèi)的聲紋集合對(duì)應(yīng)的時(shí)間數(shù)據(jù)。
[0078]在本發(fā)明的一種可選實(shí)施例中,所述指令獲取模塊,具體用于啟動(dòng)錄音,采集語(yǔ)音信息;將所述語(yǔ)音信息按單位時(shí)間平均分割為語(yǔ)音集合;記錄所述單位時(shí)間內(nèi)的語(yǔ)音集合對(duì)應(yīng)的時(shí)間數(shù)據(jù);將所述語(yǔ)音集合與對(duì)應(yīng)的時(shí)間數(shù)據(jù)關(guān)聯(lián)生成對(duì)應(yīng)的語(yǔ)音庫(kù)集合,并將所述語(yǔ)音庫(kù)集合作為用戶語(yǔ)音指令。
[0079]在本發(fā)明的一種可選實(shí)施例中,所述匹配模塊,具體用于將所述用戶語(yǔ)音指令與所述聲紋庫(kù)集合按照所述單位時(shí)間進(jìn)行逐段比對(duì);獲取每段比對(duì)后的相似度,將相似度達(dá)到相似閾值的聲紋集合對(duì)應(yīng)的時(shí)間數(shù)據(jù)保存為定位時(shí)間坐標(biāo)集合。
[0080]在本發(fā)明的一種可選實(shí)施例中,所述顯示模塊,具體用于獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面;按照相似度從高到低的順序顯示所述幀畫面以供用戶進(jìn)行選擇。
[0081]本實(shí)施例提供的視頻定位裝置,首先通過集合生成模塊401解析待定位視頻生成聲紋庫(kù)集合,其次指令獲取模塊402獲取用戶語(yǔ)音指令,再次匹配模塊403依據(jù)所述用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,得到定位時(shí)間坐標(biāo)集合,最后顯示模塊404獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示以供用戶進(jìn)行選擇。與傳統(tǒng)的用戶需要多次調(diào)整進(jìn)度條進(jìn)行幀預(yù)覽來定位方法比較而言,本實(shí)施例通過聲紋匹配,直接顯示多個(gè)匹配的位置幀畫面,用戶可以直接選擇,簡(jiǎn)化了視頻定位步驟,節(jié)省了視頻定位的時(shí)間,從而提高了視頻定位效率,優(yōu)化了用戶不斷調(diào)整進(jìn)度條預(yù)覽定位的過程。并且依據(jù)用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,提高了視頻定位的準(zhǔn)確性。
[0082]對(duì)于裝置實(shí)施例而言,由于其與方法實(shí)施例基本相似,所以描述的比較簡(jiǎn)單,相關(guān)之處參見方法實(shí)施例的部分說明即可。
[0083]本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,每個(gè)實(shí)施例重點(diǎn)說明的都是與其他實(shí)施例的不同之處,各個(gè)實(shí)施例之間相同相似的部分互相參見即可。
[0084]本發(fā)明可以在由計(jì)算機(jī)執(zhí)行的計(jì)算機(jī)可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對(duì)象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計(jì)算環(huán)境中實(shí)踐本發(fā)明,在這些分布式計(jì)算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計(jì)算環(huán)境中,程序模塊可以位于包括存儲(chǔ)設(shè)備在內(nèi)的本地和遠(yuǎn)程計(jì)算機(jī)存儲(chǔ)介質(zhì)中。
[0085]最后,還需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語(yǔ)僅僅用來將一個(gè)實(shí)體或者操作與另一個(gè)實(shí)體或操作區(qū)分開來,而不一定要求或者暗示這些實(shí)體或操作之間存在任何這種實(shí)際的關(guān)系或者順序。而且,術(shù)語(yǔ)“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、商品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、商品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語(yǔ)句“包括一個(gè)……”限定的要素,并不排除在包括所述要素的過程、方法、商品或者設(shè)備中還存在另外的相同要素。
[0086]以上對(duì)本發(fā)明所提供的一種視頻定位方法和裝置,進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個(gè)例對(duì)本發(fā)明的原理及實(shí)施方式進(jìn)行了闡述,以上實(shí)施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時(shí),對(duì)于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實(shí)施方式】及應(yīng)用范圍上均會(huì)有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對(duì)本發(fā)明的限制。
【主權(quán)項(xiàng)】
1.一種視頻定位方法,其特征在于,包括: 解析待定位視頻生成聲紋庫(kù)集合; 獲取用戶語(yǔ)音指令; 依據(jù)所述用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,得到定位時(shí)間坐標(biāo)集合; 獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示以供用戶進(jìn)行選擇。2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述解析待定位視頻生成聲紋庫(kù)集合,包括: 解析待定位視頻獲取音頻通路信息; 將所述音頻通路信息收集成聲紋集合并記錄對(duì)應(yīng)的時(shí)間數(shù)據(jù); 將所述聲紋集合與對(duì)應(yīng)的時(shí)間數(shù)據(jù)關(guān)聯(lián)生成對(duì)應(yīng)的聲紋庫(kù)集合。3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述解析待定位視頻獲取音頻通路信息,包括: 解析待定位視頻獲取時(shí)間戳和音頻波形; 將所述時(shí)間戳和音頻波形作為音頻通路信息。4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述將所述音頻通路信息收集成聲紋集合并記錄對(duì)應(yīng)的時(shí)間數(shù)據(jù),包括: 根據(jù)所述時(shí)間戳將所述音頻波形按單位時(shí)間平均分割為聲紋集合; 記錄所述單位時(shí)間內(nèi)的聲紋集合對(duì)應(yīng)的時(shí)間數(shù)據(jù)。5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述獲取用戶語(yǔ)音指令包括: 啟動(dòng)錄音,采集語(yǔ)音信息; 將所述語(yǔ)音信息按單位時(shí)間平均分割為語(yǔ)音集合; 記錄所述單位時(shí)間內(nèi)的語(yǔ)音集合對(duì)應(yīng)的時(shí)間數(shù)據(jù); 將所述語(yǔ)音集合與對(duì)應(yīng)的時(shí)間數(shù)據(jù)關(guān)聯(lián)生成對(duì)應(yīng)的語(yǔ)音庫(kù)集合,并將所述語(yǔ)音庫(kù)集合作為用戶語(yǔ)音指令。6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述依據(jù)所述用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,得到定位時(shí)間坐標(biāo)集合,包括: 將所述用戶語(yǔ)音指令與所述聲紋庫(kù)集合按照所述單位時(shí)間進(jìn)行逐段比對(duì); 獲取每段比對(duì)后的相似度,將相似度達(dá)到相似閾值的聲紋集合對(duì)應(yīng)的時(shí)間數(shù)據(jù)保存為定位時(shí)間坐標(biāo)集合。7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示以供用戶進(jìn)行選擇,包括: 獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面; 按照相似度從高到低的順序顯示所述幀畫面以供用戶進(jìn)行選擇。8.一種視頻定位裝置,其特征在于,包括: 集合生成模塊,用于解析待定位視頻生成聲紋庫(kù)集合; 指令獲取模塊,用于獲取用戶語(yǔ)音指令; 匹配模塊,用于依據(jù)所述用戶語(yǔ)音指令檢索所述聲紋庫(kù)集合進(jìn)行匹配處理,得到定位時(shí)間坐標(biāo)集合; 顯示模塊,用于獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面并顯示以供用戶進(jìn)行選擇。9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述集合生成模塊包括: 解析子模塊,用于解析待定位視頻獲取音頻通路信息; 收集子模塊,用于將所述音頻通路信息收集成聲紋集合并記錄對(duì)應(yīng)的時(shí)間數(shù)據(jù); 生成子模塊,用于將所述聲紋集合與對(duì)應(yīng)的時(shí)間數(shù)據(jù)關(guān)聯(lián)生成對(duì)應(yīng)的聲紋庫(kù)集合。10.根據(jù)權(quán)利要求9所述的裝置,其特征在于: 所述解析子模塊,具體用于解析待定位視頻獲取時(shí)間戳和音頻波形;將所述時(shí)間戳和音頻波形作為音頻通路信息。11.根據(jù)權(quán)利要求10所述的裝置,其特征在于: 所述收集子模塊,具體用于根據(jù)所述時(shí)間戳將所述音頻波形按單位時(shí)間平均分割為聲紋集合;記錄所述單位時(shí)間內(nèi)的聲紋集合對(duì)應(yīng)的時(shí)間數(shù)據(jù)。12.根據(jù)權(quán)利要求11所述的裝置,其特征在于: 所述指令獲取模塊,具體用于啟動(dòng)錄音,采集語(yǔ)音信息;將所述語(yǔ)音信息按單位時(shí)間平均分割為語(yǔ)音集合;記錄所述單位時(shí)間內(nèi)的語(yǔ)音集合對(duì)應(yīng)的時(shí)間數(shù)據(jù);將所述語(yǔ)音集合與對(duì)應(yīng)的時(shí)間數(shù)據(jù)關(guān)聯(lián)生成對(duì)應(yīng)的語(yǔ)音庫(kù)集合,并將所述語(yǔ)音庫(kù)集合作為用戶語(yǔ)音指令。13.根據(jù)權(quán)利要求12所述的裝置,其特征在于: 所述匹配模塊,具體用于將所述用戶語(yǔ)音指令與所述聲紋庫(kù)集合按照所述單位時(shí)間進(jìn)行逐段比對(duì);獲取每段比對(duì)后的相似度,將相似度達(dá)到相似閾值的聲紋集合對(duì)應(yīng)的時(shí)間數(shù)據(jù)保存為定位時(shí)間坐標(biāo)集合。14.根據(jù)權(quán)利要求13所述的裝置,其特征在于: 所述顯示模塊,具體用于獲取所述定位時(shí)間坐標(biāo)集合對(duì)應(yīng)的幀畫面;按照相似度從高到低的順序顯示所述幀畫面以供用戶進(jìn)行選擇。
【文檔編號(hào)】H04N21/44GK105828179SQ201510359341
【公開日】2016年8月3日
【申請(qǐng)日】2015年6月24日
【發(fā)明人】張哲楠
【申請(qǐng)人】維沃移動(dòng)通信有限公司