給終端設(shè)備。
[0037]需要說明的是,本申請實施例所提供的在播放視頻的設(shè)備中識別視頻中音頻的方法一般由終端設(shè)備101、102、103執(zhí)行,但在部分實施例中,方法中的一部分步驟也可以由服務(wù)器105執(zhí)行;相應(yīng)地,在播放視頻的設(shè)備中識別視頻中音頻的裝置一般設(shè)置于終端設(shè)備101、102、103中,但在部分實施例中,裝置中的一部分模塊也可以設(shè)置于服務(wù)器105中。
[0038]應(yīng)該理解,圖1中的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器的數(shù)目僅僅是示意性的。根據(jù)實現(xiàn)需要,可以具有任意數(shù)目的終端設(shè)備、網(wǎng)絡(luò)和服務(wù)器。
[0039]繼續(xù)參考圖2,示出了根據(jù)本申請的在播放視頻的設(shè)備中識別視頻中音頻的方法的一個實施例的流程200。所述的在播放視頻的設(shè)備中識別視頻中音頻的方法,包括以下步驟:
[0040]步驟201,響應(yīng)于用戶的截取指令而截取正在播放的視頻中的音頻信息。
[0041]在本實施例中,播放視頻的電子設(shè)備(例如圖1所示的終端設(shè)備)可以通過有線連接方式或者無線連接方式連接云端服務(wù)器。上述無線連接方式可以包括但不限于3G/4G連接、WiFi連接、藍(lán)牙連接、WiMAX連接、Zigbee連接、UWB(ultra wideband)連接、以及其他現(xiàn)在已知或?qū)黹_發(fā)的無線連接方式。
[0042]通常,用戶利用終端設(shè)備上安裝的視頻播放平臺來播放視頻,若在播放視頻時接收到用戶的截取指令,則可以響應(yīng)于用戶的截取指令開始截取正在播放的視頻中的音頻信息。
[0043]終端設(shè)備或視頻播放平臺在接收用戶的截取指令時,可以通過多種現(xiàn)有技術(shù)中的獲取方式或未來技術(shù)中開發(fā)的獲取方式來完成接收。例如,可以通過預(yù)設(shè)的觸發(fā)方式來觸發(fā)截取指令:通過預(yù)設(shè)的動作觸發(fā)截取指令、通過預(yù)設(shè)的按鍵觸發(fā)截取指令等,也可以通過預(yù)設(shè)的人機交互接口來接收用戶的截取指令。
[0044]在截取正在播放的視頻中的音頻信息時,可以通過多種現(xiàn)有技術(shù)中已知的獲取方式或未來技術(shù)中開發(fā)的獲取方式來得到截取的音頻信息,例如,可以通過截取正在播放的視頻中的音頻源文件而得到截取的音頻信息,也可以通過對正在播放的視頻進(jìn)行錄音而得到截取的音頻信息。
[0045]為了盡可能提高截取的音頻信息的質(zhì)量,在本實施例的一些可選實現(xiàn)方式中,還可以通過以下方式得到截取的音頻信息:首先查詢正在播放的視頻的音頻源文件是否處于可獲取狀態(tài),若處于可獲取狀態(tài),則對正在播放的視頻進(jìn)行錄音以得到截取的音頻信息;若正在播放的視頻的音頻源文件處于不可獲取狀態(tài),則對正在播放的視頻進(jìn)行錄音以得到截取的音頻信息。從而優(yōu)先獲取高質(zhì)量的截取的音頻信息,以提高識別的準(zhǔn)確率和成功率。
[0046]步驟202,對截取的音頻信息提取音頻特征,得到待識別音頻指紋。
[0047]在本實施例中,對用戶終端或視頻播放平臺截取的音頻信息提取音頻特征,得到待識別音頻指紋的方法,可以包括現(xiàn)有技術(shù)中或未來技術(shù)中開發(fā)的提取音頻特征以得到待識別音頻指紋的方法。例如,可以首先將音頻信號分成互相重疊的幀,對每一幀計算一系列特征,這些特征需要對各種音頻信號處理至少在一定程度上保持不變。目前已經(jīng)提出的特征有傅立葉系數(shù)、邁爾倒譜系數(shù)、頻譜平滑度、尖銳度、線性預(yù)測編碼系數(shù)等,還有這些基本量的導(dǎo)出量如均值和方差。通常這些特征使用分類器技術(shù)映射到一個更簡潔的表示,如隱含馬爾可夫模型或量化技術(shù)。之后,可以根據(jù)提取的音頻特征,得到待識別音頻指紋。
[0048]在這里,需要說明的是,音頻指紋是可以代表一段音樂重要聲學(xué)特征的基于內(nèi)容的緊致數(shù)字簽名,可以視為一段音頻的摘要。因此,對截取的音頻信息提取音頻特征,得到待識別音頻指紋后,可以將其與預(yù)設(shè)的音頻指紋數(shù)據(jù)庫中的樂曲音頻指紋進(jìn)行比對,以提高比對效率。
[0049]本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,對截取的音頻信息提取音頻特征以得到待識別音頻指紋所采取的方法,與預(yù)設(shè)的數(shù)據(jù)庫中得到樂曲音頻指紋的方法應(yīng)相同,以減少由于提取方法不同所帶來的識別誤差,進(jìn)而提高后續(xù)比對步驟的準(zhǔn)確度。
[0050]步驟203,比對待識別音頻指紋與預(yù)設(shè)的音頻指紋數(shù)據(jù)庫中的樂曲音頻指紋的相似度。
[0051]在本實施例中,采用音頻指紋進(jìn)行比對的主要目的,是建立一種有效機制來比較兩個音頻數(shù)據(jù)的感知聽覺質(zhì)量。注意這里不是直接比較通常很大的音頻數(shù)據(jù)本身,而是比較其相應(yīng)通常較小的音頻指紋。
[0052]比對音頻指紋時,可以將待識別音頻指紋和預(yù)設(shè)的數(shù)據(jù)庫中存儲的大量音頻指紋相比對,從而得到比對結(jié)果。一個有效的指紋提取算法和指紋比對算法,能夠在預(yù)設(shè)的數(shù)據(jù)庫中存儲的大量音頻指紋中,根據(jù)待識別音頻指紋與數(shù)據(jù)庫中存儲的大量音頻指紋的相似度,正確識別出可能經(jīng)受各種信號處理失真的待識別音頻的原始版本。
[0053]在這里,預(yù)設(shè)的音頻指紋數(shù)據(jù)庫可以為樂曲數(shù)據(jù)庫的一部分,該樂曲數(shù)據(jù)庫中可以包括樂曲和音頻指紋數(shù)據(jù)庫,音頻指紋數(shù)據(jù)庫又包括樂曲音頻指紋的集合以及以樂曲音頻指紋為索引的樂曲的元數(shù)據(jù);預(yù)設(shè)的音頻指紋數(shù)據(jù)庫也可以為僅包括樂曲音頻指紋的集合以及以樂曲音頻指紋為索引的樂曲的元數(shù)據(jù)的數(shù)據(jù)庫。
[0054]在一些可選的實現(xiàn)方式中,預(yù)設(shè)的音頻指紋數(shù)據(jù)庫存儲于本地,且該音頻指紋數(shù)據(jù)庫包括樂曲音頻指紋以及以樂曲音頻指紋為索引的樂曲的元數(shù)據(jù),此時可以在播放視頻的電子設(shè)備中進(jìn)行比對步驟。在進(jìn)行比對時,可以將待識別音頻指紋與音頻指紋數(shù)據(jù)庫中的樂曲音頻指紋進(jìn)行比對,從而得到以樂曲音頻指紋為索引的樂曲的元數(shù)據(jù),從而實現(xiàn)在保證比對精度的情況下,減少本地存儲的數(shù)據(jù)量。
[0055]步驟204,按照相似度從高至低,獲取預(yù)設(shè)數(shù)量的樂曲音頻指紋,查詢以獲取的音頻指紋為索引的樂曲的元數(shù)據(jù)。
[0056]在本實施例中,由于待識別音頻指紋可能僅為樂曲的部分內(nèi)容,因此與待識別音頻指紋相似的樂曲音頻指紋可能有多個,例如與待識別音頻指紋相似的由不同演奏者演奏的同一鋼琴曲的音頻指紋。
[0057]為了向用戶更為精準(zhǔn)的推送與待識別音頻指紋相似的樂曲的元數(shù)據(jù),可按照與待識別音頻指紋的相似度,獲取預(yù)設(shè)數(shù)量的樂曲音頻指紋,之后查詢以獲取的音頻指紋為索引的樂曲的元數(shù)據(jù),以便呈現(xiàn)給用戶。
[0058]應(yīng)當(dāng)理解,在一些實現(xiàn)中,可以呈現(xiàn)用戶設(shè)定界面以接收用戶設(shè)定的獲取查詢的樂曲的元數(shù)據(jù)的數(shù)量,從而確定獲取的樂曲音頻指紋的數(shù)量;備選地或附加地,也可以呈現(xiàn)技術(shù)開發(fā)人員設(shè)定界面,以接收技術(shù)開發(fā)人員設(shè)定的獲取樂曲音頻指紋的數(shù)量。
[0059]步驟205,呈現(xiàn)查詢得到的元數(shù)據(jù)。
[0060]在本實施例中,在步驟204查詢得到樂曲的元數(shù)據(jù)之后,可以在播放視頻的終端設(shè)備中或在播放視頻的終端設(shè)備的視頻播放平臺中呈現(xiàn)查詢得到的元數(shù)據(jù)。
[0061]在呈現(xiàn)查詢得到的元數(shù)據(jù)時,可以以文本形式進(jìn)行呈現(xiàn),也可以基于從文本到語音(TTS)技術(shù)以語音形式進(jìn)行呈現(xiàn),還可以以圖片(包括樂曲的宣傳圖片)或流媒體的形式進(jìn)行呈現(xiàn),當(dāng)然,還可以以上述形式的組合進(jìn)行呈現(xiàn),例如以文本+圖片的形式進(jìn)行呈現(xiàn)。
[0062]呈現(xiàn)查詢得到的元數(shù)據(jù)的位置,可以為播放視頻的交互界面中的任意位置,例如可以在播放視頻的窗口中的一個浮動窗口中呈現(xiàn),或者滾動呈現(xiàn)于播放視頻的窗口的側(cè)邊處,或者呈現(xiàn)于獨立于播放視頻的窗口之外的懸浮窗口處等。
[0063]在呈現(xiàn)查詢得到的元數(shù)據(jù)時,可以以預(yù)設(shè)的顏色、預(yù)設(shè)的亮度和預(yù)設(shè)的遮罩狀態(tài)進(jìn)行呈現(xiàn)。
[0064]在本實施例中,上述步驟201和205可以運行于播放視頻的終端設(shè)備,步驟202、203和204中的一個或多個步驟可以運行于播放視頻的終端設(shè)備或運行于云端服務(wù)器。例如,若播放視頻的電子設(shè)備的處理器性能較低或存儲空間較少,則可以在云端服務(wù)器上存儲上述預(yù)設(shè)的數(shù)據(jù)庫,并在云端運行步驟202、203和204中的一個或多個步驟,反之,若播放視頻的電子設(shè)備的處理器性能較高并且存儲空間較多,則可以在本地存儲有上述的預(yù)設(shè)的數(shù)據(jù)庫,并在本地運行步驟202、203和204中的一個或多個步驟。又或者若播放視頻的電子設(shè)備處于未連接網(wǎng)絡(luò)狀態(tài),且本地存儲有上述的預(yù)設(shè)的數(shù)據(jù)庫,則步驟202、203和204中的一個或多個步驟可以運行于播放視頻的電子設(shè)備。
[0065]繼續(xù)參見圖3,圖3示出了根據(jù)本實施例的在播放視頻的設(shè)備中識別視頻中音頻的方法的應(yīng)用場景的截屏示意圖。在該應(yīng)用場景中,包括但不限于以下步驟:首先在步驟310中,視頻播放平臺在接收到用戶對播放視頻的界面中呈現(xiàn)的截取選項301的點擊時,開始截取正在播放的視頻中的音頻信息;接著在步驟320中,步驟310中呈現(xiàn)的截取選項301變更為暫停選項302,當(dāng)接收到用戶對暫停選項302的點擊操作時,完成對播放的視頻的音頻信息的截?。恢笤诓襟E330中,若接收到用戶對識別選項303的點擊,則對截取的音頻進(jìn)行識另IJ,執(zhí)行步驟440,若接收到的用戶對取消選項304的點擊,則放棄本次識別;之后在步驟440中,將識別的結(jié)果呈現(xiàn)于半透明呈現(xiàn)框305中。
[0066]本領(lǐng)域技術(shù)人員應(yīng)當(dāng)理解,上述的應(yīng)用場景僅為本實施例的一個示意性應(yīng)用場景,并不對本申請構(gòu)成限定。例如,上述的截取選項301、暫停選項302、識別選項303、取消選項304以及半透明呈現(xiàn)