在播放視頻的設(shè)備中識(shí)別視頻中音頻的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本申請(qǐng)涉及計(jì)算機(jī)技術(shù)領(lǐng)域,具體涉及音頻處理領(lǐng)域,尤其涉及在播放視頻的設(shè)備中識(shí)別視頻中音頻的方法和裝置。
【背景技術(shù)】
[0002]隨著娛樂(lè)信息技術(shù)的蓬勃發(fā)展,用戶越來(lái)越追求高質(zhì)、高速且無(wú)障礙的信息獲取。例如,用戶在觀看視頻時(shí),若聽(tīng)到好聽(tīng)的背景音樂(lè),可能希望獲得背景音樂(lè)的樂(lè)曲信息。
[0003]目前,在觀看視頻時(shí)獲取背景音樂(lè)的樂(lè)曲信息的方式,通常是在第二設(shè)備中打開(kāi)基于音頻識(shí)別樂(lè)曲的應(yīng)用,以接收來(lái)自播放視頻的第一設(shè)備的音頻,并對(duì)該音頻進(jìn)行分析處理后給出結(jié)果。
[0004]然而,這種跨設(shè)備進(jìn)行的音頻識(shí)別方式,可能存在較大的環(huán)境噪音,因此會(huì)產(chǎn)生較大的識(shí)別誤差或?qū)е伦R(shí)別失敗。
【發(fā)明內(nèi)容】
[0005]本申請(qǐng)的目的在于提出一種在播放視頻的設(shè)備中識(shí)別視頻中音頻的方法和裝置,來(lái)解決以上【背景技術(shù)】部分提到的技術(shù)問(wèn)題。
[0006]第一方面,本申請(qǐng)?zhí)峁┝艘环N在播放視頻的設(shè)備中識(shí)別視頻中音頻的方法,包括:響應(yīng)于用戶的截取指令而截取正在播放的視頻中的音頻信息;對(duì)截取的音頻信息提取音頻特征,得到待識(shí)別音頻指紋;比對(duì)所述待識(shí)別音頻指紋與預(yù)設(shè)的音頻指紋數(shù)據(jù)庫(kù)中的樂(lè)曲音頻指紋的相似度;按照相似度從高至低,獲取預(yù)設(shè)數(shù)量的樂(lè)曲音頻指紋,查詢以獲取的音頻指紋為索引的樂(lè)曲的元數(shù)據(jù);呈現(xiàn)查詢得到的元數(shù)據(jù)。
[0007]在一些實(shí)施例中,所述方法還包括:接收用戶操作;響應(yīng)于所述用戶操作符合預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令。
[0008]在一些實(shí)施例中,響應(yīng)于所述用戶操作符合預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令包括以下一項(xiàng)或多項(xiàng):響應(yīng)于所述用戶操作為對(duì)正在播放的視頻中呈現(xiàn)的截取選項(xiàng)的選擇操作,并且所述選擇操作符合預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令;響應(yīng)于所述用戶操作為對(duì)快捷鍵的按鍵操作,并且所述按鍵操作符合預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令;響應(yīng)于所述用戶操作為指紋輸入,并且所述指紋輸入為預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令;響應(yīng)于所述用戶操作為音波輸入,并且所述音波輸入為預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令;以及響應(yīng)于所述用戶操作為正在播放視頻的設(shè)備感應(yīng)到的操作,并且所述感應(yīng)到的操作符合預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令。
[0009]在一些實(shí)施例中,所述響應(yīng)于用戶的截取指令而截取正在播放的視頻中的音頻信息包括:響應(yīng)于用戶的截取指令而截取所述正在播放的視頻的音頻源文件,得到截取的音頻信息;和/或響應(yīng)于用戶的截取指令而對(duì)所述正在播放的視頻進(jìn)行錄音,得到截取的音頻?目息。
[0010]在一些實(shí)施例中,在云端服務(wù)器進(jìn)行以下一項(xiàng)或多項(xiàng)操作:對(duì)截取的音頻信息提取音頻特征,得到待識(shí)別音頻指紋;比對(duì)所述待識(shí)別音頻指紋與預(yù)設(shè)的音頻指紋數(shù)據(jù)庫(kù)中的樂(lè)曲音頻指紋的相似度;按照相似度從高至低,獲取預(yù)設(shè)數(shù)量的樂(lè)曲音頻指紋,查詢以獲取的音頻指紋為索引的樂(lè)曲的元數(shù)據(jù)。
[0011]在一些實(shí)施例中,通過(guò)以下一項(xiàng)或多項(xiàng)表現(xiàn)形式向用戶呈現(xiàn)查詢得到的樂(lè)曲的元數(shù)據(jù):語(yǔ)音、文本、圖片和流媒體。
[0012]在一些實(shí)施例中,在預(yù)設(shè)位置以以下一項(xiàng)或多項(xiàng)呈現(xiàn)方式向用戶呈現(xiàn)查詢得到的樂(lè)曲的元數(shù)據(jù):預(yù)設(shè)顏色、預(yù)設(shè)亮度和預(yù)設(shè)遮罩狀態(tài)。
[0013]第二方面,本申請(qǐng)?zhí)峁┝艘环N在播放視頻的設(shè)備中識(shí)別視頻中音頻的裝置,其特征在于,所述裝置包括:截取模塊,用于響應(yīng)于用戶的截取指令而截取正在播放的視頻中的音頻信息;提取模塊,用于對(duì)截取的音頻信息提取音頻特征,得到待識(shí)別音頻指紋;比對(duì)模塊,用于比對(duì)所述待識(shí)別音頻指紋與預(yù)設(shè)的音頻指紋數(shù)據(jù)庫(kù)中的樂(lè)曲音頻指紋的相似度;獲取模塊,用于按照相似度從高至低,獲取預(yù)設(shè)數(shù)量的樂(lè)曲音頻指紋,查詢以獲取的音頻指紋為索引的樂(lè)曲的元數(shù)據(jù);呈現(xiàn)模塊,用于呈現(xiàn)查詢得到的樂(lè)曲的元數(shù)據(jù)。
[0014]在一些實(shí)施例中,所述裝置還包括:接收模塊,用于接收用戶操作;觸發(fā)模塊,用于響應(yīng)于所述用戶操作符合預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令。
[0015]在一些實(shí)施例中,所述觸發(fā)模塊包括以下一項(xiàng)或多項(xiàng):選項(xiàng)觸發(fā)模塊,用于響應(yīng)于所述用戶操作為對(duì)正在播放的視頻中呈現(xiàn)的截取選項(xiàng)的選擇操作,并且所述選擇操作符合預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令;快捷鍵觸發(fā)模塊,用于響應(yīng)于所述用戶操作為對(duì)快捷鍵的按鍵操作,并且所述按鍵操作符合預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令;指紋觸發(fā)模塊,用于響應(yīng)于所述用戶操作為指紋輸入,并且所述指紋輸入為預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令;音波觸發(fā)模塊,用于響應(yīng)于所述用戶操作為音波輸入,并且所述音波輸入為預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令;以及感應(yīng)觸發(fā)模塊,用于響應(yīng)于所述用戶操作為正在播放視頻的設(shè)備感應(yīng)到的操作,并且所述感應(yīng)到的操作符合預(yù)設(shè)的觸發(fā)操作,觸發(fā)所述用戶的截取指令。
[0016]在一些實(shí)施例中,所述截取模塊包括:源音頻截取模塊,用于響應(yīng)于用戶的截取指令而截取所述正在播放的視頻的音頻源文件,得到截取的音頻信息;和/或錄音截取模塊,用于響應(yīng)于用戶的截取指令而對(duì)所述正在播放的視頻進(jìn)行錄音,得到截取的音頻信息。
[0017]在一些實(shí)施例中,以下一個(gè)或多個(gè)模塊設(shè)于云端服務(wù)器:提取模塊、比對(duì)模塊和獲取模塊。
[0018]在一些實(shí)施例中,所述呈現(xiàn)模塊通過(guò)以下一項(xiàng)或多項(xiàng)表現(xiàn)形式向用戶呈現(xiàn)查詢得到的樂(lè)曲的元數(shù)據(jù):語(yǔ)音、文本、圖片和流媒體。
[0019]在一些實(shí)施例中,所述呈現(xiàn)模塊在預(yù)設(shè)位置以以下一項(xiàng)或多項(xiàng)呈現(xiàn)方式向用戶呈現(xiàn)查詢得到的樂(lè)曲的元數(shù)據(jù):預(yù)設(shè)顏色、預(yù)設(shè)亮度和預(yù)設(shè)遮罩狀態(tài)。
[0020]第三方面,本申請(qǐng)?zhí)峁┝艘环N視頻播放裝置,所述視頻播放裝置包括如上所述的在播放視頻的設(shè)備中識(shí)別視頻中音頻的裝置。
[0021]第四方面,本申請(qǐng)?zhí)峁┝艘环N電子設(shè)備,所述電子設(shè)備包括:如上所述的在播放視頻的設(shè)備中識(shí)別視頻中音頻的裝置;和/或如上所述的視頻播放裝置。
[0022]本申請(qǐng)?zhí)峁┑脑诓シ乓曨l的設(shè)備中識(shí)別視頻中音頻的方法和裝置,通過(guò)響應(yīng)于用戶的截取指令而截取正在播放的視頻中的音頻信息,而后對(duì)截取的音頻信息提取音頻特征,比對(duì)所述待識(shí)別音頻指紋與預(yù)設(shè)的音頻指紋數(shù)據(jù)庫(kù)中的樂(lè)曲音頻指紋的相似度,之后按照相似度從高至低,獲取預(yù)設(shè)數(shù)量的樂(lè)曲音頻指紋,查詢以獲取的音頻指紋為索引的樂(lè)曲的元數(shù)據(jù),最后呈現(xiàn)查詢得到的元數(shù)據(jù),從而有效降低了識(shí)別過(guò)程中的環(huán)境噪音,進(jìn)而提高了音頻識(shí)別的精準(zhǔn)度以及音頻識(shí)別的成功率。
【附圖說(shuō)明】
[0023]通過(guò)閱讀參照以下附圖所作的對(duì)非限制性實(shí)施例所作的詳細(xì)描述,本申請(qǐng)的其它特征、目的和優(yōu)點(diǎn)將會(huì)變得更明顯:
[0024]圖1是本申請(qǐng)可以應(yīng)用于其中的示例性系統(tǒng)架構(gòu)圖;
[0025]圖2是根據(jù)本申請(qǐng)的在播放視頻的設(shè)備中識(shí)別視頻中音頻的方法的一個(gè)實(shí)施例的流程圖;
[0026]圖3是根據(jù)本申請(qǐng)的在播放視頻的設(shè)備中識(shí)別視頻中音頻的方法的一個(gè)應(yīng)用場(chǎng)景的截屏示意圖;
[0027]圖4是根據(jù)本申請(qǐng)的在播放視頻的設(shè)備中識(shí)別視頻中音頻的方法的又一個(gè)實(shí)施例的流程圖;
[0028]圖5是根據(jù)本申請(qǐng)的在播放視頻的設(shè)備中識(shí)別視頻中音頻的裝置的一個(gè)實(shí)施例的結(jié)構(gòu)示意圖;
[0029]圖6是適于用來(lái)實(shí)現(xiàn)本申請(qǐng)實(shí)施例的終端設(shè)備或服務(wù)器的計(jì)算機(jī)系統(tǒng)的結(jié)構(gòu)示意圖。
【具體實(shí)施方式】
[0030]下面結(jié)合附圖和實(shí)施例對(duì)本申請(qǐng)作進(jìn)一步的詳細(xì)說(shuō)明??梢岳斫獾氖?,此處所描述的具體實(shí)施例僅僅用于解釋相關(guān)發(fā)明,而非對(duì)該發(fā)明的限定。另外還需要說(shuō)明的是,為了便于描述,附圖中僅示出了與有關(guān)發(fā)明相關(guān)的部分。
[0031]需要說(shuō)明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來(lái)詳細(xì)說(shuō)明本申請(qǐng)。
[0032]圖1示出了可以應(yīng)用本申請(qǐng)的在播放視頻的設(shè)備中識(shí)別視頻中音頻的方法和裝置的實(shí)施例的示例性系統(tǒng)架構(gòu)100。
[0033]如圖1所示,系統(tǒng)架構(gòu)100可以包括終端設(shè)備101、102、103,網(wǎng)絡(luò)104和服務(wù)器105。網(wǎng)絡(luò)104用以在終端設(shè)備101、102、103和服務(wù)器105之間提供通信鏈路的介質(zhì)。網(wǎng)絡(luò)104可以包括各種連接類型,例如有線、無(wú)線通信鏈路或者光纖電纜等等。
[0034]用戶可以使用終端設(shè)備101、102、103通過(guò)網(wǎng)絡(luò)104與服務(wù)器105交互,以接收或發(fā)送消息等。終端設(shè)備101、102、103上可以安裝有各種通訊客戶端應(yīng)用,例如視頻播放平臺(tái)、網(wǎng)頁(yè)瀏覽應(yīng)用、搜索類應(yīng)用、即時(shí)通信工具、郵箱客戶端、社交平臺(tái)軟件等。
[0035]終端設(shè)備101、102、103可以是具有顯示屏并且支持視頻播放的各種電子設(shè)備,包括但不限于智能手機(jī)、平板電腦、膝上型便攜計(jì)算機(jī)和臺(tái)式計(jì)算機(jī)等等。
[0036]服務(wù)器105可以是提供各種服務(wù)的服務(wù)器,例如對(duì)終端設(shè)備101、102、103上顯示的視頻播放提供支持的后臺(tái)服務(wù)器。后臺(tái)服務(wù)器可以對(duì)截取的音頻信息等數(shù)據(jù)進(jìn)行分析等處理,并將處理結(jié)果(例如以獲取的音頻指紋為索引的樂(lè)曲的元數(shù)據(jù))反饋