一種基于人類語音內(nèi)容索引的音頻和視頻文件管理方法
【專利摘要】本發(fā)明提出一種基于人類語音內(nèi)容索引的視頻和音頻文件管理方法,該方法利用語音識別技術(shù)識別音頻和視頻文件中的人類語音,將其中的人類語音內(nèi)容(例如:對話聲音)轉(zhuǎn)化為文本信息,利用不同環(huán)境下對話內(nèi)容的唯一性特點(diǎn),將該文本信息作為標(biāo)識該視頻或音頻文件實質(zhì)內(nèi)容的一項重要數(shù)據(jù)。在視頻或音頻文件庫中采用該文本信息做文件索引標(biāo)記信息,便可以高效地檢測出實質(zhì)內(nèi)容相同的音頻或視頻文件,快速地辨別出實質(zhì)內(nèi)容不同的視頻或音頻文件。
【專利說明】
一種基于人類語音內(nèi)容索引的音頻和視頻文件管理方法
技術(shù)領(lǐng)域
[0001]本發(fā)明屬于音頻和視頻文件存儲及管理領(lǐng)域,具體涉及一種基于人類語音內(nèi)容索引的音頻和視頻文件管理方法。
【背景技術(shù)】
[0002]音頻文件和視頻文件存在多種不同的存放格式。其基本原理是采用固定的時間間隔對現(xiàn)實世界中的音頻和視頻信號采樣,并將采樣結(jié)果以某種分辨率形式存儲。其中音頻文件包含兩類主要的音頻文件格式:無損格式和有損格式,有損文件格式是基于聲學(xué)心理學(xué)的模型,去除人類很難聽到或根本聽不到的聲音。視頻文件通常將語音信號和視覺信號存放在一個文件中,方便同時回放視頻和音頻內(nèi)容。
[0003]由于音頻文件和視頻文件采樣率和分辨率等信號采集格式的差異,原始采集的音頻和視頻文件往往體積巨大,不利于其音頻和視頻文件內(nèi)容的管理和分發(fā)。所以產(chǎn)生了各種各樣的音頻文件和視頻文件編碼和解碼器用于壓縮和解壓縮音頻和視頻信號。對于音頻文件,通常采用有損壓縮方法壓縮數(shù)據(jù),用于在互聯(lián)網(wǎng)上傳播和分發(fā)音頻內(nèi)容。對于視頻文件,其格式通常是一個通用的容器,其中可以分別放入視頻信息,音頻信息和其它一些信息(例如,字幕信息,圖片信息或視角信息等)。視頻編解碼器可以對特定格式的視頻文件進(jìn)行編解碼,完成對視頻文件的制作和播放。
[0004]由于音頻和視頻文件編解碼的特性,其實際存儲的數(shù)據(jù)內(nèi)容往往依賴于特定的編解碼算法,相同的原始文件通過不同的編碼器編碼后的文件在文件數(shù)據(jù)內(nèi)容上幾乎是完全不一樣。同樣地,對于同一個編解碼算法,原始數(shù)據(jù)的一些微小變化,例如音頻或者視頻長度的一些微小變化(例如少0.1秒的內(nèi)容),其編碼后產(chǎn)生的數(shù)據(jù)在文件數(shù)據(jù)內(nèi)容上也是幾乎完全不一樣。
[0005]因此,同一個音頻或視頻內(nèi)容往往存在著著多個與之對應(yīng)的音頻和視頻文件,例如一部電影往往存在多種不同分辨率的文件,另外還有不同字幕組壓縮的文件等等。對于這種實際內(nèi)容相同,而存儲的數(shù)據(jù)內(nèi)容完全不一樣的音頻和視頻多媒體文件,如何檢測它們實質(zhì)內(nèi)容上的一致性是管理和存儲這類文件的一個關(guān)鍵技術(shù)。本專利提出了一種基于人類語音內(nèi)容索引的音頻和視頻文件管理方法,用于自動地檢測音頻和視頻文件的實質(zhì)內(nèi)容。
【發(fā)明內(nèi)容】
[0006]本發(fā)明提出一種基于人類語音內(nèi)容索引的視頻和音頻文件管理方法,該方法利用語音識別技術(shù)識別音頻和視頻文件中的人類語音,將其中的人類語音內(nèi)容(例如:對話聲音)轉(zhuǎn)化為文本信息,利用不同環(huán)境下對話內(nèi)容的唯一性特點(diǎn),將該文本信息作為標(biāo)識該視頻或音頻文件實質(zhì)內(nèi)容的一項重要數(shù)據(jù),由此將對多媒體音頻和視頻文件內(nèi)容的查詢和比較等操作轉(zhuǎn)化成對文本文件內(nèi)容的查詢和比較等操作。若兩個視頻或兩個音頻文件的文本文字信息相同,則標(biāo)記這兩個視頻或兩個音頻文件的實質(zhì)內(nèi)容相同,否則,則標(biāo)記這兩個視頻或音頻文件的實質(zhì)內(nèi)容不同。在視頻或音頻文件庫中采用該文本信息做文件索引標(biāo)記信息,便可以高效地檢測出實質(zhì)內(nèi)容相同的音頻或視頻文件,快速地辨別出實質(zhì)內(nèi)容不同的視頻或音頻文件。
[0007]一種基于人類語音內(nèi)容索引的視頻和音頻文件管理方法,具體步驟為:
[0008](I)采用語音識別技術(shù)將視頻和音頻文件中的人類語音內(nèi)容轉(zhuǎn)換為文本文字信息;
[0009](2)使用(I)得到的文本文字信息來標(biāo)識視頻或音頻文件的實質(zhì)內(nèi)容,若兩個視頻或兩個音頻文件的文本文字信息相同,則標(biāo)記這兩個視頻或兩個音頻文件的實質(zhì)內(nèi)容相同,否則,則標(biāo)記這兩個視頻或音頻文件的實質(zhì)內(nèi)容不同。具體步驟為:
[0010](2.1)在視頻或音頻文件庫中,采用(I)中得到的文本文字信息作為視頻或音頻數(shù)據(jù)庫的文件索引標(biāo)記信息;
[0011](2.2)對于某個視頻或音頻文件,使用(I)中得到的文本文字信息在視頻或音頻文件庫中進(jìn)行檢索;
[0012](2.3)若存在具有相同文件索引標(biāo)記信息(S卩(I)中得到的文本文字信息)的文件,則將(2.2)的文件和文件庫中檢索到的文件標(biāo)記為具有相同實質(zhì)內(nèi)容的文件;否則,則標(biāo)記
(2.2)的文件為具有唯一實質(zhì)內(nèi)容的文件;
[0013](2.4)將(2.2)所指的文件及其文件索引標(biāo)記信息更新至視頻或音頻文件庫索引中.
[0014](3)對于(2.3)標(biāo)記出的具有相同實質(zhì)內(nèi)容的視頻或音頻文件,采用一定的數(shù)據(jù)分布策略在多個區(qū)域之間或同一個區(qū)域內(nèi)分布存儲和管理(包括文件讀,文件寫,文件刪除等多種文件操作)這些實質(zhì)內(nèi)容相同的視頻或音頻文件。其中區(qū)域可為服務(wù)器,機(jī)架,數(shù)據(jù)中心等硬實體或軟實體;
[0015]在上述方法中,步驟(2)既可以采用步驟(I)中得到的原始文本文字信息,也可以采用對步驟(I)中的原始文本文字信息處理之后的信息,只要處理之后的信息可以與原始文本文字信息能夠--對應(yīng),能夠唯一標(biāo)記原始文本文字信息即可。
【附圖說明】
[0016]圖1為本發(fā)明的整體流程示意圖;
【具體實施方式】
[0017]本發(fā)明涉及的主體為視頻或音頻存儲服務(wù)器。
[0018]圖1為本發(fā)明的整體流程示意圖,具體步驟為:
[0019](I)讀取視頻或音頻文件;
[0020](2)采用語音識別技術(shù)將視頻或音頻文件中的人類語音內(nèi)容轉(zhuǎn)換成文本文字信息;
[0021](3)采用(2)得到的文本文字信息(或?qū)ξ谋疚淖中畔⑻幚碇蟮男畔?作為該文件的索引標(biāo)記信息;
[0022](4)使用(3)得到的索引標(biāo)記信息在視頻或音頻文件庫中查找,查詢是否存在和
(3)相同的索引標(biāo)記信息的文件;其中視頻或音頻文件庫中的文件均采用文本文字信息(SP將文件中的人類語音內(nèi)容轉(zhuǎn)換后的文本文字信息)作為文件索引標(biāo)記信息;
[0023](5)若存在具有相同索引標(biāo)記信息的文件,則將(3)所指的文件與在文件庫中檢索到的文件標(biāo)記為具有相同實質(zhì)內(nèi)容的視頻或音頻文件;否則,標(biāo)記(3)所指的文件為具有唯一實質(zhì)內(nèi)容的視頻或音頻文件;
[0024](6)將(3)所指的文件及其文件索引標(biāo)記信息更新至(4)所指的文件庫索引;
[0025](7)對于(5)標(biāo)記出的具有相同實質(zhì)內(nèi)容的視頻或音頻文件,采用一定的數(shù)據(jù)分布策略在多個區(qū)域之間或同一個區(qū)域內(nèi)分布存儲和管理(包括文件讀,文件寫,文件刪除等多種文件操作)這些實質(zhì)內(nèi)容相同的視頻或音頻文件。其中區(qū)域可為服務(wù)器,機(jī)架,數(shù)據(jù)中心等硬實體或軟實體。
【主權(quán)項】
1.一種基于人類語音內(nèi)容索引的視頻和音頻文件管理方法,具體步驟為: (1)采用語音識別技術(shù)將視頻和音頻文件中的人類語音內(nèi)容轉(zhuǎn)換為文本文字信息; (2)使用(I)得到的文本文字信息來標(biāo)識視頻或音頻文件的實質(zhì)內(nèi)容,若兩個視頻或兩個音頻文件的文本文字信息相同,則標(biāo)記這兩個視頻或兩個音頻文件的實質(zhì)內(nèi)容相同,否則,則標(biāo)記這兩個視頻或音頻文件的實質(zhì)內(nèi)容不同。具體步驟為: (2.1)在視頻或音頻文件庫中,采用(I)中得到的文本文字信息作為視頻或音頻數(shù)據(jù)庫的文件索引標(biāo)記信息; (2.2)對于某個視頻或音頻文件,使用(I)中得到的文本文字信息在視頻或音頻文件庫中進(jìn)行檢索; (2.3)若存在具有相同文件索引標(biāo)記信息(S卩(I)中得到的文本文字信息)的文件,則將(2.2)的文件和文件庫中檢索到的文件標(biāo)記為具有相同實質(zhì)內(nèi)容的文件;否則,則標(biāo)記(2.2)的文件為具有唯一實質(zhì)內(nèi)容的文件; (2.4)將(2.2)所指的文件及其文件索引標(biāo)記信息更新至視頻或音頻文件庫索引中。 (3)對于(2.3)標(biāo)記出的具有相同實質(zhì)內(nèi)容的視頻或音頻文件,采用一定的數(shù)據(jù)分布策略在多個區(qū)域之間或同一個區(qū)域內(nèi)分布存儲和管理(包括文件讀,文件寫,文件刪除等多種文件操作)這些實質(zhì)內(nèi)容相同的視頻或音頻文件。其中區(qū)域可為服務(wù)器,機(jī)架,數(shù)據(jù)中心等硬實體或軟實體。2.在權(quán)利要求1所述的方法中,步驟(2)既可以采用步驟(I)中得到的原始文本文字信息,也可以采用對步驟(I)中的原始文本文字信息處理之后的信息,只要處理之后的信息可以與原始文本文字信息能夠--對應(yīng),能夠唯一標(biāo)記原始文本文字信息即可。
【文檔編號】G10L21/10GK105912615SQ201610212603
【公開日】2016年8月31日
【申請日】2016年4月5日
【發(fā)明人】譚玉娟, 晏志超
【申請人】重慶大學(xué)