專利名稱:一種基于音頻內(nèi)容檢索的多媒體資源檢索方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種基于音頻內(nèi)容檢索的多媒體資源檢索方法,特別是涉及用 于檢索包括視頻、音頻形式的資源,找到包含所檢索信息的資源并給出所檢索 信息在資源中的定位。
技術(shù)背景在當(dāng)今數(shù)字化與網(wǎng)絡(luò)化時(shí)代,多媒體數(shù)據(jù)已成為互聯(lián)網(wǎng)信息高速公路上所 傳送數(shù)據(jù)的主要部分。音頻、圖像和視頻等多媒體內(nèi)容目前在互聯(lián)網(wǎng)中占據(jù)15%,且該數(shù)字還在飛速增長。大容量高速存儲(chǔ)系統(tǒng)為音視頻的海量存儲(chǔ)提供了 基本保障,各行業(yè)對音視頻的使用越來越廣泛。如何從海量的音視頻信息中獲 取有用的信息,即音視頻信息資源的管理和檢索顯得日益重要,音視頻已成為 網(wǎng)絡(luò)用戶最頻繁檢索的資源之一。目前的主流搜索引擎如Google、 Yahoo、 Baidu 等,己經(jīng)較好地解決了對互聯(lián)網(wǎng)絡(luò)上文本內(nèi)容的檢索,但在音視頻檢索方面, 這些搜索引擎目前仍依靠檢索匹配多媒體資源相關(guān)的周邊文本信息(例如資源 文件名、資源標(biāo)記、資源介紹文本等)來實(shí)現(xiàn)對文本的搜索。這使得音視頻資 源自身的內(nèi)容沒有被很好地識別, 一些缺乏明確文本描述的有用資源被搜索引 擎忽略。目前,常用的信息檢索系統(tǒng),例如數(shù)字圖書館系統(tǒng)、知識管理系統(tǒng), 也都面臨著多媒體資源日益成為重要信息載體但缺乏有效檢索手段的問題。解 決這個(gè)問題的途徑之一,就是利用語音識別技術(shù)從音視頻資源的語音部分檢索 出可用文本表達(dá)的對應(yīng)信息,再通過文本檢索的方式去索引這些資源。關(guān)鍵詞識別就是在連續(xù)的無限制的自然語音流中識別出給定的關(guān)鍵詞。它 包括兩個(gè)方面的基本內(nèi)容, 一個(gè)是關(guān)鍵詞檢出, 一個(gè)是關(guān)鍵詞確認(rèn)。關(guān)鍵詞檢 出是鑒別語音包含哪幾個(gè)預(yù)先輸入的關(guān)鍵詞,是一個(gè)多元判決問題。而關(guān)鍵詞 確認(rèn)則回答"是"還是"不是"包含這個(gè)關(guān)鍵詞,是一個(gè)兩元判決問題,本發(fā)明所述 關(guān)鍵詞識別技術(shù)特制指關(guān)鍵詞檢出。美爾倒譜系數(shù)(Mel-FrequencyCepstrumCoefficients, MFCC)建立在傅立葉和 倒譜分析基礎(chǔ)上,反應(yīng)了音頻信號的頻域特征。對短時(shí)音頻幀中的采樣點(diǎn)進(jìn)行 傅立葉變換,得到這個(gè)短時(shí)音頻幀在每個(gè)頻率上的能量大小,將整個(gè)頻率帶劃 分為n個(gè)子帶,分別計(jì)算這n各子帶上的總能量,就構(gòu)成了這個(gè)短時(shí)音頻幀的n 個(gè)Mel系數(shù)。對提取出來的Md系數(shù)再計(jì)算其對應(yīng)的倒譜系數(shù),就是Mel倒譜 系數(shù)。倒譜分析是一種非線性信號處理技術(shù),它是同態(tài)系統(tǒng)理論的基礎(chǔ),是專門處理通過巻積組合在一起的信號,后來被應(yīng)用到語音信號的處理中。隱馬爾可夫(Hidden Markov Model, HMM)模型是一種基于轉(zhuǎn)移概率和輸 出概率的隨機(jī)模型。它把語音看成由可觀察到的符號序列組成的隨機(jī)過程,符 號序列則是發(fā)聲系統(tǒng)狀態(tài)序列的輸出。在使用隱馬爾可夫模型識別時(shí),為每一 個(gè)說話人建立發(fā)聲模型,通過訓(xùn)練得到狀態(tài)轉(zhuǎn)移概率矩陣和符號輸出概率矩陣。 識別時(shí)計(jì)算未知語音在狀態(tài)轉(zhuǎn)移過程中的最大概率,根據(jù)最大概率對應(yīng)的模型 進(jìn)行判決。對于文本無關(guān)的說話人識別一般采用各態(tài)歷經(jīng)型HMM,對于與文本 有關(guān)的說話人識別一般采用從左到右型HMM。 HMM不需要時(shí)間歸整,節(jié)約了 判決時(shí)的計(jì)算時(shí)間和存儲(chǔ)量?;陔[馬爾科夫模型的關(guān)鍵詞識別進(jìn)行技術(shù)是語音檢索的一個(gè)非常重要的 方面,它在語音的特定內(nèi)容檢索中占有重要位置,由于目前語音識別技術(shù)其魯 棒性和實(shí)用性方面的限制,利用連續(xù)語音識別建立大詞匯量,任意關(guān)鍵詞的識 別器并不能達(dá)到理想的結(jié)果,無法很好的滿足語音檢索方面的應(yīng)用要求。而關(guān) 鍵詞識別是相對可靠的技術(shù),在語音檢索的應(yīng)用中有更好的應(yīng)用前景。 發(fā)明內(nèi)容本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種基于音頻內(nèi)容檢索的多媒 體資源檢索方法包括如下步驟1) 預(yù)處理服務(wù)器將視頻和音頻轉(zhuǎn)化為標(biāo)準(zhǔn)的待識別語音;2) 語音識別服務(wù)器將訓(xùn)練語料訓(xùn)練成聲學(xué)模型,并將待識別語音和聲學(xué)模型 匹配得到語意文本索引;3) 索引服務(wù)器存儲(chǔ)和組織關(guān)鍵詞索引,并匹配檢索條件得到檢索結(jié)果。 所述的預(yù)處理服務(wù)器將視頻和音頻轉(zhuǎn)化為標(biāo)準(zhǔn)的待識別語音視頻和音頻中帶有一段或多段講話語音,從輸入的視頻資源中采用音頻分離技術(shù)提起出音 頻部分的數(shù)據(jù),并保持了分離出來的音頻和原有視頻在時(shí)間軸方向的一致,音 頻數(shù)據(jù)經(jīng)過數(shù)字降噪技術(shù)處理,能量過低的部分和包含雜音信號的語音段被處 理成靜音,轉(zhuǎn)化后,音頻輸出為標(biāo)準(zhǔn)的待識別語音。所述的語音識別服務(wù)器將訓(xùn)練語料訓(xùn)練成聲學(xué)模型訓(xùn)練語料采用標(biāo)準(zhǔn)漢 語普通話朗讀的廣播語音,訓(xùn)練語料經(jīng)過特征提取模塊得到語音特征,特征類 型采用美爾倒譜系數(shù),語音特征經(jīng)過聲學(xué)模型訓(xùn)練得到隱馬爾可夫聲學(xué)模型。所述的將待識別語音和聲學(xué)模型匹配得到語意文本索引待識別語音經(jīng)過 特征提取模塊得到待識別語音美爾倒譜系數(shù)特征,路徑搜索器讀取待識別語音美爾倒譜系數(shù)特征,在隱馬爾可夫聲學(xué)模型的路徑中進(jìn)行最短路徑識別,得到 語音片段對應(yīng)的語意文本;結(jié)合語音時(shí)間軸信息,輸出包含語意文本和時(shí)間起 止點(diǎn)數(shù)據(jù)的語意文本索引。所述的索引服務(wù)器存儲(chǔ)和組織關(guān)鍵詞索引,并匹配檢索條件得到檢索結(jié)果: 對語音識別服務(wù)器輸出的語意文本索引,進(jìn)行倒排索引轉(zhuǎn)化,得到以語意關(guān)鍵 詞為主鍵,關(guān)鍵詞出現(xiàn)位置信息序列為鍵值的倒排索引條目,存儲(chǔ)到索引庫中, 執(zhí)行檢索時(shí),向檢索服務(wù)器輸入文本形式的關(guān)鍵詞或關(guān)鍵詞組合,根據(jù)檢索關(guān) 鍵詞讀取倒排索引條目,輸出關(guān)鍵詞出現(xiàn)位置信息序列。所述的語意文本索引是一個(gè)二元對,包含了文本關(guān)鍵詞、關(guān)鍵詞在語音中 一次出現(xiàn)的時(shí)間段起點(diǎn)和時(shí)間段終點(diǎn)數(shù)據(jù)。關(guān)鍵詞索引是一個(gè)三元對,包含了 關(guān)鍵詞、關(guān)鍵詞對應(yīng)的視頻和音頻資源文件號、關(guān)鍵詞在語音中一次出現(xiàn)的時(shí) 間段起點(diǎn)和時(shí)間段終點(diǎn)數(shù)據(jù)。檢索結(jié)果是描述了一系列包含所檢索關(guān)鍵詞的資 源文件,以及在某個(gè)資源文件中,出現(xiàn)該關(guān)鍵詞語音片段的一系列時(shí)間段信息。本發(fā)明利用音頻中關(guān)鍵詞檢出技術(shù),獲得了音視頻資源內(nèi)在的語意信息, 對文本化的語意信息進(jìn)行索引,提供了更全面可靠的音視頻資源信息索引,可 以讓檢索系統(tǒng)更準(zhǔn)確的匹配到多媒體資源,并且定位到檢索詞在音視頻中出現(xiàn) 的精確位置。
圖1是根據(jù)本發(fā)明的音視頻內(nèi)容檢索系統(tǒng)總體流程圖; 圖2是根據(jù)本發(fā)明的音視頻預(yù)處理流程圖; 圖3是根據(jù)本發(fā)明的關(guān)鍵詞識別流程圖; 圖4是根據(jù)本發(fā)明的索引歸并流程圖。
具體實(shí)施方式
基于音頻內(nèi)容檢索的多媒體資源檢索方法包括如下步驟1) 預(yù)處理服務(wù)器將視頻和音頻轉(zhuǎn)化為標(biāo)準(zhǔn)的待識別語音;如圖1所示,視 頻資料1-1和語音資料1-2被輸入到預(yù)處理服務(wù)器Sl,經(jīng)過預(yù)處理得到標(biāo)準(zhǔn)的 待識別語料l-3。2) 語音識別服務(wù)器將訓(xùn)練語料訓(xùn)練成聲學(xué)模型,并將待識別語音和聲學(xué)模型 匹配得到語意文本索引;如圖1所示,訓(xùn)練語料1-4被輸入到語音識別服務(wù)器 S2,訓(xùn)練得到聲學(xué)模型,存儲(chǔ)在S2中,待識別語料1-3和聲學(xué)模型一起輸入到 語音識別服務(wù)器S2,匹配得到待識別語料1-3中的語意文本索引信息1-5。3) 索引服務(wù)器存儲(chǔ)和組織關(guān)鍵詞索引,并匹配檢索條件得到檢索結(jié)果。如圖1所示,索引信息被輸入到索引服務(wù)器S3,歸并入倒排索引庫;進(jìn)行檢索時(shí), 檢索條件l-6輸入到索引服務(wù)器S3,S3在索引庫中匹配待檢索條件中的關(guān)鍵詞, 得到匹配記錄,歸并匹配記錄,最終返回檢索結(jié)果l-7。所述的預(yù)處理服務(wù)器將視頻和音頻轉(zhuǎn)化為標(biāo)準(zhǔn)的待識別語音視頻和音頻 中帶有一段或多段講話語音,從輸入的視頻資源中采用音頻分離技術(shù)提起出音 頻部分的數(shù)據(jù),并保持了分離出來的音頻和原有視頻在時(shí)間軸方向的一致,音 頻數(shù)據(jù)經(jīng)過數(shù)字降噪技術(shù)處理,能量過低的部分和包含雜音信號的語音段被處 理成靜音,轉(zhuǎn)化后,音頻輸出為標(biāo)準(zhǔn)的待識別語音。如圖2所示,輸入的視頻 資料2-l,進(jìn)過語音數(shù)據(jù)提取模塊2-2,得到對應(yīng)的音頻資料數(shù)據(jù);直接輸入的 音頻資料2-3和視頻提取的音頻資料都進(jìn)過降噪處理模塊2-4,最終輸出可用于 識別的待識別語音2-5。所述的語音識別服務(wù)器將訓(xùn)練語料訓(xùn)練成聲學(xué)模型訓(xùn)練語料采用標(biāo)準(zhǔn)漢 語普通話朗讀的廣播語音,訓(xùn)練語料經(jīng)過特征提取模塊得到語音特征,特征類 型采用美爾倒譜系數(shù),語音特征經(jīng)過聲學(xué)模型訓(xùn)練得到隱馬爾可夫聲學(xué)模型。 如圖3所示,訓(xùn)練語料3-1經(jīng)過語音預(yù)處理模塊3-2、特征提取模塊3-3,得到 樣本語音美爾倒譜系數(shù)特征數(shù)據(jù);樣本語音美爾倒譜系數(shù)特征數(shù)據(jù)輸入到引擎 訓(xùn)練和識別模塊3-4訓(xùn)練出隱馬爾可夫聲學(xué)模型3-5;所述的將待識別語音和聲學(xué)模型匹配得到語意文本索引待識別語音經(jīng)過 特征提取模塊得到待識別語音美爾倒譜系數(shù)特征,路徑搜索器讀取待識別語音 美爾倒譜系數(shù)特征,在隱馬爾可夫聲學(xué)模型的路徑中進(jìn)行最短路徑識別,得到 語音片段對應(yīng)的語意文本;結(jié)合語音時(shí)間軸信息,輸出包含語意文本和時(shí)間起 止點(diǎn)數(shù)據(jù)的語意文本索引。如圖3所示,待識別語音3-6經(jīng)過語音預(yù)處理模塊 3-2、特征提取模塊3-3,得到待識別語音美爾倒譜系數(shù)特征數(shù)據(jù);待識別語音特 征數(shù)據(jù)和隱馬爾可夫聲學(xué)模型3-5 —起經(jīng)過路徑搜索匹配模塊3-7得到識別語意 文本索引3-8,其格式為二元對〈KW,Ref^,其中包含了文本關(guān)鍵詞KW、關(guān)鍵詞 在語音中一次出現(xiàn)的時(shí)間段起點(diǎn)和時(shí)間段終點(diǎn)數(shù)據(jù)Ref。所述的索引服務(wù)器存儲(chǔ)和組織關(guān)鍵詞索引,并匹配檢索條件得到檢索結(jié)果 對語音識別服務(wù)器輸出的語意文本索引,進(jìn)行倒排索引轉(zhuǎn)化,得到以語意關(guān)鍵 詞為主鍵,關(guān)鍵詞出現(xiàn)位置信息序列為鍵值的倒排索引條目,存儲(chǔ)到索引庫中。 如圖4所示,首先從語音識別模塊輸出的單個(gè)新增索引(格式為《W,Ref^)提 取出索引關(guān)鍵詞KW,根據(jù)KW在現(xiàn)有索引庫中査到倒排索引條目 <KW,<Refl,Ref2...Refn>>,再將新增索引和倒排索引條目合并,得到新條目<KW,<Refl,Ref2...Refh,Refh+l ,合并過程考慮索引的去重復(fù)。最后新條目被 寫回索引庫。執(zhí)行檢索時(shí),向檢索服務(wù)器輸入文本形式的關(guān)鍵詞或關(guān)鍵詞組合, 根據(jù)檢索關(guān)鍵詞讀取倒排索引條目,輸出關(guān)鍵詞出現(xiàn)位置信息序列。如圖4所 示,根據(jù)檢索關(guān)鍵詞KW,在現(xiàn)有索引庫中査到倒排索引條目 <KW,<Ref 1 ,Ref2...Refh ,作為檢索結(jié)果返回。
權(quán)利要求
1. 一種基于音頻內(nèi)容檢索的多媒體資源檢索方法,其特征在于包括如下步驟1)預(yù)處理服務(wù)器將視頻和音頻轉(zhuǎn)化為標(biāo)準(zhǔn)的待識別語音;2)語音識別服務(wù)器將訓(xùn)練語料訓(xùn)練成聲學(xué)模型,并將待識別語音和聲學(xué)模型匹配得到語意文本索引;3)索引服務(wù)器存儲(chǔ)和組織關(guān)鍵詞索引,并匹配檢索條件得到檢索結(jié)果。
2、 根據(jù)權(quán)利要求1所述的一種基于音頻內(nèi)容檢索的多媒體資源檢索方法, 其特征在于所述的預(yù)處理服務(wù)器將視頻和音頻轉(zhuǎn)化為標(biāo)準(zhǔn)的待識別語音視頻 和音頻中帶有一段或多段講話語音,從輸入的視頻資源中采用音頻分離技術(shù)提 起出音頻部分的數(shù)據(jù),并保持了分離出來的音頻和原有視頻在時(shí)間軸方向的一 致,音頻數(shù)據(jù)經(jīng)過數(shù)字降噪技術(shù)處理,能量過低的部分和包含雜音信號的語音 段被處理成靜音,轉(zhuǎn)化后,音頻輸出為標(biāo)準(zhǔn)的待識別語音。
3、 根據(jù)權(quán)利要求1所述的一種基于音頻內(nèi)容檢索的多媒體資源檢索方法, 其特征在于所述的語音識別服務(wù)器將訓(xùn)練語料訓(xùn)練成聲學(xué)模型訓(xùn)練語料采用 標(biāo)準(zhǔn)漢語普通話朗讀的廣播語音,訓(xùn)練語料經(jīng)過特征提取模塊得到語音特征, 特征類型采用美爾倒譜系數(shù),語音特征經(jīng)過聲學(xué)模型訓(xùn)練得到隱馬爾可夫聲學(xué) 模型。
4、 根據(jù)權(quán)利要求1所述的一種基于音頻內(nèi)容檢索的多媒體資源檢索方法, 其特征在于所述的將待識別語音和聲學(xué)模型匹配得到語意文本索引待識別語 音經(jīng)過特征提取模塊得到待識別語音美爾倒譜系數(shù)特征,路徑搜索器讀取待識 別語音美爾倒譜系數(shù)特征,在隱馬爾可夫聲學(xué)模型的路徑中進(jìn)行最短路徑識別, 得到語音片段對應(yīng)的語意文本;結(jié)合語音時(shí)間軸信息,輸出包含語意文本和時(shí) 間起止點(diǎn)數(shù)據(jù)的語意文本索引。
5、 根據(jù)權(quán)利要求1所述的一種基于音頻內(nèi)容檢索的多媒體資源檢索方法, 其特征在于所述的索引服務(wù)器存儲(chǔ)和組織關(guān)鍵詞索引,并匹配檢索條件得到檢 索結(jié)果對語音識別服務(wù)器輸出的語意文本索引,進(jìn)行倒排索引轉(zhuǎn)化,得到以 語意關(guān)鍵詞為主鍵,關(guān)鍵詞出現(xiàn)位置信息序列為鍵值的倒排索引條目,存儲(chǔ)到 索引庫中,執(zhí)行檢索時(shí),向檢索服務(wù)器輸入文本形式的關(guān)鍵詞或關(guān)鍵詞組合, 根據(jù)檢索關(guān)鍵詞讀取倒排索引條目,輸出關(guān)鍵詞出現(xiàn)位置信息序列。
6、 根據(jù)權(quán)利要求1所述的一種基于音頻內(nèi)容檢索的多媒體資源檢索方法, 其特征在于所述的語意文本索引是一個(gè)二元對,包含了文本關(guān)鍵詞、關(guān)鍵詞在語音中一次出現(xiàn)的時(shí)間段起點(diǎn)和時(shí)間段終點(diǎn)數(shù)據(jù)。
7、 根據(jù)權(quán)利要求1所述的一種基于音頻內(nèi)容檢索的多媒體資源檢索方法, 其特征在于所述的關(guān)鍵詞索引是一個(gè)三元對,包含了關(guān)鍵詞、關(guān)鍵詞對應(yīng)的視 頻和音頻資源文件號、關(guān)鍵詞在語音中一次出現(xiàn)的時(shí)間段起點(diǎn)和時(shí)間段終點(diǎn)數(shù) 據(jù)。
8、 根據(jù)權(quán)利要求1所述的一種基于音頻內(nèi)容檢索的多媒體資源檢索方法, 其特征在于所述的檢索結(jié)果是描述了一系列包含所檢索關(guān)鍵詞的資源文件,以 及在某個(gè)資源文件中,出現(xiàn)該關(guān)鍵詞語音片段的一系列時(shí)間段信息。
全文摘要
本發(fā)明公開了一種基于音頻內(nèi)容檢索的多媒體資源檢索方法。包括如下步驟1)預(yù)處理服務(wù)器將視頻和音頻轉(zhuǎn)化為標(biāo)準(zhǔn)的待識別語音;2)語音識別服務(wù)器將訓(xùn)練語料訓(xùn)練成聲學(xué)模型,并將待識別語音和聲學(xué)模型匹配得到語意文本索引;3)索引服務(wù)器存儲(chǔ)和組織關(guān)鍵詞索引,并匹配檢索條件得到檢索結(jié)果。本發(fā)明利用音頻中關(guān)鍵詞檢出技術(shù),獲得了音視頻資源內(nèi)在的語意信息,對文本化的語意信息進(jìn)行索引,提供了更全面可靠的音視頻資源信息索引,可以讓檢索系統(tǒng)更準(zhǔn)確的匹配到多媒體資源,并且定位到檢索詞在音視頻中出現(xiàn)的精確位置。
文檔編號G10L15/06GK101281534SQ20081006207
公開日2008年10月8日 申請日期2008年5月28日 優(yōu)先權(quán)日2008年5月28日
發(fā)明者葉睿智 申請人:葉睿智