專(zhuān)利名稱(chēng):一種對(duì)音、視頻內(nèi)容進(jìn)行語(yǔ)義描述的方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及音視頻數(shù)字 出版技術(shù)領(lǐng)域,特別是涉及一種對(duì)音視頻內(nèi)容進(jìn)行語(yǔ)義描述的方法及系統(tǒng)。
背景技術(shù):
隨著人類(lèi)社會(huì)的發(fā)展,人們獲取知識(shí)與信息的方式正在發(fā)生著變化,出版、IT企業(yè)目前正在把大量音視頻文件進(jìn)行多種格式的加工,投放到網(wǎng)絡(luò)、電紙書(shū)、平板電腦上。很多人更希望精準(zhǔn)地獲取一段音視頻的部分內(nèi)容,甚至是很少一部分內(nèi)容,但是,目前這些格式的音視頻文件的檢索方式僅能夠基于音視頻文件的文件名、作者、標(biāo)題、關(guān)鍵詞等基于音視頻文件自身的基本屬性進(jìn)行檢索,由于視頻文件涵蓋的內(nèi)容比較多,一個(gè)音視頻文件中的大多數(shù)內(nèi)容可能并不是讀者所需要的。現(xiàn)有的檢索方式無(wú)法定位到單個(gè)音視頻文件中更具體的位置,由此而導(dǎo)致不能精確檢索到讀者真正想要的內(nèi)容。
發(fā)明內(nèi)容
鑒于現(xiàn)有技術(shù)的缺陷,本發(fā)明提供一種對(duì)音視頻內(nèi)容進(jìn)行語(yǔ)義描述的方法,其特征在于包括如下步驟(I)定義一種結(jié)構(gòu)字典與語(yǔ)義字典,并用XML語(yǔ)言按照其中規(guī)定了音視頻內(nèi)容中對(duì)結(jié)構(gòu)及語(yǔ)義描述的規(guī)則與賦值范圍的結(jié)構(gòu)字典與語(yǔ)義字典寫(xiě)一個(gè)XMLSchema文件;(2)導(dǎo)入音視頻文件并把音視頻內(nèi)容拆分成多個(gè)片斷;(3)為每個(gè)片斷賦予用于標(biāo)出其在音視頻文件中的先后順序及嵌套關(guān)系的結(jié)構(gòu)屬性,生成一個(gè)具有先后順序及嵌套關(guān)系的XML文件;(4)在所述XML文件中分別對(duì)每個(gè)片斷進(jìn)行語(yǔ)義描述賦值,形成一個(gè)新的XML文件;(5)對(duì)新的XML文件添加X(jué)ML Schema聲明、版權(quán)聲明、音視頻文件的位置,最終形成的描述音視頻內(nèi)容的XML文件或者對(duì)新的XML文件添加X(jué)ML Schema聲明、版權(quán)聲明,并存入原音視頻文件中,產(chǎn)生一個(gè)新的音視頻文件。此外,本發(fā)明還提供一種對(duì)音視頻內(nèi)容進(jìn)行語(yǔ)義描述的系統(tǒng),其特征在于包括
(I)定義一種結(jié)構(gòu)字典與語(yǔ)義字典,并用XML語(yǔ)言按照其中規(guī)定了音視頻內(nèi)容中對(duì)結(jié)構(gòu)及語(yǔ)義描述的規(guī)則與賦值范圍的結(jié)構(gòu)字典與語(yǔ)義字典寫(xiě)一個(gè)XML Schema文件的裝置;(2)用于導(dǎo)入音視頻文件并把音視頻文件拆分成多個(gè)片斷的裝置;(3)用于為每個(gè)片斷賦予用于標(biāo)出其在音視頻文件中的先后順序及嵌套關(guān)系的結(jié)構(gòu)屬性,生成一個(gè)具有先后順序及嵌套關(guān)系的XML文件的裝置;(4)用于在所述XML文件中分別對(duì)每個(gè)片斷進(jìn)行語(yǔ)義描述賦值,形成一個(gè)新的XML文件的裝置;(5)用于對(duì)新的XML文件添加X(jué)ML Schema聲明、版權(quán)聲明、音視頻文件的位置,最終形成的描述音視頻內(nèi)容的XML文件或者對(duì)新的XML文件添加X(jué)MLSchema聲明、版權(quán)聲明,并存入原音視頻文件中,產(chǎn)生一個(gè)新的音視頻文件的裝置。本發(fā)明能夠?qū)崿F(xiàn)音視頻文件的片斷內(nèi)容的語(yǔ)義描述,音視頻內(nèi)容不再是完整的一部,而是被有目的地分成若干個(gè)片斷,每一個(gè)片斷都對(duì)應(yīng)著讀者的一個(gè)或多個(gè)訴求,海量的音視頻文件最終形成了海量的音視頻知識(shí)庫(kù),而不是簡(jiǎn)單的數(shù)據(jù)庫(kù)。讀者的每一個(gè)問(wèn)題都能從知識(shí)庫(kù)中檢索到一個(gè)或多個(gè)答案,這完全高于目前音視頻的檢索效率,這在垃圾數(shù)據(jù)日益膨脹的未來(lái)更加重要與迫切。
圖I是本發(fā)明對(duì)音視頻內(nèi)容進(jìn)行語(yǔ)義描述的方法的數(shù)據(jù)處理流程圖。
具體實(shí)施例方式本發(fā)明就是要通過(guò)音視頻內(nèi)容分割與內(nèi)容語(yǔ)義描述兩種手段相結(jié)合的方式來(lái)解決音視頻內(nèi)容的檢索效率的問(wèn)題。所謂語(yǔ)義描述就是對(duì)音視頻文件中的某一段內(nèi)容進(jìn)行一些概括性的解釋?zhuān)@些解釋的目的就是設(shè)法把讀者的訴求與音視頻文件的內(nèi)容連接在一起,比如,讀者的訴求往往是“萬(wàn)有引力的定律”這類(lèi)問(wèn)題,如果要讓 工具在海量的音視頻文件中快速而又精準(zhǔn)地檢索到這些片斷內(nèi)容,那么就要對(duì)這些音視頻文件的某段內(nèi)容進(jìn)行“萬(wàn)有引力的定理”這樣的概括性的語(yǔ)義描述。要實(shí)現(xiàn)音視頻內(nèi)容的語(yǔ)義描述的目標(biāo),就必須解決好兩個(gè)問(wèn)題一是要有一個(gè)很好的方法來(lái)分割音視頻內(nèi)容,使分割的片斷內(nèi)容可以任意大小,同時(shí)保持一定的層次關(guān)系。目前已有的分割方法不能實(shí)現(xiàn)任意大小的分割,以視頻為例就不能實(shí)現(xiàn)跨節(jié)目、片斷、場(chǎng)景、鏡頭的分割,完全是按傳統(tǒng)結(jié)構(gòu)來(lái)分割的;二是建立一種方法來(lái)對(duì)每一個(gè)片斷內(nèi)容進(jìn)行多角度的語(yǔ)義描述,使之與讀者多種訴求相聯(lián)系。目前對(duì)音視頻的語(yǔ)義描述僅僅是關(guān)鍵詞,沒(méi)有完整的語(yǔ)義,更沒(méi)有與某種市場(chǎng)需求對(duì)應(yīng)起來(lái)。為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對(duì)本發(fā)明作進(jìn)一步詳細(xì)的說(shuō)明。圖I是本發(fā)明對(duì)音視頻內(nèi)容進(jìn)行語(yǔ)義描述的方法的步驟流程圖,該方法包括如下步驟(I)定義一種結(jié)構(gòu)字典與語(yǔ)義字典,并用XML語(yǔ)言按照其中規(guī)定了音視頻內(nèi)容中對(duì)結(jié)構(gòu)及語(yǔ)義描述的規(guī)則與賦值范圍的結(jié)構(gòu)字典與語(yǔ)義字典寫(xiě)一個(gè)XML Schema文件;這一步一般是在拆分與標(biāo)注前做的準(zhǔn)備工作,在具體標(biāo)注過(guò)程中要不斷更新字典與XMLSchema 文件。舉例來(lái)說(shuō),本發(fā)明建立的結(jié)構(gòu)字典如下BID.屬性名=音視頻文件ID號(hào);BID.取值范圍=字符;BID.說(shuō)明=音視頻文件的唯一識(shí)別碼SID.屬性名=片斷ID號(hào);SID.取值范圍=字符;SID.取值規(guī)則=XXX. XXX. XXX. XXXSID.說(shuō)明=每個(gè)片斷的唯一識(shí)別碼;N.屬性名=片斷的序號(hào);N.取值范圍=整數(shù);N.說(shuō)明=片斷在原音視頻文件中的先后位置P.屬性名=時(shí)間范圍;
P.取值范圍=二元整數(shù)組;P.說(shuō)明=原音視頻文件的時(shí)間范圍F.屬性名=幀頻率;F.取值范圍=N;
F.說(shuō)明=原音視頻文件的頻率。該結(jié)構(gòu)與電子圖書(shū)結(jié)構(gòu)的描述方法基本相同,不同點(diǎn)在于(I)描述對(duì)象不同,一個(gè)是電子圖書(shū)(PDF\D0C\INDD等),一個(gè)是音視頻文件(MP3\MP4\AVI等),(2)描述方法中的P元素的屬性不同,電子圖書(shū)P元素的屬性是頁(yè)碼相關(guān)信息,音視頻的P元素屬性是時(shí)間范圍。第三方軟件工具根據(jù)該時(shí)間信息、頻率信息來(lái)定位到具體的幀,但本方法不描述幀,只描述片斷,如果片斷的時(shí)間屬性為1,頻率為I時(shí),那么該片斷就是一個(gè)幀。如果時(shí)間為場(chǎng)景的時(shí)間長(zhǎng)度,頻率為25時(shí),該片斷可能就是一個(gè)場(chǎng)景。此外,為了讓其它工具更好識(shí)別本發(fā)明對(duì)音視頻內(nèi)容所作的語(yǔ)義描述,我們可以對(duì)語(yǔ)義描述中所用到的一些詞可以做一個(gè)規(guī)范,形成一個(gè)語(yǔ)義字典。例如,對(duì)OP i = (O i, A i, AK i,C i)中的每個(gè)取值做如下說(shuō)明屬性名、取值范圍、詳細(xì)說(shuō)明O.屬性名=主體詞;O.取值范圍=任意名詞;O.說(shuō)明=語(yǔ)義所描述的對(duì)象A.屬性名=謂體詞;A.取值范圍=任意動(dòng)詞或系動(dòng)詞+名詞;A.說(shuō)明=語(yǔ)義所描述的對(duì)象的功能性說(shuō)明;AK.屬性名=謂體詞的補(bǔ)充說(shuō)明;AK.取值范圍=任意詞;AK.說(shuō)明=語(yǔ)義所描述的對(duì)象的功能性說(shuō)明的進(jìn)一步補(bǔ)充C.屬性名=約束條件;C.取值范圍=多元詞組;C.說(shuō)明=從多個(gè)方面來(lái)說(shuō)明對(duì)象功能的條件本發(fā)明中的結(jié)構(gòu)字典和語(yǔ)義字典均通過(guò)XML Schema聲明發(fā)布,并且在具體標(biāo)注過(guò)程中要不斷更新字典與XML Schema文件,音視頻文件中的片斷結(jié)構(gòu)與語(yǔ)義是通過(guò)XML語(yǔ)言來(lái)描述的,這時(shí)就需要一個(gè)Schema文件對(duì)該描述是否規(guī)范、是否存在語(yǔ)法錯(cuò)誤、是否符合自定義的字典要求等內(nèi)容進(jìn)行這些語(yǔ)法驗(yàn)證,這個(gè)Schema文件就是字典的發(fā)布形式。(2)導(dǎo)入音視頻文件并把音視頻內(nèi)容拆分成多個(gè)片斷;在該步驟中,可以開(kāi)發(fā)一個(gè)結(jié)構(gòu)拆分的計(jì)算機(jī)輔助程序,實(shí)現(xiàn)把音視頻文件按一定的規(guī)則,這個(gè)規(guī)則可以由用戶(hù)根據(jù)自己的應(yīng)用需求來(lái)確定,比如,按幀來(lái)細(xì)分視頻;或者按鏡頭來(lái)細(xì)分;或者按內(nèi)容來(lái)細(xì)分。分解成若干個(gè)內(nèi)容連續(xù)的片斷,每個(gè)片斷可以是傳統(tǒng)意義的結(jié)構(gòu)單元,也可以是包含這些結(jié)構(gòu)單元,但本身并不是結(jié)構(gòu)單元的片斷。由此,音視頻內(nèi)容是由片斷組成,但是所有片斷組成的內(nèi)容卻可能比原音視頻文件有許多重復(fù)冗余。拆分的大小取決于使用者所企望的應(yīng)用效果。節(jié)目、片斷、場(chǎng)景、鏡頭是一種組織規(guī)則,是邏輯規(guī)則,不是物理組織,一個(gè)原始音視頻流,在邏輯劃分之前與之后,都是一個(gè)完整的流文件,這些邏輯規(guī)則在流文件之外以一個(gè)XML文件的形式描述,該XML文件中除了邏輯結(jié)構(gòu)描述,還有音視頻文件的來(lái)源鏈接。節(jié)目、片斷、場(chǎng)景、鏡頭是基于拍攝而設(shè)計(jì)的邏輯規(guī)則,主要來(lái)源于對(duì)傳統(tǒng)片源的管理,本發(fā)明打破這種邏輯規(guī)則,是以?xún)?nèi)容為核心而設(shè)計(jì)的邏輯規(guī)則,不考慮該視頻的拍攝情況。因?yàn)橛脩?hù)關(guān)心的是內(nèi)容。該分割方式與圖書(shū)不同點(diǎn)在于該XML文件中包含的是音視頻文件的鏈接,電子圖書(shū)的XML包含的是文字內(nèi)容、圖片鏈接等。無(wú)論是電子圖書(shū)還是音視頻文件,拆分都不是物理拆分,都是邏輯描述。傳統(tǒng)意義上是通過(guò)固定層次嵌套的方式來(lái)描述音視頻文件的結(jié)構(gòu),而本發(fā)明則用并列的片斷,非嵌套的方式描述音視頻結(jié)構(gòu),這種方法更加靈活,更便于計(jì)算機(jī)識(shí)別內(nèi)容。本發(fā)明中將片斷記為S.,片斷S組成的集合為B,稱(chēng)之為“片斷集合B”,B包含了音視頻的所有內(nèi)容,并存在冗余。記為B = {Si I i e N};存在i,j e N,使得 Si n Sj 關(guān) Φ,;
如果集合BM = {Si I i e N};并且i、對(duì)于任意 i,j,i,j e N,都有 Si n Sj = Φ ;ii、BM包含音視頻文件所有內(nèi)容成立那么,BM稱(chēng)為最小片斷集合。BM是沒(méi)有冗余的音視頻內(nèi)容的集合。一個(gè)音視頻文件可以存在多個(gè)BM。其中任何一個(gè)Si的內(nèi)容在音視頻文件中的表現(xiàn)是連續(xù)的;其次,片斷S之間沒(méi)有先后順序,但可以通過(guò)工具讀取S的ID屬性來(lái)判斷其在音視頻文件中的順序;此外,片斷S之間沒(méi)有相互包含關(guān)系,可以通過(guò)工具讀取S的ID屬性來(lái)判斷其在音視頻文件中的關(guān)系。在對(duì)音視頻內(nèi)容進(jìn)行拆分時(shí)要保證1)這些片斷之間是并列的,而不是傳統(tǒng)的層次嵌套關(guān)系,并且片斷之間可以有交集。2)拆分時(shí)要讀取片斷在原音視頻文件中的位置信息,并保存在XML文件中。音視頻的內(nèi)容可以看成一個(gè)一維的陣列,在一個(gè)一維陣列中可以任意提取一個(gè)子列。因此,音視頻內(nèi)容可以很容易地被人工或工具拆分成沒(méi)有嵌套及先后順序關(guān)系的任意大小的片斷。(3)為每個(gè)片斷賦予用于標(biāo)出其在音視頻文件中的先后順序及嵌套關(guān)系的結(jié)構(gòu)屬性,生成一個(gè)具有先后順序及嵌套關(guān)系的XML文件;在此步驟中,可以開(kāi)發(fā)一個(gè)計(jì)算機(jī)程序,把這些音視頻文件中的片斷作為XML元素,生成一個(gè)以片斷為元素的XML文件。這時(shí)候,各個(gè)元素之間是完全并列、并且可能存在大量的重復(fù)內(nèi)容。并可以通過(guò)一個(gè)XML編輯軟件,對(duì)所產(chǎn)生的XML文件進(jìn)行結(jié)構(gòu)屬性賦值。賦值的方式可以是手工輸入,也可以通過(guò)計(jì)算機(jī)程序根據(jù)片斷的一些特征進(jìn)行自動(dòng)賦值。根據(jù)每一個(gè)片斷在音視頻文件中的位置信息,應(yīng)用XML技術(shù)給這些片段賦予結(jié)構(gòu)屬性(SS= {BID,SID,N,P}),那么雖然分割的片斷是無(wú)序、無(wú)嵌套關(guān)系的,但是通過(guò)這些結(jié)構(gòu)屬性是可以判斷出每個(gè)片斷的先后順序及嵌套關(guān)系。對(duì)于任意片斷S,用集合SS來(lái)描述S的結(jié)構(gòu)特征.SS = {BID, SID, N, P}其中,BID :音視頻文件唯一的ID號(hào)。
SID :片斷S的ID號(hào),形式定義為:“C1. C2. C3. C4. C5”其中Cl :類(lèi)別,C2 :節(jié)目,C3 :段,C4 :鏡頭,C5 :幀N :片斷的序列號(hào),η = 1,2,3......neNP :二元數(shù)組(PI,P2),表示原音視頻文件中時(shí)間的范圍,(視頻以24幀/秒換算)。PI,P2 e N ;(4)在所述XML文件中分別對(duì)每個(gè)片斷進(jìn)行語(yǔ)義描述賦值,形成一個(gè)新的XML文件;在該步驟中,可以開(kāi)發(fā)一個(gè)語(yǔ)義標(biāo)注程序,實(shí)現(xiàn)對(duì)第(3)步所產(chǎn)生的XML文件進(jìn)行語(yǔ)義屬性的賦值;
這一步必須是手工填加,實(shí)現(xiàn)對(duì)片斷內(nèi)容的抽象過(guò)程。對(duì)于片斷S,用DD描述語(yǔ)義特征.I、DD = U {OP i},OP i = (O i,A i, AK i, C i)S卩,用多個(gè)屬性組合(OP i)從其用途、意義、內(nèi)容概括、相關(guān)問(wèn)題等多方面來(lái)描述片斷⑶的語(yǔ)義。其中,DD為功能語(yǔ)義描述集合;它由若干功能的語(yǔ)義描述組成。功能語(yǔ)義描述OPi是一個(gè)四元組。其中O i表示語(yǔ)義的本體;A i為語(yǔ)義的謂體;AK i為A i的補(bǔ)充關(guān)鍵字;C i為約束條件,是一個(gè)多元組1C’ li,C’ 2i,C’ 3i}C,Ii = {NAME,VALUE}C,2i = {NAME, VALUE}C,3i = {NAME, VALUE}舉例,對(duì)于軟件類(lèi)音視頻教材的C’ 1,C’2,C’3,可以分別取值為C’ I. name =“類(lèi)別”,C’ 2. name = “軟件名稱(chēng)”,C’ 3. name = “版本”又例DD =( “圖層”,”創(chuàng)建”,“ ”,(”案例”,“PHOTOSHOP”,“CS5” ))U ( “照片”,“修改”,“去皺紋”,(“案例”,“PHOTOSHOP”,“CS5”))對(duì)此語(yǔ)義描述的解釋說(shuō)明如下本片斷內(nèi)容講述了圖層創(chuàng)建的案例,所用的軟件是PH0T0SH0PCS5。同時(shí)也是一個(gè)去除照片上皺紋的案例.所用的軟件是PH0T0SH0PCS5。這樣的語(yǔ)義描述從不同的角度及應(yīng)用領(lǐng)域描述了這段視頻教材內(nèi)容,這樣的描述是可以被工具識(shí)別的,同時(shí)也可以把讀者的訴求與這段內(nèi)容聯(lián)系在一起。(5)對(duì)新的XML文件添加X(jué)ML Schema聲明、版權(quán)聲明、音視頻文件的位置,最終形成的描述音視頻內(nèi)容的XML文件或者對(duì)新的XML文件添加X(jué)ML Schema聲明、版權(quán)聲明,并存入原音視頻文件中,產(chǎn)生一個(gè)新的音視頻文件。在該步驟中,可以開(kāi)發(fā)一個(gè)基于語(yǔ)義描述的XML文件的導(dǎo)出程序,實(shí)現(xiàn)對(duì)填加語(yǔ)義屬性的XML文件語(yǔ)法檢查、增加X(jué)ML Schema、版權(quán)的聲明,以及原音視頻文件的位置,可以是絕對(duì)地址,也可以是相對(duì)地址,也可以是包文件中的地址。最終用戶(hù)、計(jì)算機(jī)軟件可以根據(jù)該XML文件來(lái)檢索并讀取對(duì)應(yīng)的音視頻內(nèi)容。此外,對(duì)于對(duì)新的XML文件,也可以在添加X(jué)ML Schema聲明、版權(quán)聲明之后,把該XML文件存入原音視頻文件中,產(chǎn)生一個(gè)新的音視頻文件。各種音視頻播放器軟件可以直接讀取該音視頻文件中的XML數(shù)據(jù),可以在一個(gè)音視頻文件中檢索內(nèi)容。下面以具體實(shí)施例來(lái)具體描述本發(fā)明的執(zhí)行過(guò)程。第一步,數(shù)據(jù)輸入取自任意一個(gè)音視頻文件,本文以MP4格式的音視頻文件為例,說(shuō)明本方案的實(shí)施過(guò)程。用相應(yīng)的軟件打開(kāi)這種格式的音視頻文件,如《MICROSOFT WORD))視頻教學(xué)?;蛘邌?dòng)《希望結(jié)構(gòu)拆分工具》,運(yùn)行“文件導(dǎo)入”功能,把音視頻文件導(dǎo)入系統(tǒng)。第二步,數(shù)據(jù)的結(jié)構(gòu)處理 用《希望結(jié)構(gòu)拆分工具》中的“選擇”工具,依次把音視頻內(nèi)容中的片斷,按照用戶(hù)所需要的方式標(biāo)注出來(lái),在屬性編輯器中,嚴(yán)格按照本發(fā)明的方法為每一個(gè)內(nèi)容定義其結(jié)構(gòu)屬性,輸出一個(gè)XML文件。其特點(diǎn)是每個(gè)片斷(元素)之間是并列關(guān)系,但每個(gè)片斷都具有反映層次關(guān)系的結(jié)構(gòu)屬性。第三步,數(shù)據(jù)的語(yǔ)義處理運(yùn)行《希望語(yǔ)義標(biāo)注系統(tǒng)》,導(dǎo)入上一環(huán)節(jié)輸出的XML文件,在系統(tǒng)中運(yùn)行“生成層次結(jié)構(gòu)”功能,此功能讀取XML文件各個(gè)元素的結(jié)構(gòu)屬性,并根據(jù)其屬性來(lái)判斷各元素的先后與層次關(guān)系。運(yùn)行“瀏覽XML”功能,在瀏覽窗口中查看XML文件,這時(shí)的XML文件是具有先后順序及層次關(guān)系的,進(jìn)一步瀏覽并檢查是否有錯(cuò)誤,如果有,可以用鼠標(biāo)拖動(dòng)方式調(diào)整位置關(guān)系O運(yùn)行“語(yǔ)義標(biāo)注”功能,然后對(duì)每一個(gè)元素(片斷內(nèi)容)進(jìn)行語(yǔ)義屬性標(biāo)注。標(biāo)注過(guò)程中系統(tǒng)會(huì)自動(dòng)檢查標(biāo)注是否合法。第四步,數(shù)據(jù)輸出I運(yùn)行“輸出XML”功能,系統(tǒng)即可在現(xiàn)有的XML文件中,加入相應(yīng)的XML Schema、版權(quán)聲明、音視頻文件位置等內(nèi)容。在“保存文件”的提示下,輸出一個(gè)具有結(jié)構(gòu)及語(yǔ)義的XML文件。第五步,數(shù)據(jù)輸出2運(yùn)行“輸出音視頻”功能,系統(tǒng)即可在現(xiàn)有的XML文件中,加入相應(yīng)的XML Schema、版權(quán)聲明,同時(shí)把該XML文件內(nèi)容存入音視頻文件中。在“保存文件”的提示下,輸出一個(gè)具有結(jié)構(gòu)及語(yǔ)義的音視頻文件。本發(fā)明能夠?qū)崿F(xiàn)音視頻文件的片斷內(nèi)容的語(yǔ)義描述,音視頻文件不再是完整的一部,而是被有目的地分成若干個(gè)片斷,每一個(gè)片斷都對(duì)應(yīng)著讀者的一個(gè)或多個(gè)訴求,海量的圖書(shū)最終形成了海量的知識(shí)庫(kù),而不是簡(jiǎn)單的數(shù)據(jù)庫(kù)。讀者的每一個(gè)問(wèn)題都能從知識(shí)庫(kù)中檢索到一個(gè)或多個(gè)答案,這完全高于關(guān)鍵字的檢索效果,這在垃圾數(shù)據(jù)日益膨脹的未來(lái)更加重要與迫切。本方法完全拋棄目前廣電的標(biāo)準(zhǔn),以片斷為核心的描述方法,使之更加適合目前的微視頻、網(wǎng)絡(luò)視頻、音視頻的精確檢索的應(yīng)用。本發(fā)明專(zhuān)利屬于用于外部數(shù)據(jù)處理的涉及計(jì)算機(jī)程序的發(fā)明專(zhuān)利。本發(fā)明專(zhuān)利的實(shí)質(zhì)是利用一個(gè)計(jì)算機(jī)程序在公知計(jì)算機(jī)上對(duì)音視頻文件數(shù)據(jù)進(jìn)行處理以實(shí)現(xiàn)音視頻文件內(nèi)部?jī)?nèi)容的語(yǔ)義描述目標(biāo)。對(duì)音視頻文件內(nèi)容的結(jié)構(gòu)化,并對(duì)其中的片斷內(nèi)容進(jìn)行語(yǔ)義描述處理是其要解決的技術(shù)問(wèn)題,獲得了具有內(nèi)容語(yǔ)義描述的音視頻文件以及可獨(dú)立應(yīng)用的XML文件是其技術(shù)效果。最后應(yīng)當(dāng)說(shuō)明的是以上實(shí)施例僅用以說(shuō) 明本發(fā)明的技術(shù)方案而非對(duì)其限制;盡管參照較佳實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,所屬領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解依然可以對(duì)本發(fā)明的具體實(shí)施方式
進(jìn)行修改或者對(duì)部分技術(shù)特征進(jìn)行等同替換;而不脫離本發(fā)明技術(shù)方案的精神,其均應(yīng)涵蓋在本發(fā)明請(qǐng)求保護(hù)的技術(shù)方案范圍當(dāng)中。
權(quán)利要求
1.一種對(duì)音視頻內(nèi)容進(jìn)行語(yǔ)義描述的方法,其特征在于包括如下步驟 (1)定義一種結(jié)構(gòu)字典與語(yǔ)義字典,并用XML語(yǔ)言按照其中規(guī)定了音視頻內(nèi)容中對(duì)結(jié)構(gòu)及語(yǔ)義描述的規(guī)則與賦值范圍的結(jié)構(gòu)字典與語(yǔ)義字典寫(xiě)一個(gè)XML Schema文件; (2)導(dǎo)入音視頻文件并把音視頻內(nèi)容拆分成多個(gè)片斷; (3)為每個(gè)片斷賦予用于標(biāo)出其在音視頻文件中的先后順序及嵌套關(guān)系的結(jié)構(gòu)屬性,生成一個(gè)具有先后順序及嵌套關(guān)系的XML文件; (4)在所述XML文件中分別對(duì)每個(gè)片斷進(jìn)行語(yǔ)義描述賦值,形成一個(gè)新的XML文件; (5)對(duì)新的XML文件添加X(jué)MLSchema聲明、版權(quán)聲明、音視頻文件的位置,最終形成的 描述音視頻內(nèi)容的XML文件或者對(duì)新的XML文件添加X(jué)ML Schema聲明、版權(quán)聲明,并存入原音視頻文件中,產(chǎn)生一個(gè)新的音視頻文件。
2.根據(jù)權(quán)利要求I所述的對(duì)音視頻內(nèi)容進(jìn)行語(yǔ)義描述的方法,其特征在于 對(duì)音視頻文件進(jìn)行拆分時(shí),所述的多個(gè)片斷之間是以并列的而非嵌套的,并且每個(gè)片段內(nèi)部的內(nèi)容在音視頻文件中的表現(xiàn)是連續(xù)的,并且片斷之間可以有交集。
3.根據(jù)權(quán)利要求I所述的對(duì)音視頻內(nèi)容進(jìn)行語(yǔ)義描述的方法,其特征在于 對(duì)音視頻文件進(jìn)行拆分時(shí)要讀取片斷在原音視頻文件中的先后順序及位置信息,并保存在XML文件中。
4.根據(jù)權(quán)利要求I所述的對(duì)音視頻內(nèi)容進(jìn)行語(yǔ)義描述的方法,其特征在于 對(duì)每個(gè)片斷進(jìn)行結(jié)構(gòu)屬性賦值的方式可以是手工輸入,也可以通過(guò)計(jì)算機(jī)程序根據(jù)片斷的先后順序及位置信息計(jì)算,自動(dòng)賦值。
5.根據(jù)權(quán)利要求I所述的對(duì)音視頻內(nèi)容進(jìn)行語(yǔ)義描述的方法,其特征在于對(duì)每個(gè)片斷進(jìn)行語(yǔ)義描述的方式是通過(guò)多個(gè)多元數(shù)組進(jìn)行人工賦值,其中單個(gè)多元數(shù)組中的元素之間具有固定的邏輯關(guān)系。
6.一種對(duì)音視頻內(nèi)容進(jìn)行語(yǔ)義描述的系統(tǒng),其特征在于包括 (1)定義一種結(jié)構(gòu)字典與語(yǔ)義字典,并用XML語(yǔ)言按照其中規(guī)定了音視頻內(nèi)容中對(duì)結(jié)構(gòu)及語(yǔ)義描述的規(guī)則與賦值范圍的結(jié)構(gòu)字典與語(yǔ)義字典寫(xiě)一個(gè)XML Schema文件的裝置; (2)用于導(dǎo)入音視頻文件并把音視頻文件拆分成多個(gè)片斷的裝置; (3)用于為每個(gè)片斷賦予用于標(biāo)出其在音視頻文件中的先后順序及嵌套關(guān)系的結(jié)構(gòu)屬性,生成一個(gè)具有先后順序及嵌套關(guān)系的XML文件的裝置; (4)用于在所述XML文件中分別對(duì)每個(gè)片斷進(jìn)行語(yǔ)義描述賦值,形成一個(gè)新的XML文件的裝置; (5)用于對(duì)新的XML文件添加X(jué)MLSchema聲明、版權(quán)聲明、音視頻文件的位置,最終形成的描述音視頻內(nèi)容的XML文件或者對(duì)新的XML文件添加X(jué)ML Schema聲明、版權(quán)聲明,并存入原音視頻文件中,產(chǎn)生一個(gè)新的音視頻文件的裝置。
7.根據(jù)權(quán)利要求6所述的對(duì)音視頻內(nèi)容進(jìn)行語(yǔ)義描述的系統(tǒng),其特征在于 所述的多個(gè)片斷之間是以并列的而非嵌套的,并且每個(gè)片段內(nèi)部的內(nèi)容在音視頻文件中的表現(xiàn)是連續(xù)的,并且片斷之間可以有交集。
8.根據(jù)權(quán)利要求6所述的對(duì)音視頻內(nèi)容進(jìn)行語(yǔ)義描述的系統(tǒng),其特征在于 對(duì)音視頻文件進(jìn)行拆分時(shí)要讀取片斷在原音視頻文件中的位置與順序信息,并保存在XML文件中。
9.根據(jù)權(quán)利要求6所述的對(duì)音視頻內(nèi)容進(jìn)行語(yǔ)義描述的系統(tǒng),其特征在于對(duì)每個(gè)片斷進(jìn)行結(jié)構(gòu)屬性賦值的方式可以是手工輸入,也可以通過(guò)計(jì)算機(jī)程序根據(jù)片斷的特征進(jìn)行自動(dòng)賦值。
10.根據(jù)權(quán)利要求6所述的對(duì)音視頻內(nèi)容進(jìn)行語(yǔ)義描述的系統(tǒng),其特征在于對(duì)每個(gè)片斷進(jìn)行語(yǔ)義描述的方式是通過(guò)多個(gè)多元數(shù)組進(jìn)行人工賦值,其中單個(gè)多元數(shù)組中的元素之間具有固定的邏輯關(guān)系。
全文摘要
一種對(duì)音、視頻內(nèi)容進(jìn)行語(yǔ)義描述的方法和系統(tǒng),其首先把音、視頻內(nèi)容拆分成多個(gè)片斷,并為每個(gè)片斷賦予用于標(biāo)出每個(gè)片斷的先后順序及嵌套關(guān)系的結(jié)構(gòu)屬性,生成一個(gè)具有先后順序及嵌套關(guān)系的XML文件;其次在所述XML文件中分別對(duì)每個(gè)片斷根據(jù)構(gòu)字典與語(yǔ)義字典進(jìn)行語(yǔ)義描述,形成一個(gè)新的XML文件;最后對(duì)新的XML文件添加X(jué)ML Schema聲明、版權(quán)聲明,并將其加入原音視頻文件中,產(chǎn)生一個(gè)包含該XML文件的音視頻文件,同時(shí)也可以在該新的XML文件中加入相應(yīng)音視頻文件片斷的位置,生成與原音視頻文件對(duì)應(yīng)的XML文件。由此可以實(shí)現(xiàn)基于音視頻文件本身或者基于與原音視頻文件對(duì)應(yīng)的XML文件對(duì)音視頻進(jìn)行更精確的檢索。
文檔編號(hào)G06F17/30GK102663095SQ20121010513
公開(kāi)日2012年9月12日 申請(qǐng)日期2012年4月11日 優(yōu)先權(quán)日2012年4月11日
發(fā)明者張訓(xùn)軍 申請(qǐng)人:北京中科希望軟件股份有限公司