專利名稱:用于自動(dòng)生成多媒體文件概要的方法和設(shè)備的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種用于自動(dòng)生成多媒體文件的多個(gè)概要的方法和設(shè)備。特別地,但
并不排他地,本發(fā)明涉及的是產(chǎn)生捕獲到的視頻的概要。
背景技術(shù):
對(duì)于例如經(jīng)常捕獲視頻的人來(lái)說(shuō),概要生成是非常有用的?,F(xiàn)今有越來(lái)越多的人 經(jīng)常捕獲視頻。這是因?yàn)閷S迷O(shè)備(例如攝錄像機(jī))的攝影機(jī)或蜂窩電話中內(nèi)置的攝影機(jī) 具有廉價(jià)、簡(jiǎn)單和輕松的可用性。由此,用戶的視頻記錄集合有可能過(guò)大,致使回顧和瀏覽 越發(fā)困難。 但是,在捕獲事件視頻的過(guò)程中,原始視頻素材有可能很長(zhǎng),并且觀看過(guò)程有可能 會(huì)相當(dāng)令人厭煩。而較為理想的則是編輯原始素材來(lái)顯示主要事件的發(fā)生。由于視頻是很 大的數(shù)據(jù)流,因此,在"場(chǎng)景"級(jí)、也就是在本來(lái)就合在一起的一組快照中很難執(zhí)行訪問(wèn)、分 割、改變、部分提取以及整合處理、也就是編輯處理來(lái)創(chuàng)建場(chǎng)景。為了以一種省錢(qián)又方便的 方式來(lái)幫助用戶,有好幾種商業(yè)軟件包可以用于允許用戶編輯其記錄。 此類已知軟件包的一個(gè)示例是一種全面強(qiáng)大的工具,它被稱為非線性視頻編輯工 具,并且為用戶提供了全面的幀級(jí)控制。但是,用戶必須熟悉用原始素材組成預(yù)期視頻電 影膠片的技術(shù)和審美層面。關(guān)于此類軟件包的具體示例是"Adobe Premiere"以及可以在 www. ulead. com/vs找至lj的"Ulead Video Studio 9"。 在使用此類軟件包的過(guò)程中,用戶完全控制了最終結(jié)果。用戶能夠在幀級(jí)別上精 確選擇將要包含在概要中的視頻文件分段。而這些已知軟件包的問(wèn)題則在于需要高端的個(gè) 人計(jì)算機(jī)以及基于鼠標(biāo)的完善用戶界面來(lái)執(zhí)行編輯操作,由此導(dǎo)致幀級(jí)編輯極為艱巨、麻 煩和耗時(shí)。此外,這些程序需要漫長(zhǎng)和陡峭的學(xué)習(xí)曲線,并且用戶有必要成為高級(jí)的業(yè)余愛(ài) 好者或者專家,以便使用所述程序來(lái)工作,此外,用戶還需要熟悉概要編輯處理的技術(shù)和審 美層面。 已知軟件包的另一個(gè)示例包括全自動(dòng)程序。這些程序自動(dòng)產(chǎn)生原始素材的概要, 包含并且編輯素材的一些部分并且丟棄其他部分。用戶可以控制編輯算法的某些參數(shù),例 如整體風(fēng)格和音樂(lè)。但是,這些軟件包也存在著問(wèn)題,那就是用戶只能規(guī)定整體設(shè)置。這意 味著用戶對(duì)于要將素材的哪些部分包含在概要中的影響是非常有限的。關(guān)于此類軟件包的 具體不例是"Pinnacle Studio"的"smart movie"功會(huì)g (其可以在www. pi皿aclesys. com J戈至ll )以及"Muvee autoProducer"(其可以在www. muvee. com J戈至lJ )。
在一些軟件解決方案中,我們可以素材中選擇一些確定最終出現(xiàn)在概要中的部 分,并且可以在素材中選擇確定最終不出現(xiàn)在摘要中的部分。但是,自動(dòng)編輯器仍舊可以根 據(jù)它認(rèn)為是最為便利的部分來(lái)自由選擇剩余部分。因此,在顯示概要之前,用戶是不知道素 材中的哪些部分會(huì)被包含在概要中的。最為重要的是,如果用戶希望發(fā)現(xiàn)那些從概要中刪 掉的視頻部分,那么用戶需要查看整個(gè)記錄,并且將其與自動(dòng)生成的概要相比較,此過(guò)程是 非常耗時(shí)的。
4
另一種用于概括視頻記錄的已知系統(tǒng)是由US2004/0052505公開(kāi)的。在該公開(kāi)中, 從單個(gè)視頻記錄中生成了多個(gè)視頻概要,由此,視頻記錄第一概要中的分段并未包含在從 同一視頻記錄創(chuàng)建的其他概要中。這些概要是根據(jù)自動(dòng)技術(shù)創(chuàng)建的,并且多個(gè)概要可被保 存,以便選擇或創(chuàng)建最終概要。但是,這些概要是使用相同的選擇技術(shù)創(chuàng)建的,并且包含的 是相似的內(nèi)容。在考慮已被排除在外的內(nèi)容時(shí),用戶必須查看所有概要,這是很耗時(shí)和麻煩 的。此外,由于使用同一選擇技術(shù)來(lái)創(chuàng)建概要,因此,概要內(nèi)容將會(huì)非常相似,并且不太可能 包含用戶希望包含在最終概要中的部分,因?yàn)檫@些部分將會(huì)改變?cè)籍a(chǎn)生的概要的總體內(nèi) 容。 概括地說(shuō),上述已知系統(tǒng)的問(wèn)題在于它們沒(méi)有為用戶提供對(duì)于不包含在自動(dòng)生 成的概要的分段的便利訪問(wèn)、控制或概觀。這對(duì)于較大的概要壓縮(也就是只包含原始多 媒體文件中的很小一部分的概要)來(lái)說(shuō)尤其是一個(gè)問(wèn)題,因?yàn)橛脩魹榱舜_定被排除的分段 必需觀看所有的多媒體文件,并且將其與自動(dòng)生成的概要進(jìn)行比較。這對(duì)用戶來(lái)說(shuō)構(gòu)成了 一個(gè)困難和麻煩的問(wèn)題。 雖然上述文件是針對(duì)視頻捕獲提及的,但是很容易了解的是,這些問(wèn)題在生成任 何多媒體文件概要的處理中都是存在的,所述多媒體文件例如為照片和音樂(lè)集合。
發(fā)明內(nèi)容
本發(fā)明尋求提供一種用于自動(dòng)生成多媒體文件的多個(gè)概要的方法,該方法克服了
與已知方法相關(guān)的缺陷。特別地,本發(fā)明試圖通過(guò)不僅自動(dòng)生成第一概要而且還生成第一 概要中未包含的多媒體文件分段的概要來(lái)提擴(kuò)展已知系統(tǒng)。因此,本發(fā)明通過(guò)為用戶提供 更多控制和概觀而擴(kuò)展了早先論述的第二組軟件包,而無(wú)需進(jìn)入復(fù)雜的非線性編輯領(lǐng)域。 根據(jù)本發(fā)明的一個(gè)方面,這個(gè)目標(biāo)是通過(guò)一種用于自動(dòng)生成多媒體文件的多個(gè)概
要的方法來(lái)實(shí)現(xiàn)的,該方法包括以下步驟產(chǎn)生多媒體文件的第一概要;產(chǎn)生多媒體文件
的至少一個(gè)第二概要,所述至少一個(gè)第二概要包含被排除在第一概要之外的內(nèi)容,其中所
述至少一個(gè)第二概要的內(nèi)容被選擇成使其在語(yǔ)義上不同于第一概要的內(nèi)容。 根據(jù)本發(fā)明的另一個(gè)方面,這個(gè)目標(biāo)是通過(guò)一種用于自動(dòng)生成多媒體文件的多個(gè)
概要的設(shè)備來(lái)實(shí)現(xiàn)的,該設(shè)備包括用于產(chǎn)生多媒體文件的第一概要的裝置;以及用于產(chǎn)
生多媒體文件的至少一個(gè)第二概要的裝置,所述至少一個(gè)第二概要包含被排除在第一概要
之外的內(nèi)容,其中,所述至少一個(gè)第二概要的內(nèi)容被選擇成使其在語(yǔ)義上不同于第一概要
的內(nèi)容。 這樣一來(lái),為用戶提供了第一概要以及至少一個(gè)包含了從第一概要中省略的多媒 體文件分段的第二概要。用于生成多媒體文件概要的方法不僅僅是一種常規(guī)的內(nèi)容概要算 法,而且還允許產(chǎn)生多媒體文件中的缺失分段的概要。這些缺失分段被選擇成使它們?cè)谡Z(yǔ) 義上不同于為第一概要選擇的分段,由此為用戶給出關(guān)于文件整體內(nèi)容的清楚指示,并且 為用戶提供關(guān)于文件內(nèi)容概要的不同概觀。 根據(jù)本發(fā)明,至少一個(gè)第二概要的內(nèi)容可被選擇成使得其在語(yǔ)義上與第一概要的
內(nèi)容最不相同。這樣一來(lái),缺失分段的概要將會(huì)集中在與第一概要包含的分段最為不同的
多媒體文件分段上,由此為用戶提供范圍更完整的文件內(nèi)容的概要概觀。 根據(jù)本發(fā)明的一個(gè)實(shí)施例,多媒體文件被分成了多個(gè)分段,并且產(chǎn)生至少一個(gè)第二概要的步驟包括以下步驟確定第一概要包含的分段與排除在第一概要之外的分段之間 的語(yǔ)義距離的量度(measure);將語(yǔ)義距離量度高出閾值的分段包含在至少一個(gè)第二概要 中。 根據(jù)本發(fā)明的一個(gè)替換實(shí)施例,多媒體文件被分成了多個(gè)分段,并且產(chǎn)生至少一
個(gè)第二概要的步驟包括以下步驟確定第一概要包含的分段與排除在第一概要之外的分段
之間的語(yǔ)義距離量度;將語(yǔ)義距離量度最高的分段包含在至少一個(gè)第二概要中。 這樣一來(lái),至少一個(gè)第二概要有效包含了從第一概要中排除的內(nèi)容,而不會(huì)用過(guò)
多的細(xì)節(jié)致使用戶負(fù)擔(dān)過(guò)重。這一點(diǎn)在多媒體文件遠(yuǎn)遠(yuǎn)大于第一概要的情況下非常重要,
因?yàn)檫@意味著未包含在第一概要中的分段數(shù)量要遠(yuǎn)遠(yuǎn)大于第一概要中的分段。此外,通過(guò)
將具有最高語(yǔ)義距離量度的分段包含在至少一個(gè)第二概要中,所述至少一個(gè)第二概要將會(huì)
更為簡(jiǎn)潔,以便允許用戶有效和高效地瀏覽和選擇,而這顧及了用戶的注意力和時(shí)間能力。 該語(yǔ)義距離可以從多媒體文件多個(gè)分段的音頻和/或視頻內(nèi)容中確定。 作為替換,該語(yǔ)義距離可以從多媒體文件多個(gè)分段的顏色直方圖距離和/或時(shí)間
距離中確定。 該語(yǔ)義差別可以從位置數(shù)據(jù)、和/或個(gè)人數(shù)據(jù)、和/或焦點(diǎn)對(duì)象數(shù)據(jù)中確定。這樣 一來(lái),可以通過(guò)尋找未出現(xiàn)在已包含的分段中的人、位置以及焦點(diǎn)對(duì)象(也就是占據(jù)了多 個(gè)幀中的很大一部分的對(duì)象)來(lái)發(fā)現(xiàn)缺失的分段。 根據(jù)本發(fā)明,該方法還可以包括以下步驟選擇至少一個(gè)第二概要的至少一個(gè)分
段;以及將所選擇的至少一個(gè)分段合并到第一概要中。這樣一來(lái),用戶能夠輕易選擇將要包
含在第一概要中的第二概要的分段,從而創(chuàng)建更為個(gè)性化的概要。 包含在至少一個(gè)第二概要中的分段可以分組,以使分段內(nèi)容相似。 多個(gè)第二概要可以根據(jù)其與第一概要內(nèi)容的相似度而被組織,以便瀏覽所述多個(gè)
第二概要。這樣一來(lái),所述多個(gè)第二概要將被有效和高效地顯示給用戶。 應(yīng)該指出的是,本發(fā)明可以應(yīng)用于硬盤(pán)記錄器、攝錄像機(jī)、視頻編輯軟件。由于其
非常簡(jiǎn)單,因此,用戶界面很容易在硬盤(pán)記錄器之類的消費(fèi)類產(chǎn)品中實(shí)施。
為了更完整地理解本發(fā)明,在這里將會(huì)結(jié)合附圖來(lái)參考以下描述,其中
圖1是根據(jù)現(xiàn)有技術(shù)來(lái)自動(dòng)生成多媒體文件的多個(gè)概要的已知方法的流程圖;
圖2是根據(jù)本發(fā)明實(shí)施例的設(shè)備的簡(jiǎn)化示意圖;以及 圖3是根據(jù)本發(fā)明實(shí)施例來(lái)自動(dòng)生成多媒體文件的多個(gè)概要的方法的流程圖。
具體實(shí)施例方式
現(xiàn)在將參考圖1來(lái)描述用于自動(dòng)生成多媒體文件概要的典型已知系統(tǒng)。
參考圖l,在步驟102,首先將會(huì)引入多媒體文件。 然后,在步驟104,將會(huì)根據(jù)從多媒體文件中提取的特征(例如低級(jí)視聽(tīng)特征)而 對(duì)多媒體文件進(jìn)行分段,在步驟106,用戶可以設(shè)置分段參數(shù)(例如面部和攝像機(jī)運(yùn)動(dòng)的存 在),并且還可以手動(dòng)指示哪些分段應(yīng)該確定地最終出現(xiàn)在所述概要中。
在步驟108,系統(tǒng)根據(jù)內(nèi)部和/或用戶定義的設(shè)置來(lái)自動(dòng)生成多媒體文件內(nèi)容的包含在多媒體文件概要中的分段。 然后,在步驟110,生成的概要被顯示給用戶。通過(guò)觀看概要,用戶能夠看出在該概 要中包含了哪些分段。但是,除非用戶觀看整個(gè)多媒體文件并且將其與生成的概要相比較, 否則用戶無(wú)從知曉在該概要中排除了哪些分段。 在步驟112,用戶被要求給出反饋。如果用戶提供了反饋,那么所提供的反饋將別 傳送到自動(dòng)編輯器(步驟114),并且,相應(yīng)地,在生成多媒體文件的新概要的處理中將會(huì)考 慮所述反饋(步驟108)。 這種已知系統(tǒng)的問(wèn)題在于,其沒(méi)有為用戶提供針對(duì)排除在自動(dòng)生成的概要之外的 分段的簡(jiǎn)單訪問(wèn)、控制和概觀。如果用戶希望發(fā)現(xiàn)從自動(dòng)生成的概要中排除了哪些分段,那 么用戶有必要觀看整個(gè)多媒體文件,并且將其與自動(dòng)生成的概要進(jìn)行比較,這個(gè)處理有可 能會(huì)很耗時(shí)。 現(xiàn)在將參考圖2來(lái)描述根據(jù)本發(fā)明實(shí)施例來(lái)自動(dòng)生成多媒體文件的多個(gè)概要的 設(shè)備。 參考圖2,本發(fā)明實(shí)施例的設(shè)備200包括用于輸入多媒體文件的輸入終端202。多 媒體文件經(jīng)由輸入終端202而被輸入到分段裝置204中。分段裝置204的輸出與第一生成 裝置206相連。第一生成裝置206的輸出是在輸出終端208上輸出的。第一生成裝置206 的輸出還與測(cè)量裝置210相連。測(cè)量裝置210的輸出與第二生成裝置212相連。第二生成 裝置212的輸出則是在輸出終端214上輸出的。該設(shè)備200還包括用于輸入到測(cè)量裝置 210的另一個(gè)輸入終端216。 現(xiàn)在參考圖2和3來(lái)描述圖2的設(shè)備200的操作。 參考圖2和3,在步驟302,在輸入終端202上引入和輸入多媒體文件。分段裝置 204經(jīng)由輸入終端202接收多媒體文件。在步驟304,該分段裝置204將多媒體文件分成多 個(gè)分段。在步驟306,舉例來(lái)說(shuō),用戶可以設(shè)置用于分段的參數(shù),其中該參數(shù)指示的是其希望 包含在概要中的分段。該分段裝置204將多個(gè)分段輸入到第一生成裝置206。
第一生成裝置206生成多媒體文件的第一概要(步驟308),并且在第一輸出終端 208上輸出所生成的概要(步驟310)。第一生成裝置206將所生成的概要中包含的分段以 及被排除在所生成的概要之外的分段輸入到測(cè)量裝置210。 在本發(fā)明的一個(gè)實(shí)施例中,測(cè)量裝置210確定第一概要中包含的分段與被排除在 第一概要中之外的分段之間的語(yǔ)義距離。然后,基于那些被確定為在語(yǔ)義上與第一概要中 包含的分段不同的分段,由第二生成裝置212產(chǎn)生第二概要。由此,在這里可以確定是否兩 個(gè)視頻分段包含了相關(guān)或不相關(guān)的語(yǔ)義。如果確定第一概要包含的分段與被排除在第一概 要之外的分段之間的語(yǔ)義距離很低,則所述分段具有相似的語(yǔ)義內(nèi)容。
舉例來(lái)說(shuō),測(cè)量裝置210可以根據(jù)多媒體文件的多個(gè)分段的音頻和/或視頻內(nèi)容 來(lái)確定語(yǔ)義距離。更進(jìn)一步,語(yǔ)義距離既可以基于位置數(shù)據(jù),所述獨(dú)立數(shù)據(jù)可以是獨(dú)立生成 的,例如GPS數(shù)據(jù),也可以源于對(duì)多媒體文件圖像獲取的對(duì)象的識(shí)別。該語(yǔ)義距離可以基于 個(gè)人數(shù)據(jù),所述個(gè)人數(shù)據(jù)是通過(guò)對(duì)于該多媒體文件的圖像所捕捉的人的面部識(shí)別而自動(dòng)獲 取的。該語(yǔ)義距離可以基于焦點(diǎn)對(duì)象數(shù)據(jù),也就是占據(jù)了多個(gè)幀中的很大一部分的對(duì)象。如 果第一概要中未包含的兩個(gè)或多個(gè)分段包含了某個(gè)位置、和/或某個(gè)人和/或某個(gè)焦點(diǎn)對(duì) 象的圖像,并且第一概要并未包含其他那些包含了所述某個(gè)位置、和/或某個(gè)人和/或某個(gè)
7焦點(diǎn)對(duì)象的圖像的分段,那么在第二概要中優(yōu)選包含一個(gè)或多個(gè)分段中的至少一個(gè)。 作為替換,測(cè)量裝置210可以根據(jù)多媒體文件的多個(gè)分段的顏色直方圖距離和/
或時(shí)間距離來(lái)確定語(yǔ)義距離。在這種情況下,分段i與j之間的語(yǔ)義距離是如下給出的 D(i, j) = f[Dc(i, j),DT(i, j)] (1) 其中D(i, j)是分段i與j之間的語(yǔ)義距離,Dc(i, j)是分段i與j之間的顏色直
方圖距離,DT(i, j)是分段i與j之間的時(shí)間距離,并且f[]是用于組合這兩個(gè)距離的恰當(dāng)函數(shù)。 函數(shù)f[]可以如下給出 f = w Dc+(l_w) DT (2)
其中w是一個(gè)加權(quán)參數(shù)。 測(cè)量裝置210的輸出被輸入到第二生成裝置212中。在步驟314,第二生成裝置 212產(chǎn)生多媒體文件的至少一個(gè)第二概要。所述第二生成裝置212產(chǎn)生至少一個(gè)第二概要, 以使其包含被排除在第一概要之外并被測(cè)量裝置210確定為與第一概要的內(nèi)容存在語(yǔ)義 不同的內(nèi)容(步驟312)。 在一個(gè)實(shí)施例中,第二生成裝置212產(chǎn)生至少一個(gè)第二概要,該概要包含了語(yǔ)義 距離量度高出閾值的分段。這意味著在第二概要中只包含了具有與第一概要不相關(guān)的語(yǔ)義 內(nèi)容的分段。 在一個(gè)備選實(shí)施例中,第二生成裝置212產(chǎn)生至少一個(gè)第二概要,其中該概要包 含了具有最高語(yǔ)義距離量度的分段。 例如,第二生成裝置212可以將那些被排除在第一概要之外的分段分組為群集。 然后,群集C與第一概要S之間的距離S (C,S)是如下給出的
S (C, S) = miniES(D(c, i)) (3) 其中i是第一概要S中包含的每一個(gè)分段,c是群組C中的代表性分段。距離S (C, S)也可以通過(guò)其他函數(shù)給出,例如^C,^)-!)D"0或是S (C,S) =f[D(c,i)],i G S,其
中f []是一個(gè)恰當(dāng)?shù)暮瘮?shù)。根據(jù)被排除在第一概要之外的分段群集與第一概要s的語(yǔ)義距
離,第二生成裝置212使用距離S (C,S)來(lái)對(duì)這些分段群集進(jìn)行分級(jí)。然后,第二生成裝置 212產(chǎn)生至少一個(gè)包含了具有最高語(yǔ)義距離度量的分段(也就是與第一概要的分段差別最 大的分段)的第二概要。 根據(jù)另一個(gè)實(shí)施例,第二生成裝置212產(chǎn)生至少一個(gè)包含了具有相似內(nèi)容的分段 的第二概要。 例如,第二生成裝置212可以使用相關(guān)性大小來(lái)產(chǎn)生至少一個(gè)第二概要。在這種 情況下,第二生成裝置212根據(jù)分段與第一概要中包含的分段之間的相關(guān)性而在一個(gè)相關(guān) 性標(biāo)度上定位分段。然后,第二生成裝置212可以確定這些分段與第一概要中包含的分段 非常相似、有點(diǎn)相似或者完全不同,由此根據(jù)用戶選擇的相似度來(lái)產(chǎn)生至少一個(gè)第二概要。
在步驟316,第二生成裝置212依照第二概要與第一概要內(nèi)容的相似度來(lái)組織第 二概要,以便瀏覽多個(gè)第二概要。 例如,第二生成裝置212可以聚集那些被排除在第一概要之外的分段,并且依照 分段之間的語(yǔ)義距離D(i,j)來(lái)組織這些分段(如在等式(1)中定義的那樣)。第二生成裝
8置212可以根據(jù)語(yǔ)義距離來(lái)聚集那些彼此接近的分段,以使每一個(gè)群集都包含語(yǔ)義距離相 同的分段。然后,在步驟318,第二生成裝置212在第二輸出終端214上輸出在用戶規(guī)定的 相似度方面最為相關(guān)的群集。這樣一來(lái),用戶不需要麻煩和耗時(shí)地瀏覽大量第二概要。關(guān) 于群集技術(shù)的示例可以在T.Kohonen于1982年發(fā)表于Biological Cybernetics 43(1)第 59 69頁(yè)的"Self-organizing formation of topologically correct feature m即s,, 以及在J. T. Tou和R. C. Gonzalez于1974年通過(guò)Addison-WesleyPublishing公司發(fā)表的 "Pattern Recognition Principles"中發(fā)現(xiàn)。 作為替換,第二生成裝置212可以采用分層方式來(lái)群集和組織分段,以使主要群 集包含其他群集。然后,第二生成裝置212在第二輸出終端214上輸出主要群集(步驟 318)。這樣一來(lái),用戶只需要瀏覽少量的主要群集。然后,如果用戶希望,那么他們通過(guò)很 少的交互即可越來(lái)越詳細(xì)地考察每一個(gè)其他群集。這樣做會(huì)使瀏覽多個(gè)第二概要的處理非 常簡(jiǎn)單。 用戶能夠查看在第一輸出終端208上輸出的第一概要(步驟310)以及在第二輸 出終端214上輸出的至少一個(gè)第二概要(步驟318)。 在步驟320,根據(jù)在第一輸出終端208上輸出的第一概要以及在第二輸出終端214 上輸出的第二概要,用戶可以經(jīng)由輸入終端216來(lái)提供反饋。例如,用戶可以回顧第二概 要,并且選擇將要包含在第一概要中的分段。該用戶反饋則經(jīng)由輸入終端216而被輸入到 測(cè)量裝置210中。 然后,在步驟322,測(cè)量裝置210選擇至少一個(gè)第二概要中的至少一個(gè)分段,以便 對(duì)用戶反饋加以考慮。測(cè)量裝置210則將所選擇的至少一個(gè)分段輸入第一生成裝置206。
然后,第一生成裝置206將所選擇的至少一個(gè)分段合并到第一概要(步驟308),并 且輸出第一輸出終端208的第一概要(步驟310)。 雖然本發(fā)明是結(jié)合優(yōu)選實(shí)施例而被描述的,但是應(yīng)該理解,對(duì)本領(lǐng)域技術(shù)人員來(lái) 說(shuō),在在上述原理以內(nèi)對(duì)其進(jìn)行的修改是顯而易見(jiàn)的,由此,本發(fā)明并不局限于這些優(yōu)選實(shí) 施例,而是應(yīng)該包含此類修改。本發(fā)明存在于每一個(gè)新穎的特性特征以及特性特征的每一 種組合中。權(quán)利要求中的參考數(shù)字并未限制其保護(hù)范圍。動(dòng)詞"包含"及其動(dòng)詞變化形式的 使用并未排除除了權(quán)利要求所述的部件之外的其他部件的存在。部件之前的冠詞"一"的 運(yùn)用并未排除多個(gè)此類部件的存在。 對(duì)本領(lǐng)域技術(shù)人員來(lái)說(shuō),"裝置"旨在包含任何執(zhí)行操作或者被設(shè)計(jì)成執(zhí)行指定功 能的硬件(例如獨(dú)立或集成電路或電子元件)或軟件(例如程序或程序部分),所述功能既 可以是單獨(dú)的也可以結(jié)合其他功能,所述部件既可以是孤立的也可以與其他部件協(xié)作。本 發(fā)明可以借助包含若干不同部件的硬件來(lái)實(shí)施,并且可以借助經(jīng)過(guò)適當(dāng)編程的計(jì)算機(jī)來(lái)實(shí) 施。在列舉了若干裝置的設(shè)備權(quán)利要求中,這其中的若干裝置可以由同一個(gè)硬件項(xiàng)來(lái)實(shí)現(xiàn)。 "計(jì)算機(jī)程序產(chǎn)品"應(yīng)該被理解成是指保存在軟盤(pán)之類的計(jì)算機(jī)可讀介質(zhì)中、可以經(jīng)由因特 網(wǎng)之類的網(wǎng)絡(luò)下載或是可以采用其他任何方式而在市場(chǎng)上買(mǎi)到的任何軟件產(chǎn)品。
權(quán)利要求
一種用于自動(dòng)生成多媒體文件的多個(gè)概要的方法,該方法包括以下步驟生成多媒體文件的第一概要;生成所述多媒體文件的至少一個(gè)第二概要,所述至少一個(gè)第二概要包含被排除在所述第一概要之外的內(nèi)容,其中所述至少一個(gè)第二概要的內(nèi)容被選擇成使其在語(yǔ)義上不同于所述第一概要的內(nèi)容。
2. 根據(jù)權(quán)利要求l的方法,其中所述至少一個(gè)第二概要的內(nèi)容被選擇成使其在語(yǔ)義上與所述第一概要的內(nèi)容最不相同。
3. 根據(jù)權(quán)利要求1或2的方法,其中所述多媒體文件被分成多個(gè)分段,并且生成至少一個(gè)第二概要的步驟包括以下步驟確定包含在所述第一概要中的分段與被排除在所述第一概要之外的分段之間的語(yǔ)義距離量度;將語(yǔ)義距離量度超出閾值的分段包含在所述至少一個(gè)第二概要中。
4. 根據(jù)權(quán)利要求1或2的方法,其中所述多媒體文件被分成多個(gè)分段,并且生成至少一個(gè)第二概要的步驟包括以下步驟確定所述第一概要包含的分段與被排除在所述第一概要之外的分段之間的語(yǔ)義距離將具有最高語(yǔ)義距離量度的分段包含在所述至少一個(gè)第二概要中。
5. 根據(jù)權(quán)利要求l的方法,其中生成所述第一和第二概要的步驟是以所述多媒體文件的所述多個(gè)分段的音頻和/或視頻內(nèi)容為基礎(chǔ)的。
6. 根據(jù)權(quán)利要求3或4的方法,其中語(yǔ)義距離是從所述多媒體文件的所述多個(gè)分段的顏色直方圖距離和/或時(shí)間距離中確定的。
7. 根據(jù)權(quán)利要求3或4的方法,其中語(yǔ)義距離是從位置數(shù)據(jù)、和/或個(gè)人數(shù)據(jù)、和/或焦點(diǎn)對(duì)象數(shù)據(jù)中確定的。
8. 根據(jù)前述任一權(quán)利要求的方法,其中該方法還包括以下步驟選擇所述至少一個(gè)第二概要中的至少一個(gè)分段;以及將所述所選擇的至少一個(gè)分段合并到所述第一概要中。
9. 根據(jù)權(quán)利要求3-8中任一權(quán)利要求的方法,其中包含在所述至少一個(gè)第二概要中的分段具有相似的內(nèi)容。
10. 根據(jù)前述任一權(quán)利要求的方法,其中多個(gè)第二概要依照其與所述第一概要的內(nèi)容的相似度而被組織,以便瀏覽所述多個(gè)第二概要。
11. 一種計(jì)算機(jī)程序產(chǎn)品,其中包含了用于執(zhí)行根據(jù)前述任一權(quán)利要求的方法的多個(gè)程序代碼部分。
12. —種用于自動(dòng)生成多媒體文件的多個(gè)概要的設(shè)備,該設(shè)備包括用于生成多媒體文件的第一概要的裝置;用于生成所述多媒體文件的至少一個(gè)第二概要的裝置,所述至少一個(gè)第二概要包含了被排除在所述第一概要之外的內(nèi)容,其中所述至少一個(gè)第二概要的內(nèi)容被選擇成使其在語(yǔ)義上不同于所述第一概要的內(nèi)容。
13. 根據(jù)權(quán)利要求12的設(shè)備,其中該設(shè)備還包括用于將所述多媒體文件分成多個(gè)分段的分段裝置;確定包含在所述第一概要中的分段與被排除在所述第一概要之外的分段之間的語(yǔ)義距離量度;將語(yǔ)義距離量度超出閾值的分段包含在所述至少一個(gè)第二概要中。
全文摘要
多媒體文件的多個(gè)概要是自動(dòng)生成的。產(chǎn)生多媒體文件的第一概要(步驟308)。然后,產(chǎn)生多媒體文件的至少一個(gè)第二概要(步驟314)。所述至少一個(gè)第二概要包含了被排除在第一概要之外的內(nèi)容。所述至少一個(gè)第二概要的內(nèi)容被選擇成使其在語(yǔ)義上不同于第一概要的內(nèi)容(步驟312)。
文檔編號(hào)G11B27/10GK101743596SQ200880020306
公開(kāi)日2010年6月16日 申請(qǐng)日期2008年6月9日 優(yōu)先權(quán)日2007年6月15日
發(fā)明者J·韋達(dá), M·E·坎帕尼拉, M·巴比里, P·施雷斯塔 申請(qǐng)人:皇家飛利浦電子股份有限公司