一種節(jié)目內容定位方法和裝置的制作方法

文檔序號：6384974閱讀：129來源：國知局

專利名稱：一種節(jié)目內容定位方法和裝置的制作方法
背景技術：
本發(fā)明涉及一種節(jié)目內容的定位方法和裝置，尤其涉及一種在多媒體節(jié)目中根據內容來定位的方法和裝置。
多媒體節(jié)目一般除了包括一個視頻(Video)流和一個音頻(Audio)流外，大多還包括一個圖像(Image)流和/或一個文本(Text)流，這些流按照特定的規(guī)則和預定的時間順序同步在一起，以供用戶欣賞。在眾多的多媒體節(jié)目的編排規(guī)則中，同步多媒體綜合語言SMIL(Synchronized Multimedia Integration Language)是一種流行的編輯語言。SMIL不僅可以按時間順序來整合多媒體節(jié)目的各個內容流，而且還可以用于管理該多媒體節(jié)目在呈現(xiàn)時的布局。
在多媒體節(jié)目的觀看過程中，用戶往往需要在該節(jié)目中找到一個特定片段，比如在布什總統(tǒng)在清華大學的演講這樣一個多媒體演講節(jié)目中，一位用戶需要找到關于伊拉克問題的部分，對于該需求，用戶可通過快進/快退的方式對音頻的進行辨別，從而在節(jié)目中進行定位。再比如，在一部關于澳洲風光的多媒體記錄節(jié)目中，一位用戶希望直接瀏覽有關悉尼大劇院的片段，對于該需求，該多媒體播放裝置可對視頻流中的視頻進行自動匹配分析，當畫面中出現(xiàn)悉尼大劇院時，則呈現(xiàn)該片段給用戶。
在上述的內容定位過程中，如果由用戶來進行人工操作，則往往需要反復搜索多次才能找到所需的位置，浪費了用戶的時間，給用戶帶來了很大的麻煩；如果由多媒體播放裝置來進行自動搜索，則由于視頻和音頻的復雜性，視頻流和音頻流的數(shù)據量非常大，因此在其中進行搜索的難度也就很大，而且對硬件的要求也會比較高，從而增加了用戶的成本。
另外，為了方便對多媒體節(jié)目，特別是多媒體演示節(jié)目的編輯，市場上出現(xiàn)了各種各樣的制作工具(authoring tool)，如美國Accordent公司的PresenterOne和加拿大SofTV.net公司的Presentation Maker等，這些工具可以讓用戶將一個多媒體演示的文本幻燈片的標題列在一個表里，用戶可用這些標題作為索引來找到對應的片段。這樣雖然一定程度上簡化了一部分搜索過程，但條件是在該多媒體演示節(jié)目制作時需使用上述專業(yè)編輯工具。進一步說，該編輯工具僅提供非常有限的標題供用戶選擇，這限制了用戶選擇的任意性，從而不能實現(xiàn)用戶的個性化選擇。
因此，需要一種新的節(jié)目內容定位方法和裝置，可以使用戶能夠在一個多媒體節(jié)目中方便地進行內容定位，從而獲得其所需要的特定片段，滿足其個性化需求。

發(fā)明內容
本發(fā)明的目的之一是為了消除現(xiàn)有的節(jié)目內容定位方法和裝置的缺陷，提供一種新的節(jié)目內容定位方法和裝置，可以使用戶能夠在一個多媒體節(jié)目中方便地進行內容定位，從而獲得其所需要的特定片段。
本發(fā)明提供了一種在一個多媒體節(jié)目中進行內容定位的方法，該多媒體節(jié)目包含一個帶有文字信息的流。首先，接收一個來自用戶的請求，該請求包含特定文字；其次，確定所述的特定文字在所述的帶有文字信息的流中的一個出現(xiàn)位置；最后，確定與該出現(xiàn)位置處的文字信息同步的其他可呈現(xiàn)信息。所述的其他可呈現(xiàn)信息可以是視頻信息，也可以是音頻信息。
所述的文字信息可以是以文本形式存在的，也可以是以圖像形式存在的。當其以圖像形式存在時，該定位方法還包括步驟獲取該文字信息對應的文本信息。
所述的帶有文字信息的流可以具有層次性，此時，該定位方法還包括步驟確定一個包含所述出現(xiàn)位置的層，該層有一個特定的開始位置和一個特定的結束位置，從而使得最后所確定的其他可呈現(xiàn)信息具有相應的開始位置和結束位置。
本發(fā)明還提供了一種在一個多媒體節(jié)目中進行內容定位的裝置，該多媒體節(jié)目包含一個帶有文字信息的流，該文字信息可以是以文本形式存在的，也可以是以圖像形式存在的。該裝置包括一個請求接收裝置、一個文本定位裝置和一個同步定位裝置。
該請求接收裝置用于接收一個來自用戶的請求，該請求包含特定文字；該文本定位裝置用于確定所述特定文字在所述的帶有文字信息的流中的一個出現(xiàn)位置；該同步定位裝置用于確定與該出現(xiàn)位置處的文字信息同步的其他可呈現(xiàn)信息。所述的其他可呈現(xiàn)信息可以是視頻信息，也可以是音頻信息。
本發(fā)明通過對一個多媒體節(jié)目自身所包含的帶有文字信息的流進行分析，定位出用戶所需的節(jié)目片段位置，然后通過同步規(guī)則找到相應的視頻或音頻片段。由于相對于視頻或音頻而言，帶有文字信息的流，如文本流或圖像流，所含數(shù)據量要少很多，同時對文本進行分析也大大簡單于對畫面或聲音的分析，因此，本發(fā)明極大地簡化了進行節(jié)目內容搜索的復雜性，降低了對硬件的要求，方便了用戶的操作，滿足了其個性化需求。
通過參照結合附圖所進行的如下描述和權利要求，本發(fā)明的其它目的和成就將是顯而易見的，并對本發(fā)明也會有更為全面的理解。

本發(fā)明通過實例的方式，參照附圖進行詳盡的解釋，其中圖1是根據本發(fā)明的一個實施例的一個在一個多媒體節(jié)目中進行內容定位的裝置的系統(tǒng)框圖；圖2是根據本發(fā)明的一個實施例的一個在一個多媒體節(jié)目中進行內容定位的流程示意圖；圖3是根據本發(fā)明的另一個實施例的一個在一個多媒體節(jié)目中進行內容定位并提取特定片段的流程示意圖。
在所有的附圖中，相同的參照數(shù)字表示相似的或相同的特征和功能。
具體實施例方式
圖1是根據本發(fā)明的一個實施例的一個在一個多媒體節(jié)目中進行內容定位的裝置的系統(tǒng)框圖。該裝置100可以為一個多媒體節(jié)目制作裝置(圖中未顯示)或一個多媒體播放裝置(圖中未顯示)的一部分。裝置100包括一個請求接收裝置120、一個文本定位裝置130和一個同步定位裝置140。裝置100還包括一個內容接收裝置110、一個呈現(xiàn)裝置150和一個提取裝置160。裝置100所包括的上述裝置對于本領域的熟練技術人員來說可以通過多種現(xiàn)有的裝置來實現(xiàn)，只要其組合在一起可以達到本發(fā)明的功能即可。
內容接收裝置110用于接收一個多媒體節(jié)目，該多媒體節(jié)目包含一個帶有文字信息的流，如文本流或包含有文字信息的圖像流(在現(xiàn)有的多媒體演示節(jié)目中，作為演示輔助工具的幻燈片，比如，Powerpoint文件中的一個頁面，往往以圖像形式來傳輸)。該多媒體節(jié)目可以來自于一個本地的存儲裝置(圖中未顯示)，如DVD；亦可來自于一個網絡服務器(圖中未顯示)。
請求接收裝置120用于接收一個來自用戶的請求，該請求包含特定文字，如“悉尼大劇院”等，用戶希望通過該請求在正在編輯/欣賞的多媒體節(jié)目中來找到介紹悉尼大劇院的片段，該多媒體節(jié)目包含一個帶有文字信息的流。
文本定位裝置130用于確定所述的特定文字在所述的多媒體節(jié)目中的一個出現(xiàn)位置。裝置130在所述的帶有文字信息的流中搜索該特定文字，如“悉尼大劇院”，在找到該特定文字后獲得其在節(jié)目中的位置信息。如果前述的帶有文字信息的流為一個圖像流，裝置130還用于獲取該圖像流中的文字信息對應的文本信息。
同步定位裝置140用于確定與所述出現(xiàn)位置處的文字信息同步的其他可呈現(xiàn)信息。由于多媒體節(jié)目中不同內容流在時間上的同步性，因此可根據一個內容流，如文本流中的一個位置信息，確定該位置在其他內容流，如視頻流或音頻流中的相應位置。
呈現(xiàn)裝置150，用于呈現(xiàn)在一個多媒體節(jié)目中的一個特定位置的節(jié)目內容給用戶。
提取裝置160，用于從一個多媒體節(jié)目中提取(extract)出一個特定片段，在本實施例中，該特定片段可包括前述的特定文本信息。
裝置100的運行流程詳見下面圖2和圖3所述。
圖2是根據本發(fā)明的一個實施例的一個在一個多媒體節(jié)目中進行內容定位的流程示意圖。首先，獲取一個多媒體節(jié)目(步驟S210)，該多媒體節(jié)目包含一個帶有文字信息的流，所述的文字信息以文本形式存在，比如，對于一個多媒體數(shù)字電視節(jié)目流，其中的字幕以文本形式存在于其數(shù)據流中；又如，對于一個多媒體演示節(jié)目，其演示的文字內容可以文本形式存在于一個文本流中。如果該多媒體節(jié)目較長，該步驟可以是一個持續(xù)的步驟，直到整個定位的流程結束為止。
本實施例中仍以關于澳洲風光的多媒體節(jié)目為例，該節(jié)目包含有一個文本流，在該流中包含有相應的解說詞內容。
然后，接收用戶的一個請求，該請求包含特定文字(步驟S230)，如“悉尼大劇院”，用戶預期該特定文字會出現(xiàn)在上述的文本流的某一個位置，并希望通過該請求在步驟S210中所獲取的多媒體節(jié)目中來找到包含有該特定文字的片段。
接下來，在上述文本流中搜索該特定文字，并判斷是否找到該特定文字在所述的文本流中的一個特定出現(xiàn)位置(步驟S230)，如判斷結果是否定的，則提示用戶未能在該多媒體節(jié)目中找到所述的特定文字(步驟S234)，并結束整個流程；如判斷結果為肯定的，則獲取該特定出現(xiàn)位置的信息(步驟S238)，如“悉尼大劇院”出現(xiàn)在距節(jié)目開始時“01:03:06”(hh:mm:ss)的位置。
再接下來，根據特定的多媒體節(jié)目的同步規(guī)則，確定該特定文字的出現(xiàn)位置在視頻流中的相應位置(步驟S240)，如找到距節(jié)目開始時“01:03:06”(hh:mm:ss)位置的視頻，該時刻處的畫面通常包含有與解說詞相對應的悉尼大劇院的景觀。多媒體節(jié)目的同步規(guī)則可以有很多種，在此就不再一一列舉。
最后，呈現(xiàn)該特定位置的視頻給用戶(步驟S250)，該處的畫面包含有用戶想要欣賞的悉尼大劇院的景觀。當然，亦可呈現(xiàn)在該特定位置的多媒體節(jié)目的全部內容，如視/音頻，圖像和文本等，或其他部分內容，如音頻，給用戶，以滿足用戶的個性化需求。
在步驟S250的呈現(xiàn)過程中，還可以呈現(xiàn)該特定出現(xiàn)位置之前和/或之后的一段時間的視頻。該時間的長度可通過用戶設定時間值，或系統(tǒng)給定缺省值。用戶可在步驟S220的請求中包含一個開始位置信息和一個結束位置信息，該開始位置信息和結束位置信息是相對于用戶所預期的特定出現(xiàn)位置的。
當然，本實施例中，在步驟S240中，亦可根據同步規(guī)則，確定該特定文字的出現(xiàn)位置在音頻流或圖像流中的相應位置。因為無論視頻或者音頻，甚至圖像，都要比文本復雜，對它們的分析及定位也都比對文本的分析及定位要復雜得多。由此可見，本發(fā)明所提出的定位方法比現(xiàn)有的通過音/視頻來定位的方法要簡單得多。
在上述定位過程中，如果特定文字，如“悉尼大劇院”在所述的文本流中多次出現(xiàn)，則可在步驟S250呈現(xiàn)特定位置的視頻給用戶的同時，給予用戶一個選擇是否繼續(xù)搜索的機會，用戶選擇繼續(xù)搜索，則從上一次搜索到的特定位置沿著原有的搜索方向繼續(xù)搜索，直到找到用戶想要欣賞的場景或節(jié)目結束。該選擇機會可通過在屏幕上呈現(xiàn)一個按鈕來提示用戶是否需要繼續(xù)搜索，然后接收用戶的輸入信息來完成。
圖3是根據本發(fā)明的另一個實施例的一個在一個多媒體節(jié)目中進行內容定位并提取特定片段的流程示意圖。首先，獲取一個多媒體節(jié)目(步驟S310)，該多媒體節(jié)目包含一個帶有文字信息的流，所述的文字信息以圖像(image)形式存在，比如，對于一個多媒體演示節(jié)目，其演示的幻燈片(Slide)包含有文字信息內容，并以圖像形式存在于一個圖像流中。如果該多媒體節(jié)目較長，該步驟可以是一個持續(xù)的步驟，直到整個定位的流程結束為止。
表1為一個多媒體演示節(jié)目的SMIL描述文件(Script)，該節(jié)目包含有一個視頻流和一個與之同步的圖像流，該圖像流包含有該演示的幻燈片及其上的文字，這些文字以圖像形式存在。
表1一個多媒體演示節(jié)目

從表1中可以看出，該圖像流具有層次結構性，包含9個部分(image1、image2、image3、image4、image5、image6、image7、image8、image9)，每一部分對應與一張幻燈片，亦即，每一部分有其特定的開始位置和延續(xù)長度。之所以如此，是因為在演示過程中一般視/音頻在不斷變化，而每一張幻燈片一般都要持續(xù)一段時間保持不變。
由于不能對以圖像形式存在的文字直接進行文本分析，因此可通過一定方式獲取該圖像流中的文字信息對應的文本信息(步驟S320)，該獲取步驟可運用現(xiàn)有的光學識別技術(OCR)來完成。
然后，接收用戶的一個請求，該請求包含特定文字(步驟S330)，用戶預期該特定文字會出現(xiàn)在上述的多媒體節(jié)目流的某一個或多個位置，并希望通過該請求來找到并提取包含有該特定文字的片段。
接下來，在上述圖像流的文字信息中搜索該特定文字，并判斷是否找到該特定文字的一個特定出現(xiàn)位置(步驟S340)，如判斷結果是否定的，則提示用戶未能在該多媒體節(jié)目中找到所述的特定文字(步驟S344)，并結束整個流程；如判斷結果為肯定的，則獲取該特定出現(xiàn)位置的信息(步驟S350)，比如該特定文字出現(xiàn)imge2的文字信息中，則獲取image2的開始位置及延續(xù)長度。
再接下來，根據特定的多媒體節(jié)目的同步規(guī)則，確定該特定文字的出現(xiàn)位置在視頻流中的相應位置(步驟S360)，此時，相應視頻流的特定片段的開始位置和延續(xù)長度與image2的開始位置和延續(xù)長度相同。
最后，根據獲取的特定片段的開始位置和延續(xù)長度，修改原有的SMIL描述文件來得到一個新的SMIL描述文件(步驟S370)，該SMIL描述文件僅反映所找到的片段，從而實現(xiàn)了從該多媒體節(jié)目中提取出用戶需要的特定片段。用戶通過選擇運行該修改后的SMIL描述文件可直接瀏覽其所需要的特定片段。
在步驟S360之后，還可進一步判斷是否需要繼續(xù)搜索(步驟S380)，如果判斷結果是否定的，則結束整個提取流程如果判斷結果是肯定的，則回到步驟S340則從上一次搜索到的特定位置沿著原有的搜索方向繼續(xù)搜索，直到找到用戶想要欣賞的下一個片段或節(jié)目結束。該判斷可通過判斷該多媒體節(jié)目是否結束來自動進行，亦可通過給用戶提示由用戶來決定。
在本實施例中，除了上述在image2中找到所述的特定文本信息外，還在image5和image8中找到所述的特定文本信息，最終得到的修改后的SMIL描述文件如表2所示，該SMIL描述文件所對應的多媒體節(jié)目片段包含所述的特定文本信息。
表2一個多媒體節(jié)目的特定片段

其中T1＝t1，T2＝t1+t2+t3+t4T3＝t1+t2+t3+t4+t5+t6+t7本實施例中的多媒體節(jié)目的帶有文字信息的流具有層次性，該層次性既可表現(xiàn)為上述的平行的僅有先后順序的9個image，亦可表現(xiàn)為象書的章節(jié)一樣，即不同的層次間可互相包含。
本發(fā)明由于利用了多媒體節(jié)目中本身所包含的帶有文字信息的流進行定位，同時文字信息的分析相比于音/視頻的分析要簡單的多，因此，對于節(jié)目制作人員來說，可以節(jié)省大量的工作量，降低了工作的復雜性；對于用戶來說，定位操作會變得相當方便，所需設備也相對簡單而且便宜。進一步說，還可通過語音識別(Voice Recognition)技術來將音頻中的對白轉換成文本來供定位之用。
雖然經過對本發(fā)明結合具體實施例進行描述，對于在本技術領域熟練的人士，根據上文的敘述作出的許多替代、修改和變化將是顯而易見的。因此，當這樣的替代、修改和變化落入附后的權利要求的精神和范圍內時，應該被包括在本發(fā)明中。
權利要求
1.一種在一個多媒體節(jié)目中進行定位的方法，該多媒體節(jié)目包含一個帶有文字信息的流，包括步驟a.接收一個來自用戶的請求，該請求包含特定文字；b.確定所述的特定文字在所述的帶有文字信息的流中的一個出現(xiàn)位置；和c.確定與該出現(xiàn)位置處的文字信息同步的其他可呈現(xiàn)信息。
2.如權利要求1所述的方法，還包括步驟呈現(xiàn)所述出現(xiàn)位置處的節(jié)目內容給用戶。
3.如權利要求1所述的方法，其中所述的其他可呈現(xiàn)信息包括音頻和視頻中至少一種。
4.如權利要求1所述的方法，其中所述的文字信息是以文本形式存在的。
5.如權利要求4所述的方法，其中所述的其他可呈現(xiàn)信息包括圖像。
6.如權利要求1所述的方法，所述的文字信息是以圖像形式存在的，還包括步驟獲取所述的文字信息對應的文本信息。
7.如權利要求1所述的方法，其中所述的帶有文字信息的流中的內容具有層次性，還包括步驟確定一個包含所述出現(xiàn)位置的層，該層有一個特定的開始位置和一個特定的結束位置，從而使得步驟c中所確定的其他可呈現(xiàn)信息具有相應的開始位置和結束位置。
8.如權利要求1所述的方法，其中所述的來自用戶的請求還包含一個開始位置信息和一個結束位置信息，該開始位置信息和結束位置信息是相對于所述的出現(xiàn)位置的，從而使得步驟c中所確定的其他可呈現(xiàn)信息具有相應的開始位置和結束位置。
9.如權利要求7或8所述的方法，還包括步驟提取一個節(jié)目片段，該節(jié)目片段具有所述的開始位置和結束位置。
10.如權利要求9所述的方法，其中所述的多媒體節(jié)目是通過SMIL來集成的，所述的提取步驟是通過修改該多媒體節(jié)目的SMIL描述文件來完成的。
11.一種在一個多媒體節(jié)目中進行定位的裝置，該多媒體節(jié)目包含一個帶有文字信息的流，包括一個請求接收裝置，用于接收一個來自用戶的請求，該請求包含特定文字；一個文本定位裝置，用于確定所述的特定文字在所述的帶有文字信息的流中的一個出現(xiàn)位置；和
12.如權利要求11所述的裝置，還包括一個呈現(xiàn)裝置，用于呈現(xiàn)所述出現(xiàn)位置處的節(jié)目內容給用戶。
13.如權利要求11所述的裝置，其中所述的其他可呈現(xiàn)信息包括音頻和視頻中至少一種。
14.如權利要求11所述的裝置，其中所述的文字信息是以文本形式存在的。
15.如權利要求14所述的裝置，其中所述的其他可呈現(xiàn)信息包括圖像。
16.如權利要求11所述的裝置，其中所述的文字信息是以圖像形式存在的，所述的文本定位裝置還用于獲取所述的文字信息對應的文本信息。
17.如權利要求11所述的裝置，其中所述的帶有文字信息的流中的內容具有層次性，所述的文本定位裝置還用于確定一個包含所述出現(xiàn)位置的層，該層有一個特定的開始位置和一個特定的結束位置，從而使得所述的同步定位裝置所確定的其他可呈現(xiàn)信息具有相應的開始位置和結束位置。
18.如權利要求11所述的裝置，其中所述的來自用戶的請求還包含一個開始位置信息和一個結束位置信息，該開始位置信息和結束位置信息是相對于所述的出現(xiàn)位置的，從而使得所述的同步定位裝置所確定的其他可呈現(xiàn)信息具有相應的開始位置和結束位置。
19.一種多媒體節(jié)目播放裝置，包括一個內容接收裝置，用于接收一個多媒體節(jié)目，該多媒體節(jié)目包含一個帶有文字信息的流；一個呈現(xiàn)裝置，用于呈現(xiàn)接收到的多媒體節(jié)目給用戶；和一個定位裝置，該定位裝置包括一個請求接收裝置，用于接收一個來自用戶的請求，該請求包含特定文字；一個文本定位裝置，用于確定所述的特定文字在所述的帶有文字信息的流中的一個出現(xiàn)位置；和一個同步定位裝置，用于確定與該出現(xiàn)位置處的文本信息同步的其他可呈現(xiàn)信息。
20.如權利要求19所述的裝置，還包括一個提取裝置，用于從所述的多媒體節(jié)目中提取一個特定片段。
全文摘要
本發(fā)明提供了一種在一個多媒體節(jié)目中進行內容定位的方法，該多媒體節(jié)目包含一個帶有文字信息的流。首先，接收一個來自用戶的請求，該請求包含特定文字；其次，確定所述的特定文字出現(xiàn)在所述的帶有文字信息的流中的一個出現(xiàn)位置；最后，確定與該出現(xiàn)位置處的文字信息同步的其他可呈現(xiàn)信息。所述的其他可呈現(xiàn)信息可以是視頻信息，也可以是音頻信息。由于相對于視頻或音頻而言，帶有文字信息的流，如文本流或圖像流，所含數(shù)據量要少很多，同時對文本進行分析也大大簡單于對畫面或聲音的分析，因此，本發(fā)明極大地簡化了進行節(jié)目內容搜索的復雜性，降低了對硬件的要求，方便了用戶的操作，滿足了其個性化需求。
文檔編號G06F17/30GK1662053SQ200410007668
公開日2005年8月31日申請日期2004年2月24日優(yōu)先權日2004年2月24日
發(fā)明者陳鑫, 曾勇勤, 陳寧江申請人:皇家飛利浦電子股份有限公司

完整全部詳細技術資料下載