一種多媒體數(shù)據(jù)的處理方法和裝置與流程

文檔序號：12733732閱讀：229來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明涉及多媒體處理的技術(shù)領(lǐng)域，特別是涉及一種多媒體數(shù)據(jù)的處理方法和一種多媒體數(shù)據(jù)的處理裝置。

背景技術(shù)：

隨著互聯(lián)網(wǎng)的高速發(fā)展，網(wǎng)上的信息量急劇增加，其中包含了大量的視頻數(shù)據(jù)，例如，新聞視頻、綜藝類節(jié)目、電視劇、電影等等。

用戶對于視頻數(shù)據(jù)的了解，大多源于對整個視頻數(shù)據(jù)的簡介，基于視頻數(shù)據(jù)的簡介，用戶會選擇觀看或不觀看。

但是，視頻數(shù)據(jù)的時間一般比較長，如電視劇一集長達40分鐘，一部電視劇多達數(shù)十集，而電影一部長達2個多小時。

這些時長很長的視頻數(shù)據(jù)中包含的信息量比較大，但是，不一定所有的視頻數(shù)據(jù)都是用戶感興趣的，用戶若需要從中篩選出感興趣的部分，需要瀏覽整個視頻數(shù)據(jù)，消耗大量的時間、浪費許多帶寬資源，效率很低。

技術(shù)實現(xiàn)要素：

鑒于上述問題，提出了本發(fā)明以便提供一種克服上述問題或者至少部分地解決上述問題的一種多媒體數(shù)據(jù)的處理方法和相應(yīng)的一種多媒體數(shù)據(jù)的處理裝置。

依據(jù)本發(fā)明的一個方面，提供了一種多媒體數(shù)據(jù)的處理方法，包括：

確定待識別的多媒體數(shù)據(jù)；

查找表征所述多媒體數(shù)據(jù)的一幀或多幀媒體特征圖像；

當所述多媒體數(shù)據(jù)被觸發(fā)時，展示所述一幀或多幀媒體圖像數(shù)據(jù)。

可選地，所述確定待識別的多媒體數(shù)據(jù)的步驟包括：

檢測針對多媒體數(shù)據(jù)設(shè)置的目標時間段；

確定在所述目標時間段內(nèi)的多媒體數(shù)據(jù)為待識別的多媒體數(shù)據(jù)。

可選地，所述查找保證所述多媒體數(shù)據(jù)的一幀或多幀媒體特征圖像的步驟包括：

當所述多媒體數(shù)據(jù)為視頻數(shù)據(jù)時，提取在所述目標時間段內(nèi)的第一幀視頻數(shù)據(jù)，和/或，在所述目標時間段內(nèi)的、經(jīng)過預(yù)設(shè)時間之后的一幀視頻數(shù)據(jù)，作為媒體特征圖像。

可選地，所述查找保證所述多媒體數(shù)據(jù)的一幀或多幀媒體特征圖像的步驟包括：

當所述多媒體數(shù)據(jù)為視頻數(shù)據(jù)時，對在所述目標時間段內(nèi)的視頻數(shù)據(jù)進行人臉檢測；

按照檢測出的人臉數(shù)量提取一幀或多幀視頻數(shù)據(jù)，作為媒體特征圖像。

可選地，所述查找保證所述多媒體數(shù)據(jù)的一幀或多幀媒體特征圖像的步驟包括：

當所述多媒體數(shù)據(jù)為視頻數(shù)據(jù)時，獲取一幀或多幀基于截圖獲得的圖像數(shù)據(jù)；

判斷所述圖像數(shù)據(jù)是否屬于所述目標時間段內(nèi)的視頻數(shù)據(jù)；若是，則采用所述圖像數(shù)據(jù)作為媒體特征圖像。

可選地，所述判斷所述圖像數(shù)據(jù)是否屬于所述目標時間段內(nèi)的視頻數(shù)據(jù)的步驟包括：

讀取所述圖像數(shù)據(jù)攜帶的視頻標識及時間信息；

判斷所述視頻標識是否與所述視頻數(shù)據(jù)匹配；若是，則判斷所述時間信息是否在所述目標時間段內(nèi)；

當所述時間信息在所述目標時間段內(nèi)時，確定所述圖像數(shù)據(jù)屬于所述目標時間段內(nèi)的視頻數(shù)據(jù)。

可選地，所述查找保證所述多媒體數(shù)據(jù)的一幀或多幀媒體特征圖像的步驟包括：

當所述多媒體數(shù)據(jù)為音頻數(shù)據(jù)時，采用在所述目標時間段內(nèi)的音頻數(shù)據(jù)與預(yù)設(shè)的音頻模型進行匹配；

當匹配成功時，提取所述音頻模型對應(yīng)的風格標簽；

查找與所述風格標簽匹配的圖像數(shù)據(jù)，作為媒體特征圖像。

可選地，所述查找保證所述多媒體數(shù)據(jù)的一幀或多幀媒體特征圖像的步驟包括：

當所述多媒體數(shù)據(jù)為音頻數(shù)據(jù)時，查找在所述目標時間段內(nèi)的音頻數(shù)據(jù)的歌詞數(shù)據(jù)；

采用所述歌詞數(shù)據(jù)生成文本摘要信息；

查找與所述文本摘要信息匹配的圖像數(shù)據(jù)，作為媒體特征圖像。

可選地，所述查找保證所述多媒體數(shù)據(jù)的一幀或多幀媒體特征圖像的步驟包括：

當所述多媒體數(shù)據(jù)為音頻數(shù)據(jù)時，查詢所述音頻數(shù)據(jù)對應(yīng)的視頻數(shù)據(jù)；

從所述視頻數(shù)據(jù)提取一幀或多幀圖像數(shù)據(jù)，作為媒體特征圖像。

可選地，所述當所述多媒體數(shù)據(jù)被觸發(fā)時，展示所述一幀或多幀媒體圖像數(shù)據(jù)的步驟包括：

當播放所述多媒體數(shù)據(jù)時，檢測在所述目標時間段對應(yīng)的播放進度條上懸停操作；

依據(jù)所述懸停操作展示所述一幀或多幀媒體圖像數(shù)據(jù)。

根據(jù)本發(fā)明的另一方面，提供了一種多媒體數(shù)據(jù)的處理裝置，包括：

多媒體數(shù)據(jù)確定模塊，適于確定待識別的多媒體數(shù)據(jù)；

媒體特征圖像查找模塊，適于查找表征所述多媒體數(shù)據(jù)的一幀或多幀媒體特征圖像；

媒體特征圖像展示模塊，適于在所述多媒體數(shù)據(jù)被觸發(fā)時，展示所述一幀或多幀媒體圖像數(shù)據(jù)。

可選地，所述多媒體數(shù)據(jù)確定模塊還適于：

檢測針對多媒體數(shù)據(jù)設(shè)置的目標時間段；

確定在所述目標時間段內(nèi)的多媒體數(shù)據(jù)為待識別的多媒體數(shù)據(jù)。

可選地，所述媒體特征圖像查找模塊還適于：

當所述多媒體數(shù)據(jù)為視頻數(shù)據(jù)時，對在所述目標時間段內(nèi)的視頻數(shù)據(jù)進行人臉檢測；

按照檢測出的人臉數(shù)量提取一幀或多幀視頻數(shù)據(jù)，作為媒體特征圖像。

可選地，所述媒體特征圖像查找模塊還適于：

當所述多媒體數(shù)據(jù)為視頻數(shù)據(jù)時，獲取一幀或多幀基于截圖獲得的圖像數(shù)據(jù)；

判斷所述圖像數(shù)據(jù)是否屬于所述目標時間段內(nèi)的視頻數(shù)據(jù)；若是，則采用所述圖像數(shù)據(jù)作為媒體特征圖像。

可選地，所述媒體特征圖像查找模塊還適于：

讀取所述圖像數(shù)據(jù)攜帶的視頻標識及時間信息；

判斷所述視頻標識是否與所述視頻數(shù)據(jù)匹配；若是，則判斷所述時間信息是否在所述目標時間段內(nèi)；

當所述時間信息在所述目標時間段內(nèi)時，確定所述圖像數(shù)據(jù)屬于所述目標時間段內(nèi)的視頻數(shù)據(jù)。

可選地，所述媒體特征圖像查找模塊還適于：

當所述多媒體數(shù)據(jù)為音頻數(shù)據(jù)時，采用在所述目標時間段內(nèi)的音頻數(shù)據(jù)與預(yù)設(shè)的音頻模型進行匹配；

當匹配成功時，提取所述音頻模型對應(yīng)的風格標簽；

查找與所述風格標簽匹配的圖像數(shù)據(jù)，作為媒體特征圖像。

可選地，所述媒體特征圖像查找模塊還適于：

當所述多媒體數(shù)據(jù)為音頻數(shù)據(jù)時，查找在所述目標時間段內(nèi)的音頻數(shù)據(jù)的歌詞數(shù)據(jù)；

采用所述歌詞數(shù)據(jù)生成文本摘要信息；

查找與所述文本摘要信息匹配的圖像數(shù)據(jù)，作為媒體特征圖像。

可選地，所述媒體特征圖像查找模塊還適于：

當所述多媒體數(shù)據(jù)為音頻數(shù)據(jù)時，查詢所述音頻數(shù)據(jù)對應(yīng)的視頻數(shù)據(jù)；

從所述視頻數(shù)據(jù)提取一幀或多幀圖像數(shù)據(jù)，作為媒體特征圖像。

可選地，所述媒體特征圖像展示模塊還適于：

當播放所述多媒體數(shù)據(jù)時，檢測在所述目標時間段對應(yīng)的播放進度條上懸停操作；

依據(jù)所述懸停操作展示所述一幀或多幀媒體圖像數(shù)據(jù)。

本發(fā)明實施例對多媒體數(shù)據(jù)挖掘媒體特征圖像，在多媒體數(shù)據(jù)被觸發(fā)時進行展示，避免了用戶再次通過觀看整個多媒體數(shù)據(jù)篩選出感興趣的部分，大大減少了耗時，減少了帶寬資源的浪費，提高了效率。

上述說明僅是本發(fā)明技術(shù)方案的概述，為了能夠更清楚了解本發(fā)明的技術(shù)手段，而可依照說明書的內(nèi)容予以實施，并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點能夠更明顯易懂，以下特舉本發(fā)明的具體實施方式。

附圖說明

通過閱讀下文優(yōu)選實施方式的詳細描述，各種其他的優(yōu)點和益處對于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實施方式的目的，而并不認為是對本發(fā)明的限制。而且在整個附圖中，用相同的參考符號表示相同的部件。在附圖中：

圖1示出了根據(jù)本發(fā)明一個實施例的一種多媒體數(shù)據(jù)的處理方法實施例的步驟流程圖；以及

圖2示出了根據(jù)本發(fā)明一個實施例的一種多媒體數(shù)據(jù)的處理裝置實施例的結(jié)構(gòu)框圖。

具體實施方式

下面將參照附圖更詳細地描述本公開的示例性實施例。雖然附圖中顯示了本公開的示例性實施例，然而應(yīng)當理解，可以以各種形式實現(xiàn)本公開而不應(yīng)被這里闡述的實施例所限制。相反，提供這些實施例是為了能夠更透徹地理解本公開，并且能夠?qū)⒈竟_的范圍完整的傳達給本領(lǐng)域的技術(shù)人員。

參照圖1，示出了根據(jù)本發(fā)明一個實施例的一種多媒體數(shù)據(jù)的處理方法實施例的步驟流程圖，具體可以包括如下步驟：

步驟101，確定待識別的多媒體數(shù)據(jù)；

在具體實現(xiàn)中，在視頻網(wǎng)站等場景中，可以預(yù)先存儲多媒體數(shù)據(jù)在數(shù)據(jù)庫中。

在應(yīng)用時，可以從數(shù)據(jù)庫中提取，以識別該多媒體數(shù)據(jù)的媒體特征圖像時。

在本發(fā)明的一種可選實施例中，步驟101可以包括如下子步驟：

子步驟S11，檢測針對多媒體數(shù)據(jù)設(shè)置的目標時間段；

子步驟S12，確定在所述目標時間段內(nèi)的多媒體數(shù)據(jù)為待識別的多媒體數(shù)據(jù)。

在具體實現(xiàn)中，用戶從在線視頻網(wǎng)站請求在播放某個視頻數(shù)據(jù)時，其對于該視頻數(shù)據(jù)的喜好可以通過其行為數(shù)據(jù)表現(xiàn)。

在本發(fā)明實施例中，可以通過在線視頻網(wǎng)站的日志信息等方式收集用戶針對某個視頻數(shù)據(jù)的行為數(shù)據(jù)，以挖掘出有價值的視頻片段。

在本發(fā)明實施例的一種可選示例中，子步驟S11可以包括如下子步驟：

子步驟S111，當檢測到針對所述多媒體數(shù)據(jù)的第一標記操作時，記錄所述第一標記操作對應(yīng)的起始時間點；

子步驟S112，當檢測到針對所述多媒體數(shù)據(jù)的第二標記操作時，記錄所述第二標記操作對應(yīng)的終止時間點；

子步驟S113，將所述起始時間點與所述終止時間點組成目標時間段。

在本發(fā)明實施例中，第一標記操作和第二標記操作可以為用戶有主觀意識地進行的標記操作。

例如，在線視頻網(wǎng)站提供了AB重復(fù)按鍵，用戶觸發(fā)A鍵相當于觸發(fā)第一標記操作，用戶觸發(fā)B鍵相當于觸發(fā)第二標記操作，將A鍵的起始時間點和B鍵的終止時間點組成目標時間段。

第一標記操作和第二標記操作可以為用戶無主觀意識地進行的標記操作。

例如，用戶在播放某個視頻數(shù)據(jù)時，若對當前段的視頻數(shù)據(jù)不感興趣，一般會通過拖曳播放進度條、點擊物理鍵的右方向鍵“→”、點擊快捷控件等方式調(diào)整播放進度，以跳過該段視頻數(shù)據(jù)，若對當前段的視頻數(shù)據(jù)感興趣，一般不會調(diào)整播放進度，而是正常播放。

因此，用戶調(diào)整播放進度的終結(jié)操作可以認為是第一標記操作，調(diào)整播放進度的起始操作可以認為是第二標記操作，將調(diào)整的終結(jié)操作的起始時間和調(diào)整的起始操作的終止時間點組成目標時間段。

步驟102，查找表征所述多媒體數(shù)據(jù)的一幀或多幀媒體特征圖像；

在本發(fā)明實施例中，對于目標時間段內(nèi)的多媒體數(shù)據(jù)，可以認為是有價值的多媒體數(shù)據(jù)，可以挖掘其媒體特征圖像，即表征該目標時間段內(nèi)的多媒體數(shù)據(jù)特征的圖像。

在具體實現(xiàn)中，由于多媒體數(shù)據(jù)包括視頻數(shù)據(jù)、音頻數(shù)據(jù)，兩者的特性有所不同，因此，可以區(qū)分這兩種情況挖掘媒體特征圖像。

一、視頻數(shù)據(jù)；

在一種媒體特征圖像中，由于目標時間段內(nèi)的視頻數(shù)據(jù)，在設(shè)置目標時間段時，一般會在感興趣的部分開始，可能是剛設(shè)置的起始時間點，或者，在起始時間點稍后一點的時間，如1秒，即起始時間點稍后一點的時間內(nèi)是用戶不關(guān)心的。

因此，當多媒體數(shù)據(jù)為視頻數(shù)據(jù)時，可以提取在目標時間段內(nèi)的第一幀視頻數(shù)據(jù)，和/或，在目標時間段內(nèi)的、經(jīng)過預(yù)設(shè)時間(如1秒)之后的一幀視頻數(shù)據(jù)，作為媒體特征圖像。

在另一種媒體特征圖像中，在電視劇、電影等視頻數(shù)據(jù)中，如果人物越多，表示其情節(jié)越多，越有可能是用戶所喜歡的。

因此，當多媒體數(shù)據(jù)為視頻數(shù)據(jù)時，對在目標時間段內(nèi)的視頻數(shù)據(jù)進行人臉檢測；

按照檢測出的人臉數(shù)量提取一幀或多幀視頻數(shù)據(jù)，作為媒體特征圖像。

例如，當人臉數(shù)量超過一定數(shù)量時，如5個，可以作為媒體特征圖像。

在另一種媒體特征圖像中，由于一些精彩、熱門的視頻片段，往往是用戶所喜歡的視頻片段，用戶更加傾向地進行截圖分享。

因此，當多媒體數(shù)據(jù)為視頻數(shù)據(jù)時，可以通過論壇、微博、新聞等途徑，獲取一幀或多幀基于截圖獲得的圖像數(shù)據(jù)；

判斷該圖像數(shù)據(jù)是否屬于目標時間段內(nèi)的視頻數(shù)據(jù)；若是，則采用圖像數(shù)據(jù)作為媒體特征圖像。

進一步而言，在判斷圖像數(shù)據(jù)歸屬時，可以讀取圖像數(shù)據(jù)攜帶的視頻標識及時間信息。

判斷所述視頻標識是否與所述視頻數(shù)據(jù)匹配；若是，則判斷時間信息是否在所述目標時間段內(nèi)；

當時間信息在目標時間段內(nèi)時，確定圖像數(shù)據(jù)屬于目標時間段內(nèi)的視頻數(shù)據(jù)。

二、音頻數(shù)據(jù)；

在一種媒體特征圖像中，可以預(yù)先針對不同風格的音頻數(shù)據(jù)生成音頻模型，如爵士樂、古典音樂、流行音樂等音樂風格，又如歡快、悲傷、愉快等心情風格。

因此，當多媒體數(shù)據(jù)為音頻數(shù)據(jù)時，可以采用在目標時間段內(nèi)的音頻數(shù)據(jù)與預(yù)設(shè)的音頻模型進行匹配；當匹配成功時，提取音頻模型對應(yīng)的風格標簽。

從預(yù)設(shè)的數(shù)據(jù)庫或者第三方的服務(wù)器，查找與風格標簽匹配的圖像數(shù)據(jù)，作為媒體特征圖像。

在另一種媒體特征圖像中，當多媒體數(shù)據(jù)為音頻數(shù)據(jù)時，從預(yù)設(shè)的數(shù)據(jù)庫或者第三方的服務(wù)器，查找在目標時間段內(nèi)的音頻數(shù)據(jù)的歌詞數(shù)據(jù)；

通過文本摘要算法(如TextTeaser)等方式采用所述歌詞數(shù)據(jù)生成文本摘要信息。

從預(yù)設(shè)的數(shù)據(jù)庫或者第三方的服務(wù)器，查找與該文本摘要信息匹配的圖像數(shù)據(jù)，作為媒體特征圖像。

在另一種媒體特征圖像中，當多媒體數(shù)據(jù)為音頻數(shù)據(jù)時，可以查詢音頻數(shù)據(jù)對應(yīng)的視頻數(shù)據(jù)，如該音頻數(shù)據(jù)對應(yīng)的MV/演唱會視頻、該音頻數(shù)據(jù)作為配樂的電視/電影，等等。

從視頻數(shù)據(jù)提取一幀或多幀圖像數(shù)據(jù)，作為媒體特征圖像。

當然，上述媒體特征圖像的識別方式只是作為示例，在實施本發(fā)明實施例時，可以根據(jù)實際情況設(shè)置其媒體特征圖像的識別方式，本發(fā)明實施例對此不加以限制。另外，除了上述媒體特征圖像的識別方式外，本領(lǐng)域技術(shù)人員還可以根據(jù)實際需要采用其它媒體特征圖像的識別方式，本發(fā)明實施例對此也不加以限制。

步驟103，當所述多媒體數(shù)據(jù)被觸發(fā)時，展示所述一幀或多幀媒體圖像數(shù)據(jù)。

在具體實現(xiàn)中，當播放多媒體數(shù)據(jù)時，檢測在目標時間段對應(yīng)的播放進度條上懸停操作hover，依據(jù)懸停操作hover展示一幀或多幀媒體圖像數(shù)據(jù)。

對于方法實施例，為了簡單描述，故將其都表述為一系列的動作組合，但是本領(lǐng)域技術(shù)人員應(yīng)該知悉，本發(fā)明實施例并不受所描述的動作順序的限制，因為依據(jù)本發(fā)明實施例，某些步驟可以采用其他順序或者同時進行。其次，本領(lǐng)域技術(shù)人員也應(yīng)該知悉，說明書中所描述的實施例均屬于優(yōu)選實施例，所涉及的動作并不一定是本發(fā)明實施例所必須的。

參照圖2，示出了根據(jù)本發(fā)明一個實施例的一種多媒體數(shù)據(jù)的處理裝置實施例的結(jié)構(gòu)框圖，具體可以包括如下模塊：

多媒體數(shù)據(jù)確定模塊201，適于確定待識別的多媒體數(shù)據(jù)；

媒體特征圖像查找模塊202，適于查找表征所述多媒體數(shù)據(jù)的一幀或多幀媒體特征圖像；

媒體特征圖像展示模塊203，適于在所述多媒體數(shù)據(jù)被觸發(fā)時，展示所述一幀或多幀媒體圖像數(shù)據(jù)。

在本發(fā)明的一種可選實施例中，所述多媒體數(shù)據(jù)確定模塊201還可以適于：

檢測針對多媒體數(shù)據(jù)設(shè)置的目標時間段；

確定在所述目標時間段內(nèi)的多媒體數(shù)據(jù)為待識別的多媒體數(shù)據(jù)。