專利名稱:聯(lián)網(wǎng)便攜設備中的特征提取的制作方法
技術領域:
本發(fā)明涉及數(shù)字纟某體文件識別和移動設備的領域。具體來說,本
發(fā)明廣義上涉及在諸如移動無線電電話的移動臺之內音頻采樣的至少 部分識別。
背景技術:
流行音樂的所有者最近才接受通過比如互聯(lián)網(wǎng)這樣的電子網(wǎng)絡來 下載它們版權作品的數(shù)字拷貝。 一個用于效力于此的流行網(wǎng)站是 http:〃www.apple.com.itunes/,其中用戶經(jīng)由個人計算機(PC )等訪問 音樂服務網(wǎng)站,人工地選擇歌曲標題,而且將選定歌曲的數(shù)字版本(例 如MP3、 AAC)下載到他們用來訪問網(wǎng)站的PC。然后用戶在PC上播 放歌曲或者將它們傳送到比如iPod⑧或者其它專用數(shù)字音樂播放器這 樣的便攜設備。第二代音樂下載技術最近已經(jīng)面市,其中用戶無需在網(wǎng)頁上按照 其標題來人工選擇歌曲。代之以由服務器或者與網(wǎng)站相關聯(lián)的其它計 算機'收聽,歌曲,而且對歌曲進行數(shù)字分析以便從數(shù)字音樂的數(shù)據(jù) 庫之中識另'J該特定歌曲。例如,網(wǎng)站 http:〃shazam.com/uk/do /help—faqs—shazam#4將它的操作說明如下。比如在酒館或者汽車中聆 聽歌曲的用戶在歌曲正在播放的同時在他的/她的移動臺(MS)中輸 入代碼。歌曲就通過標準的MS鏈路發(fā)送到掌控網(wǎng)站(hosting website ), 比如shazam.com,這正如同發(fā)送語音輸入那樣。掌控網(wǎng)站接收原始音 樂輸入,對之進行分析,并且將之匹配于它的數(shù)據(jù)庫中的歌曲之一。 Shazam.com技術對于在服務器處將移動臺僅用作為渠道來識別歌曲 而且將結果回報給移動臺而言表現(xiàn)出局限性。
不但經(jīng)由個人計算機訪問大多數(shù)音樂下栽服務,而且已經(jīng)引入空 中(OTA)移動下載服務。移動設備在小型的屏幕尺寸、有限的電源、 有限的數(shù)據(jù)連接可靠性和速度方面具有局限性,這使得發(fā)現(xiàn)音樂和將 音樂從音樂服務交付到移動終端極具挑戰(zhàn)。通常,音樂服務具有至少 5000 00首歌曲的音樂收集。使用移動設備用戶接口則難以對該規(guī)模的 音樂目錄進行探尋,其中順序的呈現(xiàn)必須使內容配合于屏幕。這造成 深入的分級以及難以找到音樂。人們在比如酒館或者音樂會大廳或者汽車無線電這樣的公共場所 聽音樂是司空見慣的。按照慣例,某人會對某一首特定音樂產(chǎn)生興趣, 但是不知道歌曲標題。該人士然后詢問友人、唱片店銷售人員,或者 石並巧從無線電廣播中聽到歌曲名從而得知標識該歌曲的歌手和標題。 一些個人可能使用(如上所述)Shazam.com站點通過調用關聯(lián)月良務號 和通過他們的移動臺播放歌曲作為實況'廣播,來識別歌曲。然后該 人士前往唱片店,或者基于由Shazam.com或者類似識別服務所返回的 標識從因特網(wǎng)服務購買歌曲。然而,通常有如下步驟l)聆聽音樂采 樣(刺激);2)識別歌曲;3)找到待購歌曲(基于標識);4)購買歌 曲的拷貝;以及5)交付所購拷貝而且將它添加到個人音樂收集。
步驟1 )至3)在傳統(tǒng)方法中是人工的?;谝蛱鼐W(wǎng)的音樂購買使 得步驟4)和5)自動化。比如Shazam.com這樣的服務使得以在步驟 1)的電子'聆聽,為基礎的步驟2)自動化。然而,據(jù)發(fā)明人所知用 于執(zhí)行上述步驟的所有現(xiàn)有方法都涉及到希望標識歌曲和購買歌曲拷 貝的個人所進行的人工步驟。本發(fā)明尋求將更多的上述過程流水化和 自動化。由于創(chuàng)建和存儲了較大數(shù)量的數(shù)字文件,所以已經(jīng)產(chǎn)生對數(shù)字文 件的標識方式進行標準化的需要。MPEG-7是由運動圖像專家組 (MPEG )開發(fā)的用來對關于多媒體文件內容的信息之表示進行標準 化,這與內容本身相矛盾。無論MPEG-7是否變成標準化方法,它都 描述了用以有效地對多媒體文件進行編索引、搜索和取回的開發(fā)工具 集。這樣的工具在這里以示例性的方式用來在下文中描述本發(fā)明如何使得音樂或者其它媒體的標識和購買自動化。
發(fā)明內容
本發(fā)明提供在如下使用場合中的解決方案,其中用戶例如在咖啡館中而且聽到他發(fā)現(xiàn)合乎需要的 一些音樂,但是不知道音樂家和/或歌曲標題。本發(fā)明為終端用戶提供了一種簡單的方式,用以標識歌曲和自動地獲得將該特定歌曲的拷貝直接購買到移動臺。盡管主要參照音樂和音頻文件進行描述,但是本發(fā)明也適用于視頻文件和可視采樣、靜態(tài)圖像識別以及組合式音頻/視頻文件和采樣。在一個實施例中,本發(fā)明是一種移動臺MS,包括用以接收媒體采樣的接口,比如轉換器;用以從接收的媒體采樣的數(shù)字版本中提取至少一個特征的處理器;以及用以通過無線通信鏈路發(fā)送至少一個提取特征的發(fā)送器。轉換器是將輸入信號轉換成不同形式的輸出信號的任何元件(例如麥克風、數(shù)字攝像機、光電元件)。接收的媒體采樣如本領域中已知的那樣在MS之內數(shù)字化,而術語數(shù)字化版本僅用來區(qū)別于可以輸入到MS轉換器的人類可辨認的媒體采樣。數(shù)字化版本可以用來重建模擬媒體采樣。優(yōu)選地,MS不發(fā)送媒體采樣的數(shù)字化版本的部分,但是在某些實施例中它可以隨同提取特征一起發(fā)送數(shù)字化版本的分段,比如與時間相關特征相關聯(lián)的 一 個或多個譜切片。[10] MS的上述接口不必是轉換器;它可以包括由MS用來接收媒體采樣的有線鏈路或者無線(移動、藍牙、光學、無線電廣播)鏈路。在某些實例中,MS可以接收數(shù)字采樣輸入,使得接收的媒體采樣是從中提取特征的媒體采樣的數(shù)字版本(不過在一些情況下MS可以更改所接收的數(shù)字采樣輸入以便于更有效的處理)。這可以在MS接收從單獨電子設備(例如有線鏈接的MP3播放器、經(jīng)由電子郵件鏈接的另一MS等)或者從在功能上與MS相分離的集成設備(例如集成MP3播放器、集成數(shù)字無線電)輸入的媒體釆樣時存在。在其它情況下,MS接收不通過轉換器(例如集成模式FM無線電、模擬輸入有線連接器)[ll]在另一實施例中,本發(fā)明包括一種計算機程序,實施于在移動臺之內的計算機可讀介質上,用以處理媒體采樣。該計算機程序包括可按照功能但是未必按照空間來分列的兩個指令集。第 一指令集用以從數(shù)字媒體采樣中提取至少一個特征。第二特征集用以通過無線通信鏈路發(fā)送至少一個提取特征。與移動臺一樣,優(yōu)選地不發(fā)送數(shù)字媒體采樣的部分,但是在一些實施例中數(shù)字媒體采樣的分段可以隨同已經(jīng)由第一計算機指令集提取的特征一起發(fā)送。在又一實施例中,本發(fā)明包括一種計算機程序,實施于計算機可讀介質上,用以將多個提取特征唯一地匹配于在數(shù)據(jù)庫中存儲的特征集。這一計算機程序包括同樣可按照功能來分列的三個計算機指令集。第 一計算機指令集用以通過網(wǎng)絡接收包括所接收的特征在內的消息,
算機指令集用以從消息中提取附加特征。那些附加特征可以從接收的特征中提取(例如不是直接從數(shù)字媒體采樣本身中提取的較高級提取),或者可以來自于接收的媒體采樣的分段,比如譜切片以及如下特征,該特征標識了該切片相對于在消息之內的其它特征而言的關系,或者包含上述兩者。第三計算機指令集用以搜索特征集的數(shù)據(jù)庫,直至與提取的附加特征相組合的多個接收特征唯一地匹配于數(shù)據(jù)庫的僅一個特征集。通過參照與附圖相結合的以下描述,本發(fā)明實施例的這些和其它方面及優(yōu)點將變得清楚明顯。然而應當理解,附圖僅被設計用于說明的目的而不是對本發(fā)明的限制進行定義。
圖1是本發(fā)明可以在其中起到作用的通信系統(tǒng)的示意圖。圖2A-2B是分別表示了對于在移動臺與服務器之間分布的媒體采
樣進行特征提取的框圖。圖3A-3D是對于在圖1的通信系統(tǒng)中采取的動作進行詳述的連續(xù)流程圖的各部分。圖3A表示了在移動臺之內的步驟,圖3B表示了在服務器之內的步驟,圖3C表示了在提供待購媒體文件之下載的服務器之內的步驟,而圖3D表示了在移動臺中響應于服務器的進一步步驟。[17]圖4是根據(jù)本發(fā)明的教授而特別地改造的移動臺的示意框圖。[18]圖5是對于在移動臺處連續(xù)地緩沖輸入所具備的優(yōu)點進行說明的示意時序圖。
具體實施例方式
體采樣是針對其執(zhí)行分析的任何大小的音頻、、可視、或者音U貞/可視信號中的 一部分。在正如經(jīng)由麥克風或者攝像機來接收媒體采樣那樣的一些實例中,媒體采樣是人類可辨別的。以下描述是在歌曲的時間受限分段的背景中進行的,該時間受限分段例如是通過常規(guī)FM無線電一般播放的三分鐘歌曲的連續(xù)或者連貫十秒分段。該采樣的特征或者它的數(shù)字版本是數(shù)字標記符、描述符或者是可以從對它的數(shù)字分析中進行收集或者提取的采樣內容的其它標識符。時點是在采樣之內以時間為序的時刻。特征常常與時點相關聯(lián)。例如,采樣中的最大幅度僅出現(xiàn)在一個時點;反復的頻率模式可以開始于以等間距相間隔的時點;特征性的打擊序列可以僅出現(xiàn)在從可以標識的低音序列結束起的固定偏移時間。下面呈現(xiàn)對特征的更具體描述。從采樣中提取特征以便量化采樣的各種特征。以音樂為例,提取歌曲采樣的特征以便搜索歌曲的數(shù)據(jù)庫而且從數(shù)以千計或者甚至數(shù)以百萬計的歌曲之中識別經(jīng)采樣的歌曲的標題(或者版本、音樂家等)。當數(shù)據(jù)庫包括先前已經(jīng)從整個歌曲中提取的特征時,可以在從當前采樣中提取的特征與先前提取的特征之間進行一對一的比較。以這一方式,僅通過整個歌曲中相對少的采樣就可以識別歌曲。盡管可以從媒體采樣或者該采樣的數(shù)字版本中提取特征,但是還可以從已經(jīng)提取的特征中提取附加特征。例如,從媒體采樣或者該采樣的數(shù)字版本中提取的第 一特征集將表現(xiàn)出它們本身之間的某種自相關。該自相關通過僅對第 一提取特征集的分析就可以確定。[20]在圖1中圖示了本發(fā)明在其中起到作用的通信系統(tǒng)20。比如FM無線電這樣的媒體源22提供媒體采樣24,比如歌曲的一部分。移動臺MS26或者具有無線通信功能、尤其是無線電話功能的類似這種便攜設備接收媒體采樣24以供數(shù)字化、處理和發(fā)送。雖然MS 26可以接收整個歌曲,但是媒體采樣或者它的數(shù)字化版本是根據(jù)本發(fā)明由MS26對之進行操作的一部分。MS 26創(chuàng)建至少一些媒體采樣24的數(shù)字版本,從該數(shù)字版本中提取一個或多個特征,而且通過無線鏈路28將這些特征發(fā)送到通信服務30,該通信服務包括與通信服務器30B通信的基站30A。通信服務30在基站30A接收來自MS 26的呼叫,對它們保持跟蹤,而且將來自MS26的傳輸重定向到商業(yè)歌曲識別服務34。在發(fā)送特征的同時,通信服務可以根據(jù)所用的通信體制類型來更改從MS 26接收的確切信號(比如進行解碼、解壓、識別和糾正錯誤等),也可以不這樣做,但是并不改變基本的實質數(shù)據(jù)。此外,通信服務30編寫短的響應消息以供MS 26接收,這一 點在下面有詳述。[22]歌曲識別服務34通過通信服務30來接收MS 26的傳輸。該傳輸優(yōu)選地包括在歌曲識別服務34處被進一步加以分析的媒體采樣24的特征。替選地,由MS提取的特征與該采樣的另一分段一起發(fā)送,識別服務34從中提取附加特征。隨著MS的處理能力和電池效率的增加,來自MS26的傳輸可以包括全面的特征集,其足以使得無需識別服務34進行進一步的特征提取。在任何情況下都不通過MS 26僅對整個媒體采樣34的電話現(xiàn)場饋送進行傳輸。無論怎樣,歌曲識別服務34都接收該傳輸,可以根據(jù)從MS 26接收的消息中提取進一步的相關特征,而且將它們與在該消息中接收的由MS提取的特征相結合。[23]可以與歌曲識別服務34在一起或者不在一起的歌曲簽名數(shù)據(jù)庫36提供了 (由MS 26和識別服務34 二者)從媒體采樣34中提取的完全特征集與之做比較的數(shù)據(jù)庫。這一數(shù)據(jù)庫優(yōu)選地為許多文件中的每個文件存儲從基本的媒體文件或者其采樣中提取的多個特征。這些存儲的特征集可以用來在簽名數(shù)據(jù)庫36中的所有其它特征集中唯一地標識從中抽取媒體采樣24的基本文件。替選地,簽名數(shù)據(jù)庫36可以
為每個文件或者歌曲存儲若干提取的非唯一特征以及參考采樣(其組
合唯一地標識該基本文件或者歌曲),或者存儲用以從其它歌曲或者文 件中唯一地標識一個歌曲或者文件的任何其它手段。歌曲識別服務34將原來的采樣與在歌曲簽名數(shù)據(jù)庫36中存儲的 采樣做比較,而且在歌曲簽名數(shù)據(jù)庫36中尋求MS 26所發(fā)送的特征 的僅一個匹配。當MS 26和識別服務34各自^是取特征時,歌曲識別 服務34執(zhí)行兩個單獨的功能使用所提取的特征來搜索數(shù)據(jù)庫,以及 從媒體采樣的發(fā)送部分中提取進一步特征。優(yōu)選地,識別服務34并行 地執(zhí)行這兩個功能。當歌曲識別服務34初始地僅使用先前由MS 26 提取的特征來搜索簽名數(shù)據(jù)庫36時,可能識別不出唯一歌曲,但是簽
而減少到顯著更小的子集。同時,識別服務34從MS 26所發(fā)送的該 部分媒體采樣24中提取附加特征。提取每個附加特征時,潛在匹配的 子集被減少,直至找到僅有的一個唯一匹配為止。在這時,識別服務 34終止進一步的特征提取,從而最小了化為將媒體采樣24匹配于簽 名數(shù)據(jù)庫36中的媒體文件而需要的全部處理。替選地,識別服務34可以代之以先從MS 26所發(fā)送的消息中提 取附加特征,利用從MS26接收的特征來編譯所提取的特征,而且執(zhí) 行對整個簽名數(shù)據(jù)庫36的僅一次搜索以找到唯一匹配。該選擇是基于 在對用戶的響應(用以搜索數(shù)據(jù)庫的時間)與在識別服務處用以從來 自許多MS的眾多同時消息中提取附加特征的可用處理能力之間的市 場驅動平4軒。 —旦找到唯一匹配,識別服務34通過通信服務30將采樣標識信 息(在沒有找到匹配時該消息也可以是未經(jīng)標識的消息)發(fā)送到MS26。 MS26在顯示器用戶接口UI上顯示歌曲標題和音樂家以向用戶告知歌 曲名或者其它媒體文件名。優(yōu)選地,將本發(fā)明擴展到僅標識歌曲或者媒體文件以外,而是自 動地提供如下鏈接,用戶可以通過該鏈接來購買下載到MS26處的消費者的該標識的媒體文件的拷貝。替選地,可以改造為將第一拷貝提
供給MS26而將第二拷貝提供給另一設備,比如個人計算機44,其中 每個拷貝是針對下載可用的鏈路28、 46的類型而定制的。這一點之所 以有利是因為第一拷貝可以是用如下編碼解碼器壓縮后的標識的媒體 文件,該編碼解碼器針對在MS 28處的更有限的存儲和聲音再現(xiàn)能力 (以及帶寬考慮)而進行優(yōu)化,而同一基本媒體文件的第二拷貝可以 用第二編碼解碼器來壓縮,該第二編碼器針對在通向PC 44的鏈路46 中可用的更大帶寬而進行優(yōu)化。消費者然后可以將第二拷貝上傳到專 用便攜數(shù)字音樂設備,比如Rio⑧或者iPod⑧,以求高保真的便攜音樂。 這種雙拷貝下載替選方案的細節(jié)是于2004年3月2日提交的共同擁有 的美國專利申請第10/792,547號的主題,而且在這里通過參考結合于 此。向用戶提供標識媒體文件的拷貝就要求存儲有待下載的實際文件 或者歌曲的文件或者歌曲存儲數(shù)據(jù)庫40的配合。在簽名數(shù)據(jù)庫36存 儲特征和文件/歌曲標識(比如可以在找到匹配之后發(fā)送到MS 26的標 題/作者)的情況下,文件/歌曲存儲數(shù)據(jù)庫40存儲與在簽名數(shù)據(jù)庫36 中匹配的特征對應的實際文件/歌曲。兩個數(shù)據(jù)庫36、 40可以合而為 一,不過它們也可以不這樣;來自簽名數(shù)據(jù)庫36的標識可以用來從單 獨的文件/歌曲數(shù)據(jù)庫40中容易地選擇唯一文件/歌曲。來自后一數(shù)據(jù) 庫40的文件/歌曲是在本發(fā)明如上所述擴展到將歌曲的拷貝及其標識 提供給MS 26的用戶時、優(yōu)選地在文件壓縮之后下載到用戶的文件/ 歌曲。當要這樣下載歌曲時,優(yōu)選的是,在網(wǎng)絡32中耦合到歌曲數(shù)據(jù)庫 40的音樂服務38接收來自MS 26的請求,而且利用所請求的文件(歌 曲、圖像、文本等)以及用于以所述的形式(觸筆、模板、腳本等) 呈現(xiàn)該文件的元數(shù)據(jù)來做出響應。音樂服務38從歌曲存儲數(shù)據(jù)庫40 中查詢數(shù)據(jù)。由于MS 26通過通信服務30耦合到網(wǎng)絡32,所以文件 穿過它通到MS 26。也可以包括下載服務42以便管理通過音樂服務38從MS 26啟動的所有單獨下載交易。下栽服務42對于從存儲數(shù)據(jù)庫40每次下載文 件進行跟蹤,以便跟蹤計費和遵循版權約束。本發(fā)明構想了在MS 26 的用戶接口 UI處由單個輸入,比如單次按壓按鈕或者軟鍵來自動執(zhí)行 的端到端的交易。在這一端到端的實施例中,該單個輸入在MS26中 啟動了媒體采樣的捕獲、特征提取和呼叫建立以及啟動了從MS26的 所提取的特征和媒體采樣的一部分的傳輸。使用簽名數(shù)據(jù)庫36通過提 取的特征(一些特征由MS 26提取, 一些特征由識別服務34提取) 來標識歌曲,而音樂服務38或者識別服務34向MS 26發(fā)送如下消息, 該消息向MS用戶標識該歌曲(例如標題和音樂家)。 [31]該消息也提供對音樂服務38的鏈接,使得利用在MS 26處優(yōu)選 為又一次的輸入,用戶就可以請求下載該歌曲到MS 26。音樂服務存 儲歌曲標識符(該標識符可以是標題/音樂家,也可以不這樣,因為其 將被用來從歌曲數(shù)據(jù)庫40中數(shù)字化地選擇歌曲),或者將歌曲標識符 傳送到下載服務42,然后該下載服務存儲歌曲標識符。當MS26請求 下載歌曲時,音樂服務38從歌曲數(shù)據(jù)庫40中選擇匹配歌曲,通知下 載服務42,該下載服務通過通信服務服務器30B來安排對MS 26用戶 的計費,而音樂服務38從歌曲數(shù)據(jù)庫40中提供要下載到MS26的標 識的歌曲。用戶可以使用在標識消息中提供的鏈接直接地從MS 26訪 問音樂服務38,或者可以使用從PC 44的鏈路以獲得歌曲的較高保真 版本(不同的壓縮編碼解碼器),因為該版本將經(jīng)由寬帶或者其它PC 鏈路46來下載,其中該PC鏈路在目前的實踐中通常在帶寬上不像無 線移動電話鏈路28那樣受限制。圖2A和2B廣義地描述了在通信系統(tǒng)20的分布式部件之間對媒 體采樣的分析。圖2A在框圖中圖示了在移動臺26之內的操作。媒體 采樣24被數(shù)字化201為對MS 26的任何其它輸入,而MS 26建立到 達比如由歌曲識別服務34操作的服務器這樣的服務器的數(shù)據(jù)連接(例 如經(jīng)由無線鏈路28和網(wǎng)絡32 )。 MS 26開始預處理202經(jīng)數(shù)字化的音 頻輸入信號201而且從該信號中提取隨后將作為數(shù)據(jù)分組發(fā)送到服務 器的特征??蛇x地,MS 26已經(jīng)持續(xù)地緩沖音頻輸入,使得可以在按壓識別鍵或者用以啟動該過程的其它用戶輸入之前的時間所輸入的信
號開始預處理202。在多數(shù)情況下,用戶在按壓識別鍵之前已經(jīng)收聽 歌曲一段時間。用于識別的特征例如可以是譜平坦度、i普質心、節(jié)奏和/或旋律。 特征描述了媒體文件或者采樣的內容,而不僅僅是對輸入到MS 26中 的(模擬)媒體采樣24的數(shù)字再形成。雖然MS 26將輸入的媒體采 樣24數(shù)字化,但是僅僅這樣還不是特征提取。優(yōu)選地,特征是非重建
特征進行重新處理或者用別的方式對該特征進行操作就可以重建的。 非重建特征描述了媒體文件的內容,但是無法重新創(chuàng)建該內容。并非 所有特征都需要是非重建的,但是與在即使不是所有實例中也在多數(shù) 實例中的重建特征相比,在MS 26處提取非重建的特征可產(chǎn)生較小打 包的消息以便通過無線鏈路發(fā)送。適當?shù)奶卣饕呀?jīng)例如在MPEG-7標準(ISO/IEC 1 5938,尤其是 ISO/IEC 15938-4,信息技術-多媒體內容描述接口 -第4部分音頻, 針對于這里與音頻有關的實施例)中進行了描述,通過參考將其結合 于此。涉及MPEG-7的文獻使用了術語描述符以表示從媒體采樣中直 接提取的特征,這比如可以根據(jù)本發(fā)明由MS 26來執(zhí)行。MPEG-7文 獻使用了術語描述方案DS或者描述工具來描述從描述符中提取的特 征。描述符是對媒體采樣數(shù)字版本的低級分析,而描述方案是高級分 析(例如是從描述符之間的相互關系中而不是直接地從采樣中獲取 的)。MPEG-7目前處于提煉之中,因此下文是對于當前針對該標準而 構思的并與本發(fā)明相關的某些描述符和描述方案的概括。 [35]描述符是低級特征,即視聽內容的基本質量的表示,比如信號幅 度的統(tǒng)計模型、信號的基本頻率、在信號中出現(xiàn)的源的數(shù)目估計、譜 傾斜、情緒內容、顯式聲效模型以及任何數(shù)目的具體或者抽象特征。 在本發(fā)明的優(yōu)選實施例中,MS26提取描述符。描述方案是描述符的結構化組合。這一結構可以用來注釋文檔以 直接地表達文檔的結構或者創(chuàng)建形成了對更高級概念的更豐富表達的特征組合。例如,經(jīng)典的音樂DS可以對Sonata形式的音樂結構進行 編碼(而且允許有例外)。各種頻語和時間描述符可以組合形成適合于 描述音質或者短聲效的DS。在本發(fā)明的優(yōu)選實施例中,在網(wǎng)絡32上 的服務器提取描述方案。描述符可以被視為限定了媒體采樣內容特定特性的 一 種表示的語 法和語義。例如,圖像文件的顏色是一種特性。特征可以是描述符或 者特性,其中描述符是二者中更為基本的,而特定的特性可能只有通 過若干描述符才可以完全地加以描述。與特性'顏色,相關聯(lián)的可能 描述符包括色直方圖、紅-綠-藍(RGB)矢量或者串。MS26可以針 對特定描述符提取數(shù)值,針對給定的數(shù)值集提取描述符的示例。例如, RGB=( 255, 255, 255 ),色串="紅色"。某些描述符與一類媒體文件 相關或者對之有效,而與另一類媒體文件無關或者對之無效。例如, 用于可視媒體采樣的描述符可以包括在基本結構特性之內的柵格布 局和直方圖;在色特性之內的色空間、主導色、色直方圖和色量化; 在紋理特性之內的空間圖像密度分布和同質紋理;在形狀特性之內的 對象界定框、基于區(qū)域的形狀、基于輪廓的形狀和3D形狀描述符; 以及在運動特性之內的攝像機運動、對象運動軌跡、參數(shù)對象運動、 運動行為和運動軌跡的多個方面(例如速度、方向、加速度)。與音頻 采樣相關的描述符可以包括在語音注釋特性中的詞語以及音素加元 數(shù)據(jù)的晶格;在音質特性中的偶諧音與奇諧音之比以及諧音起音連貫 性;以及在旋律特性之內的旋律輪廓和節(jié)奏。目前在MPEG-7中有十七個時間和空間描述符用于描述音頻采 樣基礎、基礎譜、信號參數(shù)、音質時間、音質譜和語基。此外,靜 音描述符已經(jīng)在標識音頻采樣的內容中證明其價值。兩個基礎音頻描 述符是是用于 一 般用途的在時間上采樣的標量值,適用于所有種類的 音頻采樣。波形描述符描述了通常用于顯示目的的音頻波形包絡(最 小和最大)。功率描述符描述了在時間上平滑的瞬時功率,該描述符可 用作為對信號或者采樣的快速概括而且與功率譜相結合。 [39]四個基礎譜音頻描述符都共享共同的基礎,都從音頻信號或者采樣的單個時間-頻率分析中導出。它們都通過第一描述符來通知,第一 描述符即音頻語包絡描述符,該描述符是由二的冪次方的除數(shù)或者倍 頻程的倍數(shù)間隔開的對數(shù)頻率語。該音頻鐠包絡是對音頻采樣的短期 功率諳進行描述的矢量。它可以用來顯示聲鐠圖,以便合成數(shù)據(jù)的原
本"聽覺化",或者用作為用于搜索和比較的通用描述符。其它i瞽音頻 描述符表示了對數(shù)頻率功率譜的重心(質心或者形狀的中心)、圍繞質 心擴展的語、以及許多頻率帶或者倉中的每個頻率帶或者倉的譜平坦 度。.兩個信號參數(shù)描述符主要應用于周期信號或者準周期信號。這些 描述符描述了音頻釆樣的基本頻率(置信量度)及其諧音(用以區(qū)分 例如樂音音調或者濁音語音、金屬性或者鐘似聲音、如'f這樣的摩 擦音、或者樂器的密集混合)。兩個音質時間描述符描述了聲音分段的時間特性,而且尤其有助 于對于樂音音質的描述,該樂音音質是與音調和響度無關的具有特性 的音品。 一個這樣的描述符對聲音的"起音"(信號從靜音升到最大幅 度所花費的時間)進行表征,而另一描述符對信號包絡或者質心進行 表征,表示了信號能量何時聚焦。當衰落的鋼琴音符與維系的風琴音 符的長度和起音雷同時,后 一描述符例如可以在這兩個音符之間加以 區(qū)別。五個音質譜描述符是在線性頻率空間中的鐠特性,尤其適用于對 樂音音質的感知。 一 個描述符是線性功率譜中各倉的頻率的冪加權平 均,而且類似于如上所述的質心描述符,但是又因不同的樂器而對聲 音的"銳度"有所區(qū)別。其余的音質譜描述符對信號或者采樣的諧音 規(guī)則間隔成分進行操作。為此,描述符是在線性頻率空間中計算的, 而且包括譜質心、譜偏差和譜擴展描述符。兩個譜基礎描述符表示了高維度譜空間的低維度投影以便有助于 緊致和識別。 一個這樣的描述符是從規(guī)一化功率語的奇值分解中導出 的一連串(潛在地隨時間變化和/或在統(tǒng)計上獨立的)基礎函數(shù)。另一 描述符(在與第一描述符相組合時)表示了在秩縮減的基礎上進行投影之后的語的低瑋度特性。靜音分段簡單地將"靜音"(即沒有顯著的 聲音)的語義隸屬于音頻分段。雖然這極為簡單,但它卻是非常有效 的描述符。它可以用來幫助將音頻流進一步分段,或者用作為不對分 段進行處理的提示。描述符可以 一起用來查看和緊致地表示聲謙圖的獨立子空間。這 些獨立的子空間(或者它們的分組)常常強相關于不同聲源。因此在 使用較少的空間時從聲鐠圖中獲得更多的突顯和結構。 [45]描述方案DS反映了在描述符之間的或者在若干頻率倉或者譜切 片之上的同類描述符之間的相互關系。以這一方式,DS以某一程度的 一般性換來了描述上的豐富性。 一旦在MS 26處從采樣或者該釆樣的 分段中提取足量描述符,就無需發(fā)送經(jīng)數(shù)字化的音頻采樣;識別服務 34僅需要用以從中提取附加特征的提取特征。這些附加特征在本發(fā)明 的某些實施例中類似于MPEG7的DS。例如,音頻簽名DS在統(tǒng)計上 概括譜平坦度描述符。這可以針對音頻采樣的魯棒自動標識來提供唯 一的內容標識符。音質DS著眼于描述樂器聲音的感知特性。音質是使兩個聲音具 有同一音調和響度而聽上去不同的感知特性。音質DS用縮減的描述 符集來描述這些感知特性,該描述符集能涉及比如聲音的"起音"、"亮 度"或者"豐富度"這樣的概念,涉及特定樂器或者樂曲組(打擊樂 器)的諧音、連貫、維系音和非維系音等。另一音質DS使用距離度 量將音質時間描述符與譜質心描述符做比較。旋律DS包括對于單音旋律信息的豐富表示以便有助于有效、魯 棒和富于表現(xiàn)力的旋律相似度匹配,而且包括用于極為扼要、有效的 旋律輪廓表示的旋律輪廓DS( 5階輪廓表示了相鄰音符之間的間隔差, 其中間隔被向上、向下量化成或大或小或相同大小的間隔)以及用于 更為詳細、完整和富于表現(xiàn)力的旋律表示的旋律序列DS(擴展的描述 符集和較高精確度的音調間隔編碼)。任一個描述符或者二者都可以擴 展為包括關于旋律的支持信息。在這些核心描述符周圍排列的是應用 所希望使用的一連串可選的支持描述符,比如歌詞、基調、韻律和起始音符?!?識別"DS專門地輔助對基本媒體文件進行搜索和編索引, 而且使用低級的鐠基礎描述符作為它們的根基,由該根基形成了統(tǒng)計 模型,比如隱含馬爾可夫或者高斯混合模型。所得的概率分類器可以 識別廣泛的聲音分類,比如語音和音樂,或者它們可以被訓練用以識 別較窄的類別,比如男性、女性、喇叭或者小提琴。其它應用包括風 格分類和語音識別。更多DS詳述了在音頻流之內的口頭內容。 [49]與可以提取的特征有關的更多細節(jié)可以在2002年6月27日公布 的美國專利申請第US2002/0083060 Al號中找到,通過參考將其結合 于此。MS 26中預處理202的量在范圍上可以從無到特征矢量的完整 提取。用于每個特征的整個特征提取過程優(yōu)選地分成若干階段, 一些 階段與未提取的信號(例如在MS26處接收的'現(xiàn)場,音樂采樣24) 相比而言減少了隨后發(fā)送的數(shù)據(jù)量。例如,用于語特征的第一階段可 以是通過計算瞬時自相關矢量而且在時間段上將它們平均來估計數(shù)字 化輸入信號201的自相關。后繼的階段然后執(zhí)行傅立葉變換而且對之 進行進一步處理。整個特征提取過程在MS 26與服務器34之間劃分。 MS 26選擇它執(zhí)行的階段的數(shù)目,而且將作為輔助信息執(zhí)行的階段的 數(shù)目M連同預處理的結果(由MS提取的特征) 一起進行打包203。 優(yōu)選地,MS26自適應地選擇它提取的特征的數(shù)目和/或類型,這可以 基于媒體采樣的類型(音頻、視頻、靜態(tài)圖像等)和/或它將用來發(fā)送 這些提取特征的信道特性。也可以如上所述從MS 26發(fā)送MS 26沒有 從中提取特征的媒體采樣24的分段,以供如上所述在識別服務34處 的進一步分析。根據(jù)典型的無線協(xié)議(星座映射、糾錯等)對分組進 行編碼204。在處理能力與傳輸帶寬之間的適當平衡是基于接入網(wǎng)32 和MS 26的功能來選擇的。經(jīng)由一個或多個信道通過無線鏈路28發(fā) 送經(jīng)編碼的分組。如圖2B中所示,對分組進行接收和解碼205。在端到端畫外音的 互聯(lián)網(wǎng)協(xié)議設置中,無線鏈路28所特有的解碼可以由通信服務器30B 完成,而單獨分組的開啟206可以由歌曲識別服務34完成。歌曲識別服務34的服務器然后提取標識歌曲標識所需的進一步參數(shù)207,該參 數(shù)可以根據(jù)從MS 26接收的特征和/或者也從MS 26接收的數(shù)字化媒體 釆樣的分段中來提取。在圖2A-2B的例子中,提取了總計N〉M個特 征以實現(xiàn)媒體采樣的正標識。許多的M個特征由MS26提取,而其余 的N-M個特征由服務器34提取,其中M優(yōu)選地表示較低級特征,而 N-M代表較高級特征,該較高級特征是從較低級特征中提取的,但是 不形成媒體采樣的數(shù)字化版本。歌曲識別服務服務器34然后在提取的 特征與存儲于歌曲簽名數(shù)據(jù)庫36處的、各自表示基本媒體文件的特征 集之間進行比較208。理想地,數(shù)據(jù)庫中的一個且僅一個特征集將匹 配于提取特征組,而這樣匹配的特征集表示了從中獲取過媒體采樣的 文件?;谔崛〉奶卣鳎ㄟ^將媒體采樣24的N個提取特征與歌曲 簽名數(shù)據(jù)庫36提供的基本文件的特征矢量或者矢量集做比較來識別 該媒體采樣。圖3A-3D以流程圖的形式圖示了根據(jù)本發(fā)明的方法的各種步驟或 者優(yōu)選實施例,每個流程圖如圖所示地聯(lián)系到另一圖。圖3A描述在 MS 26之內初始地接收和處理々某體采樣24的方法。在這一實施例中, 將媒體采樣解析成兩個分段, 一個分段存儲于MS26的緩沖器中,而 在MS26處接收時實時地處理另一分段。在MS26處接收302第一媒 體采樣分段、將之數(shù)字化和存儲于緩沖器中。這一存儲是連續(xù)的,因 為沒有用戶輸入通知MS 26它應當根據(jù)這里的教導來執(zhí)行分析或者用 別的方式處理該輸入。用戶按壓識別鍵304,觸發(fā)MS 26優(yōu)選同時地 執(zhí)行三個功能MS26建立306通向基站30A的無線鏈路28,它從媒 體采樣24的緩沖第一分段中提取308較低級特征,而且它接收310媒 體采樣的第二分段、將之數(shù)字化,并且從中提取較低級特征??梢运?態(tài)地存儲第二分段。MS 26然后通過在步驟306建立的無線鏈路28來 發(fā)送312所提取的特征(以及如上所述如果適用則還發(fā)送由MS26在 提取特定特征時執(zhí)行的步驟數(shù)目)。替選地,從第一分段中提取特征, 也可能從第二分段中提取特征,而且提取的特征連同第二分段一起發(fā) 送,該第二分段可以僅僅是數(shù)字化媒體采樣的譜切片或者 一連串譜切片。該方法在圖3B中繼續(xù)314。圖3B詳述了在系統(tǒng)20的網(wǎng)絡32側處的步驟。服務器34從MS 26 接收316在圖3A的步驟312發(fā)送的消息。通信服務器30B可以對打 包消息的無線具體部分進行解碼,而且優(yōu)選地通過網(wǎng)絡32僅重發(fā)帶有 實質數(shù)據(jù)的未開啟分組。歌曲識別服務34開啟分組,接收已經(jīng)提取的 較低級特征,而且在簽名數(shù)據(jù)庫36中搜索318如下文件以求唯一匹配 320,該文件承載了與從MS 26接收的那些較低級特征相匹配的特征 集。暫時存儲該搜索的結果。如果僅使用由MS提取的特征找不到唯 一匹配,則將(在方塊316初始化的)索引K與最大值做比較,而且 如果沒有超過最大值,則在方塊326從接收的較低級特征中提取一個 或更多較高級特征。在方塊328,使用由服務器提取的第K個特征來 搜索與由MS提取的特征相匹配的來自數(shù)據(jù)庫的(而且在方塊318暫 時存儲的)那些特征,使得在當前的搜索迭代中無需再次搜索整個數(shù) 據(jù)庫36。在方塊322暫時存儲該第K次搜索的結果,在方塊330對K 進行索引加一,而且如果再次沒有找到唯一的匹配320,則針對甚至 更多的提取特征繼續(xù)該循環(huán),直至K超過最大值為止,其中將"沒有 找到匹配"消息發(fā)送334到MS。 一旦在方塊320找到唯一匹配,就 將答復消息336發(fā)送到MS 26,該答復消息帶有與匹配于提取特征的 數(shù)據(jù)庫特征集唯一對應的歌曲或者文件的標題(或者其它標識)。答復 消息336也優(yōu)選地帶有直接通向歌曲或者文件存儲數(shù)據(jù)庫40處的匹配 文件的鏈接,該存儲數(shù)據(jù)庫40可以與簽名數(shù)據(jù)庫36在一起,也可以 不這樣。在MS 26與歌曲識別服務34之間的通信鏈路優(yōu)選地在MS 26首 次發(fā)送它提取的特征的時間與識別服務34發(fā)送它的帶有唯一文件標 識符的答復消息336的時間之間保持開路。在一個實施例中,MS 26 發(fā)送具有第 一提取特征集的第 一消息,而識別服務34搜索它的數(shù)據(jù)庫 (提取附加特征或者不這樣)。在沒有找到唯一匹配的情形下,識別服 務34可以向MS 26發(fā)送請求消息,該消息可以指定它要求MS 26提 取的附加特征的數(shù)目和/或類型(MS 26可以從存儲于緩沖器中的媒體采樣的數(shù)字版本中提取附加特征)。例如,假設識別服務34返回來自 數(shù)據(jù)庫的四個匹配結果。然后識別服務能確定可以用來對四個匹配結 果唯一地進行區(qū)別的一個或多個特定特^正,該特征可以是較低級特征, 比如信號包絡或者質心,或者是較高級特征,比如在音質時間質心之 間的音質時間距離。在前者中,識別服務.34可以針對特定譜切片來具 體地要求將在四個匹配結果之間直接地進行區(qū)別的質心特征;在后者 中,它可以要求遺漏的音質時間質心,使得識別服務然后可以提取將 在四個匹配結果之間進行區(qū)別的附加特征(例如質心之間的距離)。 MS 26發(fā)送具有在該第二次提取中提取的第二特征集的另一消息,而 識別服務34再次搜索數(shù)據(jù)庫。對數(shù)據(jù)庫的第二次搜索可以使用第二提 取特征集,可以使用從第二特征集中提取的第二附加特征集,或者其 組合。以這一方式,可以在MS26與識別服務34之間繼續(xù)'對話,, 每當數(shù)據(jù)庫搜索未能返回唯一匹配時識別服務34就要求附加特征。優(yōu) 選地,在它們之間的通信鏈路保持開路;由于沒有發(fā)送分組,所以在 識別服務搜索數(shù)據(jù)庫的時間期間,分組交換網(wǎng)絡無需消耗顯著的帶寬。 [54]優(yōu)選地,歌曲或者文件標識和對應的音樂l良務URI纟皮返回到通信 服務30A-B,該通信服務編寫對MS 26的答復消息而且將它作為 SMS/MMS或者類似消息發(fā)送到MS 26。識別服務服務器34也發(fā)送消 息338到音樂服務器38 (其中音樂服務器與識別服務服務器相分離), 該消息具有MS 26的唯一標識符以及對匹配文件的鏈接。 [55]方塊342引向圖3C,音樂服務器38。音樂服務器38從圖3B的 方塊338接收334消息,而且在下載管理器346處存儲346該信息, 這是因為MS26可能無法立即地請求下載匹配文件或者歌曲。 一旦優(yōu) 選地在MS 26從識別服務服務器34接收它的答復消息336之后不久 音樂服務器38就從MS 26接收請求(見圖3D),它將MS 26的唯一 標識符匹配350于在下載管理器346中存儲的MS ID,而且取回對匹 配文件的關聯(lián)鏈接。確認支付信息(優(yōu)選地在該MS26進行第一購買 之后保留存檔和匹配到MS ID),而且匹配文件或者歌曲下栽352到 MS 26。購買發(fā)票提交354到該MS 26的通信服務器30B,而該過程對于該方法的網(wǎng)絡側而言就此結束356。圖3B的方塊340引向在MS26看來則是繼續(xù)的圖3D。 MS 26從 (圖3B的)方塊336接收答復消息和鏈接,而且將歌曲或者文件標題 或者其它標識符連同對它的鏈接一起顯示360。用戶可能是在選擇用 戶已經(jīng)存儲可以同時顯示的若干鏈接之后按壓362下載鍵,這就發(fā)送 了 364對于在圖3C的方塊348處提到的對文件或者歌曲的請求,也構 成了對先前透露賬戶進行借記或者貨記的授權。用戶在SM26處接收 336下載的文件或者歌曲,而該方法對于該交易的MS 26側而言就此 結束368。 MS 26的具體部件將參照圖4來詳述。用于接收音頻輸入(先前 提到的媒體采樣24)的第一轉換器或者麥克風48耦合到將采樣數(shù)字 化而且開始提取特征的處理器50,這些特征存儲于計算機可讀主儲存 器54中。用于特征提取的特定算法可以存儲于儲存器54中作為計算 機可讀指令,而主儲存器54可以不是單個一致的存儲介質,而可以是 分布于若干不同存儲部件之間。媒體采樣可以穿過緩沖器儲存器52, 該儲存器在采樣被處理之前持續(xù)地存儲有限數(shù)據(jù)容量的采樣。緩沖器 儲存器52持續(xù)地存儲在麥克風48處最近接收的信號,使得當媒體采 樣要使得特征在用戶命令之下被提取時,處理器50可以立即開始從當 前在緩沖器儲存器52之內的該部分媒體采樣中提取特征。以這一方 式,可以從采樣的如下部分或者分段中提取特征,該部分或者分段在 時間上領先于用以標識歌曲或者文件的用戶命令。由于在用戶命令要 求這么做之前,對于在緩沖器存儲器中存儲的信號就不進行附加處理, 所以消耗了最少的額外功率。處理器50以及MS 26的所有部件是通過比如可充電電池56或者 可更換燃料電池這樣的便攜電源來供電的。用戶接口 58包括用以將來 自處理器的輸出轉換成用戶可辨認的文本消息和圖像的顯示器接口 58A以及由其用戶可以向處理器50輸入命令/i青求的比如4安鈕的輸入 機制58B。處理器50通過開關64耦合到發(fā)送器60和接收器62,使得 無法同時出現(xiàn)發(fā)送和接收。發(fā)送器60和接收器62各自耦合到天線66,該天線可以內置或者外置于包裹處理器50的外殼。處理器也可以在第 二轉換器或者揚聲器68處向用戶提供輸出。為了接收視頻,MS26可 以包括用以向處理器50提供可視媒體采樣的攝像機70或者其它圖像 捕獲設備。雖然未示出,但是攝像機70也可以向視頻緩沖器存儲器(未 示出)提供輸入,該存儲器的工作方式類似于與麥克風48相關聯(lián)的緩 沖器存儲器52。圖5是對于在MS 26處緩沖輸入時獲得的優(yōu)點進行描繪的時序 圖。在開始502處開始在MS 26處接收媒體采樣501。在該開始502 處用戶開始收聽,而且在確定它是他/她想要其拷貝的歌曲或者文件之 后,用戶在請求時間504例如按壓專用識別按鈕86。假設對于MS26 而言需要最少的(時間有限的)媒體采樣AT以執(zhí)行它的預處理。這 并不是處理時間而是為了提取用來標識整個歌曲或者文件的足夠特征 而必需的歌曲量(例如十秒)。當利用了緩沖器52時,AT開始于先于 用戶請求時間504的時間506,而且將必不可少的最少采樣時間擴展 到緩沖采樣結束時間508。在沒有利用緩沖器時,可以捕獲媒體采樣 的最早時間就在請求時間504。必不可少的最少采樣時間則必須結束 510于遲于緩沖采樣結束時間508的時間。取決于MS 26對媒體采樣 24的緩沖分段進4亍處理所花費的時間量,兩個結束時間508、 510之 差512可以與媒體采樣開始時間506、 504之差一般大。由于MS 26 優(yōu)選地從它發(fā)送預處理特征和接收答復消息起維持連續(xù)的無線鏈路 28,所以該差512僅能通過減少延遲來增強用戶的體驗。 [60]總而言之,適應于音樂文件的本發(fā)明包括一種無縫音樂識別和購 買系統(tǒng)和方法,該系統(tǒng)和方法實施了無縫的使用鏈,該使用鏈涵蓋了 從聆聽感興趣的音樂到空中購買該特定一個音樂的所有步驟。在歌曲 識別設置于MS 26的單個按鈕上的情況下具有新穎功能。按壓該按鈕 促使MS從采樣中提取和發(fā)送一個或多個特征,而且作為響應,最終 接收如下消息,該消息不僅標識從中獲取媒體采樣的基本歌曲,而且 在音樂服務中提供對音軌的直接鏈接。按壓該鏈接將用戶帶到可以用 來立即空中購買和下載特定 一 個藝術品的音樂服務。音樂識別過程的特征提取部分在MS與服務器之間進行劃分,使得MS可以執(zhí)行第一 階段,由此減少發(fā)送到服務器的數(shù)據(jù)量。階段數(shù)目可由MS選擇,而 且作為輔助信息發(fā)送到服務器,使得它知道從哪里繼續(xù)特征提取。在 從媒體采樣中提取特征時的計算負荷由此分布于MS與服務器之間 (或者至少在服務器處有所減少,因為MS在某些實例中可以執(zhí)行所 有特征提取,而服務器僅將已經(jīng)提取的特征匹配于它的數(shù)據(jù)庫)。優(yōu)選 地,這一特征提取分布自適應地實.施于MS處,比如通過使用從力艮務 器接收的反饋、對網(wǎng)絡的鏈接中可用信道容量的測量和/或基于MS對 于待標識的媒體采樣的類型或者復雜性的確定。MS 26的終端用戶可以標識和購買他/她在進行活動時聽到的音 樂。用戶沒有放開在識別的歌曲信息與可以購買實際歌曲文件的處所 之間的鏈接。在MS中執(zhí)行部分信號分析(特征提取)減少了向服務 器發(fā)送(OTA)的數(shù)據(jù)量,由此減少所涉及的傳輸費用。盡管已經(jīng)圖 示和描述了當前被認為是請求保護的發(fā)明的優(yōu)選實施例的內容,但是 將理解到許多變化和改型可以由本領域技術人員想到。意圖在于所附 權利要求涵蓋落入于請求保護的本發(fā)明的精神和范圍之內的所有這些 變化和改型。
權利要求
1. 一種移動臺MS,包括接口,用以接收媒體采樣;處理器,用以從所述媒體采樣的數(shù)字版本中提取至少一個特征;發(fā)送器,用以通過無線通信鏈路發(fā)送所述至少一個提取特征。
2. 如權利要求1所述的MS,其中所述接口包括轉換器。
3. 如權利要求2所述的MS,其中所述轉換器包括麥克風,而所述媒體采樣包括音頻采樣。
4. 如權利要求2所述的MS,其中所述轉換器包括攝像機,而所述媒體采樣包括可視采樣。
5. 如權利要求1所述的MS,其中所述接口包括有線鏈路和無線鏈^各之一。
6. 如權利要求5所述的MS,其中所述接口接收的所述媒體采樣是所述數(shù)字版本。
7. 如權利要求1所述的MS,其中所述發(fā)送器還用以發(fā)送消息,所述消息包括所述至少一個提取特征而不包括所述媒體采樣的所述數(shù)字版本的部分。
8. 如權利要求1所述的MS,其中所述處理器還用以自適應地基鄰
9. 如權利要求1所述的MS,其中所述處理器還用以自適應地基于所述媒體采樣的所述數(shù)字版本來選擇要提取的至少 一 個特征類型,所述處理器提取所述自適應地選擇的類型的至少一個特征,以及其中所述發(fā)送器還用以發(fā)送所述選擇的特征類型的標識符。
10. 如權利要求1所述的MS,其中所述接收的媒體采樣的所述數(shù)字版本限定了第 一時間受限分段和第二時間受限分段,而所述處理器僅從所述第一分段中提取所述至少一個特征,還發(fā)送所述笫二分段而不發(fā)送所述第一分段。
11. 如權利要求10所述的MS,其中所述處理器還從所述第二分段中提取第二特征。
12. 如權利要求1所述的MS,還包括用戶接口,用戶可以通過所述用戶接口啟動所述處理器進行這樣的提取;以及緩沖器,用以本的至少一部分。
13. 如權利要求1所述的MS,其中所述至少一個特征在所述媒體采樣的所述數(shù)字版本之內限定了時間點,所述處理器用以從所述媒體采樣的所述數(shù)字版本中提取數(shù)目為"的多個時間點,而所述發(fā)送器用以發(fā)送所述多媒體采樣的所述數(shù)字版本的至少"個譜切片以及將每個譜切片鏈接到至少 一個時間點的標識符。
14. 如權利要求13所述的MS,其中每個(n+l)譜切片比先前第w切片對應于所述媒體采樣的所述數(shù)字版本的更大一部分。
15. 如權利要求13所述的MS,還包括用于4妾收采樣標識消息的接收器,而所述處理器還用以響應于接收所述采樣標識消息而終止發(fā)送更多的時間點和譜切片。
16. 如權利要求1所述的MS,還包括用戶接口,單個用戶輸入通過所述用戶接口來啟動所述處理器提取所述至少一個特征,在所述MS與通信服務之間建立無線通信鏈路,以及通過所述無線通信鏈路發(fā)送所述至少一個提取特征。
17. 如權利要求16所述的MS,其中所述單個用戶輸入還啟動在所述轉換器與所述處理器之間設置的緩沖器開始存儲所述媒體采樣的所述數(shù)字版本的至少 一 部分。
18. 如權利要求1所述的MS,其中所述處理器還用以從所述媒體采樣的所述數(shù)字版本中^是取一連串MPEG-7描述符。
19. 如權利要求1所述的MS,其中所述至少一個特征是所述媒體采樣的所述數(shù)字版本的非重建特征。
20. 如權利要求1所述的MS,其中要從所述發(fā)送器發(fā)送的所有提取特征是所述媒體采樣的所述數(shù)字版本的非重建特征。
21. 如權利要求1所述的MS,還包括在所述轉換器與所述處理器之間設置的緩沖器,用以存儲所述媒體采樣的所述數(shù)字版本和所述 媒體采樣之一 的至少 一部分。
22. 如權利要求21所述的MS,還包括用以接收對于更多特征消 息的請求的接收器,其中響應于接收所述請求消息,所述處理器從存 儲于所述緩沖器中的所述至少一部分中提取至少第二特征,以及其中 所述發(fā)送器還發(fā)送所述至少第二特征。
23. —種計算機程序,實施于在移動臺之內的計算機可讀介質上, 用以處理媒體采樣,包括第一計算機指令集,用以從數(shù)字媒體采樣中提取至少一個特征;以及第二計算機指令集,用以通過無線通信鏈路發(fā)送所述至少一個提 取特征。
24. 如權利要求23所述的計算機程序,其中所述第二計算機指令 集還用以發(fā)送消息,所述消息攜帶所述至少一個提取特征而不攜帶所 述數(shù)字媒體采樣的部分。
25. 如權利要求23所述的計算機程序,其中所述第一計算機指令及提取所選數(shù)目。
26. 如權利要求23所述的計算機程序,其中 所述第一計算機指令集用以自適應地基于所述數(shù)字媒體采樣來選擇要提取的特征類型,以及提取所述自適應地選擇的類型的至少 一個 特征,以及所述第二計算機指令集用以發(fā)送所述至少一個提取特征和所述選擇的特征類型的標識符。
27. 如權利要求23所述的計算機程序,其中所述第 一計算機指令集用以從所述數(shù)字媒體采樣的第 一時間受限 分段中提取所述特征,以及所述第二計算機指令集用以發(fā)送第二時間受限分段而不發(fā)送所述第一時間受限分段。
28. 如權利要求27所述的計算機程序,其中所述第一計算機指令 集還用以從所述第二分段中提取第二特征。
29. 如權利要求23所述的計算機程序,其中所述第一計算機指令 集用以響應于在所述移動臺處的用戶輸入而提取至少一個特征,所述 計算機程序還包括用以在緩沖器中持續(xù)地存儲所述數(shù)字媒體采樣的至 少一部分的第三計算機指令集,以及其中所述第一計算機指令集還用 以從存儲于所述緩沖器中的所述數(shù)字媒體采樣的所述部分中提取所述 特征。
30. 如權利要求23所述的計算機程序,其中所述至少一個特征限 定了時間點,所述第一計算機指令集用以從所述數(shù)字媒體采樣中提取 數(shù)目為w的多個時間點,而所述第二計算機指令集用以發(fā)送所述數(shù)字 媒體采樣的至少w個譜切片以及將每個譜切片鏈接到時間點的標識對 付。
31. 如權利要求30所述的計算機程序,其中每個(n+l )譜切片 比先前第w切片對應于所述數(shù)字媒體采樣的更大一部分。
32. 如權利要求30所述的計算機程序,其中所述第二計算機指令 集包括如下指令,所述指令用以在收到標識所述數(shù)字媒體采樣的答復 消息時終止發(fā)送所述數(shù)字媒體采樣的所述"個譜切片和將每個譜切片 鏈接到時間點的標識符。
33. 如權利要求23所述的計算機程序,其中所述第一計算機指令 集響應于在所述移動臺處的單個用戶輸入而開始提取至少一個特征。
34. 如權利要求33所述的計算機程序,其中所述第一計算機指令 集還包括如下指令,所述指令用以在所述MS的緩沖器中開始存儲所 述數(shù)字媒體采樣的至少一部分。
35. 如權利要求23所述的計算機程序,其中所述第一計算機指令 集用以從數(shù)字媒體采樣中提取至少 一個特征,所述至少 一個特征是所 述數(shù)字媒體采樣的非重建特征。
36. 如權利要求23所述的計算機程序,其中所述第一計算機指令 集還用以在所述MS的緩沖器中存儲所述數(shù)字媒體采樣的至少一部
37. —種實施于計算機可讀介質上的計算機程序,用以將多個提 取特征唯一地匹配于在數(shù)據(jù)庫中存儲的特征集,包括第一計算機指令集,用以通過網(wǎng)絡接收消息,所述消息包括接收 的特征;第二計算機指令集,用以從所述消息中提取附加特征;以及 第三計算機指令集,用以搜索特征集的數(shù)據(jù)庫,直至與提取的附加特征相組合的多個接收特征唯一地匹配于所述數(shù)據(jù)庫的^f叉一個特征集。
38. 如權利要求37所述的計算機程序,其中每個特征集與媒體文 件標題相關聯(lián),所述計算機程序還包括第四計算機指令集,用以通過 所述網(wǎng)絡向所述消息的發(fā)送方發(fā)送包括所述媒體文件標題的答復。
39. 如權利要求37所述的計算機程序,其中在包括所述接收特征 的所述消息的發(fā)送方與如權利要求34所述的計算機程序之間的通信 鏈路在至少第 一時間與第二時間之間保持開路,所述第 一時間限定為 包括接收特征的所述消息的接收時間,而所述第二時間限定為傳輸所 述答復的時間。
40. 如權利要求38所述的計算機程序,其中所述第三計算機指令 集還用以針對與所述僅一個特征集唯一地相關聯(lián)的媒體文件確定鏈接 地址,以及其中所述第四計算機指令集還用以在所述答復中發(fā)送所述 鏈接地址。
41. 如權利要求37所述的計算機程序,其中所述第三計算機指令 集包括如下指令,所述指令用以僅使用所述接收特征來搜索特征集的 所述數(shù)據(jù)庫,隨后利用所述提取的附加特征來搜索所述數(shù)據(jù)庫。
42. 如權利要求41所述的計算機程序,其中所述第三計算機指令 集包括如下指令,所述指令用以僅使用所述接收特征來搜索文件特征 集的所述數(shù)據(jù)庫,以及同時從所述消息中提取附加特征。
43. 如權利要求37所述的計算機程序,其中所述第二計算機指令 集用以從所述接收特征中提取附加特征。
44. 如權利要求37所述的計算機程序,其中所述第二計算機指令 集用以從包括數(shù)字媒體采樣分段在內的所述消息的 一部分中提取附加 特征。
45. 如權利要求44所述的計算機程序,其中所述第二計算機指令 集還用以從所述接收特征中提取附加特征。
46. 如權利要求37所述的計算機程序,還包括第五計算機指令集, 用以在所述第三計算機指令集無法在所述數(shù)據(jù)庫中找到唯一匹配時發(fā) 送請求更多特征的請求消息,以及在收到第二消息時重新執(zhí)行至少所 述第一計算機指令集和第三計算機指令集,所述第二消息包括接收的 更多特征。
47. 如權利要求46所述的計算機程序,其中所述請求消息包括所 述更多特征的數(shù)目和類型之一。
48. —種移動臺,包括 用于接收媒體采樣的裝置;用于從所述媒體采樣的數(shù)字版本中提取至少一個特征的裝置; 用于通過無線通信鏈路發(fā)送所述至少一個提取特征的裝置。
49. 如權利要求48所述的移動臺,其中所述用于接收的裝置包括 轉換器,而所述用于提取的裝置包括數(shù)字處理器。
50. —種用于將關于媒體文件的信息用信號發(fā)送到遠程數(shù)據(jù)庫的 方法,包括在便攜無線設備處接收媒體采樣;在所述便攜無線設備處從所述媒體采樣的數(shù)字版本中提取多個特征;從所述便攜無線設備發(fā)送消息,所述消息包括所述提取的多個特 征而不包括所述媒體采樣的所述數(shù)字版本。
全文摘要
一種移動臺MS具有用以接收媒體采樣的轉換器或者其它接口、用以從媒體采樣的數(shù)字版本中提取特征的處理器、用以發(fā)送那些提取特征的發(fā)送器,還優(yōu)選地具有緩沖器,使得可以在用以標識媒體文件的用戶輸入之前針對一部分接收音樂開始特征提取。特征描述了媒體文件的數(shù)字版本的內容。服務器從MS接收所提取的特征,提取附加特征,該附加特征可以是從由MS提取的特征中提取的較高級特征和/或從由MS發(fā)送的數(shù)字媒體采樣的分段中提取的較低級特征。服務器使用所有提取特征來搜索數(shù)據(jù)庫和標識從中獲取媒體采樣的基本文件。在MS處的單個用戶輸入啟動了特征提取、鏈接設置和特征發(fā)送。進一步的輸入則購買向MS下載的整個媒體文件的拷貝。
文檔編號H04B1/38GK101461146SQ200580016426
公開日2009年6月17日 申請日期2005年3月22日 優(yōu)先權日2004年3月26日
發(fā)明者托尼·科普拉, 莫里·瓦納南, 馬基帕阿·米克科 申請人:諾基亞公司