專利名稱:數(shù)字信息的編碼的制作方法
技術領域:
本發(fā)明的通常應用領域涉及將數(shù)字信息編碼為音頻、圖像、和視頻媒體文件、測定容量數(shù)據(jù)文件、2-D和3-D樣條及其他數(shù)據(jù)文件等等的改進技術;本發(fā)明更具體地但不是專門地旨在使大數(shù)據(jù)序列能夠無縫并靈活地嵌入到特別是壓縮的音頻、圖像、視頻、3-D及其他媒體文件等等中,這些大數(shù)據(jù)序列與在將簡單的版權或所有權或有關的有限信息編碼到此類媒體文件中的相對較短序列不同,且該技術還可用于其它類型的壓縮數(shù)據(jù)文件和格式。
背景技術:
迄今為止,數(shù)據(jù)常常會被嵌入到模擬表示的媒體信息和格式中。這已經(jīng)被廣泛用在,例如電視和無線電應用中,用于輔助數(shù)據(jù),例如電文的傳輸;但所用的這些技術通常不能夠發(fā)送高比特率的數(shù)字數(shù)據(jù)。
也已經(jīng)嵌入水印數(shù)據(jù),以便對媒體的降級和操縱具有強壯性。典型的水印技術依賴通過應用于媒體文件的公知類型的變換保存的信號總特征。這些技術又被限制在相當?shù)偷谋忍芈?。音頻水印技術的良好比特率實際上只是每秒編碼大約幾十比特的數(shù)據(jù)。
雖然數(shù)據(jù)已經(jīng)嵌入到能夠利用高比特率的數(shù)字媒體信號域的低位,但是這種數(shù)據(jù)或者不能被壓縮,或者只能夠具有相對較低的壓縮率。此外,許多現(xiàn)代的壓縮文件格式不使用這種信號域表示,因而不適于使用此技術。另外,此技術在用于編碼聲音文件數(shù)據(jù)時趨向引入聲頻噪聲。
說明這種和相關技術的在先專利有美國專利4,379,947(對同時發(fā)送數(shù)據(jù)與音頻的處理);5,185,800(根據(jù)心理聽覺標準利用自適應量化將位分配用于變換的數(shù)字聲頻廣播信號);5,687,236(隱寫技術);5,710,834(通過圖形圖象傳送的編碼信號);5,832,119(通過嵌入到經(jīng)驗數(shù)據(jù)的控制信號控制系統(tǒng));5,850,481(嵌入的文件,但不是用于任意數(shù)據(jù)或計算機代碼);5,889,868(數(shù)字數(shù)據(jù)中的數(shù)字水印);和5,893,067(隱藏于聲頻信號中的回波數(shù)據(jù))。
關于這種技術的在先出版物包括Bender,W.D.Gruhl,M.Morimoto和A.Lu的“用于數(shù)據(jù)隱藏的技術”,1996年的IBM系統(tǒng)期刊第35卷,3&4號,第313-336頁。
MPEG規(guī)范ISO/IEC III72,1-3部分,信息技術-將活動圖象和相關的音頻編碼為高達大約1.5Mbit的數(shù)字存儲媒體,1993年版,ISO/IEC;和ID3v2規(guī)范http//www.id3.org/easy.html和http//www.id3.org/id3v2.3.0.html將水印用于編碼低比特率信息的用于多媒體數(shù)據(jù)標記和特別用于版權標記的技術概論由Langelaar,G.C.等人在″根據(jù)標記技術用于多媒體數(shù)據(jù)的版權保護″中提出。(http//www-it.et.tudelft.nl/html/research/smash/public/benlx96/Benelux_cr.html)。
在具體聯(lián)系到上述引用的″MPEG Spec″和″ID3v2 Spec″參考應用中,我們已經(jīng)在待審查的名稱為“用于將可執(zhí)行程序代碼無縫嵌入到由數(shù)字媒體播放機和可視系統(tǒng)執(zhí)行的諸如MP3的媒體文件格式中的處理和系統(tǒng)”的美國專利申請中公開了應用本發(fā)明一些嵌入概念的技術,其尤其旨在使預先準備的音頻、視頻、靜止圖像、3-D或其它通常未壓縮的媒體格式中的一個或多個具有擴展的功能,以便將在數(shù)字媒體重放裝置中的增加的圖形、交互式和/或電子商務展示內容補充到他們預先準備的展示內容中。
但是,如前所述,本發(fā)明更廣泛的涉及典型地通過傅里葉變換、離散余弦變換、子波變換或其它公知的函數(shù)將數(shù)據(jù)嵌入壓縮格式中,以及涉及編碼數(shù)據(jù)的頻率表示。本發(fā)明將高速數(shù)據(jù)嵌入到壓縮的媒體數(shù)字表示中,包括通過修改壓縮數(shù)據(jù)的頻率表示系數(shù)的低位,從而能夠得到快速的編碼和譯碼的額外收益,因為壓縮媒體的系數(shù)可以直接變換而不需要冗長的附加的解壓縮/壓縮過程。本發(fā)明的技術也可與水印結合使用,但水印要在數(shù)據(jù)編碼過程之前應用。
先前引用的langelaar等人的出版物又參考和論述了下列其它的現(xiàn)有技術出版物J.Zhao,E.Koch″將強壯標記嵌入圖像中用于版權保護″,關于專業(yè)化信息、知識和新技術的知識產(chǎn)權的國際會議論文,維也納,奧地利,1995年8月;E.Koch,J.Zhao″關于強壯和隱藏的圖像版權標記″,非線性信號和圖像處理的IEEE討論會記錄,Neos Marmaras,1995年6月;和F.M.Boland,J.J.K O Ruanaidh,C,Dautzenberg″水印數(shù)字圖像用于版權保護″,圖像處理及其應用的第五次國際會議論文,No.410,Endinburgh,1995年7月。
Langelaar的另一篇文章還公開了更早的MPEG壓縮視頻格式標記G.C Langelaar,R.L.Lagendijk,J.Biemond“用于MPEG壓縮視頻的實時標記法”,Benelnx關于信息理論的第18次研討會,1997年5月15-16日,荷蘭,Veldhoven。
這些Zhao和Koch、Boland等和Langelaar等雖然講解了部分類似于本發(fā)明所采用技術組件的編碼技術方法,正如現(xiàn)在要更充分解釋的,并沒有預料到或實際上適于解決本發(fā)明所要解決和探尋的具有期望優(yōu)勢的全部問題。
首先考慮上面參考的Zhao和Koch的方法,他們利用基于JPEG的技術將一信號嵌入圖像中。([JPEG]連續(xù)色調靜止圖像的數(shù)字壓縮和編碼,第1部分技術要求和準則,ISO/IEC DIS 10918-1)。他們首先按照三個系數(shù)的大小順序對信號進行編碼,這三個系數(shù)是從8×8分組DCT的中間頻率范圍的系數(shù)中選擇出來的。他們將這三個系數(shù)排序關系的九種置換分成三組一組編碼“1”位(HML、MHL、和HHL),一組編碼“0”位(MLH、LMH、和LLH),第三組編碼“無數(shù)據(jù)”(HLM、LHM和MMM)。他們還將此技術擴展到視頻數(shù)據(jù)的水印。雖然他們的技術對改變具有強壯性和彈性,但他們不能編碼大量的數(shù)據(jù),因為他們只能改變已經(jīng)接近于正被編碼的數(shù)據(jù)的數(shù)據(jù);否則,他們必須改變系數(shù)來編碼“無數(shù)據(jù)”。
他們還必須大量地修改數(shù)據(jù),因為他們必須大規(guī)模的改變系數(shù)的排序關系。正如后面要充分解釋的,這些是本發(fā)明通過它的編碼數(shù)據(jù)技術克服的不利情況,該編碼數(shù)據(jù)技術只改變系數(shù)中的一個比特。
至于Boland、Ruanaidh和Dautzenberg,他們使用這樣一種技術,即產(chǎn)生圖像的DCT沃爾什變換或子波變換,然后使選擇的系數(shù)加一以編碼“1”位,或從選擇的系數(shù)減一以編碼“0”位。這種技術盡管乍一看表面上有些類似于本發(fā)明一部分的一個方面,但具有非常嚴重的局限性,即只能通過比較編碼圖像與原始圖象才能提取信息,但本發(fā)明避免了該局限性。這是指要使水印起作用,必須同時發(fā)送任何媒體文件的水印和非水印拷貝。這是相當嚴重的局限性,本發(fā)明通過新的引進使用最小有效位編碼技術克服了該局限性。
雖然這種最小有效位編碼以前已經(jīng)被廣泛建議了;但沒有象在在本發(fā)明中那樣被實現(xiàn)。例如,Langelaar、Langendijk和Biemond的出版物講解了這樣一種技術,即通過改變表示DCT系數(shù)的可變長度碼(VLC)的最小有效位來編碼MPEG視頻信息流中的數(shù)據(jù)。Langelaar等人的編碼通過只允許替換那些可被相同長度的另一個值替換的且幅度差為1的VLC值來保持文件的長度恒定。該編碼只是轉換該文件并修改所有適當?shù)腣LC值。但是,他們技術的缺點在于適當?shù)腣LC值相對稀少(在1.4兆位/秒視頻文件中每秒167比特,因此在1.4百萬比特的信息中只允許編碼167個比特)。
比較起來,本發(fā)明的技術用于視頻時,消除了這種局限性并可以實現(xiàn)更高的比特率同時保持文件長度恒定,即允許一組或一套附近的系數(shù)一起被改變。本發(fā)明還允許存儲更大量的信息而感覺不到影響,因為它允許心理知覺模型來確定對要改變的系數(shù)的選擇。
實際上,本發(fā)明的改進技術不同于現(xiàn)有技術,允許將數(shù)字信息編碼為速率為高于以前在文獻中描述的速率(300比特/秒的數(shù)量級)幾個數(shù)量級的音頻、圖像或視頻文件。正如以后所公開的,實際上,本發(fā)明很容易將3000比特/秒的數(shù)據(jù)流嵌入128,000比特/秒的聲音文件中。
在現(xiàn)有技術中,只能將相對較短序列的數(shù)據(jù)嵌入媒體文件,一般編碼簡單的版權或所有權信息。我們的技術允許媒體文件包含完全新種類的內容,諸如整個計算機程序、多媒體注釋或冗長的補充通信。正如在所述待審查的申請中所述,嵌入媒體文件的計算機程序允許擴展集成交易的各種媒體,包括銷售、交互式內容、交互式和傳統(tǒng)廣告、民意測驗、電子商務請求,諸如購買CD或音樂會入場券、和完全反應性的內容,諸如對用戶的鼠標動作作出反應和與音樂節(jié)拍同步的游戲和交互式音樂視頻。這使得購買銷售點與音樂能夠集成在諸如電視、比如索尼Walkman的便攜式裝置、Nintendo game Boy和諸如Rio和Nomad的便攜式MP3播放器等等的軟件和硬件平臺上。本發(fā)明甚至創(chuàng)建新的商業(yè)模型。例如,唱片公司不再設法阻止其歌曲的拷貝,而是鼓勵自由和開放的發(fā)行音樂,以便嵌入的廣告和電子商務消息傳播到最大可能的為潛在客戶的聽眾。
發(fā)明內容
因此,本發(fā)明的一個主要目的在于提供一種新穎和改進的過程、系統(tǒng)和裝置,用于將數(shù)據(jù)嵌入到壓縮的音頻、圖像、視頻及其他媒體文件等等中,而不受制于如上所述現(xiàn)有技術的局限性和不利情況,而是相反,能夠無縫和輕易地使大序列的數(shù)據(jù)嵌入到這種壓縮數(shù)據(jù)媒體文件中,能夠增加新型的內容,包括但決不局限于整個計算機程序、多媒體注釋和冗長的補充通信,以及其它的補充內容。
另一個目的在于提供這樣一種其中可以使用數(shù)字水印的新的處理過程,但是該水印應用在數(shù)據(jù)編碼處理之前。
還一個目的在于提供這樣一種新的嵌入技術,其更通用和普遍適用于測定容量數(shù)據(jù)文件、2-D和3-D樣條數(shù)據(jù)點文件及其他數(shù)據(jù)文件。
其它和更進一步的目的將在下面解釋,并且更具體地在所附權利要求書中指出。
因此,總的來說,從本發(fā)明的一個更廣泛的方面,本發(fā)明包含將補充數(shù)字數(shù)據(jù)嵌入到一預先準備的壓縮數(shù)字媒體文件的過程,它包括將該壓縮數(shù)字媒體文件編碼為一組系數(shù)表示的該預先準備的媒體文件信息;將該補充數(shù)字數(shù)據(jù)的各個部分嵌入選擇的系數(shù)處,以便產(chǎn)生包含這種嵌入數(shù)據(jù)的媒體文件,使用戶能夠譯碼和重放預先準備好的媒體文件信息和嵌入的補充數(shù)據(jù)。
隨后詳細陳述優(yōu)選和最佳方式實施例、設計和技術。
現(xiàn)在將結合附圖描述本發(fā)明,圖1是概觀根據(jù)本發(fā)明一優(yōu)選實施例的數(shù)據(jù)編碼處理和系統(tǒng)、操作的方框圖和流程圖;圖2是一類似圖,表示由媒體播放機或電視接收機重放時,對嵌入圖1的數(shù)據(jù)的媒體文件進行譯碼的概況;圖3是類似于圖1的視圖,表示在編碼過程中對先前(和隨后)論述的隱寫(steganographic)技術的使用;圖4示出對具有本發(fā)明的編碼過程的上述數(shù)字水印過程的應用;圖5是一示范性信號波形和該信號的基于傅里葉變換的、壓縮的、基于系數(shù)的表示,用于本發(fā)明有用的系數(shù)域奇偶校驗編碼過程中;圖6具體為音頻數(shù)據(jù)隱寫編碼的更詳細的方框和流程圖,根據(jù)本發(fā)明,該音頻數(shù)據(jù)通過變換進系數(shù)域被壓縮、被嵌入數(shù)據(jù)并被數(shù)字水??;圖7和8類似于圖6,但分別是將數(shù)據(jù)編碼進圖像和視頻文件中,也是通過將各自的圖像和視頻數(shù)據(jù)變換到系數(shù)域而被壓縮的;圖9為一類似圖,應用于將數(shù)據(jù)編碼到2-D或3-D樣條數(shù)據(jù)點中;和圖10所示為將數(shù)據(jù)編碼到測定容量數(shù)據(jù)文件中。
具體實施例如前所述,本發(fā)明的過程和系統(tǒng)的一個重要的應用在于將補充的相對大量的數(shù)據(jù)加到預先準備的媒體文件中,該媒體文件已經(jīng)通過頻域變換被壓縮,提供一組近似或表示源媒體的系數(shù)。這種大量的補充數(shù)字數(shù)據(jù)無縫并輕易地被嵌入到這些文件中。此外,這通過使數(shù)字媒體重放裝置能夠提取補充數(shù)據(jù)的方式實現(xiàn),同時保持與現(xiàn)有媒體播放機的向后兼容性。
適當?shù)膲嚎s媒體格式是那些通過將一媒體文件從信號域變換為一組函數(shù)系數(shù)來壓縮該媒體文件的壓縮媒體格式;例如,傅里葉變換、正弦變換、余弦變換或子波變換及它們的變型。在這些壓縮的媒體格式中,如前所述,這組系數(shù)近似源媒體,但其表示小于原始數(shù)據(jù)文件。
本發(fā)明可以操作的適當?shù)膲嚎s媒體格式的例子包括,但不限于前面引用的參考文獻中所述的MP3、MP2、MPEG和JPEG格式。該壓縮媒體還可以具有額外嵌入的數(shù)據(jù),諸如數(shù)字水印。
可以嵌入到已壓縮媒體的數(shù)據(jù)包括,但不局限于文本文件、數(shù)據(jù)庫文件、可執(zhí)行程序代碼(諸如Java文件、Macromedia Director、Shockwave或Flash、Peri、VRML、TCL、Visual Basic、機器碼或字節(jié)代碼)、圖像文件、聲音文件、3-D文件或任何檔案格式諸如cab、jar、或zip等等。
用于呈現(xiàn)原始預先準備的媒體文件內容和補充的嵌入數(shù)據(jù)內容的重放裝置類型包括任何一種能夠播放或觀看媒體文件的計算機系統(tǒng)。播放機的具體例子包括,但不局限于,便攜式音樂播放機、個人數(shù)字助理(PDAs)、WebTV、數(shù)字電視、汽車用立體聲收音機、家用聲頻系統(tǒng)、視頻墻和落地式接收機和便攜式游戲裝置等等。
正如在下文中結合附圖中所示的各種系統(tǒng)和應用所更充分解釋的,本發(fā)明實施的基礎在于通過對系數(shù)的少量改變編碼數(shù)字數(shù)據(jù)信號比特的新技術。因為預先準備的數(shù)據(jù)文件以數(shù)字形式存儲和發(fā)送,所以小的改變會保持數(shù)據(jù)原樣無損。但是,當用于編碼高比特速率的信息時,這些技術未必總是對數(shù)據(jù)文件的改變具有強壯性,而且該數(shù)據(jù)可能會被破壞。通過重發(fā)數(shù)據(jù)和小心的選擇要修改的系數(shù)可以改進強壯性,但在本發(fā)明技術的許多期望的應用中,在用戶對壓縮文件的回放中,只要回放質量不是過度地降低,編碼最大的信息比強壯性具有更高的優(yōu)先級。
現(xiàn)在參見圖1,其示出一媒體文件,諸如先前論述的音頻、圖像、視頻、3-D或其它多媒體數(shù)據(jù)等等,其通過頻率變換被編碼,被如此標記,并應用前述的傅里葉變換、余弦變換、正弦變換、子波變換或相關的離散變換顯示為該媒體數(shù)據(jù)的系數(shù)表示,而且正如圖5所示的信號波形和基于系數(shù)的圖表顯示。變換成系數(shù)表示造成壓縮的媒體文件內容格式。如果預先準備的媒體文件之前已經(jīng)被編碼為系數(shù)表示,則當然不需要更進一步的變換步驟。但是,還可能使用更進一步的壓縮步驟。
如此壓縮的媒體文件內容用圖示出,將其以任何一種公知的編碼過程(以后會充分討論)與嵌入該媒體文件的補充數(shù)據(jù)內容(“數(shù)據(jù)”)組合,這種附加的數(shù)據(jù)如前所述是任何一種數(shù)字數(shù)據(jù),包括但不限于音頻、視頻、圖像、數(shù)據(jù)庫、文本、可執(zhí)行碼或具體于應用的數(shù)據(jù)等等。然后這會生成具有補充的嵌入數(shù)據(jù)的媒體文件而不會影響其與現(xiàn)有文件格式的后向兼容性,而且不會顯著影響用戶重放媒體文件的經(jīng)歷。此外,如果希望的話,圖1的變換步驟可以組成編碼過程的一部分,甚至可以包括可選擇的壓縮步驟;或者這些可以用作另外單獨的步驟。在對這些變換、壓縮和編碼過程進行組合的情況下,實際上有可能使用可感覺的編碼技術來選擇將數(shù)據(jù)嵌入哪些系數(shù)。
繼續(xù)廣泛的論述,譯碼和重放在圖2中示出,在其中如此標記和隨后更充分討論的譯碼過程取決于圖1用于將補充的數(shù)據(jù)嵌入到媒體文件中的編碼過程的類型。一般,這涉及編碼過程的簡單逆轉,這是公知的。如圖所示的媒體文件通常在譯碼過程中不發(fā)生改變,因為通常不僅刪除數(shù)據(jù)不可行,而且這樣做一般不會改進用戶在媒體播放機或電視接收機的重放經(jīng)歷,如在重放環(huán)境下的圖2所示。但是,補充的數(shù)據(jù)可以通過熟知的校驗和或數(shù)字簽名來驗證(“驗證過程”)以確保數(shù)據(jù)的每個比特都與圖1的原始被編碼和嵌入的數(shù)據(jù)相同。
此外,在重放環(huán)境中,媒體播放機和執(zhí)行環(huán)境可以彼此通信,這在圖2中,由重放機和數(shù)據(jù)操作環(huán)境方框之間的同步(SYNC)線示意地示出,使得補充數(shù)據(jù)的執(zhí)行可以與媒體文件內容的重放同步。
之前,在引用的參考文獻中提到對利用隱寫技術的數(shù)據(jù)編碼的可能的使用,本發(fā)明技術的這種應用在圖3中示出。在那里示出待要嵌入的補充數(shù)據(jù)被變換成位流碼,同時數(shù)據(jù)字節(jié)被提取成一個個比特表示,使得它們可以作為小變化插入媒體文件中。對要嵌入數(shù)據(jù)位的媒體文件內容中適當?shù)奈恢玫倪x擇,如所標記的,是根據(jù)對微小改變的識別,對實際的媒體內容所作出的微小改變對用戶重放該文件的經(jīng)歷的影響最小。但是這種改變必須是可以輕易地通過自動譯碼過程檢測到并恢復該信息。
在圖3的“插入可執(zhí)行碼”的步驟中,可以使用多個隱寫編碼過程(包括前面引用的參考文獻)的任何一個。根據(jù)本發(fā)明,在媒體內容表示為一組函數(shù)系數(shù)的情況下,最好使用改變一些選擇的系數(shù)的最小有效位的技術嵌入這些數(shù)據(jù)位,這在下文還要更充分地討論。
得到的具有嵌入可執(zhí)行碼的媒體文件在某些情況下也與可能的用戶重放經(jīng)歷后向兼容,由于嵌入過程,該重放質量稍微削弱但完全可以接受。
當期望使用具有本發(fā)明的編碼技術的數(shù)字水印時,可以利用圖4的系統(tǒng),在編碼過程嵌入數(shù)據(jù)之前完成媒體文件的水印過程,正如所標記的。有許多不同類型的數(shù)字水印過程可以利用,包括那些以前引用的參考文獻。大多數(shù)水印都很強壯,因此不會輕易地由于媒體文件的改變而消除,因此不會受到后來如圖4所示要嵌入數(shù)據(jù)的“編碼過程”的影響。但是因為一些數(shù)據(jù)嵌入技術對媒體文件的改變不強壯,所以在水印之后實行數(shù)據(jù)嵌入。因此,在文件具有強壯的水印且包含嵌入其中的補充數(shù)據(jù)的情況下,獲得具有嵌入數(shù)據(jù)的水印媒體文件。
傳統(tǒng)的水印技術只能夠以相對較低的比特率嵌入數(shù)據(jù);例如,每秒音頻大約22個二進制數(shù)字(比特)數(shù)據(jù)。根據(jù)本發(fā)明,每秒3000比特以上的數(shù)據(jù)已經(jīng)輕易地嵌入到以128,000比特/秒的比特率編碼的MP3聲音文件中。
我們實際上已經(jīng)成功地完成了本發(fā)明多種編碼技術的初級測試。利用取自Natalie Merchant的歌曲″Jealousy″的示范性聲音文件,我們利用Fraunhofer的MP3enc編碼器以128千比特/秒編碼為(MPEG)MP3。文件的編碼部分為30秒長,大小為720千字節(jié)。所選定的主要編碼技術是相位/幅度頻率-域低位編碼技術,同時改變文件中對數(shù)據(jù)進行編碼的間隔。
成功的結果在下面示出
進一步結合音頻媒體文件應用,現(xiàn)在參考圖6的聲音文件數(shù)據(jù)和編碼系統(tǒng)。
如同圖1的整體方案,圖6的預先準備的聲音文件通過前面討論的變換到系數(shù)域被壓縮,假如它尚未在系數(shù)域編碼。但是如果聲音文件已經(jīng)是這種格式,則此步驟不必要,例如在上面報告的測試中的MPEG音頻內容,它在DCT域編碼。如前所述,在圖3的隱寫技術系統(tǒng)中,所示的要嵌入到聲音文件的補充數(shù)據(jù)被變換成比特流。
現(xiàn)在的目的是,最好以有規(guī)則的間隔選擇聲音文件變換的幾組適當?shù)南禂?shù),用于實現(xiàn)根據(jù)本發(fā)明的數(shù)據(jù)位嵌入。正如前面指出的,本發(fā)明只需要改變選擇的系數(shù)中的單個比特,不同于現(xiàn)有技術對系數(shù)關系的大規(guī)模的順序變化(例如,如同前面引用的Zhao和Koch的參考文獻)。這可以通過簡單地選擇聲音文件中連續(xù)的一系列系數(shù)來選擇。優(yōu)選的技術是選擇一組編碼音頻數(shù)據(jù)中大范圍頻率的一組系數(shù)(圖5)。
對于數(shù)據(jù)位流的每個比特,圖6,組合選擇的系數(shù)和待被編碼的下一個數(shù)據(jù)位,重新?lián)Q算(rescale)系數(shù)以編碼該位(“重新?lián)Q算”)。如果可能,最好結合量化和重新?lián)Q算步驟進行,因此可以根據(jù)原始系數(shù)與期望值的近似程度來選擇要改變的系數(shù)。而且在量化和重新?lián)Q算以后,沒有這么多據(jù)以進行該判斷的數(shù)據(jù)。
而且,重新?lián)Q算可以在已經(jīng)編碼的音頻文件中實現(xiàn),增加了保持文件大小恒定的限制。在這種情況下,即不可能只是重新?lián)Q算單個系數(shù)編碼該比特同時保持幀速率的情況下,可以改變多個系數(shù)使得它們的壓縮表示保持相同的長度,而且音頻文件相應地受到最小的干擾。
此編碼可以通過LSB編碼過程,或者最好通過LSB奇偶編碼(圖5)實現(xiàn)。這種奇偶編碼允許更多的選擇要修改的系數(shù)。
參照圖5的表所說明的基于系數(shù)的表示,這些系數(shù)的奇偶性可以通過將他們加在一起來計算12+15+5+3+10+6+12+1=64。因為64是偶數(shù),則當前編碼進這些系數(shù)的比特值是0。但是,如果希望在這組系數(shù)中編碼1,唯一必要的使奇校性為奇。這可以通過選擇任何幅度或相位值,以及加或者減1來實現(xiàn)。此值的選擇可以任意執(zhí)行或者根據(jù)目前用于上述MPEG編碼過程的音質模型的類型進行。
這說明了在通過幅度頻率域低位編碼對數(shù)據(jù)進行編碼中,對一系列系數(shù)低位奇偶性的使用。舉例來說,假定希望編碼一系列,如八個系數(shù)的單個比特的數(shù)據(jù)信息。根據(jù)本發(fā)明,不是僅僅改變第一個系數(shù)的低位,而是通過對八個低位的奇偶性一起修改來影響編碼。該算法檢驗一組連續(xù)的系數(shù),提取低位,和計算其中多少被設置。因此,利用本發(fā)明的技術,可以編碼單個比特的數(shù)據(jù),無論設置位的位數(shù)是偶數(shù)是奇(奇偶性)。這具有提供確定哪組系數(shù)要改變的算法選擇的優(yōu)點,如果有的話。
換句話說,此技術可以應用于更寬的數(shù)值范圍,同時利用更高階的奇偶性。舉例來說,可以在32個系數(shù)的范圍內對可在兩個8-系數(shù)區(qū)域內被編碼的相同數(shù)量的數(shù)據(jù)進行編碼,通過累加這32個系數(shù)的低位然后計算模4所得的結果(除以四時的余數(shù))。這在選擇要改變哪個系數(shù)方面提供了更大的靈活性,但是不允許那樣多的數(shù)據(jù)插入到信息流中。
雖然前面已經(jīng)例如結合圖1的總體實施例進行了描述,公知類型的編碼過程,包括在此引用的參考文獻,可用于實施本發(fā)明,現(xiàn)在將詳細介紹上面討論的用于MPEG層III音頻聲音文件(MP3)的一優(yōu)選編碼過程。在下面的說明中,符號$xx用于表示十六進制編碼的八位字節(jié);例如,$00表示二進制數(shù)字00000000。此幀是ISO-8859-1(ASCII)字符“EXEC”。這之后是四個八位字節(jié)Size標頭和兩個八位字節(jié)Flags標頭,如ID3v2規(guī)范所述。這之后是$00,表示在該幀內利用ISO-8859-1電文編碼,或是$01,表示利用ISO/IEC 10646-1(Unicode)電文編碼,以后將提及。標頭是首先產(chǎn)生包含對可執(zhí)行碼的描述及其如何被嵌入。第一個八位字節(jié)是無符號數(shù),表示要集中在一起表示一位的系數(shù)的個數(shù)。它通常是8。之后是八個八位字節(jié)的無符號數(shù),表示標頭加上可執(zhí)行碼的長度。下一個是ISO 8859-1(ASCII)編碼的MIME類型的可執(zhí)行內容,如IETF RFC 2045所述,也在后面提及,后面是$00。例如,上述Macromedia Flash文件的MIME類型是“application/ex-shockwave-flash”。后面是在ISO-8859-(ASCII)中對可執(zhí)行碼的描述,由$00結束。這后面又有單個八位字節(jié),如果沒有校驗和,其為$00,或如果有校驗和,則為$01,如結合圖2所述。如果有校驗和,后面有單個八位字節(jié)的校驗和,其通過求和可執(zhí)行碼的八位字節(jié)并對該結果模256產(chǎn)生。這非常有用,因為這使可執(zhí)行碼在執(zhí)行之前被檢驗,減少存在傳輸誤差的可能性,該傳輸誤差會引起執(zhí)行錯誤的指令。
該標頭位于可執(zhí)行內容的開始。然后,通過依次檢驗每個八位字節(jié)和將這些其各個比特按最高有效位到最低有效位順序放置到一比特流內,使得標頭加上內容的整個分組被轉換成該比特流。既然已經(jīng)產(chǎn)生比特流,就必須將其嵌入到MPEG聲音文件中。為此,可以使用在此描述的任何技術。一個優(yōu)選技術是使用先前描述的LSB奇偶性編碼。這里,人們可以改變八個系數(shù)的組的奇偶性,當然可以使用任何數(shù)目。通過選擇數(shù)據(jù)文件中每第七個系數(shù)選擇這組八個系數(shù)。通過這種方法,總共七個比特可以編碼在一組56個系數(shù)中,其中每組系數(shù)包含代表大范圍頻率的系數(shù)。先前描述的奇偶性編碼技術可以用來編碼每組系數(shù)中的一個比特,直到該數(shù)據(jù)被完全嵌入。在數(shù)據(jù)太大不能放入文件的情況下,可以利用少于八個系數(shù)的奇偶性表示一個比特,盡管這會減低收聽經(jīng)歷的質量。當利用除了八個之外的系數(shù)個數(shù)時,利用八個系數(shù)對數(shù)據(jù)文件的第一個比特編碼,然后所有后續(xù)的字節(jié)利用在第一字節(jié)指定的系數(shù)個數(shù)進行編碼。
在本發(fā)明的該優(yōu)選方案中,正如前面結合圖2陳述的,譯碼過程是上述編碼過程的簡單逆轉。將第一個八位字節(jié)從音頻數(shù)據(jù)中提取,基于此,也提取所有后續(xù)位。如果在標頭編碼有校驗和,則對可執(zhí)行碼的八位字節(jié)求和,該結果模256,并與編碼的校驗和比較。如果它們相等,則執(zhí)行繼續(xù)。
根據(jù)MIME類型的可執(zhí)行碼,示出了適當?shù)膱?zhí)行環(huán)境。在先前討論的application/x-shockwave-flash類型的情況下,基準執(zhí)行環(huán)境由Macromedia在Flash標準網(wǎng)頁http//www.macromcdia.com/software/fash/open/中進行了描述。
然后,該執(zhí)行環(huán)境與聲音文件的重放同時被啟動開始執(zhí)行可執(zhí)行碼。其它的應用編程界面(APIs)可以參照該執(zhí)行環(huán)境來定義以便控制發(fā)生重放時執(zhí)行環(huán)境相對于聲音文件的精確行為。
可用于本發(fā)明編碼和譯碼過程部分的上述技術的細節(jié)的具體參考文獻是[ISO 8859-1]ISO/IEC DIS 8859-1。
8-比特單個字節(jié)編碼圖形字符集,第一部分拉丁字母No.1,技術委員會/下屬委員會JTC 1/SC 2;[MIME]Freed,N.and N.Borenstein,“多目的互聯(lián)網(wǎng)郵件擴展(MIME),第一部分互聯(lián)網(wǎng)消息主體的格式”,RFC 2045,1996年11月,
<urlftp//fttp.isi.Cdu/in-notcs/rfc2045.txt>;和[UNICODE]ISO/IEC 10646-11993。
通用多個八位字節(jié)編碼字符集(UCS),第一部分結構和基本多語明文技術委員會/下屬委員會JTC 1/SC 2<urlhttp//www.unicode.org>
繼續(xù)利用圖6示出的MPEG音頻與視頻文件(和圖8隨后討論的視頻文件),例如參考以前引用的MPEG和MP3參考文獻,文件頻率表示的幅度系數(shù)的最低有效位用于編碼程序內容(所謂的幅度頻率域低位編碼)。依賴需要編碼在例如音樂文件的數(shù)據(jù)量,可將數(shù)據(jù)保存在小百分比的系數(shù)中;也就是說,通過僅修改每第十個系數(shù),或通過利用偽隨機的重復序列確定要改變的系數(shù)。當應用于MP3格式時,MP3利用附加的霍夫曼編碼步驟進一步壓縮數(shù)據(jù),該系數(shù)可在霍夫曼編碼之前改變,而在這樣情況下,它將稍微改變文件的大小?;蛘撸诒景l(fā)明的該優(yōu)選實施例中,系數(shù)在編碼過程之后被改變或重新?lián)Q算,如前所述。這避免增加文件的大小以及允許數(shù)據(jù)提取過程更快地執(zhí)行。
同樣對于具有嵌入數(shù)據(jù)的水印聲音文件,可以如圖7所示嵌入圖像文件。正如所說明的,如果圖像文件尚未編碼,只需要變換進系數(shù)域。如果圖像文件處于一種格式,例如上述的JPEG格式,其在DCT域內編碼,則此步驟不是必要的。同樣,選定的這組系數(shù)最好涵蓋圖像數(shù)據(jù)中的大范圍的頻率。在用于數(shù)據(jù)比特編碼的系數(shù)重新?lián)Q算中,優(yōu)選奇偶編碼,如前所述,其允許對要改變的系數(shù)進行更多的選擇。
圖8類似于圖6,但是要變換壓縮視頻文件而不是聲音文件。
圖9的數(shù)據(jù)編碼同樣類似于圖7,但是用于例如在整個3-D模型域使用的2-D和3D樣條數(shù)據(jù)點。它們已經(jīng)利用系數(shù)表示、兩維和三維參數(shù)方程的編碼系數(shù)來表示。這種樣條的典型例子包括Bezier曲線和非均勻有理B樣條(NURBS)。選定用于數(shù)據(jù)比特流嵌入的這組系數(shù)僅僅是樣條數(shù)據(jù)點文件中的一系列連續(xù)系數(shù)。
作為本發(fā)明通用性的另一個例子,圖10說明應用本發(fā)明的原理來編碼測定體積數(shù)據(jù)文件中的補充數(shù)據(jù)。測定體積數(shù)據(jù)用于使用“voxels”-具有第三維的像素表示空間數(shù)據(jù)集。Voxels通常被排列為3-D陣列,被3-D模型工具和環(huán)境用于表示,例如3-D立體模型、磁共振成象(MRI)數(shù)據(jù)、空間溫度分布等等。因為目前沒有通用的壓縮技術用于這種測定體積數(shù)據(jù),因此需要變換成系數(shù)域,如圖所示。這可以利用公知的3-D變換來完成,例如3-D DCT或3-D快速傅里葉變換。
雖然已經(jīng)討論了優(yōu)選利用,例如壓縮音頻與視頻文件的變換頻率表示的幅度或振幅系數(shù)的最低位,也可以利用其它的技術,例如相位頻率域低位編碼,其中,媒體文件的變換頻率表示的相位系數(shù)的最低位(圖5)用于編碼該程序。該實施是相同的,除了利用相位系數(shù)而不是幅度系數(shù)來編碼數(shù)據(jù)之外-并且,在音頻內容的情況下,因為人耳對聲音的相位比音量較不敏感,在重放時所遭遇的聽得見的變形更少。
本領域技術人員也可以作出進一步的改變,這些修改被認為是落入所附權利要求書定義的本發(fā)明的精神和范圍內。
權利要求
1.一種將補充的數(shù)字數(shù)據(jù)嵌入一預先準備的壓縮數(shù)字媒體文件中的過程,其包括,將該壓縮數(shù)字媒體文件編碼為一組系數(shù)表示的該預先準備的媒體文件信息;并將該補充數(shù)字數(shù)據(jù)的各個部分嵌入選擇的系數(shù)處,以便產(chǎn)生包含這種嵌入數(shù)據(jù)的一媒體文件,用于使用戶能夠譯碼和重放該預先準備的媒體文件信息和嵌入的補充數(shù)據(jù)。
2.一種將補充的數(shù)字數(shù)據(jù)嵌入一預先準備的數(shù)字媒體文件中的過程,其包括,將該媒體文件變換為經(jīng)編碼的多組頻率域系數(shù)表示的該預先準備的媒體文件信息并壓縮該文件;選擇預定的系數(shù)組;和將該補充數(shù)字數(shù)據(jù)的各個位嵌入選擇的系數(shù)處,以便產(chǎn)生包含這種嵌入數(shù)據(jù)的補充數(shù)據(jù)文件,用于使用戶能夠譯碼和重放該預先準備的媒體文件信息和嵌入的補充數(shù)據(jù)。
3.根據(jù)權利要求2的過程,其中,通過離散變換準備所述系數(shù),所述離散變換包括傅里葉變換、余弦變換、正弦變換和子波變換。
4.根據(jù)權利要求2的過程,其中,所述嵌入步驟利用所選系數(shù)的最小有效位。
5.根據(jù)權利要求4的過程,其中,該所選系數(shù)是以有規(guī)則的間隔被選擇的。
6.根據(jù)權利要求4的過程,其中,所述系數(shù)被選擇作為頻率和相位系數(shù)中的一個或該兩者。
7.根據(jù)權利要求4的過程,其中,通過計算一組所述系數(shù)的最小有效位的奇偶性來嵌入單一數(shù)據(jù)位。
8.根據(jù)權利要求7的過程,其中,感知編碼技術用于選擇哪一組所述系數(shù)要通過數(shù)據(jù)嵌入來被修改。
9.根據(jù)權利要求8的過程,其中所述系數(shù)組的最小有效位的所述奇偶性嵌入一個數(shù)據(jù)比特,同時使對所述用戶感知媒體文件回放的影響最小化。
10.根據(jù)權利要求2的過程,其中所述重放保持用于這種重放的裝置的后向兼容性。
11.根據(jù)權利要求2的過程,其中,利用隱寫編碼將數(shù)據(jù)變換成一比特流,且在該媒體文件信息中選擇插入和嵌入補充數(shù)據(jù)位的位置,使得在所述重放期間對用戶的感覺影響最小。
12.根據(jù)權利要求11的過程,其中,所述插入和嵌入是在選擇的系數(shù)的最小有效位實現(xiàn)的。
13.根據(jù)權利要求2的過程,其中,數(shù)字水印是在嵌入該補充數(shù)據(jù)之前被應用于媒體文件信息的。
14.根據(jù)權利要求2的過程,其中,利用隱寫編碼將數(shù)據(jù)變換成一比特流;選擇系數(shù)組以涵蓋媒體文件信息中的一個頻率范圍;且對于比特流中的每個比特,組合所選系數(shù)和下一個待編碼的比特以便重新?lián)Q算這些系數(shù)并如被嵌入的那樣編碼該比特。
15.根據(jù)權利要求14的過程,其中,選擇的該媒體文件信息至少是音頻、圖像、視頻、2D和3D樣條數(shù)據(jù)點和測定體積數(shù)據(jù)文件中的一種。
16.根據(jù)權利要求15的過程,其中,所述媒體文件信息是MPEG格式的音頻與視頻信息中的至少一個。
17.根據(jù)權利要求15的過程,其中,所述媒體文件信息是JPEG格式的圖像文件信息。
18.根據(jù)權利要求15的過程,其中,所述樣條數(shù)據(jù)是Bezier曲線和NURBS中的一個。
19.根據(jù)權利要求15的過程,其中,通過利用3D變換對所述測定體積數(shù)據(jù)進行壓縮。
20.根據(jù)權利要求2的過程,其中,所述媒體文件包含音頻、圖像、視頻、2D和3D樣條、測定體積和多媒體信息中的一個。
21.一種將補充數(shù)字數(shù)據(jù)嵌入一預先準備的數(shù)字媒體文件中的系統(tǒng),具有結合在一起的,將該媒體文件信息變換為多組頻率域系數(shù)表示的該預先準備的媒體文件信息并壓縮該文件的編碼裝置;選擇預定的系數(shù)組的裝置;和將該補充數(shù)字數(shù)據(jù)的各個位嵌入選擇的系數(shù)處的進一步的編碼裝置,用以產(chǎn)生包含這種嵌入數(shù)據(jù)的補充媒體文件,使用戶能夠在重放裝置上解碼和重放該預先準備的媒體文件信息和嵌入的補充數(shù)據(jù)。
22.根據(jù)權利要求21的系統(tǒng),其中,所述媒體文件信息從包含音頻、圖像、視頻、2D和3D樣條、測定體積和多媒體信息的組中選擇。
23.根據(jù)權利要求22的系統(tǒng),其中,所述首先提到的編碼裝置通過傅里葉變換、余弦變換、正弦變換和子波變換中的一種準備所述系數(shù)。
24.根據(jù)權利要求21的系統(tǒng),其中,在操作中,所述進一步的編碼裝置利用所述選擇系數(shù)的最小有效位。
25.根據(jù)權利要求24的系統(tǒng),其中,所述選擇系數(shù)以有規(guī)律的間隔被選擇。
26.根據(jù)權利要求24的系統(tǒng),其中,所述系數(shù)被選擇作為頻率和相位系數(shù)中的一個或兩個。
27.根據(jù)權利要求24的系統(tǒng),其中,所述進一步的編碼裝置通過計算一組所述系數(shù)的最小有效位的奇偶性來嵌入單個比特的數(shù)據(jù)。
28.根據(jù)權利要求27的系統(tǒng),其中,使用感知編碼技術來選擇哪一組所述系數(shù)要通過數(shù)據(jù)嵌入被修改。
29.根據(jù)權利要求28的系統(tǒng),其中,所述進一步的編碼裝置響應所述系數(shù)組的最小有效位的所述奇偶性嵌入一個數(shù)據(jù)位,同時,最小化對所述用戶感知媒體文件重放的影響。
30.根據(jù)權利要求21的系統(tǒng),其中,所述重放保持該重放裝置的后向兼容性。
31.一種將補充數(shù)字數(shù)據(jù)嵌入一壓縮數(shù)字信息流的過程,其包括,將該壓縮數(shù)字數(shù)據(jù)流編碼為所述信息的一組系數(shù)表示;和將該補充數(shù)字數(shù)據(jù)的各個部分嵌入選擇的系數(shù)處,以便產(chǎn)生包含這種嵌入數(shù)據(jù)的信息流,使用戶能夠解碼以呈現(xiàn)所述信息和嵌入的補充數(shù)據(jù)。
32.一種將補充數(shù)字數(shù)據(jù)嵌入一數(shù)字信息流的過程,其包括,將該信息流變換為所述信息的多個經(jīng)編碼的頻率域系數(shù)表示組并對其進行壓縮;選擇預定的系數(shù)組;和將該補充數(shù)字數(shù)據(jù)的各個位嵌入選擇的系數(shù)處,以便產(chǎn)生包含這種嵌入數(shù)據(jù)的補充數(shù)據(jù)文件,使用戶能夠解碼以呈現(xiàn)所述信息和嵌入的補充數(shù)據(jù)。
33.根據(jù)權利要求32的過程,其中,所述經(jīng)由選擇的系數(shù)基本上是按有規(guī)則的間隔被選擇的。
全文摘要
一種新的處理和系統(tǒng),用于通過壓縮一數(shù)字媒體文件(音頻、圖像、視頻、3D、測定容量的和多媒體等等)和將這些文件編碼為多組系數(shù)表示的該預先準備的媒體文件信息(最好為頻域系數(shù)表示),最好但不專有地利用經(jīng)由選擇的系數(shù)的最小有效位和利用速記編碼處理,將輔助數(shù)字數(shù)據(jù)的各個位嵌入選擇的系數(shù)處,使相對大量的輔助數(shù)字數(shù)據(jù)能夠無縫和容易地嵌入到該預先準備的數(shù)字媒體文件中。
文檔編號H04N1/387GK1379952SQ00812410
公開日2002年11月13日 申請日期2000年3月6日 優(yōu)先權日1999年9月3日
發(fā)明者托馬斯·W·米耶, 杰斯林·馬休·米耶 申請人:托馬斯·W·米耶, 杰斯林·馬休·米耶