亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

合成幻燈片的系統(tǒng)和方法

文檔序號:7563918閱讀:303來源:國知局
專利名稱:合成幻燈片的系統(tǒng)和方法
技術(shù)領(lǐng)域
本發(fā)明一般涉及多媒體編碼和再現(xiàn)領(lǐng)域。
背景技術(shù)
近年來,數(shù)字照相機的使用在不斷增加。相應地,商業(yè)和消費者保持的數(shù)字圖像文件量也在不斷增加。很象一個柜子裝滿了鞋盒而鞋盒裝有隨意擺放的相片的問題一樣,在數(shù)字環(huán)境中,存在著計算機“鞋盒”,而“鞋盒”裝滿隨機存儲的數(shù)字圖像。另外,對VCD和DVD播放器的使用在增加,可用的數(shù)字圖像和視頻剪輯的數(shù)量也在增加。這就產(chǎn)生對可定位、分類和共享數(shù)字圖像而且簡單、有趣以及節(jié)省成本和時間的系統(tǒng)和/或方法的需求。
一種方式是在光盤(CD)或數(shù)字視盤(DVD)上編排數(shù)字圖像、文本、語音注釋和音樂剪輯,可以采用視頻CD播放器或DVD播放器在電視上作為多媒體相冊/節(jié)目重放它們。
這種以電視為中心的系統(tǒng)與流行的以計算機為中心的系統(tǒng)不同。例如,Kodak Picture CD產(chǎn)品(可從Eastman Kodak公司獲得)采用計算機來提供數(shù)字圖像共享和觀看功能。但是,當前配置的KodakPicture CD的CD格式不能在電視上播放。
將音頻和視頻信息編碼為VCD可兼容節(jié)目,然后以ISO9660格式將節(jié)目轉(zhuǎn)到CD上,這是已知的。這種CD可在VCD/DVD播放器和計算機系統(tǒng)中播放。VCD編碼采用特別的MPEG-1標準,其目標應用具有不超過每秒1.5兆比特的比特率。由于這樣的比特率約束,圖像分辨率在NTSC系統(tǒng)上僅限于352×240(常見于美國和日本),在PAL系統(tǒng)上僅限于352×288(常見于歐洲和中國)。NTSC上352×240的分辨率和PAL上352×288的分辨率通常稱為正常分辨率,對應的NTSC上704×480和PAL上704×575的空間分辨率通常稱為高分辨率。
具體的MPEG-1標準用于以具有娛樂質(zhì)量的CD-ROM比特率對活動圖像序列進行編碼。因此,它通常不是適用于在電視上顯示諸如多媒體相冊或幻燈片等靜止圖像的標準。當以高幀頻、例如NTSC的29.97幀/秒或PAL的25幀/秒再現(xiàn)視頻序列時,快速移動的幀的時間濾波隱蔽了大部分空間失真。但是,當靜止圖像被二次抽樣到正常分辨率、由MPEG-1編碼器編碼(用于幀內(nèi)的基于塊的類JPEG壓縮)并且在電視上顯示時,則諸如分塊假象的失真會很明顯。
由于DVD具有比CD高得多的容量并且因而可以存儲更高的空間分辨率(即,NTSC系統(tǒng)上的720×480和PAL系統(tǒng)上的720×576),因此,可以使用MPEG-2標準將音頻和視頻節(jié)目編碼到DVD上。但是,與CD技術(shù)相比,DVD技術(shù)更昂貴且更復雜。因此,大多數(shù)消費者常認為DVD媒體和寫入裝置太昂貴。
題為“記錄伴隨幻燈片的語音敘述的方法和設(shè)備”的美國專利6084582(Qureshi)公開了一種將音頻輸入作為音頻片段記錄和數(shù)字化的方法和設(shè)備,音頻片段與對應的幻燈片一起存儲并相關(guān)聯(lián)?;脽羝怯糜谠趥€人計算機上重放的數(shù)字小片(例如PowerPoint)。題為“利用多媒體組合的直觀表示來創(chuàng)作多媒體組合的計算機系統(tǒng)”的美國專利5892507(Moorby)公開了通過圖形用戶界面組合和顯示具有一個或多個多媒體事件的多媒體演示的計算機系統(tǒng)。題為“生成多媒體演示的方法和設(shè)備”的美國專利6081262(Gill)公開了一種文檔排版范例,用以調(diào)整多媒體演示內(nèi)包含的多個對象之間的空間關(guān)系。與本發(fā)明相反,這些引用內(nèi)容并不是針對組合和再現(xiàn)音頻和靜止圖像,使其成為可在消費者電子裝置(如DVD或VCD播放器)和具有適當解碼器的計算機上顯示的高分辨率幻燈片,并且增強了圖像質(zhì)量和音頻處理。
題為“對多音頻流編碼的方法”的專利WO/0035194公開了將靜止圖像或視頻流與多個聲音流進行編碼的方法和系統(tǒng),允許用大量的音頻信息對媒體(例如光盤)編碼。該方法能夠在光盤上存儲和重放大量歌曲與視頻信息。相反,本發(fā)明是為了提高圖像再現(xiàn)質(zhì)量(通過圖像增強和合成以及高分辨率幻燈片再現(xiàn))以及增強視聽享受體驗(通過語音注釋和音樂/歌曲剪輯的音頻合成以及音頻/視覺娛樂的組合)。
本發(fā)明中的術(shù)語“高分辨率”指在NTSC系統(tǒng)上具有704×480的空間分辨率和PAL系統(tǒng)上具有704×576的空間分辨率的圖像,這是相對于視頻高密光盤規(guī)范中指定的NTSC上352×240和PAL系統(tǒng)上352×288的正常分辨率而言。相反,幾個先有的公開內(nèi)容旨在通過組合一組靜止圖像來提高單個圖像的分辨率/質(zhì)量。例如,題為“對高分辨率靜止圖像和視頻圖像進行編碼和解碼以便在標準存儲媒體上記錄的設(shè)備”的美國專利4825301公開了通過將信號分成多組信號而在傳統(tǒng)記錄媒體上對靜止圖像進行編碼的設(shè)備,每組信號對應于圖像的多個不同像素。題為“創(chuàng)建高分辨率靜止圖像的方法和裝置”的美國專利6349154公開了在運動補償預測編碼后從一系列低分辨率圖像中創(chuàng)建高分辨率靜止圖像的方法。題為“從一系列低分辨率活動圖像中創(chuàng)建高分辨率圖像的系統(tǒng)”的EP專利0731600公開了基于到凸面模式的投影從視頻序列中創(chuàng)建高分辨率靜止圖像的方法。

發(fā)明內(nèi)容
本發(fā)明旨在克服上述缺點。更具體地說,現(xiàn)在需要一種簡單、有趣以及節(jié)省成本和時間的多媒體合成系統(tǒng)和方法,該系統(tǒng)和方法可提供更高的圖像和幻燈片再現(xiàn)質(zhì)量。本發(fā)明針對一種系統(tǒng)和方法,用于采用比正常分辨率對應物更高的空間分辨率和更高的圖像質(zhì)量在光盤上將音頻和視頻信息合成為多媒體幻燈片/相冊,該多媒體幻燈片/相冊可以在VCD/DVD播放器上重放。這樣,本發(fā)明提供了這種簡單、有趣以及節(jié)省成本和時間的多媒體合成系統(tǒng)和方法。
本發(fā)明的一個目的是提供一種系統(tǒng)和方法,用于采用比正常分辨率對應物更高的空間分辨率和更高的圖像質(zhì)量在光盤上將音頻和視頻信息合成為多媒體幻燈片/相冊,該多媒體幻燈片/相冊可以在VCD/DVD播放器上重放。
本發(fā)明的另一個目的是提供這種簡單、有趣以及節(jié)省成本和時間的多媒體合成系統(tǒng)和方法。
這些目的僅通過說明性示例來說明,并且此類目的可能是本發(fā)明的一個或多個實施例的示范。本領(lǐng)域的技術(shù)人員可想到或明白本公開的發(fā)明本來可實現(xiàn)的其它所需目的和優(yōu)點。本發(fā)明由所附權(quán)利要求書定義。
根據(jù)本發(fā)明的一個方面,提供一種合成幻燈片的方法。該方法包括以下步驟訪問多個數(shù)字圖像;對多個數(shù)字圖像中的每個圖像進行編碼以生成正常分辨率的圖像部分和高分辨率的圖像部分;復用每個對應的正常分辨率和高分辨率圖像部分以生成單個高分辨率靜止圖像;確定每個高分辨率靜止圖像的時間參數(shù);以及根據(jù)確定的時間參數(shù)連接多個高分辨率靜止圖像以生成無聲幻燈片。
根據(jù)本發(fā)明的另一方面,提供一種合成多媒體幻燈片的方法。此方法包括以下步驟選擇多個數(shù)字圖像;對多個數(shù)字圖像中的每個圖像進行編碼以生成正常分辨率的圖像部分和高分辨率的圖像部分;復用每個對應的正常分辨率和高分辨率圖像部分以生成單個高分辨率靜止圖像;確定每個高分辨率靜止圖像的時間參數(shù);選擇多個數(shù)字圖像中至少一個圖像的音頻部分;連接多個高分辨率靜止圖像以生成視頻比特流;通過對音頻部分編碼以生成音頻比特流;以及復用視頻比特流和音頻比特流以生成多媒體幻燈片。
根據(jù)本發(fā)明的又一方面,提供一種合成幻燈片的系統(tǒng)。此系統(tǒng)包括用于訪問多個數(shù)字圖像的裝置;對多個數(shù)字圖像中的每個圖像進行編碼以生成正常分辨率的圖像部分和高分辨率的圖像部分的裝置;復用每個對應的正常分辨率和高分辨率圖像部分以生成單個高分辨率靜止圖像的裝置;確定每個高分辨率靜止圖像的時間參數(shù)的裝置;以及根據(jù)確定的時間參數(shù)連接多個高分辨率靜止圖像以產(chǎn)生無聲幻燈片的裝置。
根據(jù)本發(fā)明的又一方面,提供一種合成多媒體幻燈片的系統(tǒng)。該系統(tǒng)包括選擇多個數(shù)字圖像的裝置;對多個數(shù)字圖像中的每個圖像進行編碼以產(chǎn)生正常分辨率的圖像部分和高分辨率的圖像部分的裝置;復用每個對應的正常分辨率和高分辨率圖像部分以產(chǎn)生單個高分辨率靜止圖像的裝置;確定每個高分辨率靜止圖像的時間參數(shù)的裝置;選擇多個數(shù)字圖像中至少一個圖像的音頻部分的裝置;連接多個高分辨率靜止圖像以生成視頻比特流的裝置;通過對音頻部分進行編碼而生成音頻比特流的裝置;以及復用視頻比特流和音頻比特流以生成多媒體幻燈片的裝置。


通過以下對如附圖所示的本發(fā)明最佳實施例的更具體說明,可明白本發(fā)明的上述和其它目的、特征和優(yōu)點。
圖1一般地說明根據(jù)本發(fā)明的系統(tǒng)的功能部件;圖2表示將數(shù)字音頻剪輯和數(shù)字圖像合成為單個混合分辨率靜止圖像、按順序顯示多個靜止圖像的無聲高分辨率幻燈片以及帶音頻的多媒體高分辨率幻燈片的示意圖;圖3表示靜止圖像合成的框圖;圖4表示各種圖像增強操作;圖5表示數(shù)字音樂和語音注釋合成的框圖;圖6表示音頻組合、語音注釋和背景音樂;圖7表示根據(jù)本發(fā)明的音頻合成的示例;圖8一般地說明可用于執(zhí)行本發(fā)明的方法的數(shù)字照相機;圖9一般地說明可用于執(zhí)行本發(fā)明的方法的蜂窩/移動電話。
具體實施例方式
下面參照附圖詳細描述了本發(fā)明的最佳實施例,圖中相同的參考標號標識幾個圖形中的每個圖形中的相同結(jié)構(gòu)單元。
概括而言,本發(fā)明提供了一種系統(tǒng)和方法,用于將數(shù)字音頻剪輯和圖像合成為高分辨率多媒體節(jié)目,該節(jié)目可在VCD/DVD播放器上或具有軟件/硬件播放器的計算機系統(tǒng)上播放,所述系統(tǒng)和方法包括以下功能圖像增強和合成;音頻合成;單個高分辨率靜止圖像的合成;按順序顯示多個靜止圖像的無聲幻燈片的合成;以及帶音頻的多媒體幻燈片的合成。
本發(fā)明具有以下優(yōu)點。通過圖像增強和合成、音頻合成、高分辨率靜止圖像合成以及組合的音頻和視頻編碼,提高了本發(fā)明的多媒體再現(xiàn)和娛樂的質(zhì)量。通過使用本發(fā)明的比特分配方案,本發(fā)明可使用成本較低的媒體(即,光盤對DVD)、裝置(CD刻錄機對DVD刻錄機)和技術(shù)(MPEG-1對MPEG-2),提供與DVD類似的空間分辨率。使用本發(fā)明,編碼比特流可在VCD/DVD播放器上重放。另外,高分辨率節(jié)目的分辨率大約為普通分辨率對應物的4倍,這大大提高了圖像再現(xiàn)質(zhì)量。
應當指出,根據(jù)本發(fā)明的一個最佳實施例將明確描述為通常以軟件程序來實現(xiàn)。本領(lǐng)域的技術(shù)人員會認識到,此類軟件的等效物也可以硬件形式構(gòu)建。因為圖像處理算法和系統(tǒng)是眾所周知的,所以本發(fā)明的說明將特別針對構(gòu)成根據(jù)本發(fā)明的系統(tǒng)和方法的一部分或與之更直接配合的算法和系統(tǒng)。從本領(lǐng)域中熟知的此類系統(tǒng)、算法、部件和單元中,可選擇未在此處具體表示或描述的此類算法和系統(tǒng)的其它方面以及用于生成及處理相關(guān)圖像信號的硬件和/或軟件。在下述內(nèi)容中給定根據(jù)本發(fā)明所述的系統(tǒng),則此處未具體顯示、建議或描述而對于實現(xiàn)本發(fā)明有用的軟件是常規(guī)軟件,并且在本領(lǐng)域技術(shù)人員的知識范圍內(nèi)。
還要指出,如此處所使用的一樣,計算機程序可存儲在計算機可讀存儲媒體中,所述計算機可讀存儲媒體可包括例如諸如磁盤(如硬盤驅(qū)動器或軟盤)或磁帶之類的磁存儲媒體;諸如光盤、光帶或機器可讀條形碼之類的光存儲媒體;諸如隨機存取存儲器(RAM)或只讀存儲器(ROM)之類的固態(tài)電子存儲裝置;或者任何其它用于存儲計算機程序的物理裝置或媒體。
還要指出的是,本發(fā)明最好是在諸如個人計算機之類的任何熟知的計算機系統(tǒng)上利用。因此,此類計算機系統(tǒng)將不在此處詳細討論。還需指出的是,圖像可直接輸入到計算機系統(tǒng)(例如通過數(shù)字照相機)或者在輸入計算機系統(tǒng)前數(shù)字化(例如通過掃描原件,比如通過掃描鹵化銀照片或底片)。
應當指出,一種幻燈片是圖像集。這種幻燈片也可稱作電子相冊、數(shù)字相冊或多媒體相冊。此類幻燈片/相冊可包括視頻剪輯、音頻剪輯、語音注釋、文本、音樂剪輯等等,以便增強相冊的環(huán)境和演示。因而,幻燈片/相冊可指多媒體幻燈片或多媒體相冊。放映幻燈片中的每張“幻燈片”對應于顯示一組圖像和/或視頻剪輯其中之一的一個畫面或顯示,其中幻燈片按順序顯示一系列的靜止圖像和/或視頻剪輯。
參照圖1,其中說明用于實現(xiàn)本發(fā)明的系統(tǒng)110。雖然表示出系統(tǒng)110是為了說明最佳實施例,但是本發(fā)明不限于所示的系統(tǒng)110,而是可以為任何電子處理系統(tǒng),如家用計算機、信息站、零售或批發(fā)相片洗印設(shè)備或任何其它用于處理數(shù)字圖像的系統(tǒng)。系統(tǒng)110包括用于接收和處理軟件程序和執(zhí)行其它處理功能的基于微處理器的單元112。顯示器114電連接到基于微處理器的單元112以顯示與軟件相關(guān)聯(lián)的用戶相關(guān)信息,比如通過圖形用戶界面來顯示。鍵盤116可連接到基于微處理器的單元112以允許用戶將信息輸入軟件中。作為用鍵盤116輸入的替代方式,鼠標118或其它輸入裝置可用于在顯示器114上移動選擇器120和用于選擇選擇器120所覆蓋的項目,這已為本領(lǐng)域的技術(shù)人員所熟知。
通常包括軟件程序的光盤只讀存儲器(CD-ROM)124插入基于微處理器的單元以提供一種將軟件程序和其它信息輸入到基于微處理器的單元112的方式。另外,軟盤126也可包括軟件程序,并插入基于微處理器的單元112以輸入該軟件程序。光盤只讀存儲器(CD-ROM)124或軟盤126也可插入位于外部的盤驅(qū)動器單元122,該單元122電連接到基于微處理器的單元112。此外,基于微處理器的單元112可經(jīng)設(shè)計,以便在內(nèi)部存儲軟件程序,這已為本領(lǐng)域的技術(shù)人員所熟知。基于微處理器的單元112也可具有網(wǎng)絡(luò)連接127,如因特網(wǎng)連接、局域網(wǎng)或電話線,以便連接到一個或多個計算機的外部網(wǎng)絡(luò)或其它系統(tǒng)125。打印機128也可連接到基于微處理器的單元112,以便打印系統(tǒng)110的輸出的硬拷貝。
圖像可通過個人計算機卡(PC卡)130顯示在顯示器114上,如先前已知的PCMCIA卡(基于個人計算機存儲卡國際協(xié)會的規(guī)范),它包含以電子形式嵌入卡130中的數(shù)字化圖像。此外,PC卡130最終被插入基于微處理器的單元112中以便允許圖像在顯示器114上進行視覺顯示。或者,PC卡130可插入連接到基于微處理器的單元112的外部PC卡閱讀器132。圖像也可通過光盤124、軟盤126或網(wǎng)絡(luò)連接127輸入系統(tǒng)10。任何存儲于PC卡130、軟盤126或光盤124上的圖像或通過網(wǎng)絡(luò)連接127輸入的圖像可能已從諸如數(shù)字照相機(未顯示)或掃描儀(未顯示)等本領(lǐng)域技術(shù)人員熟知的多種來源獲得。通過連接到基于微處理器的單元112的照相機對接端口136,或者通過連接到基于微處理器的單元112的電纜連接138或者通過連接到基于微處理器的單元112的無線連接140,圖像也可直接從數(shù)字照相機134輸入。
MPEG-1是眾所周知的標準。要使用MPEG-1對靜止圖像進行編碼(即數(shù)字靜止圖像),僅需要對I-幀(幀內(nèi))進行編碼,并且不存在P-幀(預測幀)或B-幀(雙向預測幀)。要確保解碼緩沖器無下溢和溢出,需要插入填充數(shù)據(jù)包以維持恒定的比特率。填充數(shù)據(jù)包包含解碼器忽略的所有填充字節(jié)0xFF(所有十六進制值前面均有0x)。這導致一種不想要的情況。一方面,可能的分塊假象將I-幀的空間分辨率限制為正常分辨率。另一方面,不得不插入額外的填充字節(jié)以維持所需的比特率。本發(fā)明采用填充字節(jié)以增加I-幀的分辨率,這是通過高分辨率靜止圖像的Video CD 2.0規(guī)范來實現(xiàn)的。通過用分配到活動圖像的比特交換I-幀,可用四倍的分辨率對靜止圖像和多媒體幻燈片的空間分辨率進行編碼,從而提供更高的再現(xiàn)質(zhì)量。
現(xiàn)在參照圖2描述本發(fā)明的方法。圖2表示將數(shù)字音頻剪輯和數(shù)字圖像合成為單個混合分辨率靜止圖像、按順序顯示多個靜止圖像的無聲高分辨率幻燈片以及具有音頻的多媒體高分辨率幻燈片的示意圖。更具體地說,如圖2所示,合成高分辨率幻燈片的方法一般包括以下五個步驟1)圖像增強和合成;2)音頻合成;3)單個混合分辨率靜止圖像的合成;4)按順序顯示多個靜止圖像的無聲幻燈片的合成;以及5)具有音頻的多媒體幻燈片的合成。合成的幻燈片可在VCD/DVD播放器或具有軟件/硬件播放器的計算機上再現(xiàn)/觀看。
現(xiàn)在參照圖2描述單個混合分辨率靜止圖像(即,數(shù)字靜止圖像)的編碼。標號210表示要合成的N個數(shù)字圖像。使用圖像增強和合成模塊220(下面將更詳細描述),每個圖像210先轉(zhuǎn)換到Y(jié)UV彩色空間,二次抽樣為4∶2∶0格式,分成8×8個塊,并在DCT變換后進行霍夫曼編碼。更具體地說,每個通道分成8×8個塊,并通過二維離散余弦變換(DCT)進行編碼以消除空間相關(guān)。進一步通過量化和霍夫曼編碼消除符號冗余。這產(chǎn)生了在正常分辨率230的DCT編碼圖像和在高分辨率240的DCT編碼圖像。在正常分辨率230和高分辨率240的DCT編碼圖像隨后會根據(jù)VCD規(guī)范2.0進行復用/交織,成為混合分辨率靜止圖像250?;旌戏直媛熟o止圖像250具有比正常分辨率230的DCT編碼圖像更高的分辨率,因此稱為高分辨率靜止圖像250。使用在NTSC上為704×480或在PAL上為704×576的空間分辨率,可通過VCD/DVD播放器在電視上觀看/再現(xiàn)高分辨率靜止圖像250。
如圖2所示,如果定時參數(shù)270可用,則N個輸入圖像可進一步合成為單個無聲高分辨率幻燈片280。(應當指出,可采用定時參數(shù)270的缺省值或預定值,比如5秒。)定時參數(shù)270指定圖像應在顯示器114上停留并維持音頻和視頻比特流之間同步的持續(xù)時間。定時參數(shù)270可通過輸入設(shè)備118、選擇器120、鍵盤116、用戶交互、參數(shù)文件或音頻合成模塊290指定。要維持恒定的比特率,可在兩個高分辨率靜止圖像250之間插入填充數(shù)據(jù)包260,從而在前一圖像切換到下一圖像而下一圖像在顯示器114上顯示之前,前一圖像在顯示器114上顯示指定的秒數(shù)。填充數(shù)據(jù)包260是裝滿填充字節(jié)0xFF的數(shù)據(jù)包。填充字節(jié)沒有具體的意義,用于維持恒定的比特率。根據(jù)以下算法,填充數(shù)據(jù)包的數(shù)量NP可由顯示的秒數(shù)T、保持DCT編碼的正常分辨率圖像230的數(shù)據(jù)包數(shù)量NN以及保持DCT編碼的高分辨率圖像240的數(shù)據(jù)包數(shù)量NH來確定NP=T*75-(NN+NH)其中每秒對應于75個數(shù)據(jù)包。
應當指出,每個圖像210的定時參數(shù)270不必要相同。也就是說,每個圖像210在顯示器114上顯示的時間可以不同。例如,可能希望任意安排顯示時間?;蛘?,可能希望根據(jù)圖像內(nèi)容安排每個圖像的顯示時間,人物圖像顯示時間為Time1,而景色圖像的顯示時間為不同于Time1的Time2。
仍參照圖2,無聲幻燈片280可經(jīng)過增強以便包括音頻206,從而生成多媒體幻燈片320。為此,音頻206可包括一個或多個為不同范圍的圖像選擇的背景音樂剪輯206。例如,音樂剪輯可應用于圖像210 N=1到10、對圖像210N=11到15用靜音,并且另一個音樂剪輯應用于圖像210N=16到30。另外,音頻206可包括用于任何圖像210的語音注釋206。例如,用戶可對著麥克風說話以記錄關(guān)于特定圖像的信息。音頻206被發(fā)送到音頻合成模塊290。音頻合成模塊290的定時參數(shù)270用于生成無聲幻燈片280,并且290的標準化音頻會傳遞到數(shù)字音頻編碼/壓縮模塊300以生成音頻比特流310。無聲幻燈片280的視頻比特流和音頻比特流310被復用為單個具有音頻的多媒體幻燈片320。多媒體幻燈片320可通過軟件來演示,或者,多媒體幻燈片320可刻錄到VCD或DVD中,以便使用VCD/DVD播放器播放。請參考題為“創(chuàng)作多媒體啟用光盤的系統(tǒng)和方法”、序列號為09/885577的共同轉(zhuǎn)讓的美國申請,該申請以Loui等人的名義于2001年6月20日提交,并轉(zhuǎn)讓給本申請的受讓人。
圖3更具體地描述了圖像增強和合成模塊220。一個目的是準備具有正確分辨率的圖像數(shù)據(jù),另一個目的是增強圖像再現(xiàn)質(zhì)量。為此,通過圖像輸入接口211將每個圖像210讀入計算機存儲器。圖像輸入接口211應配置為接受通常采用的圖像文件格式(如JPEG、GIF、TIFF、BMP等等)以及存儲在不同裝置(如硬盤、存儲卡、記憶棒、閃存卡、光盤、軟盤等等)上的圖像數(shù)據(jù)。每個圖像210先要再定向為適當?shù)娜∠?12(例如縱向或橫向),這可通過圖像分析從圖像進行的用戶交互或自動化方案來實現(xiàn)。
多種圖像增強算法213可應用于圖像以增強圖像質(zhì)量。此類圖像增強的示例包括但不限于彩色平衡、噪聲降低、邊緣銳化、紅眼檢測和校正、色階調(diào)整以及其它典型的圖像增強算法。
應用圖像增強213后,可將其它紋理覆蓋在圖像上作為合成圖像214。紋理的示例包括背景紋理、圖像的邊框裝飾、公司徽標等。文本注釋215(如標題、主題、人物、時間、地點等)也可以添加到圖像內(nèi)容中。然后圖像會經(jīng)過兩次大小調(diào)整216以獲得具有同樣圖像內(nèi)容的正常分辨率圖像和高分辨率圖像。按照MPEG-1I-幀編碼語法分別對每種版本進行編碼。如上所示,隨后會產(chǎn)生在正常分辨率230的DCT編碼圖像和在高分辨率240的DCT編碼圖像。
圖4更具體地說明圖像增強213的操作。具體地說,圖像增強213最好首先包括通過模糊掩蔽、即從原件中去除圖像的模糊版本而實現(xiàn)的圖像銳化410。然后,最好使用增強黑色打印算法來實現(xiàn)噪聲降低420,即,根據(jù)高頻信道中方差所指示的噪聲因素自適應地過濾圖像。圖像理解算法可應用于圖像以檢測和校正紅眼430。另外,色階調(diào)整440和彩色平衡450可用于增強圖像。
現(xiàn)在參照圖5更具體地描述音頻合成模塊290。通常,音頻合成模塊290將多個音頻流組合成單個標準化的音頻流,并且自動地計算用于音頻/視頻同步的定時參數(shù)。
如上所述,音頻206可包括一個或多個背景音樂剪輯和/或語音注釋。音頻提取292將數(shù)字音頻樣本從外部裝置(例如硬盤、光盤、存儲卡、軟盤等等)讀入計算機存儲器。數(shù)字音頻信號可以各種各樣的文件格式來存儲,諸如Microsoft wave文件、MPEG音頻文件(層I、II和III)、Apple/SGI Aiff文件、NeXT/Sun au/snd文件、SoundBlaster voc文件、Turtle beach Sample Vision smp文件或原始格式的流式音頻。該音頻可以是語音注釋、音樂剪輯、歌曲或背景聲音。
在音頻標準化294中將輸入音頻流標準化為標準規(guī)格,例如,立體聲、16比特/樣本、44.1千赫茲。這種標準化可包括抽樣率的改變(例如從8千赫茲到44.1千赫茲)、樣本精度的改變(例如從8比特/樣本到16比特/樣本)、信道數(shù)量的改變(例如從單聲道到立體聲)和/或文件格式的改變。
圖像標準化294之后的步驟是音頻對準296。更具體地說,音頻對準沿相同的時間因次登記多個音頻流并且計算時間參數(shù)270。每個圖像210在其對應的音頻/語音注釋開始時應顯示,并且每個圖像210應持續(xù)顯示到該音頻/語音注釋結(jié)束。另外,圖像應當盡可能均勻地分配到指定的背景音樂剪輯上。
現(xiàn)在參照示例更詳細地描述音頻對準,其中i是N個輸入圖像210的圖像索引;ti是第i個圖像在顯示器上的持續(xù)時間,以秒計;td是圖像在顯示器上的缺省持續(xù)時間,以秒計(例如5秒);
tm是最小持續(xù)時間,以秒計(例如0.5秒);ts是音樂剪輯的持續(xù)時間;以及ai是第i個圖像上語音注釋的持續(xù)時間,以秒計。
當沒有為N個圖像選擇聲音(音樂或語音)時,則ti=td,i=1,…,N。這樣,每個圖像210顯示td秒,而無聲幻燈片280具有td*N秒的持續(xù)時間。
提供語音注釋但未指定背景音樂時,特定圖像的持續(xù)時間由關(guān)于該圖像的語音注釋的持續(xù)時間確定,具體地說,如果0<=ai<td,則ti=td,否則ti=ai。換言之,如果沒有關(guān)于圖像的語音注釋,或者注釋的長度小于缺省持續(xù)時間td,則ti取缺省值td。否則,ti取實際的語音注釋持續(xù)時間,即,有語音注釋時,圖像會在顯示器114上顯示。
存在單個音樂或歌曲但不存在語音注釋時,每個圖像按等量時間顯示,具體地說,ti=ts/N。存在多個音樂剪輯時,最好先將音樂剪輯連接為單個音樂剪輯。其它操作按照單個背景音樂剪輯的情況進行。
在為多個圖像指定了音樂剪輯和語音注釋的情況下,有三種可能的安排。(1)如果所有語音注釋的總持續(xù)時間長于音樂剪輯的持續(xù)時間,則音頻流會填充相同的音樂剪輯(或零音頻樣本)。其余操作按照僅有注釋的情況進行。(2)如果選擇長的音樂剪輯(即持續(xù)時間足夠長,可適合平均持續(xù)時間的所有語音注釋),則ti=ts/N。這與僅有音樂剪輯的情況相似。(3)第三種安排提供一些復雜性,具體地說,一些語音注釋的持續(xù)時間長于平均持續(xù)時間并且總語音注釋持續(xù)時間短于音樂剪輯持續(xù)時間。在此安排中,最好使用遞歸方案為圖像指定持續(xù)時間,一次一個圖像。圖像或者采取語音注釋的持續(xù)時間或者采取缺省持續(xù)時間。為N個圖像其中之一指定的時間從用于剩余(N-1)個圖像的總可用時間中減去。該過程會一直重復,直至為所有圖像指定了持續(xù)時間。
完成音頻對準296后,在音頻組合模塊298中,來自不同音頻流的音頻樣本被組合在一起,成為具有指定重點的單個流。在每個時刻,所取的音頻樣本x是語音注釋x1和背景音樂/歌曲x2的線性組合x=(a)(x1)+(1-a)(x2),其中a是介于0與1之間的加權(quán)值。存在語音注釋時,背景音樂/歌曲的音量會降低,以便突出前景語音注釋。
圖6表示了音頻組合的圖示。組合音頻流226中突出了來自語音注釋222的音頻樣本。存在語音注釋時,背景音樂的音量會(從正常音量)降低,并在語音注釋完成后提高到正常音量。音頻樣本的轉(zhuǎn)換可以實現(xiàn)為平滑轉(zhuǎn)換,逐漸從低到高,然后從高到低。
相應地,音頻合成模塊290提供標準化的音頻,該音頻會傳遞到數(shù)字音頻編碼/壓縮模塊300以生成音頻比特流310。
現(xiàn)在參照圖7,它提供了音頻合成的示例。圖7表示6個輸入圖像210,N=1-6。語音注釋222應用于圖像1、2、4和6。已經(jīng)指定兩個音樂/歌曲剪輯224,一個在圖像1-2上,另一個在圖像4-5上。對于此特定示例,(i)沒有為圖像3指定音頻;(ii)僅圖像6有語音注釋;(iii)僅圖像5有音樂剪輯;以及(iv)圖像1、2和4上都有語音注釋和音樂剪輯。圖7表示了根據(jù)本發(fā)明合成的最終合成音頻流。更具體地說,音樂剪輯224-1在圖像1和2顯示時播放。在圖像1和2顯示期間播放語音注釋時,則音樂的音量會降低。圖像3再現(xiàn)時未使用任何音頻,并且停留時間是缺省持續(xù)時間所指定的td秒。當圖像4和5在顯示器114上顯示時,則播放音樂剪輯224-2。圖像6在顯示器114上顯示td秒,最初的a6秒具有語音注釋,而剩余的時間則無聲。更具體地說,參考標號226指音樂剪輯上存在與語音注釋組合的音頻的時間,參考標號228指沒有音頻的時間(即,無語音注釋或音樂剪輯)。
應當指出,圖7所示的示例的每個圖像均按等量時間顯示,如圖7的時間線所示。但是,如上所述,本發(fā)明可在每個圖像的顯示時間不同的情況下實施。
本發(fā)明的系統(tǒng)110可以是數(shù)字照相機、PDA(個人數(shù)字助理)或蜂窩/移動電話。例如,圖8表示了具有顯示器502和選擇構(gòu)件504的數(shù)字照相機500。如果數(shù)字照相機500具有微處理器(CPU)、存儲器和音頻功能,則數(shù)字照相機500可實現(xiàn)本發(fā)明的方法。同樣,圖9表示了具有顯示器508和選擇構(gòu)件510的蜂窩/移動電話506。如果蜂窩/移動電話506具有微處理器(CPU)、存儲器和音頻功能,則蜂窩/移動電話506也可實現(xiàn)本發(fā)明的方法。通過本領(lǐng)域技術(shù)人員熟知的網(wǎng)絡(luò),例如無線網(wǎng)絡(luò)、因特網(wǎng)或電話線,可以實現(xiàn)通信。
權(quán)利要求
1.一種合成幻燈片的方法,它包括以下步驟訪問多個數(shù)字圖像;對所述多個數(shù)字圖像中的每個圖像進行編碼,從而生成正常分辨率的圖像部分和高分辨率的圖像部分;復用每個對應的正常分辨率和高分辨率圖像部分以生成單個高分辨率靜止圖像;為每個所述高分辨率靜止圖像確定時間參數(shù);以及根據(jù)所述確定的時間參數(shù)連接所述多個高分辨率靜止圖像以生成無聲幻燈片。
2.如權(quán)利要求1所述的方法,其特征在于還包括對所述多個數(shù)字圖像中的至少一個進行圖像增強的步驟。
3.如權(quán)利要求2所述的方法,其特征在于所述圖像增強步驟包括將文本注釋包含在內(nèi)的步驟。
4.如權(quán)利要求2所述的方法,其特征在于所述圖像增強步驟包括以下步驟為所述數(shù)字圖像定向;應用圖像增強算法;以及調(diào)整所述數(shù)字圖像的大小。
5.一種合成多媒體幻燈片的方法,它包括以下步驟選擇多個數(shù)字圖像;對所述多個數(shù)字圖像中的每個圖像進行編碼,從而生成正常分辨率的圖像部分和高分辨率的圖像部分;復用每個對應的正常分辨率和高分辨率圖像部分以生成單個高分辨率靜止圖像;為每個所述高分辨率靜止圖像確定時間參數(shù);選擇用于所述多個數(shù)字圖像中至少一個圖像的音頻部分;連接所述多個高分辨率靜止圖像以生成視頻比特流;通過對所述音頻部分進行編碼而生成音頻比特流;以及復用所述視頻比特流和音頻比特流以生成所述多媒體幻燈片。
6.如權(quán)利要求5所述的方法,其特征在于還包括產(chǎn)生包含無聲幻燈片的VCD或DVD的步驟,由此所述幻燈片可使用VCD播放器或DVD播放器來觀看。
7.如權(quán)利要求5所述的方法,其特征在于所述幻燈片適合在計算機上觀看。
8.如權(quán)利要求5所述的方法,其特征在于所述多個數(shù)字圖像中的每個圖像均采用MPEG-1進行編碼。
9.一種用于合成幻燈片的系統(tǒng),它包括訪問多個數(shù)字圖像的裝置;對所述多個數(shù)字圖像中的每個圖像進行編碼以生成正常分辨率的圖像部分和高分辨率的圖像部分的裝置;復用每個對應的正常分辨率和高分辨率圖像部分以生成單個高分辨率靜止圖像的裝置;為每個所述高分辨率靜止圖像確定時間參數(shù)的裝置;以及根據(jù)所述確定的時間參數(shù)連接所述多個高分辨率靜止圖像以生成無聲幻燈片的裝置。
10.一種用于合成多媒體幻燈片的系統(tǒng),它包括選擇多個數(shù)字圖像的裝置;對所述多個數(shù)字圖像中的每個圖像進行編碼以生成正常分辨率的圖像部分和高分辨率的圖像部分的裝置;復用每個對應的正常分辨率和高分辨率圖像部分以生成單個高分辨率靜止圖像的裝置;為每個所述高分辨率靜止圖像確定時間參數(shù)的裝置;選擇用于所述多個數(shù)字圖像中至少一個圖像的音頻部分的裝置;連接所述多個高分辨率靜止圖像以生成視頻比特流的裝置;通過對所述音頻部分進行編碼以生成音頻比特流的裝置;以及復用所述視頻比特流和音頻比特流以生成所述多媒體幻燈片的裝置。
全文摘要
一種合成多媒體幻燈片的方法。在最佳實施例中,該方法包括以下步驟選擇多個數(shù)字圖像;對多個數(shù)字圖像中的每個圖像進行編碼以生成正常分辨率的圖像部分和高分辨率的圖像部分;復用每個對應的正常分辨率和高分辨率圖像部分以生成單個高分辨率靜止圖像;為每個高分辨率靜止圖像確定時間參數(shù);選擇用于多個數(shù)字圖像中至少一個圖像的音頻部分;連接多個高分辨率靜止圖像以生成視頻比特流;通過對音頻部分編碼以生成音頻比特流;以及復用視頻比特流和音頻比特流以生成多媒體幻燈片。
文檔編號H04N7/045GK1510501SQ200310122599
公開日2004年7月7日 申請日期2003年12月11日 優(yōu)先權(quán)日2002年12月11日
發(fā)明者Z·孫, A·C·路易, J·K·里克, Z 孫, 路易, 里克 申請人:伊斯曼柯達公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1