專利名稱:圖書制作系統(tǒng)與方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種圖書制作系統(tǒng)與方法,特別涉及一種利用一計算機軟件分析一視頻源(Video)以自動產(chǎn)生繪本、畫冊、漫畫、電子書等圖書文件的圖書制作系統(tǒng)與方法。
背景技術(shù):
根據(jù)目前的技術(shù),一般在制作繪本、畫冊、漫畫、電子書等圖書時,其內(nèi)容的來源通常仍利用人工繪圖,或是由計算機針對單張影像一一編輯整理,以便匯編成書冊。
然而,隨著數(shù)字攝影機、電視卡(TV Tuner Card)、機上盒(SetupBox)、DVD、VCD等電子信息產(chǎn)物的日益普及,使用者可以很容易地取得數(shù)字視頻,因此,利用計算機處理視頻源以產(chǎn)生圖書文件,儼然成為計算機多媒體領(lǐng)域的重要應(yīng)用與需求。
如上所述,當所得到的影像資料不是單張影像而是連續(xù)影像的視頻源時,使用者必須將連續(xù)影像的視頻源分解成多張影像,然后才能夠由計算機針對該影像編輯整理成冊。然而,對于一般的視頻內(nèi)容(Video Content)而言,在NTSC標準中,其撥放一秒鐘可能是包含29.97張影像的連續(xù)切換,而在PAL標準中,其撥放一秒鐘可能包含25張影像的連續(xù)切換,所以,一分鐘長的視頻內(nèi)容便具有1500~1800張影像,如果使用者一一編輯每一張影像,將是一件非常耗時而沒有效率的事。
因此,如何能夠有效率地利用視頻內(nèi)容來產(chǎn)生繪本、畫冊、漫畫、電子書等圖書文件,正是當前一個重要的課題。
發(fā)明內(nèi)容
為了克服現(xiàn)有技術(shù)的不足,本發(fā)明的目的是提供一種圖書制作系統(tǒng)與方法,其能夠自動分析一視頻源以產(chǎn)生繪本、畫冊、漫畫、電子書等圖書文件。
為達到上述目的,本發(fā)明的圖書制作系統(tǒng)是用來產(chǎn)生包括一文字部分及一插圖部分的一圖書,且包括一視頻接收模塊、一解碼模塊、一文字擷取模塊、一插圖擷取模塊以及一圖書產(chǎn)生模塊。在本發(fā)明中,視頻接收模塊接收一原視頻資料,解碼模塊解碼原視頻資料以取得一視頻資料,而原視頻資料可以是任意一種視頻格式,文字擷取模塊則依據(jù)一制作方針自視頻資料中取得文字部分,插圖擷取模塊則依據(jù)制作方針自視頻資料中擷取至少一關(guān)鍵畫面(key frame)以作為插圖部分,然后圖書產(chǎn)生模塊依據(jù)所取得的文字部分與插圖部分產(chǎn)生圖書。
另外,依本發(fā)明的圖書制作系統(tǒng)還包括一編輯模塊、一圖書格式(template)選擇模塊、以及一制作方針選擇模塊。在本發(fā)明中,制作方針選擇模塊接受一使用者選擇所需的制作方針,編輯模塊接收使用者的操作以便對圖書的內(nèi)容進行編輯,圖書格式選擇模塊接收使用者選擇所需的至少一圖書格式,而圖書產(chǎn)生模塊便套用所選出的圖書格式來排版文字部分與插圖部分以產(chǎn)生圖書。
如上所述,制作方針選擇模塊所能夠選擇的制作方針包括一音頻(audio)分析算法則、一字幕(caption)分析算法則、一場景/鏡頭變換分析算法則以及一影像分析算法則,其中,音頻分析算法則是一種分析視頻資料的音頻資料的算法則;字幕分析算法則是一種分析視頻資料的字幕資料的算法則;場景/鏡頭變換分析算法則是一種分析視頻資料的場景/鏡頭變換資料的算法則;影像分析算法則是一種分析視頻資料的影像資料的算法則,而且其可以將影像資料與預先提供的一影像范例資料作比對分析,或是將影像資料與預先提供的一物體資料作比對分析,或是分析出影像資料中的一字幕影像資料。
因此,文字擷取模塊與插圖擷取模塊能夠依據(jù)上述的音頻分析算法則、字幕分析算法則、場景/鏡頭變換分析算法則、或是影像分析算法則來取得制作圖書所需的文字部分與插圖部分等資料,接著,圖書產(chǎn)生模塊將上述文字部分與插圖部分套入圖書格式中,于是便自動產(chǎn)生繪本、畫冊、漫畫、電子書等圖書文件。
本發(fā)明亦提供一種圖書制作方法,其包括一視頻接收步驟、一解碼步驟、一文字擷取步驟、一插圖擷取步驟以及一圖書產(chǎn)生步驟。在本發(fā)明中,視頻接收步驟先接收原視頻資料,接著解碼步驟解碼原視頻資料以取得視頻資料,然后文字擷取步驟與插圖擷取步驟分別自視頻資料中擷取出制作圖書所需的文字部分與插圖部分,最后圖書產(chǎn)生步驟依據(jù)文字部分與插圖部分產(chǎn)生圖書。
另外,依本發(fā)明的圖書制作方法還包括一編輯步驟以于圖書產(chǎn)生后編輯圖書的內(nèi)容、一圖書格式選擇步驟以便使用者選取所需的圖書格式,進而讓圖書產(chǎn)生步驟套用該圖書格式來產(chǎn)生圖書、以及一制作方針選擇模塊以便使用者選取所需的制作方針。
本發(fā)明的優(yōu)點是由于本發(fā)明的圖書制作系統(tǒng)與方法能夠自動分析一視頻源,并配合多種視頻格式,且整合視頻內(nèi)容分析、文字辨識、聲音辨識等技術(shù),來產(chǎn)生繪本、畫冊、漫畫、電子書等圖書文件,所以能夠有效率地利用視頻內(nèi)容來產(chǎn)生圖書文件。
下面結(jié)合附圖及實施例對本發(fā)明進行詳細說明圖1為一示意圖,顯示依本發(fā)明較佳實施例的圖書制作系統(tǒng)的結(jié)構(gòu);圖2為一流程圖,顯示依本發(fā)明較佳實施例的圖書制作方法的流程;圖3為一示意圖,顯示于本發(fā)明較佳實施例的圖書制作方法中擷取關(guān)鍵畫面的示意圖。
圖中符號說明1 圖書制作系統(tǒng)101 視頻接收模塊102 解碼模塊103 制作方針選擇模塊104 文字擷取模塊105 插圖擷取模塊106 圖書格式選擇模塊107 圖書產(chǎn)生模塊108 編輯模塊
2 圖書制作方法201~209 依本發(fā)明較佳實施例的圖書制作方法的流音頻資料301 單張影像302 關(guān)鍵畫面40原視頻資料41視頻資料411 音頻資料412 字幕資料413 影像資料50制作方針501 音頻分析算法則502 字幕分析算法則503 影像分析算法則5031 影像范例資料5032 物體數(shù)據(jù)504 場景/鏡頭變換分析算法則60計算機設(shè)備601 信號源接口602 內(nèi)存603 中央處理單元604 輸入裝置605 儲存裝置70圖書格式80圖書801 文字部分802 插圖部分具體實施方式
以下將參照相關(guān)圖式,說明本發(fā)明較佳實施例的圖書制作系統(tǒng)與方法,其中相同的組件將以相同的參照符號加以說明。
請參照圖1所示,本發(fā)明較佳實施例的圖書制作系統(tǒng)1是用來產(chǎn)生包括一文字部分801以及一插圖部分802的一圖書80,且包括一視頻接收模塊101、一解碼模塊102、一制作方針選擇模塊103、一文字擷取模塊104、一插圖擷取模塊105、一圖書格式選擇模塊106、一圖書產(chǎn)生模塊107以及一編輯模塊108。
在本實施例中,圖書制作系統(tǒng)1可以應(yīng)用于一計算機設(shè)備60中,而計算機設(shè)備60可以是現(xiàn)有的計算機裝置,其包括一信號源接口601、一內(nèi)存602、一中央處理單元(CPU)603、一輸入裝置604以及一儲存裝置605。其中,信號源接口601與一信號源輸出裝置或是一信號源紀錄裝置連接,例如是光驅(qū)、FireWire(IEEE 1394 Interface)、通用串行端口(USB)等接口裝置,而信號源輸出裝置例如是數(shù)字攝影機,信號源紀錄裝置例如是VCD、DVD等。內(nèi)存602可以是DRAM或EEPROM等任何一種或多種設(shè)置于計算機裝置中的暫存內(nèi)存。中央處理單元603則可采用任何一種現(xiàn)有的中央處理器架構(gòu),例如,包括ALU、緩存器與控制器等,以進行各種資料的處理與運算,以及控制計算機設(shè)備60中各組件的作動。輸入裝置604可以是鼠標、鍵盤等能夠由使用者自行輸入信息,或是操作各軟件模塊的裝置。儲存裝置605可以是硬盤機、軟盤機等任何一種或多種計算機可讀取的資料儲存裝置。
本實施例中的各模塊是指儲存于儲存裝置605中或是一紀錄媒體中的軟件模塊。中央處理單元603在讀取各模塊之后,即可經(jīng)由計算機設(shè)備60中的各組件來實現(xiàn)各模塊的功能。然而需注意的是,本領(lǐng)域技術(shù)人員亦可將本實施例中所公開的軟件模塊制作成硬件,如專用集成電路(application-specific integrated circuit,ASIC)芯片等,而不違反本發(fā)明的精神與范疇。
以下詳細說明本實施例中各模塊的功能。
在本實施例中,視頻接收模塊101接收一原視頻資料40,解碼模塊102解碼原視頻資料40以取得一視頻資料41,制作方針選擇模塊103是接受一使用者的操作以選取所需的一制作方針50,文字擷取模塊104則依據(jù)制作方針50自視頻資料41中取得文字部分801,插圖擷取模塊105則依據(jù)制作方針50自視頻資料41中擷取至少一關(guān)鍵畫面以作為插圖部分802,而圖書格式選擇模塊106接收使用者的選擇以提供至少一圖書格式70,圖書產(chǎn)生模塊107套用圖書格式70,并依據(jù)所取得的文字部分801與插圖部分802產(chǎn)生圖書80,最后,編輯模塊108在圖書80產(chǎn)生之后,接受使用者操作以編輯圖書80的內(nèi)容。
如上所述,視頻接收模塊101與信號源接口601配合,例如,視頻接收模塊101可以通過FireWire(IEEE 1394 Interface)取得儲存于數(shù)字攝影機中的原視頻資料40,或是通過光驅(qū)取得記錄于VCD、DVD中的原視頻資料40。原視頻資料40是由各種視頻擷取裝置或接收裝置如數(shù)字攝影機、電視卡、機上盒等,以及各種視頻儲存裝置如DVD、VCD所儲存、傳送、廣播(Broadcasting)或接收的視頻源,且其能夠以各種視頻資料格式(如MPEG-1,MPEG-2,MPEG-4,AVI,ASF,MOV等)儲存、傳送、廣播或接收。
解碼模塊102能夠針對輸入的原視頻資料40的視頻格式、編碼方式、或壓縮方式進行解碼轉(zhuǎn)換還原為編碼前的資料或近似于編碼前的資料,例如,若編碼方式采用失真壓縮方式(Lossy Compression),則解碼后只能夠取得近似于編碼前的資料,以便產(chǎn)生一視頻資料41。在本實施例中,視頻資料41包括一音頻資料411、一字幕資料412以及一影像資料413。音頻資料411為視頻資料41中所撥放的聲音;字幕資料412為配合影像資料413出現(xiàn)于屏幕上的字幕串流(caption stream);影像資料413為視頻資料41所顯示的所有單張影像,通常每秒鐘的視頻資料41是由25張單張影像或29.97張單張影像連續(xù)撥放所構(gòu)成。
制作方針選擇模塊103是與輸入裝置604配合,以便由使用者利用輸入裝置604選擇制作圖書80時所必須遵循的方針,而本實施例所提供的制作方針50包括一音頻分析算法則501、一字幕分析算法則502、一影像分析算法則503以及一場景/鏡頭變換分析算法則504。
承上所述,音頻分析算法則501是分析視頻資料41的音頻資料411,并利用特征抽取(Features Extraction)與特征匹配(Features Matching)方式進行分析。音頻資料411的特征包括如頻譜特征(Spectral Features)、音量(Volume)、零軸交會率(Zero Crossing Rate)、音調(diào)(Pitch)等。如上所述,當抽取頻譜特征(Spectral Features)后,其經(jīng)由雜音衰減(NoiseReduction)、分段(Segmentation),并利用快速傅利葉轉(zhuǎn)換(Fast FourierTransform)將音頻資料411轉(zhuǎn)至頻率域(Frequency),然后由一組頻率濾波器(Filters)進行特征值抽取,這組特征值組成一個頻譜特征向量(Spectral Feature Vector)。音量是容易量測的一種特征,其可利用均方根值(RMS,Root Mean Square)代表其特征值,然后通過音量(Volume)分析可輔助分段(Segmentation)的進行,亦即通過靜音檢測(SilenceDetection)幫助音頻資料411段落邊界(Boundaries)的決定。零軸交會率(Zero Crossing Rate)為計算每段(Clips)聲音波形(Waveform)與零軸(ZeroAxis)交會的次數(shù)。音調(diào)(Pitch)為聲音波形(Waveform)的基頻(Fundamental Frequency)。因此,音頻資料411可利用上述的音頻特征及其特征值所組成的特征向量(Feature Vector)與音頻樣本(Audiotemplates)的特征進行分析比對,以便取得所需的音頻資料411,并經(jīng)由語音辨識技術(shù)取得文字部分801,并取得于視頻資料41中與所需的音頻資料411對應(yīng)的影像資料413以作為插圖部分802。在本實施例中,音頻分析算法則501可以預先提供音頻樣本類別,如音樂(Music)、語音(Speech)、動物聲(Animal Sound)、男聲(Male Speech)與女聲(FemaleSpeech)等,以供使用者選擇所欲尋找的音頻類別,因此,特征匹配便于容許的距離范圍內(nèi),尋找與音頻資料411的特征向量(Feature Vector)具有最短幾何距離(Euclidean Distance)的音頻樣本類別,若此最接近的音頻樣本類別與使用者所選擇的音頻類別相同,則該音頻資料411符合搜尋條件,另外,可以利用最短幾何距離的倒數(shù)(Inverse)來表示所選擇的音頻資料411的可信度(Confidence),從符合音頻樣本類別的音頻資料411找出對應(yīng)的視頻畫面段落(Clips),并從這些視頻畫面段落的每一鏡頭中挑選出符合取圖需求的影像作為插圖部分802。另外,若視頻資料41包括字幕串流(Caption Stream),則解讀所選擇的音頻資料411所對應(yīng)的視頻資料41內(nèi)的字幕串流,來作為圖書80的文字部分801;若視頻資料41未包括字幕串流,則解讀所選擇的音頻資料411內(nèi)的音頻資料411并利用語音分析(Speech Analysis)進行語音與文字(Voice toText)的轉(zhuǎn)換處理,以作為圖書80的文字部分801。另外,音頻分析算法則501的運算復雜度低于影像或視覺(Visual)分析,并可作為影像或視覺(Visual)分析的引導及輔助資料。
另外,字幕分析算法則502是分析視頻資料41中的字幕資料412,并篩選具有字幕的視頻畫面。換言之,若視頻資料41包括字幕串流則解讀字幕串流以作為文字部分801,并尋找與字幕對應(yīng)且時間同步的第一個視頻畫面作為插圖部分802;若視頻資料41未包括字幕串流,而是字幕包含于視頻影像中則利用文字辨識技術(shù)將字幕(Caption)從視頻影像中抽取出來作為文字部分801,并針對篩選取得的視頻影像進行影像處理移除字幕(可由前后視頻影像的資料進行運算處理),以取得無字幕的視頻影像以作為插圖部分802。如上所述,文字辨識技術(shù)主要利用光學文字辨識技術(shù)(OCR,Optical Character Recognition)進行文字辨識。
影像分析算法則503是分析視頻資料41中的一影像資料413,并以色彩、紋理、形狀、動作、位置等基本視覺特征為分析判斷的依據(jù)。在本實施例中,當字幕包含于視頻影像時,利用文字辨識技術(shù)將字幕從視頻影像中抽取出來作為文字部分801;另外,將視頻資料41與一影像范例資料5031做比較,以便找尋影像視覺特征相似性大的畫面,或是找尋影像視覺特征相異性大的畫面以作為插圖部分802,或是將視頻資料41與一物體資料5032作比對,例如以臉部檢測(Face Detection)技術(shù)尋找視頻資料41中具有人臉的視頻畫面以作為插圖部分802。在本實施例中,當挑選與影像范例資料5031或是物體資料5032的視覺特征相似性大的畫面,或是影像視覺特征相異性大的視頻畫面,以作為符合篩選畫面準則的視頻資料41時,同一鏡頭可設(shè)定僅篩選一個畫面以作為插圖部分802。
場景/鏡頭變換分析算法則504是分析視頻資料41中影像資料413的場景/鏡頭變換,并篩選視頻資料41中影像資料413的場景/鏡頭變換后第一個符合條件的畫面,以作為圖書80的插圖部分802以及視頻資料41的段落的分割點。亦即是,若視頻資料41包括字幕串流則解讀視頻資料41的段落內(nèi)的字幕資料412以作為圖書80的文字部分801;若視頻資料41未包括字幕串流則解讀視頻資料41的段落內(nèi)的音頻資料411,并利用語音分析進行語音與文字的轉(zhuǎn)換處理以作為圖書80的文字部分801。一般而言,視頻資料41為一視頻串行(VideoSequence),其通常由許多場景(Scenes)所組成,而每一場景又由多個鏡頭(Shots)所組成。在影片中,其最小單位是一個鏡頭,而影片便是由許多的鏡頭所堆砌起來的;在劇本中,其最小單位是一個場景,或稱作場戲,場景表示每一故事或題材的段落,每一場景具有一明確的事件發(fā)生起始點,也具有一明確的結(jié)束點,在這樣的一段時間范疇中便稱作一場景,或稱作一場戲。通常,一個鏡頭由多個視覺特性(如色彩(Color)、紋理(Texture)、形狀(Shape)、動作(Motion))具一致性的畫面(Frames)所組成,并且,其依據(jù)攝影機運動方向(Camera Direction)與攝影取景角度(View Angle)的改變而有變化,例如,當攝影機以不同的攝影取景角度來拍攝同一場景時,會產(chǎn)生不同的鏡頭,或以相同的攝影取景角度但拍攝不同的區(qū)域時,亦會產(chǎn)生不同的鏡頭。由于鏡頭可由一些基本視覺特性而區(qū)分,因此將視頻資料41分割成多個連續(xù)的鏡頭是相當容易達成的,此技術(shù)主要由分析一些基本視覺特性的統(tǒng)計資料如視覺特性柱狀圖(Histogram),因此,當一畫面的視覺特性與前一畫面的視覺特性差異達到某一程度時,就可在此畫面與前一畫面間作一分割,此分鏡技術(shù)亦廣泛運用于視頻編輯軟件。如上所述,將連續(xù)具關(guān)聯(lián)性的鏡頭聚成一場景為場景變換分析的目的,嚴謹?shù)恼f,其必須了解視頻資料41的語意及內(nèi)容,不過結(jié)合音頻與視覺特性的分析亦可達到相當程度合理的場景變換分析,通常場景變換會同時產(chǎn)生音頻特性(如音樂、語音、雜音(Noise)、靜音(Silence))與視覺特性(如色彩、動作)的性質(zhì)變化,而鏡頭的分割只針對視覺特性進行分析,場景變換分析須同時倚重音頻特性與視覺特性的分析。
文字擷取模塊104與插圖擷取模塊105可以是儲存在儲存裝置605的一軟件模塊,并通過中央處理單元603的運算來依據(jù)制作方針50擷取所需的文字部分801與插圖部分802,以作為制作圖書80的內(nèi)容。
圖書格式選擇模塊106所提供的圖書格式70如繪本、畫冊、電子書、漫畫等,并且可以配合不同的濾鏡(Filters)如藝術(shù)家式濾鏡(ArtisticFilters)、素描濾鏡(Sketch Filters)、邊線濾鏡(Edge Filters),來套用所取得的插圖部分802,以得到使用者想要的影像處理效果(Effects),而圖書格式70與各種濾鏡儲存于儲存裝置605中。
圖書產(chǎn)生模塊107可以是儲存在儲存裝置605的一軟件模塊,并通過中央處理單元603的運算,以便套用圖書格式70,并利用如調(diào)整大小(Rescaling)、影像合成(Image Composing)、制作圖框等影像處理(Image processing)功能,來處理所取得的文字部分801與插圖部分802,以便配合使用者選擇的圖書格式70與字型、大小來產(chǎn)生圖書80。
最后,編輯模塊108可以與輸入裝置604配合,以便使用者于圖書80產(chǎn)生之后,利用輸入裝置604的操作來進一步編輯圖書80的內(nèi)容。
為使本發(fā)明的內(nèi)容更容易理解,以下將舉一實例,以說明依本發(fā)明較佳實施例的圖書制作方法的流程。
請參照圖2所示,在依本發(fā)明較佳實施例的圖書制作方法2中,步驟201是接收原視頻資料40,例如,可以將數(shù)字攝影機中紀錄的資料經(jīng)由傳輸線送至信號源接口601,以提供作為制作圖書80的畫面與內(nèi)容。
在步驟202中,解碼模塊102是辨識原視頻資料40的格式并解碼原視頻資料40以產(chǎn)生經(jīng)過解碼的視頻資料41,例如,原視頻資料40為Interlaced MPEG-2格式,亦即是,一個訊框是由兩個訊場(field)所組成,所以,在此步驟中,可以先進行MPEG-2格式的解碼,然后利用內(nèi)插法(Interpolation)解交錯以得到視頻資料41。
在步驟203中,文字擷取模塊104與插圖擷取模塊105依據(jù)制作方針50來分析視頻資料41以取得文字部分801與插圖部分802,其能夠依據(jù)音頻分析算法則501、字幕分析算法則502、影像分析算法則503以及場景/鏡頭變換分析算法則504,針對視頻資料41的每一視頻畫面與內(nèi)容(包含音頻內(nèi)容),進行分析搜尋并篩選取得符合制作方針50的文字部分801與插圖部分802,例如,若視頻資料41包括字幕串流則解讀視頻資料41的字幕串流以作為文字部分801;若視頻資料41未包括字幕串流則解讀視頻資料41的音頻,并利用語音分析進行語音與文字的轉(zhuǎn)換處理以作為文字部分801,并在與字幕串流或音頻對應(yīng)的影像中擷取關(guān)鍵畫面作為插圖部分802,需注意的是,本實施例可以擷取多張關(guān)鍵畫面來作為插圖部分802。如圖3所示,原視頻資料40經(jīng)過解碼后會得到視頻資料41,其包括多張單張影像301(每秒25張或29.97張),而經(jīng)過依據(jù)制作方針50的分析搜尋后會從該單張影像中擷取出關(guān)鍵畫面302以作為插圖部分802。
步驟204是判斷是否已經(jīng)完成視頻資料41中所有內(nèi)容的分析比對,當未完成視頻資料41中所有內(nèi)容的分析比對時,重復進行步驟203;當完成視頻資料41中所有內(nèi)容的分析比對時,進行步驟205。
步驟205是判斷圖書80是否需要套用圖書格式70,當圖書80需要套用圖書格式70時,進行步驟206;當圖書80不需要套用圖書格式70時,進行步驟207。
在步驟206中,圖書格式選擇模塊106提供使用者選擇所需的圖書格式70,圖書格式70包括各種具有圖片、影像、相片、繪畫或是繪圖的圖書樣板,例如,漫畫、繪本、畫冊、電子書等,以及各種布置版面(Layout)。
在步驟207中,圖書產(chǎn)生模塊107依據(jù)在步驟203中取得的文字部分801與插圖部分802,而且,當有進行步驟206時,套用步驟206中所提供的圖書格式70,并運用不同的濾鏡,如藝術(shù)家式濾鏡、素描濾鏡、邊線濾鏡等,來處理插圖部分802,以得到所需的影像處理效果,再利用如調(diào)整大小,影像合成、制作圖框等影像處理功能得到符合圖書格式70的影像畫面,然后,將文字部分801與插圖部分802配合圖書格式70與字型、大小進行轉(zhuǎn)換處理,來產(chǎn)生圖書80。
步驟208是判斷使用者是否進行手動編輯圖書80,當使用者要進行手動編輯圖書80時,進行步驟209。
在步驟209中,使用者利用編輯模塊108來預覽(Preview)、修改(Refine)、修飾(Modify)圖書80的內(nèi)容。例如,使用者可以針對圖書80的重要內(nèi)容的文字部分加上底線,或是文字加粗等;或是使用者可以另外插入圖案等等。
綜上所述,由于本發(fā)明較佳實施例的圖書制作系統(tǒng)與方法能夠分析視頻資料41,以針對視頻資料41的音頻資料411、字幕資料412及影像資料413,來整合視頻內(nèi)容分析、文字辨識、聲音辨識等技術(shù),所以能夠有效率地利用視頻資料來產(chǎn)生圖書文件。
以上所述僅為舉例性,而非為限制性。任何未脫離本發(fā)明的精神與范疇,而對其進行的等效修改或變更,均應(yīng)包含于本專利的保護范圍之中。
權(quán)利要求
1.一種圖書制作系統(tǒng),其是用來產(chǎn)生一圖書,該圖書包含一文字部分以及一插圖部分,該圖書制作系統(tǒng)包含一視頻接收模塊,其接收一原視頻資料;一解碼模塊,其解碼該原視頻資料以取得一視頻資料;一文字擷取模塊,其依據(jù)一制作方針自該視頻資料中取得該文字部分;一插圖擷取模塊,其依據(jù)該制作方針自該視頻資料中擷取一關(guān)鍵畫面以作為該插圖部分;以及一圖書產(chǎn)生模塊,其依據(jù)所取得的該文字部分與該插圖部分產(chǎn)生該圖書。
2.根據(jù)權(quán)利要求1所述圖書制作系統(tǒng),其特征在于還包含一編輯模塊,其在該圖書產(chǎn)生之后,接收一使用者的操作以編輯該圖書的內(nèi)容。
3.根據(jù)權(quán)利要求1所述圖書制作系統(tǒng),其特征在于還包含一圖書格式選擇模塊,其接收一使用者的選擇以提供至少一圖書格式,而該圖書產(chǎn)生模塊套用該圖書格式產(chǎn)生該圖書。
4.根據(jù)權(quán)利要求1所述圖書制作系統(tǒng),其特征在于還包含一制作方針選擇模塊,其接受一使用者的選擇以提供該制作方針。
5.根據(jù)權(quán)利要求1所述圖書制作系統(tǒng),其特征在于該制作方針包含一音頻分析算法則,其分析該視頻資料中的一音頻資料,該文字擷取模塊依據(jù)該音頻分析算法則擷取該音頻資料以取得該文字部分,而該插圖擷取模塊擷取與該音頻資料相對應(yīng)的一影像資料以作為該插圖部分。
6.根據(jù)權(quán)利要求1所述圖書制作系統(tǒng),其特征在于該制作方針包含一字幕分析算法則,其是分析該視頻資料中的一字幕資料,該文字擷取模塊依據(jù)該字幕分析算法則擷取該字幕資料以取得該文字部分,而該插圖擷取模塊擷取與該字幕資料相對應(yīng)的一影像資料以作為該插圖部分。
7.根據(jù)權(quán)利要求1所述圖書制作系統(tǒng),其特征在于該制作方針包含一影像分析算法則,其是依據(jù)一影像范例分析該視頻資料中的一影像資料,該插圖擷取模塊依據(jù)該影像分析算法則擷取該影像資料以取得該插圖部分,而該文字擷取模塊從與該影像資料相對應(yīng)的該視頻資料中取得該文字部分。
8.根據(jù)權(quán)利要求1所述圖書制作系統(tǒng),其特征在于該制作方針包含一影像分析算法則,其是依據(jù)一物體分析該視頻資料中的一影像資料,該插圖擷取模塊依據(jù)該影像分析算法則擷取該影像資料以取得該插圖部分,而該文字擷取模塊從與該影像資料相對應(yīng)的該視頻資料中取得該文字部分。
9.根據(jù)權(quán)利要求1所述圖書制作系統(tǒng),其特征在于該制作方針包含一影像分析算法則,其分析該視頻資料中的一影像資料,該文字擷取模塊擷取該影像資料中的字幕以作為該文字部分,而該插圖擷取模塊擷取該影像資料以作為該插圖部分。
10.根據(jù)權(quán)利要求1所述圖書制作系統(tǒng),其特征在于該制作方針包含一場景/鏡頭變換分析算法則,其是分析該視頻資料中一影像資料的場景/鏡頭變換,該文字擷取模塊與該插圖擷取模塊以該場景/鏡頭變換分析算法則作為該文字部分與該插圖部分的選擇與分段的依據(jù)。
11.一種圖書制作方法,其用來產(chǎn)生一圖書,該圖書包含一文字部分以及一插圖部分,該圖書制作方法包含一視頻接收步驟,其接收一原視頻資料;一解碼步驟,其解碼該原視頻資料以取得一視頻資料;一文字擷取步驟,其依據(jù)一制作方針自該視頻資料中取得該文字部分;一插圖擷取步驟,其依據(jù)該制作方針自該視頻資料中擷取一關(guān)鍵畫面以作為該插圖部分;以及一圖書產(chǎn)生步驟,其依據(jù)所取得的該文字部分與該插圖部分產(chǎn)生該圖書。
12.根據(jù)權(quán)利要求11所述圖書制作方法,其特征在于還包含一編輯步驟,其在該圖書產(chǎn)生之后,接收一使用者的操作以編輯該圖書的內(nèi)容。
13.根據(jù)權(quán)利要求11所述圖書制作方法,其特征在于還包含一圖書格式選擇步驟,其接收一使用者的選擇以提供至少一圖書格式,而該圖書產(chǎn)生步驟套用該圖書格式產(chǎn)生該圖書。
14.根據(jù)權(quán)利要求11所述圖書制作方法,其特征在于還包含一制作方針選擇步驟,其接受一使用者的選擇以提供該制作方針。
15.根據(jù)權(quán)利要求11所述圖書制作方法,其特征在于該制作方針包含一音頻分析算法則,其分析該視頻資料中的一音頻資料,該文字擷取步驟依據(jù)該音頻分析算法則擷取該音頻資料以取得該文字部分,而該插圖擷取步驟擷取與該音頻資料相對應(yīng)的一影像資料以作為該插圖部分。
16.根據(jù)權(quán)利要求11所述圖書制作方法,其特征在于該制作方針包含一字幕分析算法則,其是分析該視頻資料中的一字幕資料,該文字擷取步驟依據(jù)該字幕分析算法則擷取該字幕資料以取得該文字部分,而該插圖擷取步驟擷取與該字幕資料相對應(yīng)的一影像資料以作為該插圖部分。
17.根據(jù)權(quán)利要求11所述圖書制作方法,其特征在于該制作方針是一影像分析算法則,其是依據(jù)一影像范例分析該視頻資料中的一影像資料,該插圖擷取步驟依據(jù)該影像分析算法則擷取該影像資料以取得該插圖部分,而該文字擷取步驟從與該影像資料相對應(yīng)的該視頻資料中取得該文字部分。
18.根據(jù)權(quán)利要求11所述圖書制作方法,其特征在于該制作方針包含一影像分析算法則,其是依據(jù)一物體分析該視頻資料中的一影像資料,該插圖擷取步驟依據(jù)該影像分析算法則擷取該影像資料以取得該插圖部分,而該文字擷取步驟從與該影像資料相對應(yīng)的該視頻資料中取得該文字部分。
19.根據(jù)權(quán)利要求11所述圖書制作方法,其特征在于該制作方針包含一影像分析算法則,其是分析該視頻資料中的一影像資料,該文字擷取步驟擷取該影像資料中的字幕以作為該文字部分,而該插圖擷取步驟擷取該影像資料以作為該插圖部分。
20.根據(jù)權(quán)利要求11所述圖書制作方法,其特征在于該制作方針包含一場景/鏡頭變換分析算法則,其是分析該視頻資料中一影像資料的場景/鏡頭變換,該文字擷取步驟與該插圖擷取步驟以該場景/鏡頭變換分析算法則作為該文字部分與該插圖部分的選擇與分段的依據(jù)。
21.一種記錄媒體,其是記錄用以使計算機達成一圖書制作方法的程序,該圖書制作方法用來產(chǎn)生一圖書,該圖書包含一文字部分以及一插圖部分,該圖書制作方法包含一視頻接收步驟,其接收一原視頻資料;一解碼步驟,其解碼該原視頻資料以取得一視頻資料;一文字擷取步驟,其依據(jù)一制作方針自該視頻資料中取得該文字部分;一插圖擷取步驟,其依據(jù)該制作方針自該視頻資料中擷取一關(guān)鍵畫面以作為該插圖部分;以及一圖書產(chǎn)生步驟,其依據(jù)所取得的該文字部分與該插圖部分產(chǎn)生該圖書。
22.根據(jù)權(quán)利要求21所述記錄媒體,其特征在于該圖書制作方法還包含一編輯步驟,其在該圖書產(chǎn)生之后,接收一使用者的操作以編輯該圖書的內(nèi)容。
23.根據(jù)權(quán)利要求21所述記錄媒體,其特征在于該圖書制作方法還包含一圖書格式選擇步驟,其接收一使用者的選擇以提供至少一圖書格式,而該圖書產(chǎn)生步驟套用該圖書格式產(chǎn)生該圖書。
24.根據(jù)權(quán)利要求21所述記錄媒體,其特征在于該圖書制作方法還包含一制作方針選擇步驟,其接受一使用者的選擇以提供該制作方針。
25.根據(jù)權(quán)利要求21所述記錄媒體,其特征在于該制作方針包含一音頻分析算法則,其分析該視頻資料中的一音頻資料,該文字擷取步驟依據(jù)該音頻分析算法則擷取該音頻資料以取得該文字部分,而該插圖擷取步驟擷取與該音頻資料相對應(yīng)的一影像資料以作為該插圖部分。
26.根據(jù)權(quán)利要求21所述記錄媒體,其特征在于該制作方針包含一字幕分析算法則,其是分析該視頻資料中的一字幕資料,該文字擷取步驟依據(jù)該字幕分析算法則擷取該字幕資料以取得該文字部分,而該插圖擷取步驟擷取與該字幕資料相對應(yīng)的一影像資料以作為該插圖部分。
27.根據(jù)權(quán)利要求21所述記錄媒體,其特征在于該制作方針是一影像分析算法則,其是依據(jù)一影像范例分析該視頻資料中的一影像資料,該插圖擷取步驟依據(jù)該影像分析算法則擷取該影像資料以取得該插圖部分,而該文字擷取步驟從與該影像資料相對應(yīng)的該視頻資料中取得該文字部分。
28.根據(jù)權(quán)利要求21所述記錄媒體,其特征在于該制作方針包含一影像分析算法則,其是依據(jù)一物體分析該視頻資料中的一影像資料,該插圖擷取步驟依據(jù)該影像分析算法則擷取該影像資料以取得該插圖部分,而該文字擷取步驟從與該影像資料相對應(yīng)的該視頻資料中取得該文字部分。
29.根據(jù)權(quán)利要求21所述記錄媒體,其特征在于該制作方針包含一影像分析算法則,其是分析該視頻資料中的一影像資料,該文字擷取步驟擷取該影像資料中的字幕以作為該文字部分,而該插圖擷取步驟擷取該影像資料以作為該插圖部分。
30.根據(jù)權(quán)利要求21所述記錄媒體,其特征在于該制作方針包含一場景/鏡頭變換分析算法則,其是分析該視頻資料中一影像資料的場景/鏡頭變換,該文字擷取步驟與該插圖擷取步驟以該場景/鏡頭變換分析算法則作為該文字部分與該插圖部分的選擇與分段的依據(jù)。
全文摘要
本發(fā)明提供一種圖書制作系統(tǒng),其是用來產(chǎn)生包括文字部分與插圖部分的圖書,且包括一視頻接收模塊、一解碼模塊、一文字擷取模塊、一插圖擷取模塊以及一圖書產(chǎn)生模塊。在本發(fā)明中,視頻接收模塊接收一原視頻資料;解碼模塊將原視頻資料解碼成為一視頻資料;文字擷取模塊則依據(jù)一制作方針自視頻資料中取得文字部分;插圖擷取模塊則依據(jù)制作方針自視頻資料中擷取至少一關(guān)鍵畫面(key frame)以作為插圖部分;圖書產(chǎn)生模塊將所取得的文字部分與插圖部分排版以產(chǎn)生圖書。本發(fā)明亦公開一種依據(jù)上述系統(tǒng)實施的圖書制作方法。
文檔編號G06F9/445GK1409213SQ01141820
公開日2003年4月9日 申請日期2001年9月19日 優(yōu)先權(quán)日2001年9月19日
發(fā)明者吳昌隆 申請人:力新國際科技股份有限公司