本發(fā)明涉及計算機技術(shù)領(lǐng)域,尤其涉及一種生成短視頻的技術(shù)。
背景技術(shù):
在現(xiàn)有技術(shù)中,輸入法主要包括emoji、顏文字、表情圖、gif圖等以圖片的形式存在的表情,而在論壇、微博等由用戶生成內(nèi)容的場景下,主要包括以各種靜態(tài)或動態(tài)圖片形式存在的表情。這種表情均是固定的單張圖片或gif圖,用戶在發(fā)送表情時,直接選擇發(fā)送即可。
然而由于表情圖所蘊含的內(nèi)容是固定的,若用戶想要對此進行補充,或希望聲情并茂地表達與該表情圖對應的情感時,則需要單獨地輸入文字或語音等來加重情感表達。進一步地,用戶也可以單獨制作短視頻來作為新的表情圖,然而一般的短視頻制作需要用戶拍攝一段短視頻并將其轉(zhuǎn)換為表情圖,或是利用圖像處理軟件將多個圖片、視頻、音頻或字幕進行組合,這種方法對于用戶而言過于復雜,相比直接發(fā)送表情圖而言,制作成本較高。因此,用戶仍然習慣采用各自獨立的表情圖、語音、文字等來表達內(nèi)容,從而導致了表達效率較低且形式單一。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是提供一種用于生成短視頻的方法與裝置。
根據(jù)本發(fā)明的一個方面,提供了一種用于生成短視頻的方法,其中,該方法包括以下步驟:
a獲取一個或多個圖片以及用戶對所述一個或多個圖片的一個或多個語音信息;
b根據(jù)所述語音信息的內(nèi)容,確定與所述語音信息相對應的字幕信息;
c根據(jù)所述語音信息的語音特征和/或語義特征,確定與所述圖片和/或所述字幕信息所對應的展示特效;
d根據(jù)所述字幕信息以及所述展示特效,將所述圖片與語音信息生成短視頻。
可選地,所述步驟c包括:
-根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合根據(jù)所述圖片的圖片特征,確定與所述圖片和/或所述字幕信息所對應的展示特效。
可選地,所述步驟c包括:
-根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合所述語音信息的語音長度,確定與所述圖片和/或所述字幕信息所對應的展示特效。
可選地,該方法還包括:
x根據(jù)所述語音信息以及所述圖片,確定與所述圖片相關(guān)聯(lián)的一個或多個相關(guān)圖片;
其中,該方法還包括:
-根據(jù)所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個或多個相關(guān)短視頻。
可選地,所述步驟x包括:
x1確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;
-根據(jù)所述語音信息、所述圖片以及所述相關(guān)圖片數(shù)量,確定與所述圖片相關(guān)聯(lián)的一個或多個相關(guān)圖片。
可選地,所述步驟x1包括以下至少任一項:
-根據(jù)所述語音信息的語音長度,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;
-根據(jù)所述語音信息的語音特征,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;
-根據(jù)所述語音信息的語義特征,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量。
可選地,該方法還包括:
-獲取所述用戶的一個或多個歷史語音信息,確定與所述用戶相對應的用戶語音特征庫;
其中,所述步驟c包括:
-根據(jù)所述用戶語音特征庫,確定與所述語音信息相對應的語音特征;
-根據(jù)所述語音特征和/或所述語音信息的語義特征,確定與所述圖片和/或所述字幕信息所對應的展示特效。
可選地,該方法還包括:
-根據(jù)所述短視頻所對應的應用的相關(guān)配置信息,將所述短視頻轉(zhuǎn)存為一種或多種應用可用格式;
-將所述短視頻以所述應用可用格式添加在所述應用中。
可選地,所述展示特效包括一種或多種動態(tài)效果。
根據(jù)本發(fā)明的另一方面,還提供了一種用于生成短視頻的生成裝置,其中,所述生成裝置包括:
獲取裝置,用于獲取一個或多個圖片以及用戶對所述一個或多個圖片的一個或多個語音信息;
字幕確定裝置,用于根據(jù)所述語音信息的內(nèi)容,確定與所述語音信息相對應的字幕信息;
特效確定裝置,用于根據(jù)所述語音信息的語音特征和/或語義特征,確定與所述圖片和/或所述字幕信息所對應的展示特效;
視頻生成裝置,用于根據(jù)所述字幕信息以及所述展示特效,將所述圖片與語音信息生成短視頻。
可選地,所述特效確定裝置用于:
-根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合根據(jù)所述圖片的圖片特征,確定與所述圖片和/或所述字幕信息所對應的展示特效。
可選地,所述特效確定裝置用于:
-根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合所述語音信息的語音長度,確定與所述圖片和/或所述字幕信息所對應的展示特效。
可選地,所述生成裝置還包括:
相關(guān)圖片確定裝置,用于根據(jù)所述語音信息以及所述圖片,確定與所述圖片相關(guān)聯(lián)的一個或多個相關(guān)圖片;
其中,所述生成裝置還包括:
相關(guān)視頻生成裝置,用于根據(jù)所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個或多個相關(guān)短視頻。
可選地,所述相關(guān)圖片確定裝置包括:
數(shù)量確定單元,用于確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;
關(guān)聯(lián)確定單元,用于根據(jù)所述語音信息、所述圖片以及所述相關(guān)圖片數(shù)量,確定與所述圖片相關(guān)聯(lián)的一個或多個相關(guān)圖片。
可選地,所述數(shù)量確定單元用于以下至少任一項:
-根據(jù)所述語音信息的語音長度,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;
-根據(jù)所述語音信息的語音特征,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;
-根據(jù)所述語音信息的語義特征,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量。
可選地,所述生成裝置還包括:
歷史獲取裝置,用于獲取所述用戶的一個或多個歷史語音信息,確定與所述用戶相對應的用戶語音特征庫;
其中,所述特效確定裝置用于:
-根據(jù)所述用戶語音特征庫,確定與所述語音信息相對應的語音特征;
-根據(jù)所述語音特征和/或所述語音信息的語義特征,確定與所述圖片和/或所述字幕信息所對應的展示特效。
可選地,所述生成裝置還包括:
轉(zhuǎn)存裝置,用于根據(jù)所述短視頻所對應的應用的相關(guān)配置信息,將所述短視頻轉(zhuǎn)存為一種或多種應用可用格式;
添加裝置,用于將所述短視頻以所述應用可用格式添加在所述應用中。
可選地,所述展示特效包括一種或多種動態(tài)效果。
根據(jù)本發(fā)明的又一方面,還提供了一種輸入設備,包括如上述任一項所述的生成裝置。
與現(xiàn)有技術(shù)相比,本發(fā)明獲取一個或多個圖片以及用戶對所述一個或多個圖片的一個或多個語音信息;根據(jù)所述語音信息的內(nèi)容,確定與所述語音信息相對應的字幕信息;根據(jù)所述語音信息的語音特征和/或語義特征,確定與所述圖片和/或所述字幕信息所對應的展示特效;根據(jù)所述字幕信息以及所述展示特效,將所述圖片與語音信息生成短視頻。從而,本發(fā)明通過根據(jù)所述語音信息的語音特征和/或語意特征,確定與所述圖片和/或所述字幕信息所對應的展示特效,將圖片轉(zhuǎn)換為短視頻,能夠更加富有創(chuàng)造性地表達情感,提高了輸入行為的多樣性,增加了圖片的趣味性、智能性,使得用戶的表現(xiàn)形式更加豐富且具有吸引力,改善了用戶體驗。
而且,本發(fā)明還可以根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合根據(jù)所述圖片的圖片特征,確定與所述圖片和/或所述字幕信息所對應的展示特效;或者,根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合所述語音信息的語音長度,確定與所述圖片和/或所述字幕信息所對應的展示特效。從而本發(fā)明使得所確定的展示特效與圖片與語音更加貼合,提高了表現(xiàn)效果及可視性,進一步提高了吸引力,改善了用戶體驗。
而且,本發(fā)明還可以根據(jù)所述語音信息以及所述圖片,確定與所述圖片相關(guān)聯(lián)的一個或多個相關(guān)圖片;根據(jù)所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個或多個相關(guān)短視頻。從而,本發(fā)明能夠為用戶生成多種相關(guān)短視頻,減少了用戶尋找圖片的操作,提高了獲取信息的效率,提供給用戶更多的選擇,進一步提高了吸引力,改善了用戶體驗。
而且,本發(fā)明還可以獲取所述用戶的一個或多個歷史語音信息,確定與所述用戶相對應的用戶語音特征庫;根據(jù)所述用戶語音特征庫,確定與所述語音信息相對應的語音特征;根據(jù)所述語音特征和/或所述語音信息的語義特征,確定與所述圖片和/或所述字幕信息所對應的展示特效。從而,本發(fā)明使得所提取的語音特征更加準確,所確定的展示特效也就更符合用戶的需求。
而且,本發(fā)明還可以根據(jù)所述短視頻所對應的應用的相關(guān)配置信息,將所述短視頻轉(zhuǎn)存為一種或多種應用可用格式;將所述短視頻以所述應用可用格式添加在所述應用中。從而,本發(fā)明豐富了應用內(nèi)信息表達的表現(xiàn)形式,使得用戶的信息表達形式豐富且更有吸引力。例如,可將短視頻作為表情等進行添加,因此,本發(fā)明可以讓用戶邊看到表情圖邊聽到語音,并結(jié)合展示特效來理解對方的情感表達,使加入真人語音的表情動態(tài)圖像形式豐富且更有吸引力。
附圖說明
通過閱讀參照以下附圖所作的對非限制性實施例所作的詳細描述,本發(fā)明的其它特征、目的和優(yōu)點將會變得更明顯:
圖1示出根據(jù)本發(fā)明一個方面的一種用于生成短視頻的生成裝置示意圖;
圖2示出根據(jù)本發(fā)明的一個優(yōu)選實施例的一種用于生成短視頻的生成裝置示意圖;
圖3示出根據(jù)本發(fā)明另一個方面的一種用于生成短視頻的方法流程圖;
圖4示出根據(jù)本發(fā)明的一個優(yōu)選實施例的一種用于生成短視頻的方法流程圖。
附圖中相同或相似的附圖標記代表相同或相似的部件。
具體實施方式
在更加詳細地討論示例性實施例之前應當提到的是,一些示例性實施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項操作描述成順序的處理,但是其中的許多操作可以被并行地、并發(fā)地或者同時實施。此外,各項操作的順序可以被重新安排。當其操作完成時所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。所述處理可以對應于方法、函數(shù)、規(guī)程、子例程、子程序等等。
在上下文中所稱“生成裝置”即為“計算機設備”,也稱為“電腦”,是指可以通過運行預定程序或指令來執(zhí)行數(shù)值計算和/或邏輯計算等預定處理過程的智能電子設備,其可以包括處理器與存儲器,由處理器執(zhí)行在存儲器中預存的存續(xù)指令來執(zhí)行預定處理過程,或是由asic、fpga、dsp等硬件執(zhí)行預定處理過程,或是由上述二者組合來實現(xiàn)。
所述計算機設備包括用戶設備和/或網(wǎng)絡設備。其中,所述用戶設備包括但不限于電腦、智能手機、pda等;所述網(wǎng)絡設備包括但不限于單個網(wǎng)絡服務器、多個網(wǎng)絡服務器組成的服務器組或基于云計算(cloudcomputing)的由大量計算機或網(wǎng)絡服務器構(gòu)成的云,其中,云計算是分布式計算的一種,由一群松散耦合的計算機集組成的一個超級虛擬計算機。其中,所述計算機設備可單獨運行來實現(xiàn)本發(fā)明,也可接入網(wǎng)絡并通過與網(wǎng)絡中的其他計算機設備的交互操作來實現(xiàn)本發(fā)明。其中,所述計算機設備所處的網(wǎng)絡包括但不限于互聯(lián)網(wǎng)、廣域網(wǎng)、城域網(wǎng)、局域網(wǎng)、vpn網(wǎng)絡等。
本領(lǐng)域技術(shù)人員應能理解,本發(fā)明中所述的“生成裝置”可以僅是用戶設備,即由用戶設備來執(zhí)行相應的操作;也可以是由用戶設備與網(wǎng)絡設備或服務器相集成來組成,即由用戶設備與網(wǎng)絡設備相配合來執(zhí)行相應的操作。
需要說明的是,所述用戶設備、網(wǎng)絡設備和網(wǎng)絡等僅為舉例,其他現(xiàn)有的或今后可能出現(xiàn)的計算機設備或網(wǎng)絡如可適用于本發(fā)明,也應包含在本發(fā)明保護范圍以內(nèi),并以引用方式包含于此。
需要說明的是,優(yōu)選地,本發(fā)明所述的“生成裝置”可包含在各類設備(如輸入設備)、各類應用(如輸入法),或包含各類應用的裝置中(如包含在輸入法中的裝置)。其中,本發(fā)明所述的生成裝置可由計算機設備的生產(chǎn)廠商或銷售服務商預先安裝至該計算機設備,也可由計算機設備從服務器加載到計算機設備。本領(lǐng)域技術(shù)人員應能理解,任何可用于實現(xiàn)本發(fā)明中的功能的裝置,無論是否被加載至計算機設備中,均包含在本發(fā)明的保護范圍內(nèi)。
在此,本領(lǐng)域技術(shù)人員應能理解,本發(fā)明可應用于移動端與非移動端,例如,當用戶使用手機或pc時,均可利用本發(fā)明所述的方法或裝置來進行提供與呈現(xiàn)。
這里所公開的具體結(jié)構(gòu)和功能細節(jié)僅僅是代表性的,并且是用于描述本發(fā)明的示例性實施例的目的。但是本發(fā)明可以通過許多替換形式來具體實現(xiàn),并且不應當被解釋成僅僅受限于這里所闡述的實施例。
應當理解的是,雖然在這里可能使用了術(shù)語“第一”、“第二”等等來描述各個單元,但是這些單元不應當受這些術(shù)語限制。使用這些術(shù)語僅僅是為了將一個單元與另一個單元進行區(qū)分。舉例來說,在不背離示例性實施例的范圍的情況下,第一單元可以被稱為第二單元,并且類似地第二單元可以被稱為第一單元。這里所使用的術(shù)語“和/或”包括其中一個或更多所列出的相關(guān)聯(lián)項目的任意和所有組合。
這里所使用的術(shù)語僅僅是為了描述具體實施例而不意圖限制示例性實施例。除非上下文明確地另有所指,否則這里所使用的單數(shù)形式“一個”、“一項”還意圖包括復數(shù)。還應當理解的是,這里所使用的術(shù)語“包括”和/或“包含”規(guī)定所陳述的特征、整數(shù)、步驟、操作、單元和/或組件的存在,而不排除存在或添加一個或更多其他特征、整數(shù)、步驟、操作、單元、組件和/或其組合。
還應當提到的是,在一些替換實現(xiàn)方式中,所提到的功能/動作可以按照不同于附圖中標示的順序發(fā)生。舉例來說,取決于所涉及的功能/動作,相繼示出的兩幅圖實際上可以基本上同時執(zhí)行或者有時可以按照相反的順序來執(zhí)行。
下面結(jié)合附圖對本發(fā)明作進一步詳細描述。
圖1示出根據(jù)本發(fā)明一個方面的一種用于生成短視頻的生成裝置示意圖;其中,所述生成裝置包括獲取裝置1、字幕確定裝置2、特效確定裝置3、視頻生成裝置4。
具體地,所述獲取裝置1獲取一個或多個圖片以及用戶對所述一個或多個圖片的一個或多個語音信息;所述字幕確定裝置2根據(jù)所述語音信息的內(nèi)容,確定與所述語音信息相對應的字幕信息;所述特效確定裝置3根據(jù)所述語音信息的語音特征和/或語義特征,確定與所述圖片和/或所述字幕信息所對應的展示特效;所述視頻生成裝置4根據(jù)所述字幕信息以及所述展示特效,將所述圖片與語音信息生成短視頻。
所述獲取裝置1獲取一個或多個圖片以及用戶對所述一個或多個圖片的一個或多個語音信息。
具體地,所述獲取裝置1可以通過調(diào)用內(nèi)置缺省圖片、獲取用戶通過上傳或拍攝等的方式所提供的圖片、通過搜索的方式從網(wǎng)絡上搜索到圖片、通過下載的方式下載圖片等一種或多種方式,獲取一個或多個圖片。所述圖片可以實時獲取,也可以預先獲取。所述圖片包括靜態(tài)圖片(如采用jpg、bmp等格式的圖片)和/或動態(tài)圖片(如采用gif等格式的圖片)。
所述獲取裝置1通過實時錄音或調(diào)用歷史錄音等方式,獲取用戶對所述一個或多個圖片的一個或多個語音信息。在此,本領(lǐng)域技術(shù)人員應能理解,一張圖片可以對應于一個或多個語音信息,一個語音信息也可以對應于一張或多張圖片。所述圖片與語音信息的關(guān)聯(lián)關(guān)系可以根據(jù)用戶的設置進行確定。
例如,所述用戶選擇了內(nèi)置中的一張圖片,然后按下錄音鍵,錄制了一段語音信息,則該語音信息即與該圖片相對應;然后,用戶又錄制了一段語音信息,則這兩段語音信息均與該圖片對應。
或者,例如,所述用戶從網(wǎng)上下載了兩張圖片,然后同時選擇了這兩張圖片,并與另一段語音信息相關(guān)聯(lián),則這段語音信息即與這兩張圖片同時相關(guān)聯(lián)。
所述字幕確定裝置2根據(jù)所述語音信息的內(nèi)容,確定與所述語音信息相對應的字幕信息。
具體地,所述字幕確定裝置2通過語音識別,識別出所述語音信息的語音內(nèi)容,然后,確定與所識別的語音內(nèi)容相對應的文字,以作為與所述語音信息相對應的字幕信息。
優(yōu)選地,所述字幕確定裝置2還可以結(jié)合所述語音信息的長度,來確定是否對所述字幕信息進行分行等;所述字幕確定裝置2可以根據(jù)所述語音信息的語音內(nèi)容,結(jié)合所述語音信息中的語音特征,如聲調(diào)、節(jié)奏等,來確定所述字幕信息中的標點、分行等內(nèi)容;所述字幕確定裝置2還可以與所述用戶進行交互,為所述用戶提供校對輸入功能,以便于所述用戶對所述字幕信息進行校對。
優(yōu)選地,所述字幕確定裝置2可以自行進行語音特征、語音長度等的分析;也可以與所述特效確定裝置3交互,根據(jù)所述特效確定裝置3對語音特征/語義特征/展示特效等的反饋,來迭代調(diào)整所述字幕信息的分行、標點等內(nèi)容。
所述特效確定裝置3根據(jù)所述語音信息的語音特征和/或語義特征,確定與所述圖片和/或所述字幕信息所對應的展示特效。
具體地,所述特效確定裝置3對所述語音信息進行分析,以確定所述語音信息的語音特征和/或語義特征。
其中,所述語音特征包括但不限于聲調(diào)、節(jié)奏、音色等;例如通過對所述語音信息的波形分析,得知該語音信息的聲音高低變化和/或節(jié)奏等;通過對所述語音信息的頻譜和/或語譜的分析,得知該語音信息的音色,如粗獷、尖細、低沉、奶氣、清脆等等;由于所述語音信息的聲調(diào)、節(jié)奏、音色等是不斷變化的,還可以根據(jù)上述變化來確定用戶語氣的變化,如突然提高音量或降低音量等。
所述語義特征即為所述用戶的所述語音的含義。如“我很高興”則表達了積極的情緒,“這東西不好”則表達了消極的情緒等等。
然后,所述特效確定裝置3根據(jù)所述語音信息的語音特征和/或語義特征,從預置的特效中選擇一個或多個以作為與所述圖片和/或所述字幕信息相對應的展示特效,或者通過與服務器或其他第三方設備相交互,獲取與所述圖片和/或所述字幕信息相對應的展示特效。
其中,所述展示特效中包括作用于所述圖片的展示特效、作用于所述字幕信息的展示特效或者同時作用于所述圖片和字幕信息的展示特效。所述展示特效中包括但不限于靜態(tài)效果和/或動態(tài)效果。其中,作用于所述字幕信息的靜態(tài)效果例如字體、顏色等,作用于所述圖片的靜態(tài)效果例如附加裝飾圖片、附加裝飾文字、增加圖片紋理、圖片變色等。所述動態(tài)效果包括但不限于漸變、浮動、閃爍等。
例如,若所述用戶的語音特征表示用戶說話聲音時大時小,展示字幕會隨著說話一大一小不斷變化;若所述用戶的語音特征表示用戶說話的音色奶聲奶氣,則展示華康娃娃體字幕等。
例如,對所述用戶的語義特征進行分析,若用戶說“愛你”,則圖片或字幕上出現(xiàn)一顆一閃一閃的心;若用戶說“晚安”,則表情圖加漸變蒙層逐漸變成黑色以實現(xiàn)關(guān)燈的效果。
優(yōu)選地,所述特效確定裝置3根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合根據(jù)所述圖片的圖片特征,確定與所述圖片和/或所述字幕信息所對應的展示特效。
具體地,所述特效確定裝置3還可以對所述圖片進行分析,以確定所述圖片的圖片特征,其中,所述圖片特征包括但不限于圖片名稱、圖片說明、圖片色彩、動態(tài)信息(如gif動態(tài)圖片)、圖片內(nèi)容等。
然后,所述特效確定裝置3根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合根據(jù)所述圖片的圖片特征,將上述多種因素綜合考慮,以確定與所述圖片和/或所述字幕信息所對應的展示特效。
例如,若所述圖片特征為圖片色彩較暗,而用戶的語音特征為音調(diào)輕快,則所確定的展示特效為:將所述字幕以跳躍的形式展示,且為字幕加上顏色較淺的輪廓等。
例如,若所述圖片特征為圖片中已經(jīng)包含了心形圖案,則當用戶說“愛你”時,不再將“圖片或字幕上出現(xiàn)一顆一閃一閃的心”作為展示特效,而是在圖片上添加玫瑰花。
優(yōu)選地,所述特效確定裝置3根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合所述語音信息的語音長度,確定與所述圖片和/或所述字幕信息所對應的展示特效。
具體地,所述語音長度即為所述語音信息的時長。所述特效確定裝置3可以在考慮所述語音長度的基礎(chǔ)上,來確定符合所述語音特征和/或語義特征的展示特效。
例如,若一條語音的語義長度為3秒,而某個動態(tài)展示特效循環(huán)一次需要5秒,則不采用該展示特效;反之,若某個動態(tài)展示特效循環(huán)一次需要3秒,則可以結(jié)合所述語音特征和/或語義特征來確定是否選擇該展示特效。
所述視頻生成裝置4根據(jù)所述字幕信息以及所述展示特效,將所述圖片與語音信息生成短視頻。
具體地,所述視頻生成裝置4將所述圖片以及所述語音信息一起生成包含語音與圖像的短視頻,并將所述字幕信息以及所述展示特效加入到該短視頻中。例如,若所述圖像為動態(tài)圖像,可以生成一個包含了字幕信息以及展示特效的短視頻,圖片的播放進程與語音進程相一致;若所述圖像為靜態(tài)圖像,可以生成一個包含了字幕信息以及展示特效的短視頻,圖片可以作為背景,而動態(tài)的是字幕信息以及展示特效,且動態(tài)的部分隨著語音進程進行。
所述短視頻可以被保存、收藏、發(fā)送等。
優(yōu)選地,所述生成裝置還包括歷史獲取裝置(未示出),其中,所述歷史獲取裝置獲取所述用戶的一個或多個歷史語音信息,確定與所述用戶相對應的用戶語音特征庫;所述特效確定裝置3根據(jù)所述用戶語音特征庫,確定與所述語音信息相對應的語音特征;根據(jù)所述語音特征和/或所述語音信息的語義特征,確定與所述圖片和/或所述字幕信息所對應的展示特效。
具體地,所述歷史獲取裝置通過直接與用戶交互以獲取所述用戶的一個或多個歷史語音信息,或者與其他能夠提供該用戶歷史語音信息的設備相交互,以獲取所述用戶的一個或多個歷史語音信息。在此,所述歷史語音信息可以是用戶在其他場景或其他應用中所提供的語音信息;所述歷史語音信息可以對應于已確認的或未確認的語音特征和/或語義特征。
然后,所述歷史獲取裝置根據(jù)所述歷史語音信息,建立與所述用戶相對應的用戶語音特征庫,例如,通過對多個歷史語音信息的分析與統(tǒng)計,得到該用戶的常用音調(diào)、非普通音調(diào)、音色、節(jié)奏等,以建立與該用戶相對應的用戶語音特征庫。
然后,所述特效確定裝置3可以根據(jù)所述用戶語音特征庫,通過將所述用戶的當前語音與該用戶語音特征庫相匹配或?qū)Ρ龋源_定與所述用戶的當前語音信息相對應的語音特征。
然后,所述特效確定裝置3根據(jù)所述語音特征和/或所述語音信息的語義特征,確定與所述圖片和/或所述字幕信息所對應的展示特效。
優(yōu)選地,所述生成裝置還包括轉(zhuǎn)存裝置(未示出)和添加裝置(未示出);其中,所述轉(zhuǎn)存裝置根據(jù)所述短視頻所對應的應用的相關(guān)配置信息,將所述短視頻轉(zhuǎn)存為一種或多種應用可用格式;所述添加裝置將所述短視頻以所述應用可用格式添加在所述應用中。
具體地,所述轉(zhuǎn)存裝置可以根據(jù)所述短視頻所對應的應用的相關(guān)配置信息,確定該應用所需求的一種或多種應用可用格式;并將所述短視頻轉(zhuǎn)存為所述應用可用格式;例如,若所述應用為輸入法,則可將所述短視頻轉(zhuǎn)存為動態(tài)圖片類格式,以作為動態(tài)圖片表情;若所述應用為微博等,則可將其轉(zhuǎn)存為一種或多種的可用視頻格式,以作為短視頻發(fā)送。
然后,所述添加裝置將所述短視頻以所述應用可用格式添加在所述應用中,供用戶進行后續(xù)調(diào)用。
圖2示出根據(jù)本發(fā)明的一個優(yōu)選實施例的一種用于生成短視頻的生成裝置示意圖;其中,所述生成裝置包括獲取裝置1’、字幕確定裝置2’、特效確定裝置3’、視頻生成裝置4’、相關(guān)圖片確定裝置5’、相關(guān)視頻生成裝置6’。
具體地,所述獲取裝置1’獲取一個或多個圖片以及用戶對所述一個或多個圖片的一個或多個語音信息;所述字幕確定裝置2’根據(jù)所述語音信息的內(nèi)容,確定與所述語音信息相對應的字幕信息;所述特效確定裝置3’根據(jù)所述語音信息的語音特征和/或語義特征,確定與所述圖片和/或所述字幕信息所對應的展示特效;所述視頻生成裝置4’根據(jù)所述字幕信息以及所述展示特效,將所述圖片與語音信息生成短視頻;所述相關(guān)圖片確定裝置5’根據(jù)所述語音信息以及所述圖片,確定與所述圖片相關(guān)聯(lián)的一個或多個相關(guān)圖片;所述相關(guān)視頻生成裝置6’根據(jù)所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個或多個相關(guān)短視頻。
所述相關(guān)圖片確定裝置5’根據(jù)所述語音信息以及所述圖片,確定與所述圖片相關(guān)聯(lián)的一個或多個相關(guān)圖片。
具體地,所述相關(guān)圖片確定裝置5’根據(jù)所述語音信息的語音特征和/或語義特征,并結(jié)合所述圖片的圖片特征,來確定與上述語音信息和所述圖片在內(nèi)容或特征上相關(guān)聯(lián)的一個或多個相關(guān)圖片。
其中,所述語音特征包括但不限于聲調(diào)、節(jié)奏、音色等;所述語義特征即為所述用戶的所述語音的含義。所述圖片特征包括但不限于圖片名稱、圖片說明、圖片色彩、動態(tài)信息(如gif動態(tài)圖片)、圖片內(nèi)容等。
其中,所述相關(guān)圖片與所述語音信息/所述圖片在內(nèi)容或主題上相關(guān)聯(lián);或者,所述相關(guān)圖片與所述圖片在色調(diào)上相關(guān)聯(lián)等。
例如,若所述語音信息為:“很棒啊!”,所述圖片為“鼓掌”,則可以推薦以“很棒”為主題的其他圖片,如“翹起拇指”、“歡呼”等,或者可以選擇以不同角色為主題的鼓掌圖片或類似圖片,如“兔斯基鼓掌”、“兔斯基點贊”、“ac娘點贊”等。
優(yōu)選地,所述相關(guān)圖片確定裝置5’還可以從所選擇的相關(guān)圖片中進一步篩選出優(yōu)選相關(guān)圖片。例如,繼上例,可以僅將同一主題的相關(guān)圖片挑選出來,作為優(yōu)選相關(guān)圖片,如“兔斯基鼓掌”和“兔斯基點贊”;或者,可以將相關(guān)圖片中色調(diào)類似的圖片挑選出來,作為優(yōu)選相關(guān)圖片,如具有相同的背景色或主題顏色等。
所述相關(guān)視頻生成裝置6’根據(jù)所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個或多個相關(guān)短視頻。
具體地,所述相關(guān)視頻生成裝置6’可以根據(jù)所述特效確定裝置3’為所述圖片所確定的展示特效,來所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個或多個相關(guān)短視頻?;蛘?,所述相關(guān)視頻生成裝置6’可以將所述相關(guān)圖片、語音信息、所述圖片重新發(fā)給所述字幕確定裝置2’(如圖2所示),以供所述字幕確定裝置2’為上述內(nèi)容重新確定展示特效,在此,確定所述展示特效的方法與圖1中對應裝置的確定方法相同或相似,故在此不再贅述。
然后,所述相關(guān)視頻生成裝置6’根據(jù)所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個或多個相關(guān)短視頻。
其中,所述相關(guān)短視頻可以是對應于“字幕信息、展示特效、一張所述相關(guān)圖片、所述語音信息”,即將所述字幕信息、所述展示特效、所述語音信息分別添加到某張相關(guān)圖片中,以生成相關(guān)短視頻;
所述相關(guān)短視頻還可以對應于“字幕信息、展示特效、多張所述相關(guān)圖片、所述語音信息”,即將所述字幕信息、所述展示特效、所述語音信息添加到多張相關(guān)圖片中,使得多張相關(guān)圖片能夠連續(xù)播放,以形成一個動態(tài)相關(guān)短視頻;
所述相關(guān)短視頻還可以對應于“字幕信息、展示特效、所述圖片以及一張或多張所述相關(guān)圖片、所述語音信息”,即將所述圖片以及一張或多張相關(guān)圖片作為待處理的圖片,并將所述字幕信息、所述展示特效、所述語音信息添加到上述待處理的圖片中,使得多張待處理的圖片能夠連續(xù)播放,以形成一個動態(tài)相關(guān)短視頻等。
優(yōu)選地,所述相關(guān)圖片確定裝置5’包括數(shù)量確定單元(未示出)以及關(guān)聯(lián)確定單元(未示出);其中,所述數(shù)量確定單元確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;所述關(guān)聯(lián)確定單元根據(jù)所述語音信息、所述圖片以及所述相關(guān)圖片數(shù)量,確定與所述圖片相關(guān)聯(lián)的一個或多個相關(guān)圖片。
具體地,所述數(shù)量確定單元通過按照預設置的方式,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;或者,更優(yōu)選地,基于以下一種或多種方式,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量:
-根據(jù)所述語音信息的語音長度,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量:例如,若所述語音長度為5秒,則所述相關(guān)圖片數(shù)量確定為5;若所述語音長度為10秒,則所述相關(guān)圖片數(shù)量確定為10;
-根據(jù)所述語音信息的語音特征,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量:例如,若所述語音特征顯示發(fā)生了2次或多次的語調(diào)變換(如高音轉(zhuǎn)低音,低音轉(zhuǎn)高音等),則提高所確定的相關(guān)圖片數(shù)量;
-根據(jù)所述語音信息的語義特征,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量:例如,若所述語義特征顯示出包含了多個語義關(guān)鍵詞,則可根據(jù)不同的關(guān)鍵詞,確定不同的相關(guān)圖片,因此,相關(guān)圖片數(shù)量會更多。
所述關(guān)聯(lián)確定單元在根據(jù)所述語音信息的語音特征和/或語義特征,并結(jié)合所述圖片的圖片特征的基礎(chǔ)上,來確定與上述語音信息和所述圖片在內(nèi)容或特征上相關(guān)聯(lián)的、符合上述相關(guān)圖片數(shù)量要求的一張或多張相關(guān)圖片。
圖3示出根據(jù)本發(fā)明另一個方面的一種用于生成短視頻的方法流程圖。具體地,在步驟s1中,所述生成裝置獲取一個或多個圖片以及用戶對所述一個或多個圖片的一個或多個語音信息;在步驟s2中,所述生成裝置根據(jù)所述語音信息的內(nèi)容,確定與所述語音信息相對應的字幕信息;在步驟s3中,所述生成裝置根據(jù)所述語音信息的語音特征和/或語義特征,確定與所述圖片和/或所述字幕信息所對應的展示特效;在步驟s4中,所述生成裝置根據(jù)所述字幕信息以及所述展示特效,將所述圖片與語音信息生成短視頻。
在步驟s1中,所述生成裝置獲取一個或多個圖片以及用戶對所述一個或多個圖片的一個或多個語音信息。
具體地,在步驟s1中,所述生成裝置可以通過調(diào)用內(nèi)置缺省圖片、獲取用戶通過上傳或拍攝等的方式所提供的圖片、通過搜索的方式從網(wǎng)絡上搜索到圖片、通過下載的方式下載圖片等一種或多種方式,獲取一個或多個圖片。所述圖片可以實時獲取,也可以預先獲取。所述圖片包括靜態(tài)圖片(如采用jpg、bmp等格式的圖片)和/或動態(tài)圖片(如采用gif等格式的圖片)。
在步驟s1中,所述生成裝置通過實時錄音或調(diào)用歷史錄音等方式,獲取用戶對所述一個或多個圖片的一個或多個語音信息。在此,本領(lǐng)域技術(shù)人員應能理解,一張圖片可以對應于一個或多個語音信息,一個語音信息也可以對應于一張或多張圖片。所述圖片與語音信息的關(guān)聯(lián)關(guān)系可以根據(jù)用戶的設置進行確定。
例如,所述用戶選擇了內(nèi)置中的一張圖片,然后按下錄音鍵,錄制了一段語音信息,則該語音信息即與該圖片相對應;然后,用戶又錄制了一段語音信息,則這兩段語音信息均與該圖片對應。
或者,例如,所述用戶從網(wǎng)上下載了兩張圖片,然后同時選擇了這兩張圖片,并與另一段語音信息相關(guān)聯(lián),則這段語音信息即與這兩張圖片同時相關(guān)聯(lián)。
在步驟s2中,所述生成裝置根據(jù)所述語音信息的內(nèi)容,確定與所述語音信息相對應的字幕信息。
具體地,在步驟s2中,所述生成裝置通過語音識別,識別出所述語音信息的語音內(nèi)容,然后,確定與所識別的語音內(nèi)容相對應的文字,以作為與所述語音信息相對應的字幕信息。
優(yōu)選地,在步驟s2中,所述生成裝置還可以結(jié)合所述語音信息的長度,來確定是否對所述字幕信息進行分行等;在步驟s2中,所述生成裝置可以根據(jù)所述語音信息的語音內(nèi)容,結(jié)合所述語音信息中的語音特征,如聲調(diào)、節(jié)奏等,來確定所述字幕信息中的標點、分行等內(nèi)容;所述生成裝置還可以與所述用戶進行交互,為所述用戶提供校對輸入功能,以便于所述用戶對所述字幕信息進行校對。
優(yōu)選地,在步驟s2中,所述生成裝置可以自行進行語音特征、語音長度等的分析;也可以與從步驟s3的執(zhí)行結(jié)果中獲得反饋,根據(jù)所述步驟s3對語音特征/語義特征/展示特效等的反饋,來迭代調(diào)整所述字幕信息的分行、標點等內(nèi)容。
在步驟s3中,所述生成裝置根據(jù)所述語音信息的語音特征和/或語義特征,確定與所述圖片和/或所述字幕信息所對應的展示特效。
具體地,在步驟s3中,所述生成裝置對所述語音信息進行分析,以確定所述語音信息的語音特征和/或語義特征。
其中,所述語音特征包括但不限于聲調(diào)、節(jié)奏、音色等;例如通過對所述語音信息的波形分析,得知該語音信息的聲音高低變化和/或節(jié)奏等;通過對所述語音信息的頻譜和/或語譜的分析,得知該語音信息的音色,如粗獷、尖細、低沉、奶氣、清脆等等;由于所述語音信息的聲調(diào)、節(jié)奏、音色等是不斷變化的,還可以根據(jù)上述變化來確定用戶語氣的變化,如突然提高音量或降低音量等。
所述語義特征即為所述用戶的所述語音的含義。如“我很高興”則表達了積極的情緒,“這東西不好”則表達了消極的情緒等等。
然后,在步驟s3中,所述生成裝置根據(jù)所述語音信息的語音特征和/或語義特征,從預置的特效中選擇一個或多個以作為與所述圖片和/或所述字幕信息相對應的展示特效,或者通過與服務器或其他第三方設備相交互,獲取與所述圖片和/或所述字幕信息相對應的展示特效。
其中,所述展示特效中包括作用于所述圖片的展示特效、作用于所述字幕信息的展示特效或者同時作用于所述圖片和字幕信息的展示特效。所述展示特效中包括但不限于靜態(tài)效果和/或動態(tài)效果。其中,作用于所述字幕信息的靜態(tài)效果例如字體、顏色等,作用于所述圖片的靜態(tài)效果例如附加裝飾圖片、附加裝飾文字、增加圖片紋理、圖片變色等。所述動態(tài)效果包括但不限于漸變、浮動、閃爍等。
例如,若所述用戶的語音特征表示用戶說話聲音時大時小,展示字幕會隨著說話一大一小不斷變化;若所述用戶的語音特征表示用戶說話的音色奶聲奶氣,則展示華康娃娃體字幕等。
例如,對所述用戶的語義特征進行分析,若用戶說“愛你”,則圖片或字幕上出現(xiàn)一顆一閃一閃的心;若用戶說“晚安”,則表情圖加漸變蒙層逐漸變成黑色以實現(xiàn)關(guān)燈的效果。
優(yōu)選地,在步驟s3中,所述生成裝置根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合根據(jù)所述圖片的圖片特征,確定與所述圖片和/或所述字幕信息所對應的展示特效。
具體地,在步驟s3中,所述生成裝置還可以對所述圖片進行分析,以確定所述圖片的圖片特征,其中,所述圖片特征包括但不限于圖片名稱、圖片說明、圖片色彩、動態(tài)信息(如gif動態(tài)圖片)、圖片內(nèi)容等。
然后,在步驟s3中,所述生成裝置根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合根據(jù)所述圖片的圖片特征,將上述多種因素綜合考慮,以確定與所述圖片和/或所述字幕信息所對應的展示特效。
例如,若所述圖片特征為圖片色彩較暗,而用戶的語音特征為音調(diào)輕快,則所確定的展示特效為:將所述字幕以跳躍的形式展示,且為字幕加上顏色較淺的輪廓等。
例如,若所述圖片特征為圖片中已經(jīng)包含了心形圖案,則當用戶說“愛你”時,不再將“圖片或字幕上出現(xiàn)一顆一閃一閃的心”作為展示特效,而是在圖片上添加玫瑰花。
優(yōu)選地,在步驟s3中,所述生成裝置根據(jù)所述語音信息的語音特征和/或語義特征,結(jié)合所述語音信息的語音長度,確定與所述圖片和/或所述字幕信息所對應的展示特效。
具體地,所述語音長度即為所述語音信息的時長。在步驟s3中,所述生成裝置可以在考慮所述語音長度的基礎(chǔ)上,來確定符合所述語音特征和/或語義特征的展示特效。
例如,若一條語音的語義長度為3秒,而某個動態(tài)展示特效循環(huán)一次需要5秒,則不采用該展示特效;反之,若某個動態(tài)展示特效循環(huán)一次需要3秒,則可以結(jié)合所述語音特征和/或語義特征來確定是否選擇該展示特效。
在步驟s4中,所述生成裝置根據(jù)所述字幕信息以及所述展示特效,將所述圖片與語音信息生成短視頻。
具體地,在步驟s4中,所述生成裝置將所述圖片以及所述語音信息一起生成包含語音與圖像的短視頻,并將所述字幕信息以及所述展示特效加入到該短視頻中。例如,若所述圖像為動態(tài)圖像,可以生成一個包含了字幕信息以及展示特效的短視頻,圖片的播放進程與語音進程相一致;若所述圖像為靜態(tài)圖像,可以生成一個包含了字幕信息以及展示特效的短視頻,圖片可以作為背景,而動態(tài)的是字幕信息以及展示特效,且動態(tài)的部分隨著語音進程進行。
所述短視頻可以被保存、收藏、發(fā)送等。
優(yōu)選地,所述方法還包括步驟s7(未示出),其中,所在步驟s7中,所述生成裝置獲取所述用戶的一個或多個歷史語音信息,確定與所述用戶相對應的用戶語音特征庫;在步驟s3中,所述生成裝置根據(jù)所述用戶語音特征庫,確定與所述語音信息相對應的語音特征;根據(jù)所述語音特征和/或所述語音信息的語義特征,確定與所述圖片和/或所述字幕信息所對應的展示特效。
具體地,在步驟s7中,所述生成裝置通過直接與用戶交互以獲取所述用戶的一個或多個歷史語音信息,或者與其他能夠提供該用戶歷史語音信息的設備相交互,以獲取所述用戶的一個或多個歷史語音信息。在此,所述歷史語音信息可以是用戶在其他場景或其他應用中所提供的語音信息;所述歷史語音信息可以對應于已確認的或未確認的語音特征和/或語義特征。
然后,在步驟s7中,所述生成裝置根據(jù)所述歷史語音信息,建立與所述用戶相對應的用戶語音特征庫,例如,通過對多個歷史語音信息的分析與統(tǒng)計,得到該用戶的常用音調(diào)、非普通音調(diào)、音色、節(jié)奏等,以建立與該用戶相對應的用戶語音特征庫。
然后,在步驟s7中,所述生成裝置可以根據(jù)所述用戶語音特征庫,通過將所述用戶的當前語音與該用戶語音特征庫相匹配或?qū)Ρ?,以確定與所述用戶的當前語音信息相對應的語音特征。
然后,在步驟s3中,所述生成裝置根據(jù)所述語音特征和/或所述語音信息的語義特征,確定與所述圖片和/或所述字幕信息所對應的展示特效。
優(yōu)選地,所述方法還包括步驟s8(未示出)和步驟s9(未示出);其中,在步驟s8中,所述生成裝置根據(jù)所述短視頻所對應的應用的相關(guān)配置信息,將所述短視頻轉(zhuǎn)存為一種或多種應用可用格式;在步驟s9中,所述生成裝置將所述短視頻以所述應用可用格式添加在所述應用中。
具體地,在步驟s8中,所述生成裝置可以根據(jù)所述短視頻所對應的應用的相關(guān)配置信息,確定該應用所需求的一種或多種應用可用格式;并將所述短視頻轉(zhuǎn)存為所述應用可用格式;例如,若所述應用為輸入法,則可將所述短視頻轉(zhuǎn)存為動態(tài)圖片類格式,以作為動態(tài)圖片表情;若所述應用為微博等,則可將其轉(zhuǎn)存為一種或多種的可用視頻格式,以作為短視頻發(fā)送。
然后,在步驟s9中,所述生成裝置將所述短視頻以所述應用可用格式添加在所述應用中,供用戶進行后續(xù)調(diào)用。
圖4示出根據(jù)本發(fā)明的一個優(yōu)選實施例的一種用于生成短視頻的方法流程圖。
具體地,在步驟s1’中,所述生成裝置獲取一個或多個圖片以及用戶對所述一個或多個圖片的一個或多個語音信息;在步驟s2’中,所述生成裝置根據(jù)所述語音信息的內(nèi)容,確定與所述語音信息相對應的字幕信息;在步驟s3’中,所述生成裝置根據(jù)所述語音信息的語音特征和/或語義特征,確定與所述圖片和/或所述字幕信息所對應的展示特效;在步驟s3’中,所述生成裝置根據(jù)所述字幕信息以及所述展示特效,將所述圖片與語音信息生成短視頻;在步驟s5’中,所述生成裝置根據(jù)所述語音信息以及所述圖片,確定與所述圖片相關(guān)聯(lián)的一個或多個相關(guān)圖片;在步驟s6’中,所述生成裝置根據(jù)所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個或多個相關(guān)短視頻。
在步驟s5’中,所述生成裝置根據(jù)所述語音信息以及所述圖片,確定與所述圖片相關(guān)聯(lián)的一個或多個相關(guān)圖片。
具體地,在步驟s5’中,所述生成裝置根據(jù)所述語音信息的語音特征和/或語義特征,并結(jié)合所述圖片的圖片特征,來確定與上述語音信息和所述圖片在內(nèi)容或特征上相關(guān)聯(lián)的一個或多個相關(guān)圖片。
其中,所述語音特征包括但不限于聲調(diào)、節(jié)奏、音色等;所述語義特征即為所述用戶的所述語音的含義。所述圖片特征包括但不限于圖片名稱、圖片說明、圖片色彩、動態(tài)信息(如gif動態(tài)圖片)、圖片內(nèi)容等。
其中,所述相關(guān)圖片與所述語音信息/所述圖片在內(nèi)容或主題上相關(guān)聯(lián);或者,所述相關(guān)圖片與所述圖片在色調(diào)上相關(guān)聯(lián)等。
例如,若所述語音信息為:“很棒??!”,所述圖片為“鼓掌”,則可以推薦以“很棒”為主題的其他圖片,如“翹起拇指”、“歡呼”等,或者可以選擇以不同角色為主題的鼓掌圖片或類似圖片,如“兔斯基鼓掌”、“兔斯基點贊”、“ac娘點贊”等。
優(yōu)選地,在步驟s5’中,所述生成裝置還可以從所選擇的相關(guān)圖片中進一步篩選出優(yōu)選相關(guān)圖片。例如,繼上例,可以僅將同一主題的相關(guān)圖片挑選出來,作為優(yōu)選相關(guān)圖片,如“兔斯基鼓掌”和“兔斯基點贊”;或者,可以將相關(guān)圖片中色調(diào)類似的圖片挑選出來,作為優(yōu)選相關(guān)圖片,如具有相同的背景色或主題顏色等。
在步驟s6’中,所述生成裝置根據(jù)所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個或多個相關(guān)短視頻。
具體地,在步驟s6’中,所述生成裝置可以根據(jù)所述步驟s3’為所述圖片所確定的展示特效,來所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個或多個相關(guān)短視頻。或者,所在步驟s6’中,所述生成裝置可以將所述相關(guān)圖片、語音信息、所述圖片重新執(zhí)行步驟s2’(如圖2所示),以供所述步驟s2’為上述內(nèi)容重新確定展示特效,在此,確定所述展示特效的方法與圖3中對應裝置的確定方法相同或相似,故在此不再贅述。
然后,在步驟s6’中,所述生成裝置根據(jù)所述字幕信息以及所述展示特效,將所述圖片、所述相關(guān)圖片與所述語音信息,生成一個或多個相關(guān)短視頻。
其中,所述相關(guān)短視頻可以是對應于“字幕信息、展示特效、一張所述相關(guān)圖片、所述語音信息”,即將所述字幕信息、所述展示特效、所述語音信息分別添加到某張相關(guān)圖片中,以生成相關(guān)短視頻;
所述相關(guān)短視頻還可以對應于“字幕信息、展示特效、多張所述相關(guān)圖片、所述語音信息”,即將所述字幕信息、所述展示特效、所述語音信息添加到多張相關(guān)圖片中,使得多張相關(guān)圖片能夠連續(xù)播放,以形成一個動態(tài)相關(guān)短視頻;
所述相關(guān)短視頻還可以對應于“字幕信息、展示特效、所述圖片以及一張或多張所述相關(guān)圖片、所述語音信息”,即將所述圖片以及一張或多張相關(guān)圖片作為待處理的圖片,并將所述字幕信息、所述展示特效、所述語音信息添加到上述待處理的圖片中,使得多張待處理的圖片能夠連續(xù)播放,以形成一個動態(tài)相關(guān)短視頻等。
優(yōu)選地,所述步驟s5’包括步驟s51’(未示出)以及步驟s52’(未示出);其中,在步驟s51’中,所述生成裝置確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;在步驟s52’中,所述生成裝置根據(jù)所述語音信息、所述圖片以及所述相關(guān)圖片數(shù)量,確定與所述圖片相關(guān)聯(lián)的一個或多個相關(guān)圖片。
具體地,在步驟s51’中,所述生成裝置通過按照預設置的方式,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量;或者,更優(yōu)選地,基于以下一種或多種方式,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量:
-根據(jù)所述語音信息的語音長度,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量:例如,若所述語音長度為5秒,則所述相關(guān)圖片數(shù)量確定為5;若所述語音長度為10秒,則所述相關(guān)圖片數(shù)量確定為10;
-根據(jù)所述語音信息的語音特征,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量:例如,若所述語音特征顯示發(fā)生了2次或多次的語調(diào)變換(如高音轉(zhuǎn)低音,低音轉(zhuǎn)高音等),則提高所確定的相關(guān)圖片數(shù)量;
-根據(jù)所述語音信息的語義特征,確定與所述圖片相關(guān)聯(lián)的相關(guān)圖片數(shù)量:例如,若所述語義特征顯示出包含了多個語義關(guān)鍵詞,則可根據(jù)不同的關(guān)鍵詞,確定不同的相關(guān)圖片,因此,相關(guān)圖片數(shù)量會更多。
在步驟s52’中,所述生成裝置在根據(jù)所述語音信息的語音特征和/或語義特征,并結(jié)合所述圖片的圖片特征的基礎(chǔ)上,來確定與上述語音信息和所述圖片在內(nèi)容或特征上相關(guān)聯(lián)的、符合上述相關(guān)圖片數(shù)量要求的一張或多張相關(guān)圖片。
需要注意的是,本發(fā)明可在軟件和/或軟件與硬件的組合體中被實施,例如,可采用專用集成電路(asic)、通用目的計算機或任何其他類似硬件設備來實現(xiàn)。在一個實施例中,本發(fā)明的軟件程序可以通過處理器執(zhí)行以實現(xiàn)上文所述步驟或功能。同樣地,本發(fā)明的軟件程序(包括相關(guān)的數(shù)據(jù)結(jié)構(gòu))可以被存儲到計算機可讀記錄介質(zhì)中,例如,ram存儲器,磁或光驅(qū)動器或軟磁盤及類似設備。另外,本發(fā)明的一些步驟或功能可采用硬件來實現(xiàn),例如,作為與處理器配合從而執(zhí)行各個步驟或功能的電路。
另外,本發(fā)明的一部分可被應用為計算機程序產(chǎn)品,例如計算機程序指令,當其被計算機執(zhí)行時,通過該計算機的操作,可以調(diào)用或提供根據(jù)本發(fā)明的方法和/或技術(shù)方案。而調(diào)用本發(fā)明的方法的程序指令,可能被存儲在固定的或可移動的記錄介質(zhì)中,和/或通過廣播或其他信號承載媒體中的數(shù)據(jù)流而被傳輸,和/或被存儲在根據(jù)所述程序指令運行的計算機設備的工作存儲器中。在此,根據(jù)本發(fā)明的一個實施例包括一個裝置,該裝置包括用于存儲計算機程序指令的存儲器和用于執(zhí)行程序指令的處理器,其中,當該計算機程序指令被該處理器執(zhí)行時,觸發(fā)該裝置運行基于前述根據(jù)本發(fā)明的多個實施例的方法和/或技術(shù)方案。
對于本領(lǐng)域技術(shù)人員而言,顯然本發(fā)明不限于上述示范性實施例的細節(jié),而且在不背離本發(fā)明的精神或基本特征的情況下,能夠以其他的具體形式實現(xiàn)本發(fā)明。因此,無論從哪一點來看,均應將實施例看作是示范性的,而且是非限制性的,本發(fā)明的范圍由所附權(quán)利要求而不是上述說明限定,因此旨在將落在權(quán)利要求的等同要件的含義和范圍內(nèi)的所有變化涵括在本發(fā)明內(nèi)。不應將權(quán)利要求中的任何附圖標記視為限制所涉及的權(quán)利要求。此外,顯然“包括”一詞不排除其他單元或步驟,單數(shù)不排除復數(shù)。裝置權(quán)利要求中陳述的多個單元或裝置也可以由一個單元或裝置通過軟件或者硬件來實現(xiàn)。第一,第二等詞語用來表示名稱,而并不表示任何特定的順序。