本發(fā)明涉及視頻剪輯,尤其涉及一種基于大語言模型的智能視頻剪輯方法。
背景技術(shù):
1、伴隨計算機視覺、語音識別等技術(shù)的不斷發(fā)展,跨模態(tài)大模型的應用日趨成熟。這類模型能夠處理不同模態(tài)的數(shù)據(jù)(如文本、圖像、語音等),實現(xiàn)多模態(tài)信息的融合和交互,為人工智能應用提供了更加豐富的可能性。大語言模型從模型的規(guī)?;脠鼍暗亩鄻踊?、先進的技術(shù)創(chuàng)新,到跨模態(tài)大模型的深入發(fā)展,這些趨勢和所取得的成果不僅體現(xiàn)了人工智能領域取得的巨大進步,也預示著未來大模型技術(shù)將在更多領域展現(xiàn)其獨特的價值和能力。
2、在視音頻內(nèi)容的生產(chǎn)創(chuàng)作過程中,圖像所包含的信息往往不僅僅局限于視覺信息,還可能涉及其他模態(tài)的數(shù)據(jù),如文本、語音等。因此,通過跨模態(tài)數(shù)據(jù)融合技術(shù)來完成視音頻內(nèi)容的智能生產(chǎn),成為本發(fā)明的重要研究與改進方向。隨著媒體融合的深入發(fā)展,各媒體機構(gòu)都面臨著媒體內(nèi)容傳播渠道的變化,以及由此帶來的對視音頻內(nèi)容的海量需求。傳統(tǒng)的媒體機構(gòu),通過廣播電視等發(fā)布形式在固定的時間進行播出,而互聯(lián)網(wǎng)新媒體,內(nèi)容的發(fā)布是隨時隨地的,不再受傳統(tǒng)的播出頻道、播出時間的限制。受眾的觀看渠道、觀看方式也發(fā)生了顯著變化,通過互聯(lián)網(wǎng)獲取新聞資訊已成為占比最高的方式,同時由于觀眾大多數(shù)通過碎片化時間觀看,對短視頻的需求也顯著增加。
3、在互聯(lián)網(wǎng)新媒體飛速發(fā)展的背景下,對視音頻內(nèi)容的產(chǎn)量和生產(chǎn)效率,都提出了新的要求,但傳統(tǒng)的視音頻內(nèi)容生產(chǎn)方式已經(jīng)難以滿足當下的媒體融合發(fā)展的需求,各專業(yè)媒體機構(gòu)迫切的需要一種快速、高效且能保證內(nèi)容質(zhì)量的新生產(chǎn)工藝,來滿足融合媒體環(huán)境下的內(nèi)容生產(chǎn)需求。
技術(shù)實現(xiàn)思路
1、本發(fā)明提出一種基于大語言模型的智能視頻剪輯方法,所述方法基于大語言模型、跨模態(tài)分析等ai技術(shù),實現(xiàn)從文字稿件自動生成專業(yè)媒體內(nèi)容,并結(jié)合視聽語言的特點,對智能匹配的鏡頭進行判重、長度優(yōu)化等一系列處理,滿足專業(yè)媒體對視頻生產(chǎn)在效率和質(zhì)量方面的要求。
2、本發(fā)明是這樣實現(xiàn)的:一種基于大語言模型的智能視頻剪輯方法,所述方法步驟包括:
3、步驟1,對素材進行跨模態(tài)分析:素材入庫時自動由跨模態(tài)模型、智能語音等ai引擎對素材進行多維度的綜合智能分析;
4、步驟2,從機構(gòu)資源庫中選擇創(chuàng)作所需的素材或素材組;
5、步驟3,導入文字稿并進行改寫和分類:導入視頻文字稿并使用大語言模型進行視頻文字稿進行改寫成需要的文字稿,并分類標注同期聲和正文類型,
6、步驟4,根據(jù)文字稿的不同分類自動使用不同的智能匹配模型進行鏡頭匹配;
7、步驟5,對鏡頭的智能匹配結(jié)果進行調(diào)整,生成匹配候選鏡頭組:將每一句/段文字的匹配結(jié)果保存為一個鏡頭組,并按照相似度進行排序,定義鏡頭組中的最大鏡頭數(shù)量并將每一組鏡頭中匹配相似度最高的鏡頭作為首選結(jié)果提供給下一步處理;
8、步驟6,生成序列并根據(jù)視聽語言模型進行調(diào)整,包括根據(jù)鏡頭匹配結(jié)果中前后鏡頭在原素材中的時間先后順序,進行場景智能合并和使用視聽語言模型來進行對匹配鏡頭結(jié)果的分析和處理;
9、步驟7,生成配合和字幕,并添加配樂;
10、步驟8,完成智能剪輯,進行人工校對,以滿足最終發(fā)布的審核要求。
11、進一步的,所述步驟1中的綜合智能分析包括:
12、1.1,對視頻進行轉(zhuǎn)場幀檢測,并根據(jù)檢測結(jié)果,將連續(xù)視頻素材拆分為多個場景片段;
13、1.2,針對每一個視頻的場景,進行關(guān)鍵幀提?。?/p>
14、1.3,關(guān)鍵幀跨模態(tài)檢測、分析;
15、1.4,對關(guān)鍵幀跨模態(tài)分析,生成向量并保存到索引庫;
16、1.5,進行音頻同期聲分析,生成同期聲索引并保存到索引庫。
17、進一步的,所述步驟4,對于標記為同期聲的文字內(nèi)容,系統(tǒng)基于對文字稿件的語義理解,對同期聲索引進行相似度匹配,包括文字稿件與語音識別的文字結(jié)果不完全相同,以保證稿件中的書面文字與素材采訪、對話中的口語之間進行智能匹配;對于正文類型,系統(tǒng)基于文字的語義理解,從跨模態(tài)索引庫中,在向量維度將文字與視音頻內(nèi)容進行匹配,根據(jù)匹配的比對結(jié)果,形成相似度數(shù)據(jù),根據(jù)相似度來進行鏡頭的智能匹配。
18、進一步的,所述步驟6的根據(jù)鏡頭匹配結(jié)果中前后鏡頭在原素材中的時間先后順序,進行場景智能合并方法如下:
19、每一個鏡頭匹配結(jié)果中包含其原始素材id?clipid、入點in、出點out等信息;
20、假定連續(xù)多句/段同期聲文字的匹配鏡頭結(jié)果分別為?c0、?c1、c2……;其對應的原始素材id分別為clipid1、clipid2、clipid3……,對應的原始素材入點分別為in1、in2、in3……,?對應的原始素材出點分別為out1、out2、out3……;
21、首先對第一組的兩個鏡頭c1與c0進行素材信息比對,比較兩個鏡頭對應的原始素材id是否相同;
22、若clipid2與clipid1不同,則兩個鏡頭匹配結(jié)果來源于不同素材,無需進行場景合并,進入下一組素材c2與c1比對;
23、若clipid2與clipid1相同,則還需比較兩個鏡頭的連續(xù)性。比較鏡頭c1的素材入點in2與鏡頭c0的素材出點out1;
24、若in2—out1<t,t為系統(tǒng)預定義值,則表明第二個匹配鏡頭結(jié)果與第一個匹配鏡頭結(jié)果在時間上具備連續(xù)性,進行場景合并;
25、若in2—out1≥?t,t為系統(tǒng)預定義值,?則表明第二個匹配鏡頭結(jié)果與第一個匹配鏡頭結(jié)果在時間上不具備連續(xù)性,不進行場景合并;
26、以此類推,直到最后一個同期聲匹配鏡頭結(jié)果。
27、進一步的,所述步驟6中的使用視聽語言模型來進行對匹配鏡頭結(jié)果的分析和處理方法包括:將每一句/段文字的智能匹配的鏡頭結(jié)果進行判重;對智能匹配的鏡頭結(jié)果進行鏡頭長度的處理;對前后鏡頭的景別、攝法等視聽語音進行分析,與視聽語言模型中的蒙太奇句式相匹配;根據(jù)配音或同期聲的音頻長度,對視頻鏡頭的長度進行微調(diào);文稿中的每一句/段文字進行了鏡頭匹配之后,將鏡頭匹配的結(jié)果按照文稿或分鏡頭腳本的順序進行排列與拼接。
28、進一步的,所述步驟7,可通過語音識別與語音合成引擎,為剪輯結(jié)果的旁白部分生成配音,為正文和同期中的語音,自動生成對白字幕,系統(tǒng)提供的音樂可進行情感分類,根據(jù)需要,對生成的智能剪輯結(jié)果,選擇相對應的情感自動添加音樂。
29、進一步的,所述最大鏡頭數(shù)量小于等于10。
30、進一步的,所述步驟1.4對關(guān)鍵幀跨模態(tài)分析是:對視頻內(nèi)容按照每10幀抽取第1幀作為1個關(guān)鍵幀,對抽幀之后的關(guān)鍵幀進行向量分析,并將前后兩個關(guān)鍵幀的向量進行差值計算;
31、若每兩個連續(xù)幀之間的向量差值?均小于預設值?,則認為該場景無需進一步拆分,將分析的每個關(guān)鍵幀的向量存入索引庫進行保存;
32、若前后兩個連續(xù)關(guān)鍵幀之間的差值大于等于預設值?,則增加該兩個關(guān)鍵幀之間的中間幀該片段中的第6幀作為關(guān)鍵幀,將其分析結(jié)果向量進行索引。
33、本發(fā)明的有益效果是:
34、(1)針對專業(yè)媒體機構(gòu)的特點而設計,專業(yè)媒體機構(gòu)具有大量自有的視音頻素材資源,并建立了自己的機構(gòu)資源庫?;跈C構(gòu)資源庫素材進行智能剪輯,可保證其生成內(nèi)容的真實性、可靠性及合法性,同時避免引用互聯(lián)網(wǎng)素材可能導致的版權(quán)糾紛。
35、(2)采用業(yè)內(nèi)首創(chuàng)的智能剪輯模式,將專業(yè)媒體稿件按照傳統(tǒng)視頻內(nèi)容生產(chǎn)的特點,分為正文、同期等不同分類,并根據(jù)不同分類使用不同的ai模型智能匹配,提高智能剪輯的準確度。
36、(3)對同期聲匹配,通過大語言模型進行語義匹配,保證書面語、口語之間的匹配度。本發(fā)明針對同期聲進行了專門的語義匹配模式設計,不同于傳統(tǒng)的“文字—語音”匹配模式,對文字內(nèi)容先由大語言模型進行語義理解,然后根據(jù)語義理解的向量與同期聲的音頻向量進行匹配,保證了文字到語音的匹配寬容度;對于專業(yè)媒體機構(gòu),其稿件往往采用較為正式的書面語,而在采訪和日常對話中,難免會出現(xiàn)口語表達,通過語義匹配模式,不但解決了書面語文字到口語語音的匹配難題,還能夠智能判斷前后語句的連貫性,保證通過文字匹配的結(jié)果中盡可能避免畫面的跳變。
37、(4)通過對同期聲匹配結(jié)果進行智能合并算法,對同期聲智能匹配的鏡頭結(jié)果進行了智能場景合并,可有效避免按單獨的文字進行聲音匹配帶來的鏡頭畫面跳變、不連續(xù)等問題。
38、(5)在大語言模型和跨模態(tài)引擎的基礎上進行視音頻的智能鏡頭匹配,同時還融合了視聽語言模型,對鏡頭之前的前后銜接進行了智能化處理,既避免了在同一節(jié)目中使用重復鏡頭,還可根據(jù)觀眾觀看的習慣特點,綜合鏡頭的時長、景別、場景等信息,進行二次處理,形成最終的智能剪輯結(jié)果。
39、(6)在通過ai智能生成剪輯結(jié)果的同時,還自動生成了一系列與該句/段文字內(nèi)容匹配度較高的匹配候選鏡頭組,供編輯人員對智能編輯結(jié)果進行人工的快速調(diào)整與修改。
40、(7)本智能剪輯系統(tǒng)所采用的核心模型大語言模型及跨模態(tài)模型支持本地私有化部署,可保證在進行視頻的智能生產(chǎn)創(chuàng)作過程中,原始素材內(nèi)容不會外流,保證數(shù)據(jù)安全性。
41、本發(fā)明可廣泛應用于新媒體短視頻、事件播報類視頻新聞、電視節(jié)目的二次創(chuàng)作、影視劇的片花和集錦等類型節(jié)目的智能生產(chǎn);通過ai智能技術(shù)的應用,為各媒體機構(gòu)和專業(yè)內(nèi)容生產(chǎn)者提供全新的視頻生產(chǎn)方式,滿足互聯(lián)網(wǎng)時代,視頻推送制下對海量視頻內(nèi)容的生產(chǎn)要求。節(jié)省編輯人員瀏覽素材、從素材中挑選所需鏡頭的時間以及從采訪素材中扒詞、為成片拍唱詞的時間;借助ai配音,還可省去專業(yè)配音員配音的環(huán)節(jié),大幅度提高事件報道類內(nèi)容的生產(chǎn)效率。對于成品節(jié)目的二次創(chuàng)作,本發(fā)明可對成品節(jié)目進行智能分析,選取成片節(jié)目中適合互聯(lián)網(wǎng)平臺的興趣點進行提取和轉(zhuǎn)寫,生成新的短視頻稿件或腳本。并智能生成基于新的興趣點的短視頻版本,滿足面向不同觀眾群體進行創(chuàng)作和推送的新需求。