本發(fā)明涉及信息技術(shù)領(lǐng)域,尤其涉及信息技術(shù)領(lǐng)域中分析視頻文件的方法和裝置。
背景技術(shù):隨著網(wǎng)絡(luò)技術(shù)和信息技術(shù)的快速發(fā)展,大量的信息和資訊涌入我們的視線。圖像、音頻、視頻等采用多媒體數(shù)據(jù)的表達(dá)方式,使得新聞的點(diǎn)擊率得到了大幅的提高。多媒體數(shù)據(jù)正逐漸取代文字,成為新聞的主要載體。面對(duì)海量的新聞視頻,人們感到了“信息過載”的壓力。于是,人們開始關(guān)注如何從海量的視頻數(shù)據(jù)中找到自己感興趣的信息。這種需求促使了信息檢索、個(gè)性化推薦以及數(shù)據(jù)挖掘等技術(shù)的發(fā)展。電視新聞節(jié)目是新聞視頻的主要來源之一。新聞視頻的分析和應(yīng)用越來越引起業(yè)內(nèi)的關(guān)注。目前新聞視頻分析的主要內(nèi)容包括:新聞拆條、新聞搜索、新聞推薦、潛在熱點(diǎn)事件發(fā)現(xiàn)、新聞事件跟蹤和輿情監(jiān)控。在新聞視頻分析的第一步即新聞拆條中,生成的新聞視頻的語義信息可以作為拆條得到的新聞事件的元數(shù)據(jù),以便于后續(xù)的新聞搜索、新聞事件跟蹤等過程的分析與應(yīng)用。新聞拆條針對(duì)的新聞視頻集中了多個(gè)類型的新聞事件的視頻,比如新聞聯(lián)播和各地區(qū)的電視新聞節(jié)目。這種不同類型、不同事件組合在一起的新聞方式不適合信息的快速檢索。因此,將新聞視頻按不同事件劃分成多個(gè)新聞視頻片段的需求變得非常迫切。將新聞視頻按不同事件進(jìn)行劃分俗稱為“新聞拆條”或“碎片化”,即利用新聞視頻的音頻和視頻特征,將新聞視頻按不同事件進(jìn)行分割。目前常用的音頻和視頻特征包括主持人鏡頭片段(也稱為“口播幀”)、字幕片段、鏡頭切換片段和靜音片段。目前,通過主持人鏡頭檢測(cè)、字幕檢測(cè)、靜音檢測(cè)和鏡頭切換檢測(cè)等方法能夠得到大量的分割時(shí)間點(diǎn),但這些分割時(shí)間點(diǎn)與新聞事件分割點(diǎn)不是一對(duì)一的關(guān)系,更具體地說,這些分割時(shí)間點(diǎn)相對(duì)于新聞事件分割點(diǎn)來說是一 種“過分割”,即新聞事件分割點(diǎn)集是前述分割時(shí)間點(diǎn)的一個(gè)子集。通常而言,主持人在播報(bào)新聞時(shí),在敘述兩個(gè)新聞事件時(shí)停頓的時(shí)間相比講述同一個(gè)新聞事件中間停頓的時(shí)間略長(zhǎng)。由此,業(yè)內(nèi)通常檢測(cè)新聞視頻的靜音片段,將靜音片段的中間點(diǎn)作為靜音點(diǎn),并由此將該靜音點(diǎn)確定為新聞事件分割點(diǎn)。但由于該方法中的靜音點(diǎn)和事件分割點(diǎn)并沒有必然聯(lián)系,因此該方法不能準(zhǔn)確地獲取事件分割點(diǎn)。
技術(shù)實(shí)現(xiàn)要素:本發(fā)明實(shí)施例提供了一種分析視頻文件的方法和裝置,能夠準(zhǔn)確地確定事件分割點(diǎn)。一方面,本發(fā)明實(shí)施例提供了一種分析視頻文件的方法,該方法包括:獲取視頻文件的音頻數(shù)據(jù)和視頻數(shù)據(jù);根據(jù)該音頻數(shù)據(jù),確定該視頻文件的至少一個(gè)靜音點(diǎn);根據(jù)該視頻數(shù)據(jù)獲取該視頻文件的判斷片段,該判斷片段包括該視頻文件的主持人鏡頭片段、標(biāo)題片段和字幕片段中的至少一種片段;根據(jù)該判斷片段,在該至少一個(gè)靜音點(diǎn)中確定該視頻文件的事件分割點(diǎn)。另一方面,本發(fā)明實(shí)施例提供了一種分析視頻文件的裝置,該裝置包括:第一獲取模塊,用于獲取視頻文件的音頻數(shù)據(jù)和視頻數(shù)據(jù);第一確定模塊,用于根據(jù)該第一獲取模塊獲取的該音頻數(shù)據(jù),確定該視頻文件的至少一個(gè)靜音點(diǎn);第二獲取模塊,用于根據(jù)該第一獲取模塊獲取的該視頻數(shù)據(jù),獲取該視頻文件的判斷片段,該判斷片段包括該視頻文件的主持人鏡頭片段、標(biāo)題片段和字幕片段中的至少一種片段;第二確定模塊,用于根據(jù)該第二獲取模塊獲取的該判斷片段,在該第一確定模塊確定的該至少一個(gè)靜音點(diǎn)中,確定該視頻文件的事件分割點(diǎn)?;谏鲜黾夹g(shù)方案,本發(fā)明實(shí)施例的分析視頻文件的方法和裝置,通過獲取視頻文件的至少一個(gè)靜音點(diǎn)和判斷片段,并根據(jù)該判斷片段在該至少一個(gè)靜音點(diǎn)中確定該視頻文件的事件分割點(diǎn),能夠準(zhǔn)確地確定事件分割點(diǎn),從而能夠準(zhǔn)確地對(duì)視頻文件進(jìn)行事件分割,并由此能夠提高視頻編目的效率和準(zhǔn)確性。附圖說明為了更清楚地說明本發(fā)明實(shí)施例的技術(shù)方案,下面將對(duì)本發(fā)明實(shí)施例中 所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面所描述的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1是根據(jù)本發(fā)明實(shí)施例的分析視頻文件的方法的示意性流程圖。圖2是根據(jù)本發(fā)明實(shí)施例的分析視頻文件的方法的另一示意性流程圖。圖3是根據(jù)本發(fā)明實(shí)施例的確定靜音點(diǎn)的方法的示意性流程圖。圖4是根據(jù)本發(fā)明實(shí)施例的確定靜音點(diǎn)的方法的另一示意性流程圖。圖5是根據(jù)本發(fā)明實(shí)施例的確定靜音點(diǎn)的方法的再一示意性流程圖。圖6是根據(jù)本發(fā)明實(shí)施例的分析視頻文件的方法的再一示意性流程圖。圖7是根據(jù)本發(fā)明實(shí)施例的分析視頻文件的裝置的示意性框圖。圖8是根據(jù)本發(fā)明實(shí)施例的分析視頻文件的裝置的另一示意性框圖。圖9是根據(jù)本發(fā)明實(shí)施例的第一確定模塊的示意性框圖。圖10是根據(jù)本發(fā)明實(shí)施例的第一確定模塊的另一示意性框圖。圖11是根據(jù)本發(fā)明實(shí)施例的第五確定單元的示意性框圖。具體實(shí)施方式下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明的一部分實(shí)施例,而不是全部實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)的前提下所獲得的所有其他實(shí)施例,都應(yīng)屬于本發(fā)明保護(hù)的范圍。圖1示出了根據(jù)本發(fā)明實(shí)施例的分析視頻文件的方法100的示意性流程圖。如圖1所示,該方法100包括:S110,獲取視頻文件的音頻數(shù)據(jù)和視頻數(shù)據(jù);S120,根據(jù)該音頻數(shù)據(jù),確定該視頻文件的至少一個(gè)靜音點(diǎn);S130,根據(jù)該視頻數(shù)據(jù)獲取該視頻文件的判斷片段,該判斷片段包括該視頻文件的主持人鏡頭片段、標(biāo)題片段和字幕片段中的至少一種片段;S140,根據(jù)該判斷片段,在該至少一個(gè)靜音點(diǎn)中確定該視頻文件的事件分割點(diǎn)。分析視頻文件的裝置可以根據(jù)視頻文件的音頻數(shù)據(jù)和視頻數(shù)據(jù),獲取該視頻文件的至少一個(gè)靜音點(diǎn)以及判斷片段,該判斷片段可以包括該視頻文件的主持人鏡頭片段、標(biāo)題片段和字幕片段中的至少一種片段,由此,該裝置 可以根據(jù)該判斷片段,在該至少一個(gè)靜音點(diǎn)中確定該視頻文件的事件分割點(diǎn)。因此,本發(fā)明實(shí)施例的分析視頻文件的方法,通過獲取視頻文件的至少一個(gè)靜音點(diǎn)和判斷片段,并根據(jù)該判斷片段在該至少一個(gè)靜音點(diǎn)中確定該視頻文件的事件分割點(diǎn),能夠準(zhǔn)確地確定事件分割點(diǎn),從而能夠準(zhǔn)確地對(duì)視頻文件進(jìn)行事件分割,并由此能夠提高視頻編目的效率和準(zhǔn)確性。在S110中,對(duì)于需要分析的視頻文件,可以通過對(duì)該視頻文件進(jìn)行音視頻分離,獲取該視頻文件的音頻數(shù)據(jù)和視頻數(shù)據(jù)。例如,可以利用視頻解碼器將視頻文件進(jìn)行音視頻分離。應(yīng)理解,在本發(fā)明實(shí)施例中,視頻文件可以包括各種類型的視頻文件,例如新聞視頻、娛樂視頻、科教視頻等。為了更好地示出本發(fā)明,在下文的描述中,將以視頻文件包括新聞視頻為例進(jìn)行說明,但本發(fā)明實(shí)施例并不限于此。在S120中,根據(jù)該音頻數(shù)據(jù),可以確定該視頻文件包括的至少一個(gè)靜音點(diǎn)。例如,可以對(duì)與主持人鏡頭片段相應(yīng)的音頻數(shù)據(jù)進(jìn)行靜音分析,檢測(cè)其中可能包括事件分割點(diǎn)的靜音點(diǎn);也可以對(duì)與非文字片段相應(yīng)的音頻數(shù)據(jù)進(jìn)行靜音分析,確定其中可能包括事件分割點(diǎn)的靜音點(diǎn)。當(dāng)然,也可以對(duì)其它音頻數(shù)據(jù)進(jìn)行靜音分析并確定靜音點(diǎn)。在S130中,根據(jù)該視頻數(shù)據(jù)可以獲取該視頻文件的判斷片段,其中該判斷片段可以包括該視頻文件的主持人鏡頭片段、標(biāo)題片段和字幕片段中的至少一種片段。應(yīng)理解,該判斷片段也可以包括其它用于確定靜音點(diǎn)是否為事件分割點(diǎn)的片段,例如非主持人鏡頭片段、鏡頭切換片段等。在本發(fā)明實(shí)施例中,可選地,基于人臉識(shí)別方法,在該視頻數(shù)據(jù)中獲取該視頻文件的主持人鏡頭片段。例如,可以將視頻文件涉及到的主持人的人臉信息注冊(cè)到數(shù)據(jù)庫(kù),并利用人臉識(shí)別技術(shù)從視頻數(shù)據(jù)中獲取主持人鏡頭片段。應(yīng)理解,在本發(fā)明實(shí)施例中,視頻數(shù)據(jù)中包括主持人鏡頭的片段稱為主持人鏡頭片段,不包括主持人鏡頭的片段可以稱之為非主持人鏡頭片段或現(xiàn)場(chǎng)鏡頭片段。因此,本發(fā)明實(shí)施例利用主持人人臉識(shí)別的方法檢測(cè)主持人鏡頭片段,與利用主持人口播幀模板或其他結(jié)構(gòu)性信息提取主持人鏡頭片段的方法相比,具有更高的普適性和準(zhǔn)確率,并且檢測(cè)率更高。在本發(fā)明實(shí)施例中,可以利用文字識(shí)別技術(shù)將視頻數(shù)據(jù)分為文字片段和非文字片段,其中文字片段可以包括標(biāo)題片段和字幕片段。例如,可以從視頻數(shù)據(jù)中提取文字信息,并利用文字匹配算法將相同文字內(nèi)容的片段歸納為文字片段,視頻數(shù)據(jù)中沒有文字的片段稱為非文字片段。通過對(duì)文字片段進(jìn)行分析,可以確定文字片段包括的標(biāo)題片段和字幕片段。例如,對(duì)文字片段中檢測(cè)到的文字進(jìn)行聚類,聚類時(shí)主要利用顏色和尺寸這兩種低層圖像特征將文本聚為兩類,根據(jù)字體較大的一類為標(biāo)題,字體較小的一類為說話人的字幕,可以確定標(biāo)題片段和字幕片段。其中,標(biāo)題分段可以用來確定事件分割點(diǎn),而字幕片段可以用于去除過分割中涉及到的靜音點(diǎn)。因此,本發(fā)明實(shí)施例通過對(duì)文字信息進(jìn)行聚類,將文字信息分為標(biāo)題和說話人字幕兩類,能夠排除自動(dòng)編目系統(tǒng)中因?yàn)檎f話人字幕造成的事件被過分的情況,從而能夠提高對(duì)視頻文件進(jìn)行事件分割的準(zhǔn)確性,并能夠提高視頻編目的效率和準(zhǔn)確性。在S140中,可以綜合考慮該判斷片段包括的視頻文件的主持人鏡頭片段、標(biāo)題片段和字幕片段中的至少一種片段,在該至少一個(gè)靜音點(diǎn)中確定該視頻文件的事件分割點(diǎn)。在本發(fā)明實(shí)施例中,分析視頻文件的裝置還可以根據(jù)預(yù)定規(guī)則,確定視頻文件的事件分割點(diǎn),由此確定事件的開始和結(jié)束點(diǎn)。例如,該預(yù)定規(guī)則為:(1)根據(jù)主持人鏡頭片段確定的靜音點(diǎn)為前一個(gè)事件的結(jié)束點(diǎn)和下一個(gè)事件的開始點(diǎn);(2)主持人鏡頭片段隨后的標(biāo)題片段與該主持人鏡頭片段屬于同一個(gè)事件;(3)標(biāo)題片段兩側(cè)的靜音點(diǎn)與該標(biāo)題片段屬于同一個(gè)事件;(4)主持人鏡頭片段中沒有靜音點(diǎn)的,該主持人鏡頭片段為一個(gè)故事的開始點(diǎn),該主持人鏡頭片段的前一幀為上一個(gè)故事的結(jié)束點(diǎn)。應(yīng)理解,分析視頻文件的裝置也可以綜合考慮該判斷片段包括的視頻文件的主持人鏡頭片段、標(biāo)題片段和字幕片段中的至少一種片段,在該至少一個(gè)靜音點(diǎn)中排除不可能為事件分割點(diǎn)的靜音點(diǎn)。例如,分析視頻文件的裝置可以根據(jù)判斷片段包括的標(biāo)題片段,將標(biāo)題片段中的所有分割點(diǎn)排除在事件分割點(diǎn)之外;例如,也可以將主持人鏡頭片段與隨后的現(xiàn)場(chǎng)鏡頭片段中間的靜音點(diǎn)排除在事件分割點(diǎn)之外;例如,也可以將標(biāo)題內(nèi)容相似的相鄰標(biāo)題片段之間的靜音點(diǎn)排除在事件分割點(diǎn)之外,將與鏡頭沒有發(fā)生切換的靜音片段包括的靜音點(diǎn)排除在事件分割點(diǎn)之外等。應(yīng)理解,本發(fā)明實(shí)施例僅以上述預(yù)定規(guī)則和例子為例進(jìn)行說明,但本發(fā)明實(shí)施例并不限于此,分析視頻文件的裝置還可以基于其他因素,確定視頻文件的事件分割點(diǎn)。因此,本發(fā)明實(shí)施例的分析視頻文件的方法,通過獲取視頻文件的至少一個(gè)靜音點(diǎn)和判斷片段,并根據(jù)該判斷片段在該至少一個(gè)靜音點(diǎn)中確定該視頻文件的事件分割點(diǎn),能夠準(zhǔn)確地確定事件分割點(diǎn),從而能夠準(zhǔn)確地對(duì)視頻文件進(jìn)行事件分割,并由此能夠提高視頻編目的效率和準(zhǔn)確性。在本發(fā)明實(shí)施例中,可選地,如圖2所示,分析視頻文件的該方法100還包括:S150,根據(jù)該事件分割點(diǎn),確定該視頻文件包括的事件片段;S160,根據(jù)該視頻文件獲取與該事件片段相應(yīng)的事件信息,該事件信息包括主持人信息、被訪問人信息、標(biāo)題信息和字幕信息中的至少一種;S170,將該事件信息確定為該事件片段的元數(shù)據(jù)。在S150中,可以將事件分割點(diǎn)包括的起始分割點(diǎn)和結(jié)束分割點(diǎn)之間的視頻文件確定為事件片段。在S160中,通過人臉識(shí)別技術(shù)檢測(cè)主持人鏡頭片段,可以獲取與該事件片段相應(yīng)的主持人人臉信息,該主持人信息例如包括主持人姓名、主持人人臉信息等。類似地,通過人臉識(shí)別技術(shù)分析非主持人鏡頭片段或現(xiàn)場(chǎng)鏡頭片段,可以獲取被采訪人的人臉信息或特征。另外,通過文字識(shí)別技術(shù)可以從視頻數(shù)據(jù)中提取文字信息,并且通過對(duì)文字信息進(jìn)行進(jìn)一步的分析,可以獲取標(biāo)題信息和字幕信息。在S170中,可以將與事件片段相應(yīng)的主持人信息、被訪問人信息、標(biāo)題信息和字幕信息中的至少一種,確定為該事件片段的元數(shù)據(jù)。因此,本發(fā)明實(shí)施例的分析視頻文件的方法,通過獲取視頻文件的至少一個(gè)靜音點(diǎn)和判斷片段,并根據(jù)該判斷片段在該至少一個(gè)靜音點(diǎn)中確定該視頻文件的事件分割點(diǎn),能夠準(zhǔn)確地確定事件分割點(diǎn),從而能夠準(zhǔn)確地對(duì)視頻文件進(jìn)行事件分割,并由此能夠提高視頻編目的效率和準(zhǔn)確性。另一方面,本發(fā)明實(shí)施例的分析視頻文件的方法,通過將主持人信息、被訪問人信息、標(biāo)題信息、字幕信息等語義信息作為事件片段的元數(shù)據(jù),便于隨后進(jìn)行的視頻檢索、推薦以及故事跟蹤等應(yīng)用,能夠避免利用音視頻低層語義信息,不能為后續(xù)視頻分析提供充足的元數(shù)據(jù)的問題。在本發(fā)明實(shí)施例中,可以對(duì)與主持人鏡頭片段相應(yīng)的音頻數(shù)據(jù)進(jìn)行靜音分析,檢測(cè)其中可能包括事件分割點(diǎn)的靜音點(diǎn);也可以對(duì)與非文字片段相應(yīng)的音頻數(shù)據(jù)進(jìn)行靜音分析,確定其中可能包括事件分割點(diǎn)的靜音點(diǎn)。下面將結(jié)合圖3至圖5,分別對(duì)上述兩種情況進(jìn)行描述。圖3示出了根據(jù)本發(fā)明實(shí)施例的確定靜音點(diǎn)的方法200的示意性流程圖。如圖3所示,該方法200包括:S210,根據(jù)該音頻數(shù)據(jù),獲取與該視頻數(shù)據(jù)包括的非文字片段相應(yīng)的非文字片段音頻數(shù)據(jù);S220,在該非文字片段音頻數(shù)據(jù)中確定第一靜音片段;S230,在與該第一靜音片段相應(yīng)的視頻數(shù)據(jù)中,確定鏡頭切換點(diǎn);S240,將該鏡頭切換點(diǎn)確定為該第一靜音片段的靜音點(diǎn)。通過對(duì)非文字片段對(duì)應(yīng)的音頻數(shù)據(jù)進(jìn)行靜音片段檢測(cè),以及對(duì)靜音片段對(duì)應(yīng)的視頻數(shù)據(jù)進(jìn)行鏡頭切換檢測(cè),可以將靜音片段中出現(xiàn)的鏡頭切換點(diǎn)確定為靜音點(diǎn)。考慮到事件播放時(shí),相鄰事件之間會(huì)有一段靜音,因此,此處得到的靜音點(diǎn)包括事件分割點(diǎn)。具體而言,在本發(fā)明實(shí)施例中,靜音檢測(cè)處理的對(duì)象是非文字片段對(duì)應(yīng)的音頻數(shù)據(jù),并且本發(fā)明實(shí)施例將靜音檢測(cè)和視頻的鏡頭分割相結(jié)合。當(dāng)檢測(cè)到靜音時(shí),啟動(dòng)相應(yīng)片段視頻數(shù)據(jù)的鏡頭切換檢測(cè),當(dāng)連續(xù)靜音幀的長(zhǎng)度超過事先設(shè)定的最小靜音長(zhǎng)度時(shí),檢測(cè)到的鏡頭分割點(diǎn)為靜音點(diǎn)。否則忽略該靜音片段。因此,本發(fā)明實(shí)施例將靜音檢測(cè)和鏡頭分割結(jié)合使用,不僅能夠提供準(zhǔn)確的事件分割點(diǎn),而且還能夠減少對(duì)非靜音片段進(jìn)行鏡頭分割檢測(cè)的計(jì)算量。圖4示出了根據(jù)本發(fā)明實(shí)施例的確定靜音點(diǎn)的另一方法300的示意性流程圖。如圖4所示,該方法300包括:S310,根據(jù)該音頻數(shù)據(jù),獲取與該主持人鏡頭片段相應(yīng)的主持人鏡頭片段音頻數(shù)據(jù);S320,在該主持人鏡頭片段音頻數(shù)據(jù)中確定第二靜音片段;S330,在該第二靜音片段中確定第三靜音片段,該第三靜音片段包括的靜音片段的長(zhǎng)度、比該第二靜音片段中除該第三靜音片段之外的靜音片段的長(zhǎng)度長(zhǎng);S340,將該第三靜音片段中各靜音片段的中點(diǎn)確定為該靜音點(diǎn)??蛇x地,如圖5所示,在該第二靜音片段中確定第三靜音片段的方法330,包括:S331,確定該第二靜音片段包括的所有靜音片段的長(zhǎng)度的平均值;S332,將該第二靜音片段中長(zhǎng)度大于或等于該平均值的靜音片段確定為該第三靜音片段。應(yīng)理解,本發(fā)明實(shí)施例也可以采用其它方法或基于其它準(zhǔn)則,確定第三靜音片段,例如,將第二靜音片段中長(zhǎng)度最長(zhǎng)的前30%的靜音片段確定為第三靜音片段。例如,在主持人鏡頭片段包含多個(gè)事件的情況下,主持人通常先簡(jiǎn)短總結(jié)上一個(gè)事件,隨后開始下一個(gè)事件。本發(fā)明實(shí)施例通過對(duì)與主持人鏡頭片段對(duì)應(yīng)的音頻片段進(jìn)行靜音片段檢測(cè),并將片段長(zhǎng)度超過閾值的確定為靜音片段,以及記錄各靜音片段的長(zhǎng)度,將片段長(zhǎng)度遠(yuǎn)遠(yuǎn)大于均值的靜音片段的中點(diǎn)確定為靜音點(diǎn),能夠極大的減少人工勞動(dòng)量,提高視頻拆條的自動(dòng)化程度,并避免主持人鏡頭片段中包含多個(gè)故事時(shí)出現(xiàn)的錯(cuò)分情況。因此,本發(fā)明實(shí)施例的分析視頻文件的方法,通過獲取視頻文件的至少一個(gè)靜音點(diǎn)和判斷片段,并根據(jù)該判斷片段在該至少一個(gè)靜音點(diǎn)中確定該視頻文件的事件分割點(diǎn),能夠準(zhǔn)確地確定事件分割點(diǎn),從而能夠準(zhǔn)確地對(duì)視頻文件進(jìn)行事件分割,并由此能夠提高視頻編目的效率和準(zhǔn)確性。下面將結(jié)合圖6,以新聞視頻為例,對(duì)根據(jù)本發(fā)明實(shí)施例的分析視頻文件的方法400進(jìn)行詳細(xì)描述。如圖6所示,該方法400包括:S410,對(duì)新聞視頻進(jìn)行音視頻分離,獲得音頻數(shù)據(jù)和視頻數(shù)據(jù);S420,將視頻數(shù)據(jù)分為主持人鏡頭片段和現(xiàn)場(chǎng)鏡頭片段,然后從現(xiàn)場(chǎng)鏡頭片段中利用人臉識(shí)別技術(shù)提取出事件中涉及到的其他人物,并且還可以將檢測(cè)到的被采訪人的人臉信息和人臉特征寫入數(shù)據(jù)庫(kù);S430,利用文字識(shí)別技術(shù)從視頻數(shù)據(jù)中提取文字信息,利用文字匹配算法將相同文字內(nèi)容的片段歸納為文字片段,沒有文字的片段為非文字片段。并且通過對(duì)文字片段檢測(cè)到的文字進(jìn)行聚類,聚類時(shí)主要利用顏色和尺寸這兩種低層圖像特征將文本聚為兩類,字體較大的一類為標(biāo)題,較小的一類為說話人的字幕,從而確定標(biāo)題片段和字幕片段,其中每一類計(jì)算字體顏色的 高斯模型,相同出處的新聞視頻計(jì)算一次模型即可;S440,對(duì)與非文字片段對(duì)應(yīng)的音頻數(shù)據(jù)進(jìn)行靜音片段檢測(cè),對(duì)靜音片段對(duì)應(yīng)的視頻數(shù)據(jù)進(jìn)行鏡頭切換檢測(cè),靜音片段中出現(xiàn)的鏡頭切換點(diǎn)為靜音點(diǎn);S450,對(duì)與主持人鏡頭片段對(duì)應(yīng)的音頻數(shù)據(jù)進(jìn)行靜音片段檢測(cè),對(duì)靜音片段的長(zhǎng)度進(jìn)行聚類分析,確定長(zhǎng)度較長(zhǎng)的靜音片段,并將該靜音片段的中點(diǎn)作為靜音點(diǎn);S460,將靜音點(diǎn)作為新聞事件分割點(diǎn)的父集,綜合考慮靜音點(diǎn)附近的主持人鏡頭片段、標(biāo)題片段、字幕片段等,得出新聞事件分割點(diǎn);S470,將檢測(cè)得到的主持人信息、被采訪人信息、文字信息等內(nèi)容作為該新聞事件的語義信息,并可以作為元數(shù)據(jù)存儲(chǔ)在數(shù)據(jù)庫(kù)中。應(yīng)理解,在本發(fā)明的各種實(shí)施例中,上述各過程的序號(hào)的大小并不意味著執(zhí)行順序的先后,各過程的執(zhí)行順序應(yīng)以其功能和內(nèi)在邏輯確定,而不應(yīng)對(duì)本發(fā)明實(shí)施例的實(shí)施過程構(gòu)成任何限定。因此,本發(fā)明實(shí)施例的分析視頻文件的方法,通過獲取視頻文件的至少一個(gè)靜音點(diǎn)和判斷片段,并根據(jù)該判斷片段在該至少一個(gè)靜音點(diǎn)中確定該視頻文件的事件分割點(diǎn),能夠準(zhǔn)確地確定事件分割點(diǎn),從而能夠準(zhǔn)確地對(duì)視頻文件進(jìn)行事件分割,并由此能夠提高視頻編目的效率和準(zhǔn)確性。上文中結(jié)合圖1至圖6,詳細(xì)描述了根據(jù)本發(fā)明實(shí)施例的分析視頻文件的方法,下面將結(jié)合圖7至圖11,描述根據(jù)本發(fā)明實(shí)施例的分析視頻文件的裝置。圖7示出了根據(jù)本發(fā)明實(shí)施例的分析視頻文件的裝置500的示意性框圖。如圖7所示,該裝置500包括:第一獲取模塊510,用于獲取視頻文件的音頻數(shù)據(jù)和視頻數(shù)據(jù);第一確定模塊520,用于根據(jù)該第一獲取模塊510獲取的該音頻數(shù)據(jù),確定該視頻文件的至少一個(gè)靜音點(diǎn);第二獲取模塊530,用于根據(jù)該第一獲取模塊510獲取的該視頻數(shù)據(jù),獲取該視頻文件的判斷片段,該判斷片段包括該視頻文件的主持人鏡頭片段、標(biāo)題片段和字幕片段中的至少一種片段;第二確定模塊540,用于根據(jù)該第二獲取模塊530獲取的該判斷片段,在該第一確定模塊520確定的該至少一個(gè)靜音點(diǎn)中,確定該視頻文件的事件 分割點(diǎn)。因此,本發(fā)明實(shí)施例的分析視頻文件的裝置,通過獲取視頻文件的至少一個(gè)靜音點(diǎn)和判斷片段,并根據(jù)該判斷片段在該至少一個(gè)靜音點(diǎn)中確定該視頻文件的事件分割點(diǎn),能夠準(zhǔn)確地確定事件分割點(diǎn),從而能夠準(zhǔn)確地對(duì)視頻文件進(jìn)行事件分割,并由此能夠提高視頻編目的效率和準(zhǔn)確性。在本發(fā)明實(shí)施例中,可選地,如圖8所示,該裝置500還包括:第三確定模塊550,用于根據(jù)該第二確定模塊540確定的該事件分割點(diǎn),確定該視頻文件包括的事件片段;第三獲取模塊560,用于根據(jù)該視頻文件獲取與該事件片段相應(yīng)的事件信息,該事件信息包括主持人信息、被訪問人信息、標(biāo)題信息和字幕信息中的至少一種;第四確定模塊570,用于將該第三獲取模塊560獲取的該事件信息,確定為該第三確定模塊550確定的該事件片段的元數(shù)據(jù)。可選地,如圖9所示,該第一確定模塊520包括:第一獲取單元521,用于根據(jù)該第一獲取模塊510獲取的該音頻數(shù)據(jù),獲取與該視頻數(shù)據(jù)包括的非文字片段相應(yīng)的非文字片段音頻數(shù)據(jù);第一確定單元522,用于在該第一獲取單元521獲取的該非文字片段音頻數(shù)據(jù)中,確定第一靜音片段;第二確定單元523,用于在與該第一確定單元522確定的該第一靜音片段相應(yīng)的視頻數(shù)據(jù)中,確定鏡頭切換點(diǎn);第三確定單元524,用于將該第二確定單元523確定的該鏡頭切換點(diǎn),確定為該第一靜音片段的靜音點(diǎn)??蛇x地,如圖10所示,該第一確定模塊520包括:第二獲取單元525,用于根據(jù)該音頻數(shù)據(jù),獲取與該主持人鏡頭片段相應(yīng)的主持人鏡頭片段音頻數(shù)據(jù);第四確定單元526,用于在該第二獲取單元525獲取的該主持人鏡頭片段音頻數(shù)據(jù)中確定第二靜音片段;第五確定單元527,用于在該第四確定單元526確定的該第二靜音片段中,確定第三靜音片段,該第三靜音片段包括的靜音片段的長(zhǎng)度、比該第二靜音片段中除該第三靜音片段之外的靜音片段的長(zhǎng)度長(zhǎng);第六確定單元528,用于將該第五確定單元527確定的該第三靜音片段 中各靜音片段的中點(diǎn)確定為該靜音點(diǎn)??蛇x地,如圖11所示,該第五確定單元527包括:第一確定子單元5271,用于確定該第二靜音片段包括的所有靜音片段的長(zhǎng)度的平均值;第二確定子單元5272,用于將該第二靜音片段中長(zhǎng)度大于或等于該平均值的靜音片段確定為該第三靜音片段。在本發(fā)明實(shí)施例中,可選地,該第二獲取模塊530還用于:基于人臉識(shí)別方法,在該視頻數(shù)據(jù)中獲取該視頻文件的主持人鏡頭片段。應(yīng)理解,根據(jù)本發(fā)明實(shí)施例的分析視頻文件的裝置500可對(duì)應(yīng)于本發(fā)明實(shí)施例中的分析視頻文件的裝置,并且裝置500中的各個(gè)模塊的上述和其它操作和/或功能分別為了實(shí)現(xiàn)圖1至圖6中的各個(gè)方法100至400的相應(yīng)流程,為了簡(jiǎn)潔,在此不再贅述。因此,本發(fā)明實(shí)施例的分析視頻文件的裝置,通過獲取視頻文件的至少一個(gè)靜音點(diǎn)和判斷片段,并根據(jù)該判斷片段在該至少一個(gè)靜音點(diǎn)中確定該視頻文件的事件分割點(diǎn),能夠準(zhǔn)確地確定事件分割點(diǎn),從而能夠準(zhǔn)確地對(duì)視頻文件進(jìn)行事件分割,并由此能夠提高視頻編目的效率和準(zhǔn)確性。本領(lǐng)域普通技術(shù)人員可以意識(shí)到,結(jié)合本文中所公開的實(shí)施例描述的各示例的單元及算法步驟,能夠以電子硬件、計(jì)算機(jī)軟件或者二者的結(jié)合來實(shí)現(xiàn),為了清楚地說明硬件和軟件的可互換性,在上述說明中已經(jīng)按照功能一般性地描述了各示例的組成及步驟。這些功能究竟以硬件還是軟件方式來執(zhí)行,取決于技術(shù)方案的特定應(yīng)用和設(shè)計(jì)約束條件。專業(yè)技術(shù)人員可以對(duì)每個(gè)特定的應(yīng)用來使用不同方法來實(shí)現(xiàn)所描述的功能,但是這種實(shí)現(xiàn)不應(yīng)認(rèn)為超出本發(fā)明的范圍。所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為了描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng)、裝置和單元的具體工作過程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過程,在此不再贅述。在本申請(qǐng)所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng)、裝置和方法,可以通過其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另外,所顯示或討論的相互之間的 耦合或直接耦合或通信連接可以是通過一些接口、裝置或單元的間接耦合或通信連接,也可以是電的,機(jī)械的或其它的形式連接。所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上??梢愿鶕?jù)實(shí)際的需要選擇其中的部分或者全部單元來實(shí)現(xiàn)本發(fā)明實(shí)施例方案的目的。另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以是兩個(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能單元的形式實(shí)現(xiàn)。所述集成的單元如果以軟件功能單元的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上或者說對(duì)現(xiàn)有技術(shù)做出貢獻(xiàn)的部分,或者該技術(shù)方案的全部或部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的全部或部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤、移動(dòng)硬盤、只讀存儲(chǔ)器(ROM,Read-OnlyMemory)、隨機(jī)存取存儲(chǔ)器(RAM,RandomAccessMemory)、磁碟或者光盤等各種可以存儲(chǔ)程序代碼的介質(zhì)。以上所述,僅為本發(fā)明的具體實(shí)施方式,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉本技術(shù)領(lǐng)域的技術(shù)人員在本發(fā)明揭露的技術(shù)范圍內(nèi),可輕易想到各種等效的修改或替換,這些修改或替換都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)以權(quán)利要求的保護(hù)范圍為準(zhǔn)。