多媒體文件的片頭和/或片尾的識(shí)別方法及裝置【技術(shù)領(lǐng)域】本發(fā)明涉及多媒體技術(shù),尤其涉及一種多媒體文件的片頭和/或片尾的識(shí)別方法及裝置。
背景技術(shù):多媒體文件例如,視頻文件一般可以包括片頭和/或片尾,對(duì)片頭和/或片尾進(jìn)行有效的識(shí)別,能夠?yàn)槎嗝襟w文件的處理帶來(lái)更多益處。例如,播放多媒體文件時(shí),可以跳過(guò)片頭和/或片尾等?,F(xiàn)有技術(shù)中,操作人員可以逐一對(duì)多媒體文件進(jìn)行人工識(shí)別,以識(shí)別該多媒體文件的片頭和/或片尾。然而,現(xiàn)有的片頭和/或片尾的識(shí)別操作復(fù)雜,且容易出錯(cuò),從而導(dǎo)致了片頭和/或片尾識(shí)別的效率和可靠性的降低。
技術(shù)實(shí)現(xiàn)要素:本發(fā)明的多個(gè)方面提供一種多媒體文件的片頭和/或片尾的識(shí)別方法及裝置,用以提高片頭和/或片尾識(shí)別的效率和可靠性。本發(fā)明的一方面,提供一種多媒體文件的片頭和/或片尾的識(shí)別方法,包括:獲取待處理的多媒體文件,所述多媒體文件包括至少兩幀圖像;利用對(duì)象跟蹤技術(shù),對(duì)所述至少兩幀圖像進(jìn)行識(shí)別處理,以獲得目標(biāo)文件片段;根據(jù)所述多媒體文件的字幕內(nèi)容和字幕時(shí)間,獲得目標(biāo)字幕片段;根據(jù)所述目標(biāo)文件片段和所述目標(biāo)字幕片段,確定所述多媒體文件的片頭和/或片尾。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述利用對(duì)象跟蹤技術(shù),對(duì)所述至少兩幀圖像進(jìn)行識(shí)別處理,以獲得目標(biāo)文件片段,包括:利用對(duì)象跟蹤技術(shù),提取所述至少兩幀圖像中出現(xiàn)目標(biāo)對(duì)象的圖像,以獲得至少兩個(gè)候選文件片段;根據(jù)所述至少兩個(gè)候選文件片段中相鄰的候選文件片段之間的第一時(shí)間間隔和預(yù)先設(shè)置的第一時(shí)間閾值,對(duì)相鄰的候選文件片段進(jìn)行合并處理,以獲得所述目標(biāo)文件片段。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)所述多媒體文件的字幕內(nèi)容和字幕時(shí)間,獲得目標(biāo)字幕片段,包括:根據(jù)所述多媒體文件的字幕內(nèi)容和字幕時(shí)間,獲得至少兩個(gè)候選字幕片段;根據(jù)所述至少兩個(gè)候選字幕片段中相鄰的候選字幕片段之間的第二時(shí)間間隔和預(yù)先設(shè)置的第二時(shí)間閾值,對(duì)相鄰的候選字幕片段進(jìn)行合并處理,以獲得所述目標(biāo)字幕片段。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述對(duì)象跟蹤技術(shù)包括人臉跟蹤技術(shù)。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述根據(jù)所述目標(biāo)文件片段和所述目標(biāo)字幕片段,確定所述多媒體文件的片頭和/或片尾,包括:根據(jù)所述目標(biāo)文件片段和所述目標(biāo)字幕片段,獲得至少一個(gè)融合文件片段;根據(jù)所述至少一個(gè)融合文件片段的開(kāi)始時(shí)間、所述至少一個(gè)融合文件片段的結(jié)束時(shí)間、所述至少一個(gè)融合文件片段中相鄰的融合文件片段之間的第三時(shí)間間隔和預(yù)先設(shè)置的第三時(shí)間閾值,確定所述多媒體文件的片頭和/或片尾。本發(fā)明的另一方面,提供一種多媒體文件的片頭和/或片尾的識(shí)別裝置,包括:獲取單元,用于獲取待處理的多媒體文件,所述多媒體文件包括至少兩幀圖像;文件處理單元,用于利用對(duì)象跟蹤技術(shù),對(duì)所述至少兩幀圖像進(jìn)行識(shí)別處理,以獲得目標(biāo)文件片段;字幕處理單元,用于根據(jù)所述多媒體文件的字幕內(nèi)容和字幕時(shí)間,獲得目標(biāo)字幕片段;決策單元,用于根據(jù)所述目標(biāo)文件片段和所述目標(biāo)字幕片段,確定所述多媒體文件的片頭和/或片尾。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述文件處理單元,具體用于利用對(duì)象跟蹤技術(shù),提取所述至少兩幀圖像中出現(xiàn)目標(biāo)對(duì)象的圖像,以獲得至少兩個(gè)候選文件片段;以及根據(jù)所述至少兩個(gè)候選文件片段中相鄰的候選文件片段之間的第一時(shí)間間隔和預(yù)先設(shè)置的第一時(shí)間閾值,對(duì)相鄰的候選文件片段進(jìn)行合并處理,以獲得所述目標(biāo)文件片段。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述字幕處理單元,具體用于根據(jù)所述多媒體文件的字幕內(nèi)容和字幕時(shí)間,獲得至少兩個(gè)候選字幕片段;以及根據(jù)所述至少兩個(gè)候選字幕片段中相鄰的候選字幕片段之間的第二時(shí)間間隔和預(yù)先設(shè)置的第二時(shí)間閾值,對(duì)相鄰的候選字幕片段進(jìn)行合并處理,以獲得所述目標(biāo)字幕片段。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述對(duì)象跟蹤技術(shù)包括人臉跟蹤技術(shù)。如上所述的方面和任一可能的實(shí)現(xiàn)方式,進(jìn)一步提供一種實(shí)現(xiàn)方式,所述決策單元,具體用于根據(jù)所述目標(biāo)文件片段和所述目標(biāo)字幕片段,獲得至少一個(gè)融合文件片段;以及根據(jù)所述至少一個(gè)融合文件片段的開(kāi)始時(shí)間、所述至少一個(gè)融合文件片段的結(jié)束時(shí)間、所述至少一個(gè)融合文件片段中相鄰的融合文件片段之間的第三時(shí)間間隔和預(yù)先設(shè)置的第三時(shí)間閾值,確定所述多媒體文件的片頭和/或片尾。由上述技術(shù)方案可知,本發(fā)明實(shí)施例通過(guò)利用對(duì)象跟蹤技術(shù),對(duì)所確定的多媒體文件所包括的至少兩幀圖像進(jìn)行識(shí)別處理,以獲得目標(biāo)文件片段,以及根據(jù)所確定的多媒體文件的字幕內(nèi)容和字幕時(shí)間,獲得目標(biāo)字幕片段,使得能夠根據(jù)所述目標(biāo)文件片段和所述目標(biāo)字幕片段,確定所述多媒體文件的片頭和/或片尾,無(wú)需操作人員參與操作過(guò)程,操作簡(jiǎn)單,且正確率高,從而提高了片頭和/或片尾識(shí)別的效率和可靠性。另外,采用本發(fā)明提供的技術(shù)方案,無(wú)需操作人員參與操作過(guò)程,即能實(shí)現(xiàn)片頭和/或片尾的自動(dòng)識(shí)別,因此,能夠有效提高片頭和/或片尾的識(shí)別成本?!靖綀D說(shuō)明】為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作一簡(jiǎn)單地介紹,顯而易見(jiàn)地,下面描述中的附圖是本發(fā)明的一些實(shí)施例,對(duì)于本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。圖1為本發(fā)明一實(shí)施例提供的多媒體文件的片頭和/或片尾的識(shí)別方法的流程示意圖;圖2為本發(fā)明另一實(shí)施例提供的多媒體文件的片頭和/或片尾的識(shí)別裝置的結(jié)構(gòu)示意圖?!揪唧w實(shí)施方式】為使本發(fā)明實(shí)施例的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒(méi)有作出創(chuàng)造性勞動(dòng)前提下所獲得的全部其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。需要說(shuō)明的是,本發(fā)明實(shí)施例中所涉及的終端可以包括但不限于手機(jī)、個(gè)人數(shù)字助理(PersonalDigitalAssistant,PDA)、無(wú)線手持裝置、無(wú)線上網(wǎng)本、個(gè)人電腦(PersonalComputer,PC)、便攜電腦、MP3播放器、MP4播放器等。另外,本文中術(shù)語(yǔ)“和/或”,僅僅是一種描述關(guān)聯(lián)對(duì)象的關(guān)聯(lián)關(guān)系,表示可以存在三種關(guān)系,例如,A和/或B,可以表示:?jiǎn)为?dú)存在A,同時(shí)存在A和B,單獨(dú)存在B這三種情況。另外,本文中字符“/”,一般表示前后關(guān)聯(lián)對(duì)象是一種“或”的關(guān)系。圖1為本發(fā)明一實(shí)施例提供的多媒體文件的片頭和/或片尾的識(shí)別方法的流程示意圖,如圖1所示。101、獲取待處理的多媒體文件,所述多媒體文件包括至少兩幀圖像。其中,多媒體文件可以包括但不限于視頻文件,本實(shí)施例對(duì)此不進(jìn)行特別限定。102、利用對(duì)象跟蹤技術(shù),對(duì)所述至少兩幀圖像進(jìn)行識(shí)別處理,以獲得目標(biāo)文件片段。103、根據(jù)所述多媒體文件的字幕內(nèi)容和字幕時(shí)間,獲得目標(biāo)字幕片段。104、根據(jù)所述目標(biāo)文件片段和所述目標(biāo)字幕片段,確定所述多媒體文件的片頭和/或片尾。需要說(shuō)明的是,102與103的執(zhí)行沒(méi)有固定的順序,可以先執(zhí)行102,再執(zhí)行103,或者還可以先執(zhí)行103,再執(zhí)行102,或者還可以同時(shí)執(zhí)行102和103,本實(shí)施例對(duì)此不進(jìn)行特別限定。需要說(shuō)明的是,101~104的執(zhí)行主體可以是識(shí)別裝置,可以位于本地的應(yīng)用中,或者還可以位于網(wǎng)絡(luò)側(cè)的服務(wù)器中,或者也可以部分功能位于應(yīng)用中,部分功能位于服務(wù)器中,本實(shí)施例對(duì)此不進(jìn)行限定??梢岳斫獾氖?,所述應(yīng)用可以是終端上所安裝的應(yīng)用程序,或者還可以是終端上所安裝的瀏覽器的一個(gè)網(wǎng)頁(yè),只要能夠?qū)崿F(xiàn)多媒體文件的片頭和/或片尾的識(shí)別的客觀存在形式都可以,本實(shí)施例對(duì)此不進(jìn)行特別限定。這樣,通過(guò)利用對(duì)象跟蹤技術(shù),對(duì)所確定的多媒體文件所包括的至少兩幀圖像進(jìn)行識(shí)別處理,以獲得目標(biāo)文件片段,以及根據(jù)所確定的多媒體文件的字幕內(nèi)容和字幕時(shí)間,獲得目標(biāo)字幕片段,使得能夠根據(jù)所述目標(biāo)文件片段和所述目標(biāo)字幕片段,確定所述多媒體文件的片頭和/或片尾,無(wú)需操作人員參與操作過(guò)程,操作簡(jiǎn)單,且正確率高,從而提高了片頭和/或片尾識(shí)別的效率和可靠性??蛇x地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在102中,識(shí)別裝置具體可以利用對(duì)象跟蹤技術(shù),提取所述至少兩幀圖像中出現(xiàn)目標(biāo)對(duì)象的圖像,以獲得至少兩個(gè)候選文件片段。例如,可以將所提取出的連續(xù)幀的圖像,組成一個(gè)候選文件片段。然后,所述識(shí)別裝置則可以根據(jù)所述至少兩個(gè)候選文件片段中相鄰的候選文件片段之間的第一時(shí)間間隔和預(yù)先設(shè)置的第一時(shí)間閾值,對(duì)相鄰的候選文件片段進(jìn)行合并處理,以獲得所述目標(biāo)文件片段。例如,若第一時(shí)間間隔小于或等于第一時(shí)間閾值,則可以將相鄰的候選文件片段進(jìn)行合并,以獲得一個(gè)新的候選文件片段?;蛘撸倮?,若第一時(shí)間間隔大于第一時(shí)間閾值,則可以保留相鄰的候選文件片段,直到一個(gè)候選文件片段與相鄰的任何其他候選文件片段之間的第一時(shí)間間隔均大于第一時(shí)間閾值,則可以將該候選文件片段作為一個(gè)目標(biāo)文件片段。具體地,其中的目標(biāo)對(duì)象可以包括但不限于人臉,相應(yīng)地,所述識(shí)別裝置具體可以利用人臉跟蹤技術(shù),對(duì)所述至少兩幀圖像進(jìn)行識(shí)別處理,以獲得目標(biāo)文件片段。一般來(lái)說(shuō),多媒體文件的字幕內(nèi)容和字幕時(shí)間可以存儲(chǔ)在字幕文件中,例如,字幕文件可以包含如下內(nèi)容:00:00:36,136→00:00:36,731Whatmustitbelikenottobecrippledbyfearandself-loathing?;其中,“00:00:36,136→00:00:36,731”為字幕時(shí)間,“Whatmustitbelikenottobecrippledbyfearandself-loathing?”為字幕內(nèi)容。具體地,識(shí)別裝置具體可以對(duì)字幕文件進(jìn)行規(guī)格化處理,以提取出該字幕文件中所包含的字幕內(nèi)容和字幕時(shí)間。還有些時(shí)候,多媒體文件的字幕內(nèi)容并不是單獨(dú)存儲(chǔ)在字幕文件中,而其就是多媒體文件的內(nèi)容的一部分。那么,所述識(shí)別裝置還可以進(jìn)一步利用現(xiàn)有技術(shù)中的字幕提取技術(shù),從多媒體文件中提取出字幕內(nèi)容和字幕時(shí)間。其中,字幕提取技術(shù)的詳細(xì)描述可以參見(jiàn)現(xiàn)有技術(shù)中的相關(guān)內(nèi)容,此處不再贅述??蛇x地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在103中,識(shí)別裝置具體可以根據(jù)所述多媒體文件的字幕內(nèi)容和字幕時(shí)間,獲得至少兩個(gè)候選字幕片段。然后,所述識(shí)別裝置則可以根據(jù)所述至少兩個(gè)候選字幕片段中相鄰的候選字幕片段之間的第二時(shí)間間隔和預(yù)先設(shè)置的第二時(shí)間閾值,對(duì)相鄰的候選字幕片段進(jìn)行合并處理,以獲得所述目標(biāo)字幕片段。例如,若第二時(shí)間間隔小于或等于第二時(shí)間閾值,則可以將相鄰的候選字幕片段進(jìn)行合并,以獲得一個(gè)新的候選字幕片段?;蛘?,再例如,若第二時(shí)間間隔大于第二時(shí)間閾值,則可以保留相鄰的候選字幕片段,直到一個(gè)候選字幕片段與相鄰的任何其他候選字幕片段之間的第二時(shí)間間隔均大于第二時(shí)間閾值,則可以將該候選字幕片段作為一個(gè)目標(biāo)字幕片段??蛇x地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,在104中,識(shí)別裝置具體可以根據(jù)所述目標(biāo)文件片段和所述目標(biāo)字幕片段,獲得至少一個(gè)融合文件片段。例如,所述識(shí)別裝置具體可以根據(jù)目標(biāo)文件片段所對(duì)應(yīng)的第一時(shí)間范圍,與目標(biāo)字幕片段所對(duì)應(yīng)的第二時(shí)間范圍,確定第一時(shí)間范圍與第二時(shí)間范圍之間存在交集的目標(biāo)文件片段和目標(biāo)字幕片段,將該目標(biāo)字幕片段所對(duì)應(yīng)的時(shí)間范圍之內(nèi)的多媒體文件片段,與該目標(biāo)文件片段,進(jìn)行合并,以獲得一個(gè)融合文件片段。例如,第一時(shí)間范圍為5~10s,第二時(shí)間范圍為8~15s,則融合文件片段則可以為時(shí)間范圍5~15s所對(duì)應(yīng)的文件片段。然后,所述識(shí)別裝置則可以根據(jù)所述至少一個(gè)融合文件片段的開(kāi)始時(shí)間即第一個(gè)融合文件片段的開(kāi)始時(shí)間、所述至少一個(gè)融合文件片段的結(jié)束時(shí)間即最后一個(gè)融合文件片段的結(jié)束時(shí)間、所述至少一個(gè)融合文件片段中相鄰的融合文件片段之間的第三時(shí)間間隔和預(yù)先設(shè)置的第三時(shí)間閾值,確定所述多媒體文件的片頭和/或片尾。例如,若開(kāi)始時(shí)間、結(jié)束時(shí)間或第三時(shí)間間隔,小于或等于第三時(shí)間閾值,則可以忽略該開(kāi)始時(shí)間、結(jié)束時(shí)間或第三時(shí)間間隔。或者,再例如,若開(kāi)始時(shí)間、結(jié)束時(shí)間和第三時(shí)間間隔中的至少一項(xiàng),大于第三時(shí)間閾值,則可以確定開(kāi)始時(shí)間之前的時(shí)間范圍、結(jié)束時(shí)間之后的時(shí)間范圍和第三時(shí)間間隔對(duì)應(yīng)的時(shí)間范圍中的至少一項(xiàng),內(nèi)的多媒體文件片段為所述多媒體文件的片頭和/或片尾。可以理解的是,識(shí)別裝置具體將一個(gè)多媒體文件片段確定為多媒體文件的片頭,還是多媒體文件的片尾,可以根據(jù)該多媒體文件片段所對(duì)應(yīng)的開(kāi)始時(shí)間與多媒體文件的開(kāi)始時(shí)間之間的時(shí)間間隔,以及該多媒體文件片段所對(duì)應(yīng)的結(jié)束時(shí)間與多媒體文件的結(jié)束時(shí)間之間的時(shí)間間隔,確定,本實(shí)施例對(duì)此不進(jìn)行特別限定。本實(shí)施例中,通過(guò)利用對(duì)象跟蹤技術(shù),對(duì)所確定的多媒體文件所包括的至少兩幀圖像進(jìn)行識(shí)別處理,以獲得目標(biāo)文件片段,以及根據(jù)所確定的多媒體文件的字幕內(nèi)容和字幕時(shí)間,獲得目標(biāo)字幕片段,使得能夠根據(jù)所述目標(biāo)文件片段和所述目標(biāo)字幕片段,確定所述多媒體文件的片頭和/或片尾,無(wú)需操作人員參與操作過(guò)程,操作簡(jiǎn)單,且正確率高,從而提高了片頭和/或片尾識(shí)別的效率和可靠性。另外,采用本發(fā)明提供的技術(shù)方案,無(wú)需操作人員參與操作過(guò)程,即能實(shí)現(xiàn)片頭和/或片尾的自動(dòng)識(shí)別,因此,能夠有效提高片頭和/或片尾的識(shí)別成本。需要說(shuō)明的是,對(duì)于前述的各方法實(shí)施例,為了簡(jiǎn)單描述,故將其都表述為一系列的動(dòng)作組合,但是本領(lǐng)域技術(shù)人員應(yīng)該知悉,本發(fā)明并不受所描述的動(dòng)作順序的限制,因?yàn)橐罁?jù)本發(fā)明,某些步驟可以采用其他順序或者同時(shí)進(jìn)行。其次,本領(lǐng)域技術(shù)人員也應(yīng)該知悉,說(shuō)明書(shū)中所描述的實(shí)施例均屬于優(yōu)選實(shí)施例,所涉及的動(dòng)作和模塊并不一定是本發(fā)明所必須的。在上述實(shí)施例中,對(duì)各個(gè)實(shí)施例的描述都各有側(cè)重,某個(gè)實(shí)施例中沒(méi)有詳述的部分,可以參見(jiàn)其他實(shí)施例的相關(guān)描述。圖2為本發(fā)明另一實(shí)施例提供的多媒體文件的片頭和/或片尾的識(shí)別裝置的結(jié)構(gòu)示意圖,如圖2所示。本實(shí)施例的多媒體文件的片頭和/或片尾的識(shí)別裝置可以包括獲取單元21、文件處理單元22、字幕處理單元23和決策單元24。其中,獲取單元21,用于獲取待處理的多媒體文件,所述多媒體文件包括至少兩幀圖像。其中,多媒體文件可以包括但不限于視頻文件,本實(shí)施例對(duì)此不進(jìn)行特別限定。文件處理單元22,用于利用對(duì)象跟蹤技術(shù),對(duì)所述至少兩幀圖像進(jìn)行識(shí)別處理,以獲得目標(biāo)文件片段。字幕處理單元23,用于根據(jù)所述多媒體文件的字幕內(nèi)容和字幕時(shí)間,獲得目標(biāo)字幕片段。決策單元24,用于根據(jù)所述目標(biāo)文件片段和所述目標(biāo)字幕片段,確定所述多媒體文件的片頭和/或片尾。需要說(shuō)明的是,本實(shí)施例所提供的多媒體文件的片頭和/或片尾的識(shí)別裝置,可以位于本地的應(yīng)用中,或者還可以位于網(wǎng)絡(luò)側(cè)的服務(wù)器中,或者也可以部分功能位于應(yīng)用中,部分功能位于服務(wù)器中,本實(shí)施例對(duì)此不進(jìn)行限定??梢岳斫獾氖牵鰬?yīng)用可以是終端上所安裝的應(yīng)用程序,或者還可以是終端上所安裝的瀏覽器的一個(gè)網(wǎng)頁(yè),只要能夠?qū)崿F(xiàn)多媒體文件的片頭和/或片尾的識(shí)別的客觀存在形式都可以,本實(shí)施例對(duì)此不進(jìn)行特別限定。這樣,通過(guò)文件處理單元利用對(duì)象跟蹤技術(shù),對(duì)獲取單元所確定的多媒體文件所包括的至少兩幀圖像進(jìn)行識(shí)別處理,以獲得目標(biāo)文件片段,以及字幕處理單元根據(jù)獲取單元所確定的多媒體文件的字幕內(nèi)容和字幕時(shí)間,獲得目標(biāo)字幕片段,使得決策單元能夠根據(jù)所述目標(biāo)文件片段和所述目標(biāo)字幕片段,確定所述多媒體文件的片頭和/或片尾,無(wú)需操作人員參與操作過(guò)程,操作簡(jiǎn)單,且正確率高,從而提高了片頭和/或片尾識(shí)別的效率和可靠性??蛇x地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,所述文件處理單元22,具體可以用于利用對(duì)象跟蹤技術(shù),提取所述至少兩幀圖像中出現(xiàn)目標(biāo)對(duì)象的圖像,以獲得至少兩個(gè)候選文件片段,例如,可以將所提取出的連續(xù)幀的圖像,組成一個(gè)候選文件片段;以及根據(jù)所述至少兩個(gè)候選文件片段中相鄰的候選文件片段之間的第一時(shí)間間隔和預(yù)先設(shè)置的第一時(shí)間閾值,對(duì)相鄰的候選文件片段進(jìn)行合并處理,以獲得所述目標(biāo)文件片段。例如,若第一時(shí)間間隔小于或等于第一時(shí)間閾值,所述文件處理單元22則可以將相鄰的候選文件片段進(jìn)行合并,以獲得一個(gè)新的候選文件片段?;蛘?,再例如,若第一時(shí)間間隔大于第一時(shí)間閾值,所述文件處理單元22則可以保留相鄰的候選文件片段,直到一個(gè)候選文件片段與相鄰的任何其他候選文件片段之間的第一時(shí)間間隔均大于第一時(shí)間閾值,所述文件處理單元22則可以將該候選文件片段作為一個(gè)目標(biāo)文件片段。具體地,其中的目標(biāo)對(duì)象可以包括但不限于人臉,相應(yīng)地,所述文件處理單元22具體可以利用人臉跟蹤技術(shù),對(duì)所述至少兩幀圖像進(jìn)行識(shí)別處理,以獲得目標(biāo)文件片段。一般來(lái)說(shuō),多媒體文件的字幕內(nèi)容和字幕時(shí)間可以存儲(chǔ)在字幕文件中,例如,字幕文件可以包含如下內(nèi)容:00:00:36,136→00:00:36,731Whatmustitbelikenottobecrippledbyfearandself-loathing?;其中,“00:00:36,136→00:00:36,731”為字幕時(shí)間,“Whatmustitbelikenottobecrippledbyfearandself-loathing?”為字幕內(nèi)容。具體地,所述文件處理單元22可以對(duì)字幕文件進(jìn)行規(guī)格化處理,以提取出該字幕文件中所包含的字幕內(nèi)容和字幕時(shí)間。還有些時(shí)候,多媒體文件的字幕內(nèi)容并不是單獨(dú)存儲(chǔ)在字幕文件中,而其就是多媒體文件的內(nèi)容的一部分。那么,所述文件處理單元22還可以進(jìn)一步利用現(xiàn)有技術(shù)中的字幕提取技術(shù),從多媒體文件中提取出字幕內(nèi)容和字幕時(shí)間。其中,字幕提取技術(shù)的詳細(xì)描述可以參見(jiàn)現(xiàn)有技術(shù)中的相關(guān)內(nèi)容,此處不再贅述??蛇x地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,所述字幕處理單元23,具體可以用于根據(jù)所述多媒體文件的字幕內(nèi)容和字幕時(shí)間,獲得至少兩個(gè)候選字幕片段;以及根據(jù)所述至少兩個(gè)候選字幕片段中相鄰的候選字幕片段之間的第二時(shí)間間隔和預(yù)先設(shè)置的第二時(shí)間閾值,對(duì)相鄰的候選字幕片段進(jìn)行合并處理,以獲得所述目標(biāo)字幕片段。例如,若第二時(shí)間間隔小于或等于第二時(shí)間閾值,所述字幕處理單元23則可以將相鄰的候選字幕片段進(jìn)行合并,以獲得一個(gè)新的候選字幕片段?;蛘?,再例如,若第二時(shí)間間隔大于第二時(shí)間閾值,所述字幕處理單元23則可以保留相鄰的候選字幕片段,直到一個(gè)候選字幕片段與相鄰的任何其他候選字幕片段之間的第二時(shí)間間隔均大于第二時(shí)間閾值,所述字幕處理單元23則可以將該候選字幕片段作為一個(gè)目標(biāo)字幕片段??蛇x地,在本實(shí)施例的一個(gè)可能的實(shí)現(xiàn)方式中,所述決策單元24,具體可以用于根據(jù)所述目標(biāo)文件片段和所述目標(biāo)字幕片段,獲得至少一個(gè)融合文件片段,例如,所述決策單元24具體可以根據(jù)目標(biāo)文件片段所對(duì)應(yīng)的第一時(shí)間范圍,與目標(biāo)字幕片段所對(duì)應(yīng)的第二時(shí)間范圍,確定第一時(shí)間范圍與第二時(shí)間范圍之間存在交集的目標(biāo)文件片段和目標(biāo)字幕片段,將該目標(biāo)字幕片段所對(duì)應(yīng)的時(shí)間范圍之內(nèi)的多媒體文件片段,與該目標(biāo)文件片段,進(jìn)行合并,以獲得一個(gè)融合文件片段,例如,第一時(shí)間范圍為5~10s,第二時(shí)間范圍為8~15s,則融合文件片段則可以為時(shí)間范圍5~15s所對(duì)應(yīng)的文件片段;以及根據(jù)所述至少一個(gè)融合文件片段的開(kāi)始時(shí)間、所述至少一個(gè)融合文件片段的結(jié)束時(shí)間、所述至少一個(gè)融合文件片段中相鄰的融合文件片段之間的第三時(shí)間間隔和預(yù)先設(shè)置的第三時(shí)間閾值,確定所述多媒體文件的片頭和/或片尾。例如,若開(kāi)始時(shí)間、結(jié)束時(shí)間或第三時(shí)間間隔,小于或等于第三時(shí)間閾值,所述決策單元24則可以忽略該開(kāi)始時(shí)間、結(jié)束時(shí)間或第三時(shí)間間隔?;蛘撸倮?,若開(kāi)始時(shí)間、結(jié)束時(shí)間和第三時(shí)間間隔中的至少一項(xiàng),大于第三時(shí)間閾值,所述決策單元24則可以確定開(kāi)始時(shí)間之前的時(shí)間范圍、結(jié)束時(shí)間之后的時(shí)間范圍和第三時(shí)間間隔對(duì)應(yīng)的時(shí)間范圍中的至少一項(xiàng),內(nèi)的多媒體文件片段為所述多媒體文件的片頭和/或片尾??梢岳斫獾氖?,所述決策單元24具體將一個(gè)多媒體文件片段確定為多媒體文件的片頭,還是多媒體文件的片尾,可以根據(jù)該多媒體文件片段所對(duì)應(yīng)的開(kāi)始時(shí)間與多媒體文件的開(kāi)始時(shí)間之間的時(shí)間間隔,以及該多媒體文件片段所對(duì)應(yīng)的結(jié)束時(shí)間與多媒體文件的結(jié)束時(shí)間之間的時(shí)間間隔,確定,本實(shí)施例對(duì)此不進(jìn)行特別限定。本實(shí)施例中,通過(guò)文件處理單元利用對(duì)象跟蹤技術(shù),對(duì)獲取單元所確定的多媒體文件所包括的至少兩幀圖像進(jìn)行識(shí)別處理,以獲得目標(biāo)文件片段,以及字幕處理單元根據(jù)獲取單元所確定的多媒體文件的字幕內(nèi)容和字幕時(shí)間,獲得目標(biāo)字幕片段,使得決策單元能夠根據(jù)所述目標(biāo)文件片段和所述目標(biāo)字幕片段,確定所述多媒體文件的片頭和/或片尾,無(wú)需操作人員參與操作過(guò)程,操作簡(jiǎn)單,且正確率高,從而提高了片頭和/或片尾識(shí)別的效率和可靠性。另外,采用本發(fā)明提供的技術(shù)方案,無(wú)需操作人員參與操作過(guò)程,即能實(shí)現(xiàn)片頭和/或片尾的自動(dòng)識(shí)別,因此,能夠有效提高片頭和/或片尾的識(shí)別成本。所屬領(lǐng)域的技術(shù)人員可以清楚地了解到,為描述的方便和簡(jiǎn)潔,上述描述的系統(tǒng),裝置和單元的具體工作過(guò)程,可以參考前述方法實(shí)施例中的對(duì)應(yīng)過(guò)程,在此不再贅述。在本發(fā)明所提供的幾個(gè)實(shí)施例中,應(yīng)該理解到,所揭露的系統(tǒng),裝置和方法,可以通過(guò)其它的方式實(shí)現(xiàn)。例如,以上所描述的裝置實(shí)施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實(shí)際實(shí)現(xiàn)時(shí)可以有另外的劃分方式,例如多個(gè)單元或組件可以結(jié)合或者可以集成到另一個(gè)系統(tǒng),或一些特征可以忽略,或不執(zhí)行。另一點(diǎn),所顯示或討論的相互之間的耦合或直接耦合或通信連接可以是通過(guò)一些接口,裝置或單元的間接耦合或通信連接,可以是電性,機(jī)械或其它的形式。所述作為分離部件說(shuō)明的單元可以是或者也可以不是物理上分開(kāi)的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個(gè)地方,或者也可以分布到多個(gè)網(wǎng)絡(luò)單元上。可以根據(jù)實(shí)際的需要選擇其中的部分或者全部單元來(lái)實(shí)現(xiàn)本實(shí)施例方案的目的。另外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理單元中,也可以是各個(gè)單元單獨(dú)物理存在,也可以?xún)蓚€(gè)或兩個(gè)以上單元集成在一個(gè)單元中。上述集成的單元既可以采用硬件的形式實(shí)現(xiàn),也可以采用硬件加軟件功能單元的形式實(shí)現(xiàn)。上述以軟件功能單元的形式實(shí)現(xiàn)的集成的單元,可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。上述軟件功能單元存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以使得一臺(tái)計(jì)算機(jī)裝置(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)裝置等)或處理器(processor)執(zhí)行本發(fā)明各個(gè)實(shí)施例所述方法的部分步驟。而前述的存儲(chǔ)介質(zhì)包括:U盤(pán)、移動(dòng)硬盤(pán)、只讀存儲(chǔ)器(Read-OnlyMemory,ROM)、隨機(jī)存取存儲(chǔ)器(RandomAccessMemory,RAM)、磁碟或者光盤(pán)等各種可以存儲(chǔ)程序代碼的介質(zhì)。最后應(yīng)說(shuō)明的是:以上實(shí)施例僅用以說(shuō)明本發(fā)明的技術(shù)方案,而非對(duì)其限制;盡管參照前述實(shí)施例對(duì)本發(fā)明進(jìn)行了詳細(xì)的說(shuō)明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對(duì)前述各實(shí)施例所記載的技術(shù)方案進(jìn)行修改,或者對(duì)其中部分技術(shù)特征進(jìn)行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實(shí)施例技術(shù)方案的精神和范圍。