本發(fā)明涉及數(shù)據(jù)處理
技術(shù)領(lǐng)域:
:,具體涉及一種多源視頻元數(shù)據(jù)的關(guān)聯(lián)方法及系統(tǒng)。
背景技術(shù):
::隨著寬帶互聯(lián)網(wǎng)及移動互聯(lián)網(wǎng)的高速發(fā)展,基礎(chǔ)網(wǎng)絡(luò)設(shè)施不斷建設(shè),互聯(lián)網(wǎng)帶寬能力在不斷提升,催生了越來越多的基于高帶寬的互聯(lián)網(wǎng)應(yīng)用,尤其是視頻內(nèi)容的應(yīng)用,已經(jīng)占到整個互聯(lián)網(wǎng)總帶寬的70%左右,高清、超清、1080P等已經(jīng)成為當(dāng)前主流的用戶消費內(nèi)容,4K、8K的內(nèi)容也已經(jīng)誕生并逐漸被用戶接受。當(dāng)前視頻應(yīng)用范圍非常廣泛,互聯(lián)網(wǎng)視頻網(wǎng)站、IPTV(交互式網(wǎng)絡(luò)電視)、OTT(OverTheTop,通過互聯(lián)網(wǎng)向用戶提供各種應(yīng)用服務(wù))、互聯(lián)網(wǎng)電視等應(yīng)用極大豐富了廣大人民群眾的業(yè)余生活。隨著電視的互聯(lián)網(wǎng)化,以及手機終端處理能力的增強,三屏互動業(yè)務(wù)成為一種友好的視頻應(yīng)用體驗方式,另外當(dāng)前互聯(lián)網(wǎng)視頻網(wǎng)站眾多,網(wǎng)民希望在一個應(yīng)用中搜索一個視頻時能夠同時看到多個具有該視頻的網(wǎng)站的搜索結(jié)果,然后根據(jù)興趣愛好選擇一個網(wǎng)站觀看,因此出現(xiàn)了內(nèi)容聚合平臺,該平臺可以采集來自不同位置的視頻內(nèi)容元數(shù)據(jù),然后將來自不同數(shù)據(jù)源的相同視頻內(nèi)容建立關(guān)聯(lián)關(guān)系,最終滿足用戶一次搜索找到多個視頻網(wǎng)站來源的需求。但PC、互聯(lián)網(wǎng)電視、手機終端的視頻內(nèi)容是相互獨立運營的,同時不同互聯(lián)網(wǎng)視頻網(wǎng)站對相同視頻內(nèi)容的再編輯也造成了視頻元數(shù)據(jù)的差異較大,如果僅僅按照視頻資源名稱精確匹配來建立關(guān)聯(lián)關(guān)系,成功率非常低。如果來自多源的相同視頻元數(shù)據(jù)不能準(zhǔn)確的關(guān)聯(lián)在一起,內(nèi)容聚合平臺能夠產(chǎn)生的最終效果將會大打折扣。技術(shù)實現(xiàn)要素:針對現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的目的在于提供一種多源視頻元數(shù)據(jù)的關(guān)聯(lián)方法及系統(tǒng),通過給方法及系統(tǒng),能夠有效提高多源視頻元數(shù)據(jù)關(guān)聯(lián)的準(zhǔn)確率。為實現(xiàn)上述目的,本發(fā)明采用的技術(shù)方案如下:一種多源視頻元數(shù)據(jù)的關(guān)聯(lián)方法,包括以下步驟:(1)獲取不同數(shù)據(jù)源的視頻,提取視頻的視頻元數(shù)據(jù),設(shè)置每條視頻元數(shù)據(jù)的唯一標(biāo)識,將視頻元數(shù)據(jù)及其唯一標(biāo)識、數(shù)據(jù)源標(biāo)識關(guān)聯(lián)存儲;(2)對所提取的視頻元數(shù)據(jù)進行預(yù)處理;所述預(yù)處理包括去重、元數(shù)據(jù)字段拆分和元數(shù)據(jù)字段的格式歸一化,去重是指屬于同一數(shù)據(jù)源的視頻元數(shù)據(jù)的去重;(3)確定視頻元數(shù)據(jù)的字段重要度等級,根據(jù)字段重要度等級建立視頻元數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。進一步,如上所述的一種多源視頻元數(shù)據(jù)的關(guān)聯(lián)方法,步驟(1)中,所述不同數(shù)據(jù)源包括互聯(lián)網(wǎng)視頻網(wǎng)站、合作視頻內(nèi)容提供商、媒資系統(tǒng)和電子節(jié)目指南EPG系統(tǒng);所述視頻包括直播視頻和點播視頻。進一步,如上所述的一種多源視頻元數(shù)據(jù)的關(guān)聯(lián)方法,步驟(2)中,所述預(yù)處理還包括確定視頻元數(shù)據(jù)的必要保留字段,刪除非必要保留字段,若視頻元數(shù)據(jù)的必要保留字段不存在,則缺省處理。進一步,如上所述的一種多源視頻元數(shù)據(jù)的關(guān)聯(lián)方法,所述必要保留字段包括影片名稱、地區(qū)分類、上映時間、影視分類、導(dǎo)演、集數(shù)、時長和主演;所述影片名稱包括影片正式名稱和影片別名。進一步,如上所述的一種多源視頻元數(shù)據(jù)的關(guān)聯(lián)方法,步驟(2)中,所述元數(shù)據(jù)字段拆分包括影片名稱的拆分、導(dǎo)演的拆分和主演的拆分;所述元數(shù)據(jù)字段的格式歸一化包括時長、上映時間、地區(qū)分類、導(dǎo)演和主演的數(shù)據(jù)格式統(tǒng)一。進一步,如上所述的一種多源視頻元數(shù)據(jù)的關(guān)聯(lián)方法,步驟(2)中,元數(shù)據(jù)字段的格式歸一化的方式為:建立各字段的歸一條件映射表,根據(jù)所述歸一條件映射表進行字段的格式歸一化。進一步,如上所述的一種多源視頻元數(shù)據(jù)的關(guān)聯(lián)方法,所述字段重要度等級包括第一等級、第二等級和第三等級;第一等級字段包括影片名稱,第二等級包括地區(qū)分類、上映時間、影視分類和導(dǎo)演,第三等級字段包括集數(shù)、時長和主演;根據(jù)根據(jù)字段重要度等級建立視頻元數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系,包括:1)根據(jù)第一等級字段建立視頻元數(shù)據(jù)的關(guān)聯(lián)關(guān)系,建立方式為:確定一條視頻元數(shù)據(jù)作為初始記錄,以初始記錄的第一等級字段作為關(guān)鍵字在其它數(shù)據(jù)源的視頻元數(shù)據(jù)中進行模糊檢索,查看檢索結(jié)果中是否有與初始記錄的第一等級字段完全相同的記錄,若是,則該記錄與初始記錄關(guān)聯(lián),建立初始記錄與該記錄的視頻元數(shù)據(jù)的關(guān)聯(lián)關(guān)系,若否,則查看檢索結(jié)果中是否有與初始記錄的第一等級字段部分相同的記錄,若是,則進入步驟2),若否,則確定沒有與初始記錄關(guān)聯(lián)的視頻元數(shù)據(jù),關(guān)聯(lián)結(jié)束;2)根據(jù)第二等級字段建立視頻元數(shù)據(jù)的關(guān)聯(lián)關(guān)系,建立方式為:將與初始記錄的第一等級字段部分相同的記錄記為待匹配記錄,判斷待匹配記錄的第二等級字段與初始記錄的第二等級字段是否完全相同,若是,則進入步驟3),若否,則確定待匹配記錄與初始記錄不關(guān)聯(lián),關(guān)聯(lián)結(jié)束;3)根據(jù)第三等級字段建立視頻元數(shù)據(jù)的關(guān)聯(lián)關(guān)系,建立方式為:將待匹配記錄的第三等級字段與初始記錄的第三等級字段的匹配結(jié)果是否符合預(yù)設(shè)的匹配條件,若是,則待匹配記錄與初始記錄關(guān)聯(lián),建立初始記錄與待匹配記錄的視頻元數(shù)據(jù)的關(guān)聯(lián)關(guān)系,若否,則確定待匹配記錄與初始記錄不關(guān)聯(lián),關(guān)聯(lián)結(jié)束。進一步,如上所述的一種多源視頻元數(shù)據(jù)的關(guān)聯(lián)方法,步驟3)中,所述預(yù)設(shè)的匹配條件包括待匹配記錄與初始記錄至少存在一個相同的主演、待匹配記錄與初始記錄的集數(shù)的偏差小于第一設(shè)定閾值和待匹配記錄與初始記錄的時長的偏差小于第二設(shè)定閾值。進一步,如上所述的一種多源視頻元數(shù)據(jù)的關(guān)聯(lián)方法,步驟2)中,若待匹配記錄與初始記錄的第二等級字段均不存在或不同時存在時,進入步驟3);步驟3)中,若待匹配記錄與初始記錄的第三等級字段均不存在或不同時存在時,確定待匹配記錄與初始記錄不關(guān)聯(lián),關(guān)聯(lián)結(jié)束。一種多源視頻元數(shù)據(jù)的關(guān)聯(lián)系統(tǒng),包括:多源視頻元數(shù)據(jù)采集子系統(tǒng),用于獲取不同數(shù)據(jù)源的視頻,提取視頻的視頻元數(shù)據(jù),設(shè)置每條視頻元數(shù)據(jù)的唯一標(biāo)識,將視頻元數(shù)據(jù)及其唯一標(biāo)識、數(shù)據(jù)源標(biāo)識關(guān)聯(lián)存儲;管理子系統(tǒng),用于提供用戶交互界面,實現(xiàn)對多源視頻元數(shù)據(jù)的關(guān)聯(lián)系統(tǒng)的管理;所述管理子系統(tǒng)包括:字段重要度等級確定模塊,用于確定視頻元數(shù)據(jù)的字段重要度等級;視頻元數(shù)據(jù)清洗子系統(tǒng),用于對所提取的視頻元數(shù)據(jù)進行預(yù)處理;所述視頻元數(shù)據(jù)清洗子系統(tǒng)包括元數(shù)據(jù)去重模塊、字段拆分模塊和字段格式歸一化模塊;視頻元數(shù)據(jù)關(guān)聯(lián)子系統(tǒng),用于確定視頻元數(shù)據(jù)的字段重要度等級,根據(jù)字段重要度等級建立視頻元數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。本發(fā)明的有益效果在于:本發(fā)明所提供的多源視頻元數(shù)據(jù)的關(guān)聯(lián)方法及系統(tǒng),通過分析視頻元數(shù)據(jù)的每個元素(字段)的重要性,并根據(jù)不同元素的重要程度實現(xiàn)不同源視頻元數(shù)據(jù)的關(guān)聯(lián)關(guān)系的建立,解決了現(xiàn)有技術(shù)中對來自多源的視頻元數(shù)據(jù)建立關(guān)聯(lián)關(guān)系時準(zhǔn)確率不高的問題,提升了多源視頻元數(shù)據(jù)的關(guān)聯(lián)準(zhǔn)確率,使來自多個視頻源的視頻內(nèi)容在內(nèi)容聚合平臺上能夠建立正確的關(guān)聯(lián)關(guān)系,更好的滿足了用戶的使用需求,提高了用戶的體驗。附圖說明圖1為具體實施方式中一種多源視頻元數(shù)據(jù)的關(guān)聯(lián)方法的流程圖;圖2為具體實施方式中一種多源視頻元數(shù)據(jù)的關(guān)聯(lián)系統(tǒng)的結(jié)構(gòu)框圖;圖3為具體實施方式中提供的一種根據(jù)字段重要度等級建立視頻元數(shù)據(jù)之間關(guān)聯(lián)關(guān)系的流程圖。具體實施方式下面結(jié)合說明書附圖與具體實施方式對本發(fā)明做進一步的詳細(xì)說明。本發(fā)明的基本思想是提供一種多源視頻元數(shù)據(jù)的關(guān)聯(lián)方法及系統(tǒng),使用這種方法及系統(tǒng),可以解決在對來自多源的視頻元數(shù)據(jù)建立關(guān)聯(lián)關(guān)系時準(zhǔn)確率不高的問題,從而提升多源視頻元數(shù)據(jù)關(guān)聯(lián)準(zhǔn)確率,使來自多個視頻源的視頻內(nèi)容在內(nèi)容聚合平臺上能夠正確關(guān)聯(lián)起來,達(dá)到方便終端用戶享受視頻內(nèi)容的目的。圖1示出了本發(fā)明具體實施方式中提供的一種多源視頻元數(shù)據(jù)的關(guān)聯(lián)方法的流程圖,由圖中可以看出,該方法主要包括以下幾個步驟步驟S100:獲取不同數(shù)據(jù)源的視頻,提取視頻的視頻元數(shù)據(jù);首先,獲取不同數(shù)據(jù)源的視頻,提取視頻的視頻元數(shù)據(jù),并設(shè)置每條視頻元數(shù)據(jù)的唯一標(biāo)識,將視頻元數(shù)據(jù)及其唯一標(biāo)識、數(shù)據(jù)源標(biāo)識關(guān)聯(lián)存儲。本實施方式中,所述視頻包括包括直播視頻和點播視頻。視頻的來源包括但不限于以下互聯(lián)網(wǎng)視頻網(wǎng)站、合作視頻內(nèi)容提供商、媒資系統(tǒng)和電子節(jié)目指南EPG系統(tǒng)等。對于不同數(shù)據(jù)源的視頻元數(shù)據(jù)的采集獲取可以根據(jù)實際應(yīng)用情況來確定元數(shù)據(jù)的獲取方式,一般的,互聯(lián)網(wǎng)視頻網(wǎng)站的視頻元數(shù)據(jù)可以通過爬蟲系統(tǒng)獲得,通過適配爬蟲系統(tǒng)的API接口從爬蟲系統(tǒng)中獲取來自互聯(lián)網(wǎng)視頻網(wǎng)站的視頻元數(shù)據(jù)。合作視頻內(nèi)容提供商即合作CP有大量視頻內(nèi)容,CP視頻元數(shù)據(jù)通過適配不同合作CP的API接口,通過API接口獲取到合作CP的視頻元數(shù)據(jù)。而對于媒資系統(tǒng),使用內(nèi)容聚合平臺的用戶自身具有不同的視頻服務(wù)平臺,每個平臺有自己的媒資系統(tǒng),可以通過API接口與媒資系統(tǒng)對接,獲取媒資系統(tǒng)中的視頻內(nèi)容元數(shù)據(jù)。EPG(電子節(jié)目指南)系統(tǒng)管理視頻內(nèi)容的元數(shù)據(jù),可以通過API接口從EPG系統(tǒng)中獲取視頻元數(shù)據(jù)。視頻元數(shù)據(jù)根據(jù)點播、直播的不同,包含的內(nèi)容也有不同,例如點播的視頻元數(shù)據(jù)包含影片名稱、影片類型和集數(shù)(多集視頻,如電視劇)等;直播的視頻包含直播頻道和時間等,可以根據(jù)需要設(shè)置具體提取哪些視頻元數(shù)據(jù)。完成不同數(shù)據(jù)源的視頻元數(shù)據(jù)的提取后,需要設(shè)置每條視頻元數(shù)據(jù)的唯一標(biāo)識,并將視頻元數(shù)據(jù)及其唯一標(biāo)識、其數(shù)據(jù)源標(biāo)識關(guān)聯(lián)存儲。視頻元數(shù)據(jù)的存儲方式并不是唯一的,可以根據(jù)實際應(yīng)用常見確定存儲方式,例如可以保存到數(shù)據(jù)庫的元數(shù)據(jù)表meta-data-table表中,每條視頻元數(shù)據(jù)由唯一metadataID(元數(shù)據(jù)唯一標(biāo)識)標(biāo)記,每條記錄由providerID(數(shù)據(jù)源標(biāo)識)標(biāo)記數(shù)據(jù)來源。步驟S200:對所提取的視頻元數(shù)據(jù)進行去重、元數(shù)據(jù)字段拆分和元數(shù)據(jù)字段的格式歸一化;在完成視頻元數(shù)據(jù)的初步提取后,為了提高后續(xù)數(shù)據(jù)處理的效率,需要對所提取的視頻元數(shù)據(jù)進行預(yù)處理,即進行數(shù)據(jù)清洗。本實施方式中,所述預(yù)處理包括去重、元數(shù)據(jù)字段拆分、元數(shù)據(jù)字段的格式歸一化以及非必要保留字段的刪除,其中,去重是指屬于同一數(shù)據(jù)源的視頻元數(shù)據(jù)的去重。去重、元數(shù)據(jù)字段拆分、元數(shù)據(jù)字段的格式歸一化以及非必要保留字段的刪除這幾種預(yù)處理方式的處理順序并不是唯一的,為了提高處理效率,可優(yōu)選去重-非必要保留字段刪除-元數(shù)據(jù)字段拆分-格式歸一化的順序。對于所述非必要保留字段的刪除,首先需要根據(jù)需要確定出視頻元數(shù)據(jù)的必要保留字段,然后刪除非必要保留字段,減少對視頻元數(shù)據(jù)建立關(guān)聯(lián)關(guān)系的干擾,若視頻元數(shù)據(jù)的必要保留字段不存在,則缺省處理。所述必要保留字段是根據(jù)需要進行設(shè)置的,本實施方式中,所述必要保留字段包括影片名稱、地區(qū)分類、上映時間、影視分類、導(dǎo)演、集數(shù)、時長和主演等,所述影片名稱包括影片正式名稱和影片別名。所述元數(shù)據(jù)字段拆分包括影片名稱的拆分、導(dǎo)演的拆分和主演的拆分,具體的拆分方式根據(jù)預(yù)設(shè)的拆分規(guī)則進行,例如,對于影片名稱,將漢字與數(shù)字、字母分開,比如將“風(fēng)云年代37”拆分為“風(fēng)云年代”和“37”兩個字段,包含多個別名,將別名分別拆開,如果導(dǎo)演包含多個,分拆為多個記錄保存,如果主演包含多個,分拆為多個記錄。所述元數(shù)據(jù)字段的格式歸一化包括時長、上映時間、地區(qū)分類、導(dǎo)演和主演的數(shù)據(jù)格式統(tǒng)一。本實施方式中,通過建立各字段的歸一條件映射表,根據(jù)所述歸一條件映射表進行字段的格式歸一化。比如:時長,歸一單位為分鐘,比如一個半小時,轉(zhuǎn)換為90分鐘;上映年代,如果是96年,統(tǒng)一為1996年;地區(qū),如果是“內(nèi)地”,統(tǒng)一為“大陸”,“HongKong”統(tǒng)一為“香港”等;導(dǎo)演,如果是“JohnWoo”,統(tǒng)一為“吳宇森”,如果是“AndyLau”、“LauTakWah”、“華仔”、“華Dee”、“華哥”等,統(tǒng)一為“劉德華”。各字段均有歸一條件映射表,將常用的漢字或英文形成映射關(guān)系,在做歸一化處理時從映射表中查詢匹配,該表可以根據(jù)需要通過管理系統(tǒng)進行增刪改。本實施方式中,完成視頻元數(shù)據(jù)的預(yù)處理,可以將清洗后的數(shù)據(jù)保存在數(shù)據(jù)庫的清洗數(shù)據(jù)表clean-data-table表中,清洗后數(shù)據(jù)通過視頻元數(shù)據(jù)唯一標(biāo)記metadataID與meta-data-table表中的視頻元數(shù)據(jù)進行關(guān)聯(lián)。步驟S300:確定視頻元數(shù)據(jù)的字段重要度等級,根據(jù)字段重要度等級建立視頻元數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。本實施方式中,所述字段重要度等級是指在建立不同數(shù)據(jù)源的視頻元數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系時,視頻元數(shù)據(jù)的各字段的重要度或優(yōu)先度,本實施方式中,所述字段重要度等級包括第一等級、第二等級和第三等級;其中,第一等級字段包括影片名稱,第二等級包括地區(qū)分類、上映時間、影視分類和導(dǎo)演,第三等級字段包括集數(shù)、時長和主演。其中,字段的重要度等級可以根據(jù)實際情況進行調(diào)整。本實施方式中,根據(jù)根據(jù)字段重要度等級建立視頻元數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系的具體方式為:1)根據(jù)第一等級字段建立視頻元數(shù)據(jù)的關(guān)聯(lián)關(guān)系,建立方式為:確定一條視頻元數(shù)據(jù)作為初始記錄,以初始記錄的第一等級字段作為關(guān)鍵字在其它數(shù)據(jù)源的視頻元數(shù)據(jù)中進行模糊檢索,查看檢索結(jié)果中是否有與初始記錄的第一等級字段完全相同的記錄,若是,則該記錄與初始記錄關(guān)聯(lián),建立初始記錄與該記錄的視頻元數(shù)據(jù)的關(guān)聯(lián)關(guān)系,若否,則查看檢索結(jié)果中是否有與初始記錄的第一等級字段部分相同的記錄,若是,則進入步驟2),若否,則確定沒有與初始記錄關(guān)聯(lián)的視頻元數(shù)據(jù),關(guān)聯(lián)結(jié)束;2)根據(jù)第二等級字段建立視頻元數(shù)據(jù)的關(guān)聯(lián)關(guān)系,建立方式為:將與初始記錄的第一等級字段部分相同的記錄記為待匹配記錄,判斷待匹配記錄的第二等級字段與初始記錄的第二等級字段是否完全相同,若是,則進入步驟3),若否,則確定待匹配記錄與初始記錄不關(guān)聯(lián),關(guān)聯(lián)結(jié)束;3)根據(jù)第三等級字段建立視頻元數(shù)據(jù)的關(guān)聯(lián)關(guān)系,建立方式為:將待匹配記錄的第三等級字段與初始記錄的第三等級字段的匹配結(jié)果是否符合預(yù)設(shè)的匹配條件,若是,則待匹配記錄與初始記錄關(guān)聯(lián),建立初始記錄與待匹配記錄的視頻元數(shù)據(jù)的關(guān)聯(lián)關(guān)系,若否,則確定待匹配記錄與初始記錄不關(guān)聯(lián),關(guān)聯(lián)結(jié)束。本實施方式中,步驟3)中,所述預(yù)設(shè)的匹配條件包括待匹配記錄與初始記錄至少存在一個相同的主演、待匹配記錄與初始記錄的集數(shù)的偏差小于第一設(shè)定閾值和待匹配記錄與初始記錄的時長的偏差小于第二設(shè)定閾值。其中,所述第一設(shè)定閾值、第二設(shè)定閾值可以通過管理子系統(tǒng)提供界面進行設(shè)置和修改。其中,步驟2)中,若待匹配記錄與初始記錄的第二等級字段均不存在或不同時存在時,進入步驟3);步驟3)中,若待匹配記錄與初始記錄的第三等級字段均不存在或不同時存在時,確定待匹配記錄與初始記錄不關(guān)聯(lián),關(guān)聯(lián)結(jié)束。具體的,本實施方式中,當(dāng)待匹配記錄和初始記錄的地區(qū)、上映年代、影視分類、導(dǎo)演字段都不存在時或者地區(qū)、上映年代、影視分類、導(dǎo)演字段不同時存在時,則執(zhí)行第三等級字段的判斷。本實施方式中,影片名稱作為第一等級字段即最重要因素,以影片名稱作為關(guān)鍵字在其它數(shù)據(jù)源的視頻元數(shù)據(jù)中進行模糊檢索時,包括以影片正式名稱、拆分后的各個子名稱、各個別名分別進行檢索,以保證檢索結(jié)果的盡可能完整。與初始記錄的影片名稱部分相同的記錄是指檢索到的記錄的影片名稱與初始記錄的影片名稱有相同的部分但不完全相同,還可以設(shè)置相同的部分具體有多少可以算是符合部分相同,例如至少兩個字符相同。如果檢索到的記錄與初始記錄的影片名稱完全相同,則直接建立這兩條記錄的關(guān)聯(lián)關(guān)系,在用戶觀看或檢索初始記錄時,可以將與其具有關(guān)聯(lián)關(guān)系的記錄也呈現(xiàn)給用戶,滿足用戶一次搜索到多個視頻源的視頻。當(dāng)影片名稱只有部分相同時,再將檢索到部分相同的記錄的第二等級字段與初始記錄的第二等級字段進行比對,如果兩個記錄的第二等級字段完全相同,則繼續(xù)進行第三等級字段的匹配,如果兩個記錄的第二等級字段不完全相同,則兩條記錄無關(guān)聯(lián),兩條記錄不匹配,比對結(jié)束。如圖3所示,為本實施方式中提供的根據(jù)字段重要度等級建立視頻元數(shù)據(jù)之間關(guān)聯(lián)關(guān)系的一種流程圖,具體步驟如下:1)首先在clean-data-table表中選擇一條記錄作為初始記錄,以該條記錄的“影片名稱”為關(guān)鍵字進行檢索,影片名稱包括完整影片名稱、拆分后影片名稱、影片別名,如果搜索到不同來源的其他記錄,繼續(xù)執(zhí)行后續(xù)流程,否則完成;2)如果“影片名稱”完全相同,則建立關(guān)聯(lián)關(guān)系,比對結(jié)束;否則執(zhí)行后續(xù)比對流程;3)如果“影片名稱”部分比對成功,則執(zhí)行后續(xù)比對流程;否則兩條記錄沒有關(guān)聯(lián)關(guān)系,比對結(jié)束;4)選擇初始記錄的“影視分類”作為關(guān)鍵字進行比對,如果兩條記錄的“影視分類”字段都存在值且不一致,標(biāo)記為不匹配即無關(guān)聯(lián),比對結(jié)束;否則繼續(xù)后續(xù)比對流程;5)選擇初始記錄的“地區(qū)”作為關(guān)鍵字進行比對,如果兩條記錄的地區(qū)字段都存在值且不一致,標(biāo)記為不匹配,比對結(jié)束,標(biāo)記兩條記錄不匹配;否則繼續(xù)后續(xù)比對流程;6)選擇初始記錄的“上映年代”作為關(guān)鍵字進行比對,如果兩條記錄的上映年代都存在值并且不一致,結(jié)束比對,標(biāo)記兩條記錄不匹配;否則繼續(xù)后續(xù)比對流程;7)選擇初始記錄的“導(dǎo)演”作為關(guān)鍵字進行比對,如果兩條記錄的導(dǎo)演都存在值并且不一致,結(jié)束比對,標(biāo)記兩條記錄不匹配;否則繼續(xù)后續(xù)比對流程;其中,步驟4)-7)中,如果初始記錄與檢索到的記錄的“地區(qū)”、“上映年代”、“影視分類”、“導(dǎo)演”字段都不存在值或者每個字段在兩條記錄中不同時有值時,執(zhí)行后續(xù)比對流程;否則標(biāo)記兩條記錄相同即所有第二等級字段都相同,建立關(guān)聯(lián)關(guān)系,比對結(jié)束;9)選擇初始記錄的“主演”作為關(guān)鍵字進行比對,如果兩條記錄的主演都存在值并且完全不一致,標(biāo)記兩條記錄不匹配,結(jié)束比對;否則繼續(xù)后續(xù)比對流程;10)選擇初始記錄的“集數(shù)”作為關(guān)鍵字進行比對,如果兩條記錄的集數(shù)都存在值并且偏差超過某個閾值(該閾值可配置),標(biāo)記兩條記錄不匹配,結(jié)束比對;否則繼續(xù)后續(xù)比對流程;11)選擇初始記錄的“時長”作為關(guān)鍵字進行比對,如果兩條記錄的時長都存在值并且偏差超過某個閾值(該閾值可配置),標(biāo)記兩條記錄不匹配,結(jié)束比對;否則繼續(xù)后續(xù)比對流程;其中,步驟8)-10)中,如果初始記錄與檢索到的記錄的“主演”、“集數(shù)”、“時長”字段都不存在值或者每個字段在兩條記錄中不同時有值時,標(biāo)記兩條記錄沒有關(guān)聯(lián)關(guān)系;否則建立關(guān)聯(lián)關(guān)系,比對結(jié)束。與圖1中所示的方法相對應(yīng),本發(fā)明還提供了一種多源視頻元數(shù)據(jù)的關(guān)聯(lián)系統(tǒng),如圖2所示,該系統(tǒng)包括多源視頻元數(shù)據(jù)采集子系統(tǒng)100、管理子系統(tǒng)200、視頻元數(shù)據(jù)清洗子系統(tǒng)300和視頻元數(shù)據(jù)關(guān)聯(lián)子系統(tǒng)400。其中:多源視頻元數(shù)據(jù)采集子系統(tǒng)100,用于獲取不同數(shù)據(jù)源的視頻,提取視頻的視頻元數(shù)據(jù),設(shè)置每條視頻元數(shù)據(jù)的唯一標(biāo)識,將視頻元數(shù)據(jù)及其唯一標(biāo)識、數(shù)據(jù)源標(biāo)識關(guān)聯(lián)存儲。管理子系統(tǒng)200,用于提供用戶交互界面,實現(xiàn)對多源視頻元數(shù)據(jù)的關(guān)聯(lián)系統(tǒng)的管理;所述管理子系統(tǒng)包括,用于確定視頻元數(shù)據(jù)的字段重要度等級的字段重要度等級確定模塊201;視頻元數(shù)據(jù)清洗子系統(tǒng)300,用于對所提取的視頻元數(shù)據(jù)進行預(yù)處理;所述視頻元數(shù)據(jù)清洗子系統(tǒng)包括元數(shù)據(jù)去重模塊301、字段拆分模塊302和字段格式歸一化模塊303,元數(shù)據(jù)去重模塊301用于對屬于同一數(shù)據(jù)源的視頻元數(shù)據(jù)進行去重處理;視頻元數(shù)據(jù)關(guān)聯(lián)子系統(tǒng)400,用于確定視頻元數(shù)據(jù)的字段重要度等級,根據(jù)字段重要度等級建立視頻元數(shù)據(jù)之間的關(guān)聯(lián)關(guān)系。本實施方式中所提供的多源視頻元數(shù)據(jù)的關(guān)聯(lián)系統(tǒng),管理子系統(tǒng)200負(fù)責(zé)管理其他子系統(tǒng)所需的配置參數(shù),映射關(guān)系,執(zhí)行策略等,支持增刪改查功能,視頻元數(shù)據(jù)關(guān)聯(lián)子系統(tǒng)400通過接口從管理子系統(tǒng)200中查詢相關(guān)配置,在對記錄進行關(guān)聯(lián)比對時應(yīng)用這些配置參數(shù)。數(shù)據(jù)清洗子系統(tǒng)300在對數(shù)據(jù)進行歸一化處理時,通過接口查詢映射關(guān)系(歸一化條件映射表)后,對視頻元數(shù)據(jù)進行歸一化處理,增加后續(xù)視頻元數(shù)據(jù)關(guān)聯(lián)子系統(tǒng)400比對時的成功率。顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進行各種改動和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其同等技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。當(dāng)前第1頁1 2 3 當(dāng)前第1頁1 2 3