專利名稱:一種二維跨媒體元搜索方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種跨媒體元搜索方法和系統(tǒng),特別涉及一種基于查詢聚類和結(jié)果集 交疊分析的二維跨媒體元搜索方法和系統(tǒng),屬于信息檢索領(lǐng)域,具體屬于跨媒體檢索領(lǐng)域。
背景技術(shù):
跨媒體檢索的目的在于利用文本、內(nèi)容等多種特征,從海量數(shù)據(jù)中檢索出匹配的 多媒體文檔?;谖谋镜臋z索主要是將用戶提交的文本查詢與數(shù)據(jù)集中的文本進(jìn)行比對,然后 使用特定模型返回文檔相似度信息給用戶。文本檢索能夠直接獲取多媒體文檔的高層語 義,并達(dá)到較高的查準(zhǔn)率(Precision)和查全率(Recall),但其具有一些難以克服的缺陷(1)文本的二義性。詞匯的二義性導(dǎo)致查準(zhǔn)率降低。如Apple同時(shí)可以作為 apple (fruit)禾口 Apple Company。(2)只有被標(biāo)注或者具有文本描述的多媒體文檔才能夠被檢索到。由于基于文本 的檢索方法需要使用文本關(guān)鍵詞作為特征向量的維度,在沒有文本描述的情況下,多媒體 文檔在特征空間中就不能被檢索到,因而限制了文本檢索方法的應(yīng)用范圍。另一方面,基于內(nèi)容的多媒體檢索從視覺等多種底層特征出發(fā),計(jì)算多媒體文檔 在底層特征上的相似度,避免了文本檢索的大量人為因素和噪聲。但是由于難以建立從底 層特征到高層語義的聯(lián)系,使得基于內(nèi)容的檢索準(zhǔn)確率較低。目前的多媒體檢索還存在著許多不足,主要面向圖像、MP3或視頻等單一媒體,多 種媒體源之間跨媒體語義分析和融合則通常被忽略。顯然,若用戶能以多種媒體的信息描 述方式來輸入查詢請求,則可檢索到更多符合意愿的查詢結(jié)果。針對這一更具挑戰(zhàn)性的需 求,跨媒體搜索(Cross media retrieval)技術(shù)通過多種媒體源之間語義關(guān)聯(lián)分析和融合, 允許用多種媒體信息表達(dá)用戶查詢需求,并最終能輸出多種媒體類型的查詢結(jié)果。例如,當(dāng) 查詢請求為某演員的照片時(shí),查詢結(jié)果可能包括該演員的個(gè)人情況網(wǎng)頁、有關(guān)他的新聞網(wǎng) 頁、個(gè)人博客、影視劇照以及出演的不同電影視頻片斷等。與傳統(tǒng)的多媒體檢索相比,跨媒 體檢索的復(fù)雜性主要來自需要將多種信息源的異構(gòu)多媒體信息進(jìn)行融合與集成。對跨媒體檢索來說,關(guān)鍵在于跨媒體融合策略,而跨媒體融合策略可以分為2個(gè) 層次特征層融合和結(jié)果層融合。特征層融合跨媒體檢索的特征層融合首先對跨媒體查詢、多媒體文檔的原始信 息進(jìn)行特征提取(特征可以是文本關(guān)鍵詞、顏色、紋理、形狀、時(shí)空特征、人臉等),然后對特 征信息進(jìn)行綜合分析和處理,最后由多媒體信息檢索模型生成統(tǒng)一的檢索結(jié)果集。結(jié)果層融合也稱為決策層融合,其使用不同檢索模型檢索同一個(gè)多媒體查詢,對 各自處理的媒體類型和模態(tài)數(shù)據(jù)進(jìn)行預(yù)處理、特征抽取、索引、識(shí)別或檢索,并返回該多媒 體查詢的初步檢索結(jié)果集。然后通過關(guān)聯(lián)處理、加權(quán)模型等方法進(jìn)行決策層融合判決,最終 獲得多個(gè)檢索模型的聯(lián)合檢索結(jié)果集。
圖1示出了現(xiàn)有技術(shù)中跨媒體融合的特征層融合和結(jié)果層融合的層次結(jié)構(gòu)示意圖?,F(xiàn)有的跨媒體元搜索研究大致可以分為兩個(gè)部分關(guān)于元搜索的研究和關(guān)于跨媒 體檢索的研究。元搜索關(guān)注對不同檢索系統(tǒng)提供的檢索結(jié)果集進(jìn)行合并、加權(quán)等操作,獲 得單一的檢索結(jié)果集,常見的方法包括Comb融合、Borda融合、邏輯回歸融合、線性融合、 Round-Robin 等。在跨媒體融合檢索與分析方面,發(fā)表于2003年的國際多媒體會(huì)議ACM MM的論文 “多模態(tài)關(guān)聯(lián)的多媒體內(nèi)容處理”(D. Li, N. Dimitrova, M. Li, and I. K. Sethi.,Multimedia content processing through cross-modal association, In Proceedings of the 7th ACM International Conference on Multimedia,604-611,Oct. 2003.)、發(fā)表于 2006 年 的國際圖像處理會(huì)議ICIP的論文“面向跨媒體檢索的語義關(guān)聯(lián)性學(xué)習(xí)”(F.Wu,H. Zhang, and Y. Zhuang, Learning semantic correlation for cross-media retrieval, In Proceedings of the 13th International Conference Image Processing,1465—1468, Sep. 2006.)等采用特征子空間分析方法來發(fā)現(xiàn)視覺特征與文本特征之間的跨模態(tài)相關(guān)性。Query-Class的方法近年來被一些學(xué)者研究,發(fā)表于2004年的國際多媒 體會(huì)議ACM匪的論文“自動(dòng)視頻檢索中的查詢類別權(quán)重學(xué)習(xí)”(R.Yan,J. Yang, and A. G. Hauptmann, Learning query-class dependent weights in automatic video retrieval, In Proceedings of the 12th ACM International Conference on Multimedia, 548-555,Oct. 2004.)將查詢劃分到預(yù)先定義好的類別,論文“多檢索源 結(jié)合的概率隱性查詢分析”(R. Yan and A. Hauptmann, Probabilistic latent query analysis for combining multiple retrieval sources, In Proceedings of the 29th Annual International ACM SIGIR Conference on Research Development Information Retrieval, 324-331, 2006.)則將查詢劃分到隱性類別,然后對于不同類別的查詢分別學(xué)習(xí) 最優(yōu)的融合參數(shù),將跨媒體的查詢轉(zhuǎn)化為針對不同的query分類學(xué)習(xí)優(yōu)化的融合參數(shù),能 夠有效地在學(xué)習(xí)成本和融合效果間達(dá)到有利的權(quán)衡。對查詢分類有如下假設(shè)(1)查詢(Query)可以被劃分為少數(shù)的有限類別,對于同一類別的查詢,具有相同 或者相似的跨媒體融合策略。例如,查詢“Hu Jintao”和查詢“Geroge W. Bush”都傾向于 使用命名實(shí)體識(shí)別、人臉識(shí)別等方法,而查詢“日出”和查詢“日落”則傾向于給基于顏色直 方圖的查詢方法更高的融合權(quán)重。(2)查詢(Query)的文本描述或樣例可以被用來決定該查詢的類別歸屬。論文“視頻搜索的動(dòng)態(tài)多模態(tài)融合” (L. Xie, A. Natsev, and J. Tesic,Dynamic multimodal fusion in video search Int. Conf. Multimedia and Expo, 2007)使用了 動(dòng)態(tài)分類的方法,通過將新的查詢與已有分類進(jìn)行比較,可以生成新的查詢類別。在多模 態(tài)的文本檢索領(lǐng)域,論文“查詢難度估計(jì)應(yīng)用到丟失內(nèi)容檢索和分布式信息檢索”(E. Yom-Tov, S.Fine, D.Carme1, and A. Darlow, Learning to estimate query difficulty Including applications to missing content detection and distributed information retrieval, SIGIR,2005)使用Difficulty Prediction的方法將查詢分為若干個(gè)文本關(guān) 鍵詞的子查詢,使用子查詢之間返回結(jié)果的重疊數(shù)量以及文檔頻率來預(yù)測此子查詢的重要 性,從而預(yù)測每個(gè)子查詢的檢索效果,并進(jìn)行加權(quán)。在申請?zhí)枮?00610053390. 4,名稱為“基于內(nèi)容相關(guān)性的跨媒體檢索方法”的中國專利申請中,提出一種基于內(nèi)容相關(guān)性的跨媒體檢索方法。該方法采用典型相關(guān)性分析,同 時(shí)分析不同模態(tài)媒體數(shù)據(jù)的內(nèi)容特征;然后通過子空間映射算法,將圖像數(shù)據(jù)的視覺特征 向量和音頻數(shù)據(jù)的聽覺特征向量同時(shí)映射到一個(gè)低維的同構(gòu)子空間中。本發(fā)明與該方法的 不同點(diǎn)在本發(fā)明中,多媒體融合不僅僅是在特征層進(jìn)行融合,還考慮到不同系統(tǒng)對查詢響 應(yīng)的性能,特征層融合不是通過子空間映射,而是通過聚類方法。在申請?zhí)枮?00610053392. 3,名稱為“基于多模態(tài)信息融合分析的跨媒體檢索方 法”的中國專利申請中,提出一種基于多模態(tài)信息融合分析的跨媒體檢索方法。利用該方 法可以對多模態(tài)信息融合分析進(jìn)行多媒體語義理解,通過提交任意模態(tài)的檢索例子去檢索 任意模態(tài)的媒體對象或者多媒體文檔。本發(fā)明與該方法的不同點(diǎn)在本發(fā)明中,不僅可以通 過某一個(gè)模態(tài)查詢檢索到其他模態(tài)的文檔,更側(cè)重于利用不同模態(tài)的特征來改善檢索的性 能。
發(fā)明內(nèi)容
面對大規(guī)模的多媒體文檔,如何利用文本、視覺等多種特征,在特征層和決策層進(jìn) 行跨媒體融合,有效提高查詢的準(zhǔn)確性是跨媒體元搜索方法的新課題。為了克服現(xiàn)有技術(shù) 的不足,本發(fā)明提供了一種基于查詢聚類和結(jié)果集交疊分析的二維跨媒體元搜索方法,其 中,簇是指對多媒體文檔進(jìn)行聚類(或分類)操作后的結(jié)果(Cluster,或類別);交疊是指 不同結(jié)果集之間的重疊;二維是指在本方法中從簇和交疊兩個(gè)維度獲取了融合權(quán)重。本發(fā) 明解決其技術(shù)問題所采用的技術(shù)方案是一種二維跨媒體元搜索方法,該方法基于查詢聚類和結(jié)果集交疊分析,其包括1)預(yù)處理階段對已有的部分查詢數(shù)據(jù)進(jìn)行標(biāo)注,并將已標(biāo)注的數(shù)據(jù)樣本進(jìn)行數(shù) 據(jù)聚類,將相似的數(shù)據(jù)樣本聚類到同一個(gè)簇中,學(xué)習(xí)每個(gè)簇中來自不同子檢索模型的檢索 結(jié)果間的融合權(quán)重;2)查詢分類階段給定新的查詢請求,首先確定該查詢與每個(gè)簇的距離或相似 度,再計(jì)算該查詢與每個(gè)簇的相關(guān)概率;3)檢索執(zhí)行階段對該查詢請求,使用至少2個(gè)子檢索模型分別進(jìn)行檢索,并分別 獲得相應(yīng)的檢索結(jié)果集;4)融合階段首先對各子檢索模型的結(jié)果集進(jìn)行交疊分析,計(jì)算結(jié)果集交疊情況 下的融合權(quán)重;然后結(jié)合簇的融合權(quán)重和結(jié)果集的融合權(quán)重,獲得對應(yīng)于該查詢請求的最 終融合策略,輸出融合后的檢索結(jié)果集。所述預(yù)處理階段包括以下步驟(1)查詢標(biāo)注給定一個(gè)已有的部分查詢數(shù)據(jù)集合,由用戶對各子檢索模型的檢 索結(jié)果集中的數(shù)據(jù)樣本進(jìn)行正負(fù)例標(biāo)注;(2)數(shù)據(jù)聚類利用特征對用戶標(biāo)注的數(shù)據(jù)樣本進(jìn)行無監(jiān)督聚類,將相似的樣本 聚類到同一個(gè)簇中,并記錄每個(gè)樣本對應(yīng)的簇編號(hào);所述數(shù)據(jù)聚類依據(jù)以下步驟進(jìn)行用戶提交查詢請求,并在檢索后標(biāo)注出結(jié)果中滿足查詢要求的樣本;選取全部或部分用戶已標(biāo)注的查詢數(shù)據(jù)作為聚類的對象;提取聚類對象的跨媒體特征,包括文本特征以及顏色、紋理、形狀和關(guān)鍵點(diǎn)等視覺特征;以及,用聚類方法將數(shù)據(jù)聚類為有限個(gè)簇。優(yōu)選地,所述聚類方法采用多種聚類方法,可采用k均值聚類算法(K-means)、均 值漂移算法(Mean Shift)或概率潛在語義分析算法(pLSA)。所述權(quán)重學(xué)習(xí)方法依據(jù)用戶的標(biāo)注數(shù)據(jù)進(jìn)行優(yōu)化學(xué)習(xí)得到;所述融合權(quán)重依據(jù)子 檢索模型的結(jié)果集交疊在全局或者局部特征的分布情況確定。(3)簇權(quán)重計(jì)算其使用統(tǒng)計(jì)學(xué)習(xí)方法為每個(gè)簇學(xué)習(xí)得到該簇中來自不同子檢索 模型的檢索結(jié)果間的融合權(quán)重。假設(shè)有查詢集合β = ·^,‘_··,‘···,% ,其中Nq為查詢的數(shù) 量,如果查詢^的標(biāo)注集合為y5={/(q3,x丨),χ, ex }e {0,1}, 1 為相關(guān),0 為不相關(guān)其中,Xi e χ為針對查詢☆各檢索模型對文檔i返回的值構(gòu)成的m維向量,m為檢 索模型個(gè)數(shù)。例如對于圖像1051,使用文本檢索查詢“blue flower”的得分是0. 53,使用樣 例比較出來的得分是0. 24,則該圖像的得分向量可以表示為<0. 53,0. 24>。ya(qs,x,)e{0,1} 為根據(jù)輸入查詢和向量,文檔被判定為相關(guān)或者不相關(guān)的結(jié)果。所述查詢分類階段包括以下步驟(1)利用已有方法提取輸入查詢的文本特征和視覺特征;(2)計(jì)算該查詢與簇的相關(guān)概率,其計(jì)算方法包括但不限于計(jì)算該查詢與簇中心 的距離或相似度、計(jì)算該查詢與簇邊緣的距離。所述檢索執(zhí)行階段包括以下步驟(1)對輸入查詢進(jìn)行分析,將查詢分解為多個(gè)子查詢并分別輸入各子檢索模型;(2)使用各子檢索模型分別進(jìn)行檢索。所述融合階段包括交疊權(quán)重計(jì)算和二維融合權(quán)重計(jì)算兩個(gè)步驟(1)交疊權(quán)重計(jì)算首先定義一個(gè)結(jié)果集交疊集合,利用結(jié)果集在前N個(gè)位置的結(jié) 果集交疊情況,為每個(gè)子檢索模型學(xué)習(xí)特定的權(quán)重;權(quán)重的確定方法包括但不限于利用交 疊文檔數(shù)量衡量系統(tǒng)性能,N為自然數(shù);(2) 二維融合權(quán)重計(jì)算二維融合模型對查詢或樣本的每一個(gè)簇以及結(jié)果集中不 同區(qū)段的文檔都賦予特定的融合權(quán)重,即分別在兩個(gè)維度進(jìn)行融合其一,橫向融合,針對每個(gè)簇進(jìn)行融合,通過使用了跨媒體特征進(jìn)行樣本聚類和查 詢分類,橫向融合被看作是特征層的融合;其二,縱向融合,縱向融合被看作是結(jié)果層的融合,其利用結(jié)果集交疊進(jìn)行融合, 采用基于局部交疊密度的融合方法進(jìn)行縱向融合,得到基于結(jié)果集局部交疊密度的融合權(quán)重。所述二維權(quán)重的融合方式包括但不限于將橫向和縱向的權(quán)重相乘;所述基于結(jié)果 集局部交疊密度的融合權(quán)重是指定義一個(gè)結(jié)果集交疊集合,設(shè)定一個(gè)移動(dòng)的局部窗口,利用成員檢索引擎結(jié)果集 在窗口內(nèi)返回結(jié)果中交疊結(jié)果的比例確定成員檢索引擎的權(quán)重。優(yōu)選地,所述二維跨媒體元搜索方法還包括更新階段當(dāng)滿足一定更新條件時(shí),重 新收集查詢數(shù)據(jù)并進(jìn)行標(biāo)注,通過學(xué)習(xí)來更新簇及相應(yīng)的融合權(quán)重;具體包括以下步驟
(1)重新收集查詢數(shù)據(jù),用戶對查詢數(shù)據(jù)中的檢索結(jié)果進(jìn)行標(biāo)注或反饋;(2)依據(jù)目標(biāo)優(yōu)化函數(shù),合并或增加簇的數(shù)量。一種二維跨媒體元搜索系統(tǒng),其包括(1)預(yù)處理模塊其收集已有的部分多媒體查詢數(shù)據(jù)并進(jìn)行標(biāo)注,然后進(jìn)行數(shù)據(jù) 聚類并學(xué)習(xí)得到簇的融合權(quán)重,所述多媒體數(shù)據(jù)包含文本、圖像、全景動(dòng)畫、在線視頻多種 數(shù)據(jù);(2)多媒體查詢處理模塊其負(fù)責(zé)對用戶輸入的查詢請求進(jìn)行分類處理并分解到 子檢索引擎模塊;(3)子檢索引擎模塊其使用至少2個(gè)檢索模型對數(shù)據(jù)集進(jìn)行檢索,所述檢索模型 包括且不限于基于向量空間模型的文本檢索模型、基于TF-IDF模型的文本檢索模型、基于 內(nèi)容的圖像檢索模型、基于概念的圖像檢索模型、基于視音頻特征的視頻片段檢索模型;(4)跨媒體融合模塊對多個(gè)子檢索引擎模塊的檢索結(jié)果進(jìn)行融合,輸出融合后 的檢索結(jié)果集;(5)檢索結(jié)果呈現(xiàn)模塊呈現(xiàn)所述融合后的檢索結(jié)果集,或者以對比方式同時(shí)呈 現(xiàn)各子檢索引擎模塊的檢索結(jié)果和融合后的檢索結(jié)果集;所述二維跨媒體元搜索系統(tǒng)各模塊之間的聯(lián)系如下所述預(yù)處理模塊在系統(tǒng)運(yùn)行前或在滿足更新條件時(shí),將所述簇的融合權(quán)重結(jié)果輸 出到跨媒體融合模塊中;多媒體查詢處理模塊對用戶的查詢請求進(jìn)行處理并分發(fā)查詢命令 到子檢索引擎模塊;子檢索引擎模塊接到查詢命令后執(zhí)行相應(yīng)的檢索操作,并將檢索結(jié)果 發(fā)送到跨媒體融合模塊;跨媒體融合模塊依據(jù)預(yù)處理模塊學(xué)習(xí)得到的各個(gè)簇的融合權(quán)重, 對多個(gè)子檢索引擎模塊的檢索結(jié)果進(jìn)行融合,并將融合后的檢索結(jié)果集發(fā)送到檢索結(jié)果呈 現(xiàn)模塊;檢索結(jié)果呈現(xiàn)模塊對融合后的檢索結(jié)果集進(jìn)行呈現(xiàn),或者以對比方式同時(shí)呈現(xiàn)各 子檢索引擎模塊的檢索結(jié)果和融合后的檢索結(jié)果集。本發(fā)明的有益效果本發(fā)明所提供的跨媒體元搜索方法在面對多媒體文檔的特征 復(fù)雜和檢索數(shù)據(jù)量巨大的問題時(shí),能同時(shí)利用類似查詢在特征上的相似性、在檢索結(jié)果集 融合模式上的相似性、以及不同子檢索模型的檢索結(jié)果集交疊特性來有效改進(jìn)檢索性能。 表1是本發(fā)明的方法(表中用BiDimFusion來指代)與其他方法在WikipediaMM圖像數(shù)據(jù) 集上的實(shí)驗(yàn)結(jié)果對比。其中,BordEuCombSum和RoundRobin是與目前公認(rèn)較好的元搜索融 合方法,Cluster是基于聚類學(xué)習(xí)融合權(quán)重的方法,local-cbir-text是僅基于局部交疊密 度的跨媒體融合方法,text和cbir是指僅基于文本或圖像內(nèi)容的檢索方法。表1列出了 本發(fā)明的方法與其他方法在WikipediaMM數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比,由表1可以看出相對 于其它方法,本發(fā)明所提供的方法可以在MAP、R-Prec, B-Pref上達(dá)到較好的結(jié)果;在排序 靠后的結(jié)果中,本發(fā)明所提供的方法要優(yōu)于其他系統(tǒng);相對于單一維度的融合方法,本發(fā)明 方法的性能優(yōu)于僅基于聚類的方法或僅基于局部交疊密度的方法。表1 本發(fā)明的方法與其他方法在WikipediaMM數(shù)據(jù)集上的實(shí)驗(yàn)結(jié)果對比
權(quán)利要求
一種二維跨媒體元搜索方法,其特征在于,所述方法基于查詢聚類和結(jié)果集交疊分析,包括1)預(yù)處理階段對已有的部分查詢數(shù)據(jù)進(jìn)行標(biāo)注,并將已標(biāo)注的數(shù)據(jù)樣本進(jìn)行數(shù)據(jù)聚類,將相似的數(shù)據(jù)樣本聚類到同一個(gè)簇中,學(xué)習(xí)每個(gè)簇中來自不同子檢索模型的檢索結(jié)果間的融合權(quán)重,得到簇的融合權(quán)重;2)查詢分類階段給定新的查詢請求,首先確定該查詢與每個(gè)簇的距離或相似度,再計(jì)算該查詢與每個(gè)簇的相關(guān)概率;3)檢索執(zhí)行階段對該查詢請求,使用至少2個(gè)子檢索模型分別進(jìn)行檢索,并分別獲得相應(yīng)的檢索結(jié)果集;4)融合階段首先對各子檢索模型的檢索結(jié)果集進(jìn)行交疊分析,計(jì)算所述檢索結(jié)果集交疊情況下的融合權(quán)重;然后結(jié)合所述簇的融合權(quán)重和所述檢索結(jié)果集的融合權(quán)重,獲得對應(yīng)于該查詢請求的最終融合策略,輸出融合后的檢索結(jié)果集。
2.根據(jù)權(quán)利要求1所述的一種二維跨媒體元搜索方法,其特征在于,所述預(yù)處理階段 具體包括以下步驟(1)查詢標(biāo)注給定一個(gè)已有的部分查詢數(shù)據(jù)集合,由用戶對各子檢索模型的檢索結(jié) 果集中的數(shù)據(jù)樣本進(jìn)行正負(fù)例標(biāo)注;(2)數(shù)據(jù)聚類利用特征對用戶標(biāo)注的數(shù)據(jù)樣本進(jìn)行無監(jiān)督聚類,將相似的樣本聚類 到同一個(gè)簇中,并記錄每個(gè)樣本對應(yīng)的簇編號(hào);(3)簇權(quán)重學(xué)習(xí)使用統(tǒng)計(jì)學(xué)習(xí)方法為每個(gè)簇學(xué)習(xí)得到該簇中來自不同子檢索模型的 檢索結(jié)果間的融合權(quán)重,進(jìn)而得到簇的融合權(quán)重。
3.根據(jù)權(quán)利要求2所述的一種二維跨媒體元搜索方法,其特征在于,所述數(shù)據(jù)聚類依 據(jù)以下步驟進(jìn)行用戶提交查詢請求,并在檢索后標(biāo)注出結(jié)果中滿足查詢要求的樣本;選取全部或部分用戶已標(biāo)注的查詢數(shù)據(jù)作為聚類的對象;提取聚類對象的跨媒體特征,包括文本特征和視覺特征,所述視覺特征包括顏色、紋 理、形狀和/或關(guān)鍵點(diǎn);以及,用聚類方法將數(shù)據(jù)聚類為有限個(gè)簇。
4.根據(jù)權(quán)利要求2所述的一種二維跨媒體元搜索方法,其特征在于,所述聚類方法 采用k均值聚類算法(K-means)、均值漂移算法(Mean Shift)或概率潛在語義分析算法 (PLSA);所述權(quán)重學(xué)習(xí)方法依據(jù)用戶的標(biāo)注數(shù)據(jù)進(jìn)行優(yōu)化學(xué)習(xí)得到;所述融合權(quán)重依據(jù)子 檢索模型的結(jié)果集交疊在全局或者局部特征的分布情況確定。
5.根據(jù)權(quán)利要求1所述的一種二維跨媒體元搜索方法,其特征在于,所述查詢分類階 段具體包括以下步驟(1)利用已有方法提取輸入查詢的文本特征和視覺特征;(2)計(jì)算該查詢與簇的相關(guān)概率,其計(jì)算方法包括但不限于計(jì)算該查詢與簇中心的距 離或相似度、計(jì)算該查詢與簇邊緣的距離。
6.根據(jù)權(quán)利要求1所述的一種二維跨媒體元搜索方法,其特征在于,所述檢索執(zhí)行階 段包括以下步驟(1)對輸入查詢進(jìn)行分析,將查詢分解為多個(gè)子查詢并分別輸入各子檢索模型;(2)使用各子檢索模型分別進(jìn)行檢索。
7.根據(jù)權(quán)利要求1所述的一種二維跨媒體元搜索方法,其特征在于,所述融合階段包 括如下兩個(gè)步驟(1)交疊權(quán)重計(jì)算首先定義一個(gè)結(jié)果集交疊集合,利用結(jié)果集在前N個(gè)位置的結(jié)果集 交疊情況,為每個(gè)子檢索模型學(xué)習(xí)特定的權(quán)重;權(quán)重的確定方法包括但不限于利用交疊文 檔數(shù)量衡量系統(tǒng)性能,N為自然數(shù);(2)二維融合權(quán)重計(jì)算二維融合模型對查詢或樣本的每一個(gè)簇以及結(jié)果集中不同區(qū) 段的文檔都賦予特定的融合權(quán)重,即分別在兩個(gè)維度進(jìn)行融合其一,橫向融合,針對每個(gè)簇進(jìn)行融合,通過使用跨媒體特征進(jìn)行樣本聚類和查詢分 類,橫向融合被看作是特征層的融合;其二,縱向融合,縱向融合被看作是結(jié)果層的融合,其利用結(jié)果集交疊進(jìn)行融合,采用 基于局部交疊密度的融合方法進(jìn)行縱向融合,得到基于結(jié)果集局部交疊密度的融合權(quán)重;所述二維融合權(quán)重的融合方式包括但不限于將所述橫向融合和所述縱向融合的融合 權(quán)重相乘。
8.根據(jù)權(quán)利要求7所述的一種二維跨媒體元搜索方法,其特征在于,所述基于結(jié)果集 局部交疊密度的融合權(quán)重是指定義一個(gè)結(jié)果集交疊集合,設(shè)定一個(gè)移動(dòng)的局部窗口,利用所述子檢索模型結(jié)果集在 窗口內(nèi)返回結(jié)果中交疊結(jié)果的比例確定子檢索模型的權(quán)重。
9.根據(jù)權(quán)利要求1所述的一種二維跨媒體元搜索方法,其特征在于,還包括更新階段 當(dāng)滿足一定更新條件時(shí),重新收集查詢數(shù)據(jù)并進(jìn)行標(biāo)注,通過學(xué)習(xí)來更新簇及相應(yīng)的融合 權(quán)重;具體包括以下步驟(1)重新收集查詢數(shù)據(jù),用戶對查詢數(shù)據(jù)中的檢索結(jié)果進(jìn)行標(biāo)注或反饋;(2)依據(jù)目標(biāo)優(yōu)化函數(shù),合并或增加簇的數(shù)量。
10.一種二維跨媒體元搜索系統(tǒng),其特征在于,包括(1)預(yù)處理模塊其負(fù)責(zé)收集已有的部分多媒體查詢數(shù)據(jù)并進(jìn)行標(biāo)注,然后進(jìn)行數(shù)據(jù) 聚類和學(xué)習(xí)得到簇的融合權(quán)重,所述多媒體數(shù)據(jù)包含文本、圖像、全景動(dòng)畫、在線視頻多種 數(shù)據(jù);(2)多媒體查詢處理模塊其負(fù)責(zé)對用戶輸入的查詢請求進(jìn)行分類處理并分解到子檢 索引擎模塊;(3)子檢索引擎模塊其使用至少2個(gè)檢索模型對數(shù)據(jù)集進(jìn)行檢索,所述檢索模型包括 且不限于基于向量空間模型的文本檢索模型、基于TF-IDF模型的文本檢索模型、基于內(nèi)容 的圖像檢索模型、基于概念的圖像檢索模型、基于視音頻特征的視頻片段檢索模型;(4)跨媒體融合模塊對多個(gè)子檢索引擎模塊的檢索結(jié)果進(jìn)行融合,輸出融合后的檢 索結(jié)果集;(5)檢索結(jié)果呈現(xiàn)模塊負(fù)責(zé)呈現(xiàn)所述融合后的檢索結(jié)果集,或者以對比方式同時(shí)呈 現(xiàn)各子檢索引擎模塊的檢索結(jié)果和融合后的檢索結(jié)果集;所述二維跨媒體元搜索系統(tǒng)各模塊之間的聯(lián)系如下所述預(yù)處理模塊在系統(tǒng)運(yùn)行前或在滿足更新條件時(shí),將所述簇的融合權(quán)重結(jié)果輸出到 跨媒體融合模塊中;多媒體查詢處理模塊對用戶的查詢請求進(jìn)行處理并分發(fā)查詢命令到子檢索引擎模塊;子檢索引擎模塊接到查詢命令后執(zhí)行相應(yīng)的檢索操作,并將檢索結(jié)果發(fā)送 到跨媒體融合模塊;跨媒體融合模塊依據(jù)預(yù)處理模塊學(xué)習(xí)得到的各個(gè)簇的融合權(quán)重,對多 個(gè)子檢索引擎模塊的檢索結(jié)果進(jìn)行融合,并將融合后的檢索結(jié)果集發(fā)送到檢索結(jié)果呈現(xiàn)模 塊;檢索結(jié)果呈現(xiàn)模塊對融合后的檢索結(jié)果集進(jìn)行呈現(xiàn),或者以對比方式同時(shí)呈現(xiàn)各子檢 索引擎模塊的檢索結(jié)果和融合后的檢索結(jié)果集。
全文摘要
一種二維跨媒體元搜索方法和系統(tǒng),屬于信息檢索領(lǐng)域。本發(fā)明的元搜索方法基于查詢聚類和結(jié)果集交疊分析,通過對不同的子檢索模型提供的檢索結(jié)果集進(jìn)行合并、加權(quán)等融合操作,最終獲得單一的檢索結(jié)果集。該元搜索方法包括預(yù)處理階段;查詢分類階段;檢索執(zhí)行階段;融合階段;以及,更新階段。本發(fā)明所提供的跨媒體元搜索方法能同時(shí)利用類似查詢在特征上的相似性、在檢索結(jié)果融合模式上的相似性、以及不同子檢索模型的檢索結(jié)果集交疊特性等來有效改進(jìn)檢索性能,其檢索性能優(yōu)于單一維度的跨媒體搜索方法。
文檔編號(hào)G06F17/30GK101996191SQ20091009090
公開日2011年3月30日 申請日期2009年8月14日 優(yōu)先權(quán)日2009年8月14日
發(fā)明者周志, 田永鴻, 高文, 黃鐵軍 申請人:北京大學(xué)