亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于跨模態(tài)稀疏主題建模的跨媒體檢索方法

文檔序號:6511058閱讀:150來源:國知局
一種基于跨模態(tài)稀疏主題建模的跨媒體檢索方法
【專利摘要】本發(fā)明公開了一種基于跨模態(tài)稀疏主題建模的跨媒體檢索方法。它包括如下步驟:1)對于已有的跨模態(tài)多媒體數(shù)據(jù)進(jìn)行聯(lián)合分析,提取其中的主題特征;2)基于已有的圖像和文本特征,分析出其中主題與特征之間的稀疏關(guān)聯(lián),篩選特征與主體之間的相關(guān)性,并為跨模態(tài)多媒體文檔提供相應(yīng)的主題空間表示;3)根據(jù)用戶檢索的圖像或文本信息,在稀疏主題空間中提供跨模態(tài)的多媒體檢索同能,返回相關(guān)主題的圖像和文本檢索結(jié)果。由于本發(fā)明在對文本與圖像進(jìn)行投影時(shí),采用稀疏的約束方式,使得每個(gè)主題相關(guān)的文本與圖像特征更精確,因此可以獲得更準(zhǔn)確的檢索結(jié)果。
【專利說明】一種基于跨模態(tài)稀疏主題建模的跨媒體檢索方法
【技術(shù)領(lǐng)域】[0001]本發(fā)明涉及多媒體檢索,尤其涉及一種跨模態(tài)稀疏主題建模的跨媒體檢索方法?!颈尘凹夹g(shù)】
[0002]在傳統(tǒng)的搜索引擎技術(shù)中,使用關(guān)鍵字搜索是最常用的一種檢索手段,近年來興起的圖片搜索,即通過用戶上傳圖像進(jìn)行檢索的方式也得到的廣泛的應(yīng)用,如商業(yè)引擎Google和Baidu都提出了具有較高搜索成功率的圖像搜索引擎,其中Baidu還借助深度學(xué)習(xí)的技術(shù),進(jìn)一步提高了圖像檢索的成功率。在Web搜索的用戶請求中,用戶通常希望的到與搜索關(guān)鍵詞或搜索圖像相關(guān)的圖像及關(guān)鍵字搜索結(jié)果。例如,用戶請求“毒奶粉事件”,所返回的搜索結(jié)果應(yīng)該包含與“毒奶粉事件”相關(guān)的文字內(nèi)容,同時(shí)還應(yīng)該返回與其相關(guān)的新聞主題圖片。然而,對于同時(shí)包含圖像以及文本內(nèi)容的跨模態(tài)檢索,不僅需要打破底層特征和高層語義之間存在的“語義鴻溝”,更需要打破文本特征與圖像特征之間關(guān)系的壁壘,這時(shí)候就需要一種同時(shí)包含多種模態(tài)數(shù)據(jù)信息的檢索方法,通過同時(shí)對圖像和文本特征建模,實(shí)現(xiàn)跨模態(tài)的檢索方法。
[0003]對于存在于互聯(lián)網(wǎng)上的圖像,通常有一些與之相關(guān)的文字信息。圖像信息與文本信息描述的內(nèi)容相一致,并且同隸屬于某一主題。例如,一副軍艦的圖片,旁邊的文字內(nèi)容包括“…軍用艦船軍艦是列入海軍編制,用于完成戰(zhàn)斗任務(wù)和保障任務(wù)的戰(zhàn)斗艦艇和特種艦艇…”,文字與圖片描述的都是關(guān)于“軍艦”這一概念,并且“軍艦”隸屬于“軍事”這一主題下。對于每一個(gè)“概念”,可以用不止一個(gè)主題來概括,比如“軍艦”,可以同時(shí)隸屬于“軍事”,“船只”,“武器”,“安全”等多個(gè)主題下,因此對于每一個(gè)概念,我們可以反過來用其所隸屬的主題來對他進(jìn)行描述。通過抽象出每個(gè)主題相關(guān)的視覺特征與文字特征,從而將基于圖像特征與文字特征描述的概念,轉(zhuǎn)換成基于主題的表示,從而對于概念相關(guān)的圖像和文字,均可以在此主題空間內(nèi)進(jìn)行相互檢索,進(jìn)而實(shí)現(xiàn)跨媒體檢索的功能。
[0004]通過對主題一圖像文本特征進(jìn)行建模,不僅能以此對圖像和文本實(shí)現(xiàn)跨媒體檢索,并且可以進(jìn)一步對主題進(jìn)行細(xì)化,提高描述的準(zhǔn)確性。對于傳統(tǒng)的子空間學(xué)習(xí)方法,通過學(xué)習(xí)投影矩陣,將原圖像和文本信息從原有的特征空間投影到主題空間中,但是,相對傳統(tǒng)的學(xué)習(xí)方法,學(xué)習(xí)出來的子空間基與原有空間的所有特征相關(guān)。這樣的描述不利于主題表達(dá)方式的準(zhǔn)確性,因此需要進(jìn)一步對新的主題空間進(jìn)行約束,從而增加主題描述的準(zhǔn)確性,最終達(dá)到提高跨媒體檢索準(zhǔn)確性的目的。
[0005]因此,本發(fā)明通過將概念相關(guān)的圖像以及文字信息,投影到同一主題空間中,在此主題空間中對圖像及文本信息進(jìn)行統(tǒng)一的檢索。此外,本發(fā)明在構(gòu)造此主題空間的同時(shí),通過對空間基的約束,使得每一主題相關(guān)的圖像及文本特征具有稀疏的特征,從而讓每一主題僅挑選與該主題最相關(guān)的特征,讓每個(gè)主題的描述更加準(zhǔn)確,并使每個(gè)概念相關(guān)的圖像與文本內(nèi)容在主題空間中的表示更準(zhǔn)確,最終實(shí)現(xiàn)更準(zhǔn)確的跨模態(tài)稀疏主題建模跨媒體檢索方法。
【發(fā)明內(nèi)容】

[0006]本發(fā)明的目的是克服現(xiàn)有技術(shù)的不足,提供一種基于跨模態(tài)稀疏主題建模的跨媒體檢索方法。
[0007]基于跨模態(tài)的稀疏主題建模的跨媒體檢索方法包括如下步驟:
[0008]I)對于已有的跨模態(tài)多媒體數(shù)據(jù)進(jìn)行聯(lián)合分析,提取其中的主題特征;
[0009]2)基于已有的圖像和文本特征,分析出其中主題與特征之間的稀疏關(guān)聯(lián),篩選特征與主體之間的相關(guān)性,并為跨模態(tài)多媒體文檔提供相應(yīng)的主題空間表示;
[0010]3)根據(jù)用戶檢索的圖像或文本信息,在稀疏主題空間中提供跨模態(tài)的多媒體檢索同能,返回相關(guān)主題的圖像和文本檢索結(jié)果。
[0011]所述的步驟I)包括:
[0012]I)對數(shù)據(jù)庫中的所有圖像提取SIFT特征,并對抽取得的特征進(jìn)行聚類,得到1000個(gè)視覺單詞,并計(jì)算每幅圖像包含的SIFT特征點(diǎn)與視覺單詞的距離,用視覺單詞的頻譜來表不每幅圖像;
[0013]2)對數(shù)據(jù)庫中的所有文本進(jìn)行為詞匯頻率統(tǒng)計(jì),并矢量化。
[0014]所述的步驟2)包括:
[0015]I)將所提取的跨媒體文檔包含的視覺及文本特征向量化,并組合形成矩陣形式;
2)對組合得到的視覺及文本特征矩陣進(jìn)行稀疏主題學(xué)習(xí),學(xué)習(xí)得到稀疏主題空間的一組新的基,并且使得他們具有正交并且稀疏的特性;
[0016]3)得到的新的主題空間的每一個(gè)基都是通過學(xué)習(xí)的到的稀疏主題,其與視覺及文本特征的相關(guān)性具有稀疏性。
[0017]所述的步驟3)為:
[0018]I)根據(jù)從稀疏主題建模中得到的稀疏主題空間中的基,將用戶提交的檢索文本或圖像投影到所構(gòu)建的稀疏主題空間中。
[0019]2)通過將用戶提交的文本或圖像在稀疏主題空間中的表示,與數(shù)據(jù)庫中已有的跨模態(tài)多媒體文檔,包含圖像及文本,進(jìn)行歐式距離計(jì)算,并根據(jù)該距離,將所有媒體對象進(jìn)行排序,返回距離用戶提交樣本距離最近的多媒體對象。
[0020]本發(fā)明與【背景技術(shù)】相比,具有的有益的效果是:
[0021]本發(fā)明提出了一種新的基于跨模態(tài)多媒體數(shù)據(jù)稀疏主體建模的跨媒體檢索方法。由于該方法采用了跨模態(tài)數(shù)據(jù)聯(lián)合建模的方式,有效的利用了跨媒體數(shù)據(jù)之間的關(guān)系,從而實(shí)現(xiàn)了跨媒體查詢的目的。同時(shí),本方法還利用了稀疏主題建模的方法,使得基于稀疏主題的多媒體文檔表示方法具有更高的準(zhǔn)確性,進(jìn)一步提高了檢索的準(zhǔn)確性。結(jié)合跨模態(tài)檢索的方法,用戶可以通過提交多種形式的檢索內(nèi)容,包括文本和圖像,查詢的例子和返回的結(jié)果可以是來自不同模態(tài)的內(nèi)容,因此比傳統(tǒng)的內(nèi)容檢索系統(tǒng)功能更加強(qiáng)大。
【專利附圖】

【附圖說明】
[0022]圖1是本發(fā)明的方法流程示意圖;
[0023]圖2是通過本方法學(xué)習(xí)到的包含跨模態(tài)多媒體數(shù)據(jù)的主題形式化結(jié)果。
【具體實(shí)施方式】[0024]本發(fā)明通過對來自不同模態(tài)的多媒體數(shù)據(jù)進(jìn)行基于主題的建模,同時(shí)對主題與特征的相關(guān)性進(jìn)行稀疏約束,提高主題表示的準(zhǔn)確性,通過在主題空間內(nèi)的歐式距離比較,提供跨模態(tài)多媒體對象檢索功能。
[0025]基于跨模態(tài)的稀疏主題建模的跨媒體檢索方法包括如下步驟:
[0026]I)對于已有的跨模態(tài)多媒體數(shù)據(jù)進(jìn)行聯(lián)合分析,提取其中的主題特征;
[0027]2)基于已有的圖像和文本特征,分析出其中主題與特征之間的稀疏關(guān)聯(lián),篩選特征與主體之間的相關(guān)性,并為跨模態(tài)多媒體文檔提供相應(yīng)的主題空間表示;
[0028]3)根據(jù)用戶檢索的圖像或文本信息,在稀疏主題空間中提供跨模態(tài)的多媒體檢索同能,返回相關(guān)主題的圖像和文本檢索結(jié)果。
[0029]所述的步驟I)包括:
[0030]I)對數(shù)據(jù)庫中的所有圖像提取SIFT特征,并對抽取得的特征進(jìn)行聚類,得到1000個(gè)視覺單詞,并計(jì)算每幅圖像包含的SIFT特征點(diǎn)與視覺單詞的距離,用視覺單詞的頻譜來表不每幅圖像;
[0031]2)對數(shù)據(jù)庫中的所有文本進(jìn)行為詞匯頻率統(tǒng)計(jì),并矢量化。
[0032]所述的步驟2)包括:
[0033]I)將所提取的跨媒體文檔包含的視覺及文本特征向量化,并組合形成矩陣形式;
[0034]2)對組合得到的視覺及文本特征矩陣進(jìn)行稀疏主題學(xué)習(xí),學(xué)習(xí)得到稀疏主題空間的一組新的基,并且使得他們具有正交并且稀疏的特性;
[0035]3)得到的新的主題空間的每一個(gè)基都是通過學(xué)習(xí)的到的稀疏主題,其與視覺及文本特征的相關(guān)性具有稀疏性。
[0036]所述的步驟3)為:
[0037]I)根據(jù)從稀疏主題建模中得到的稀疏主題空間中的基,將用戶提交的檢索文本或圖像投影到所構(gòu)建的稀疏主題空間中。
[0038]2)通過將用戶提交的文本或圖像在稀疏主題空間中的表示,與數(shù)據(jù)庫中已有的跨模態(tài)多媒體文檔,包含圖像及文本,進(jìn)行歐式距離計(jì)算,并根據(jù)該距離,將所有媒體對象進(jìn)行排序,返回距離用戶提交樣本距離最近的多媒體對象。
[0039]本發(fā)明提出的基于跨模態(tài)數(shù)據(jù)稀疏主題建模的檢索方法如圖1所示,具體說明如下:
[0040]I)預(yù)處理模塊:
[0041]該模塊實(shí)現(xiàn)對數(shù)據(jù)庫已有的媒體對象進(jìn)行特征提取,在我們的多媒體數(shù)據(jù)庫中,包含許多的多媒體文檔,每個(gè)文檔隸屬于不同的類別,并且每個(gè)文檔包含一段與文檔描述物體相關(guān)的文字,以及一張與物體相關(guān)的圖片。我們通過SIFT特征子檢測方法,提取出所有圖片包含的SIFT特征,以及通過詞頻統(tǒng)計(jì)的方法,對包含的文本進(jìn)行向量化。對于所得到的SIFT特征,我們采用KMeans的聚類方法,把所有的視覺特征向量聚類成若干個(gè)視覺單詞,并將每幅圖片替換成基于視覺單詞的表示。我們將用視覺單詞表示的圖片特征及向量化后的文本特征分別表示為A和B。
[0042]2)跨模態(tài)稀疏主題建模模塊
[0043]通過模塊I中抽取的關(guān)于數(shù)據(jù)庫中跨模態(tài)多媒體文檔的特征,我們對這些數(shù)據(jù)進(jìn)行跨模態(tài)稀疏主題建模。我們將跨模態(tài)多媒體文檔在稀疏的主題空間的表示為X,從圖片特征空間到稀疏主題空間的投影為U1,從文本特征空間到稀疏主題空間的投影為U2,則根據(jù)我們的假設(shè),有:
[0044].
【權(quán)利要求】
1.一種基于跨模態(tài)的稀疏主題建模的跨媒體檢索方法,其特征在于包括如下步驟: 1)對于已有的跨模態(tài)多媒體數(shù)據(jù)進(jìn)行聯(lián)合分析,提取其中的主題特征; 2)基于已有的圖像和文本特征,分析出其中主題與特征之間的稀疏關(guān)聯(lián),篩選特征與主體之間的相關(guān)性,并為跨模態(tài)多媒體文檔提供相應(yīng)的主題空間表示; 3)根據(jù)用戶檢索的圖像或文本信息,在稀疏主題空間中提供跨模態(tài)的多媒體檢索同能,返回相關(guān)主題的圖像和文本檢索結(jié)果。
2.根據(jù)權(quán)利要求1所述的一種跨模態(tài)的稀疏主題建模的跨媒體檢索方法,其特征在于所述的步驟I)包括: 1)對數(shù)據(jù)庫中的所有圖像提取SIFT特征,并對抽取得的特征進(jìn)行聚類,得到1000個(gè)視覺單詞,并計(jì)算每幅圖像包含的SIFT特征點(diǎn)與視覺單詞的距離,用視覺單詞的頻譜來表示每幅圖像; 2)對數(shù)據(jù)庫中的所有文本進(jìn)行為詞匯頻率統(tǒng)計(jì),并矢量化。
3.根據(jù)權(quán)利要求1所述的一種跨模態(tài)的稀疏主題建模的跨媒體檢索方法,其特征在于所述的步驟2)包括: 1)將所提取的跨媒體文檔包含的視覺及文本特征向量化,并組合形成矩陣形式; 2)對組合得到的視覺及文本特征矩陣進(jìn)行稀疏主題學(xué)習(xí),學(xué)習(xí)得到稀疏主題空間的一組新的基,并且使得他們具有正交并且稀疏的特性; 3)得到的新的主題空間的每一個(gè)基都是通過學(xué)習(xí)的到的稀疏主題,其與視覺及文本特征的相關(guān)性具有稀疏性。
4.根據(jù)權(quán)利要求1所述的一種跨模態(tài)的稀疏主題建模的跨媒體檢索方法,其特征在于,所述的步驟3)為: 1)根據(jù)從稀疏主題建模中得到的稀疏主題空間中的基,將用戶提交的檢索文本或圖像投影到所構(gòu)建的稀疏主題空間中; 2)通過將用戶提交的文本或圖像在稀疏主題空間中的表示,與數(shù)據(jù)庫中已有的跨模態(tài)多媒體文檔,包含圖像及文本,進(jìn)行歐式距離計(jì)算,并根據(jù)該距離,將所有媒體對象進(jìn)行排序,返回距離用戶提交樣本距離最近的多媒體對象。
【文檔編號】G06F17/30GK103559192SQ201310410634
【公開日】2014年2月5日 申請日期:2013年9月10日 優(yōu)先權(quán)日:2013年9月10日
【發(fā)明者】吳飛, 王東輝, 王熙逵, 湯斯亮 申請人:浙江大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1