一種基于lda的生物醫(yī)療圖像的標注系統(tǒng)及方法
【專利摘要】本發(fā)明公開了一種基于LDA的生物醫(yī)療圖像的標注系統(tǒng),包括LDA訓練模塊、主題詞抽取模塊、主題詞精煉模塊、索引上下文句子模塊、上下文生成模塊、標注產(chǎn)生模塊,LDA訓練模塊對LDA模型進行訓練;主題詞抽取模塊對圖像的說明文字進行LDA建模并抽取主題詞;主題詞精煉模塊對主題詞集合進行優(yōu)化;索引上下文句子模塊索引出與主題詞關(guān)聯(lián)的句子集;上下文生成模塊選取最密切的句子構(gòu)成圖像的上下文;標注產(chǎn)生模塊對圖像的上下文進行建模,通過計算選取前幾個單詞作為生物醫(yī)療圖像的標注詞。本發(fā)明同時公開了一種基于LDA的生物醫(yī)療圖像的標注方法。本發(fā)明一次能生成多個標注詞語,準確性高,使用關(guān)鍵詞索引來查找相關(guān)圖像,方便快捷,更符合人們文本檢索習慣。
【專利說明】—種基于LDA的生物醫(yī)療圖像的標注系統(tǒng)及方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及圖像處理【技術(shù)領(lǐng)域】,具體涉及一種基于LDA的生物醫(yī)療圖像的標注系統(tǒng)及方法。
【背景技術(shù)】
[0002]隨著數(shù)字影像技術(shù)的發(fā)展和數(shù)碼相機等可拍照設(shè)備的日益普及,各種各樣的圖像數(shù)量呈現(xiàn)幾何級的飛速增長。而同時互聯(lián)網(wǎng)的快速發(fā)展也使得圖像傳播與共享變得更加快捷。為了有效地組織、查詢與瀏覽如此大規(guī)模的圖像資源,圖像檢索技術(shù)應運而生,成為計算機視覺領(lǐng)域的研究重點。
[0003]現(xiàn)有的圖像檢索方法主要分為兩種:基于內(nèi)容的圖像檢索(Content-Based ImageRetrieval)和基于文本的圖像檢索(Text-Based Image Retrieval)?;趦?nèi)容的圖像檢索需要用戶提供一幅圖像作為查詢,系統(tǒng)提取圖像的底層視覺特征,如顏色、紋理和形狀等,為圖像建立視覺索引,然后根據(jù)數(shù)據(jù)庫中圖像與查詢間的視覺相似性找出匹配項,實現(xiàn)檢索的目的。由于圖像底層視覺特征與高層語義概念之間存在不一致性,即所謂的“語義鴻溝(Semantic Gap)”,基于內(nèi)容的圖像檢索的性能難以令人滿意?;谖谋镜膱D像檢索,需要對圖像事先建立文本索引,用戶檢索時只要提交文本作為查詢,系統(tǒng)根據(jù)文本的相關(guān)性匹配找出相似的圖像返回,這樣對圖像的檢索就轉(zhuǎn)化為對文本關(guān)鍵詞的檢索。
[0004]與基于內(nèi)容的圖像檢索相比,基于文本的圖像檢索只需要用戶提交文本關(guān)鍵詞,方便快捷,更受廣大用戶的青睞,由此也成為主流商業(yè)化圖像搜索引擎的主要方式。但是這種方式需要對圖像建立文本索引,也就是實現(xiàn)圖像的語義標注,這是基于文本的圖像檢索技術(shù)中極具挑戰(zhàn)的一項工作。實現(xiàn)圖像的語義標注,已成為基于文本的圖像檢索技術(shù)的重中之重。一種傳統(tǒng)的方式是進行人工標注,但是這種方式耗時費力,尤其是面對大規(guī)模的網(wǎng)絡(luò)圖像時,它顯然已經(jīng)無法勝任。因此,如何擺脫人工干預,并快速、有效地實現(xiàn)對圖像的自動語義標注,變得十分重要。
[0005]為了實現(xiàn)圖像的自動化標注,現(xiàn)有技術(shù)已有的一種方法是將圖像進行分類,然后把分類的結(jié)果當作圖像的標注。具體而言,將每個語義關(guān)鍵詞看成一個類別標記(Label),并基于語料庫訓練一些分類器,然后用這些分類器對未標注圖像進行分類,所分類別即為該圖像的標注。目前已有許多成熟的分類算法,例如支持向量機,隱形馬爾科夫模型等等。
[0006]然而,雖然采用分類的方法進行圖像標注,依賴于分類算法的準確性,目前的分類算法雖然準確性比較高,但仍然會有一定的誤差。另外,現(xiàn)有的分類算法大多是二元分類器,例如支持向量機,那么對于有多重標注的圖像,就需要設(shè)計多個分類器,并對圖像進行多次分類,效率也不高。
[0007]因此,有必要提供一種基于LDA的生物醫(yī)療圖像的標注系統(tǒng)及方法來滿足現(xiàn)有需求。
【發(fā)明內(nèi)容】
[0008]本發(fā)明的目的是提供一種準確性高、方便快捷的基于LDA的生物醫(yī)療圖像的標注系統(tǒng)及方法。
[0009]因此,本發(fā)明提供了一種基于LDA的生物醫(yī)療圖像的標注系統(tǒng),包括LDA訓練模塊、主題詞抽取模塊、主題詞精煉模塊、索引上下文句子模塊、上下文生成模塊、標注產(chǎn)生模塊,所述LDA訓練模塊用于對LDA模型進行訓練;所述主題詞抽取模塊用于對每幅生物醫(yī)療圖像的說明文字進行LDA建模,然后從所建模型中抽取所有的主題詞;所述主題詞精煉模塊對所述主題詞抽取模塊所產(chǎn)生的主題詞集合進行優(yōu)化;所述索引上下文句子模塊用于從生物醫(yī)療圖像的文本文件中索引出與主題詞關(guān)聯(lián)的句子集;所述上下文生成模塊從每個主題詞所對應的句子集中選取一個最密切的句子,然后集合所有最密切的句子,構(gòu)成生物醫(yī)療圖像的上下文;所述標注產(chǎn)生模塊通過LDA訓練模塊得到的LDA模型對生物醫(yī)療圖像的上下文進行建模,得到生物醫(yī)療圖像的主題分布和單詞分布,然后將主題-單詞分布中每個單詞的概率乘以對應主題的概率,所得結(jié)果作為這個單詞的權(quán)值,再按照權(quán)值從大到小的順序?qū)⑺袉卧~排序,選取前幾個單詞作為生物醫(yī)療圖像的標注詞。
[0010]較佳地,所述LDA模型的數(shù)據(jù)集是所有生物醫(yī)療圖像的說明文字,從每幅生物醫(yī)療圖像所對應的文本文件中抽取節(jié)點的說明文字,將所有圖像的說明文字集合構(gòu)成了 LDA模型的訓練數(shù)據(jù)集。
[0011 ] 較佳地,所述訓練模塊采用Gibbs采樣方法對LDA模型進行訓練,先抽樣出每個單詞所對應主題的分布,然后根據(jù)這個分布推算出文檔-主題分布和主題-單詞分布。
[0012]較佳地,所述主題詞精煉模塊對主題詞集合的優(yōu)化過程包括:在LDA模型對生物醫(yī)療圖像的說明文字建模的結(jié)果中,如果主題-單詞分布中某個主題單詞的概率為零,將該單詞從主題詞集合中剔除;如果生物醫(yī)療圖像的說明文字中不包含某個主題詞,將該單詞從主題詞集中剔除;如果主題詞集合中含有重復的單詞,將重復的單詞剔除,只保留一個。
[0013]較佳地,所述索引上下文句子模塊利用LUCENE檢索工具對主題詞集合中的每一個單詞,將其作為查詢條件,檢索出所有包含該主題詞的句子。
[0014]較佳地,所述最密切的句子選取過程包括:遍歷包含其中一個主題詞的每個句子,如果這個句子含有其他的主題詞,其得票數(shù)就相應的增加,一個主題詞貢獻一票,然后選取得票數(shù)最高的句子作為這個主題詞的最密切句子;集合所有主題詞的最密切句子構(gòu)成上下文。
[0015]本發(fā)明同時提供了一種基于LDA的生物醫(yī)療圖像的標注方法,包括以下步驟:步驟1:選取一部分生物醫(yī)療圖像構(gòu)成訓練集,并從每幅生物醫(yī)療圖像的文本文件中提取節(jié)點中的說明文字,組成LDA模型的訓練數(shù)據(jù)集;步驟2:對LDA模型進行訓練,先抽樣出單詞對應的主題的分布,然后進一步計算文檔-主題分布和主題-單詞分布;步驟3:對一副未標注圖像,利用訓練的LDA模型進行建模,選取所有的主題詞,組成主題詞集合;步驟4:對主題詞集合進行優(yōu)化,去除其中重復的單詞、概率為零的單詞和不在說明文字中單詞,從而得到精煉主題詞集合;步驟5:對一個主題詞,從圖像的文本文件中檢索出包含該單詞的所有句子,組成一個句子集,記作該主題詞的對應句子集;步驟6:從每個主題詞的對應句子集中選取最密切的句子,組成該圖像的上下文;步驟7:用訓練的LDA模型對上下文進行建模,然后將主題-單詞分布中的每個單詞的概率乘以對應主題的概率,得到的結(jié)果作為單詞的權(quán)值;按降序排序所有單詞,選取前幾個作為圖像的最終標注。
[0016]與現(xiàn)有技術(shù)相比,本發(fā)明充分利用了數(shù)據(jù)集中圖像所關(guān)聯(lián)的說明文字和文本文件來挖掘圖像的標注詞語,準確性高,并且一次能生成多個標注詞語。實現(xiàn)生物醫(yī)療圖像的準確標注后,可以使用關(guān)鍵詞索引來查找相關(guān)的圖像,方便快捷,更符合人們文本檢索習慣。
【專利附圖】
【附圖說明】
[0017]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其它的附圖。
[0018]圖1是本發(fā)明基于LDA的生物醫(yī)療圖像的標注系統(tǒng)的結(jié)構(gòu)示意圖;
[0019]圖2是本發(fā)明基于LDA的生物醫(yī)療圖像的標注方法的流程圖;
[0020]圖3是本發(fā)明實施例的基于LDA的生物醫(yī)療圖像的標注方法的流程圖。
【具體實施方式】
[0021]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范圍。
[0022]如上所述,本發(fā)明針對生物醫(yī)療圖像進行標注,在生物醫(yī)療圖像語料庫中,每張圖像都有一個對應的文本文件。結(jié)合這種特殊性,提出了一種基于LDA (Latent DirichletAllocation,潛在狄利克雷分配)的生物醫(yī)療圖像的標注方法,利用LDA從圖像的說明文字(caption)中提取主題詞,然后根據(jù)這些主題詞從圖像對應的文本文件中抽取上下文,最后再利用LDA對上下文進行建模,所得到的主題詞就作為生物醫(yī)療圖像的最終標注。
[0023]具體地,參考圖1,本發(fā)明提供了一種基于LDA的生物醫(yī)療圖像的標注系統(tǒng),包括LDA訓練模塊、主題詞抽取模塊、主題詞精煉模塊、索引上下文句子模塊、上下文生成模塊、標注產(chǎn)生模塊。
[0024]LDA訓練模塊用于對LDA模型進行訓練;LDA模型是通過一定的訓練數(shù)據(jù)集對LDA模型進行訓練,以生成文檔-主題分布和主題-單詞分布。本發(fā)明中LDA模型的數(shù)據(jù)集是所有生物醫(yī)療圖像的說明文字。從每幅生物醫(yī)療圖像所對應的文本文件(XML格式)中抽取caption節(jié)點的內(nèi)容,即該圖像的說明文字,所有圖像的說明文字集合在一起,構(gòu)成了 LDA模型的訓練數(shù)據(jù)集。同時我們將主題個數(shù)、文檔-主題分布和主題-單詞分布的狄利克雷先驗參數(shù)設(shè)置為經(jīng)驗值。LDA訓練模塊采用Gibbs采樣方法對LDA模型進行訓練,先抽樣出每個單詞所對應主題的分布,然后根據(jù)這個分布推算出文檔-主題分布和主題-單詞分布。
[0025]主題詞抽取模塊用于對每幅生物醫(yī)療圖像的說明文字進行LDA建模,然后從所建模型(主題分布和單詞分布)中抽取所有的主題詞;對于一副未標注圖像,利用訓練模塊所產(chǎn)生的LDA模型對該圖像的說明文字(caption)進行建模,然后從建模的結(jié)果(主題分布和單詞分布)中抽取所有的單詞作為該圖像的主題詞,加入到主題詞集合中。
[0026]主題詞精煉模塊對所述主題詞抽取模塊所產(chǎn)生的主題詞集合進行優(yōu)化,得到最精簡、最有效的主題詞集合。在LDA模型對圖像的說明文字(caption)建模的結(jié)果中,如果主題-單詞分布中某個主題單詞的概率為零,將該單詞從主題詞集合中剔除;如果圖像的說明文字中不包含某個主題詞,將該單詞從主題詞集中剔除;如果主題詞集合中含有重復的單詞,將重復的單詞剔除,只保留一個。經(jīng)過這些優(yōu)化操作,從而得到更精煉的主題詞集合。通過主題詞精煉處理,去掉重復的主題詞,同時去掉LDA建模結(jié)果中概率為零的主題詞,以及去掉圖像說明文字(caption)中不包含的句子
[0027]索引上下文句子模塊用于從生物醫(yī)療圖像的文本文件中索引出與主題詞關(guān)聯(lián)的句子集;索引模塊利用LUCENE作為檢索工具,對精煉主題詞集合中的每一個單詞,將其作為查詢條件,檢索出所有包含該主題詞的句子。索引過程完成后,對于每一個主題詞,都有一個句子集與之關(guān)聯(lián)??梢岳斫獾?,在索引上下文句子模塊,本發(fā)明實施例是采用LUCENE來實現(xiàn)文本檢索,目前也有其他的文本檢索工具,可以代替LUCECE實現(xiàn)同樣的功能。
[0028]上下文生成模塊從每個主題詞所對應的句子集中選取一個最密切的句子,然后集合所有最密切的句子,構(gòu)成生物醫(yī)療圖像的上下文(context),即所有密切句子組成的集合就是上下文。較佳地,所述最密切的句子選取過程包括:遍歷包含其中一個主題詞的每個句子,如果這個句子含有其他的主題詞,其得票數(shù)就相應的增加,一個主題詞貢獻一票,然后選取得票數(shù)最高的句子作為這個主題詞的最密切句子;集合所有主題詞的最密切句子構(gòu)成上下文。
[0029]標注產(chǎn)生模塊通過LDA訓練模塊得到的LDA模型對生物醫(yī)療圖像的上下文進行建模,得到生物醫(yī)療圖像的主題分布和單詞分布,然后將主題-單詞分布中每個單詞的概率乘以對應主題的概率,所得結(jié)果作為這個單詞的權(quán)值,再按照權(quán)值從大到小的順序?qū)⑺袉卧~排序,選取前幾個單詞作為生物醫(yī)療圖像的標注詞。
[0030]參考圖2,相應地,本發(fā)明同時提供了一種基于LDA的生物醫(yī)療圖像的標注方法,包括以下步驟:
[0031]步驟SOl:選取一部分生物醫(yī)療圖像構(gòu)成訓練集,并從每幅生物醫(yī)療圖像的文本文件中提取節(jié)點中的說明文字,組成LDA模型的訓練數(shù)據(jù)集;
[0032]步驟S02:對LDA模型進行訓練,先抽樣出單詞對應的主題的分布,然后進一步計算文檔-主題分布和主題-單詞分布;
[0033]步驟S03:對一副未標注圖像,利用訓練的LDA模型進行建模,選取所有的主題詞,組成主題詞集合;
[0034]步驟S04:對主題詞集合進行優(yōu)化,去除其中重復的單詞、概率為零的單詞和不在說明文字中單詞,從而得到精煉主題詞集合;
[0035]步驟S05:對一個主題詞,從圖像的文本文件中檢索出包含該單詞的所有句子,組成一個句子集,記作該主題詞的對應句子集;
[0036]步驟S06:從每個主題詞的對應句子集中選取最密切的句子,組成該圖像的上下文;
[0037]步驟S07:用訓練的LDA模型對上下文進行建模,然后將主題_單詞分布中的每個單詞的概率乘以對應主題的概率,得到的結(jié)果作為單詞的權(quán)值;按降序排序所有單詞,選取前幾個作為圖像的最終標注。
[0038]配合參考圖3,作為本發(fā)明一實施例的基于LDA的生物醫(yī)療圖像標注方法的具體操作步驟如下:
[0039]第I步,開始
[0040]第2步,選取一部分生物醫(yī)療圖像構(gòu)成訓練集,并從每幅圖像的文本文件中提取CAPTION節(jié)點中的說明文字,組成LDA模型的訓練數(shù)據(jù)集;同時,給定主題數(shù)、文檔_主題分布的先驗參數(shù)、主題-單詞分布的先驗參數(shù)。
[0041]第3步,采用Gibbs采樣算法對LDA模型進行訓練;先抽樣出單詞對應的主題的分布,然后進一步計算文檔-主題分布和主題-單詞分布。
[0042]第4步,對一副未標注圖像,利用訓練的LDA模型進行建模,選取所有的主題詞,組成主題詞集合。
[0043]第5步,對主題詞集合進行優(yōu)化,去除其中重復的單詞、概率為零的單詞和不在說明文字中單詞,從而得到精煉主題詞集合。
[0044]第6步,對一個主題詞,用LUCECE從圖像的文本文件中檢索出包含該單詞的所有句子,組成一個句子集,記作該主題詞的對應句子集。
[0045]第7步,如果所有的主題詞都有對應句子集,則進入第8步,否則進入第6步。
[0046]第8步,利用上下文生成算法,從每個主題詞的對應句子集中選取最密切的句子,組成該圖像的上下文。
[0047]第9步,用第3步訓練的LDA模型對上下文進行建模,然后將主題_單詞分布中的每個單詞的概率乘以對應主題的概率,得到的結(jié)果作為單詞的權(quán)值;按降序排序所有單詞,選取前幾個作為圖像的最終標注。
[0048]第10步,所有未標注圖像都進行了標注,進入第11步,否則跳到第4步。
[0049]第11步,結(jié)束。
[0050]與現(xiàn)有技術(shù)相比,本發(fā)明充分利用了生物醫(yī)療圖像的說明文字和所對應的文本信息,從說明文字中挖掘圖像的主題詞,并回溯到圖像所在的文本信息,生成一段上下文,進而提取出圖像的標注詞。這種方式大大提高了標注的準確性,并能夠一次性生成圖像所關(guān)聯(lián)的多個標注。本發(fā)明充分利用了數(shù)據(jù)集中圖像所關(guān)聯(lián)的說明文字和文本文件來挖掘圖像的標注詞語,準確性高,并且一次能生成多個標注詞語。實現(xiàn)生物醫(yī)療圖像的準確標注后,可以使用關(guān)鍵詞索引來查找相關(guān)的圖像,方便快捷,更符合人們文本檢索習慣。
[0051]以上對本發(fā)明實施例所提供的基于LDA的生物醫(yī)療圖像的標注系統(tǒng)及方法,進行了詳細介紹,本發(fā)明中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本發(fā)明的思想,在【具體實施方式】及應用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應理解為對本發(fā)明的限制。
【權(quán)利要求】
1.一種基于LDA的生物醫(yī)療圖像的標注系統(tǒng),其特征在于,包括LDA訓練模塊、主題詞抽取模塊、主題詞精煉模塊、索引上下文句子模塊、上下文生成模塊、標注產(chǎn)生模塊,所述LDA訓練模塊用于對LDA模型進行訓練;所述主題詞抽取模塊用于對每幅生物醫(yī)療圖像的說明文字進行LDA建模,然后從所建模型中抽取所有的主題詞;所述主題詞精煉模塊對所述主題詞抽取模塊所產(chǎn)生的主題詞集合進行優(yōu)化;所述索引上下文句子模塊用于從生物醫(yī)療圖像的文本文件中索引出與主題詞關(guān)聯(lián)的句子集;所述上下文生成模塊從每個主題詞所對應的句子集中選取一個最密切的句子,然后集合所有最密切的句子,構(gòu)成生物醫(yī)療圖像的上下文;所述標注產(chǎn)生模塊通過LDA訓練模塊得到的LDA模型對生物醫(yī)療圖像的上下文進行建模,得到生物醫(yī)療圖像的主題分布和單詞分布,然后將主題-單詞分布中每個單詞的概率乘以對應主題的概率,所得結(jié)果作為這個單詞的權(quán)值,再按照權(quán)值從大到小的順序?qū)⑺袉卧~排序,選取前幾個單詞作為生物醫(yī)療圖像的標注詞。
2.如權(quán)利要求1所述的基于LDA的生物醫(yī)療圖像的標注系統(tǒng),其特征在于,所述LDA模型的數(shù)據(jù)集是所有生物醫(yī)療圖像的說明文字,從每幅生物醫(yī)療圖像所對應的文本文件中抽取節(jié)點的說明文字,將所有圖像的說明文字集合構(gòu)成了 LDA模型的訓練數(shù)據(jù)集。
3.如權(quán)利要求1所述的基于LDA的生物醫(yī)療圖像的標注系統(tǒng),其特征在于,所述訓練模塊采用Gibbs采樣方法對LDA模型進行訓練,先抽樣出每個單詞所對應主題的分布,然后根據(jù)這個分布推算出文檔-主題分布和主題-單詞分布。
4.如權(quán)利要求1所述的基于LDA的生物醫(yī)療圖像的標注系統(tǒng),其特征在于,所述主題詞精煉模塊對主題詞集合的優(yōu)化過程包括:在LDA模型對生物醫(yī)療圖像的說明文字建模的結(jié)果中,如果主題-單詞分布中某個主題單詞的概率為零,將該單詞從主題詞集合中剔除;如果生物醫(yī)療圖像的說明文字中不包含某個主題詞,將該單詞從主題詞集中剔除;如果主題詞集合中含有重復的單詞,將重復的單詞剔除,只保留一個。
5.如權(quán)利要求1所述的基于LDA的生物醫(yī)療圖像的標注系統(tǒng),其特征在于,所述索引上下文句子模塊利用LUCENE檢索工具對主題詞集合中的每一個單詞,將其作為查詢條件,檢索出所有包含該主題詞的句子。
6.如權(quán)利要求1所述的基于LDA的生物醫(yī)療圖像的標注系統(tǒng),其特征在于,所述最密切的句子選取過程包括:遍歷包含其中一個主題詞的每個句子,如果這個句子含有其他的主題詞,其得票數(shù)就相應的增加,一個主題詞貢獻一票,然后選取得票數(shù)最高的句子作為這個主題詞的最密切句子;集合所有主題詞的最密切句子構(gòu)成上下文。
7.一種基于LDA的生物醫(yī)療圖像的標注方法,其特征在于,包括以下步驟: 步驟1:選取一部分生物醫(yī)療圖像構(gòu)成訓練集,并從每幅生物醫(yī)療圖像的文本文件中提取節(jié)點中的說明文字,組成LDA模型的訓練數(shù)據(jù)集; 步驟2:對LDA模型進行訓練,先抽樣出單詞對應的主題的分布,然后進一步計算文檔-主題分布和主題-單詞分布; 步驟3:對一副未標注圖像,利用訓練的LDA模型進行建模,選取所有的主題詞,組成主題詞集合; 步驟4:對主題詞集合進行優(yōu)化,去除其中重復的單詞、概率為零的單詞和不在說明文字中單詞,從而得到精煉主題詞集合; 步驟5:對一個主題詞,從圖像的文本文件中檢索出包含該單詞的所有句子,組成一個句子集,記作該主題詞的對應句子集; 步驟6:從每個主題詞的對應句子集中選取最密切的句子,組成該圖像的上下文; 步驟7:用訓練的LDA模型 對上下文進行建模,然后將主題-單詞分布中的每個單詞的概率乘以對應主題的概率,得到的結(jié)果作為單詞的權(quán)值;按降序排序所有單詞,選取前幾個作為圖像的最終標注。
【文檔編號】G06F17/27GK103942274SQ201410120529
【公開日】2014年7月23日 申請日期:2014年3月27日 優(yōu)先權(quán)日:2014年3月27日
【發(fā)明者】林謀廣, 姜濤, 薛凱軍, 肖劍 申請人:東莞中山大學研究院, 中山大學