一種基于圖像相似度快速匹配的學(xué)術(shù)論文搜索方法
【專利摘要】本發(fā)明提供了一種基于圖像相似度快速匹配的學(xué)術(shù)論文搜索方法,用于海量論文智能檢索。本方法包括:從論文庫中獲取論文圖像庫,建立論文圖像庫的索引;獲得要進(jìn)行搜索的源圖像以及圖像關(guān)鍵詞,并提取源圖像的特征矩陣;根據(jù)源圖像的圖像關(guān)鍵詞檢索論文圖像庫索引,獲取相關(guān)圖像集;檢索相關(guān)圖像集,獲取與源圖像相似的圖像,獲得最終圖像集;依據(jù)最終圖像集,從論文庫中獲取相應(yīng)的論文。本發(fā)明可利用圖像及圖像相關(guān)信息進(jìn)行論文檢索,圖像特征采用更小的存儲介質(zhì),且檢索速度快,檢索精準(zhǔn)度高。
【專利說明】一種基于圖像相似度快速匹配的學(xué)術(shù)論文搜索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及海量論文智能檢索技術(shù),具體設(shè)計一種基于圖像相似度快速匹配的學(xué)術(shù)論文搜索方法。
【背景技術(shù)】
[0002]—般的論文檢索方式是通過論文作者、論文題目等文字信息檢索。但這種檢索方法在很多學(xué)科存在很多局限性,并不能滿足如在考古學(xué)科中,搜索關(guān)于某種文物研究現(xiàn)狀的論文檢索需求。而現(xiàn)有的圖像匹配技術(shù),由于是對完整圖像的完整匹配,性能相對較低,利用目前現(xiàn)有的圖像匹配技術(shù)無法滿足快速論文檢索需求。
【發(fā)明內(nèi)容】
[0003]本發(fā)明針對現(xiàn)有論文檢索中,由于圖像的完整匹配,性能相對較低,無法滿足快速論文檢索需求的問題,提出一種基于圖像相似度快速匹配的學(xué)術(shù)論文搜索方法。
[0004]本發(fā)明的一種基于圖像相似度快速匹配算法的學(xué)術(shù)論文檢索方法,包括如下步驟:
[0005]步驟1:從論文庫中獲取論文圖像庫,建立論文圖像庫的索引;
[0006]步驟2:獲得要進(jìn)行搜索的源圖像以及圖像關(guān)鍵詞,并提取源圖像的特征矩陣;所述的圖像關(guān)鍵詞包括圖像所屬的研究領(lǐng)域;
[0007]步驟3:根據(jù)源圖像的信息關(guān)鍵詞檢索論文圖像庫索引,獲取相關(guān)圖像集;所述的相關(guān)圖像集指源圖像所屬研究領(lǐng)域中的圖像集合;
[0008]步驟4:檢索相關(guān)圖像集,獲取與源圖像相似的圖像,獲得最終圖像集;所述的相似圖像是指在形狀上具有共性的圖像;
[0009]步驟5:依據(jù)最終圖像集,從論文庫中獲取相應(yīng)的論文。
[0010]所述的步驟I中建立論文圖像庫索引,具體包含如下步驟:
[0011]步驟101:遍歷庫中論文,抽取其中圖像及相關(guān)的圖像信息,形成論文圖像庫;所述的圖像信息包括:圖像高、圖像寬、圖像標(biāo)注、論文標(biāo)識符GUID和論文題目字段;
[0012]步驟102:計算論文圖像庫中所有圖像的特征矩陣,對論文圖像庫中的每個圖像,建立圖像索引數(shù)據(jù);所述的圖像索引數(shù)據(jù)包括圖像的特征矩陣和圖像信息;
[0013]步驟103:將圖像索引數(shù)據(jù)放入XML文件中,形成論文圖像庫的索引文件。
[0014]所述的步驟4中,遍歷相關(guān)圖像集,依次將相關(guān)圖像集中各圖像的特征矩陣與源圖像的特征矩陣進(jìn)行比較;特征矩陣比較的方法是:首先,構(gòu)建一個與特征矩陣相同大小的結(jié)果矩陣;然后,依次比較兩個特征矩陣的對應(yīng)元素,如果兩個元素的差值小于16,則結(jié)果矩陣對應(yīng)元素的值記為1,否則為O;最后,統(tǒng)計結(jié)果矩陣中值為I的元素的比例r,若r>80%,則認(rèn)為兩幅圖像相似,否則認(rèn)為兩幅圖像不相似。
[0015]本發(fā)明的優(yōu)點和積極效果在于:本發(fā)明實現(xiàn)了一種基于索引的圖像快速匹配和檢索的方法,可全面利用圖像以及圖像相關(guān)信息進(jìn)行論文檢索;特別是為在野外工作的學(xué)科,例如考古學(xué),提供了一種便利的查詢相關(guān)研究論文的方法,且檢索速度快,檢索精準(zhǔn)度高。
【專利附圖】
【附圖說明】
[0016]圖1為本發(fā)明的學(xué)術(shù)論文檢索方法的整體流程圖;
[0017]圖2是本發(fā)明實施例中用于搜索的源圖片;
[0018]圖3是本發(fā)明實施例搜索結(jié)果示意圖。
【具體實施方式】
[0019]下面將結(jié)合附圖對本發(fā)明的技術(shù)方案作進(jìn)一步的詳細(xì)說明。
[0020]本發(fā)明采用新的圖像相似度快速匹配方法,并結(jié)合專有中文詞庫以及中文分詞技術(shù),完成了一種基于圖像相似度快速匹配的學(xué)術(shù)論文檢索方法。本發(fā)明的基于圖像相似度快速匹配算法的學(xué)術(shù)論文檢索方法,步驟如圖1所示,下面進(jìn)行詳細(xì)說明。
[0021]步驟1:從論文中獲取論文圖像庫,建立論文圖像庫的索引。具體地,建立圖像及其相關(guān)信息的數(shù)據(jù)結(jié)構(gòu),抽取論文中的所有圖像和相關(guān)信息,存儲于該數(shù)據(jù)結(jié)構(gòu)中,并形成論文圖像庫;然后根據(jù)圖像特征矩陣計算方法,計算圖像庫中所有圖像的特征矩陣;最后創(chuàng)建索引,并存儲于XML文件中。具體步驟為:
[0022]步驟101:遍歷庫中論文,抽取其中圖像及相關(guān)的圖像信息,形成論文圖像庫。具體的,首先建立論文圖像庫中存儲圖像及其相關(guān)圖像信息的數(shù)據(jù)結(jié)構(gòu),圖像信息包括:圖像高、圖像寬、圖像標(biāo)注、論文GUID (全局唯一標(biāo)識符)以及論文題目字段。然后從論文中抽取圖像信息,存儲在論文圖像庫中。其中,圖像標(biāo)注包括圖像所屬的研究領(lǐng)域等。
[0023]步驟102:計算論文圖像庫中所有圖像的特征矩陣,形成圖像索引數(shù)據(jù),并通過圖像索引數(shù)據(jù)結(jié)構(gòu)存儲。具體的,圖像索引數(shù)據(jù)結(jié)構(gòu),包含圖像特征矩陣、圖像高、圖像寬、圖像標(biāo)注、論文⑶ID,及論文題目字段。
[0024]遍歷論文圖像庫的所有圖像,采用圖像特征值計算方法,計算圖像的特征矩陣,并利用圖像索引數(shù)據(jù)結(jié)構(gòu)存儲起來。
[0025]步驟103:將圖像索引數(shù)據(jù)放入XML文件中,形成論文圖像庫的索引文件。具體的,根據(jù)圖像索引數(shù)據(jù)結(jié)構(gòu),定義XML文檔格式,并最終自動生成XML文檔,建立論文圖像庫的索引文件,XML的索引文件的格式定義如下:
[0026]
【權(quán)利要求】
1.一種基于圖像相似度快速匹配算法的學(xué)術(shù)論文檢索方法,其特征在于,包括如下步驟: 步驟1:從論文庫中獲取論文圖像庫,建立論文圖像庫的索引; 步驟2:獲得要進(jìn)行搜索的源圖像以及圖像關(guān)鍵詞,并提取源圖像的特征矩陣; 步驟3:根據(jù)源圖像的圖像關(guān)鍵詞檢索論文圖像庫索引,獲取相關(guān)圖像集; 步驟4:檢索相關(guān)圖像集,獲取與源圖像相似的圖像,獲得最終圖像集; 步驟5:依據(jù)最終圖像集,從論文庫中獲取相應(yīng)的論文。
2.根據(jù)權(quán)利要求1所述的基于圖像相似度快速匹配算法的學(xué)術(shù)論文檢索方法,其特征在于,所述的步驟I具體實現(xiàn)過程為: 步驟101:遍歷庫中的論文,抽取其中的圖像及圖像信息,建立論文圖像庫;所述的圖像信息包括:圖像高、圖像寬、圖像標(biāo)注、論文標(biāo)識符GUID和論文題目字段; 步驟102:提取論文圖像庫中的各圖像的特征矩陣,對論文圖像庫中的每個圖像,建立圖像索引數(shù)據(jù);所述的圖像索引數(shù)據(jù)包括圖像的特征矩陣和圖像信息; 步驟103:將圖像索引數(shù)據(jù)放入XML文件中,形成論文圖像庫的索引文件。
3.根據(jù)權(quán)利要求1或2所述的基于圖像相似度快速匹配算法的學(xué)術(shù)論文檢索方法,其特征在于,所述的特征矩陣通過如下步驟獲得: 步驟201:對圖像進(jìn)行二值化; 步驟202:對二值化圖像進(jìn)行邊緣提取; 步驟203:計算步驟202處理后的圖像的特征矩陣,具體是:將圖像大小調(diào)整為128像素*128/n像素,η為圖像的長寬比例;設(shè)定探測窗口大小為8像素*8/η像素,探測窗口內(nèi)所有像素值的平均值作為該探測窗口的特征值,遍歷整幅圖像,得到圖像的特征矩陣,特征矩陣大小為16*16。
4.根據(jù)權(quán)利要求1所述的基于圖像相似度快速匹配算法的學(xué)術(shù)論文檢索方法,其特征在于,所述的圖像關(guān)鍵詞包括圖像所屬的研究領(lǐng)域,所述的相關(guān)圖像集為源圖像所屬研究領(lǐng)域中的圖像集合。
5.根據(jù)權(quán)利要求2或4所述的基于圖像相似度快速匹配算法的學(xué)術(shù)論文檢索方法,其特征在于,所述的相關(guān)圖像集,其獲取方法是:首先,編寫XML文檔解析程序,從論文圖像庫索引文件中提取出圖像標(biāo)注和論文題目字段;然后,根據(jù)基于正向最長匹配策略的分詞方法,提取出論文圖像關(guān)鍵詞;最后通過對源圖像和論文圖像關(guān)鍵詞的比較,獲取相關(guān)圖像集。
6.根據(jù)權(quán)利要求1所述的基于圖像相似度快速匹配算法的學(xué)術(shù)論文檢索方法,其特征在于,所述的步驟4中,遍歷相關(guān)圖像集,依次將相關(guān)圖像集中各圖像的特征矩陣與源圖像的特征矩陣進(jìn)行比較;特征矩陣比較的方法是:首先,構(gòu)建一個與特征矩陣相同大小的結(jié)果矩陣;然后,依次比較兩個特征矩陣的對應(yīng)元素,如果兩個元素的差值小于16,則結(jié)果矩陣對應(yīng)元素的值記為1,否則為O ;最后,統(tǒng)計結(jié)果矩陣中值為I的元素的比例r,若r>80%,則認(rèn)為兩幅圖像相似,否則認(rèn)為兩幅圖像不相似。
【文檔編號】G06F17/30GK104199950SQ201410464732
【公開日】2014年12月10日 申請日期:2014年9月12日 優(yōu)先權(quán)日:2014年9月12日
【發(fā)明者】鄧攀, 袁偉, 閆碧瑩, 趙鑫, 李玉成, 劉昊 申請人:中科嘉速(北京)并行軟件有限公司