專利名稱:一種圖像搜索方法及其搜索引擎的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)搜索引擎技術(shù),具體設(shè)計(jì)一種圖像搜索引擎方法及其搜索引擎。
背景技術(shù):
一般的圖像搜索引擎都基于兩種方式,一是基于文字搜索圖像,二是基于圖像視覺(jué)特征搜索相似圖像。第一種方式不能滿足用戶僅有圖片來(lái)源時(shí)的搜索需求,第二種方式的搜索結(jié)果僅匹配相似圖像,實(shí)用中的搜索結(jié)果和原圖相似度極高,如搜索一張新聞人物的圖片,可以得出互聯(lián)網(wǎng)中同樣人物、同一地點(diǎn)、同一動(dòng)作的圖片,而僅是來(lái)源網(wǎng)站的不同, 但無(wú)法進(jìn)一步了解圖片主題所包含的深層信息。所以,想要通過(guò)圖像獲得該圖像所包含的深層信息,如圖像相關(guān)主題信息或者相關(guān)圖像,利用目前的圖像搜索引擎無(wú)法獲得好的效^ ο
發(fā)明內(nèi)容
本發(fā)明針對(duì)目前圖像搜索引擎中只能搜索相似圖像的不足,提出了一種圖像搜索方法及其搜索引擎。本發(fā)明的一種圖像搜索方法,具體包括如下步驟步驟101 獲得要進(jìn)行搜索的源圖片;步驟102 從全網(wǎng)搜索與源圖片相似的圖片,獲得相似圖片集;所述的相似圖片指在視覺(jué)特征上具有共性的圖片;步驟103 根據(jù)相似圖片集,得出圖片的核心主題詞;步驟104 根據(jù)得到的圖片的核心主題詞,爬取相關(guān)圖片信息,并根據(jù)圖像相似算法,去除相似圖片,留下相關(guān)圖片;所述的相關(guān)圖片指的是語(yǔ)義特征上具有共性的圖片。步驟103具體還包括如下步驟步驟201 建立相似圖片集的網(wǎng)頁(yè)信息的數(shù)據(jù)結(jié)構(gòu),將相似圖片集中的每張圖片的網(wǎng)頁(yè)信息都存儲(chǔ)在該數(shù)據(jù)結(jié)構(gòu)中;步驟202 針對(duì)相似圖片集中的每張圖片,根據(jù)該圖片來(lái)源的網(wǎng)頁(yè)地址,爬取來(lái)源網(wǎng)頁(yè)的HTML,生成HTML樹,并從HTML樹中提取圖片上文和圖片下文;步驟203 對(duì)提取的每張圖片的圖片上文和圖片下文標(biāo)注位權(quán);步驟204:對(duì)每張圖片的圖片上文和圖片下文的語(yǔ)段進(jìn)行分析,通過(guò)最長(zhǎng)短語(yǔ)劃分法提取出最長(zhǎng)短語(yǔ),并對(duì)提取出來(lái)的最長(zhǎng)短語(yǔ)標(biāo)注詞權(quán),獲得圖片的核心主題詞。本發(fā)明的一種圖像搜索引擎包括獲取模塊、一次搜索模塊、二次搜索模塊、分詞模塊和確定模塊。所述的獲取模塊獲得要進(jìn)行搜索的源圖片并將源圖片傳送給一次搜索模塊;所述的一次搜索模塊根據(jù)源圖片獲得相似圖片集,并將相似圖片集傳送給二次搜索模塊,所述的相似圖片指在視覺(jué)特征上具有共性的圖片;
所述的二次搜索模塊建立相似圖片集的網(wǎng)頁(yè)信息的數(shù)據(jù)結(jié)構(gòu),針對(duì)相似圖片集中的每張圖片,根據(jù)該圖片來(lái)源的網(wǎng)頁(yè)地址,爬取來(lái)源網(wǎng)頁(yè)的HTML,生成HTML樹,并從HTML樹中提取圖片上文和圖片下文;所述的分詞模塊對(duì)二次搜索模塊提取出每張圖片的圖片上文和圖片下文標(biāo)注位權(quán),并對(duì)每張圖片的圖片上文和圖片下文的語(yǔ)段進(jìn)行分析,通過(guò)最長(zhǎng)短語(yǔ)劃分法提取出最長(zhǎng)短語(yǔ),并對(duì)提取出來(lái)的最長(zhǎng)短語(yǔ)標(biāo)注詞權(quán),將提取出來(lái)的最長(zhǎng)短語(yǔ)存入最長(zhǎng)短語(yǔ)的數(shù)據(jù)結(jié)構(gòu)中;所述的確定模塊用于對(duì)提取出來(lái)的所有最長(zhǎng)短語(yǔ),依據(jù)最長(zhǎng)短語(yǔ)的位權(quán)與詞權(quán)乘積從大到小的順序進(jìn)行排序,在刪除網(wǎng)絡(luò)常見(jiàn)短語(yǔ)后,將前1-5個(gè)最長(zhǎng)短語(yǔ)作為圖片的核心主題詞,并根據(jù)圖片的核心主題詞,爬取相關(guān)圖片信息,根據(jù)圖像相似算法去除相似圖片,留下相關(guān)圖片,所述的相關(guān)圖片指的是語(yǔ)義特征上具有共性的圖片。本發(fā)明的優(yōu)點(diǎn)與積極效果在于本發(fā)明實(shí)現(xiàn)了圖像的主題信息提取功能,提供的一種更全面地利用圖像搜索主題信息和相關(guān)圖像的搜索引擎及搜索方法,此外本發(fā)明還能提供相關(guān)圖像結(jié)果和主題的詳細(xì)維基百科信息,用戶可以根據(jù)不同場(chǎng)景產(chǎn)生不同的需求, 并且達(dá)到特定的效果。
圖1是本發(fā)明的圖像搜索方法的流程圖;圖2是本發(fā)明的圖像搜索方法的具體實(shí)施例示意圖;圖3是本發(fā)明的圖像搜索引擎的結(jié)構(gòu)示意圖;圖4是本發(fā)明實(shí)施例中所提交的用于搜索的源圖片;圖5是根據(jù)圖4所示的源圖片得到的相似圖片集;圖6是本發(fā)明實(shí)施例相似圖片集生成的HTML樹的結(jié)構(gòu)示意圖;圖7是最長(zhǎng)短語(yǔ)劃分法的一個(gè)實(shí)施例示意圖;圖8是搜索結(jié)果得到的相關(guān)圖片集。
具體實(shí)施例方式下面將結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的詳細(xì)說(shuō)明。如圖1所示,本發(fā)明的圖像搜索引擎方法包括步驟101 獲得要進(jìn)行搜索的源圖片。具體地,源圖片可以是通過(guò)本地上傳獲得, 也可以通過(guò)提交圖片網(wǎng)址(URL)來(lái)獲得,也可以通過(guò)電腦攝像頭拍攝獲得等。步驟102 從全網(wǎng)搜索與提供的源圖片相似的圖片,獲得相似圖片集。具體地,獲取相似圖片集的方法是采用現(xiàn)有技術(shù)的圖像搜索引擎和圖像相似度算法得到的。相似圖片指在視覺(jué)特征上具有共性的圖片。現(xiàn)有技術(shù)的圖像搜索引擎和圖像相似度算法是先把圖像劃分為小塊,并且對(duì)每一小塊進(jìn)行直方圖分析和邊緣提取,再對(duì)已劃分的多塊圖像的直方圖數(shù)組和邊緣向量求出方差,當(dāng)方差小于一定值時(shí),認(rèn)為兩幅圖片相似。如圖5所示,為本發(fā)明的一個(gè)實(shí)施例,圖5所示的為根據(jù)圖4的源圖片所得到的相似圖片集。其中,圖片的整體色彩、紋理、結(jié)構(gòu)等基本圖像特征都是相似的,即滿足視覺(jué)特征上具有共性的特點(diǎn),區(qū)別在于,由于不同的圖像來(lái)源于不同的網(wǎng)站,所以其大小、引用網(wǎng)址會(huì)有不同。步驟103 根據(jù)相似圖片集,得出圖片主題。具體地,通過(guò)相似圖片集中每個(gè)圖片的URL,進(jìn)入網(wǎng)頁(yè),對(duì)相似圖片的上、下文語(yǔ)段進(jìn)行主題提取,提取后,將所有主題詞進(jìn)行頻率統(tǒng)計(jì),出現(xiàn)率最高的五個(gè)詞語(yǔ)作為圖片的核心主題詞。步驟104 得出圖片的核心主題詞后,沿用現(xiàn)有的圖片搜索引擎,爬取相關(guān)圖片信息,并且根據(jù)圖像相似算法,去除相似圖片,使得留下相關(guān)圖片。如圖8所示,本發(fā)明實(shí)施例中,經(jīng)步驟104得到的結(jié)果圖片與圖4所示的源圖片具有共同的語(yǔ)義“馬云,阿里巴巴”,但不具有圖像處理學(xué)的色彩、紋理、結(jié)構(gòu)等相似特征。所述的相關(guān)圖片指的是語(yǔ)義特征上具有共性的圖片。如圖2所示,步驟103中具體根據(jù)相似圖片集,得到圖片的核心主題詞的過(guò)程如下步驟201 建立相似圖片集的網(wǎng)頁(yè)信息的數(shù)據(jù)結(jié)構(gòu)。相似圖片集中的每一張圖片的網(wǎng)頁(yè)信息都存儲(chǔ)在統(tǒng)一的數(shù)據(jù)結(jié)構(gòu)中。所述的建立的統(tǒng)一的圖片的網(wǎng)頁(yè)信息的數(shù)據(jù)結(jié)構(gòu)包括如下數(shù)據(jù)項(xiàng)圖片緩存地址、目標(biāo)圖片地址、圖片來(lái)源的網(wǎng)頁(yè)地址(URL)、圖片來(lái)源的解析主機(jī)(Host)、目標(biāo)圖片寬、目標(biāo)圖片高、圖片格式類型、文件大小、來(lái)源網(wǎng)頁(yè)標(biāo)題、圖片摘要、圖片序號(hào)、圖片文件名、圖片上文以及圖片下文。所述的圖片的網(wǎng)頁(yè)信息存儲(chǔ)的數(shù)據(jù)結(jié)構(gòu)如表 1所示。表1存儲(chǔ)網(wǎng)頁(yè)信息的數(shù)據(jù)結(jié)構(gòu)
權(quán)利要求
1.一種圖像搜索方法,其特征在于,具體包括如下步驟 步驟101 獲得要進(jìn)行搜索的源圖片;步驟102 從全網(wǎng)搜索與源圖片相似的圖片,獲得相似圖片集;所述的相似圖片指在視覺(jué)特征上具有共性的圖片;步驟103 根據(jù)相似圖片集,得出圖片的核心主題詞;本步驟具體包括如下過(guò)程 步驟201 建立相似圖片集的網(wǎng)頁(yè)信息的數(shù)據(jù)結(jié)構(gòu),將相似圖片集中的每張圖片的網(wǎng)頁(yè)信息都存儲(chǔ)在該數(shù)據(jù)結(jié)構(gòu)中;步驟202:針對(duì)相似圖片集中的每張圖片,根據(jù)該圖片來(lái)源的網(wǎng)頁(yè)地址,爬取來(lái)源網(wǎng)頁(yè)的HTML,生成HTML樹,并從HTML樹中提取圖片上文和圖片下文; 步驟203 對(duì)提取的每張圖片的圖片上文和圖片下文標(biāo)注位權(quán); 步驟204:對(duì)每張圖片的圖片上文和圖片下文的語(yǔ)段進(jìn)行分析,通過(guò)最長(zhǎng)短語(yǔ)劃分法提取出最長(zhǎng)短語(yǔ),并對(duì)提取出來(lái)的最長(zhǎng)短語(yǔ)標(biāo)注詞權(quán),獲得圖片的核心主題詞;步驟104 根據(jù)得到的圖片的核心主題詞,爬取相關(guān)圖片信息,并根據(jù)圖像相似算法, 去除相似圖片,留下相關(guān)圖片;所述的相關(guān)圖片指的是語(yǔ)義特征上具有共性的圖片。
2.根據(jù)權(quán)利要求1所述的一種圖像搜索方法,其特征在于,步驟201所述的網(wǎng)頁(yè)信息的數(shù)據(jù)結(jié)構(gòu)包括的數(shù)據(jù)項(xiàng)為圖片緩存地址、目標(biāo)圖片地址、圖片來(lái)源的網(wǎng)頁(yè)地址、圖片來(lái)源的解析主機(jī)、目標(biāo)圖片寬、目標(biāo)圖片高、圖片格式類型、文件大小、來(lái)源網(wǎng)頁(yè)標(biāo)題、圖片摘要、 圖片序號(hào)、圖片文件名、圖片上文以及圖片下文。
3.根據(jù)權(quán)利要求1所述的一種圖像搜索方法,其特征在于,步驟202中所述的從HTML 樹中提取圖片上文的具體方法是步驟1 將Ν(—指向N(img);其中,N(now)表示當(dāng)前遍歷的節(jié)點(diǎn)指針,N(img)表示目標(biāo)圖片節(jié)點(diǎn);步驟2:搜索N(n0W)的前鄰節(jié)點(diǎn)集,在前鄰節(jié)點(diǎn)集中順序?qū)ふ襈(p),若有N(p)則進(jìn)入步驟5,若無(wú)N(p)則進(jìn)入步驟3 ;其中,N(p)表示文本節(jié)點(diǎn);所述的前鄰節(jié)點(diǎn)集定義為在 HTML樹中查找某節(jié)點(diǎn)M的父節(jié)點(diǎn),按照從左到右的順序得出該父節(jié)點(diǎn)的第一層子節(jié)點(diǎn)的集合Φ,集合Φ中位于該節(jié)點(diǎn)M之前的節(jié)點(diǎn)組成了前鄰節(jié)點(diǎn)集;步驟3:返回N(n0W)的父節(jié)點(diǎn),該父節(jié)點(diǎn)記為N(F),尋找是否存在N(p),若有N(p)或 N(F)為HTML樹的根節(jié)點(diǎn)則進(jìn)入步驟5,否則進(jìn)入步驟4 ;步驟4:搜索N(F)的前鄰節(jié)點(diǎn)集,在該前鄰節(jié)點(diǎn)集中順序?qū)ふ襈(p),若有N(p)則進(jìn)入步驟5,若無(wú)則將N(F)標(biāo)記為新的N(n0W),進(jìn)入步驟3執(zhí)行; 步驟5 搜索結(jié)束;在上述搜索過(guò)程中,跳過(guò)超文本鏈接節(jié)點(diǎn)N(a);所述的步驟2與步驟4中在前鄰節(jié)點(diǎn)集中順序?qū)ふ襈(p)的遍歷順序是按照從右到左的順序,依次遍歷前鄰節(jié)點(diǎn)集中的節(jié)點(diǎn)及該節(jié)點(diǎn)的子樹,對(duì)子樹的遍歷按照先訪問(wèn)根結(jié)點(diǎn), 然后由右側(cè)子樹向左側(cè)子樹的順序進(jìn)行遍歷;步驟202中所述的從HTML樹中提取圖片下文的方法與提取圖片上文的方法相同,不同之處在于將前鄰節(jié)點(diǎn)集換成后鄰節(jié)點(diǎn)集,并且在后鄰節(jié)點(diǎn)集中順序?qū)ふ襈(p)的遍歷順序是在后鄰節(jié)點(diǎn)集按照從左到右的順序依次遍歷節(jié)點(diǎn)及該節(jié)點(diǎn)的子樹,在遍歷某個(gè)節(jié)點(diǎn)的子樹時(shí),先訪問(wèn)該子樹的根節(jié)點(diǎn),然后再按照由左側(cè)子樹向右側(cè)子樹的順序遍歷;所述的后鄰節(jié)點(diǎn)集為在HTML樹中查找某節(jié)點(diǎn)M的父節(jié)點(diǎn),按照從左到右的順序得出該父節(jié)點(diǎn)的第一層子節(jié)點(diǎn)集合Φ,集合Φ位于該節(jié)點(diǎn)M之后的節(jié)點(diǎn)組成后鄰節(jié)點(diǎn)集。
4.根據(jù)權(quán)利要求1所述的一種圖像搜索方法,其特征在于,步驟203所述的位權(quán)的具體確定方法為位權(quán)=圖片節(jié)點(diǎn)到文本節(jié)點(diǎn)所遍歷的節(jié)點(diǎn)個(gè)數(shù)-遍歷過(guò)程中試探不正確的葉子節(jié)點(diǎn)個(gè)數(shù);所述的圖片節(jié)點(diǎn)、文本節(jié)點(diǎn)以及遍歷過(guò)程中試探不正確的子節(jié)點(diǎn)都為HTML樹中的節(jié)點(diǎn),所述的文本節(jié)點(diǎn)指代表圖片上文或者圖片下文的節(jié)點(diǎn)。
5.根據(jù)權(quán)利要求1所述的一種圖像搜索方法,其特征在于,步驟204所述的最長(zhǎng)短語(yǔ)劃分法具體為步驟A 采用中英文分詞方法把語(yǔ)段劃分為粒度較細(xì)的詞語(yǔ),并分別標(biāo)注詞性;所述的中英文分詞方法采用最大熵模型;步驟B 對(duì)語(yǔ)段分別進(jìn)行前序遍歷和后序遍歷,并在遍歷過(guò)程中使用預(yù)先設(shè)定的語(yǔ)法庫(kù)對(duì)詞性進(jìn)行貪心算法,在不符合匹配點(diǎn)處標(biāo)記斷點(diǎn);步驟C 從兩次遍歷后得到的最長(zhǎng)短語(yǔ)取并集,提取出最長(zhǎng)短語(yǔ),以兩次遍歷共同出現(xiàn)的最高頻詞性為該最長(zhǎng)短語(yǔ)進(jìn)行標(biāo)記。
6.根據(jù)權(quán)利要求1所述的一種圖像搜索方法,其特征在于,步驟204所述的對(duì)提取出來(lái)的最長(zhǎng)短語(yǔ)標(biāo)注詞權(quán),獲得圖片的核心主題詞的具體方法是對(duì)所有最長(zhǎng)短語(yǔ)進(jìn)行詞權(quán)標(biāo)注,并依據(jù)最長(zhǎng)短語(yǔ)的位權(quán)與詞權(quán)乘積從大到小的順序進(jìn)行排序,每個(gè)最長(zhǎng)短語(yǔ)的數(shù)據(jù)結(jié)構(gòu)包括的數(shù)據(jù)項(xiàng)有最長(zhǎng)短語(yǔ)的內(nèi)容、詞性、詞頻和最長(zhǎng)短語(yǔ)的位置,然后通過(guò)刪除網(wǎng)絡(luò)常見(jiàn)短語(yǔ),最后提取出前1-5個(gè)最長(zhǎng)短語(yǔ)作為圖片的主題。
7.應(yīng)用權(quán)利要求1所述的一種圖像搜索方法的圖像搜索引擎,其特征在于,所述的圖像搜索引擎包括獲取模塊、一次搜索模塊、二次搜索模塊、分詞模塊和確定模塊;所述的獲取模塊獲得要進(jìn)行搜索的源圖片并將源圖片傳送給一次搜索模塊;所述的一次搜索模塊根據(jù)源圖片獲得相似圖片集,并將相似圖片集傳送給二次搜索模塊,所述的相似圖片指在視覺(jué)特征上具有共性的圖片;所述的二次搜索模塊建立相似圖片集的網(wǎng)頁(yè)信息的數(shù)據(jù)結(jié)構(gòu),針對(duì)相似圖片集中的每張圖片,根據(jù)該圖片來(lái)源的網(wǎng)頁(yè)地址,爬取來(lái)源網(wǎng)頁(yè)的HTML,生成HTML樹,并從HTML樹中提取圖片上文和圖片下文;所述的分詞模塊對(duì)二次搜索模塊提取出每張圖片的圖片上文和圖片下文標(biāo)注位權(quán), 并對(duì)每張圖片的圖片上文和圖片下文的語(yǔ)段進(jìn)行分析,通過(guò)最長(zhǎng)短語(yǔ)劃分法提取出最長(zhǎng)短語(yǔ),并對(duì)提取出來(lái)的最長(zhǎng)短語(yǔ)標(biāo)注詞權(quán),將提取出來(lái)的最長(zhǎng)短語(yǔ)存入最長(zhǎng)短語(yǔ)的數(shù)據(jù)結(jié)構(gòu)中;所述的確定模塊用于對(duì)提取出來(lái)的所有最長(zhǎng)短語(yǔ),依據(jù)最長(zhǎng)短語(yǔ)的位權(quán)與詞權(quán)乘積從大到小的順序進(jìn)行排序,在刪除網(wǎng)絡(luò)常見(jiàn)短語(yǔ)后,將前1-5個(gè)最長(zhǎng)短語(yǔ)作為圖片的核心主題詞,并根據(jù)圖片的核心主題詞,爬取相關(guān)圖片信息,根據(jù)圖像相似算法去除相似圖片,留下相關(guān)圖片,所述的相關(guān)圖片指的是語(yǔ)義特征上具有共性的圖片。
8.根據(jù)權(quán)利要求7所述的一種圖像搜索引擎,其特征在于,所述的二次搜索模塊所建立的網(wǎng)頁(yè)信息的數(shù)據(jù)結(jié)構(gòu)包括的數(shù)據(jù)項(xiàng)為圖片緩存地址、目標(biāo)圖片地址、圖片來(lái)源的網(wǎng)頁(yè)地址、圖片來(lái)源的解析主機(jī)、目標(biāo)圖片寬、目標(biāo)圖片高、圖片格式類型、文件大小、來(lái)源網(wǎng)頁(yè)標(biāo)題、圖片摘要、圖片序號(hào)、圖片文件名、圖片上文以及圖片下文。
9.根據(jù)權(quán)利要求7所述的一種圖像搜索引擎,其特征在于,所述的分詞模塊,對(duì)圖片上文和圖片下文標(biāo)注位權(quán),所述的位權(quán)=圖片節(jié)點(diǎn)到文本節(jié)點(diǎn)所遍歷的節(jié)點(diǎn)個(gè)數(shù)-遍歷過(guò)程中試探不正確的葉子節(jié)點(diǎn)個(gè)數(shù);所述的圖片節(jié)點(diǎn)、文本節(jié)點(diǎn)以及遍歷過(guò)程中試探不正確的葉子節(jié)點(diǎn)都為HTML樹中的節(jié)點(diǎn),所述的文本節(jié)點(diǎn)指代表圖片上文或者圖片下文的節(jié)點(diǎn)。
全文摘要
本發(fā)明提出一種圖像搜索方法及其搜索引擎。所述方法通過(guò)將獲得的圖片進(jìn)行全網(wǎng)爬取,獲取相似圖像,從相似圖像的來(lái)源網(wǎng)頁(yè)提取出圖片的上下文和主題信息,最后根據(jù)圖像語(yǔ)義特征和圖像視覺(jué)特征,綜合給出圖像的搜索結(jié)果。圖像搜索引擎包括獲取模塊、一次搜索模塊、二次搜索模塊、分詞模塊和確定模塊,獲取模塊獲得源圖片,一次搜索模塊獲得相似圖片集,二次搜索模塊建立相似圖片集網(wǎng)頁(yè)信息的數(shù)據(jù)結(jié)構(gòu),分詞模塊對(duì)圖片上下文標(biāo)注位權(quán),提取最長(zhǎng)短語(yǔ)并標(biāo)注詞權(quán),確定模塊提取核心主題詞,并爬取相關(guān)圖片信息。本發(fā)明提供的一種更全面地利用圖像搜索主題信息和相關(guān)圖像的搜索引擎及搜索方法,用戶可以根據(jù)不同場(chǎng)景產(chǎn)生不同的需求,并且達(dá)到特定的效果。
文檔編號(hào)G06F17/30GK102270234SQ20111021747
公開日2011年12月7日 申請(qǐng)日期2011年8月1日 優(yōu)先權(quán)日2011年8月1日
發(fā)明者王之越, 趙長(zhǎng)海 申請(qǐng)人:北京航空航天大學(xué)