亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

用于配對(duì)圖片搜索的方法和提供配對(duì)圖片的搜索系統(tǒng)的制作方法

文檔序號(hào):6368813閱讀:255來(lái)源:國(guó)知局
專利名稱:用于配對(duì)圖片搜索的方法和提供配對(duì)圖片的搜索系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及互聯(lián)網(wǎng)搜索技術(shù)領(lǐng)域,尤其涉及一種用于配對(duì)圖片搜索的方法和提供配對(duì)圖片的搜索系統(tǒng)。
背景技術(shù)
在互聯(lián)網(wǎng)的圖片資源中,部分圖片是以配對(duì)的形式向用戶展現(xiàn)的。用戶可以通過(guò)搜索引擎輸入關(guān)鍵詞進(jìn)行配對(duì)圖片的搜索,通過(guò)用戶搜索行為的統(tǒng)計(jì)分析得出在圖片配對(duì)的需求占總需求量的0. 9%?,F(xiàn)有技術(shù)中,由于檢索系統(tǒng)構(gòu)架和通用流程等問(wèn)題,配對(duì)圖片是分散的,不滿足用戶需求,用戶體驗(yàn)差。

發(fā)明內(nèi)容
本發(fā)明旨在至少解決現(xiàn)有技術(shù)中存在的技術(shù)問(wèn)題之一。為此,本發(fā)明的第一個(gè)目的在于提出一種可將搜索結(jié)果按照連續(xù)配對(duì)的方式反饋給用戶以提升用戶體驗(yàn)的用于配對(duì)圖片搜索的方法。本發(fā)明的第二個(gè)目的在于提出一種用于配對(duì)圖片搜索的系統(tǒng)。為了實(shí)現(xiàn)上述目的,本發(fā)明的第一方面實(shí)施例的用于配對(duì)圖片搜索的方法包括以下步驟搜索系統(tǒng)根據(jù)搜索信息從各個(gè)原始站點(diǎn)抓取源站點(diǎn)網(wǎng)頁(yè);從所述抓取的源站點(diǎn)網(wǎng)頁(yè)中獲得所述源站點(diǎn)網(wǎng)頁(yè)中的圖片;按照所述原始站點(diǎn)對(duì)獲得的所述圖片進(jìn)行聚類以生成多個(gè)已收錄站點(diǎn)圖片集;對(duì)每個(gè)所述已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析以生成多個(gè)配對(duì)圖片;以及所述搜索系統(tǒng)根據(jù)用戶的搜索要求為所述用戶提供相應(yīng)的配對(duì)圖片。根據(jù)本發(fā)明實(shí)施例的用于配對(duì)圖片搜索的方法,搜索系統(tǒng)對(duì)已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析生成多個(gè)配對(duì)圖片之后,根據(jù)用戶的搜索要求將結(jié)果按照連續(xù)配對(duì)的方式反饋給用戶,滿足用戶需求,提升用戶體驗(yàn)。為了實(shí)現(xiàn)上述目的,本發(fā)明的第二方面實(shí)施例的用于提供配對(duì)圖片的搜索系統(tǒng)包括抓取裝置,用于根據(jù)搜索信息從各個(gè)原始站點(diǎn)抓取源站點(diǎn)網(wǎng)頁(yè);匹配處理裝置,用于從所述抓取的源站點(diǎn)網(wǎng)頁(yè)中獲得所述源站點(diǎn)網(wǎng)頁(yè)中的圖片,并按照所述原始站點(diǎn)對(duì)獲得的所述圖片進(jìn)行聚類以生成多個(gè)已收錄站點(diǎn)圖片集,以及對(duì)每個(gè)所述已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析以生成多個(gè)配對(duì)圖片;以及搜索提供裝置,用于根據(jù)用戶的搜索要求為所述用戶提供相應(yīng)的配對(duì)圖片。根據(jù)本發(fā)明實(shí)施例的用于提供配對(duì)圖片的搜索系統(tǒng),通過(guò)匹配處理裝置對(duì)已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析以生成多個(gè)配對(duì)圖片,然后搜索提供裝置根據(jù)用戶的搜索要求將結(jié)果按照通過(guò)提供模塊以連續(xù)配對(duì)的方式反饋給用戶,滿足用戶需求,提升用戶體驗(yàn)。本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過(guò)本發(fā)明的實(shí)踐了解到。


本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中圖I是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于配對(duì)圖片搜索的方法的流程圖;圖2是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于配對(duì)圖片搜索的方法的流程圖;圖3是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于配對(duì)圖片搜索的方法的流程圖;圖4是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于配對(duì)圖片搜索的方法的示意圖; 圖5是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于配對(duì)圖片搜索的方法的流程圖;圖6是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于配對(duì)圖片搜索的方法的流程圖;圖7是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于提供配對(duì)圖片的搜索系統(tǒng)的結(jié)構(gòu)框圖;圖8是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于提供配對(duì)圖片的搜索系統(tǒng)的結(jié)構(gòu)框圖;圖9是根據(jù)本發(fā)明實(shí)施例的匹配分析模塊的結(jié)構(gòu)框圖;圖10是根據(jù)本發(fā)明實(shí)施例的匹配分析模塊的結(jié)構(gòu)框圖;以及圖11是根據(jù)本發(fā)明一個(gè)實(shí)施例的用于提供配對(duì)圖片的搜索系統(tǒng)的結(jié)構(gòu)框圖。
具體實(shí)施例方式下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過(guò)參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。在本發(fā)明的描述中,術(shù)語(yǔ)“縱向”、“橫向”、“上”、“下”、“前”、“后”、“左”、“右”、“豎直”、“水平”、“頂”、“底”等指示的方位或位置關(guān)系為基于附圖所示的方位或位置關(guān)系,僅是為了便于描述本發(fā)明而不是要求本發(fā)明必須以特定的方位構(gòu)造和操作,因此不能理解為對(duì)本發(fā)明的限制。下面參考說(shuō)明書附圖描述根據(jù)本發(fā)明實(shí)施例的用于配對(duì)圖片搜索的方法。一種用于配對(duì)圖片搜索的方法,包括以下步驟搜索系統(tǒng)根據(jù)搜索信息從各個(gè)原始站點(diǎn)抓取源站點(diǎn)網(wǎng)頁(yè);從抓取的源站點(diǎn)網(wǎng)頁(yè)中獲得源站點(diǎn)網(wǎng)頁(yè)中的圖片;按照原始站點(diǎn)對(duì)獲得的圖片進(jìn)行聚類以生成多個(gè)已收錄站點(diǎn)圖片集;對(duì)每個(gè)已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析以生成多個(gè)配對(duì)圖片;以及搜索系統(tǒng)根據(jù)用戶的搜索要求為用戶提供相應(yīng)的配對(duì)圖片。圖I為本發(fā)明一個(gè)實(shí)施例的用于配對(duì)圖片搜索的方法的流程圖。如圖I所示,根據(jù)本發(fā)明實(shí)施例的用于配對(duì)圖片搜索的方法包括下述步驟。步驟S101,搜索系統(tǒng)根據(jù)搜索信息從各個(gè)原始站點(diǎn)抓取源站點(diǎn)網(wǎng)頁(yè)。其中,配對(duì)圖片對(duì)應(yīng)的原始站點(diǎn)數(shù)據(jù)集中且文本特征顯明,原始站點(diǎn)的網(wǎng)頁(yè)數(shù)據(jù)段中包括重要的數(shù)據(jù)字段如alt和title等,搜索信息可包括關(guān)鍵詞和閾值等。具體地,首先搜索系統(tǒng)將多個(gè)關(guān)鍵詞與重要的數(shù)據(jù)字段的文本內(nèi)容進(jìn)行匹配,獲取多個(gè)關(guān)鍵詞的適應(yīng)權(quán)重w_offset,然后根據(jù)適應(yīng)權(quán)重w_offset和多個(gè)關(guān)鍵詞權(quán)重w_query計(jì)算匹配權(quán)值w_final,例如 w_final = (max_offset-offset) / (max_offset) *w_offset+w_query,其中max_offset為多個(gè)關(guān)鍵詞中的最大適用值,offset為平均適應(yīng)值,搜索系統(tǒng)將匹配權(quán)值w_final與設(shè)置的閾值比較,如果匹配權(quán)值w_final大于所設(shè)置的閾值,則搜索系統(tǒng)判斷命中該站點(diǎn)并抓取該站點(diǎn)相應(yīng)的源站點(diǎn)圖片。 其中,關(guān)鍵詞可以包括配對(duì)、對(duì)稱、一對(duì)、兩張、男女、左右、一左一右、一男一女、一組、分開和卡通動(dòng)漫等。在實(shí)際的抓取過(guò)程中可能獲取不滿足要求的配對(duì)圖片,例如在進(jìn)行情侶頭像的配對(duì)中抓取女女或者男男的配對(duì)圖,此時(shí)可以設(shè)置對(duì)原始站點(diǎn)進(jìn)行降權(quán)處理的關(guān)鍵詞,例如,姐妹、男生、男孩、女生和女孩等。步驟S102,從抓取的源站點(diǎn)網(wǎng)頁(yè)中獲得源站點(diǎn)網(wǎng)頁(yè)中的圖片。步驟S103,按照原始站點(diǎn)對(duì)獲得的圖片進(jìn)行聚類以生成多個(gè)已收錄站點(diǎn)圖片集。具體地,將屬于一個(gè)原始站點(diǎn)的圖片匯聚到一個(gè)類中,然后生成多個(gè)已收錄站點(diǎn)圖片集。其中,已收錄站點(diǎn)圖片集是被搜索系統(tǒng)所收錄的,源站點(diǎn)圖片集中包括被搜索系統(tǒng)收錄的圖片和未被搜索系統(tǒng)收錄的圖片。步驟S104,對(duì)每個(gè)已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析以生成多個(gè)配對(duì)圖片。步驟S105,搜索系統(tǒng)根據(jù)用戶的搜索要求為用戶提供相應(yīng)的配對(duì)圖片。根據(jù)本發(fā)明實(shí)施例的用于配對(duì)圖片搜索的方法,搜索系統(tǒng)對(duì)已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析生成多個(gè)配對(duì)圖片之后,根據(jù)用戶的搜索要求將結(jié)果按照連續(xù)配對(duì)的方式反饋給用戶,滿足用戶需求,提升用戶體驗(yàn)。圖2為本發(fā)明一個(gè)實(shí)施例的用于配對(duì)圖片搜索的方法的流程圖。如圖2所示,根據(jù)本發(fā)明實(shí)施例的用于配對(duì)圖片搜索的方法包括下述步驟。步驟S201,搜索系統(tǒng)根據(jù)搜索信息從各個(gè)原始站點(diǎn)抓取源站點(diǎn)網(wǎng)頁(yè)。 步驟S202,從抓取的源站點(diǎn)網(wǎng)頁(yè)中獲得源站點(diǎn)網(wǎng)頁(yè)中的圖片。步驟S203,按照原始站點(diǎn)對(duì)獲得的圖片進(jìn)行聚類以生成多個(gè)已收錄站點(diǎn)圖片集。步驟S204,對(duì)源站點(diǎn)網(wǎng)頁(yè)進(jìn)行分析以生成源站點(diǎn)圖片集。步驟S205,獲取源站點(diǎn)網(wǎng)頁(yè)中的HTML格式文件和CSS格式文件。步驟S206,根據(jù)HTML格式文件中的各個(gè)標(biāo)簽建立DOM-Tree。步驟S207,根據(jù)CSS格式文件和DOM-Tree分析源站點(diǎn)圖片集中圖片在源站點(diǎn)網(wǎng)頁(yè)中的位置以獲得源站點(diǎn)圖片集中圖片的位置信息。步驟S208,根據(jù)位置信息對(duì)已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析。例如,可設(shè)置位置閾值,將閾值范圍內(nèi)已收錄站點(diǎn)圖片集的圖片進(jìn)行匹配分析。步驟S209,搜索系統(tǒng)根據(jù)用戶的搜索要求為用戶提供相應(yīng)的配對(duì)圖片。根據(jù)本發(fā)明實(shí)施例的用于配對(duì)圖片搜索的方法,通過(guò)源站點(diǎn)網(wǎng)頁(yè)的DOM-Tree獲取源站點(diǎn)圖片集中圖片的位置信息,根據(jù)位置信息對(duì)已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析,簡(jiǎn)單易行。圖3為本發(fā)明一個(gè)實(shí)施例的用于配對(duì)圖片搜索的方法的流程圖。 如圖3所示,根據(jù)本發(fā)明實(shí)施例的用于配對(duì)圖片搜索的方法包括下述步驟。步驟S301,搜索系統(tǒng)根據(jù)搜索信息從各個(gè)原始站點(diǎn)抓取源站點(diǎn)網(wǎng)頁(yè)。步驟S302,從抓取的源站點(diǎn)網(wǎng)頁(yè)中獲得源站點(diǎn)網(wǎng)頁(yè)中的圖片。步驟S303,按照原始站點(diǎn)對(duì)獲得的圖片進(jìn)行聚類以生成多個(gè)已收錄站點(diǎn)圖片集。步驟S304,對(duì)源站點(diǎn)網(wǎng)頁(yè)進(jìn)行分析以生成源站點(diǎn)圖片集。步驟S305,獲取源站點(diǎn)網(wǎng)頁(yè)中的HTML格式文件和CSS格式文件。
步驟S306,根據(jù)HTML格式文件中的各個(gè)標(biāo)簽建立DOM-Tree。步驟S307,根據(jù)CSS格式文件和DOM-Tree分析源站點(diǎn)圖片集中圖片在源站點(diǎn)網(wǎng)頁(yè)中的位置以獲得源站點(diǎn)圖片集中圖片的位置信息。步驟S308,根據(jù)位置信息獲得已收錄站點(diǎn)圖片集中每個(gè)圖片的位置信息。步驟S309,根據(jù)已收錄站點(diǎn)圖片集生成已收錄站點(diǎn)圖片集在源站點(diǎn)網(wǎng)頁(yè)中對(duì)應(yīng)的第一范圍。如圖4(a)所示為源站點(diǎn)中每個(gè)圖片按照位置信息分布示意圖,其中每個(gè)小方塊代表一個(gè)圖片,為了說(shuō)明方便將每個(gè)圖片進(jìn)行了編號(hào),圖4(b)所示為源站點(diǎn)中對(duì)應(yīng)已收錄站點(diǎn)圖片按照位置信息分布示意圖,則確定圖4(b)中5’至9’之間的范圍為第一范圍。步驟S310,根據(jù)源站點(diǎn)圖片集和第一范圍獲得第一范圍內(nèi)的所有圖片。如圖4(c)中所示,根據(jù)源站點(diǎn)圖片集和第一范圍獲取第一范圍內(nèi)的所有圖片5(5’)、6、7(7’)、8(8’)和 9(9,)。在本發(fā)明的一個(gè)實(shí)施例中,計(jì)算第一范圍內(nèi)圖片的數(shù)量,如果第一范圍內(nèi)圖片的數(shù)量小于預(yù)設(shè)值,則過(guò)濾第一范圍內(nèi)所有圖片。在本發(fā)明的一個(gè)實(shí)施例中,將第一范圍內(nèi)不滿足圖片大小要求的圖片去除。例如,過(guò)大圖片、過(guò)小圖片或者噪聲圖片等。步驟S311,計(jì)算第一范圍內(nèi)的所有圖片之間的第一平均間隔,并根據(jù)第一平均間隔及預(yù)設(shè)的比例將第一范圍擴(kuò)大至第二范圍。如圖4(d)所示,按照設(shè)置的比例1.6倍將第一范圍向前向后做偏移,其中預(yù)設(shè)的比例還可設(shè)置其他比例。步驟S312,對(duì)已收錄站點(diǎn)圖片集中的屬于第二范圍的圖片進(jìn)行匹配分析。例如,如圖4(d)所示,經(jīng)過(guò)匹配分析得出第二范圍內(nèi)7’和8,為配對(duì)圖片。步驟S313,搜索系統(tǒng)根據(jù)用戶的搜索要求為用戶提供相應(yīng)的配對(duì)圖片。

根據(jù)本發(fā)明實(shí)施例的用于配對(duì)圖片搜索的方法,根據(jù)位置信息擴(kuò)大配對(duì)圖片的匹配分析范圍,提高匹配分析的準(zhǔn)確性。圖5為本發(fā)明一個(gè)實(shí)施例的用于配對(duì)圖片搜索的方法的流程圖。如圖5所示,根據(jù)本發(fā)明實(shí)施例的用于配對(duì)圖片搜索的方法包括下述步驟。步驟S401,搜索系統(tǒng)根據(jù)搜索信息從各個(gè)原始站點(diǎn)抓取源站點(diǎn)網(wǎng)頁(yè)。步驟S402,從抓取的源站點(diǎn)網(wǎng)頁(yè)中獲得源站點(diǎn)網(wǎng)頁(yè)中的圖片。步驟S403,按照原始站點(diǎn)對(duì)獲得的圖片進(jìn)行聚類以生成多個(gè)已收錄站點(diǎn)圖片集。步驟S404,對(duì)源站點(diǎn)網(wǎng)頁(yè)進(jìn)行分析以生成源站點(diǎn)圖片集。步驟S405,獲取源站點(diǎn)網(wǎng)頁(yè)中的HTML格式文件和CSS格式文件。步驟S406,根據(jù)HTML格式文件中的各個(gè)標(biāo)簽建立DOM-Tree。步驟S407,根據(jù)CSS格式文件和DOM-Tree分析源站點(diǎn)圖片集中圖片在源站點(diǎn)網(wǎng)頁(yè)中的位置以獲得源站點(diǎn)圖片集中圖片的位置信息。步驟S408,根據(jù)位置信息獲得已收錄站點(diǎn)圖片集中每個(gè)圖片的位置信息。步驟S409,根據(jù)已收錄站點(diǎn)圖片集生成已收錄站點(diǎn)圖片集在源站點(diǎn)網(wǎng)頁(yè)中對(duì)應(yīng)的
第一范圍。步驟S410,根據(jù)源站點(diǎn)圖片集和第一范圍獲得第一范圍內(nèi)的所有圖片。在本發(fā)明的一個(gè)實(shí)施例中,計(jì)算第一范圍內(nèi)圖片的數(shù)量,如果第一范圍內(nèi)圖片的數(shù)量小于預(yù)設(shè)值,則過(guò)濾第一范圍內(nèi)所有圖片。
在本發(fā)明的一個(gè)實(shí)施例中,將第一范圍內(nèi)不滿足圖片大小要求的圖片去除。例如,過(guò)大圖片、過(guò)小圖片或者噪聲圖片等。步驟S411,計(jì)算第一范圍內(nèi)的所有圖片之間的第一平均間隔,并根據(jù)第一平均間隔及預(yù)設(shè)的比例將第一范圍擴(kuò)大至第二范圍。步驟S412,去除第二范圍內(nèi)不滿足要求的圖片,并再次計(jì)算第二范圍內(nèi)圖片的第二平均間隔。在本發(fā)明的一個(gè)實(shí)施例中,判斷第二范圍內(nèi)超鏈接的數(shù)量是否大于閾值,如果大于閾值,則過(guò)濾第二范圍內(nèi)的所有圖片。步驟S413,根據(jù)第二平均間隔及預(yù)設(shè)的比例將第二范圍擴(kuò)大至第三范圍。其中,第 三范圍的擴(kuò)大與第二范圍的擴(kuò)大方法相同。步驟S414,計(jì)算屬于第三范圍內(nèi)圖片之間的匹配度。在本發(fā)明的一個(gè)實(shí)施例中,匹配度通過(guò)位置關(guān)系權(quán)重值、顏色相似度權(quán)重值、圖片大小權(quán)重值、圖片顯著區(qū)域相似度權(quán)重值、圖片背景區(qū)域相似度權(quán)重值、圖片連續(xù)性權(quán)重值中的一種或多種計(jì)算得到。步驟S415,根據(jù)匹配度確定第三范圍內(nèi)的配對(duì)圖片。步驟S416,判斷確定的配對(duì)圖片均屬于已收錄站點(diǎn)圖片集。步驟S417,如果確定的配對(duì)圖片均屬于已收錄站點(diǎn)圖片集,則將配對(duì)圖片作為已收錄站點(diǎn)圖片集中的配對(duì)圖片并保存。例如,將配對(duì)圖片保存到配對(duì)字典之中。步驟S418,確定的配對(duì)圖片均不屬于已收錄站點(diǎn)圖片集,則丟棄該配對(duì)圖片。例如,配對(duì)圖片中有一張是屬于已收錄站點(diǎn)圖片集,另一張是屬于源站點(diǎn)圖片集,或者配對(duì)圖片均屬于源站點(diǎn)圖片集,將該配對(duì)圖片丟棄。步驟S419,搜索系統(tǒng)根據(jù)用戶的搜索要求為用戶提供相應(yīng)的配對(duì)圖片。根據(jù)本發(fā)明實(shí)施例的用于配對(duì)圖片搜索的方法,重新計(jì)算第二范圍內(nèi)的圖片平均間隔并將匹配分析的范圍擴(kuò)大至第三范圍,進(jìn)一步提高匹配分析的準(zhǔn)確性。圖6為本發(fā)明一個(gè)實(shí)施例的用于配對(duì)圖片搜索的方法的流程圖。如圖6所示,根據(jù)本發(fā)明實(shí)施例的用于配對(duì)圖片搜索的方法包括下述步驟。步驟S501,搜索系統(tǒng)根據(jù)搜索信息從各個(gè)原始站點(diǎn)抓取源站點(diǎn)網(wǎng)頁(yè)。步驟S502,從抓取的源站點(diǎn)網(wǎng)頁(yè)中獲得源站點(diǎn)網(wǎng)頁(yè)中的圖片。步驟S503,按照原始站點(diǎn)對(duì)獲得的圖片進(jìn)行聚類以生成多個(gè)已收錄站點(diǎn)圖片集。步驟S504,對(duì)源站點(diǎn)網(wǎng)頁(yè)進(jìn)行分析以生成源站點(diǎn)圖片集。步驟S505,獲取源站點(diǎn)網(wǎng)頁(yè)中的HTML格式文件和CSS格式文件。步驟S506,根據(jù)HTML格式文件中的各個(gè)標(biāo)簽建立DOM-Tree。步驟S507,根據(jù)CSS格式文件和DOM-Tree分析源站點(diǎn)圖片集中圖片在源站點(diǎn)網(wǎng)頁(yè)中的位置以獲得源站點(diǎn)圖片集中圖片的位置信息。步驟S508,根據(jù)位置信息獲得已收錄站點(diǎn)圖片集中每個(gè)圖片的位置信息。步驟S509,根據(jù)已收錄站點(diǎn)圖片集生成已收錄站點(diǎn)圖片集在源站點(diǎn)網(wǎng)頁(yè)中對(duì)應(yīng)的
第一范圍。步驟S510,根據(jù)源站點(diǎn)圖片集和第一范圍獲得第一范圍內(nèi)的所有圖片。在本發(fā)明的一個(gè)實(shí)施例中,計(jì)算第一范圍內(nèi)圖片的數(shù)量,如果第一范圍內(nèi)圖片的數(shù)量小于預(yù)設(shè)值,則過(guò)濾第一范圍內(nèi)所有圖片。在本發(fā)明的一個(gè)實(shí)施例中,將第一范圍內(nèi)不滿足圖片大小要求的圖片去除。例如,過(guò)大圖片、過(guò)小圖片或者噪聲圖片等。步驟S511,計(jì)算第一范圍內(nèi)的所有圖片之間的第一平均間隔,并根據(jù)第一平均間隔及預(yù)設(shè)的比例將第一范圍擴(kuò)大至第二范圍。步驟S512,去除第二范圍內(nèi)不滿足要求的圖片,并再次計(jì)算第二范圍內(nèi)圖片的第二平均間隔。
在本發(fā)明的一個(gè)實(shí)施例中,判斷第二范圍內(nèi)超鏈接的數(shù)量是否大于閾值,如果大于閾值,則過(guò)濾第二范圍內(nèi)的所有圖片。步驟S513,根據(jù)第二平均間隔及預(yù)設(shè)的比例將第二范圍擴(kuò)大至第三范圍。其中,第三范圍的擴(kuò)大與第二范圍的擴(kuò)大方法相同。步驟S514,計(jì)算屬于第三范圍內(nèi)圖片之間的匹配度。在本發(fā)明的一個(gè)實(shí)施例中,匹配度通過(guò)位置關(guān)系權(quán)重值、顏色相似度權(quán)重值、圖片大小權(quán)重值、圖片顯著區(qū)域相似度權(quán)重值、圖片背景區(qū)域相似度權(quán)重值、圖片連續(xù)性權(quán)重值中的一種或多種計(jì)算得到。步驟S515,根據(jù)匹配度確定第三范圍內(nèi)的配對(duì)圖片。步驟S516,判斷確定的配對(duì)圖片均屬于已收錄站點(diǎn)圖片集。步驟S517,如果確定的配對(duì)圖片均屬于已收錄站點(diǎn)圖片集,則將配對(duì)圖片作為已收錄站點(diǎn)圖片集中的配對(duì)圖片并保存。在本發(fā)明的一個(gè)實(shí)施例中,搜索系統(tǒng)包括多級(jí)搜索模塊,且配對(duì)圖片保存在配對(duì)字典之中,其中,中級(jí)搜索模塊與多個(gè)下級(jí)搜索模塊相連,上級(jí)搜索模塊與多個(gè)中級(jí)搜索模塊相連。具體地,保存在配對(duì)字典之中的配對(duì)圖片包括該圖片的ID、配對(duì)圖片ID等。步驟S518,確定的配對(duì)圖片均不屬于已收錄站點(diǎn)圖片集,則丟棄該配對(duì)圖片。例如,配對(duì)圖片中有一張是屬于已收錄站點(diǎn)圖片集,另一張是屬于源站點(diǎn)圖片集,或者配對(duì)圖片均屬于源站點(diǎn)圖片集,將該配對(duì)圖片丟棄。步驟S519,下級(jí)搜索模塊根據(jù)搜索要求生成初級(jí)搜索結(jié)果。步驟S520,下級(jí)搜索模塊從初級(jí)搜索結(jié)果中選擇屬于配對(duì)字典的圖片,并對(duì)選擇的圖片的相關(guān)性信息進(jìn)行加權(quán)提檔處理。步驟S521,下級(jí)搜索模塊按照?qǐng)D片的相關(guān)性信息將預(yù)定數(shù)目的圖片上傳至中級(jí)搜索模塊。其中,圖片的相關(guān)性信息主要涉及圖片的質(zhì)量和配對(duì)信息,如果圖片為配對(duì)圖片則對(duì)將其相關(guān)性進(jìn)行加權(quán)處理,由此保證下級(jí)搜索模塊將高質(zhì)量的配對(duì)圖片上傳至中級(jí)搜索模塊,例如將加權(quán)之后的相關(guān)性排列在前的2000個(gè)圖片上傳至中級(jí)搜索模塊。步驟S522,中級(jí)搜索模塊將多個(gè)下級(jí)搜索模塊發(fā)送的圖片加入至中間配對(duì)字典之中,并對(duì)經(jīng)過(guò)下級(jí)搜索模塊加權(quán)提檔處理的圖片進(jìn)行恢復(fù)降檔處理。其中,判斷接收到的圖片是否被下級(jí)搜索模塊加權(quán)提檔,如果進(jìn)行加權(quán)提檔則進(jìn)行恢復(fù)降檔處理。步驟S523,中級(jí)搜索模塊對(duì)中間配對(duì)字典中成對(duì)的圖片進(jìn)行加權(quán)提檔處理,并按照?qǐng)D片的相關(guān)性信息將預(yù)定數(shù)目的圖片上傳至上級(jí)搜索模塊。步驟S524,上級(jí)搜索模塊對(duì)多個(gè)中級(jí)搜索模塊上傳的圖片進(jìn)行重新排序,將成對(duì)的圖片的顯示位置提前并做相鄰處理。
根據(jù)本發(fā)明實(shí)施例的用于配對(duì)圖片搜索的方法,通過(guò)初級(jí)搜索模塊將配對(duì)圖片進(jìn)行提檔以確定高質(zhì)量的配對(duì)圖片上傳到中級(jí)搜索模塊,中級(jí)搜索模塊將成對(duì)的圖片進(jìn)行加權(quán)提檔處理并上傳到上級(jí)搜索模塊,上級(jí)搜索模塊對(duì)上傳的圖片進(jìn)行重新排序并將成對(duì)的圖片的顯示位置提前并做相鄰處理,實(shí)現(xiàn)搜索結(jié)果按照連續(xù)配對(duì)進(jìn)行呈現(xiàn),進(jìn)一步提升用戶體驗(yàn)。為了實(shí)現(xiàn)上述實(shí)施例,本發(fā)明又提出一種用于配對(duì)圖片搜索的系統(tǒng)。下面參考說(shuō)明書附圖描述根據(jù)本發(fā)明實(shí)施例的用于配對(duì)圖片搜索的系統(tǒng)。一種用于提供配對(duì)圖片的搜索系統(tǒng),包括抓取裝置,用于根據(jù)搜索信息從各個(gè)原始站點(diǎn)抓取源站點(diǎn)網(wǎng)頁(yè);匹配處理裝置,用于從抓取的源站點(diǎn)網(wǎng)頁(yè)中獲得源站點(diǎn)網(wǎng)頁(yè)中的圖片,并按照原始站點(diǎn)對(duì)獲得的圖片進(jìn)行聚類以生成多個(gè)已收錄站點(diǎn)圖片集,以及對(duì)每個(gè)已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析以生成多個(gè)配對(duì)圖片;以及搜索提供裝置,用于根據(jù)用戶的搜索要求為用戶提供相應(yīng)的配對(duì)圖片。
圖7為本發(fā)明一個(gè)實(shí)施例的用于提供配對(duì)圖片的搜索系統(tǒng)的結(jié)構(gòu)框圖。如圖7所示,根據(jù)本發(fā)明實(shí)施例的用于提供配對(duì)圖片的搜索系統(tǒng)包括抓取裝置100、匹配處理裝置200和搜索提供裝置300。具體地,抓取模塊100用于搜索系統(tǒng)根據(jù)搜索信息從各個(gè)原始站點(diǎn)抓取源站點(diǎn)網(wǎng)頁(yè)。其中,配對(duì)圖片對(duì)應(yīng)的原始站點(diǎn)數(shù)據(jù)集中且文本特征顯明,原始站點(diǎn)的網(wǎng)頁(yè)數(shù)據(jù)段中包括重要的數(shù)據(jù)字段如alt和title等,搜索信息可包括關(guān)鍵詞和閾值等。具體地,抓取模塊100首先搜索系統(tǒng)將多個(gè)關(guān)鍵詞與重要的數(shù)據(jù)字段的文本內(nèi)容進(jìn)行匹配,獲取多個(gè)關(guān)鍵詞的適應(yīng)權(quán)重w_offset,然后根據(jù)適應(yīng)權(quán)重w_offset和多個(gè)關(guān)鍵詞權(quán)重w_query計(jì)算匹配權(quán)值 w_final,例如 w_final = (max_offset-offset) / (max_offset)氺w_offset+w_query,其中max_offset為多個(gè)關(guān)鍵詞中的最大適用值,offset為平均適應(yīng)值,搜索系統(tǒng)將匹配權(quán)值w_final與設(shè)置的閾值比較,如果匹配權(quán)值w_final大于所設(shè)置的閾值,則搜索系統(tǒng)判斷命中該站點(diǎn)并抓取該站點(diǎn)相應(yīng)的源站點(diǎn)圖片。其中,關(guān)鍵詞可以包括配對(duì)、對(duì)稱、一對(duì)、兩張、男女、左右、一左一右、一男一女、一組、分開和卡通動(dòng)漫等。在實(shí)際的抓取過(guò)程中可能獲取不滿足要求的配對(duì)圖片,例如在進(jìn)行情侶頭像的配對(duì)中抓取女女或者男男的配對(duì)圖,此時(shí)可以設(shè)置對(duì)原始站點(diǎn)進(jìn)行降權(quán)處理的關(guān)鍵詞,例如,姐妹、男生、男孩、女生和女孩等。匹配處理裝置200用于從抓取的源站點(diǎn)網(wǎng)頁(yè)中獲得源站點(diǎn)網(wǎng)頁(yè)中的圖片,并按照原始站點(diǎn)對(duì)獲得的圖片進(jìn)行聚類以生成多個(gè)已收錄站點(diǎn)圖片集,以及對(duì)每個(gè)已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析以生成多個(gè)配對(duì)圖片。其中匹配處理裝置200將屬于一個(gè)原始站點(diǎn)的圖片匯聚到一個(gè)類中,然后生成多個(gè)已收錄站點(diǎn)圖片集,已收錄站點(diǎn)圖片集是被搜索系統(tǒng)所收錄的,源站點(diǎn)圖片集中包括被搜索系統(tǒng)收錄的圖片和未被搜索系統(tǒng)收錄的圖片。搜索提供裝置300用于根據(jù)用戶的搜索要求為用戶提供相應(yīng)的配對(duì)圖片。根據(jù)本發(fā)明實(shí)施例的用于提供配對(duì)圖片的搜索系統(tǒng),通過(guò)匹配處理裝置對(duì)已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析以生成多個(gè)配對(duì)圖片,然后搜索提供裝置根據(jù)用戶的搜索要求將結(jié)果按照通過(guò)提供模塊以連續(xù)配對(duì)的方式反饋給用戶,滿足用戶需求,提升用戶體驗(yàn)。
圖8為本發(fā)明一個(gè)實(shí)施例的用于提供配對(duì)圖片的搜索系統(tǒng)的結(jié)構(gòu)框圖。如圖8所示,根據(jù)本發(fā)明實(shí)施例的用于提供配對(duì)圖片的搜索系統(tǒng)包括抓取裝置100、匹配處理裝置200和搜索提供裝置300,其中匹配處理裝置200包括圖片集生成模塊210、位置信息獲取模塊220和匹配分析模塊230。具體地,抓取模塊100用于搜索系統(tǒng)根據(jù)搜索信息從各個(gè)原始站點(diǎn)抓取源站點(diǎn)網(wǎng)頁(yè)。匹配處理裝置200用于從抓取的源站點(diǎn)網(wǎng)頁(yè)中獲得源站點(diǎn)網(wǎng)頁(yè)中的圖片,并按照原始站點(diǎn)對(duì)獲得的圖片進(jìn)行聚類以生成多個(gè)已收錄站點(diǎn)圖片集,以及對(duì)每個(gè)已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析以生成多個(gè)配對(duì)圖片。搜索提供裝置300用于根據(jù)用戶的搜索要求為用戶提供相應(yīng)的配對(duì)圖片。在本發(fā)明的一個(gè)實(shí)施例中,匹配處理裝置200包括圖片集生成模塊210、位置信息獲取模塊220和匹配分析模塊230。具體地,圖片集生成模塊210用于對(duì)源站點(diǎn)網(wǎng)頁(yè)進(jìn)行分析以生成源站點(diǎn)圖片集。位置信息獲取模塊220用于獲取源站點(diǎn)網(wǎng)頁(yè)中的HTML格式文件和CSS格式文件,并根據(jù)HTML格式文件中的各個(gè)標(biāo)簽建立DOM-Tree,以及根據(jù)CSS格式文件和DOM-Tree分析源站點(diǎn)圖片集中圖片在源站點(diǎn)網(wǎng)頁(yè)中的位置以獲得源站點(diǎn)圖片集中圖片的位置信息。匹配分析模塊230用于根據(jù)位置信息對(duì)已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析,例如,匹配分析模塊230可設(shè)置位置閾值,將閾值范圍內(nèi)已收錄站點(diǎn)圖片集的圖片進(jìn)行匹配分析。根據(jù)本發(fā)明實(shí)施例的用于提供配對(duì)圖片的搜索系統(tǒng),根據(jù)位置信息獲取模塊通過(guò)源站點(diǎn)網(wǎng)頁(yè)的DOM-Tree獲取源站點(diǎn)圖片集中圖片的位置信息,匹配分析模塊根據(jù)位置信息對(duì)已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析,簡(jiǎn)單易行。圖9為本發(fā)明實(shí)施例的匹配分析模塊230的結(jié)構(gòu)框圖。如圖9所示,根據(jù)本發(fā)明實(shí)施例的匹配分析模塊230包括第一范圍生成單元231、第二范圍生成單元232和匹配分析單元233。具體地,第一范圍生成單元231用于根據(jù)位置信息獲得已收錄站點(diǎn)圖片集中每個(gè)圖片的位置信息,并根據(jù)已收錄站點(diǎn)圖片集生成已收錄站點(diǎn)圖片集在源站點(diǎn)網(wǎng)頁(yè)中對(duì)應(yīng)的第一范圍。例如圖4(a)所示為源站點(diǎn)中每個(gè)圖片按照位置信息分布示意圖,其中每個(gè)小方塊代表一個(gè)圖片,為了說(shuō)明方便將每個(gè)圖片進(jìn)行了編號(hào),圖4(b)所示為源站點(diǎn)中對(duì)應(yīng)已收錄站點(diǎn)圖片按照位置信息分布示意圖,則確定圖4(b)中5’至9’之間的范圍為第一范圍。第二范圍生成單元232用于根據(jù)源站點(diǎn)圖片集和第一范圍獲得第一范圍內(nèi)的所有圖片,并計(jì)算第一范圍內(nèi)的所有圖片之間的第一平均間隔,以及根據(jù)第一平均間隔及預(yù)設(shè)的比例將第一范圍擴(kuò)大至第二范圍。例如圖4(c)中所示,根據(jù)源站點(diǎn)圖片集和第一范圍獲取第一范圍內(nèi)的所有圖片5(5’)、6、7(7’)、8(8’)和9(9’),如圖4((1)所示,按照設(shè)置的比例I. 6倍將第一范圍向前向后做偏移,其中預(yù)設(shè)的比例還可設(shè)置其他比例。匹配分析單元233對(duì)已收錄站點(diǎn)圖片集中的屬于第二范圍的圖片進(jìn)行匹配分析。例如圖4(d)所示,經(jīng)過(guò)匹配分析得出第二范圍內(nèi)V和8’為配對(duì)圖片。根據(jù)本發(fā)明實(shí)施例的匹配分析模塊可以根據(jù)位置信息擴(kuò)大配對(duì)圖片的匹配分析范圍,提高匹配分析的準(zhǔn)確性。圖10為本發(fā)明實(shí)施例的匹配分析模塊230的結(jié)構(gòu)框圖。如圖10所示,根據(jù)本發(fā)明實(shí)施例的匹配分析模塊230包括第一范圍生成單元231、第二范圍生成單元232和匹配分析單元233,其中匹配分析單元233包括去除子單元2331、第三范圍生成子單元2332、匹配度計(jì)算子單元2333和配對(duì)確定子單元2334。具體地,第一范圍生成單元231用于根據(jù)位置信息獲得已收錄站點(diǎn)圖片集中每個(gè)圖片的位置信息,并根據(jù)已收錄站點(diǎn)圖片集生成已收錄站點(diǎn)圖片集在源站點(diǎn)網(wǎng)頁(yè)中對(duì)應(yīng)的第一范圍。第二范圍生成單元232用于根據(jù)源站點(diǎn)圖片集和第一范圍獲得第一范圍內(nèi)的所有圖片,并計(jì)算第一范圍內(nèi)的所有圖片之間的第一平均間隔,以及根據(jù)第一平均間隔及預(yù)設(shè)的比例將第一范圍擴(kuò)大至第二范圍。匹配分析單元233對(duì)已收錄站點(diǎn)圖片集中的屬于第二范圍的圖片進(jìn)行匹配分析。在本發(fā)明的一個(gè)實(shí)施例中,匹配分析單元233包括去除子單元2331、第三范圍生成子單元2332、匹配度計(jì)算子單元2333和配對(duì)確定子單元2334。 具體地,去除子單元2331用于去除第二范圍內(nèi)不滿足要求的圖片。在本發(fā)明的一個(gè)實(shí)施例中,去除子單元2331還用于計(jì)算第一范圍內(nèi)圖片的數(shù)量,如果第一范圍內(nèi)圖片的數(shù)量小于預(yù)設(shè)值,則過(guò)濾第一范圍內(nèi)所有圖片。在本發(fā)明的一個(gè)實(shí)施例中,去除子單元2331還用于將第一范圍內(nèi)不滿足圖片大小要求的圖片去除。例如,過(guò)大圖片、過(guò)小圖片或者噪聲圖片等。第三范圍生成子單元2332用于再次計(jì)算第二范圍內(nèi)圖片的第二平均間隔,并根據(jù)第二平均間隔及預(yù)設(shè)的比例將第二范圍擴(kuò)大至第三范圍。其中,第三范圍的擴(kuò)大與第二范圍的擴(kuò)大方法相同。匹配度計(jì)算子單元2333用于計(jì)算屬于第三范圍內(nèi)圖片之間的匹配度。具體地,匹配度通過(guò)位置關(guān)系權(quán)重值、顏色相似度權(quán)重值、圖片大小權(quán)重值、圖片顯著區(qū)域相似度權(quán)重值、圖片背景區(qū)域相似度權(quán)重值、圖片連續(xù)性權(quán)重值中的一種或多種計(jì)算得到。配對(duì)確定子單元2334用于根據(jù)匹配度確定第三范圍內(nèi)的配對(duì)圖片,并在確定的配對(duì)圖片均屬于已收錄站點(diǎn)圖片集時(shí),將配對(duì)圖片作為已收錄站點(diǎn)圖片集中的配對(duì)圖片并保存,例如,將配對(duì)圖片保存到配對(duì)字典之中,其中如果確定配對(duì)圖片均不屬于已收錄站點(diǎn)圖片集,則丟棄該配對(duì)圖片,例如,配對(duì)圖片中有一張是屬于已收錄站點(diǎn)圖片集,另一張是屬于源站點(diǎn)圖片集,或者配對(duì)圖片均屬于源站點(diǎn)圖片集,將該配對(duì)圖片丟棄。在本發(fā)明的一個(gè)實(shí)施例中,匹配分析單元還包括判斷子單元(圖中未示出),判斷子單元用于判斷第二范圍內(nèi)超鏈接的數(shù)量是否大于閾值,其中,去除子單元2331還用于在大于閾值時(shí)過(guò)濾第二范圍內(nèi)的所有圖片。由此提高準(zhǔn)確性。根據(jù)本發(fā)明實(shí)施例的匹配分析模塊可以重新計(jì)算第二范圍內(nèi)的圖片平均間隔并將匹配分析的范圍擴(kuò)大至第三范圍,進(jìn)一步提高匹配分析的準(zhǔn)確性。圖11為本發(fā)明一個(gè)實(shí)施例的用于提供配對(duì)圖片的搜索系統(tǒng)的結(jié)構(gòu)框圖。如圖11所示,根據(jù)本發(fā)明實(shí)施例的用于提供配對(duì)圖片的搜索系統(tǒng)包括抓取裝置100、匹配處理裝置200和搜索提供裝置300,其中搜索提供裝置300包括初級(jí)搜索結(jié)果生成模塊310、第一加權(quán)處理模塊320、降權(quán)處理模塊330、第二加權(quán)處理模塊340和排序模塊350。具體地,抓取模塊100用于搜索系統(tǒng)根據(jù)搜索信息從各個(gè)原始站點(diǎn)抓取源站點(diǎn)網(wǎng)頁(yè)。匹配處理裝置200用于從抓取的源站點(diǎn)網(wǎng)頁(yè)中獲得源站點(diǎn)網(wǎng)頁(yè)中的圖片,并按照原始站點(diǎn)對(duì)獲得的圖片進(jìn)行聚類以生成多個(gè)已收錄站點(diǎn)圖片集,以及對(duì)每個(gè)已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析以生成多個(gè)配對(duì)圖片。搜索提供裝置300用于根據(jù)用戶的搜索要求為用戶提供相應(yīng)的配對(duì)圖片。在本發(fā)明的一個(gè)實(shí)施例中,搜索系統(tǒng)包括多級(jí)搜索模塊,且配對(duì)圖片保存在配對(duì)字典之中,其中,中級(jí)搜索模塊與多個(gè)下級(jí)搜索模塊相連,上級(jí)搜索模塊與多個(gè)中級(jí)搜索模塊相連。具體地,保存在配對(duì)字典之中的配對(duì)圖片包括該圖片的ID、配對(duì)圖片ID等。在本發(fā)明的一個(gè)實(shí)施例中,搜索提供裝置300包括初級(jí)搜索結(jié)果生成模塊310、第一加權(quán)處理模塊320、降權(quán)處理模塊330、第二加權(quán)處理模塊340和排序模塊350。具體地,初級(jí)搜索結(jié)果生成模塊310用于下級(jí)搜索模塊根據(jù)搜索要求生成初級(jí)搜索結(jié)果。第一加權(quán)處理模塊320用于下級(jí)搜索模塊從初級(jí)搜索結(jié)果中選擇屬于配對(duì)字典的圖片,并對(duì)選擇的圖片的相關(guān)性信息進(jìn)行加權(quán)提檔處理,以及下級(jí)搜索模塊按照?qǐng)D片的相關(guān)性信息將預(yù)定數(shù)目的圖片上傳至中級(jí)搜索模塊。其中,圖片的相關(guān)性信息主要涉及圖 片的質(zhì)量和配對(duì)信息,如果圖片為配對(duì)圖片則通過(guò)第一加權(quán)處理模塊320對(duì)將其相關(guān)性進(jìn)行加權(quán)處理,由此保證下級(jí)搜索模塊將高質(zhì)量的配對(duì)圖片上傳至中級(jí)搜索模塊,例如將加權(quán)之后的相關(guān)性排列在前的2000個(gè)圖片上傳至中級(jí)搜索模塊。降權(quán)處理模塊330用于中級(jí)搜索模塊將多個(gè)下級(jí)搜索模塊發(fā)送的圖片加入至中間配對(duì)字典之中,并對(duì)經(jīng)過(guò)下級(jí)搜索模塊加權(quán)提檔處理的圖片進(jìn)行恢復(fù)降檔處理。其中,判斷接收到的圖片是否被下級(jí)搜索模塊加權(quán)提檔,如果進(jìn)行加權(quán)提檔則進(jìn)行恢復(fù)降檔處理。第二加權(quán)處理模塊340用于中級(jí)搜索模塊對(duì)中間配對(duì)字典中成對(duì)的圖片進(jìn)行加權(quán)提檔處理,并按照?qǐng)D片的相關(guān)性信息將預(yù)定數(shù)目的圖片上傳至上級(jí)搜索模塊。排序模塊350用于上級(jí)搜索模塊對(duì)多個(gè)中級(jí)搜索模塊上傳的圖片進(jìn)行重新排序,將成對(duì)的圖片的顯示位置提前并做相鄰處理。根據(jù)本發(fā)明實(shí)施例的用于提供配對(duì)圖片的搜索系統(tǒng),通過(guò)第一加權(quán)處理模塊將配對(duì)圖片進(jìn)行提檔以確定高質(zhì)量的配對(duì)圖片上傳到中級(jí)搜索模塊,通過(guò)第二加權(quán)處理模塊中級(jí)搜索模塊將成對(duì)的圖片進(jìn)行加權(quán)提檔處理并上傳到上級(jí)搜索模塊,通過(guò)排序模塊上級(jí)搜索模塊對(duì)上傳的圖片進(jìn)行重新排序并將成對(duì)的圖片的顯示位置提前并做相鄰處理,實(shí)現(xiàn)搜索結(jié)果按照連續(xù)配對(duì)進(jìn)行呈現(xiàn),進(jìn)一步提升用戶體驗(yàn)。在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認(rèn)為是用于實(shí)現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實(shí)現(xiàn)在任何計(jì)算機(jī)可讀介質(zhì)中,以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備(如基于計(jì)算機(jī)的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備取指令并執(zhí)行指令的系統(tǒng))使用,或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用。就本說(shuō)明書而言,“計(jì)算機(jī)可讀介質(zhì)”可以是任何可以包含、存儲(chǔ)、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用的裝置。計(jì)算機(jī)可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下具有一個(gè)或多個(gè)布線的電連接部(電子裝置),便攜式計(jì)算機(jī)盤盒(磁裝置),隨機(jī)存取存儲(chǔ)器(RAM),只讀存儲(chǔ)器(R0M),可擦除可編輯只讀存儲(chǔ)器(EPR0M或閃速存儲(chǔ)器),光纖裝置,以及便攜式光盤只讀存儲(chǔ)器(CDROM)。另外,計(jì)算機(jī)可讀介質(zhì)甚至可以是可在其上打印所述程序的紙或其他合適的介質(zhì),因?yàn)榭梢岳缤ㄟ^(guò)對(duì)紙或其他介質(zhì)進(jìn)行光學(xué)掃描,接著進(jìn)行編輯、解譯或必要時(shí)以其他合適方式進(jìn)行處理來(lái)以電子方式獲得所述程序,然后將其存儲(chǔ)在計(jì)算機(jī)存儲(chǔ)器中。應(yīng)當(dāng)理解,在本發(fā)明的實(shí)施例中,移動(dòng)終端可以是手機(jī)、平板電腦、個(gè)人數(shù)字助理、電子書等具有各種操作系統(tǒng)的硬件設(shè)備。應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來(lái)實(shí)現(xiàn)。在上述實(shí)施方式中,多個(gè)步驟或方法可以用存儲(chǔ)在存儲(chǔ)器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來(lái)實(shí)現(xiàn)。例如,如果用硬件來(lái)實(shí)現(xiàn),和在另一實(shí)施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來(lái)實(shí)現(xiàn)具有用于對(duì)數(shù)據(jù)信號(hào)實(shí)現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場(chǎng)可編程門陣列(FPGA)等。在本說(shuō)明書的描述中,參考術(shù)語(yǔ)“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說(shuō)明書中,對(duì)上述術(shù)語(yǔ)的示意性表述不一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。盡管已經(jīng)示出和描述了本發(fā)明的實(shí)施例,本領(lǐng)域的普通技術(shù)人員可以理解在不脫離本發(fā)明的原理和宗旨的情況下可以對(duì)這些實(shí)施例進(jìn)行多種變化、修改、替換和變型,本發(fā)明的范圍由權(quán)利要求及其等同物限定。
權(quán)利要求
1.一種用于配對(duì)圖片搜索的方法,其特征在于,包括以下步驟 搜索系統(tǒng)根據(jù)搜索信息從各個(gè)原始站點(diǎn)抓取源站點(diǎn)網(wǎng)頁(yè); 從所述抓取的源站點(diǎn)網(wǎng)頁(yè)中獲得所述源站點(diǎn)網(wǎng)頁(yè)中的圖片; 按照所述原始站點(diǎn)對(duì)獲得的所述圖片進(jìn)行聚類以生成多個(gè)已收錄站點(diǎn)圖片集; 對(duì)每個(gè)所述已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析以生成多個(gè)配對(duì)圖片;以及 所述搜索系統(tǒng)根據(jù)用戶的搜索要求為所述用戶提供相應(yīng)的配對(duì)圖片。
2.如權(quán)利要求I所述的用于配對(duì)圖片搜索的方法,其特征在于,所述對(duì)每個(gè)所述已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析以生成多個(gè)配對(duì)圖片還包括 對(duì)所述源站點(diǎn)網(wǎng)頁(yè)進(jìn)行分析以生成源站點(diǎn)圖片集; 獲取所述源站點(diǎn)網(wǎng)頁(yè)中的HTML格式文件和CSS格式文件; 根據(jù)所述HTML格式文件中的各個(gè)標(biāo)簽建立DOM-Tree ; 根據(jù)所述CSS格式文件和所述DOM-Tree分析所述源站點(diǎn)圖片集中圖片在所述源站點(diǎn)網(wǎng)頁(yè)中的位置以獲得所述源站點(diǎn)圖片集中圖片的位置信息; 根據(jù)所述位置信息對(duì)所述已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析。
3.如權(quán)利要求2所述的用于配對(duì)圖片搜索的方法,其特征在于,所述根據(jù)位置信息對(duì)所述已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析進(jìn)一步包括 根據(jù)所述位置信息獲得所述已收錄站點(diǎn)圖片集中每個(gè)圖片的位置信息; 根據(jù)所述已收錄站點(diǎn)圖片集生成所述已收錄站點(diǎn)圖片集在所述源站點(diǎn)網(wǎng)頁(yè)中對(duì)應(yīng)的第一范圍; 根據(jù)所述源站點(diǎn)圖片集和所述第一范圍獲得所述第一范圍內(nèi)的所有圖片; 計(jì)算所述第一范圍內(nèi)的所有圖片之間的第一平均間隔,并根據(jù)所述第一平均間隔及預(yù)設(shè)的比例將所述第一范圍擴(kuò)大至第二范圍; 對(duì)所述已收錄站點(diǎn)圖片集中的屬于所述第二范圍的圖片進(jìn)行匹配分析。
4.如權(quán)利要求3所述的用于配對(duì)圖片搜索的方法,其特征在于,所述對(duì)所述已收錄站點(diǎn)圖片集中的屬于所述第二范圍的圖片進(jìn)行匹配分析進(jìn)一步包括 去除所述第二范圍內(nèi)不滿足要求的圖片,并再次計(jì)算所述第二范圍內(nèi)圖片的第二平均間隔; 根據(jù)所述第二平均間隔及預(yù)設(shè)的比例將所述第二范圍擴(kuò)大至第三范圍; 計(jì)算屬于所述第三范圍內(nèi)圖片之間的匹配度; 根據(jù)所述匹配度確定所述第三范圍內(nèi)的配對(duì)圖片;以及 如果所述確定的配對(duì)圖片均屬于所述已收錄站點(diǎn)圖片集,則將所述配對(duì)圖片作為所述已收錄站點(diǎn)圖片集中的配對(duì)圖片并保存。
5.如權(quán)利要求3所述的用于配對(duì)圖片搜索的方法,其特征在于,還包括 計(jì)算所述第一范圍內(nèi)圖片的數(shù)量,如果所述第一范圍內(nèi)圖片的數(shù)量小于預(yù)設(shè)值,則過(guò)濾所述第一范圍內(nèi)所有圖片。
6.如權(quán)利要求3所述的用于配對(duì)圖片搜索的方法,其特征在于,還包括 將所述第一范圍內(nèi)不滿足圖片大小要求的圖片去除。
7.如權(quán)利要求4所述的用于配對(duì)圖片搜索的方法,其特征在于,還包括 判斷所述第二范圍內(nèi)超鏈接的數(shù)量是否大于閾值;如果大于所述閾值,則過(guò)濾所述第二范圍內(nèi)的所有圖片。
8.如權(quán)利要求4所述的用于配對(duì)圖片搜索的方法,其特征在于,所述匹配度通過(guò)位置關(guān)系權(quán)重值、顏色相似度權(quán)重值、圖片大小權(quán)重值、圖片顯著區(qū)域相似度權(quán)重值、圖片背景區(qū)域相似度權(quán)重值、圖片連續(xù)性權(quán)重值中的一種或多種計(jì)算得到。
9.如權(quán)利要求I所述的用于配對(duì)圖片搜索的方法,其特征在于,所述搜索系統(tǒng)包括多級(jí)搜索模塊,且所述配對(duì)圖片 保存在配對(duì)字典之中,其中,中級(jí)搜索模塊與多個(gè)下級(jí)搜索模塊相連,上級(jí)搜索模塊與多個(gè)中級(jí)搜索模塊相連。
10.如權(quán)利要求9所述的用于配對(duì)圖片搜索的方法,其特征在于,所述搜索系統(tǒng)根據(jù)用戶的搜索要求為所述用戶提供相應(yīng)的配對(duì)圖片進(jìn)一步包括 所述下級(jí)搜索模塊根據(jù)所述搜索要求生成初級(jí)搜索結(jié)果; 所述下級(jí)搜索模塊從所述初級(jí)搜索結(jié)果中選擇屬于所述配對(duì)字典的圖片,并對(duì)選擇的所述圖片的相關(guān)性信息進(jìn)行加權(quán)提檔處理; 所述下級(jí)搜索模塊按照?qǐng)D片的相關(guān)性信息將預(yù)定數(shù)目的圖片上傳至所述中級(jí)搜索模塊; 所述中級(jí)搜索模塊將所述多個(gè)下級(jí)搜索模塊發(fā)送的圖片加入至中間配對(duì)字典之中,并對(duì)經(jīng)過(guò)所述下級(jí)搜索模塊加權(quán)提檔處理的圖片進(jìn)行恢復(fù)降檔處理; 所述中級(jí)搜索模塊對(duì)所述中間配對(duì)字典中成對(duì)的圖片進(jìn)行加權(quán)提檔處理,并按照?qǐng)D片的相關(guān)性信息將預(yù)定數(shù)目的圖片上傳至所述上級(jí)搜索模塊;以及 所述上級(jí)搜索模塊對(duì)所述多個(gè)中級(jí)搜索模塊上傳的圖片進(jìn)行重新排序,將成對(duì)的圖片的顯示位置提前并做相鄰處理。
11.一種用于提供配對(duì)圖片的搜索系統(tǒng),其特征在于,包括 抓取裝置,用于根據(jù)搜索信息從各個(gè)原始站點(diǎn)抓取源站點(diǎn)網(wǎng)頁(yè); 匹配處理裝置,用于從所述抓取的源站點(diǎn)網(wǎng)頁(yè)中獲得所述源站點(diǎn)網(wǎng)頁(yè)中的圖片,并按照所述原始站點(diǎn)對(duì)獲得的所述圖片進(jìn)行聚類以生成多個(gè)已收錄站點(diǎn)圖片集,以及對(duì)每個(gè)所述已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析以生成多個(gè)配對(duì)圖片;以及 搜索提供裝置,用于根據(jù)用戶的搜索要求為所述用戶提供相應(yīng)的配對(duì)圖片。
12.如權(quán)利要求11所述的用于提供配對(duì)圖片的搜索系統(tǒng),其特征在于,所述匹配處理裝置進(jìn)一步包括 圖片集生成模塊,用于對(duì)所述源站點(diǎn)網(wǎng)頁(yè)進(jìn)行分析以生成源站點(diǎn)圖片集; 位置信息獲取模塊,用于獲取所述源站點(diǎn)網(wǎng)頁(yè)中的HTML格式文件和CSS格式文件,并根據(jù)所述HTML格式文件中的各個(gè)標(biāo)簽建立DOM-Tree,以及根據(jù)所述CSS格式文件和所述DOM-Tree分析所述源站點(diǎn)圖片集中圖片在所述源站點(diǎn)網(wǎng)頁(yè)中的位置以獲得所述源站點(diǎn)圖片集中圖片的位置信息; 匹配分析模塊,用于根據(jù)所述位置信息對(duì)所述已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析。
13.如權(quán)利要求12所述的用于提供配對(duì)圖片的搜索系統(tǒng),其特征在于,所述匹配分析模塊進(jìn)一步包括 第一范圍生成單元,用于根據(jù)所述位置信息獲得所述已收錄站點(diǎn)圖片集中每個(gè)圖片的位置信息,并根據(jù)所述已收錄站點(diǎn)圖片集生成所述已收錄站點(diǎn)圖片集在所述源站點(diǎn)網(wǎng)頁(yè)中對(duì)應(yīng)的第一范圍; 第二范圍生成單元,用于根據(jù)所述源站點(diǎn)圖片集和所述第一范圍獲得所述第一范圍內(nèi)的所有圖片,并計(jì)算所述第一范圍內(nèi)的所有圖片之間的第一平均間隔,以及根據(jù)所述第一平均間隔及預(yù)設(shè)的比例將所述第一范圍擴(kuò)大至第二范圍; 匹配分析單元,對(duì)所述已收錄站點(diǎn)圖片集中的屬于所述第二范圍的圖片進(jìn)行匹配分析。
14.如權(quán)利要求13所述的用于提供配對(duì)圖片的搜索系統(tǒng),其特征在于,所述匹配分析·單元進(jìn)一步包括 去除子單元,用于去除所述第二范圍內(nèi)不滿足要求的圖片; 第三范圍生成子單元,用于再次計(jì)算所述第二范圍內(nèi)圖片的第二平均間隔,并根據(jù)所述第二平均間隔及預(yù)設(shè)的比例將所述第二范圍擴(kuò)大至第三范圍; 匹配度計(jì)算子單元,用于計(jì)算屬于所述第三范圍內(nèi)圖片之間的匹配度; 配對(duì)確定子單元,用于根據(jù)所述匹配度確定所述第三范圍內(nèi)的配對(duì)圖片,并在所述確定的配對(duì)圖片均屬于所述已收錄站點(diǎn)圖片集時(shí),將所述配對(duì)圖片作為所述已收錄站點(diǎn)圖片集中的配對(duì)圖片并保存。
15.如權(quán)利要求13所述的用于提供配對(duì)圖片的搜索系統(tǒng),其特征在于,所述去除子單元還用于 計(jì)算所述第一范圍內(nèi)圖片的數(shù)量,并在所述第一范圍內(nèi)圖片的數(shù)量小于預(yù)設(shè)值時(shí)過(guò)濾所述第一范圍內(nèi)所有圖片。
16.如權(quán)利要求13所述的用于提供配對(duì)圖片的搜索系統(tǒng),其特征在于,所述去除子單元還用于 將所述第一范圍內(nèi)不滿足圖片大小要求的圖片去除。
17.如權(quán)利要求14所述的用于提供配對(duì)圖片的搜索系統(tǒng),其特征在于,所述匹配分析單元還包括 判斷子單元,用于判斷所述第二范圍內(nèi)超鏈接的數(shù)量是否大于閾值,其中,所述過(guò)濾子單元還用于在大于所述閾值時(shí)過(guò)濾所述第二范圍內(nèi)的所有圖片。
18.如權(quán)利要求14所述的用于提供配對(duì)圖片的搜索系統(tǒng),其特征在于,所述匹配度通過(guò)位置關(guān)系權(quán)重值、顏色相似度權(quán)重值、圖片大小權(quán)重值、圖片顯著區(qū)域相似度權(quán)重值、圖片背景區(qū)域相似度權(quán)重值、圖片連續(xù)性權(quán)重值中的一種或多種計(jì)算得到。
19.如權(quán)利要求11所述的用于提供配對(duì)圖片的搜索系統(tǒng),其特征在于,所述搜索系統(tǒng)包括多級(jí)搜索模塊,且所述配對(duì)圖片保存在配對(duì)字典之中,其中,中級(jí)搜索模塊與多個(gè)下級(jí)搜索模塊相連,上級(jí)搜索模塊與多個(gè)中級(jí)搜索模塊相連。
20.如權(quán)利要求19所述的用于提供配對(duì)圖片的搜索系統(tǒng),其特征在于,所述搜索提供裝置進(jìn)一步包括 初級(jí)搜索結(jié)果生成模塊,用于所述下級(jí)搜索模塊根據(jù)所述搜索要求生成初級(jí)搜索結(jié)果; 第一加權(quán)處理模塊,用于所述下級(jí)搜索模塊從所述初級(jí)搜索結(jié)果中選擇屬于所述配對(duì)字典的圖片,并對(duì)選擇的所述圖片的相關(guān)性信息進(jìn)行加權(quán)提檔處理,以及所述下級(jí)搜索模塊按照?qǐng)D片的相關(guān)性信息將預(yù)定數(shù)目的圖片上傳至所述中級(jí)搜索模塊;降權(quán)處理模塊,用于所述中級(jí)搜索模塊將所述多個(gè)下級(jí)搜索模塊發(fā)送的圖片加入至中間配對(duì)字典之中,并對(duì)經(jīng)過(guò)所述下級(jí)搜索模塊加權(quán)提檔處理的圖片進(jìn)行恢復(fù)降檔處理; 第二加權(quán)處理模塊,用于所述中級(jí)搜索模塊對(duì)所述中間配對(duì)字典中成對(duì)的圖片進(jìn)行加權(quán)提檔處理,并按照?qǐng)D片的相關(guān)性信息將預(yù)定數(shù)目的圖片上傳至所述上級(jí)搜索模塊;以及排序模塊,用于所述上級(jí)搜索模塊對(duì)所述多個(gè)中級(jí)搜索模塊上傳的圖片進(jìn)行重新排序,將成對(duì)的圖片的顯示位置提前并做相鄰處理。
全文摘要
本發(fā)明提出一種用于配對(duì)圖片搜索的方法和系統(tǒng),其中所述方法包括以下步驟搜索系統(tǒng)根據(jù)搜索信息從各個(gè)原始站點(diǎn)抓取源站點(diǎn)網(wǎng)頁(yè);從抓取的源站點(diǎn)網(wǎng)頁(yè)中獲得源站點(diǎn)網(wǎng)頁(yè)中的圖片;按照原始站點(diǎn)對(duì)獲得的圖片進(jìn)行聚類以生成多個(gè)已收錄站點(diǎn)圖片集;對(duì)每個(gè)已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析以生成多個(gè)配對(duì)圖片;以及搜索系統(tǒng)根據(jù)用戶的搜索要求為用戶提供相應(yīng)的配對(duì)圖片。根據(jù)本發(fā)明實(shí)施例的方法,搜索系統(tǒng)對(duì)已收錄站點(diǎn)圖片集中的圖片進(jìn)行匹配分析生成多個(gè)配對(duì)圖片之后,根據(jù)用戶的搜索要求將結(jié)果按照連續(xù)配對(duì)的方式反饋給用戶,滿足用戶需求,提升用戶體驗(yàn)。
文檔編號(hào)G06F17/30GK102682095SQ201210129100
公開日2012年9月19日 申請(qǐng)日期2012年4月27日 優(yōu)先權(quán)日2012年4月27日
發(fā)明者李靖 申請(qǐng)人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1