專利名稱:一種圖片推薦方法和裝置的制作方法
技術領域:
本申請涉及圖片處理技術領域,特別是涉及一種圖片推薦方法和裝置。
背景技術:
目前隨著網(wǎng)絡技術的不斷發(fā)展,用戶對搜索引擎的要求已經(jīng)不再滿足于只是對文本的搜索,很多用戶還希望可以通過搜索引擎對網(wǎng)絡圖片進行搜索。目前的圖片搜索引擎大都采用基于文本的搜索技術,該技術將圖片作為數(shù)據(jù)庫存儲的對象,用關鍵字對其進行描述。然而對于圖片中包含的視覺特征,如顏色或形狀等,無法用文本進行描述,這樣,當需要根據(jù)圖片中包含的視覺特征搜索圖片時,基于文本的搜索技術將不再適用。例如,用戶經(jīng)常遇到這樣的問題,在網(wǎng)站或電腦上看到一張包含物品的圖片,但并不知道該圖片中的物品是什么,故很難將該物品的視覺特征用語言描述出來,即便表達能力好的用戶將其視覺特征描述出來了,也很難在現(xiàn)有的搜索引擎中找到與該圖片相似的圖片,導致搜索效率低下,使用網(wǎng)絡流量較大。針對上述搜索效率低下、使用網(wǎng)絡流量較大的問題,一些圖片搜索引擎提供以圖搜圖功能,該以圖搜圖功能將視覺內(nèi)容一致的圖片返回給用戶,以滿足用戶的某些搜索需求。例如某些用戶愛好搜集圖片,最不能容忍的就是美圖上面有水印,只要上傳圖片到圖片搜索引擎,輕輕一點便能搜出不帶水印的圖片;又如,可以上傳小圖片,搜到這個小圖片的各個版本,如清晰大圖等。還有一些圖片搜索引擎在提供以圖搜圖功能的同時提供圖片推薦功能,參照圖1, 示出了現(xiàn)有技術一種圖片搜索引擎中圖片推薦方法的流程圖,具體可以包括步驟101、用戶提交查詢圖片;步驟102、抽取查詢圖片的顏色、紋理、形狀等視覺特征;步驟103、將查詢圖片的視覺特征與數(shù)據(jù)庫中圖片的視覺特征進行相似性比對;步驟104、將視覺相似圖片推薦給用戶。由于圖片推薦結果依據(jù)的顏色、紋理、形狀等視覺特征比對得到,故這里的視覺相似主要指外觀相似,例如用戶上傳妮可基德曼的圖片,圖片中妮可基德曼的頭發(fā)顏色為金色,則圖片搜索引擎可能會返回視覺相似的含有金色頭發(fā)的圖片,如金發(fā)女郎的圖片,有時甚至會返回金毛犬的圖片,等等。但有些用戶存在一些個性化需求,如用戶上傳劉德華的圖片,還可能希望看到劉德華的電影海報、個人寫真等圖片。此時,現(xiàn)有技術中視覺內(nèi)容一致的搜索結果和視覺相似的圖片推薦結果均不能滿足用戶的個性化需求??傊?,需要本領域技術人員迫切解決的一個技術問題就是如何能夠提供契合用戶個性化需求的圖片。
發(fā)明內(nèi)容
本申請所要解決的技術問題是提供一種圖片推薦方法和裝置,能夠提供契合用戶個性化需求的圖片,擴展用戶感興趣信息的獲取渠道。為了解決上述問題,本申請公開了一種圖片推薦方法,包括接收用戶的查詢請求,并搜索得到與該查詢請求對應的目標圖片和與該目標圖片相同或近似的結果圖片;依據(jù)所述結果圖片所在的網(wǎng)頁文本,抽取描述圖片語義特征的關鍵詞,作為該目標圖片的關鍵詞;在搜索日志中進行關鍵詞的匹配,并將與關鍵詞匹配的相應目標圖片推薦給用戶;所述搜索日志記錄有全網(wǎng)用戶的在線查詢請求對應的目標圖片及相應的關鍵詞。優(yōu)選的,所述依據(jù)所述結果圖片所在的網(wǎng)頁文本,抽取描述圖片語義特征的關鍵詞的步驟,包括依據(jù)對所述網(wǎng)頁文本進行聚類分析的結果,去除所述網(wǎng)頁文本中孤立的網(wǎng)頁文本,得到剩余文本;抽取所述剩余文本中詞頻最高并具有實際意義的詞或短語,作為描述圖片語義特征的關鍵詞。優(yōu)選的,通過以下步驟抽取所述剩余文本中具有實際意義的詞或短語調(diào)用預先構造的實體詞庫,在所述剩余文本中的詞或短語與所述實體詞庫中的實體詞相匹配時,保留所述詞或短語;所述實體詞庫存儲有具有實際意義的實體詞。優(yōu)選的,通過以下步驟抽取所述剩余文本中具有實際意義的詞或短語依據(jù)詞性抽取所述剩余文本中具有實際意義的詞或短語,所述抽取過程包括在所述剩余文本中的詞或短語為嘆詞、代詞或語氣助詞中的任一種時,丟棄所述詞或短語。優(yōu)選的,所述依據(jù)所述結果圖片所在的網(wǎng)頁文本,抽取描述圖片語義特征的關鍵詞的步驟,還包括依據(jù)所述關鍵詞與所述剩余文本中其他詞匯的相鄰共現(xiàn)頻率,統(tǒng)計所述剩余文本中與所述關鍵詞相鄰的邊緣詞;將所述邊緣詞與關鍵詞一起作為描述圖片語義特征的關鍵
ο優(yōu)選的,所述方法還包括在與關鍵詞匹配的相應各目標圖片中濾除相同或近似的圖片,得到剩余圖片;所述將與關鍵詞匹配的相應目標圖片推薦給用戶的步驟為,將所述剩余圖片推薦給用戶。優(yōu)選的,所述將與關鍵詞匹配的相應目標圖片推薦給用戶的步驟,包括依據(jù)所述搜索日志,統(tǒng)計所述與關鍵詞匹配的相應目標圖片對應的在線查詢請求數(shù)目;按照在線查詢請求數(shù)目的降序?qū)⑴c關鍵詞匹配的相應目標圖片推薦給用戶。優(yōu)選的,該目標圖片為與該查詢請求對應的查詢策略最匹配的圖片;所述結果圖片為除目標圖片外大于匹配閾值的其他圖片。另一方面,本申請還公開了一種圖片推薦裝置,包括圖片搜索模塊,用于接收用戶的查詢請求,并搜索得到與該查詢請求對應的目標圖片和與該目標圖片相同或近似的結果圖片;
關鍵詞抽取模塊,用于依據(jù)所述結果圖片所在的網(wǎng)頁文本,抽取描述圖片語義特征的關鍵詞,作為該目標圖片的關鍵詞;匹配模塊,用于在搜索日志中進行關鍵詞的匹配;所述搜索日志記錄有全網(wǎng)用戶的在線查詢請求對應的目標圖片及相應的關鍵詞;及圖片推薦模塊,用于將與關鍵詞匹配的相應目標圖片推薦給用戶。優(yōu)選的,所述關鍵詞抽取模塊包括去除子模塊,用于依據(jù)對所述網(wǎng)頁文本進行聚類分析的結果,去除所述網(wǎng)頁文本中孤立的網(wǎng)頁文本,得到剩余文本;及抽取子模塊,用于抽取所述剩余文本中詞頻最高并具有實際意義的詞或短語,作為描述圖片語義特征的關鍵詞。優(yōu)選的,所述裝置還包括第一實際意義抽取模塊,用于調(diào)用預先構造的實體詞庫,在所述剩余文本中的詞或短語與所述實體詞庫中的實體詞相匹配時,保留所述剩余文本中的詞或短語;所述實體詞庫存儲有具有實際意義的實體詞。優(yōu)選的,所述裝置還包括第二實際意義抽取模塊,用于依據(jù)詞性抽取所述剩余文本中具有實際意義的詞或短語,所述抽取過程包括在所述剩余文本中的詞或短語為嘆詞、代詞或語氣助詞中的任一種時,丟棄所述剩余文本中的詞或短語。優(yōu)選的,所述關鍵詞抽取模塊還包括邊緣詞統(tǒng)計子模塊,用于依據(jù)所述關鍵詞與所述剩余文本中其他詞匯的相鄰共現(xiàn)頻率,統(tǒng)計所述剩余文本中與所述關鍵詞相鄰的邊緣詞;將所述邊緣詞與關鍵詞一起作為描述圖片語義特征的關鍵詞。優(yōu)選的,所述裝置還包括濾除模塊,用于在與關鍵詞匹配的相應各目標圖片中濾除相同或近似的圖片,得到剩余圖片;所述圖片推薦模塊,具體用于將所述剩余圖片推薦給用戶。優(yōu)選的,所述圖片推薦模塊包括數(shù)目統(tǒng)計子模塊,用于依據(jù)所述搜索日志,統(tǒng)計所述與關鍵詞匹配的相應目標圖片對應的在線查詢請求數(shù)目;降序推薦子模塊,用于按照在線查詢請求數(shù)目的降序?qū)⑾鄳c關鍵詞匹配的相應目標圖片推薦給用戶。優(yōu)選的,該目標圖片為與該查詢請求對應的查詢策略最匹配的圖片;所述結果圖片為除目標圖片外大于匹配閾值的其他圖片。與現(xiàn)有技術相比,本申請具有以下優(yōu)點相對于現(xiàn)有技術采用視覺特征描述查詢圖片,本申請采用關鍵詞描述查詢圖片的圖片語義特征,并在搜索日志中記錄全網(wǎng)在線查詢請求對應的目標圖片及相應的關鍵詞; 由于關鍵詞所描述的圖片語義特征能夠反映用戶的興趣愛好,這樣,在一個用戶提交查詢請求時,本申請能夠依據(jù)所得到目標圖片的關鍵詞和所述搜索日志中目標圖片的關鍵詞, 匹配得到具有相同興趣愛好的其它用戶查詢請求對應的目標圖片,也即與關鍵詞匹配的相應目標圖片能夠契合用戶的興趣愛好,因此,將從搜索日志中提取出來的與關鍵詞匹配的相應目標圖片推薦給當前用戶,提供了契合用戶個性化需求的圖片,擴展了用戶感興趣信息的獲取渠道。
圖I是現(xiàn)有技術一種圖片搜索引擎中圖片推薦方法的流程圖;圖2是本申請一種圖片推薦方法實施例的流程圖;圖3是本申請一種圖片推薦裝置實施例的結構圖。
具體實施例方式為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和具體實施方式
對本申請作進一步詳細的說明。用戶個性化需求往往是源自用戶的興趣愛好的,例如,某用戶有追星的愛好,其是劉德華的粉絲,則他在上傳劉德華的圖片時,很有可能還希望看到劉德華的電影海報、個人寫真等圖片;又如,另一用戶是電影愛好者,其對《當幸福來敲門》這部電影有著由衷的愛好,則他在上傳《當幸福來敲門》的電影海報時,很有可能還希望看到更多該電影的其它不同海報?,F(xiàn)有技術視覺相似的搜索結果是無法滿足在上述情形下的用戶個性化需求。本申請實施例的核心構思之一在于,根據(jù)當前用戶輸入圖片的局部特征得到目標圖片和與其特征內(nèi)容相似或相同的多個結果圖片,對結果圖片所在頁面分別進行分析,綜合各頁面中標題、文本等文字信息,得到的關鍵詞與目標圖片關聯(lián);由于關鍵詞所描述的圖片語義特征能夠反映用戶的興趣愛好,這樣,在一個用戶提交查詢請求時,本申請能夠依據(jù)所得到目標圖片的關鍵詞和所述搜索日志中目標圖片的關鍵詞,匹配得到具有相同興趣愛好的其它用戶查詢請求對應的對應目標圖片,也即與關鍵詞匹配的相應目標圖片能夠契合用戶的興趣愛好,因此,將與關鍵詞匹配的相應目標圖片推薦給用戶能夠提供契合用戶個性化需求的圖片,擴展用戶感興趣信息的獲取渠道。參照圖2,示出了本申請一種圖片推薦方法實施例的流程圖,具體可以包括步驟201、接收用戶的查詢請求,并搜索得到與該查詢請求對應的目標圖片和與該目標圖片相同或近似的結果圖片;本申請可以應用于圖片搜索引擎中,用以擴充圖片搜索引擎的功能,也即,使得圖片搜索引擎具備原有的以圖搜圖功能,同時具備本申請的圖片推薦功能。實際上,本申請還可以應用于其它搜索引擎或搜索裝置,本申請對具體的應用環(huán)境不加以限制。在實際中,用戶可在瀏覽器中提交在線查詢請求,這里的提交在線查詢請求的方式可以包括直接上傳本地圖片,或者提供圖片的網(wǎng)絡地址,由服務器自動下載圖片,本申請對具體的提交在線查詢請求的方式不加以限制。也即,本申請實施例中,與該查詢請求直接對應的圖片可以包括用戶直接上傳的本地圖片,也可以包括依據(jù)用戶提供的圖片的網(wǎng)絡地址得到圖片。在具體實現(xiàn)中,服務器可根據(jù)該查詢請求直接對應的圖片的視覺內(nèi)容,抽取出局部特征,然后進行圖片搜索,與數(shù)據(jù)庫中各圖片的局部特征進行匹配,如果匹配率在一定閾值范圍(如>90%)內(nèi),可認為二者的視覺內(nèi)容一致。
對于該查詢請求直接對應的圖片和匹配結果而言,二者僅有細微的差別,如是否帶水印、小圖片和大圖片的差別等;刨除這些細微的差別,二者就是相同的圖片??紤]到該查詢請求直接對應的圖片可能為帶水印的圖片或者是小圖片等質(zhì)量不好的圖片,如果將其作為搜索日志的存儲對象,而最終向用戶推薦的圖片源自搜索日志,這樣,向用戶推薦帶水印或小圖片等質(zhì)量不好的圖片會影響用戶的搜索體驗。因此,在本申請的一種優(yōu)選實施例中,將與查詢請求對應的查詢策略最匹配的圖片作為目標圖片,并將該目標圖片作為搜索日志的存儲對象。在實際中,匹配所用的數(shù)據(jù)庫往往存儲一些不帶水印且尺寸較大的圖片,這樣,向用戶推薦不帶水印且尺寸較大的圖片能夠提高用戶的搜索體驗。本申請的一種優(yōu)選實施例中,結果圖片為數(shù)據(jù)庫中除目標圖片外大于匹配閾值的其他圖片,即結果圖片與查詢請求對應的查詢策略的相符程度小于目標圖片與查詢請求對應的查詢策略的相符程度。本實施例中,得到的目標圖片和結果圖片按匹配度進行排序,與查詢請求最匹配的圖片為目標圖片,其余的圖片作為結果圖片按匹配度進行排序展示。在其他實施例中,用戶的查詢請求的對應結果可按圖片大小或發(fā)布時間進行排序,將尺寸最大或最近發(fā)布的圖片作為目標圖片,其余的圖片作為結果圖片按尺寸由大至小或發(fā)布時間由近至遠進行排序展示。在通常情況下,結果圖片和目標圖片僅有細微的差別,如是否帶水印、小圖片和大圖片的差別等;刨除這些細微的差別,二者就是相同的圖片??梢岳斫?,在本申請應用于圖片搜索引擎時,服務器還可以將所述結果圖片作為搜索結果返回給用戶,以滿足用戶的某些搜索需求。例如某些用戶愛好搜集圖片,最不能容忍的就是美圖上面有水印,只要上傳圖片到圖片搜索引擎,輕輕一點便能搜出不帶水印的圖片;又如,可以上傳小圖片,搜到這個小圖片的各個版本,如清晰大圖等。在本申請的一種應用示例中,所述根據(jù)該查詢請求直接對應的圖片的視覺內(nèi)容, 抽取出局部特征的步驟具體可以包括首先,對該查詢請求直接對應的圖片的尺寸進行歸一化,將尺寸過大或過小的圖片變換為640*640 300*300之內(nèi);然后使用二維局部特征檢測矩陣與歸一化后的圖片進行卷積操作;再者,在卷積后的圖片中掃描定位出其中的局部極值(最大值與最小值)點的位置;最后,根據(jù)局部極值點附近區(qū)域的明暗對比,抽取該查詢請求直接對應的圖片的局部特征。需要說明的是,為了實現(xiàn)匹配目的,該查詢請求直接對應的圖片與數(shù)據(jù)庫中具有與其相同原始尺寸的圖片在歸一化后的尺寸應一致,例如,同為300*300。參照表1,示出了本申請一種歸一化前后的圖片尺寸示意。表I
權利要求
1.一種圖片推薦方法,其特征在于,包括接收用戶的查詢請求,并搜索得到與該查詢請求對應的目標圖片和與該目標圖片相同或近似的結果圖片;依據(jù)所述結果圖片所在的網(wǎng)頁文本,抽取描述圖片語義特征的關鍵詞,作為該目標圖片的關鍵詞;在搜索日志中進行關鍵詞的匹配,并將與關鍵詞匹配的相應目標圖片推薦給用戶;所述搜索日志記錄有全網(wǎng)用戶的在線查詢請求對應的目標圖片及相應的關鍵詞。
2.如權利要求I所述的方法,其特征在于,所述依據(jù)所述結果圖片所在的網(wǎng)頁文本,抽取描述圖片語義特征的關鍵詞的步驟,包括依據(jù)對所述網(wǎng)頁文本進行聚類分析的結果,去除所述網(wǎng)頁文本中孤立的網(wǎng)頁文本,得到剩余文本;抽取所述剩余文本中詞頻最高并具有實際意義的詞或短語,作為描述圖片語義特征的關鍵詞。
3.如權利要求2所述的方法,其特征在于,通過以下步驟抽取所述剩余文本中具有實際意義的詞或短語調(diào)用預先構造的實體詞庫,在所述剩余文本中的詞或短語與所述實體詞庫中的實體詞相匹配時,保留所述詞或短語;所述實體詞庫存儲有具有實際意義的實體詞。
4.如權利要求2所述的方法,其特征在于,通過以下步驟抽取所述剩余文本中具有實際意義的詞或短語依據(jù)詞性抽取所述剩余文本中具有實際意義的詞或短語,所述抽取過程包括在所述剩余文本中的詞或短語為嘆詞、代詞或語氣助詞中的任一種時,丟棄所述詞或短語。
5.如權利要求2所述的方法,其特征在于,所述依據(jù)所述結果圖片所在的網(wǎng)頁文本,抽取描述圖片語義特征的關鍵詞的步驟,還包括依據(jù)所述關鍵詞與所述剩余文本中其他詞匯的相鄰共現(xiàn)頻率,統(tǒng)計所述剩余文本中與所述關鍵詞相鄰的邊緣詞;將所述邊緣詞與關鍵詞一起作為描述圖片語義特征的關鍵詞。
6.如權利要求I至5中任一項所述的方法,其特征在于,所述方法還包括在與關鍵詞匹配的相應各目標圖片中濾除相同或近似的圖片,得到剩余圖片;所述將與關鍵詞匹配的相應目標圖片推薦給用戶的步驟為,將所述剩余圖片推薦給用戶。
7.如權利要求I至5中任一項所述的方法,其特征在于,所述將與關鍵詞匹配的相應目標圖片推薦給用戶的步驟,包括依據(jù)所述搜索日志,統(tǒng)計所述與關鍵詞匹配的相應目標圖片對應的在線查詢請求數(shù)目;按照在線查詢請求數(shù)目的降序?qū)⑴c關鍵詞匹配的相應目標圖片推薦給用戶。
8.如權利要求I至5中任一項所述的方法,其特征在于,該目標圖片為與該查詢請求對應的查詢策略最匹配的圖片;所述結果圖片為除目標圖片外大于匹配閾值的其他圖片。
9.一種圖片推薦裝置,其特征在于,包括圖片搜索模塊,用于接收用戶的查詢請求,并搜索得到與該查詢請求對應的目標圖片和與該目標圖片相同或近似的結果圖片;關鍵詞抽取模塊,用于依據(jù)所述結果圖片所在的網(wǎng)頁文本,抽取描述圖片語義特征的關鍵詞,作為該目標圖片的關鍵詞;匹配模塊,用于在搜索日志中進行關鍵詞的匹配;所述搜索日志記錄有全網(wǎng)用戶的在線查詢請求對應的目標圖片及相應的關鍵詞;及圖片推薦模塊,用于將與關鍵詞匹配的相應目標圖片推薦給用戶。
10.如權利要求9所述的裝置,其特征在于,所述關鍵詞抽取模塊包括去除子模塊,用于依據(jù)對所述網(wǎng)頁文本進行聚類分析的結果,去除所述網(wǎng)頁文本中孤立的網(wǎng)頁文本,得到剩余文本;及抽取子模塊,用于抽取所述剩余文本中詞頻最高并具有實際意義的詞或短語,作為描述圖片語義特征的關鍵詞。
11.如權利要求10所述的裝置,其特征在于,還包括第一實際意義抽取模塊,用于調(diào)用預先構造的實體詞庫,在所述剩余文本中的詞或短語與所述實體詞庫中的實體詞相匹配時,保留所述剩余文本中的詞或短語;所述實體詞庫存儲有具有實際意義的實體詞。
12.如權利要求10所述的裝置,其特征在于,還包括第二實際意義抽取模塊,用于依據(jù)詞性抽取所述剩余文本中具有實際意義的詞或短語,所述抽取過程包括在所述剩余文本中的詞或短語為嘆詞、代詞或語氣助詞中的任一種時,丟棄所述剩余文本中的詞或短語。
13.如權利要求10所述的裝置,其特征在于,所述關鍵詞抽取模塊還包括邊緣詞統(tǒng)計子模塊,用于依據(jù)所述關鍵詞與所述剩余文本中其他詞匯的相鄰共現(xiàn)頻率,統(tǒng)計所述剩余文本中與所述關鍵詞相鄰的邊緣詞;將所述邊緣詞與關鍵詞一起作為描述圖片語義特征的關鍵詞。
14.如權利要求9至13中任一項所述的裝置,其特征在于,還包括濾除模塊,用于在與關鍵詞匹配的相應各目標圖片中濾除相同或近似的圖片,得到剩余圖片;所述圖片推薦模塊,具體用于將所述剩余圖片推薦給用戶。
15.如權利要求9至13中任一項所述的裝置,其特征在于,所述圖片推薦模塊包括數(shù)目統(tǒng)計子模塊,用于依據(jù)所述搜索日志,統(tǒng)計所述與關鍵詞匹配的相應目標圖片對應的在線查詢請求數(shù)目;降序推薦子模塊,用于按照在線查詢請求數(shù)目的降序?qū)⑾鄳c關鍵詞匹配的相應目標圖片推薦給用戶。
16.如權利要求9至13中任一項所述的裝置,其特征在于,該目標圖片為與該查詢請求對應的查詢策略最匹配的圖片;所述結果圖片為除目標圖片外大于匹配閾值的其他圖片。
全文摘要
本申請?zhí)峁┝艘环N圖片推薦方法和裝置,其中的方法具體包括接收用戶的查詢請求,并搜索得到與該查詢請求對應的目標圖片和與該目標圖片相同或近似的結果圖片;依據(jù)所述結果圖片所在的網(wǎng)頁文本,抽取描述圖片語義特征的關鍵詞,作為該目標圖片的關鍵詞;在搜索日志中進行關鍵詞的匹配,并將與關鍵詞匹配的相應目標圖片推薦給用戶;所述搜索日志記錄有全網(wǎng)用戶的在線查詢請求對應的目標圖片及相應的關鍵詞。本申請能夠提供契合用戶個性化需求的圖片,擴展用戶感興趣信息的獲取渠道。
文檔編號G06F17/30GK102609458SQ20121000904
公開日2012年7月25日 申請日期2012年1月12日 優(yōu)先權日2012年1月12日
發(fā)明者路晶 申請人:北京搜狗信息服務有限公司, 北京搜狗科技發(fā)展有限公司