圖片搜索方法和裝置制造方法
【專利摘要】本發(fā)明提出一種圖片搜索方法和裝置。該方法包括:接收用戶輸入的搜索詞;確定搜索詞的搜索頻次,并確定搜索頻次是否在預(yù)設(shè)范圍內(nèi),搜索頻次根據(jù)搜索引擎記錄的歷史搜索數(shù)據(jù)確定;當(dāng)確定搜索頻次在預(yù)設(shè)范圍內(nèi)時,在預(yù)先建立的第一圖片庫中獲取與搜索詞匹配的第一圖片,第一圖片庫中包括搜索引擎從UGC網(wǎng)站中獲得的圖片;向用戶展現(xiàn)圖片搜索結(jié)果,圖片搜索結(jié)果包括第一圖片。本發(fā)明實施例的圖片搜索方法,可以在提供冷門的圖片搜索需求時,為用戶提供具有更強實時性、更高相關(guān)性、更高質(zhì)量的圖片搜索結(jié)果。
【專利說明】圖片搜索方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及搜索【技術(shù)領(lǐng)域】,尤其涉及一種圖片搜索方法和裝置。
【背景技術(shù)】
[0002]圖片搜索是垂直搜索引擎的一個重要方向。參照圖1,是相關(guān)技術(shù)中搜索引擎提供圖片搜索的一個示例效果圖,如圖1所示,用戶在搜索引擎提供的搜索框中輸入“中國中文信息學(xué)會青年工委”,搜索引擎給用戶提供中國中文信息學(xué)會青年工委相關(guān)的圖片,但是,搜索引擎提供的圖片相關(guān)度、時效性差,而且圖片質(zhì)量也不高。因此,在相關(guān)技術(shù)中,對于“中國中文信息學(xué)會青年工委”這類冷門需求的圖片搜索無論是相關(guān)度、時效性還是圖片質(zhì)量都較差,搜索效果不佳。
【發(fā)明內(nèi)容】
[0003]本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
[0004]為此,本發(fā)明的第一個目的在于提出一種圖片搜索方法。該方法在提供冷門的圖片搜索需求時,能夠為用戶提供具有更強實時性、更高相關(guān)性、更高質(zhì)量的圖片搜索結(jié)果。
[0005]本發(fā)明的第二個目的在于提出一種圖片搜索裝置。
[0006]為了實現(xiàn)上述目的,本發(fā)明第一方面實施例的圖片搜索方法,包括:接收用戶輸入的搜索詞;確定所述搜索詞的搜索頻次,并確定所述搜索頻次是否在預(yù)設(shè)范圍內(nèi),所述搜索頻次根據(jù)搜索引擎記錄的歷史搜索數(shù)據(jù)確定;當(dāng)確定所述搜索頻次在所述預(yù)設(shè)范圍內(nèi)時,在預(yù)先建立的第一圖片庫中獲取與所述搜索詞匹配的第一圖片,所述第一圖片庫中包括所述搜索引擎從用戶原創(chuàng)內(nèi)容UGC網(wǎng)站中獲得的圖片;向所述用戶展現(xiàn)圖片搜索結(jié)果,所述圖片搜索結(jié)果包括所述第一圖片。
[0007]本發(fā)明實施例的圖片搜索方法,利用第一圖片庫補充圖片搜索引擎在向用戶提供冷門的圖片搜索需求時的圖片不足的問題,利用第一圖片庫,圖片搜索引擎可以在提供冷門的圖片搜索需求時,為用戶提供具有更強實時性、更高相關(guān)性、更高質(zhì)量的圖片搜索結(jié)果,提升用戶體驗。
[0008]為了實現(xiàn)上述目的,本發(fā)明第二方面實施例的圖片搜索裝置,包括:接收模塊,用于接收用戶輸入的搜索詞;確定模塊,用于確定所述搜索詞的搜索頻次,并確定所述搜索頻次是否在預(yù)設(shè)范圍內(nèi),所述搜索頻次根據(jù)搜索引擎記錄的歷史搜索數(shù)據(jù)確定;第一獲取模塊,用于當(dāng)確定所述搜索頻次在所述預(yù)設(shè)范圍內(nèi)時,在預(yù)先建立的第一圖片庫中獲取與所述搜索詞匹配的第一圖片,所述第一圖片庫中包括所述搜索引擎從用戶原創(chuàng)內(nèi)容UGC網(wǎng)站中獲得的圖片;展現(xiàn)模塊,用于向所述用戶展現(xiàn)圖片搜索結(jié)果,所述圖片搜索結(jié)果包括所述第一圖片。
[0009]本發(fā)明實施例的圖片搜索裝置,利用第一圖片庫補充圖片搜索引擎在向用戶提供冷門的圖片搜索需求時的圖片不足的問題,利用第一圖片庫,圖片搜索引擎可以在提供冷門的圖片搜索需求時,為用戶提供具有更強實時性、更高相關(guān)性、更高質(zhì)量的圖片搜索結(jié)果,提升用戶體驗。
[0010]本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【專利附圖】
【附圖說明】
[0011]本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結(jié)合附圖對實施例的描述中將變得明顯和容易理解,其中,
[0012]圖1是相關(guān)技術(shù)中搜索引擎提供圖片搜索的一個示例效果圖;
[0013]圖2是根據(jù)本發(fā)明一個實施例的圖片搜索方法的流程圖;
[0014]圖3是根據(jù)本發(fā)明實施例的圖片搜索方法的一種示例性的效果圖;
[0015]圖4是根據(jù)本發(fā)明另一個實施例的圖片搜索方法的流程圖;
[0016]圖5是根據(jù)本發(fā)明實施例的圖片搜索方法的另一種示例性的效果圖;
[0017]圖6是根據(jù)本發(fā)明一個實施例的圖片搜索方法裝置的結(jié)構(gòu)框圖;
[0018]圖7是根據(jù)本發(fā)明另一個實施例的圖片搜索方法裝置的結(jié)構(gòu)框圖;以及
[0019]圖8是根據(jù)本發(fā)明又一個實施例的圖片搜索方法裝置的結(jié)構(gòu)框圖。
【具體實施方式】
[0020]下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。相反,本發(fā)明的實施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0021]在本發(fā)明的描述中,需要理解的是,術(shù)語“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對重要性。在本發(fā)明的描述中,需要說明的是,除非另有明確的規(guī)定和限定,術(shù)語“相連”、“連接”應(yīng)做廣義理解,例如,可以是固定連接,也可以是可拆卸連接,或一體地連接;可以是機械連接,也可以是電連接;可以是直接相連,也可以通過中間媒介間接相連。對于本領(lǐng)域的普通技術(shù)人員而言,可以具體情況理解上述術(shù)語在本發(fā)明中的具體含義。此外,在本發(fā)明的描述中,除非另有說明,“多個”的含義是兩個或兩個以上。
[0022]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本發(fā)明的實施例所屬【技術(shù)領(lǐng)域】的技術(shù)人員所理解。
[0023]目前,對于用戶的冷門的圖片搜索需求,圖片搜索引擎為用戶提供的圖片無論是相關(guān)度、時效性還是圖片質(zhì)量都較差,搜索效果都不佳。其主要原因在于,圖片搜索引擎索引的圖片往往來自各個網(wǎng)站,而這些網(wǎng)站往往是專人編輯和維護的,因此難以保證圖片的覆蓋性。為此,需要利用其他圖片源來補充圖片搜索引擎索引的圖片不足的問題,而微博、微信、人人網(wǎng)等用戶原創(chuàng)內(nèi)容UGC (User Generated Content)網(wǎng)站上的圖片都是普通網(wǎng)民發(fā)表的,可涵蓋至方方面面,包括小眾冷門的圖片,而且具有較強的時效性,圖片質(zhì)量也高。由此,可利用微博、微信、人人網(wǎng)等UGC網(wǎng)站上的圖片來補充圖片搜索引擎索引的圖片不足的問題。因此,本發(fā)明的實施例公開了一種圖片搜索方法和裝置。
[0024]下面參考附圖描述根據(jù)本發(fā)明實施例的圖片搜索方法和裝置。
[0025]圖2是根據(jù)本發(fā)明一個實施例的圖片搜索方法的流程圖。
[0026]如圖2所示,該圖片搜索方法包括:
[0027]SlOl,接收用戶輸入的搜索詞。
[0028]具體地,在本發(fā)明的實施例中,用戶可在圖片搜索弓I擎提供的輸入框中輸入當(dāng)前搜索詞,用戶還可在各種快捷搜索輸入框中輸入搜索詞,對此,本方法的實施例不進行限定。
[0029]S102,確定搜索詞的搜索頻次,并確定搜索頻次是否在預(yù)設(shè)范圍內(nèi),搜索頻次根據(jù)搜索引擎記錄的歷史搜索數(shù)據(jù)確定。
[0030]具體地,根據(jù)搜索頻次可以確定搜索詞的搜索熱度,如果搜索頻次相對高,則說明搜索詞屬于熱門搜索,如,楊冪、長城、奔馳等,對應(yīng)的圖片比較豐富,圖片搜索引擎能夠提供實時性強、相關(guān)度高、質(zhì)量高的圖片,而沒有必要補充圖片,如果補充圖片源,反而會增加計算負擔(dān)。如果搜索頻次相對低,則說明搜索詞屬于冷門搜索,對應(yīng)的圖片較為匱乏,此時需要補充圖片。
[0031]S103,當(dāng)確定搜索頻次在預(yù)設(shè)范圍內(nèi)時,在預(yù)先建立的第一圖片庫中獲取與搜索詞匹配的第一圖片,第一圖片庫中包括搜索引擎從UGC網(wǎng)站中獲得的圖片。
[0032]在本發(fā)明的一個實施例中,UGC網(wǎng)站包括微博、微信、人人網(wǎng)等中的至少一種。應(yīng)理解,微博、微信、人人網(wǎng)等僅為了說明本發(fā)明實施例的第一圖片庫的特性,本領(lǐng)域的技術(shù)人員很容易將其他具有相同功能網(wǎng)站中的圖片使用至本發(fā)明的實施例中,對此本發(fā)明的實施例不進行限定。
[0033]具體地,預(yù)先建立的第一圖片庫即為從UGC網(wǎng)站中獲得的圖片。此時,需要UGC網(wǎng)站為圖片搜素引擎提供架構(gòu)、接口和功能上支持,UGC網(wǎng)站上的圖片能夠?qū)崟r地存儲到第一圖片庫中,即新產(chǎn)生的圖片能夠?qū)崟r地存入第一圖片庫中,并且圖片與其對應(yīng)的文本、轉(zhuǎn)發(fā)、回復(fù)、評論、作者信息等相關(guān)數(shù)據(jù)之間具有完備的關(guān)聯(lián)關(guān)系,便于查詢。
[0034]S104,向用戶展現(xiàn)圖片搜索結(jié)果,圖片搜索結(jié)果包括第一圖片。
[0035]圖3是根據(jù)本發(fā)明實施例的圖片搜索方法的一種示例性的效果圖。如圖3所示,同樣用戶輸入“中國中文信息學(xué)會青年工委”進行查詢,在微博上可以搜索到中國中文信息學(xué)會青年工委近期的活動宣傳海報和學(xué)術(shù)活動現(xiàn)場圖片,無論是相關(guān)度、時效性還是圖片質(zhì)量,都明顯優(yōu)于圖片搜索引擎所得到的結(jié)果(如圖2)。
[0036]本發(fā)明實施例的圖片搜索方法,利用第一圖片庫補充圖片搜索引擎在向用戶提供冷門的圖片搜索需求時的圖片不足的問題,利用第一圖片庫,圖片搜索引擎可以在提供冷門的圖片搜索需求時,為用戶提供具有更強實時性、更高相關(guān)性、更高質(zhì)量的圖片搜索結(jié)果,提升用戶體驗。
[0037]圖4是根據(jù)本發(fā)明另一個實施例的圖片搜索方法的流程圖。
[0038]如圖4所示,該圖片搜索方法包括:
[0039]S201,接收用戶輸入的搜索詞。
[0040]具體地,在本發(fā)明的實施例中,用戶可在圖片搜索弓I擎提供的輸入框中輸入當(dāng)前搜索詞,用戶還可在各種快捷搜索輸入框中輸入搜索詞,對此,本方法的實施例不進行限定。
[0041]S202,確定搜索詞的搜索頻次,并確定搜索頻次是否大于第一預(yù)設(shè)閾值且小于第二預(yù)設(shè)閾值,其中,第一預(yù)設(shè)閾值小于第二預(yù)設(shè)閾值,搜索頻次根據(jù)搜索引擎記錄的歷史搜索數(shù)據(jù)確定。
[0042]具體地,根據(jù)搜索頻次可以確定搜索詞的搜索熱度,如果搜索頻次相對高,圖片搜索引擎能夠提供實時性強、相關(guān)度高、質(zhì)量高的圖片,而沒有必要補充圖片,如果補充圖片源,反而會增加計算負擔(dān)。如果搜索頻次過低,對應(yīng)的搜索詞可能不合理或者拼寫錯誤等,也需要對這種情況進行篩選。因此,對于搜索詞q的搜索頻次f(q),需要滿足以下條件:
[0043]Fl<f (q) <F2 (I)
[0044]其中,F(xiàn)1、F2為兩個正整數(shù),分別表示第一預(yù)設(shè)閾值和第二預(yù)設(shè)閾值。
[0045]因此,通過上述條件的篩選,可以確定搜索詞是否為低頻小眾的搜索,例如,非熱門的人名(如某大學(xué)老師)、地名(如某縣城)、機構(gòu)名(如上例中的“中國中文信息學(xué)會青年工委”)等。
[0046]S203,當(dāng)確定搜索頻次大于第一預(yù)設(shè)閾值且小于第二預(yù)設(shè)閾值時,在預(yù)先建立的第一圖片庫中獲取與搜索詞匹配的第一圖片,第一圖片庫中包括搜索引擎從UGC網(wǎng)站中獲得的圖片。
[0047]在本發(fā)明的一個實施例中,UGC網(wǎng)站包括微博、微信、人人網(wǎng)等中的至少一種。應(yīng)理解,微博、微信、人人網(wǎng)等僅為了說明本發(fā)明實施例的第一圖片庫的特性,本領(lǐng)域的技術(shù)人員很容易將其他具有相同功能網(wǎng)站中的圖片使用至本發(fā)明的實施例中,對此本發(fā)明的實施例不進行限定。
[0048]具體地,預(yù)先建立的第一圖片庫即為從UGC網(wǎng)站中獲得的圖片。此時,需要UGC網(wǎng)站為圖片搜素引擎提供架構(gòu)、接口和功能上支持,UGC網(wǎng)站上的圖片能夠?qū)崟r地存儲到第一圖片庫中,即新產(chǎn)生的圖片能夠?qū)崟r地存入第一圖片庫中,并且圖片與其對應(yīng)的文本、轉(zhuǎn)發(fā)、回復(fù)、評論、作者信息等相關(guān)數(shù)據(jù)之間具有完備的關(guān)聯(lián)關(guān)系,便于查詢。
[0049]S204,向用戶展現(xiàn)圖片搜索結(jié)果,圖片搜索結(jié)果包括第一圖片。
[0050]本發(fā)明實施例的圖片搜索方法,利用第一預(yù)設(shè)閾值和第二預(yù)設(shè)閾值可以將熱門搜索詞、不合理搜索詞或者錯誤搜索詞等篩除掉,可以保證效率。
[0051]在本發(fā)明的一個實施例中,上述在預(yù)先建立的第一圖片庫中獲取與搜索詞匹配的第一圖片,包括(圖中未示出):將第一圖片庫中滿足如下項中任意一項的圖片作為第一圖片:文本內(nèi)容與搜索詞匹配的圖片;轉(zhuǎn)發(fā)文本或者回復(fù)文本與搜索詞匹配的圖片;作者名稱或者作者個人描述或者作者標簽與搜索詞匹配的圖片。具體地,對于用戶輸入的搜索詞q,將文本內(nèi)容t (W)與搜索詞q匹配的圖片,w表示圖片;或,轉(zhuǎn)發(fā)文本f (W)或者回復(fù)文本r (w)與搜索詞q匹配的圖片;作者名稱an (W)或者作者個人描述ad (w)或者作者標簽at (w)與搜索詞q匹配的圖片召回。在上述三個條件中,任意兩個字符串Si和s2 (如,t(w)和q等)之間的匹配可基于詞重疊率來計算,即首先將Si和s2進行切詞,得到詞向量V(Sl)和V(s2),進而基于下述公式(2)計算匹配度:
[0052]
【權(quán)利要求】
1.一種圖片搜索方法,其特征在于,包括: 接收用戶輸入的搜索詞; 確定所述搜索詞的搜索頻次,并確定所述搜索頻次是否在預(yù)設(shè)范圍內(nèi),所述搜索頻次根據(jù)搜索引擎記錄的歷史搜索數(shù)據(jù)確定; 當(dāng)確定所述搜索頻次在所述預(yù)設(shè)范圍內(nèi)時,在預(yù)先建立的第一圖片庫中獲取與所述搜索詞匹配的第一圖片,所述第一圖片庫中包括所述搜索引擎從用戶原創(chuàng)內(nèi)容UGC網(wǎng)站中獲得的圖片; 向所述用戶展現(xiàn)圖片搜索結(jié)果,所述圖片搜索結(jié)果包括所述第一圖片。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述確定所述搜索頻次是否在預(yù)設(shè)范圍內(nèi),包括: 確定所述搜索頻次是否大于第一預(yù)設(shè)閾值且小于第二預(yù)設(shè)閾值,其中,所述第一預(yù)設(shè)閾值小于所述第二預(yù)設(shè)閾值。
3.根據(jù)權(quán)利要求1或2所述的方法,其特征在于,所述在預(yù)先建立的第一圖片庫中獲取與所述搜索詞匹配的第一圖片,包括: 將所述第一圖片庫中滿足如下項中任意一項的圖片作為所述第一圖片: 文本內(nèi)容與所述搜索詞匹配的圖片; 轉(zhuǎn)發(fā)文本或者回復(fù)文本與所述搜索詞匹配的圖片; 作者名稱或者作者個人描述或者作者標簽與所述搜索詞匹配的圖片。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,在所述在預(yù)先建立的第一圖片庫中獲取與所述搜索詞匹配的第一圖片后,所述方法還包括: 對所述第一圖片進行排序,以向所述用戶展現(xiàn)排序后的所述第一圖片。
5.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述對所述第一圖片進行排序,包括: 獲取至少一種的特征分值; 根據(jù)所述至少一種的特征分值和排序?qū)W習(xí)LTR算法,對所述第一圖片進行排序。
6.根據(jù)權(quán)利要求5所述的方法,其特征在于,所述特征分值包括如下項中的至少一項: 正文匹配特征值,轉(zhuǎn)發(fā)文本匹配特征值,回復(fù)文本匹配特征值,作者名稱匹配特征值,作者描述匹配特征值,作者標簽匹配特征值。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,還包括: 獲取與所述搜索詞匹配的第二圖片,所述第二圖片為所述搜索引擎采用傳統(tǒng)方式抓取的圖片; 所述向所述用戶展現(xiàn)的圖片搜索結(jié)果中還包括所述第二圖片。
8.根據(jù)權(quán)利要求7所述的方法,其特征在于,還包括: 在向所述用戶展現(xiàn)圖片搜索結(jié)果時,將所述第一圖片和所述第二圖片分區(qū)域展現(xiàn)。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述UGC網(wǎng)站包括微博、微信、人人網(wǎng)中的至少一種。
10.一種圖片搜索裝置,其特征在于,包括: 接收模塊,用于接收用戶輸入的搜索詞; 確定模塊,用于確定所述搜索詞的搜索頻次,并確定所述搜索頻次是否在預(yù)設(shè)范圍內(nèi),所述搜索頻次根據(jù)搜索引擎記錄的歷史搜索數(shù)據(jù)確定;第一獲取模塊,用于當(dāng)確定所述搜索頻次在所述預(yù)設(shè)范圍內(nèi)時,在預(yù)先建立的第一圖片庫中獲取與所述搜索詞匹配的第一圖片,所述第一圖片庫中包括所述搜索引擎從用戶原創(chuàng)內(nèi)容UGC網(wǎng)站中獲得的圖片; 展現(xiàn)模塊,用于向所述用戶展現(xiàn)圖片搜索結(jié)果,所述圖片搜索結(jié)果包括所述第一圖片。
11.根據(jù)權(quán)利要求10所述的裝置,其特征在于,所述確定模塊具體用于: 確定所述搜索頻次是否大于第一預(yù)設(shè)閾值且小于第二預(yù)設(shè)閾值,其中,所述第一預(yù)設(shè)閾值小于所述第二預(yù)設(shè)閾值。
12.根據(jù)權(quán)利要求10或11所述的裝置,其特征在于,所述第一獲取模塊具體用于: 將所述第一圖片庫中滿足如下項中任意一項的圖片作為所述第一圖片: 文本內(nèi)容與所述搜索詞匹配的圖片; 轉(zhuǎn)發(fā)文本或者回復(fù)文本與所述搜索詞匹配的圖片; 作者名稱或者作者個人描述或者作者標簽與所述搜索詞匹配的圖片。
13.根據(jù)權(quán)利要求12所述的裝置,其特征在于,還包括: 排序模塊,用于對所述第一圖片進行排序,以向所述用戶展現(xiàn)排序后的所述第一圖片。
14.根據(jù)權(quán)利要求13所述的裝置,其特征在于,所述排序模塊包括: 獲取單元,用于獲取至少一種的特征分值; 排序單元,用于根據(jù)所述至少一種的特征分值和排序?qū)W習(xí)LTR算法,對所述第一圖片進行排序。
15.根據(jù)權(quán)利要求14所述的裝置,其特征在于,所述特征分值包括如下項中的至少一項: 正文匹配特征值,轉(zhuǎn)發(fā)文本匹配特征值,回復(fù)文本匹配特征值,作者名稱匹配特征值,作者描述匹配特征值,作者標簽匹配特征值。
16.根據(jù)權(quán)利要求10所述的裝置,其特征在于,還包括: 第二獲取模塊,用于獲取與所述搜索詞匹配的第二圖片,所述第二圖片為所述搜索引擎采用傳統(tǒng)方式抓取的圖片; 其中,所述展現(xiàn)模塊向所述用戶展現(xiàn)的圖片搜索結(jié)果中還包括所述第二圖片。
17.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述展現(xiàn)模塊還用于在向所述用戶展現(xiàn)圖片搜索結(jié)果時,將所述第一圖片和所述第二圖片分區(qū)域展現(xiàn)。
18.根據(jù)權(quán)利要求16所述的裝置,其特征在于,所述UGC網(wǎng)站包括微博、微信、人人網(wǎng)中的至少一種。
【文檔編號】G06F17/30GK103942272SQ201410120404
【公開日】2014年7月23日 申請日期:2014年3月27日 優(yōu)先權(quán)日:2014年3月27日
【發(fā)明者】趙世奇, 張超 申請人:北京百度網(wǎng)訊科技有限公司