專利名稱:處理圖片的方法、裝置以及搜索圖片的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是涉及處理圖片的方法、裝置以及搜索 圖片的方法。
背景技術(shù):
對頁面中包含的圖片內(nèi)容進(jìn)行分析和資料提取,是搜索引擎工作的重要 內(nèi)容。但是,現(xiàn)有技術(shù)中針對單個(gè)頁面的頁面分析技術(shù),由于缺乏關(guān)于某個(gè) 網(wǎng)站的統(tǒng)計(jì)信息,無法有效的去除圖片標(biāo)題中的網(wǎng)站名、論壇名、版面名、
版主名、時(shí)間、帖子打分等無效字段,由此帶來的負(fù)面影響有
1、 出現(xiàn)不相關(guān)的結(jié)果。這是由于查詢詞命中了無效字段導(dǎo)致,例如查詢 "鳳凰"而圖片標(biāo)題含有"鳳凰播報(bào)"。這個(gè)結(jié)果不是搜索用戶所需要的結(jié)果。
2、 相關(guān)性好結(jié)果的排名靠后。由于無效字段數(shù)量眾多,導(dǎo)致與圖片相關(guān) 性好的有效信息被淹沒在無效字段中,導(dǎo)致計(jì)算評分時(shí)較低。例如內(nèi)容為奔 馳轎車的圖標(biāo)題為"奔馳飄香網(wǎng)絡(luò) >> 圖片中心 >> 愛車一族"。
3、 給用戶展現(xiàn)的字段中出現(xiàn)不相關(guān)內(nèi)容,降低了用戶體驗(yàn)。 發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中,發(fā)現(xiàn)現(xiàn)有技術(shù)中至少存在如下問題 針對單個(gè)頁面分析導(dǎo)致搜索結(jié)果相關(guān)性差,用戶體驗(yàn)度低。
發(fā)明內(nèi)容
有鑒于此,本發(fā)明 一個(gè)或多個(gè)實(shí)施例的目的在于提供處理圖片的方法、 裝置以及搜索圖片的方法,以實(shí)現(xiàn)提高搜索結(jié)果的相關(guān)性,提升用戶體驗(yàn)度。 為解決上述問題,本發(fā)明實(shí)施例提供了一種處理圖片標(biāo)題的方法,包括: 設(shè)置無效字段識別規(guī)則;
根據(jù)所述識別規(guī)則,識別頁面網(wǎng)站中圖片標(biāo)題包含的無效字段; 去除所述頁面網(wǎng)站中圖片標(biāo)題中所包含的所述無效字段。 還提供了一種處理圖片標(biāo)題的裝置,包括設(shè)置單元,用于設(shè)置無效字段識別規(guī)則;
識別單元,用于根據(jù)所述識別規(guī)則,識別頁面網(wǎng)站中圖片標(biāo)題包含的無
效字段;
第一去除單元,用于去除所述頁面網(wǎng)站中圖片標(biāo)題中所包含的所述無效 字段。
還提供了 一種搜索引擎,包括如本發(fā)明的處理圖片裝置實(shí)施例中所公開 的任一項(xiàng)裝置。
還提供了一種搜索圖片的方法,包括 設(shè)置無效字段識別規(guī)則;
根據(jù)所述識別規(guī)則,識別頁面網(wǎng)站中圖片標(biāo)題包含的無效字段; 去除所述頁面網(wǎng)站中圖片標(biāo)題中所包含的所述無效字段; 獲取與查詢詞相關(guān)的圖片標(biāo)題; 輸出所述圖片標(biāo)題對應(yīng)的鏈接。 與現(xiàn)有技術(shù)相比,本發(fā)明實(shí)施例具有以下優(yōu)點(diǎn) 首先,排序效果明顯改善。
由于通過無效字段的去除,就減少了無效字段有關(guān)的結(jié)果出現(xiàn)。由于無 效字段代表不相關(guān)結(jié)果,所以,不相關(guān)的結(jié)果不會(huì)再出現(xiàn)在搜索結(jié)果的前列。
與圖片相關(guān)的有效信息在計(jì)算評分時(shí)權(quán)重更高,有利于真正相關(guān)的結(jié)果 排在前面,相關(guān)性好的結(jié)果排名前移。
其次,由于搜索結(jié)果相關(guān)性好,用戶體驗(yàn)度提高。
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實(shí) 施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面 描述中的附圖僅僅是本發(fā)明的 一些實(shí)施例,對于本領(lǐng)域普通技術(shù)人員來講, 在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。 圖l所示,是本發(fā)明的處理圖片標(biāo)題的方法的實(shí)施例一的流程圖; 圖2所示,是本發(fā)明的處理圖片標(biāo)題的裝置的實(shí)施例一的框圖; 圖3所示,是本發(fā)明實(shí)施例所提供的搜索引擎的實(shí)施例一框圖;圖4所示,是本發(fā)明的搜索圖片的方法的實(shí)施例一的流程圖; 圖5所示,是模塊A的處理過程的流程圖; 圖6所示,是模塊B的處理過程的流程圖。
具體實(shí)施例方式
下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行 清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而 不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有作 出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。
"無效字段"是指,與圖片內(nèi)容關(guān)系較小、無關(guān),或者起干擾作用的字 段。例如嵌入標(biāo)題中的網(wǎng)站名、論壇名,論壇版主為圖片帖的打分和版主簽 名,還有論壇為圖片標(biāo)題自動(dòng)加上的時(shí)間戳等。
無效字段的帶來的負(fù)面影響包括
1) 進(jìn)行查詢時(shí),會(huì)命中與圖片無關(guān)的無效字段,導(dǎo)致出現(xiàn)不相關(guān)的結(jié)
果;
2) 同圖片真正相關(guān)、有意義的字段被淹沒在無效字段當(dāng)中,沒有被搜索 到,或者被搜索到的命中率低,導(dǎo)致本來相關(guān)的圖片評分降低;
3) 給用戶展現(xiàn)的字段出現(xiàn)不相關(guān)內(nèi)容,降低了用戶體驗(yàn)。
圖片標(biāo)題通常包括"頁首標(biāo)題"、"頁內(nèi)標(biāo)題"、"圖片替換文字(alt)"、"圖 片文字《連接(anchor)"等。"圖片替換文字"指鼠標(biāo)移至圖片上時(shí)浮現(xiàn)的文字。 當(dāng)前主流的圖片搜索都是采用圖片相關(guān)文字進(jìn)行檢索,其中最重要的就是圖 片標(biāo)題。因此,圖片標(biāo)題對于圖片搜索的相關(guān)性至關(guān)重要。由于在圖片標(biāo)題 中普遍存在著大量的無效字段,這些無效字段的存在,對搜索結(jié)果的相關(guān)性 影響很大。由于圖片標(biāo)題文本較短,放大了對相關(guān)性的影響。
本發(fā)明的核心思想是根據(jù)統(tǒng)計(jì)規(guī)律,設(shè)定判斷規(guī)則,識別圖片標(biāo)題中的 無效字段,建倒排索引時(shí)將無效字段從圖片標(biāo)題中去除并放入特定域;在線 搜索時(shí),對命中無效字段所在的特定域做降權(quán)處理。通過降權(quán)處理,使得對 無效字段賦以不同的權(quán)重,甚至可以對有些無效字段賦權(quán)重值為零,免得對相關(guān)性高的字段產(chǎn)生不利影響。使得搜索結(jié)果的相關(guān)性提高,提升了用戶體 驗(yàn)。
由于無效字段的"無效"是相對于與圖片內(nèi)容的相關(guān)性而言的,不是與 圖片內(nèi)容相關(guān)的文字,但并非與圖片毫無關(guān)聯(lián)。而且,考慮到網(wǎng)站名、論壇 名、版面名在某些情況下對于某些用戶仍是有用信息,因此并未直接將無效 字段直接丟棄,而是移入特定域做降權(quán)處理。
針對單個(gè)頁面的頁面分析技術(shù),由于缺乏關(guān)于某個(gè)網(wǎng)站的統(tǒng)計(jì)信息,無 法有效的去除圖片標(biāo)題中的網(wǎng)站名、論壇名、版面名、版主名、時(shí)間、帖子 打分等無效字段,由此帶來的負(fù)面影響有
(1) 會(huì)命中不相關(guān)的結(jié)果。這是由于查詢命中了無效字段導(dǎo)致,例如查 詢"鳳凰"而圖片標(biāo)題含有"鳳凰播報(bào)"。
(2) 相關(guān)性高的結(jié)果卻排名靠后。與圖片相關(guān)的有效信息被淹沒在無效
字段中,導(dǎo)致計(jì)算評分時(shí)較低,例如內(nèi)容為奔馳轎車的圖標(biāo)題為"奔馳飄香 網(wǎng)絡(luò) >> 圖片中心 >> 愛車一族"。
(3) 給用戶展現(xiàn)的字段中出現(xiàn)不相關(guān)內(nèi)容,降低了用戶體驗(yàn)。 如圖l所示,是本發(fā)明的處理圖片標(biāo)題的方法的實(shí)施例一,包括 101、設(shè)置無效字段識別規(guī)則;
其中,所述設(shè)置無效字段識別規(guī)則具體為
如果所述網(wǎng)站的圖片標(biāo)題中包含的字段符合預(yù)置條件,則將所述字段設(shè) 置為無效字段。
其中,所述網(wǎng)站的圖片標(biāo)題中包含的字段符合預(yù)置條件具體為 如果所述字段的出現(xiàn)次數(shù)達(dá)到預(yù)定值,而且所述字段的出現(xiàn)次數(shù)與所述
網(wǎng)站包含的圖片總數(shù)之比達(dá)到預(yù)定值,則所述網(wǎng)站的圖片標(biāo)題中包含的字段
符合預(yù)置條件;或
如果所述網(wǎng)站包含的圖片數(shù)量達(dá)到預(yù)定值,而且所述字段的出現(xiàn)次數(shù)與
所有字段出現(xiàn)的次數(shù)之比達(dá)到預(yù)定值,則所述網(wǎng)站的圖片標(biāo)題中包含的字段
符合預(yù)置條件;或如果所述字段的出現(xiàn)次數(shù)或者所述字段的出現(xiàn)次數(shù)與所有字段出現(xiàn)的次 數(shù)之比,達(dá)到預(yù)定值,并且所述字段分詞后的結(jié)果表明所述字段屬于無效信 息,則所述網(wǎng)站的圖片標(biāo)題中包含的字段符合預(yù)置條件。
其中,所述字段屬于無效信息具體為
所述字段包含論壇、社區(qū)、相冊、注冊、日志、貼圖、瀏覽或轉(zhuǎn)載。 其中,可以通過反向設(shè)定有效字段的識別條件,將所有非有效字段都設(shè) 置為無效字段,則所述設(shè)置無效字段識別規(guī)則具體為
如果所述字段的出現(xiàn)次數(shù)少于預(yù)設(shè)閥值,則將所述字段作為有效字段。 其中,在所述設(shè)置無效字段識別規(guī)則之前,還包括 將所有圖片的標(biāo)題以頁面所在網(wǎng)站為單位,進(jìn)行劃分。
其中,在進(jìn)行劃分之后,還包括
對于圖片標(biāo)題中中括號內(nèi)的字段,從圖片標(biāo)題中去除;
將所述圖片標(biāo)題依分隔符分割成若干個(gè)字段;
統(tǒng)計(jì)同 一 網(wǎng)站下圖片標(biāo)題中所包含的各個(gè)字段出現(xiàn)的次數(shù);
則根據(jù)所述識別規(guī)則,識別網(wǎng)站中圖片標(biāo)題包含的無效字段具體為
如果所述字段出現(xiàn)的次數(shù)達(dá)到預(yù)置條件,則將所述字段識別為無效字段。
102、 根據(jù)所述識別規(guī)則,識別頁面網(wǎng)站中圖片標(biāo)題包含的無效字段;
103、 去除所述頁面網(wǎng)站中圖片標(biāo)題中所包含的所述無效字段。
其中,在去除所述網(wǎng)站中圖片標(biāo)題中所包含的所述無效字段之后,還包
括
建立所述頁面網(wǎng)站與所述無效字^:的對應(yīng)關(guān)系。 其中,在建立所述頁面網(wǎng)站與所述無效字^殳的對應(yīng)關(guān)系之后,還包括 對于圖片標(biāo)題中中括號內(nèi)的字段,保存在特定域; 對所述圖片所在的頁面網(wǎng)站,根據(jù)頁面網(wǎng)站與所述無效字^史的對應(yīng)關(guān)系, 查找所述圖片標(biāo)題中的無效字段,將所述無效字段移動(dòng)到特定域; 將所述圖片標(biāo)題中剩余的文字作為圖片標(biāo)題。
其中,去除無效字段后,可以向用戶提供體驗(yàn)度更高的查詢過程,即 去除所述頁面網(wǎng)站中圖片標(biāo)題中所包含的所述無效字段之后,還包括 獲耳又與查詢詞相關(guān)的圖片標(biāo)題;輸出所述圖片標(biāo)題對應(yīng)的鏈接。
其中,將所述圖片標(biāo)題中剩余的文字作為圖片標(biāo)題之后,還包括
將無效字段所在的特定域進(jìn)行降權(quán)處理; 獲取與查詢詞相關(guān)的圖片標(biāo)題; 輸出所述圖片標(biāo)題對應(yīng)的鏈接。 通過上述過程,可以取得以下有益技術(shù)效果 首先,排序效果明顯改善。
由于通過無效字段的去除,就減少了無效字段有關(guān)的結(jié)果出現(xiàn)。由于無 效字段代表不相關(guān)結(jié)果,所以,不相關(guān)的結(jié)果不會(huì)再出現(xiàn)在搜索結(jié)果的前列。
與圖片相關(guān)的有效信息在計(jì)算評分時(shí)權(quán)重更高,有利于真正相關(guān)的結(jié)果 排在前面,相關(guān)性好的結(jié)果排名前移。
其次,用戶體驗(yàn)度提高。
由于給用戶展現(xiàn)的文字中不相關(guān)的內(nèi)容減少,從而改善了用戶體驗(yàn)。
如圖2所示,是本發(fā)明的處理圖片標(biāo)題的裝置的實(shí)施例一,包括 設(shè)置單元201,用于設(shè)置無效字段識別規(guī)則; 其中,所述設(shè)置無效字段識別規(guī)則具體為
如果所述網(wǎng)站的圖片標(biāo)題中包含的字段符合預(yù)置條件,則將所述字段設(shè)
置為無效字^a。
其中,所述設(shè)置無效字段識別規(guī)則具體為
如果所述字段的出現(xiàn)次數(shù)少于預(yù)設(shè)閥值,則將所述字段作為有效字段。 其中,所述網(wǎng)站的圖片標(biāo)題中包含的字段符合預(yù)置條件具體為 如果所述字段的出現(xiàn)次數(shù)達(dá)到預(yù)定值,而且所述字段的出現(xiàn)次數(shù)與所述
網(wǎng)站包含的圖片總數(shù)之比達(dá)到預(yù)定值,則所述網(wǎng)站的圖片標(biāo)題中包含的字段
符合預(yù)置條件;或
如果所述網(wǎng)站包含的圖片數(shù)量達(dá)到預(yù)定值,而且所述字段的出現(xiàn)次數(shù)與
所有字段出現(xiàn)的次數(shù)之比達(dá)到預(yù)定值,則所述網(wǎng)站的圖片標(biāo)題中包含的字段
符合預(yù)置條件;或
如果所述字段的出現(xiàn)次數(shù)或者所述字段的出現(xiàn)次數(shù)與所有字段出現(xiàn)的次
數(shù)之比,達(dá)到預(yù)定值,并且所述字段分詞后的結(jié)果表明所述字段屬于無效信息,則所述網(wǎng)站的圖片標(biāo)題中包含的字段符合預(yù)置條件。
其中,所述字^a屬于無效信息具體為
所述字段包含論壇、社區(qū)、相冊、注冊、日志、貼圖、瀏覽或轉(zhuǎn)載。 識別單元202,用于根據(jù)所述識別規(guī)則,識別頁面網(wǎng)站中圖片標(biāo)題包含的 無效字段;
第一去除單元203,用于去除所述頁面網(wǎng)站中圖片標(biāo)題中所包含的所述無 效字段。
通過上述過程,可以取得以下有益技術(shù)效果 首先,排序效果明顯改善。
由于通過無效字段的去除,就減少了無效字段有關(guān)的結(jié)果出現(xiàn)。由于無 效字段代表不相關(guān)結(jié)果,所以,不相關(guān)的結(jié)果不會(huì)再出現(xiàn)在搜索結(jié)果的前列。
與圖片相關(guān)的有效信息在計(jì)算評分時(shí)權(quán)重更高,有利于真正相關(guān)的結(jié)果 排在前面,相關(guān)性好的結(jié)果排名前移。
其次,用戶體驗(yàn)度提高。
由于給用戶展現(xiàn)的文字中不相關(guān)的內(nèi)容減少,從而改善了用戶體驗(yàn)。 其中,上述實(shí)施例中,還可以包括
網(wǎng)站劃分單元,用于在所述設(shè)置無效字段識別規(guī)則之前,將所有圖片的 標(biāo)題以頁面所在網(wǎng)站為單位,進(jìn)行劃分。
其中,除了網(wǎng)站劃分單元,還可以包括
第二去除單元,用于在進(jìn)行劃分之后,對于圖片標(biāo)題中中括號內(nèi)的字段, 從圖片標(biāo)題中去除;
分隔單元,用于將所述圖片標(biāo)題依分隔符分割成若干個(gè)字段;
統(tǒng)計(jì)單元,用于統(tǒng)計(jì)同一網(wǎng)站下圖片標(biāo)題中所包含的各個(gè)字段出現(xiàn)的次
數(shù);
所述識別單元具體為
第二識別單元,用于如果所述字段出現(xiàn)的次數(shù)達(dá)到預(yù)置條件,則將所述 字l殳識別為無效字段。
其中,上述實(shí)施例還可以包括
建立單元,用于在去除所述網(wǎng)站中圖片標(biāo)題中所包含的所述無效字段之后,建立所述頁面網(wǎng)站與所述無效字^R的對應(yīng)關(guān)系。
其中,上述實(shí)施例在包括建立單元的基礎(chǔ)上,還可以包括
保存單元,用于在建立所述頁面網(wǎng)站與所述無效字段的對應(yīng)關(guān)系之后,
對于圖片標(biāo)題中中括號內(nèi)的字段,保存在特定域;
移動(dòng)單元,用于對所述圖片所在的頁面網(wǎng)站,根據(jù)頁面網(wǎng)站與所述無效 字段的對應(yīng)關(guān)系,查找所述圖片標(biāo)題中的無效字段,將所述無效字段移動(dòng)到 特定域;
處理單元,用于將所述圖片標(biāo)題中剩余的文字作為圖片標(biāo)題。 其中,還包括
第 一獲取單元,用于去除所述頁面網(wǎng)站中圖片標(biāo)題中所包含的所述無效 字段之后,獲取與查詢詞相關(guān)的圖片標(biāo)題;
第一輸出單元,用于輸出所述圖片標(biāo)題對應(yīng)的鏈接。
其中,與上述直接根據(jù)圖片標(biāo)題中包含的有效字段進(jìn)行索引匹配不同, 還可以將無效字段進(jìn)行降權(quán)處理后,再進(jìn)行索引匹配,就還可以包括
降權(quán)單元,用于將所述圖片標(biāo)題中剩余的文字作為圖片標(biāo)題之后,將無 效字段所在的特定域進(jìn)行降權(quán)處理;
第二獲取單元,用于獲^^與查詢詞相關(guān)的圖片標(biāo)題;
第二輸出單元,用于輸出所述圖片標(biāo)題對應(yīng)的鏈接。
通過上述過程,可以取得以下有益技術(shù)效果
首先,排序效果明顯改善。
由于通過無效字段的去除,就減少了無效字段有關(guān)的結(jié)果出現(xiàn)。由于無 效字段代表不相關(guān)結(jié)果,所以,不相關(guān)的結(jié)果不會(huì)再出現(xiàn)在搜索結(jié)果的前列。
與圖片相關(guān)的有效信息在計(jì)算評分時(shí)權(quán)重更高,有利于真正相關(guān)的結(jié)果 排在前面,相關(guān)性好的結(jié)果排名前移。
其次,用戶體驗(yàn)度提高。
由于給用戶展現(xiàn)的文字中不相關(guān)的內(nèi)容減少,從而改善了用戶體驗(yàn)。
如圖3所示,是本發(fā)明實(shí)施例所提供的搜索引擎的實(shí)施例一,包括本發(fā) 明的處理圖片標(biāo)題的裝置實(shí)施例所公開的任一項(xiàng)裝置。如圖4所示,是本發(fā)明的搜索圖片的方法的實(shí)施例一,包括
401、 設(shè)置無效字段識別規(guī)則;
其中,所述設(shè)置無效字段識別規(guī)則具體為
如果所述頁面網(wǎng)站的圖片標(biāo)題中包含的字段符合預(yù)置條件,則將所述字 段設(shè)置為無效字段。
其中,在所述設(shè)置無效字段識別規(guī)則之前,還包括 將所有圖片的標(biāo)題以頁面所在網(wǎng)站為單位,進(jìn)行劃分。 其中,還包括
對于圖片標(biāo)題中中括號內(nèi)的字段,從圖片標(biāo)題中去除;
將所述圖片標(biāo)題依分隔符分割成若干個(gè)字段;
統(tǒng)計(jì)同 一 網(wǎng)站下圖片標(biāo)題中所包含的各個(gè)字段出現(xiàn)的次數(shù);
則根據(jù)所述識別規(guī)則,識別網(wǎng)站中圖片標(biāo)題包含的無效字段具體為
如果所述字段出現(xiàn)的次數(shù)達(dá)到預(yù)置條件,則將所述字段識別為無效字段。
402、 根據(jù)所述識別規(guī)則,識別頁面網(wǎng)站中圖片標(biāo)題包含的無效字段;
403、 去除所述頁面網(wǎng)站中圖片標(biāo)題中所包含的所述無效字段;
其中,在去除所述網(wǎng)站中圖片標(biāo)題中所包含的所述無效字段之后,還包
括
建立所述頁面網(wǎng)站與所述無效字段的對應(yīng)關(guān)系。
其中,在建立所述頁面網(wǎng)站與所述無效字段的對應(yīng)關(guān)系之后,還包括 對于圖片標(biāo)題中中括號內(nèi)的字段,保存在特定域;
對所述圖片所在的頁面網(wǎng)站,根據(jù)頁面網(wǎng)站與所述無效字段的對應(yīng)關(guān)系, 查找所述圖片標(biāo)題中的無效字段,將所述無效字段移動(dòng)到特定域; 將所述圖片標(biāo)題中剩余的文字作為圖片標(biāo)題。 其中,將所述圖片標(biāo)題中剩余的文字作為圖片標(biāo)題之后,還包括 將無效字段所在的特定域進(jìn)行降權(quán)處理; 獲取與查詢詞相關(guān)的圖片標(biāo)題; 輸出所述圖片標(biāo)題對應(yīng)的鏈接。
404、 獲取與查詢詞相關(guān)的圖片標(biāo)題;405、輸出所述圖片標(biāo)題對應(yīng)的鏈接。
通過上述過程,可以取得以下有益技術(shù)效果 首先,排序效果明顯改善。
由于通過無效字段的去除,就減少了無效字段有關(guān)的結(jié)果出現(xiàn)。由于無 效字段代表不相關(guān)結(jié)果,所以,不相關(guān)的結(jié)果不會(huì)再出現(xiàn)在搜索結(jié)果的前列。
與圖片相關(guān)的有效信息在計(jì)算評分時(shí)權(quán)重更高,有利于真正相關(guān)的結(jié)果 排在前面,相關(guān)性好的結(jié)果排名前移。
其次,用戶體驗(yàn)度提高。
由于給用戶展現(xiàn)的文字中不相關(guān)的內(nèi)容減少,從而改善了用戶體驗(yàn)。 與上述各個(gè)實(shí)施例相適應(yīng),本發(fā)明提供了 一種搜索圖片的方法的實(shí)施例 二,本實(shí)施通過三個(gè)功能模塊的劃分來說明本實(shí)施例的工作過程,對于所屬 領(lǐng)域的技術(shù)人員而言,還可以釆用其他的模塊劃分方式,都可以實(shí)現(xiàn)本發(fā)明 的技術(shù)文字,本發(fā)明的三個(gè)模塊及其工作過程分別是
A.識別無效字段模塊。
本模塊的作用是根據(jù)屬于同一個(gè)網(wǎng)站的圖片標(biāo)題的統(tǒng)計(jì)信息,找到這個(gè) 網(wǎng)站所對應(yīng)的無效字段。例如"www.kongfz.com"這個(gè)網(wǎng)站下所有圖片的標(biāo) 題都含有"孔夫子舊書網(wǎng)",從統(tǒng)計(jì)意義上可知,這個(gè)字段對了解圖片本身內(nèi) 容的貢獻(xiàn)幾乎為零。于是,可以將"孔夫子舊書網(wǎng)"作為網(wǎng)站"www.kongfz.com" 所對應(yīng)的無效字段。
如前所述,廣義的圖片標(biāo)題分多種,包括"頁首標(biāo)題"、"頁內(nèi)標(biāo)題"、"圖 片替換文字(alt)"、"圖片文字鏈接(anchor)"等。參考圖5所示,是模塊A 的處理過程。
501.將所有圖片的圖片標(biāo)題以頁面網(wǎng)站為單位分成若干組。
一般情況下,圖片自身所屬的網(wǎng)站和圖片所在頁面的網(wǎng)站不一定相同。 而圖片標(biāo)題是從圖片所在的頁面提取的,因此判別無效字段要按照頁面網(wǎng)站 來進(jìn)行。即以網(wǎng)站為單位,找到屬于同一個(gè)網(wǎng)站的圖片標(biāo)題所對應(yīng)的無效字段。
針對單個(gè)頁面的頁面分析技術(shù),由于缺乏關(guān)于某個(gè)網(wǎng)站的統(tǒng)計(jì)信息,無法有效的去除圖片標(biāo)題中的網(wǎng)站名、論壇名、版面名等無效字段。舉例來說, 屬于"鳳凰播報(bào)"這個(gè)網(wǎng)站的頁面,都帶有"鳳凰播報(bào)"字段,僅對單個(gè)頁 面來說,我們無法判斷其是否為無效字段。只有當(dāng)網(wǎng)站為單位時(shí),我們才能 發(fā)現(xiàn)屬于這個(gè)網(wǎng)站的頁面都含有此字段,所以,"鳳凰播報(bào)"字段對于區(qū)分同 屬于這個(gè)網(wǎng)站的眾多頁面沒有貢獻(xiàn)。用戶感興趣的都是單個(gè)頁面,由此可知, 此字段有效信息含量極少,屬于無效字段。
502. 去除中括號內(nèi)的字段。
圖片標(biāo)題中,中括號"[...]"、"…"和"『...』"中的內(nèi)容可總結(jié)為以下
幾種情況
a) 時(shí)間。例[2006-10-15]
b) 版主簽名。例[人間閱]、[幽閑之心閱]
c) 類別標(biāo)志。例[推薦]、[原創(chuàng)]、[轉(zhuǎn)帖]、[分享]、[組圖]、[灌水]
d) 加分。例[精華+30]
e) 組圖張數(shù)。例[16P]、 [5p]
f) 網(wǎng)站、論壇、板塊名。例[八卦江湖]、[明星]
在絕大部分情況下,這些文字同圖片內(nèi)容的關(guān)系極小,可作為無效字段 去除。
503. 將去除中括號內(nèi)文字后的圖片標(biāo)題依分隔符分成若干個(gè)字段,并統(tǒng) 計(jì)同一網(wǎng)站下各個(gè)字段出現(xiàn)的字?jǐn)?shù)。(分隔符指逗號和頓號等連接符之外的其 他標(biāo)點(diǎn)符號。)
將標(biāo)題恰當(dāng)?shù)姆指糸_后再判別無效字段使得能夠?qū)^短的字串進(jìn)行操 作,而不是較長的標(biāo)題整體。
步驟504.設(shè)定規(guī)則,識別無效字l殳。
根據(jù)圖片所在網(wǎng)站的實(shí)際情況,具體規(guī)則可以是
a)出現(xiàn)次數(shù)少于3次,則認(rèn)為不是無效字段。b) 出現(xiàn)次數(shù)超過100,且與該網(wǎng)站下的圖片總數(shù)之比達(dá)到10%,則判為無
效字段。
c) 出現(xiàn)次數(shù)達(dá)到40,且與該網(wǎng)站下的圖片總數(shù)之比達(dá)到30%,則判為無 效字段。
d) 網(wǎng)站足夠大(該網(wǎng)站被收錄的圖達(dá)到50張),且該字段的出現(xiàn)比例達(dá) 到了50%,則判為無效字段。
e) 出現(xiàn)次數(shù)超過了 5次,且該字段分詞后的結(jié)果滿足下面條件之一,則 判為無效字段
i. 包含下列詞項(xiàng)之一"論壇"、"社區(qū)"、"相冊,,"注冊"、"日志"、"貼 圖"、"瀏覽"、"轉(zhuǎn)載"。
ii. 結(jié)尾為下列詞項(xiàng)之一"閱"、"網(wǎng)"、"區(qū)"、"版"。 對上述規(guī)則進(jìn)行歸納,可以得到以下規(guī)則 對某一網(wǎng)站,若某一字段
1) 出現(xiàn)次數(shù)過少,符合預(yù)置條件,則認(rèn)為是有效字段,不是無效字段。
例如網(wǎng)站"www.kongfz.com,,里的某圖片標(biāo)題含字段"論語正義",該字 段只出現(xiàn)過2次,被認(rèn)為不是無效字段。
2) 出現(xiàn)次數(shù)過多,符合次數(shù)有關(guān)的預(yù)置條件,且與該網(wǎng)站下的圖片總數(shù) 之比達(dá)到一定程度,符合比例有關(guān)的預(yù)置條件,則判為無效字段。
例如網(wǎng)站"www.kongfz.com"里的部分圖片標(biāo)題含字段"孔夫子舊書網(wǎng),,, 超過1000次,而且與庫中收錄的該網(wǎng)站下的圖片總數(shù)之比達(dá)到了 10%,則該 字段被認(rèn)為是無效字段。
3) 出現(xiàn)次數(shù)達(dá)到一定數(shù)量,符合次數(shù)有關(guān)的預(yù)置條件,且與該網(wǎng)站下的 圖片總數(shù)之比達(dá)到相當(dāng)高程度,符合比例有關(guān)的預(yù)置條件,則判為無效字段。
例如網(wǎng)站"gcforum.org"里有部分圖片標(biāo)題含字段"動(dòng)漫貼圖",達(dá)到53 次,而庫中收錄該網(wǎng)站圖片為100張,比例達(dá)到53%,則該字賴j皮認(rèn)為是無 效字段。
184) 網(wǎng)站足夠大,指該網(wǎng)站被收錄的圖足夠多,符合數(shù)量有關(guān)的預(yù)置條件, 且該字段的出現(xiàn)比例達(dá)到了一定程度,此比例指的是該字段出現(xiàn)的次數(shù)與所 有字段的總次數(shù)之比,則判為無效字段。
例如網(wǎng)站"jk360.bolaa.com"里有部分圖片標(biāo)題含字段"博客手拉手",為 15次(不滿足上面的數(shù)量條件),庫中收錄該網(wǎng)站圖片為15張(達(dá)到"足夠 大"的標(biāo)準(zhǔn)),而且此網(wǎng)站下的圖片一共只有4個(gè)標(biāo)題,共4個(gè)字^a,達(dá)到 25%的比例。因此,根據(jù)上述判斷規(guī)則,可以認(rèn)為該字段為無效字段。
5) 出現(xiàn)次數(shù)超過了若干次,或者出現(xiàn)比例達(dá)到了若干比例,且該字段分 詞后的結(jié)果滿足下面條件之一,則判為無效字段
例如
包含下列詞語之一"論壇"、"社區(qū)"、"相冊""注冊"、"日志"、"貼圖"、 "瀏覽"、"轉(zhuǎn)載"。
i. 如網(wǎng)站"bbs.arsenal.com.cn"里的圖片標(biāo)題含字l炎"槍手社區(qū)",網(wǎng)站 "niweiqiu.photo.ipart.cn"里圖片標(biāo)題含字段"免費(fèi)相冊,,,都是無效字段。
結(jié)尾為下列詞項(xiàng)之一"閱"、"網(wǎng)"、"區(qū)"、"版"。
ii. 如網(wǎng)站"www.bbs818.com"里圖片標(biāo)題含"華夏生意網(wǎng)",網(wǎng)站 "www.coolshrimp.com"里圖片標(biāo)題含"討論分享區(qū)",是無效字段。
根據(jù)上述規(guī)則,可以識別出網(wǎng)站"www.kongfz.com"的無效字段有"孔 夫子舊書網(wǎng)"。
最后,經(jīng)過上述步驟,識別無效字段模塊可以得到"頁面網(wǎng)站-無效字段,, 列表。其中, 一個(gè)網(wǎng)站可能對應(yīng)多個(gè)無效字段。該列表包括頁面網(wǎng)站和頁 面網(wǎng)站所包含的全部無效字段,以及頁面網(wǎng)站與所述頁面網(wǎng)站所包含的全部 無效字段的對應(yīng)關(guān)系。該列表可以包括數(shù)量眾多的頁面網(wǎng)站,以及這些頁面 網(wǎng)站與各自的無效字段的對應(yīng)關(guān)系。
在上述識別規(guī)則中,通過將字段出現(xiàn)次數(shù)、字段出現(xiàn)比例、網(wǎng)站收錄圖 數(shù)、字段包含的詞語以及字段末尾字等綜合考慮,有助于識別無效字段的精 確度,提高召回率。B. 數(shù)據(jù)生成模塊
在生成數(shù)據(jù)時(shí),參考圖6所示,是模塊B的處理過程。對每一張圖的圖
片標(biāo)題進(jìn)行如下處理
601. 將中括號內(nèi)的字段移至特定域。
對每一張圖,把中括號里的字段從標(biāo)題中刪除,放入關(guān)于這張圖的"無 效字段區(qū)"這個(gè)字域(與"標(biāo)題"、"周邊文字"等相當(dāng)?shù)母拍?。如果此圖的 鏈接是屬于網(wǎng)站"www.kongfz.com"的話,并且圖片標(biāo)題中有字段"孔夫子 舊書網(wǎng)",將該字段從標(biāo)題中刪除,放入"無效字段區(qū)"。
602. 根據(jù)圖片的頁面鏈接,在"頁面網(wǎng)站-無效字段"列表查找,如果在 圖片標(biāo)題中發(fā)現(xiàn)有無效字段,則將無效字段移至特定域。
603. 對于去除無效字段后的剩余的文字,填入數(shù)據(jù)文件中圖片標(biāo)題所在 的域。
經(jīng)過數(shù)據(jù)生成模塊,可以將輸入的每一張圖的相關(guān)信息,處理成不包含 無效字段的數(shù)據(jù)文件和索引文件而輸出。
C. 計(jì)算評估模塊
在線搜索計(jì)算評分時(shí),對無效字段所在的特定域降權(quán)處理。
以往的無效字段的判別往往是在頁面分析中進(jìn)行的(一般算作垃圾字段 而去除),但類似"鳳凰播報(bào)"、"愛車一族"這樣的同特定網(wǎng)站、論壇相關(guān)的 無效字段,只有在獲取了整個(gè)網(wǎng)站頁面的統(tǒng)計(jì)信息后才能判別,要在頁面分 析之后進(jìn)行,這是本發(fā)明區(qū)別其他反垃圾技術(shù)的要點(diǎn)。
在線搜索時(shí),如果搜索詞命中了無效字段所在的特定域,則給一極低的 分值。
這樣,當(dāng)用戶想搜特定網(wǎng)站、版面或者版主發(fā)過的帖子時(shí),仍然可以找 到,而在一般查詢時(shí),這些信息又不會(huì)對真正應(yīng)該排在前面的圖片造成影響。
通過計(jì)算評估模塊,可以將輸入的索引數(shù)據(jù)和查詢詞,進(jìn)行無效字段降 權(quán),去除頁面標(biāo)題中的無效字段,輸出相應(yīng)的排序結(jié)果。a) 用戶搜索"論語正義"時(shí),由于"孔夫子舊書網(wǎng),,從標(biāo)題中移出,"論 語正義"的標(biāo)題比"論語正義-孔夫子舊書網(wǎng)"的得分更高,從而此圖片的排 名提高,避免了某些不太相關(guān)的圖片排名過于靠前。
b) 用戶搜索"孔夫子"時(shí),含"孔夫子舊書網(wǎng)"的圖片因?yàn)闆]有命中標(biāo)
題,只是命中了 "無效字段區(qū),,,因此得分降低,其排名次于代表孔夫子的畫 像、雕像的圖片。
也就是說,利用本發(fā)明的實(shí)施例,在搜"論語正義"時(shí),看不到"孔夫
子舊書網(wǎng),,字樣;在搜"孔夫子"時(shí),排在前面的圖標(biāo)題都是"孔夫子***", 而和賣書的這個(gè)網(wǎng)站無關(guān)。
另外,本實(shí)施例的上述各個(gè)過程可以相應(yīng)地應(yīng)用于處理圖片的方法和裝 置中,也可以運(yùn)用于搜索引擎中。
通過上述過程,可以取得以下有益技術(shù)效果 首先,排序效果明顯改善。
由于通過無效字段的去除,就減少了無效字段有關(guān)的結(jié)果出現(xiàn)。由于無 效字段代表不相關(guān)結(jié)果,所以,不相關(guān)的結(jié)果不會(huì)再出現(xiàn)在搜索結(jié)果的前列。
與圖片相關(guān)的有效信息在計(jì)算評分時(shí)權(quán)重更高,有利于真正相關(guān)的結(jié)果 排在前面,相關(guān)性好的結(jié)果排名前移。
其次,用戶體驗(yàn)度提高。
由于給用戶展現(xiàn)的文字中不相關(guān)的內(nèi)容減少,從而改善了用戶體驗(yàn)。 通過以上的實(shí)施方式的描述,所屬領(lǐng)域的技術(shù)人員可以清楚地了解到本 發(fā)明可借助軟件加必需的通用硬件平臺(tái)的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件 方式來實(shí)現(xiàn),但很多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)
式體現(xiàn)出來,該計(jì)算機(jī)軟件產(chǎn)品存儲(chǔ)在一個(gè)存儲(chǔ)介質(zhì)中,包括若干指令用以 使得一臺(tái)計(jì)算機(jī)設(shè)備(可以是個(gè)人計(jì)算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行 本發(fā)明各個(gè)實(shí)施例所述的方法。
以上所述的本發(fā)明實(shí)施方式,并不構(gòu)成對本發(fā)明保護(hù)范圍的限定。任何 在本發(fā)明的精神和原則之內(nèi)所作的修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)
權(quán)利要求
1、一種處理圖片標(biāo)題的方法,其特征在于,包括設(shè)置無效字段識別規(guī)則;根據(jù)所述識別規(guī)則,識別頁面網(wǎng)站中圖片標(biāo)題包含的無效字段;去除所述頁面網(wǎng)站中圖片標(biāo)題中所包含的所述無效字段。
2、 如權(quán)利要求l所述的方法,其特征在于,所述設(shè)置無效字段識別規(guī)則 具體為如果所述網(wǎng)站的圖片標(biāo)題中包含的字段符合預(yù)置條件,則將所述字段設(shè) 置為無效字l殳。
3、 如權(quán)利要求l所述的方法,其特征在于,所述設(shè)置無效字段識別規(guī)則 具體為如果所述字段的出現(xiàn)次數(shù)少于預(yù)設(shè)閥值,則將所述字段作為有效字段。
4、 如權(quán)利要求2所述的方法,其特征在于,所述網(wǎng)站的圖片標(biāo)題中包含 的字段符合預(yù)置條件具體為如果所述字段的出現(xiàn)次數(shù)達(dá)到預(yù)定值,而且所述字段的出現(xiàn)次數(shù)與所述 網(wǎng)站包含的圖片總數(shù)之比達(dá)到預(yù)定值,則所述網(wǎng)站的圖片標(biāo)題中包含的字段 符合預(yù)置條件;或如果所述網(wǎng)站包含的圖片數(shù)量達(dá)到預(yù)定值,而且所述字段的出現(xiàn)次數(shù)與 所有字段出現(xiàn)的次數(shù)之比達(dá)到預(yù)定值,則所述網(wǎng)站的圖片標(biāo)題中包含的字段 符合預(yù)置條件;或數(shù)之比,達(dá)到預(yù)定值,并且所述字段分詞后的結(jié)果表明所述字段屬于無效信 息,則所述網(wǎng)站的圖片標(biāo)題中包含的字段符合預(yù)置條件。
5、 如權(quán)利要求4所述的方法,其特征在于,所述字段屬于無效信息具體為所述字段包含論壇、社區(qū)、相冊、注冊、日志、貼圖、瀏覽或轉(zhuǎn)載。
6、 如權(quán)利要求l所述的方法,其特征在于,在所述設(shè)置無效字段識別規(guī) 則之前,還包括將所有圖片的標(biāo)題以頁面所在網(wǎng)站為單位,進(jìn)行劃分。
7、 如權(quán)利要求6所述的方法,其特征在于,在進(jìn)行劃分之后,還包括對于圖片標(biāo)題中中括號內(nèi)的字段,從圖片標(biāo)題中去除;將所述圖片標(biāo)題依分隔符分割成若干個(gè)字^a;統(tǒng)計(jì)同 一 網(wǎng)站下圖片標(biāo)題中所包含的各個(gè)字段出現(xiàn)的次數(shù); 則根據(jù)所述識別規(guī)則,識別網(wǎng)站中圖片標(biāo)題包含的無效字段具體為 如果所述字段出現(xiàn)的次數(shù)達(dá)到預(yù)置條件,則將所述字段識別為無效字段。
8、 權(quán)利要求l所述的方法,其特征在于,在去除所述網(wǎng)站中圖片標(biāo)題中 所包含的所述無效字段之后,還包括建立所述頁面網(wǎng)站與所述無效字段的對應(yīng)關(guān)系。
9、 權(quán)利要求8所述的方法,其特征在于,在建立所述頁面網(wǎng)站與所述無 效字段的對應(yīng)關(guān)系之后,還包括對于圖片標(biāo)題中中括號內(nèi)的字段,保存在特定域;對所述圖片所在的頁面網(wǎng)站,根據(jù)頁面網(wǎng)站與所述無效字段的對應(yīng)關(guān)系, 查找所述圖片標(biāo)題中的無效字段,將所述無效字段移動(dòng)到特定域; 將所述圖片標(biāo)題中剩余的文字作為圖片標(biāo)題。
10、 如權(quán)利要求1所述的方法,其特征在于,去除所述頁面網(wǎng)站中圖片 標(biāo)題中所包含的所述無效字段之后,還包括獲取與查詢詞相關(guān)的圖片標(biāo)題; 輸出所述圖片標(biāo)題對應(yīng)的鏈接。
11、 如權(quán)利要求1所述的方法,其特征在于,將所述圖片標(biāo)題中剩余的 文字作為圖片標(biāo)題之后,還包括將無效字段所在的特定域進(jìn)行降權(quán)處理; 獲取與查詢詞相關(guān)的圖片標(biāo)題; 輸出所述圖片標(biāo)題對應(yīng)的鏈接。
12、 一種處理圖片標(biāo)題的裝置,其特征在于,包括 設(shè)置單元,用于設(shè)置無效字段識別規(guī)則;識別單元,用于根據(jù)所述識別規(guī)則,識別頁面網(wǎng)站中圖片標(biāo)題包含的無 效字段;第 一去除單元,用于去除所述頁面網(wǎng)站中圖片標(biāo)題中所包含的所述無效 字段。
13、 如權(quán)利要求12所述的裝置,其特征在于,所述設(shè)置無效字段識別規(guī)則具體為如果所述網(wǎng)站的圖片標(biāo)題中包含的字段符合預(yù)置條件,則將所述字段設(shè) 置為無效字^R。
14、 如權(quán)利要求12所述的裝置,其特征在于,所述設(shè)置無效字段識別規(guī) 則具體為如果所述字段的出現(xiàn)次數(shù)少于預(yù)設(shè)閥值,則將所述字段作為有效字段。
15、 如權(quán)利要求13所述的裝置,其特征在于,所述網(wǎng)站的圖片標(biāo)題中包 含的字段符合預(yù)置條件具體為如果所述字段的出現(xiàn)次數(shù)達(dá)到預(yù)定值,而且所述字段的出現(xiàn)次數(shù)與所述 網(wǎng)站包含的圖片總數(shù)之比達(dá)到預(yù)定值,則所述網(wǎng)站的圖片標(biāo)題中包含的字段 符合預(yù)置條件;或如果所述網(wǎng)站包含的圖片數(shù)量達(dá)到預(yù)定值,而且所述字段的出現(xiàn)次數(shù)與 所有字段出現(xiàn)的次數(shù)之比達(dá)到預(yù)定值,則所述網(wǎng)站的圖片標(biāo)題中包含的字段符合預(yù)置條件;或如果所述字段的出現(xiàn)次數(shù)或者所述字段的出現(xiàn)次數(shù)與所有字段出現(xiàn)的次 數(shù)之比,達(dá)到預(yù)定值,并且所述字段分詞后的結(jié)果表明所述字段屬于無效信 息,則所述網(wǎng)站的圖片標(biāo)題中包含的字段符合預(yù)置條件。
16、 如權(quán)利要求15所述的裝置,其特征在于,所述字段屬于無效信息具 體為所述字段包含論壇、社區(qū)、相冊、注冊、日志、貼圖、瀏覽或轉(zhuǎn)載。
17、 如權(quán)利要求12所述的裝置,其特征在于,還包括 網(wǎng)站劃分單元,用于在所述設(shè)置無效字段識別規(guī)則之前,將所有圖片的標(biāo)題以頁面所在網(wǎng)站為單位,進(jìn)行劃分。
18、 如權(quán)利要求17所述的裝置,其特征在于,還包括 第二去除單元,用于在進(jìn)行劃分之后,對于圖片標(biāo)題中中括號內(nèi)的字段,從圖片標(biāo)題中去除;分隔單元,用于將所述圖片標(biāo)題依分隔符分割成若干個(gè)字段;統(tǒng)計(jì)單元,用于統(tǒng)計(jì)同 一 網(wǎng)站下圖片標(biāo)題中所包含的各個(gè)字段出現(xiàn)的次數(shù);所述識別單元具體為第二識別單元,用于如果所述字段出現(xiàn)的次數(shù)達(dá)到預(yù)置條件,則將所述字段識別為無效字段。
19、 權(quán)利要求12所述的裝置,其特征在于,還包括建立單元,用于在去除所述網(wǎng)站中圖片標(biāo)題中所包含的所述無效字段之 后,建立所述頁面網(wǎng)站與所述無效字段的對應(yīng)關(guān)系。
20、 權(quán)利要求19所述的裝置,其特征在于,還包括保存單元,用于在建立所述頁面網(wǎng)站與所述無效字段的對應(yīng)關(guān)系之后, 對于圖片標(biāo)題中中括號內(nèi)的字段,保存在特定域;移動(dòng)單元,用于對所述圖片所在的頁面網(wǎng)站,根據(jù)頁面網(wǎng)站與所述無效 字段的對應(yīng)關(guān)系,查找所述圖片標(biāo)題中的無效字段,將所述無效字段移動(dòng)到 特定域;處理單元,用于將所述圖片標(biāo)題中剩余的文字作為圖片標(biāo)題。
21、 如權(quán)利要求12所述的裝置,其特征在于,還包括第 一獲取單元,用于去除所述頁面網(wǎng)站中圖片標(biāo)題中所包含的所述無效 字段之后,獲取與查詢詞相關(guān)的圖片標(biāo)題;第一輸出單元,用于輸出所述圖片標(biāo)題對應(yīng)的鏈接。
22、 如權(quán)利要求12所述的裝置,其特征在于,還包括降權(quán)單元,用于將所述圖片標(biāo)題中剩余的文字作為圖片標(biāo)題之后,將無 效字段所在的特定域進(jìn)行降權(quán);第二獲取單元,用于獲取與查詢詞相關(guān)的圖片標(biāo)題; 第二輸出單元,用于輸出所述圖片標(biāo)題對應(yīng)的鏈接。
23、 一種搜索引擎,其特征在于,包括如權(quán)利要求12-22任一項(xiàng)所述的 裝置。
24、 一種搜索圖片的方法,其特征在于,包括 設(shè)置無效字段識別規(guī)則;根據(jù)所述識別規(guī)則,識別頁面網(wǎng)站中圖片標(biāo)題包含的無效字段; 去除所述頁面網(wǎng)站中圖片標(biāo)題中所包含的所述無效字段;獲取與查詢詞相關(guān)的圖片標(biāo)題; 輸出所述圖片標(biāo)題對應(yīng)的鏈接。
25、 如權(quán)利要求24所述的方法,其特征在于,所述設(shè)置無效字段識別規(guī) 則具體為如果所述頁面網(wǎng)站的圖片標(biāo)題中包含的字段符合預(yù)置條件,則將所述字 段設(shè)置為無效字段。
26、 如權(quán)利要求24所述的方法,其特征在于,在所述設(shè)置無效字段識別 規(guī)則之前,還包括將所有圖片的標(biāo)題以頁面所在網(wǎng)站為單位,進(jìn)行劃分。
27、 如權(quán)利要求26所述的方法,其特征在于,在進(jìn)行劃分之后,還包括 對于圖片標(biāo)題中中括號內(nèi)的字段,從圖片標(biāo)題中去除;將所述圖片標(biāo)題依分隔符分割成若干個(gè)字段; 統(tǒng)計(jì)同 一 網(wǎng)站下圖片標(biāo)題中所包含的各個(gè)字段出現(xiàn)的次數(shù); 貝'J根據(jù)所述識別規(guī)則,識別網(wǎng)站中圖片標(biāo)題包含的無效字段具體為 如果所述字段出現(xiàn)的次數(shù)達(dá)到預(yù)置條件,則將所述字段識別為無效字段。
28、 權(quán)利要求24所述的方法,其特征在于,在去除所述網(wǎng)站中圖片標(biāo)題 中所包含的所述無效字段之后,還包括建立所述頁面網(wǎng)站與所述無效字段的對應(yīng)關(guān)系。
29、 權(quán)利要求28所述的方法,其特征在于,在建立所述頁面網(wǎng)站與所述 無效字段的對應(yīng)關(guān)系之后,還包括對于圖片標(biāo)題中中括號內(nèi)的字段,保存在特定域;對所述圖片所在的頁面網(wǎng)站,根據(jù)頁面網(wǎng)站與所述無效字段的對應(yīng)關(guān)系, 查找所述圖片標(biāo)題中的無效字段,將所述無效字段移動(dòng)到特定域; 將所述圖片標(biāo)題中剩余的文字作為圖片標(biāo)題。
30、 如權(quán)利要求24所述的方法,其特征在于,將所述圖片標(biāo)題中剩余的 文字作為圖片標(biāo)題之后,還包括將無效字段所在的特定域進(jìn)行降權(quán)處理; 獲取與查詢詞相關(guān)的圖片標(biāo)題; 輸出所述圖片標(biāo)題對應(yīng)的鏈接。
全文摘要
本發(fā)明公開了一種處理圖片標(biāo)題的方法,包括設(shè)置無效字段識別規(guī)則;根據(jù)所述識別規(guī)則,識別頁面網(wǎng)站中圖片標(biāo)題包含的無效字段;去除所述頁面網(wǎng)站中圖片標(biāo)題中所包含的所述無效字段。還提供了一種處理圖片標(biāo)題的裝置、搜索引擎,還提供了一種搜索圖片的方法,本發(fā)明實(shí)施例具有以下優(yōu)點(diǎn)首先,排序效果明顯改善。其次,由于搜索結(jié)果相關(guān)性好,用戶體驗(yàn)度提高。
文檔編號G06F17/30GK101308508SQ20081011645
公開日2008年11月19日 申請日期2008年7月10日 優(yōu)先權(quán)日2008年7月10日
發(fā)明者闊 張, 賈夢雷 申請人:北京搜狗科技發(fā)展有限公司