亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種搜索方法和系統(tǒng)的制作方法

文檔序號:6363611閱讀:126來源:國知局
專利名稱:一種搜索方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本申請涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域,特別是涉及一種搜索方法和系統(tǒng)。
背景技術(shù)
一種產(chǎn)品或者商品通常都會有一個品牌。比如運動鞋這種商品,有阿迪達(dá)斯品牌的運動鞋,有耐克品牌的運動鞋,有李寧品牌的運動鞋。對于商品的品質(zhì)來說,品牌無疑是最有力的證據(jù),是服務(wù)的保證。隨著網(wǎng)絡(luò)技術(shù)的發(fā)展,越來越多的用戶在網(wǎng)上購買商品,由于缺乏現(xiàn)場體驗的環(huán)節(jié),所以商品的品牌信息對商品的品質(zhì)更是尤為重要,因此在電子商務(wù)中,系統(tǒng)根據(jù)用戶的搜索詞返回準(zhǔn)確的品牌信息顯得尤為重要?,F(xiàn)有技術(shù)中,一種方法是只對商品的標(biāo)題進(jìn)行關(guān)鍵詞匹配,這樣可能產(chǎn)出非用戶期望的品牌商品,如搜索阿迪達(dá)斯,搜索結(jié)果只會給出商品標(biāo)題中含有阿迪達(dá)斯、阿迪、adidas等不同形式關(guān)鍵字的商品,但有可能這個商品的品牌屬性卻不是阿迪達(dá)斯品牌。此夕卜,對于本身是阿迪達(dá)斯品牌的商品,但因標(biāo)題中沒有出現(xiàn)阿迪達(dá)斯相關(guān)的品牌關(guān)鍵詞,而容易在搜索排序時漏掉。另一種方法是建立兩個單獨的引擎,一個是商品的標(biāo)題引擎,一個是品牌信息引擎,在對用戶的搜索詞進(jìn)行分詞后,將分詞后的查詢詞分別在標(biāo)題引擎和品牌信息引擎中進(jìn)行匹配運算,然后再將兩個引擎的計算結(jié)果結(jié)合起來計算整體的相關(guān)度。但假如商品的標(biāo)題和品牌均被重新編輯了,需要同時增量更新2個引擎的索引,即使只修改了標(biāo)題或者品牌信息的一個,也需要同時更新2個引擎,這不但需要增加較多的額外計算成本,并且對于在每個引擎中以無定位方式存儲商品,那么更新引擎索引時計算成本更加龐大,因此,這種方法處理緩慢,維護(hù)成本比較高,硬件成本也比較高,并且不利于快速更新。

發(fā)明內(nèi)容
本申請所要解決的技術(shù)問題是提供一種搜索方法和系統(tǒng),能快速處理返回結(jié)果,方便維護(hù),維護(hù)成本低。為了解決上述問題,本申請公開了一種搜索方法,包括:對于用戶輸入的搜索詞,獲取所述搜索詞對應(yīng)的各查詢詞;針對得到的各查詢詞,在索引中搜索與各查詢詞相應(yīng)的各索引詞,所述索引根據(jù)目標(biāo)對象的字段構(gòu)建,所述目標(biāo)對象的字段包括通過第一分隔符將目標(biāo)對象的標(biāo)題信息字段區(qū)和屬性信息字段區(qū)拼接成的新字段;依據(jù)各索引詞在所屬新字段中的位置和所述新字段中第一分隔符的位置,確認(rèn)索引詞對應(yīng)的查詢詞在所屬新字段中是屬于標(biāo)題信息字段區(qū)還是屬于屬性信息字段區(qū);根據(jù)所述新字段的各查詢詞所在所屬字段區(qū)計算搜索詞與該新字段的總相關(guān)度;所述總相關(guān)度包括依據(jù)所述新字段的各查詢詞所在所屬字段區(qū)的權(quán)重計算的第一相關(guān)度;基于各新字段與搜索詞的總相關(guān)度,返回至少一個新字段對應(yīng)的目標(biāo)對象。
優(yōu)選的,所述通過第一分隔符將目標(biāo)對象的標(biāo)題信息字段區(qū)和屬性信息字段區(qū)拼接成的新字段,包括以下步驟:讀取目標(biāo)對象的標(biāo)題信息字段區(qū)和屬性信息字段區(qū);用空白字符替換所述新字段中與第一分隔符相同的字符;將替換后的標(biāo)題信息字段區(qū)和屬性信息字段區(qū)通過第一分隔符拼接為一個新字段。優(yōu)選的,根據(jù)所述字段中的各分詞構(gòu)建索引通過以下步驟進(jìn)行:將各目標(biāo)對象的標(biāo)識通過第二分隔符與相應(yīng)的新字段進(jìn)行對應(yīng);對各新字段進(jìn)行分詞操作;以分詞操作得到的分詞作為索引詞,將索引詞與相關(guān)各目標(biāo)對象的標(biāo)識和該索引詞在各新字段中位置進(jìn)行對應(yīng)。優(yōu)選的,通過以下步驟確認(rèn)所述查詢詞是屬于標(biāo)題信息字段區(qū)或者是屬于屬性信息字段區(qū):根據(jù)所述索引詞與相關(guān)各目標(biāo)對象的標(biāo)識的對應(yīng)關(guān)系,查詢與標(biāo)識相應(yīng)的新字段;將所述索引詞在所述新字段中的位置與第一分隔符在所述新字段中的位置進(jìn)行比較,確認(rèn)所述索引詞對應(yīng)的查詢詞是屬于標(biāo)題信息字段區(qū)或者是屬于屬性信息字段區(qū)。優(yōu)選的,通過以下步驟獲得所述第一相關(guān)度:將各查詢詞字符串長度除以所在字段區(qū)字符串長度,獲得各查詢詞與所在字段區(qū)的區(qū)間相關(guān)度;將各相關(guān)度乘以所在字段區(qū)的權(quán)重并相加,得到搜索詞與新字段的第一相關(guān)度。優(yōu)選的,所述的搜索詞包括:將用戶的輸入的關(guān)鍵詞作為搜索詞;或者,將用戶選擇的根據(jù)該用戶的輸入詞返回的建議詞中的一個作為搜索詞;其中,所述的建議詞通過預(yù)先統(tǒng)計的用戶輸入的輸入詞與對應(yīng)結(jié)果的點擊關(guān)系提取獲得。優(yōu)選的,對于用戶輸入的搜索詞,獲取所述搜索詞的查詢詞時包括:通過智能糾錯引擎對于用戶錯誤輸入的搜索詞進(jìn)行糾錯。優(yōu)選的,所述的目標(biāo)對象包括商品;所述的屬性信息包括商品的品牌信息。優(yōu)選的,基于各新字段與搜索詞的總相關(guān)度,至少輸出一個新字段至用戶端時:至少輸出一個排序靠前的目標(biāo)對象;所述目標(biāo)對象基于相應(yīng)新字段與搜索詞的總相關(guān)度進(jìn)行排序。相應(yīng)的,本申請公開了一種搜索裝置,包括:查詢詞獲取模塊,對于用戶輸入的搜索詞,獲取所述搜索詞對應(yīng)的各查詢詞;索引詞搜索模塊,用于針對得到的各查詢詞,在索引中搜索與各查詢詞相應(yīng)的各索引詞,所述索引根據(jù)目標(biāo)對象的字段構(gòu)建,所述目標(biāo)對象的字段包括通過第一分隔符將目標(biāo)對象的標(biāo)題信息字段區(qū)和屬性信息字段區(qū)拼接成的新字段;位置確認(rèn)模塊,用于依據(jù)各索引詞在所屬新字段中的位置和所述新字段中第一分隔符的位置,確認(rèn)索引詞對應(yīng)的查詢詞在所屬新字段中是屬于標(biāo)題信息字段區(qū)還是屬于屬性信息字段區(qū);
相關(guān)度計算模塊,用于根據(jù)所述新字段的各查詢詞所在所屬字段區(qū)計算搜索詞與該新字段的總相關(guān)度;所述總相關(guān)度包括依據(jù)所述新字段的各查詢詞所在所屬字段區(qū)的權(quán)重計算的第一相關(guān)度;輸出模塊,用于基于各新字段與搜索詞的總相關(guān)度,返回至少一個新字段對應(yīng)的目標(biāo)對象。與現(xiàn)有技術(shù)相比,本申請包括以下優(yōu)點:本申請將商品的標(biāo)題和商品的品牌信息,利用分隔符拼裝成新字段,然后再對此新字段進(jìn)行搜索引擎索引構(gòu)建,通過本申請可快速返回符合用戶的期望的商品結(jié)果,并且只需要增量更新一遍索引,在計算文本相關(guān)性時,可以一次運算完成,這大大減少計算成本和硬件資源。


圖1是本申請一種搜索方法的流程不意圖;圖2是本申請一種搜索裝置的結(jié)構(gòu)示意圖。
具體實施例方式為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結(jié)合附圖和具體實施方式
對本申請作進(jìn)一步詳細(xì)的說明。參照圖1,其示出了本申請一種搜索方法的流程示意圖,包括:步驟110,對于用戶輸入的搜索詞,獲取所述搜索詞對應(yīng)的各查詢詞。在實際中對于用戶輸入的搜索詞,比如“阿迪達(dá)斯三葉草”,獲取其查詢詞,比如“阿迪達(dá)斯”、“三葉草”。一般可以對用戶輸入的搜索詞進(jìn)行分詞操作,比如用戶輸入的搜索詞為“阿迪達(dá)斯三葉草”,則根據(jù)商品的信息和最長匹配原則,則可將上述搜索詞分為兩個查詢詞“阿迪達(dá)斯”、“三葉草”。在實際中,對于用戶錯誤輸入的搜索詞,可通過智能糾錯引擎進(jìn)行糾錯。比如,用戶輸入“阿迪大四”那么根據(jù)實際的統(tǒng)計分析結(jié)果,“阿迪大四”基本上是為了輸入“阿迪達(dá)斯”,那么智能糾錯引擎可將用戶輸入的“阿迪大四”更正為“阿迪達(dá)斯”在進(jìn)行后續(xù)處理。另外,對于用戶輸入的搜索詞,可將用戶的輸入的關(guān)鍵詞作為搜索詞。用戶直接將自己輸入的關(guān)鍵詞作為搜索詞,比如用戶輸入“阿迪”,那么用戶直接點確認(rèn)搜索,將該關(guān)鍵詞作為輸入到搜索引擎的搜索詞?;蛘?,可將用戶選擇的根據(jù)該用戶的輸入詞返回的建議詞中的一個作為搜索詞;其中,所述的建議詞通過預(yù)先統(tǒng)計的用戶輸入的輸入詞與對應(yīng)結(jié)果的點擊關(guān)系提取獲得。比如,用戶輸入“阿迪”,那么系統(tǒng)可根據(jù)實際的統(tǒng)計分析結(jié)果返回建議詞“阿迪達(dá)斯”、“阿迪王”、“阿迪達(dá)斯三葉草”等,用戶可根據(jù)自己的需求選擇其中一個建議詞做為搜索詞最終輸入到搜索引擎。步驟120,針對得到的各查詢詞,在索引中搜索與各查詢詞相應(yīng)的各索引詞,所述索引根據(jù)目標(biāo)對象的字段構(gòu)建,所述目標(biāo)對象的字段包括通過第一分隔符將目標(biāo)對象的標(biāo)題信息字段區(qū)和屬性信息字段區(qū)拼接成的新字段。在本申請中,優(yōu)選的,所述的目標(biāo)對象包括商品;所述的屬性信息包括商品的品牌信息。在本申請對用戶的輸入的搜索詞進(jìn)行處理之前,還包括構(gòu)建索引,建立搜索引擎的步驟,具體包括:步驟S101,通過第一分隔符將目標(biāo)對象的標(biāo)題信息字段區(qū)和屬性信息字段區(qū)拼接成新字段。優(yōu)選的,通過第一分隔符拼接將目標(biāo)對象的標(biāo)題信息字段區(qū)和屬性信息字段區(qū)成新字段通過以下步驟進(jìn)行:步驟Al,讀取目標(biāo)對象的標(biāo)題信息字段區(qū)和屬性信息字段區(qū)。實際中,在拼接之前,需要讀取數(shù)據(jù)庫中各目標(biāo)對象的標(biāo)題信息和品牌信息,在本申請實施例中,所述的目標(biāo)對象包括商品,所述的屬性信息包括商品的品牌信息。步驟A2,用空白字符替換所述新字段中與第一分隔符相同的字符。先讀取商品的標(biāo)題信息字段區(qū)和品牌信息字段區(qū),并用空白字符串替換掉標(biāo)題信息字段區(qū)和品牌信息字段區(qū)中與第一分隔符相同的字符。第一分隔符為:在文本中隔開品牌信息與標(biāo)題信息的字符,在實際中的取值可采用不經(jīng)常出現(xiàn)在商品標(biāo)題或品牌信息中的符號。比如制表符\t、空格、斜杠、逗號等都比較容易出現(xiàn)在標(biāo)題或品牌信息中的,因此不宜作為分隔符,而如ctrl+A,ascii碼值0x01或&&&之類的,一般不會出現(xiàn)在文本串中,則可將其作為第一分隔符。在實際中,根據(jù)上述原則選取第一分隔符后,在商品的標(biāo)題信息字段區(qū)和品牌信息字段區(qū)中可能還存在與第一分隔符相同的字符,那么需要將在商品的標(biāo)題信息字段區(qū)和品牌信息字段區(qū)中與第一分隔符相同的字符替換掉,以便后續(xù)處理。步驟A3,將替換后的標(biāo)題信息字段區(qū)和屬性信息字段區(qū)通過第一分隔符拼接為一個新字段。假設(shè)某一商品的品牌為“三葉草”,標(biāo)題為“阿迪達(dá)斯運動鞋I折甩賣”,第一分隔符為ctrl+A,最終形成的字符串為:三葉草阿迪達(dá)斯運動鞋3折甩賣,且記錄分隔符的位置為6(位置0-5為三葉草,位置6為分隔符,其余為商品標(biāo)題信息)。步驟S102,針對所述新字段構(gòu)建索引,建立搜索引擎。優(yōu)選的,根據(jù)所述字段中的各分詞構(gòu)建索引通過以下步驟進(jìn)行:步驟BI,將各目標(biāo)對象的標(biāo)識通過第二分隔符與相應(yīng)的新字段進(jìn)行對應(yīng)。商品一般通過其標(biāo)識(一般為數(shù)字id)與該商品的新字段進(jìn)行對應(yīng)。在實際中,商品存儲時的文件格式為商品數(shù)字id和新字符串,即auction_id和brand_title兩個字段:數(shù)字型和字符型。數(shù)字型和字符型這2列之間用另外一個分隔符隔(即第二分隔符)開,并且與步驟A3中的第一分隔符必須不一樣。并且對于商品的標(biāo)題信息字段區(qū)和品牌信息字段區(qū)中與第二分隔符相同的字符替換掉。比如對于前述以ctrl+A為第一分隔符,而第二分隔符采用I I,那么對于下面兩個商品的存儲格式為:“ 12345 | |三葉草 阿迪達(dá)斯運動鞋I折甩賣”“83635789 | |三葉草 2011秋新品板鞋8折包郵”。步驟B2,對各新字段進(jìn)行分詞操作。步驟BI中第二分隔符I I后面的新字段進(jìn)行分詞,分詞結(jié)果依次為:
“三葉草 阿迪達(dá)斯 運動鞋I折甩賣”“三葉草2011秋新品板鞋8折包郵”在實際中,建立索引時對各新字段進(jìn)行處理時,可根據(jù)實際需求分詞,比如,對于“三葉草阿迪達(dá)斯運動鞋I折甩賣”除了上述分詞結(jié)果外,還可分出“三葉”、“阿迪”等詞。步驟B3,以分詞操作得到的分詞作為索引詞,將索引詞與相關(guān)各目標(biāo)對象的標(biāo)識和該索引詞在各新字段中位置進(jìn)行對應(yīng)。比如對于前述分詞結(jié)果建立索引,將商品數(shù)字id(aUction_id)跟在索引詞后,則建立索引的結(jié)果為:三葉草一12345_0,83635789_0阿迪達(dá)斯12345_7運動鞋一12345_15I 折一12345_21甩賣12345_242011 秋一83635789_7新品83635789_13板鞋一83635789_178 折一83635789_21包郵一83535789_24索引前面的為索引詞,后面的為該分詞能夠涉及到的商品id,及其分詞出現(xiàn)的位置,(對于位置的標(biāo)注可以采用”或“:”等等),將索引壓入到內(nèi)存中,保證其高速的查詢效率。其中,中文字符可記為2個字節(jié)。那么,針對上述索引,根據(jù)步驟110得到的查詢詞“阿迪達(dá)斯”和“三葉草”,分別用上述兩個詞查找搜索引擎,結(jié)果為:阿迪達(dá)斯:12345_7 ;三葉草:12345_0和83635789_0。步驟130,依據(jù)各索引詞在所屬新字段中的位置和所述新字段中第一分隔符的位置,確認(rèn)索引詞對應(yīng)的查詢詞在所屬新字段中是屬于標(biāo)題信息字段區(qū)還是屬于屬性信息字段區(qū)。對搜索結(jié)果,計算每個搜索詞在字符串的字串索引位置,并與分隔符的位置進(jìn)行比較,比如前述例子中,品牌信息字段區(qū)在前,標(biāo)題信息字段區(qū)在后,那么若查詢詞對應(yīng)的索引詞在新字段中的位置小于第一分隔符位置,則表明分詞存在于品牌信息字段區(qū)中,若查詢詞對應(yīng)的索引詞在新字段中的位置大于第一分隔符位置,則表明分詞存在于商品標(biāo)題信息字段區(qū)中。比如前述例子中在索引中的搜索結(jié)果為:阿迪達(dá)斯:12345_7 ;三葉草:12345_0和83635789_0,根據(jù)索引的建立結(jié)構(gòu)即可確定匹配到的商品id和第一分隔符在新字段中的位置。那么“阿迪達(dá)斯”在12345對應(yīng)的新字段中的位置為7,比該新字段中第一分隔符的位置6大,那么搜索詞“阿迪達(dá)斯”屬于12345對應(yīng)新字段的標(biāo)題信息字段區(qū);“三葉草”在12345對應(yīng)的新字段中的位置為0,比該新字段中第一分隔符的位置6小,那么搜索詞“三葉草”屬于12345對應(yīng)新字段的品牌信息字段區(qū)。步驟140,根據(jù)所述新字段的各查詢詞所在所屬字段區(qū)計算搜索詞與該新字段的總相關(guān)度;所述總相關(guān)度包括依據(jù)所述新字段的各查詢詞所在所屬字段區(qū)的權(quán)重計算得到的第一相關(guān)度。根據(jù)上述步驟對搜索詞的各分詞的處理結(jié)果,綜合計算用戶輸入搜索詞是否與品牌信息字段區(qū)或標(biāo)題信息字段區(qū)的區(qū)間相關(guān)度,并計算搜索詞與該新字段的總相關(guān)度。在實際中可分為以下4類:a)搜索詞同時匹配品牌和標(biāo)題;b)搜索詞只匹配品牌;c)搜索詞只匹配標(biāo)題;d)搜索詞與品牌和標(biāo)題均不匹配。優(yōu)選的,通過以下步驟獲得所述第一相關(guān)度:步驟Cl,將各查詢詞字符串長度除以所在字段區(qū)字符串長度,獲得各查詢詞與所在字段區(qū)的相關(guān)度。在實際中,通過length(分詞)/length(品牌信息)計算查詢詞與品牌信息字段區(qū)的品牌區(qū)間相關(guān)度;通過length(分詞)/length(標(biāo)題信息)計算查詢詞與標(biāo)題信息字段區(qū)的標(biāo)題區(qū)間相關(guān)度;其中l(wèi)ength(分詞)表示查詢詞的字符串長度,length(品牌信息)表示品牌信息字段區(qū)的字符串長度,length(標(biāo)題信息)表示標(biāo)題信息字段區(qū)的字符串長度。步驟C2,將所述各區(qū)間相關(guān)度乘以所在字段區(qū)的權(quán)重并相加,得到搜索詞與新字段的第一相關(guān)度。在實際中,通過“品牌信息字段區(qū)權(quán)重*length (分詞)/length (品牌信息)+標(biāo)題信息字段區(qū)權(quán)重*length (分詞)/length (標(biāo)題信息)”作為商品的總相關(guān)度。比如品牌信息字段區(qū)權(quán)重與標(biāo)題信息字段區(qū)分別為0.3和0.7,那么公式即為:0.3*length (分詞)/length (品牌信息)+0.7*length (分詞)/length (標(biāo)題信息)。比如對于前述例子:對于12345 來說,即 0.3*6/6+0.7*8/21 = 0.56對于83635789 來說,即 0.3*6/6+0.7*0/21 = 0.3那么對于“阿迪達(dá)斯三葉草”的搜索詞來說,“三葉草阿迪達(dá)斯運動鞋I折甩賣”的總相關(guān)度要高于“三葉草2011秋新品板鞋8折包郵”,也即商品12345的總相關(guān)度要高于商品83635789。還可通過其他方式計算搜索詞與新字段的相關(guān)度,本申請不對其加以限制。其中所述總相關(guān)度中包括了所述第一相關(guān)度,顯然,還可以參考其他內(nèi)容,如銷量、信譽等,最終得到所述總相關(guān)度。步驟150,基于各新字段與搜索詞的總相關(guān)度,至少輸出一個新字段對應(yīng)的目標(biāo)對象至用戶端。在實際中,基于各新字段與搜索詞的總相關(guān)度,至少輸出一個新字段至用戶端時,可以是:至少輸出一個排序靠前的目標(biāo)對象;所述目標(biāo)對象基于相應(yīng)新字段與搜索詞的總相關(guān)度進(jìn)行排序。前述例子中得到各新字段與搜索詞的相關(guān)度,也即得到各新字段對應(yīng)的目標(biāo)對象即商品與搜索詞的相關(guān)度,那么可將返回用戶端的商品及商品信息按照總相關(guān)度排序返回。在實際中,對于同一類中的多個商品,還可結(jié)合商品的銷量,瀏覽,關(guān)注和對應(yīng)賣家等綜合情況進(jìn)行最終排序,然后再返回給用戶端。參照圖2,其示出了本申請的一種搜索裝置的結(jié)構(gòu)示意圖,包括:查詢詞獲取模塊210,對于用戶輸入的搜索詞,獲取所述搜索詞對應(yīng)的各的查詢詞;索引詞搜索模塊220,用于針對得到的各查詢詞,在索引中搜索與各查詢詞相應(yīng)的各索引詞,所述索引根據(jù)目標(biāo)對象的字段構(gòu)建,所述目標(biāo)對象的字段包括通過第一分隔符將目標(biāo)對象的標(biāo)題信息字段區(qū)和屬性信息字段區(qū)拼接成的新字段;位置確認(rèn)模塊230,用于依據(jù)各索引詞在所屬新字段中的位置和所述新字段中第一分隔符的位置,確認(rèn)索引詞對應(yīng)的查詢詞在所屬新字段中是屬于標(biāo)題信息字段區(qū)還是屬于屬性信息字段區(qū);相關(guān)度計算模塊240,用于根據(jù)所述新字段的各查詢詞所在所屬字段區(qū)計算搜索詞與該新字段的總相關(guān)度;所述總相關(guān)度包括依據(jù)所述新字段的各查詢詞所在所屬字段區(qū)的權(quán)重計算得到的第一相關(guān)度;輸出模塊250,用于基于各新字段與搜索詞的總相關(guān)度,返回至少輸出一個新字段對應(yīng)的目標(biāo)對象。其中,在基于各新字段與搜索詞的總相關(guān)度,至少輸出一個新字段至用戶端時:至少輸出一個排序靠前的目標(biāo)對象;所述目標(biāo)對象基于相應(yīng)新字段與搜索詞的總相關(guān)度進(jìn)行排序。優(yōu)選的,將目標(biāo)對象的標(biāo)題信息字段區(qū)和屬性信息字段區(qū)通過第一分隔符拼接為一個新字段通過以下模塊進(jìn)行:信息獲取模塊,用于讀取目標(biāo)對象的標(biāo)題信息字段區(qū)和屬性信息字段區(qū);字符替換模塊,用空白字符替換所述新字段中與第一分隔符相同的字符;拼接模塊,用于通過第一分隔符將替換后的標(biāo)題信息字段區(qū)和屬性信息字段區(qū)拼接成新字段。優(yōu)選的,根據(jù)所述字段中的各分詞構(gòu)建索引通過以下模塊進(jìn)行:目標(biāo)對象對應(yīng)模塊,用于將各目標(biāo)對象的標(biāo)識通過第二分隔符與相應(yīng)的新字段進(jìn)行對應(yīng);新字段查詢詞獲取模塊,對各新字段進(jìn)行分詞操作;索引構(gòu)建模塊,以分詞操作得到的分詞作為索引詞,將索引詞與相關(guān)各目標(biāo)對象的標(biāo)識和該索引詞在各新字段中位置進(jìn)行對應(yīng)。優(yōu)選的,通過以下模塊確認(rèn)所述查詢詞是屬于標(biāo)題信息字段區(qū)或者是屬于屬性信息字段區(qū):新字段查詢模塊,用于根據(jù)所述索引詞與相關(guān)各目標(biāo)對象的標(biāo)識的對應(yīng)關(guān)系,查詢與標(biāo)識相應(yīng)的新字段;查詢詞位置確認(rèn)模塊,用于將所述索引詞在所述新字段中的位置與第一分隔符在所述新字段中的位置進(jìn)行比較,確認(rèn)所述索引詞對應(yīng)的查詢詞是屬于標(biāo)題信息字段區(qū)或者是屬于屬性信息字段區(qū)。優(yōu)選的,通過以下模塊獲得所述總相關(guān)度:
字段區(qū)相關(guān)度計算模塊,用于將各查詢詞字符串長度除以所在字段區(qū)字符串長度,獲得各查詢詞與所在字段區(qū)的相關(guān)度;總相關(guān)度計算模塊,用于將各相關(guān)度乘以所在字段區(qū)的權(quán)重并相加,得到搜索詞與新字段的總相關(guān)度。優(yōu)選的,本申請還包括:智能引擎,用于通過智能糾錯引擎對于用戶錯誤輸入的搜索詞進(jìn)行糾錯。優(yōu)選的,本申請還包括:建議詞引擎,用于根據(jù)該用戶的輸入詞返回建議詞。對于系統(tǒng)實施例而言,由于其與方法實施例基本相似,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。本說明書中的各個實施例均采用遞進(jìn)的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。本申請可以在由計算機執(zhí)行的計算機可執(zhí)行指令的一般上下文中描述,例如程序模塊。一般地,程序模塊包括執(zhí)行特定任務(wù)或?qū)崿F(xiàn)特定抽象數(shù)據(jù)類型的例程、程序、對象、組件、數(shù)據(jù)結(jié)構(gòu)等等。也可以在分布式計算環(huán)境中實踐本申請,在這些分布式計算環(huán)境中,由通過通信網(wǎng)絡(luò)而被連接的遠(yuǎn)程處理設(shè)備來執(zhí)行任務(wù)。在分布式計算環(huán)境中,程序模塊可以位于包括存儲設(shè)備在內(nèi)的本地和遠(yuǎn)程計算機存儲介質(zhì)中。以上對本申請所提供的一種搜索方法和系統(tǒng),進(jìn)行了詳細(xì)介紹,本文中應(yīng)用了具體個例對本申請的原理及實施方式進(jìn)行了闡述,以上實施例的說明只是用于幫助理解本申請的方法及其核心思想;同時,對于本領(lǐng)域的一般技術(shù)人員,依據(jù)本申請的思想,在具體實施方式
及應(yīng)用范圍上均會有改變之處,綜上所述,本說明書內(nèi)容不應(yīng)理解為對本申請的限制。
權(quán)利要求
1.一種搜索方法,其特征在于,包括: 對于用戶輸入的搜索詞,獲取所述搜索詞對應(yīng)的各查詢詞; 針對得到的各查詢詞,在索引中搜索與各查詢詞相應(yīng)的各索引詞,所述索引根據(jù)目標(biāo)對象的字段構(gòu)建,所述目標(biāo)對象的字段包括通過第一分隔符將目標(biāo)對象的標(biāo)題信息字段區(qū)和屬性信息字段區(qū)拼接成的新字段; 依據(jù)各索引詞在所屬新字段中的位置和所述新字段中第一分隔符的位置,確認(rèn)索引詞對應(yīng)的查詢詞在所屬新字段中是屬于標(biāo)題信息字段區(qū)還是屬于屬性信息字段區(qū); 根據(jù)所述新字段的各查詢詞所在所屬字段區(qū)計算搜索詞與該新字段的總相關(guān)度;所述總相關(guān)度包括依據(jù)所述新字段的各查詢詞所在所屬字段區(qū)的權(quán)重計算的第一相關(guān)度;基于各新字段與搜索詞的總相關(guān)度,返回至少一個新字段對應(yīng)的目標(biāo)對象。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述通過第一分隔符將目標(biāo)對象的標(biāo)題信息字段區(qū)和屬性信息字段區(qū)拼接成的新字段,包括以下步驟: 讀取目標(biāo)對象的標(biāo)題信息字段區(qū)和屬性信息字段區(qū); 用空白字符替換所述新字段中與第一分隔符相同的字符; 將替換后的標(biāo)題信息字段區(qū)和屬性信息字段區(qū)通過第一分隔符拼接為一個新字段。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)所述字段中的各分詞構(gòu)建索引通過以下步驟進(jìn)行: 將各目標(biāo)對象的標(biāo)識通過第二分隔符與相應(yīng)的新字段進(jìn)行對應(yīng); 對各新字段進(jìn)行分詞操作; 以分詞操作得到的分詞作為索引詞,將索引詞與相關(guān)各目標(biāo)對象的標(biāo)識和該索引詞在各新字段中位置進(jìn)行對應(yīng)。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,通過以下步驟確認(rèn)所述查詢詞是屬于標(biāo)題信息字段區(qū)或者是屬于屬性信息字段區(qū): 根據(jù)所述索引詞與相關(guān)各目標(biāo)對象的標(biāo)識的對應(yīng)關(guān)系,查詢與標(biāo)識相應(yīng)的新字段; 將所述索引詞在所述新字段中的位置與第一分隔符在所述新字段中的位置進(jìn)行比較,確認(rèn)所述索引詞對應(yīng)的查詢詞是屬于標(biāo)題信息字段區(qū)或者是屬于屬性信息字段區(qū)。
5.根據(jù)權(quán)利要求1其中之一所述的方法,其特征在于,通過以下步驟獲得所述第一相關(guān)度: 將各查詢詞字符串長度除以所在字段區(qū)字符串長度,獲得各查詢詞與所在字段區(qū)的區(qū)間相關(guān)度; 將各相關(guān)度乘以所在字段區(qū)的權(quán)重并相加,得到搜索詞與新字段的第一相關(guān)度。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述的搜索詞包括: 將用戶的輸入的關(guān)鍵詞作為搜索詞; 或者,將用戶選擇的根據(jù)該用戶的輸入詞返回的建議詞中的一個作為搜索詞;其中,所述的建議詞通過預(yù)先統(tǒng)計的用戶輸入的輸入詞與對應(yīng)結(jié)果的點擊關(guān)系提取獲得。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,對于用戶輸入的搜索詞,獲取所述搜索詞的查詢詞時包括: 通過智能糾錯引擎對于用戶錯誤輸入的搜索詞進(jìn)行糾錯。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于:所述的目標(biāo)對象包括商品;所述的屬性信息包括商品的品牌信息。
9.根據(jù)權(quán)利要求1所述的方法,其特征在于,基于各新字段與搜索詞的總相關(guān)度,至少輸出一個新字段至用戶端時: 至少輸出一個排序靠前的目標(biāo)對象;所述目標(biāo)對象基于相應(yīng)新字段與搜索詞的總相關(guān)度進(jìn)行排序。
10.一種搜索裝置,其特征在于,包括: 查詢詞獲取模塊,對于用戶輸入的搜索詞,獲取所述搜索詞對應(yīng)的各查詢詞; 索引詞搜索模塊,用于針對得到的各查詢詞,在索引中搜索與各查詢詞相應(yīng)的各索引詞,所述索引根據(jù)目標(biāo)對象的字段構(gòu)建,所述目標(biāo)對象的字段包括通過第一分隔符將目標(biāo)對象的標(biāo)題信息字段區(qū)和屬性信息字段區(qū)拼接成的新字段; 位置確認(rèn)模塊,用于依據(jù)各索引詞在所屬新字段中的位置和所述新字段中第一分隔符的位置,確認(rèn)索引詞對應(yīng)的查詢詞在所屬新字段中是屬于標(biāo)題信息字段區(qū)還是屬于屬性信息字段區(qū); 相關(guān)度計算模塊,用于根據(jù)所述新字段的各查詢詞所在所屬字段區(qū)計算搜索詞與該新字段的總相關(guān)度;所述總相關(guān)度包括依據(jù)所述新字段的各查詢詞所在所屬字段區(qū)的權(quán)重計算的第一相關(guān)度; 輸出模塊,用于基于各新字段與搜索詞的總相關(guān)度,返回至少一個新字段對應(yīng)的目標(biāo)對象。
全文摘要
本發(fā)明提供了一種搜索方法和系統(tǒng),涉及網(wǎng)絡(luò)技術(shù)領(lǐng)域。本發(fā)明首先利用第一分隔符將目標(biāo)對象的標(biāo)題信息字段區(qū)和屬性信息字段區(qū)拼接成的新字段,然后基于目標(biāo)對象的新字段構(gòu)建索引;在構(gòu)建完成索引后,對于用戶的搜索詞可基于該索引和第一分隔符計算根據(jù)所述新字段的各查詢詞所在所屬字段區(qū)計算搜索詞與該新字段的總相關(guān)度,然后基于各新字段與搜索詞的總相關(guān)度,返回至少一個新字段對應(yīng)的目標(biāo)對象。本發(fā)明將商品的標(biāo)題和品牌信息,利用分隔符拼裝成新字段,然后對此新字段進(jìn)行搜索引擎索引構(gòu)建,通過本發(fā)明可快速返回符合用戶的期望的商品結(jié)果,并且只需要增量更新一遍索引,在計算文本相關(guān)性時,可以一次運算完成,這大大減少計算成本和硬件資源。
文檔編號G06F17/30GK103218364SQ201210018149
公開日2013年7月24日 申請日期2012年1月19日 優(yōu)先權(quán)日2012年1月19日
發(fā)明者李嘉森 申請人:阿里巴巴集團(tuán)控股有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1