專利名稱:一種結(jié)構(gòu)化信息檢索方法和系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本申請涉及服務(wù)器集群的技術(shù)領(lǐng)域,特別是涉及一種結(jié)構(gòu)化信息檢索方法和系統(tǒng),以及,一種建立結(jié)構(gòu)化信息的索引的方法和系統(tǒng)。
背景技術(shù):
電子商務(wù)(Electronic Commerce, EC)是指在全球各地廣泛的商業(yè)貿(mào)易活動(dòng)中,在因特網(wǎng)開放的網(wǎng)絡(luò)環(huán)境下,基于網(wǎng)絡(luò)通訊技術(shù),買賣雙方可不謀面地進(jìn)行各種商貿(mào)活動(dòng),實(shí)現(xiàn)消費(fèi)者的網(wǎng)上購物、商戶之間的網(wǎng)上交易和在線電子支付,以及各種商務(wù)活動(dòng)、交易活動(dòng)、金融活動(dòng)和相關(guān)的綜合服務(wù)活動(dòng)的一種新型的商業(yè)運(yùn)營模式。電子商務(wù)涵蓋的范圍很廣,一般可分為企業(yè)對企業(yè)(Business-to-Business,B2B)、企業(yè)對消費(fèi)者(Business-to-Customer, B2C)或消費(fèi)者對消費(fèi)者(Customer-to-Customer, C2C)等模式。近幾年來,國內(nèi)電子商務(wù)迅速發(fā)展,各種B2B、C2C、B2C模式的電子商務(wù)平臺(tái)(俗稱購物網(wǎng)站),如淘寶網(wǎng)、當(dāng)當(dāng)網(wǎng)、卓越亞馬遜、拍拍網(wǎng)、京東商城等,已被用戶認(rèn)可和接受。賣家在電子商務(wù)平臺(tái)發(fā)布自己的產(chǎn)品,產(chǎn)生產(chǎn)品集合,所述產(chǎn)品具有一定的結(jié)構(gòu)化信息;買家使用自定義的查詢詞在電子商務(wù)平臺(tái)搜索自己關(guān)心或欲購買的產(chǎn)品??梢钥闯?,電子商務(wù)檢索的對象比較特殊,是賣家發(fā)布的產(chǎn)品結(jié)構(gòu)化信息。另外,對于視頻網(wǎng)站或者其他數(shù)據(jù)信息平臺(tái)等,其上的數(shù)信息往往也是結(jié)構(gòu)化的數(shù)據(jù)信息。隨著電子商務(wù)應(yīng)用的國際化趨勢,需要設(shè)計(jì)越來越多的電子商務(wù)檢索框架以適應(yīng)發(fā)展,目前已有許多針對世界第一大語言漢語、第二大語言英語做出的電子商務(wù)檢索框架,然而對于世界第三大語言西班牙語以及世界上的其他語言卻不能直接套用在先的這種檢索框架。主要原因在于西班牙單詞的編碼不像英文字符的編碼,英文字符編碼用一個(gè)UTF-8 (UNICODE的一種變長字符編碼,又稱萬國碼)字符就可以了,而西班牙單詞編碼需要多個(gè)UTF-8字符,并且,西班牙語中包含有詞根和詞干,與英語也完全不同。因此,目前需要本領(lǐng)域技術(shù)人員迫切解決的一個(gè)技術(shù)問題就是:實(shí)現(xiàn)基于西班牙語以及其他語言的結(jié)構(gòu)化信息檢索,并保證檢索效率和系統(tǒng)的穩(wěn)定性。
發(fā)明內(nèi)容
本申請的目的是提供一種結(jié)構(gòu)化信息檢索方法和系統(tǒng),用以實(shí)現(xiàn)基于西班牙語以及其他語言的結(jié)構(gòu)化信息檢索,并保證檢索效率和系統(tǒng)的穩(wěn)定性。本申請還提供了一種建立結(jié)構(gòu)化信息的索引的方法和系統(tǒng),用以保證檢索數(shù)據(jù)源的可靠性和穩(wěn)定性。為了解決上述問題,本申請公開了一種結(jié)構(gòu)化信息檢索方法和系統(tǒng),其中方法包括:預(yù)置結(jié)構(gòu)化信息的索引,所述結(jié)構(gòu)化信息包括多個(gè)域的信息,所述索引包括各個(gè)域的倒排索引,以及,結(jié)構(gòu)化信息的序列化索引;接收用戶提交的結(jié)構(gòu)化信息查詢請求,所述請求中包括查詢關(guān)鍵詞;
對所述查詢關(guān)鍵詞進(jìn)行預(yù)處理;將預(yù)處理后的查詢關(guān)鍵詞在所述各個(gè)域的倒排索引中進(jìn)行匹配,獲得滿足預(yù)設(shè)匹配規(guī)則的候選結(jié)構(gòu)化信息;提取所述候選結(jié)構(gòu)化信息對應(yīng)的結(jié)構(gòu)化信息的序列化索引,并按照預(yù)設(shè)的計(jì)分規(guī)則根據(jù)所述結(jié)構(gòu)化信息的序列化索引計(jì)算所述候選結(jié)構(gòu)化信息的分值;根據(jù)所述候選結(jié)構(gòu)化信息的分值選取作為查詢結(jié)果的目標(biāo)結(jié)構(gòu)化信息。優(yōu)選的是,所述預(yù)置結(jié)構(gòu)化信息的索引的步驟,進(jìn)一步包括:獲取結(jié)構(gòu)化信息,生成結(jié)構(gòu)化信息庫,其中,所述結(jié)構(gòu)化信息包括多個(gè)域的信息;對所述結(jié)構(gòu)化信息庫中結(jié)構(gòu)化信息中各個(gè)域的信息進(jìn)行預(yù)處理;針對經(jīng)預(yù)處理后的各個(gè)域的信息建立各個(gè)域的倒排索引;以及,針對經(jīng)預(yù)處理后各個(gè)域的信息建立結(jié)構(gòu)化信息的序列化索引。優(yōu)選的是,所述結(jié)構(gòu)化信息的序列化索引包括第一結(jié)構(gòu)化信息序列化索引,以及,第二結(jié)構(gòu)化信息序列化索引;所述針對預(yù)處理后各個(gè)域的信息建立結(jié)構(gòu)化信息的序列化索引的子步驟,進(jìn)一步包括:將預(yù)處理后各個(gè)域中的單詞采用哈希函數(shù)轉(zhuǎn)換為單詞ID ;將預(yù)處理后各個(gè)域中的數(shù)字信息,以及,所述單詞ID進(jìn)行序列化,保存為第一結(jié)構(gòu)化信息序列化索引;以及,按照預(yù)置規(guī)則根據(jù)所述預(yù)處理后各個(gè)域的信息,計(jì)算對應(yīng)結(jié)構(gòu)化信息的特征值;將所述特征值保存為第二結(jié)構(gòu)化信息序列化索引。優(yōu)選的是,所述結(jié)構(gòu)化信息為產(chǎn)品信息,所述多個(gè)域的信息包括:產(chǎn)品主題信息、產(chǎn)品關(guān)鍵詞信息、產(chǎn)品屬性信息、產(chǎn)品的概要描述信息和/或產(chǎn)品的詳細(xì)描述信息;所述特征值包括結(jié)構(gòu)化信息質(zhì)量參數(shù);所述按照預(yù)置規(guī)則根據(jù)預(yù)處理后各個(gè)域的信息,計(jì)算對應(yīng)結(jié)構(gòu)化信息的特征值的子步驟,進(jìn)一步包括:采用線性回歸模型,對結(jié)構(gòu)化信息的產(chǎn)品主題信息、產(chǎn)品關(guān)鍵詞信息、產(chǎn)品屬性信息、產(chǎn)品的概要描述信息和產(chǎn)品的詳細(xì)描述信息進(jìn)行擬合,獲得該結(jié)構(gòu)化信息的結(jié)構(gòu)化信息質(zhì)量參數(shù)。優(yōu)選的是,所述預(yù)處理包括:對結(jié)構(gòu)化信息的字符進(jìn)行大小寫轉(zhuǎn)化,和/或,非法字符、不可見字符、特殊字符過濾,和/或重復(fù)字符剔除的操作;和/或,對結(jié)構(gòu)化信息的字符串進(jìn)行分詞,并針對分詞后的字符去除詞根,去除聲調(diào)和/或過濾數(shù)字,獲得單詞的詞干。優(yōu)選的是,所述將預(yù)處理后的查詢關(guān)鍵詞在所述各個(gè)域的倒排索引中進(jìn)行匹配,獲得滿足預(yù)設(shè)匹配規(guī)則的候選結(jié)構(gòu)化信息的步驟,進(jìn)一步包括:通過字符串匹配算法將預(yù)處理后的查詢關(guān)鍵詞在所述各個(gè)域的倒排索引中進(jìn)行匹配,獲得所述預(yù)處理后的查詢關(guān)鍵詞在各個(gè)域的匹配度參數(shù);
累加所述查詢關(guān)鍵詞在結(jié)構(gòu)化信息各個(gè)域的匹配度參數(shù),獲得當(dāng)前查詢關(guān)鍵詞的結(jié)構(gòu)化信息相關(guān)性得分;按照所述相關(guān)性得分從高到低選取預(yù)設(shè)數(shù)量的結(jié)構(gòu)化信息為候選結(jié)構(gòu)化信息。優(yōu)選的是,所述按照預(yù)設(shè)的計(jì)分規(guī)則根據(jù)所述結(jié)構(gòu)化信息的序列化索引計(jì)算所述候選結(jié)構(gòu)化信息的分值的步驟,進(jìn)一步包括:根據(jù)所述第一結(jié)構(gòu)化信息序列化索引計(jì)算所述候選結(jié)構(gòu)化信息的第一評價(jià)參數(shù);根據(jù)所述第二結(jié)構(gòu)化信息序列化索引確定所述候選結(jié)構(gòu)化信息的第二評價(jià)參數(shù);根據(jù)所述第一評價(jià)參數(shù)和第二評價(jià)參數(shù)計(jì)算所述候選結(jié)構(gòu)化信息的分值。優(yōu)選的是,所述第一結(jié)構(gòu)化信息序列化索引包括以下域信息的序列化數(shù)據(jù):產(chǎn)品主題信息的序列化數(shù)據(jù),產(chǎn)品關(guān)鍵詞信息的序列化數(shù)據(jù);所述第一評價(jià)參數(shù)為查詢關(guān)鍵詞與結(jié)構(gòu)化信息的相關(guān)度參數(shù),所述根據(jù)第一結(jié)構(gòu)化信息序列化索引計(jì)算候選結(jié)構(gòu)化信息的第一評價(jià)參數(shù)的子步驟進(jìn)一步包括:通過以下公式計(jì)算第一評價(jià)參數(shù)Score0:Score0 = FO(fI,...,f6),其中,所述fl為查詢關(guān)鍵詞與相應(yīng)產(chǎn)品主題信息中相同單詞與查詢關(guān)鍵詞長度的占比;所述f2為查詢關(guān)鍵詞與相應(yīng)產(chǎn)品主題信息中相同單詞與產(chǎn)品主題信息長度的占比情況;所述f3為查詢關(guān)鍵詞在包含查詢關(guān)鍵詞的產(chǎn)品主題信息中的占比;所述f4為查詢關(guān)鍵詞在包含查詢關(guān)鍵詞的產(chǎn)品關(guān)鍵詞信息中的占比;所述f5為查詢關(guān)鍵詞與相應(yīng)產(chǎn)品主題信息的序列化數(shù)據(jù)的匹配度;所述f6為查詢關(guān)鍵詞與相應(yīng)產(chǎn)品關(guān)鍵詞信息的序列化數(shù)據(jù)的匹配度;以及,所述H)為線性回歸模型訓(xùn)練的模型函數(shù)。優(yōu)選的是,所述根據(jù)第二結(jié)構(gòu)化信息序列化索引確定所述候選結(jié)構(gòu)化信息的第二評價(jià)參數(shù)的子步驟,進(jìn)一步包括:提取所述候選結(jié)構(gòu)化信息對應(yīng)的第二結(jié)構(gòu)化信息序列化索引中的結(jié)構(gòu)化信息質(zhì)量參數(shù),將所述結(jié)構(gòu)化信息質(zhì)量參數(shù)作為對應(yīng)結(jié)構(gòu)化信息的第二評價(jià)參數(shù)。優(yōu)選的是,所述根據(jù)第一評價(jià)參數(shù)和第二評價(jià)參數(shù)計(jì)算所述候選結(jié)構(gòu)化信息的分值的子步驟,進(jìn)一步包括:采用線性回歸模型,對所述第一評價(jià)參數(shù)和第二評價(jià)參數(shù)進(jìn)行擬合,獲得對應(yīng)候選結(jié)構(gòu)化信息的分值。優(yōu)選的是,所述方法,還包括:按照所述候選結(jié)構(gòu)化信息的分值劃分結(jié)構(gòu)化信息區(qū)間,針對每個(gè)結(jié)構(gòu)化信息區(qū)間內(nèi)的屬于同一賣家的結(jié)構(gòu)化信息進(jìn)行去重。優(yōu)選的是,所述方法,還包括:定期針對結(jié)構(gòu)化信息的索引進(jìn)行全量更新;和/ 或,
對新增的結(jié)構(gòu)化信息的索引進(jìn)行增量更新。優(yōu)選的是,所述結(jié)構(gòu)化信息為基于西班牙語的結(jié)構(gòu)化信息。本申請還公開了一種建立結(jié)構(gòu)化信息的索引的方法,包括:獲取用戶發(fā)布的結(jié)構(gòu)化信息,生成結(jié)構(gòu)化信息庫,其中,所述結(jié)構(gòu)化信息包括多個(gè)域的信息;對所述結(jié)構(gòu)化信息庫中結(jié)構(gòu)化信息中各個(gè)域的信息進(jìn)行預(yù)處理;針對經(jīng)預(yù)處理后的各個(gè)域的信息建立各個(gè)域的倒排索引;以及,針對經(jīng)預(yù)處理后各個(gè)域的信息建立結(jié)構(gòu)化信息的序列化索引。優(yōu)選的是,所述結(jié)構(gòu)化信息的序列化索引包括第一結(jié)構(gòu)化信息序列化索引,以及,第二結(jié)構(gòu)化信息序列化索引;所述針對預(yù)處理后各個(gè)域的信息建立結(jié)構(gòu)化信息的序列化索引的子步驟,進(jìn)一步包括:將預(yù)處理后各個(gè)域中的單詞采用哈希函數(shù)轉(zhuǎn)換為單詞ID ;將預(yù)處理后各個(gè)域中的數(shù)字信息,以及,所述單詞ID進(jìn)行序列化,保存為第一結(jié)構(gòu)化信息序列化索引;以及,按照預(yù)置規(guī)則根據(jù)所述預(yù)處理后各個(gè)域的信息,計(jì)算對應(yīng)結(jié)構(gòu)化信息的特征值;將所述特征值保存為第二結(jié)構(gòu)化信息序列化索引。優(yōu)選的是,所述結(jié)構(gòu)化信息為基于西班牙語的結(jié)構(gòu)化信息。本申請同時(shí)公開了一種結(jié)構(gòu)化信息檢索系統(tǒng),其特征在于,包括:線下索引建立模塊,用于預(yù)置結(jié)構(gòu)化信息的索引,所述結(jié)構(gòu)化信息包括多個(gè)域的信息,所述索引包括各個(gè)域的倒排索引,以及,結(jié)構(gòu)化信息的序列化索引;請求接收模塊,用于接收用戶提交的結(jié)構(gòu)化信息查詢請求,所述請求中包括查詢關(guān)鍵詞;線上預(yù)處理模塊,用于對所述查詢關(guān)鍵詞進(jìn)行預(yù)處理;粗排模塊,用于將預(yù)處理后的查詢關(guān)鍵詞在所述各個(gè)域的倒排索引中進(jìn)行匹配,獲得滿足預(yù)設(shè)匹配規(guī)則的候選結(jié)構(gòu)化信息;精排模塊,用于提取所述候選結(jié)構(gòu)化信息對應(yīng)的結(jié)構(gòu)化信息的序列化索引,并按照預(yù)設(shè)的計(jì)分規(guī)則根據(jù)所述結(jié)構(gòu)化信息的序列化索引計(jì)算所述候選結(jié)構(gòu)化信息的分值;檢索結(jié)果生成模塊,用于根據(jù)所述候選結(jié)構(gòu)化信息的分值選取作為查詢結(jié)果的目標(biāo)結(jié)構(gòu)化信息。優(yōu)選的是,所述線下索引建立模塊進(jìn)一步包括:信息庫生成子模塊,用于獲取結(jié)構(gòu)化信息,生成結(jié)構(gòu)化信息庫,其中,所述結(jié)構(gòu)化信息包括多個(gè)域的信息;線下預(yù)處理子模塊,用于對所述結(jié)構(gòu)化信息庫中結(jié)構(gòu)化信息中各個(gè)域的信息進(jìn)行預(yù)處理;倒排索引子模塊,用于針對經(jīng)預(yù)處理后的各個(gè)域的信息建立各個(gè)域的倒排索引;以及,
序列化索引子模塊,用于針對經(jīng)預(yù)處理后各個(gè)域的信息建立結(jié)構(gòu)化信息的序列化索引。優(yōu)選的是,所述結(jié)構(gòu)化信息為基于西班牙語的結(jié)構(gòu)化信息。本申請還公開了一種建立結(jié)構(gòu)化信息的索引的系統(tǒng),包括:信息庫生成模塊,用于獲取結(jié)構(gòu)化信息,生成結(jié)構(gòu)化信息庫,其中,所述結(jié)構(gòu)化信息包括多個(gè)域的信息;線下預(yù)處理模塊,用于對所述結(jié)構(gòu)化信息庫中結(jié)構(gòu)化信息中各個(gè)域的信息進(jìn)行預(yù)處理;倒排索引模塊,用于針對經(jīng)預(yù)處理后的各個(gè)域的信息建立各個(gè)域的倒排索引;以及,序列化索引模塊,用于針對經(jīng)預(yù)處理后各個(gè)域的信息建立結(jié)構(gòu)化信息的序列化索引。優(yōu)選的是,所述結(jié)構(gòu)化信息的序列化索引包括第一結(jié)構(gòu)化信息序列化索引,以及,第二結(jié)構(gòu)化信息序列化索引;所述序列化索引模塊包括:哈希轉(zhuǎn)換子模塊,用于將預(yù)處理后各個(gè)域中的單詞采用哈希函數(shù)轉(zhuǎn)換為單詞ID ;序列化組織子模塊,用于將預(yù)處理后各個(gè)域中的數(shù)字信息,以及,所述單詞ID進(jìn)行序列化,保存為第一結(jié)構(gòu)化信息序列化索引;以及,特征值計(jì)算子模塊,用于按照預(yù)置規(guī)則根據(jù)所述預(yù)處理后各個(gè)域的信息,計(jì)算對應(yīng)結(jié)構(gòu)化信息的特征值;保存子模塊,用于將所述特征值保存為第二結(jié)構(gòu)化信息序列化索引。優(yōu)選的是,所述結(jié)構(gòu)化信息為基于西班牙語的結(jié)構(gòu)化信息。與現(xiàn)有技術(shù)相比,本申請包括以下優(yōu)點(diǎn):提出一種結(jié)構(gòu)化信息檢索機(jī)制,使電子商務(wù)網(wǎng)站中的賣家可以發(fā)布西班牙語及其他語言的產(chǎn)品信息,買家可以通過輸入西班牙語及其他語言的查詢關(guān)鍵詞,獲得西班牙語及其他語言的產(chǎn)品信息檢索結(jié)果。本申請實(shí)施例針對賣家發(fā)布的西班牙語及其他語言的結(jié)構(gòu)化信息,以及,買家輸入的西班牙語及其他語言的查詢關(guān)鍵詞進(jìn)行預(yù)處理,從而有效提高了召回率;并且,對于結(jié)構(gòu)化信息的檢索本申請實(shí)施例采用兩趟排序策略,即基于倒排索引的粗排,以及,基于序列化索引的精排,從而有效保證了檢索效率和系統(tǒng)的穩(wěn)定性,并使用戶獲得準(zhǔn)確、有效的檢索結(jié)果。此外,本申請實(shí)施例所提供的建立結(jié)構(gòu)化信息的索引的機(jī)制,可以充分保證檢索數(shù)據(jù)源的可靠性和穩(wěn)定性。
圖1是本申請一種基于西班牙語的結(jié)構(gòu)化信息檢索方法實(shí)施例的步驟流程圖;圖2是本申請一種基于西班牙語的結(jié)構(gòu)化信息檢索系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖3是本申請的一種基于西班牙語的結(jié)構(gòu)化信息檢索系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖;圖4是本申請的一種建立西班牙語結(jié)構(gòu)化信息的索引的系統(tǒng)實(shí)施例的結(jié)構(gòu)框圖。
具體實(shí)施例方式為使本申請的上述目的、特征和優(yōu)點(diǎn)能夠更加明顯易懂,下面結(jié)合附圖和具體實(shí)施方式
對本申請作進(jìn)一步詳細(xì)的說明。本申請對于使用西班牙語的用戶,賣家發(fā)布西班牙語的產(chǎn)品信息,買家通過輸入西班牙語的查詢關(guān)鍵詞,獲得西班牙語的產(chǎn)品信息搜索結(jié)果。由于西班牙語是世界第三大語言,故提出一種基于西班牙語的結(jié)構(gòu)化信息檢索機(jī)制尤為必要。當(dāng)然,此處的產(chǎn)品信息僅僅是結(jié)構(gòu)化信息的一種示例,對于本領(lǐng)域的技術(shù)人員來說,該等結(jié)構(gòu)化的信息也可以是視頻網(wǎng)站上發(fā)布視頻時(shí)用戶填寫的結(jié)構(gòu)化的描述信息,或任何數(shù)字信息平臺(tái)上的結(jié)構(gòu)化的數(shù)據(jù)信息。而且此處的西班牙語也只是一種舉例說明,本申請實(shí)施例的結(jié)構(gòu)化信息檢索方法及系統(tǒng)也可適用于其他語言的結(jié)構(gòu)化信息檢索。參照圖1,示出了本申請的一種基于西班牙語的結(jié)構(gòu)化信息檢索方法實(shí)施例的步驟流程圖,具體可以包括如下步驟:步驟101、預(yù)置西班牙語結(jié)構(gòu)化信息的索引;其中,所述西班牙語結(jié)構(gòu)化信息包括多個(gè)域的信息,所述索引可以包括各個(gè)域的倒排索引,以及,結(jié)構(gòu)化信息的序列化索引。在本申請的一種優(yōu)選實(shí)施例中,本步驟101具體可以包括如下子步驟:子步驟S11、獲取賣家采用西班牙語發(fā)布的結(jié)構(gòu)化信息,生成結(jié)構(gòu)化信息庫,其中,所述結(jié)構(gòu)化信息包括多個(gè)域的信息;在電子商務(wù)網(wǎng)站中,賣家發(fā)布的產(chǎn)品信息是一種結(jié)構(gòu)化信息,不同于通用檢索的數(shù)據(jù)源(如google、baidU等搜索引擎采用的通用數(shù)據(jù)源)。產(chǎn)品信息是賣家對其要賣的產(chǎn)品的描述,比如文本,圖片等等。通常主要需要用到:產(chǎn)品主題(title)、產(chǎn)品ID、產(chǎn)品關(guān)鍵詞、產(chǎn)品屬性、產(chǎn)品類目、產(chǎn)品的概要描述,產(chǎn)品的詳細(xì)描述等多個(gè)域的信息。也就是說,所述多個(gè)域的信息可以包括:產(chǎn)品主題信息、產(chǎn)品ID信息、產(chǎn)品關(guān)鍵詞信息、產(chǎn)品屬性信息、產(chǎn)品類目信息、產(chǎn)品的概要描述信息和/或產(chǎn)品的詳細(xì)描述信息等。子步驟S12、對所述結(jié)構(gòu)化信息庫中西班牙語結(jié)構(gòu)化信息中各個(gè)域的信息進(jìn)行預(yù)處理;應(yīng)用本實(shí)施例,每個(gè)域的信息會(huì)根據(jù)需要進(jìn)行相應(yīng)的預(yù)處理。在實(shí)際中,針對西班牙語結(jié)構(gòu)化信息的預(yù)處理可以包括如下操作:對西班牙語結(jié)構(gòu)化信息的字符進(jìn)行大小寫轉(zhuǎn)化,和/或,非法字符、不可見字符、特殊字符過濾,和/或重復(fù)字符剔除等操作;例如,產(chǎn)品主題(title)為:title= Tela 54/56 de la ond Γ ulacion del
Llgodon 60s";過濾不可見字符、特殊符號后為:title = tela 54/56 de la ondulaciondel llgodon 60s ;又如,title = Sistema de comunicacion basada en 1s fsatelites satelitesferroviario#中國de China,經(jīng)過重復(fù)特殊字符,大小寫轉(zhuǎn)化后為:title = sistemade comunicacion basada en 1s satelites ferroviario de china。針對西班牙語結(jié)構(gòu)化信息的 預(yù)處理還可以包括如下操作:,對西班牙語結(jié)構(gòu)化信息的字符串進(jìn)行分詞,并針對分詞后的西班牙語字符去除詞根,去除聲調(diào)和/或過濾數(shù)字,獲得西班牙單詞的詞干。對輸入的西班牙字符串進(jìn)行分詞的目的是得到最小的西班牙語語義單元一詞干。在分詞完成之后可以進(jìn)一步執(zhí)行去除詞根,去除聲調(diào)等操作。為建立索引和后續(xù)統(tǒng)計(jì)做好準(zhǔn)備。例如,title= El algodon, hilado del T/C tenio tela del cheque 44/5":經(jīng)過大小寫轉(zhuǎn)化,和/或,非法字符、不可見字符、特殊字符過濾,和/或重復(fù)字符剔除等操作后為:title = el algodon, hilado del t/c tenio tela del cheque 44/5 ;經(jīng)分詞后的結(jié)果為:[el algodon][hilado][del][t/c] [tenio] [tela][del][cheque][/44/5];進(jìn)一步過濾純數(shù)字后的結(jié)果為:[el algodon] [hilado] [del] [t/c] [teflio] [tela][del][cheque];進(jìn)一步去除聲調(diào)后的結(jié)果為:[el algodon][hilado][del][t/c][teio][tela][del][cheque];進(jìn)一步去除詞根后的結(jié)果為:[el algodon][hil][del][t/c][te][tel][del][chequ]。又 如,keywods = Preventation movil de la radiacion, radiacion deltelefono movil, radiacion movil ;經(jīng)過大小寫轉(zhuǎn)化,和/或,非法字符、不可見字符、特殊字符過濾,和/或重復(fù)字符剔除等操作后為:keywods = preventation movil de la radiacion, radiacion del telefonomovil, radiacion movil ;經(jīng)分詞后的結(jié)果為:[preventation][moviI][de][la][radiacion][radiacion][del][telefono][movil][radiacion][movil];進(jìn)一步去除聲調(diào)后的結(jié)果為:[preventation][moviI][de][la][radiacion][radiacion][del][telefono][movil][radiacion][movil];最后去除詞根后的結(jié)果為:[preventation][moviI][de][la][radiacion][radiacion][del][telefon][movil][radiacion][movil]。子步驟S13、針對經(jīng)預(yù)處理后的各個(gè)域的信息建立各個(gè)域的倒排索引;倒排索引源于實(shí)際應(yīng)用中需要根據(jù)屬性的值來查找記錄。這種索引表中的每一項(xiàng)都包括一個(gè)屬性值和具有該屬性值的各記錄的地址。由于不是由記錄來確定屬性值,而是由屬性值來確定記錄的位置,因而稱為倒排索引。以四個(gè)產(chǎn)品的title域?yàn)槔?,假設(shè)產(chǎn)品的title域的信息如下表所示:
權(quán)利要求
1.種結(jié)構(gòu)化信息檢索方法,其特征在于,包括: 預(yù)置結(jié)構(gòu)化信息的索引,所述結(jié)構(gòu)化信息包括多個(gè)域的信息,所述索引包括各個(gè)域的倒排索引,以及,結(jié)構(gòu)化信息的序列化索引; 接收用戶提交的結(jié)構(gòu)化信息查詢請求,所述請求中包括查詢關(guān)鍵詞; 對所述查詢關(guān)鍵詞進(jìn)行預(yù)處理; 將預(yù)處理后的查詢關(guān)鍵詞在所述各個(gè)域的倒排索引中進(jìn)行匹配,獲得滿足預(yù)設(shè)匹配規(guī)則的候選結(jié)構(gòu)化信息; 提取所述候選結(jié)構(gòu)化信息對應(yīng)的結(jié)構(gòu)化信息的序列化索引,并按照預(yù)設(shè)的計(jì)分規(guī)則根據(jù)所述結(jié)構(gòu)化信息的序列化索引計(jì)算所述候選結(jié)構(gòu)化信息的分值; 根據(jù)所述候選結(jié)構(gòu)化信息的分值選取作為查詢結(jié)果的目標(biāo)結(jié)構(gòu)化信息。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述預(yù)置結(jié)構(gòu)化信息的索引的步驟,進(jìn)一步包括: 獲取結(jié)構(gòu)化信息,生成結(jié)構(gòu)化信息庫,其中,所述結(jié)構(gòu)化信息包括多個(gè)域的信息; 對所述結(jié)構(gòu)化信息庫中結(jié)構(gòu)化信息中各個(gè)域的信息進(jìn)行預(yù)處理; 針對經(jīng)預(yù)處理后的各個(gè)域的信息建立各個(gè)域的倒排索引; 以及, 針對經(jīng)預(yù)處理后各個(gè)域的信息建立結(jié)構(gòu)化信息的序列化索引。
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,所述結(jié)構(gòu)化信息的序列化索引包括第一結(jié)構(gòu)化信息序列化索引,以及,第二結(jié)構(gòu)化信息序列化索引; 所述針對預(yù)處理后各個(gè)域的信息建立結(jié)構(gòu)化信息的序列化索引的子步驟,進(jìn)一步包括: 將預(yù)處理后各個(gè)域中的單詞采用哈希函數(shù)轉(zhuǎn)換為單詞ID ; 將預(yù)處理后各個(gè)域中的數(shù)字信息,以及,所述單詞ID進(jìn)行序列化,保存為第一結(jié)構(gòu)化信息序列化索引; 以及, 按照預(yù)置規(guī)則根據(jù)所述預(yù)處理后各個(gè)域的信息,計(jì)算對應(yīng)結(jié)構(gòu)化信息的特征值; 將所述特征值保存為第二結(jié)構(gòu)化信息序列化索引。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述結(jié)構(gòu)化信息為產(chǎn)品信息,所述多個(gè)域的信息包括:產(chǎn)品主題信息、產(chǎn)品關(guān)鍵詞信息、產(chǎn)品屬性信息、產(chǎn)品的概要描述信息和/或產(chǎn)品的詳細(xì)描述信息;所述特征值包括結(jié)構(gòu)化信息質(zhì)量參數(shù); 所述按照預(yù)置規(guī)則根據(jù)預(yù)處理后各個(gè)域的信息,計(jì)算對應(yīng)結(jié)構(gòu)化信息的特征值的子步驟,進(jìn)一步包括: 采用線性回歸模型,對結(jié)構(gòu)化信息的產(chǎn)品主題信息、產(chǎn)品關(guān)鍵詞信息、產(chǎn)品屬性信息、產(chǎn)品的概要描述信息和產(chǎn)品的詳細(xì)描述信息進(jìn)行擬合,獲得該結(jié)構(gòu)化信息的結(jié)構(gòu)化信息質(zhì)量參數(shù)。
5.根據(jù)權(quán)利要求1或2或3或4所述的方法,其特征在于,所述預(yù)處理包括: 對結(jié)構(gòu)化信息的字符進(jìn)行大小寫轉(zhuǎn)化,和/或,非法字符、不可見字符、特殊字符過濾,和/或重復(fù)字符剔除的操作; 和/或,對結(jié)構(gòu)化信息的字符串進(jìn)行分詞,并針對分詞后的字符去除詞根,去除聲調(diào)和/或過濾數(shù)字,獲得單詞的詞干。
6.根據(jù)權(quán)利要求3所述的方法,其特征在于,所述將預(yù)處理后的查詢關(guān)鍵詞在所述各個(gè)域的倒排索引中進(jìn)行匹配,獲得滿足預(yù)設(shè)匹配規(guī)則的候選結(jié)構(gòu)化信息的步驟,進(jìn)一步包括: 通過字符串匹配算法將預(yù)處理后的查詢關(guān)鍵詞在所述各個(gè)域的倒排索引中進(jìn)行匹配,獲得所述預(yù)處理后的查詢關(guān)鍵詞在各個(gè)域的匹配度參數(shù); 累加所述查詢關(guān)鍵詞在結(jié)構(gòu)化信息各個(gè)域的匹配度參數(shù),獲得當(dāng)前查詢關(guān)鍵詞的結(jié)構(gòu)化信息相關(guān)性得分; 按照所述相關(guān)性得分從高到低選取預(yù)設(shè)數(shù)量的結(jié)構(gòu)化信息為候選結(jié)構(gòu)化信息。
7.根據(jù)權(quán)利要求6所述的方法,其特征在于,所述按照預(yù)設(shè)的計(jì)分規(guī)則根據(jù)所述結(jié)構(gòu)化信息的序列化索引計(jì)算所述候選結(jié)構(gòu)化信息的分值的步驟,進(jìn)一步包括: 根據(jù)所述第一結(jié)構(gòu)化信息序列化索引計(jì)算所述候選結(jié)構(gòu)化信息的第一評價(jià)參數(shù); 根據(jù)所述第二結(jié)構(gòu)化信息序列化索引確定所述候選結(jié)構(gòu)化信息的第二評價(jià)參數(shù); 根據(jù)所述第一評價(jià)參數(shù)和第二評價(jià)參數(shù)計(jì)算所述候選結(jié)構(gòu)化信息的分值。
8.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述第一結(jié)構(gòu)化信息序列化索引包括以下域信息的序列化數(shù)據(jù):產(chǎn)品主題信息的序列化數(shù)據(jù),產(chǎn)品關(guān)鍵詞信息的序列化數(shù)據(jù); 所述第一評價(jià)參數(shù)為查詢關(guān)鍵詞與結(jié)構(gòu)化信息的相關(guān)度參數(shù),所述根據(jù)第一結(jié)構(gòu)化信息序列化索引計(jì)算候選結(jié)構(gòu)化信息的第一評價(jià)參數(shù)的子步驟進(jìn)一步包括: 通過以下公式計(jì)算第一評價(jià)參數(shù)Score。:Score0 = FO(fI,...,f6), 其中,所述fl為查詢關(guān)鍵詞與相應(yīng)產(chǎn)品主題信息中相同單詞與查詢關(guān)鍵詞長度的占比; 所述f2為查詢關(guān)鍵詞與相應(yīng)產(chǎn)品主題信息中相同單詞與產(chǎn)品主題信息長度的占比情況; 所述f3為查詢關(guān)鍵詞在包含查詢關(guān)鍵詞的產(chǎn)品主題信息中的占比; 所述f4為查詢關(guān)鍵詞在包含查詢關(guān)鍵詞的產(chǎn)品關(guān)鍵詞信息中的占比; 所述f5為查詢關(guān)鍵詞與相應(yīng)產(chǎn)品主題信息的序列化數(shù)據(jù)的匹配度; 所述f6為查詢關(guān)鍵詞與相應(yīng)產(chǎn)品關(guān)鍵詞信息的序列化數(shù)據(jù)的匹配度; 以及,所述H)為線性回歸模型訓(xùn)練的模型函數(shù)。
9.根據(jù)權(quán)利要求4所述的方法,其特征在于,所述根據(jù)第二結(jié)構(gòu)化信息序列化索引確定所述候選結(jié)構(gòu)化信息的第二評價(jià)參數(shù)的子步驟,進(jìn)一步包括: 提取所述候選結(jié)構(gòu)化信息對應(yīng)的第二結(jié)構(gòu)化信息序列化索引中的結(jié)構(gòu)化信息質(zhì)量參數(shù),將所述結(jié)構(gòu)化信息質(zhì)量參數(shù)作為對應(yīng)結(jié)構(gòu)化信息的第二評價(jià)參數(shù)。
10.根據(jù)權(quán)利要求9所述的方法,其特征在于,所述根據(jù)第一評價(jià)參數(shù)和第二評價(jià)參數(shù)計(jì)算所述候選結(jié)構(gòu)化信息的分值的子步驟,進(jìn)一步包括: 采用線性回歸模型,對所述第一評價(jià)參數(shù)和第二評價(jià)參數(shù)進(jìn)行擬合,獲得對應(yīng)候選結(jié)構(gòu)化信息的分值。
11.根據(jù)權(quán)利要求6或7或8或9或10所述的方法,其特征在于,還包括: 按照所述候選結(jié)構(gòu)化信息的分值劃分結(jié)構(gòu)化信息區(qū)間,針對每個(gè)結(jié)構(gòu)化信息區(qū)間內(nèi)的屬于同一賣家的結(jié)構(gòu)化信息進(jìn)行去重。
12.根據(jù)權(quán)利要求1或2或3或4所述的方法,其特征在于,還包括: 定期針對結(jié)構(gòu)化信息的索引進(jìn)行全量更新; 和/或, 對新增的結(jié)構(gòu)化信息的索引進(jìn)行增量更新。
13.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述結(jié)構(gòu)化信息為基于西班牙語的結(jié)構(gòu)化信息。
14.一種建立結(jié)構(gòu)化信息的索引的方法,其特征在于,包括: 獲取用戶發(fā)布的結(jié)構(gòu)化信息,生成結(jié)構(gòu)化信息庫,其中,所述結(jié)構(gòu)化信息包括多個(gè)域的信息; 對所述結(jié)構(gòu)化信息庫中結(jié)構(gòu)化信息中各個(gè)域的信息進(jìn)行預(yù)處理; 針對經(jīng)預(yù)處理后的各個(gè)域的信息建立各個(gè)域的倒排索引; 以及, 針對經(jīng)預(yù)處理后各個(gè)域的信息建立結(jié)構(gòu)化信息的序列化索引。
15.根據(jù)權(quán)利要求14所述的方法,其特征在于,所述結(jié)構(gòu)化信息的序列化索引包括第一結(jié)構(gòu)化信息序列化索引,以及,第二結(jié)構(gòu)化信息序列化索引; 所述針對預(yù)處理后各個(gè)域的信息建立結(jié)構(gòu)化信息的序列化索引的子步驟,進(jìn)一步包括: 將預(yù)處理后各個(gè)域中的單詞采用哈希函數(shù)轉(zhuǎn)換為單詞ID ; 將預(yù)處理后各個(gè)域中的數(shù)字信息,以及,所述單詞ID進(jìn)行序列化,保存為第一結(jié)構(gòu)化信息序列化索引; 以及, 按照預(yù)置規(guī)則根據(jù)所述預(yù)處理后各個(gè)域的信息,計(jì)算對應(yīng)結(jié)構(gòu)化信息的特征值; 將所述特征值保存為第二結(jié)構(gòu)化信息序列化索引。
16.根據(jù)權(quán)利要求14所述的方法,其特征在于,所述結(jié)構(gòu)化信息為基于西班牙語的結(jié)構(gòu)化信息。
17.一種結(jié)構(gòu)化信息檢索系統(tǒng),其特征在于,包括: 線下索引建立模塊,用于預(yù)置結(jié)構(gòu)化信息的索引,所述結(jié)構(gòu)化信息包括多個(gè)域的信息,所述索引包括各個(gè)域的倒排索引,以及,結(jié)構(gòu)化信息的序列化索引; 請求接收模塊,用于接收用戶提交的結(jié)構(gòu)化信息查詢請求,所述請求中包括查詢關(guān)鍵詞; 線上預(yù)處理模塊,用于對所述查詢關(guān)鍵詞進(jìn)行預(yù)處理; 粗排模塊,用于將預(yù)處理后的查詢關(guān)鍵詞在所述各個(gè)域的倒排索引中進(jìn)行匹配,獲得滿足預(yù)設(shè)匹配規(guī)則的候選結(jié)構(gòu)化信息; 精排模塊,用于提取所述候選結(jié)構(gòu)化信息對應(yīng)的結(jié)構(gòu)化信息的序列化索引,并按照預(yù)設(shè)的計(jì)分規(guī)則根據(jù)所述結(jié)構(gòu)化信息的序列化索引計(jì)算所述候選結(jié)構(gòu)化信息的分值; 檢索結(jié)果生成模塊,用于根據(jù)所述候選結(jié)構(gòu)化信息的分值選取作為查詢結(jié)果的目標(biāo)結(jié)構(gòu)化信息。
18.根據(jù)權(quán)利要求17所述的系統(tǒng),其特征在于,所述線下索引建立模塊進(jìn)一步包括:信息庫生成子模塊,用于獲取結(jié)構(gòu)化信息,生成結(jié)構(gòu)化信息庫,其中,所述結(jié)構(gòu)化信息包括多個(gè)域的信息; 線下預(yù)處理子模塊,用于對所述結(jié)構(gòu)化信息庫中結(jié)構(gòu)化信息中各個(gè)域的信息進(jìn)行預(yù)處理; 倒排索引子模塊,用于針對經(jīng)預(yù)處理后的各個(gè)域的信息建立各個(gè)域的倒排索引; 以及, 序列化索引子模塊,用于針對經(jīng)預(yù)處理后各個(gè)域的信息建立結(jié)構(gòu)化信息的序列化索引。
19.根據(jù)權(quán)利要求17所述的系統(tǒng),其特征在于,所述結(jié)構(gòu)化信息為基于西班牙語的結(jié)構(gòu)化信息。
20.一種建立結(jié)構(gòu)化信息的索引的系統(tǒng),其特征在于,包括: 信息庫生成模塊,用于獲取結(jié)構(gòu)化信息,生成結(jié)構(gòu)化信息庫,其中,所述結(jié)構(gòu)化信息包括多個(gè)域的信息; 線下預(yù)處理模塊,用于對所述結(jié)構(gòu)化信息庫中結(jié)構(gòu)化信息中各個(gè)域的信息進(jìn)行預(yù)處理; 倒排索引模塊,用于針對經(jīng)預(yù)處理后的各個(gè)域的信息建立各個(gè)域的倒排索引; 以及, 序列化索引模塊,用于針對經(jīng)預(yù)處理后各個(gè)域的信息建立結(jié)構(gòu)化信息的序列化索引。
21.根據(jù)權(quán)利要求20所述的系統(tǒng),其特征在于,所述結(jié)構(gòu)化信息的序列化索引包括第一結(jié)構(gòu)化信息序列化索引,以及,第二結(jié)構(gòu)化信息序列化索引; 所述序列化索引模塊包括: 哈希轉(zhuǎn)換子模塊,用于將預(yù)處理后各個(gè)域中的單詞采用哈希函數(shù)轉(zhuǎn)換為單詞ID ; 序列化組織子模塊,用于將預(yù)處理后各個(gè)域中的數(shù)字信息,以及,所述單詞ID進(jìn)行序列化,保存為第一結(jié)構(gòu)化信息序列化索引; 以及, 特征值計(jì)算子模塊,用于按照預(yù)置規(guī)則根據(jù)所述預(yù)處理后各個(gè)域的信息,計(jì)算對應(yīng)結(jié)構(gòu)化信息的特征值; 保存子模塊,用于將所述特征值保存為第二結(jié)構(gòu)化信息序列化索引。
22.根據(jù)權(quán)利要求20所述的系統(tǒng),其特征在于,所述結(jié)構(gòu)化信息為基于西班牙語的結(jié)構(gòu)化信息。
全文摘要
本申請?zhí)峁┝艘环N結(jié)構(gòu)化信息檢索方法和系統(tǒng),以及,一種建立結(jié)構(gòu)化信息的索引的方法和系統(tǒng),其中所述結(jié)構(gòu)化信息檢索方法包括預(yù)置結(jié)構(gòu)化信息的索引;接收用戶提交的結(jié)構(gòu)化信息查詢請求中包括查詢關(guān)鍵詞;對所述查詢關(guān)鍵詞進(jìn)行預(yù)處理;將預(yù)處理后的查詢關(guān)鍵詞在所述各個(gè)域的倒排索引中進(jìn)行匹配,獲得滿足預(yù)設(shè)匹配規(guī)則的候選結(jié)構(gòu)化信息;提取所述候選結(jié)構(gòu)化信息對應(yīng)的結(jié)構(gòu)化信息的序列化索引,并按照預(yù)設(shè)的計(jì)分規(guī)則根據(jù)所述結(jié)構(gòu)化信息的序列化索引計(jì)算所述候選結(jié)構(gòu)化信息的分值;根據(jù)所述候選結(jié)構(gòu)化信息的分值選取作為查詢結(jié)果的目標(biāo)結(jié)構(gòu)化信息。本申請能夠?qū)崿F(xiàn)基于西班牙語以及其他語言的結(jié)構(gòu)化信息檢索,并保證檢索效率和系統(tǒng)的穩(wěn)定性。
文檔編號G06F17/30GK103092894SQ20111035162
公開日2013年5月8日 申請日期2011年11月8日 優(yōu)先權(quán)日2011年11月8日
發(fā)明者鄭偉, 林鋒, 金華興, 孫麗, 劉清富 申請人:阿里巴巴集團(tuán)控股有限公司