電子商務(wù)搜索引擎同義詞的處理方法
【專利摘要】本發(fā)明提供的技術(shù)方案,所述的電子商務(wù)搜索引擎同義詞的處理方法為:(1)首先對于商品名稱建立同義詞詞表;(2)索引端建立商品名稱的索引,索引的關(guān)鍵字包括商品名稱的同義詞以及單位歸一量化結(jié)果;(3)在查詢端對用戶輸入的查詢詞進(jìn)行字符處理和單位的歸一量化;(4)最后將查詢端處理好的輸入交給索引端進(jìn)行檢索,并且返回結(jié)果。所述同義詞詞表采用單獨文件存儲,在有新的商品添加進(jìn)來的時候,將商品相關(guān)的同義詞同步加入同義詞詞表。本發(fā)明的優(yōu)點是:對電子商務(wù)搜索引擎進(jìn)行優(yōu)化,改善用戶的體驗,提高商品的召回率,提高查詢檢索的準(zhǔn)確性。
【專利說明】電子商務(wù)搜索引擎同義詞的處理方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及電子商務(wù)搜索引擎的優(yōu)化,具體是一種電子商務(wù)搜索引擎同義詞的處
理方法。
【背景技術(shù)】
[0002]隨著互聯(lián)網(wǎng)技術(shù)的發(fā)展,電子商務(wù)已經(jīng)極大的改變了人們的生活習(xí)慣。國內(nèi)知名電子商務(wù)網(wǎng)站的銷售額也呈現(xiàn)快速的增長。所以電子商務(wù)網(wǎng)站相關(guān)的技術(shù)顯得越來越重要。電子商務(wù)的搜索引擎可以幫助用戶快速找到所需要的相關(guān)商品。
[0003]傳統(tǒng)的電子商務(wù)搜索引擎都是采用布爾查詢,其搜索流程都是按預(yù)設(shè)好的算法模型展開。但是在實際使用中,商品名稱存在大量的同義詞,簡單采用布爾查詢并不能處理這些商品名稱同義詞的問題。
[0004]商品名稱中存在數(shù)量單位,比如搜索牛肉七百克,一般僅僅返回的是牛肉相關(guān)的商品,并不處理七百克這個數(shù)量單位,普通的搜索引擎并不能處理這些帶單位的商品。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的是克服商品名稱中的同義問題以及單位量化問題,提供一種快速的解決方案,即一種電子商務(wù)搜索引擎同義詞的處理方法,其使用方便、易于操作、效率高。
[0006]按照本發(fā)明提供的技術(shù)方案,所述的電子商務(wù)搜索引擎同義詞的處理方法為:(I)首先對于商品名稱建立同義詞詞表;(2)索引端建立商品名稱的索引,索引的關(guān)鍵字包括商品名稱的同義詞以及單位歸一量化結(jié)果;(3)在查詢端對用戶輸入的查詢詞進(jìn)行字符處理和單位的歸一量化;(4)最后將查詢端處理好的輸入交給索引端進(jìn)行檢索,并且返回結(jié)果O
[0007]所述同義詞詞表的建立可以通過網(wǎng)絡(luò)抓取商品名稱的相關(guān)搜索加上人工整理。
[0008]所述同義詞詞表采用單獨文件存儲,在有新的商品添加進(jìn)來的時候,將商品相關(guān)的同義詞同步加入同義詞詞表。
[0009]在建立索引的時候,首先對商品名稱進(jìn)行分詞處理,然后查詢同義詞詞表,將查詢到的相關(guān)同義詞添加入商品名稱中,與最初的商品名稱一起建立索引;同時對商品名稱中的單位進(jìn)行歸一量化,對于歸一量化的結(jié)果同時也建立索引。
[0010]本發(fā)明的優(yōu)點是:對電子商務(wù)搜索引擎進(jìn)行優(yōu)化,改善用戶的體驗,提高商品的召回率,提高查詢檢索的準(zhǔn)確性。
【專利附圖】
【附圖說明】
[0011]圖1是本發(fā)明的初始化模塊功能示意圖。
[0012]圖2是本發(fā)明索引模塊功能示意圖。
[0013]圖3是本發(fā)明索引模塊處理流程圖。
[0014]圖4是查詢模塊處理流程圖。【具體實施方式】
[0015]下面結(jié)合附圖和實施例對本發(fā)明作進(jìn)一步說明。
[0016]為了解決現(xiàn)有技術(shù)中搜索引擎返回的搜索結(jié)果不一定符合用戶需要而對所有用戶都造成用戶的使用體驗感差的問題,本發(fā)明提出了一種電子商務(wù)搜索引擎的修正方法。
[0017]1.本發(fā)明首先解決商品名稱的多個稱謂問題:同一個東西往往有多種稱謂,這種指代同一個東西稱謂我們稱之為同義詞。比如,中國人說的“蓋世3”,而老外稱之為“galaxysiii,,或“galaxy s3”,那么我們就認(rèn)為“蓋世 3”、“ galaxy siii”、“ galaxy s3” 互為同義詞。
[0018]假設(shè)某個商品的warename為“三星Galaxy SIII 1939 3G手機”(分詞及詞性標(biāo)注結(jié)果為:三星/NR Galaxy/NN SIII/AD I/VV 939/CD 3G/CD手機/NN),而用戶的搜索詞為“三星蓋世3”(分詞及詞性標(biāo)注結(jié)果為:三星/NR蓋世/VV 3/⑶)。雖然該商品能滿足用戶找“三星蓋世3”手機的需求,但是,該商品的warename壓根就沒有“蓋世”這樣的詞項,所以該商品并不會被召回(檢索到)。如果有同義詞模塊,可以認(rèn)為商品的warename由“三星 Galaxy SIII 1939 3G 手機”變成了 “三星 Galaxy SIII 1939 3G 手機蓋世 3 galaxys3”,在這種情況下,用戶搜索“三星蓋世3”肯定會把該商品召回。
[0019]2.本發(fā)明也解決商品名稱中的單位問題:同樣地,單位也存在同義詞問題,比如,某商品的warename為“健康香臘牛肉500g”,而用戶搜索詞為“牛肉I斤”等等。對于帶單位的搜索詞,可以采取同義詞解決召回問題嗎?答案是否定的,因為每個單位往往有多種換算關(guān)系,比如說,重量單位“千克”可以換算成“克”、“斤”、“公斤”、“錢”、“兩”、“毫克”、“kg”、“mg”等多達(dá)十多種,如果采取構(gòu)建同義詞表的方法,無疑會提高同義詞表的維護(hù)成本,此法行不通。為此,采用單位歸一及量化來解決帶單位的用戶搜索詞的召回問題。
[0020]本發(fā)明的方案是:在索引端,本發(fā)明根據(jù)商品名稱將建立一個龐大的同義詞詞表,同義詞詞表采用相應(yīng)文件格式存儲。在有新的商品添加進(jìn)來的時候,將其相關(guān)的同義詞同步加入同義詞詞表。在建立索引的時候,首先對商品名稱進(jìn)行分詞處理,然后查詢同義詞詞表,將查詢到的相關(guān)同義詞添加入商品名稱中,與最初的商品名稱一起建立索引。同時對商品名稱中的單位進(jìn)行歸一量化。對于歸一量化的結(jié)果同時也建立索引。在查詢端,將對用戶的輸入采取單位的歸一量化策略。對于索引端和查詢端采用單位歸一量化策略,對于帶單位的查詢?nèi)〉昧藰O佳的查詢效果。
[0021]具體方法是:(I)同義詞處理,首先對于商品名稱建立同義詞詞表,同義詞詞表的建立可以通過網(wǎng)絡(luò)抓取商品名稱的相關(guān)搜索加上人工整理;(2)建立商品名稱的索引,索引的關(guān)鍵字包括商品名稱的同義詞以及單位歸一量化結(jié)果;(3)在查詢端對查詢詞進(jìn)行處理,處理包括添加單位的量化;(4)最后將查詢端處理好的輸入交給索引端進(jìn)行檢索,并且返回結(jié)果。
[0022]如圖1所示,實現(xiàn)此系統(tǒng)需要提前準(zhǔn)備好各種詞表文件。這些詞表文件包括同義詞詞表、簡繁體字映射表等。初始化模塊主要做一些初始化的工作,包括加載各種字符映射表,做字符的處理;建立同義詞字典,以便后續(xù)索引和查詢端的使用;構(gòu)建單位的歸一量化的映射,從而能夠處理帶單位的商品名。
[0023]如圖2所示,在建立商品名稱的索引時,首先需要對商品名稱進(jìn)行字符串處理。將商品名稱進(jìn)行切詞,對于已經(jīng)切分好的詞查詢同義詞字典,將查到的同義詞添加到已經(jīng)切好的詞組中,然后一起建立商品的索引。對于商品中包含數(shù)字和單位的商品名稱,同時要處理數(shù)字和單位。做數(shù)組的單位歸一量化。
[0024]如圖3所示,對于每一個需要建立索引的商品,首先對商品名稱進(jìn)行字符處理,然后查找同義詞詞表,如果商品名稱中有單位的,對單位要進(jìn)行歸一量化。查找完同義詞字典之后,把相關(guān)的同義詞以及單位量化結(jié)果組成新的商品名稱建立商品的索引。
[0025]系統(tǒng)實現(xiàn)分為三個部分:第一部分為初始化模塊,如圖1所示,根據(jù)詞表配置文件的內(nèi)容,加載解析所有的詞表文件,包括同義詞詞表文件以及各種字符處理文件,構(gòu)建相關(guān)的數(shù)據(jù)結(jié)構(gòu)和字典;第二部分為索引模塊,如圖2所示,主要是對于一個源字符串中所有可能的詞的同義詞,找到之后添加到目的串中,同時對目的串建立倒排索引,具體處理流程如圖3所示;第三部分為查詢處理模塊,對輸入進(jìn)行處理,包括字符的處理,單位的歸一量化,具體的處理流程如圖4所示。對于查詢端來說,對于每一個輸入查詢,首先需要對查詢輸入進(jìn)行字符的預(yù)處理,這里包括中文數(shù)字轉(zhuǎn)阿拉伯?dāng)?shù)字、去除空格等。對于查詢中有計量單位的需要對輸入進(jìn)行單位的歸一量化之后提交查詢,得到查詢結(jié)果1,對于不做單位歸一量化得到查詢結(jié)果2,最后合并查詢結(jié)果I和2得到最終的查詢。
[0026]假設(shè)商品warename (名稱)為:“象印不銹鋼保溫杯0.36L”,商品id為I。用戶查詢詞為:“保溫杯叁佰八十毫升”。下面描述一下用戶搜“保溫杯叁佰八十毫升”時,是如何召回商品“象印不銹鋼保溫杯0.36L”。
[0027]1、在索引端,以商品的warename作為輸入?yún)?shù)生成相應(yīng)的同義詞串隔熱杯'真空杯 ' 防燙杯 ' 杯子 '零 ' 〇 ' 三六 ' 三十六' 0.36zzlzz' 0.35zzlzz' 0.4zzlzz”,生成過程參照圖3。
[0028]將生成的同義詞串和商品warename連接起來作為新的商品warename,即為“保溫杯叁佰八十毫升' 隔熱杯' 真空杯' 防燙杯' 杯子'零'O'三六' 三十六'0.36zzlzz'0.35zzlzz'0.4zzlzz”,然后對新的 warename 調(diào)用分詞服務(wù)(地址:http://nip.Stanford, edu: 8080/parser/index, jsp)。對各個詞項建立倒排所索引,此處倒排記錄中并為不文檔id,而是商品id。
[0029]2.查詢端,以用戶搜索詞“保溫杯叁佰八十毫升”為輸入?yún)?shù)生成歸一化串“保溫杯0.4zzlzz”,生成過程參照圖4。
[0030]3.最后,以用戶搜索詞“保溫杯叁佰八十毫升”的召回結(jié)果,歸一串“保溫杯
0.4zzlzz”召回結(jié)果的合集作為用戶原始搜索詞的召回結(jié)果。歸一串“保溫杯0.4zzlzz”被分詞為“保溫杯”和“0.4zzlzz”,也就是說,只有商品warename同時包含這兩個詞項的商品才會被召回。商品名“象印不銹鋼保溫杯0.36L”被同義詞模塊處理后已經(jīng)變成“象印不銹鋼保溫杯0.36L'隔熱 杯 ' 真空杯 ' 防燙杯 '杯子 '零'O'三六' 三”,所以此杯子當(dāng)然能夠被檢索到(召回)。
[0031]本發(fā)明的這種同義詞處理的方法,系統(tǒng)的響應(yīng)特別迅速,查詢的速度較快。加上界面人性化的設(shè)計,操作容易易懂,模塊化編程,可擴充性好,以后可以添加進(jìn)一步的功能。
【權(quán)利要求】
1.電子商務(wù)搜索引擎同義詞的處理方法,其特征是: (1)首先對于商品名稱建立同義詞詞表; (2)索引端建立商品名稱的索引,索引的關(guān)鍵字包括商品名稱的同義詞以及單位歸一量化結(jié)果; (3)在查詢端對用戶輸入的查詢詞進(jìn)行字符處理和單位的歸一量化; (4)最后將查詢端處理好的輸入交給索引端進(jìn)行檢索,并且返回結(jié)果。
2.如權(quán)利要求1所述電子商務(wù)搜索引擎同義詞的處理方法,其特征是,所述同義詞詞表的建立通過網(wǎng)絡(luò)抓取商品名稱的相關(guān)搜索加上人工整理。
3.如權(quán)利要求1所述電子商務(wù)搜索引擎同義詞的處理方法,其特征是,所述同義詞詞表采用單獨文件存儲,在有新的商品添加進(jìn)來的時候,將商品相關(guān)的同義詞同步加入同義詞詞表。
4.如權(quán)利要求1所述電子商務(wù)搜索引擎同義詞的處理方法,其特征是,在建立索引的時候,首先對商品名稱進(jìn)行分詞處理,然后查詢同義詞詞表,將查詢到的相關(guān)同義詞添加入商品名稱中,與最初的商品名稱一起建立索引;同時對商品名稱中的單位進(jìn)行歸一量化,對于歸一量化的結(jié)果同時也建立索引。
【文檔編號】G06Q30/00GK103886093SQ201410132973
【公開日】2014年6月25日 申請日期:2014年4月3日 優(yōu)先權(quán)日:2014年4月3日
【發(fā)明者】唐亮 申請人:江蘇物聯(lián)網(wǎng)研究發(fā)展中心