亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于用戶評(píng)論的產(chǎn)品檢索方法及產(chǎn)品檢索系統(tǒng)的制作方法

文檔序號(hào):6540040閱讀:179來(lái)源:國(guó)知局
一種基于用戶評(píng)論的產(chǎn)品檢索方法及產(chǎn)品檢索系統(tǒng)的制作方法
【專利摘要】本發(fā)明公布了一種基于用戶評(píng)論的產(chǎn)品檢索方法,該方法根據(jù)用戶提供的信息需求,通過(guò)結(jié)合產(chǎn)品數(shù)據(jù),檢索出最為相關(guān)的產(chǎn)品列表,返回給用戶,包括如下步驟:通過(guò)分析產(chǎn)品數(shù)據(jù)得到索引數(shù)據(jù)庫(kù)、情感特征數(shù)據(jù)庫(kù)和評(píng)論權(quán)重?cái)?shù)據(jù)庫(kù);對(duì)用戶提交查詢串進(jìn)行預(yù)處理和詞項(xiàng)拓展得到查詢?cè)~項(xiàng)集;檢索產(chǎn)品并獲得其最終評(píng)分值;按產(chǎn)品最終評(píng)分值進(jìn)行高低排序后取截?cái)喃@得產(chǎn)品列表。該方法利用用戶的產(chǎn)品評(píng)論信息,可優(yōu)化檢索效果;同時(shí)分析評(píng)論文本中的可借鑒程度,保證引入信息的有效性;此外,還可拓展產(chǎn)品檢索的使用范圍與用戶查詢的類型;適用于電商網(wǎng)站的產(chǎn)品檢索、禮品推薦等應(yīng)用。
【專利說(shuō)明】—種基于用戶評(píng)論的產(chǎn)品檢索方法及產(chǎn)品檢索系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及信息檢索領(lǐng)域,尤其涉及一種基于用戶評(píng)論的產(chǎn)品檢索方法及產(chǎn)品檢索系統(tǒng)。
【背景技術(shù)】
[0002]用戶對(duì)產(chǎn)品進(jìn)行檢索,是根據(jù)用戶提供的信息需求,從產(chǎn)品庫(kù)中檢索出最為相關(guān)的產(chǎn)品列表,返回給用戶?,F(xiàn)有技術(shù)主要采用基于分面的檢索方法和基于關(guān)鍵詞的檢索方法。
[0003]其中,基于分面的檢索方法,將產(chǎn)品的各個(gè)結(jié)構(gòu)化信息作為分面,分為數(shù)個(gè)類別。對(duì)用戶的查詢進(jìn)行分詞,然后判斷查詢對(duì)應(yīng)的產(chǎn)品類別,以過(guò)濾的形式進(jìn)行檢索。比如,對(duì)于查詢“2000左右的黑色手機(jī)”,系統(tǒng)將判別出需求對(duì)象為“手機(jī)”,“價(jià)格”的范圍為[1500, 2500],“顏色”為“黑”,從而從產(chǎn)品庫(kù)中篩選出相應(yīng)的產(chǎn)品。同時(shí),系統(tǒng)可以從符合條件的產(chǎn)品中按分面進(jìn)行進(jìn)一步分類,比如,向用戶展示“品牌”,“尺寸”等更多的選項(xiàng),從而進(jìn)一步過(guò)濾。這種方法并沒(méi)有考慮到其它用戶購(gòu)買(mǎi)產(chǎn)品后的反饋。比如,用戶的查詢?yōu)椤巴庥^漂亮的手機(jī)”,分面檢索的系統(tǒng)將無(wú)法識(shí)別。這是因?yàn)榉置鏅z索的系統(tǒng)依賴于各個(gè)結(jié)構(gòu)化信息的分類,而包括“漂亮”這樣關(guān)鍵詞的產(chǎn)品評(píng)論信息不能被直接分類。因此,這種分面檢索的方法無(wú)法應(yīng)對(duì)更為實(shí)際的用戶查詢。
[0004]基于關(guān)鍵詞的檢索方法將產(chǎn)品的信息按域進(jìn)行分詞索引,再對(duì)各個(gè)域分配不同的權(quán)重。對(duì)于用戶的查詢同樣進(jìn)行分詞,然后利用現(xiàn)有的檢索模型進(jìn)行分域打分。將打分較高的產(chǎn)品作為結(jié)果優(yōu)先返回給用戶。例如,現(xiàn)有方法就針對(duì)不同的信息域構(gòu)造一個(gè)混合的語(yǔ)言模型進(jìn)行打分(Huizhong Duan, ChengXiang Zhai, Jinxing Cheng, AbhishekGattan1.Supporting Keyword Search in Product Database: A ProbabilisticApproach, VLDB2013)。這種方法也有不足,一方面用戶的評(píng)論文本并不適合直接作為關(guān)鍵詞檢索的對(duì)象,因?yàn)樵u(píng)論文本的質(zhì)量與可信度是不同的,需要區(qū)分對(duì)待;另一方面,對(duì)于產(chǎn)品描述的關(guān)鍵詞信息,不一定來(lái)源于某個(gè)產(chǎn)品本身,一些全局的等價(jià)類信息在現(xiàn)有的檢索框架下會(huì)被遺漏。

【發(fā)明內(nèi)容】

[0005]為解決現(xiàn)有技術(shù)中的問(wèn)題,本發(fā)明提供一種基于用戶評(píng)論的產(chǎn)品檢索方法,該方法根據(jù)用戶提供的信息需求,結(jié)合產(chǎn)品的評(píng)論信息,從產(chǎn)品庫(kù)中挖掘出最為相關(guān)的產(chǎn)品列表,返回給用戶,該方法可應(yīng)用于實(shí)際中,適用于電商網(wǎng)站的產(chǎn)品檢索、禮品推薦等應(yīng)用中。
[0006]本發(fā)明的技術(shù)方案是:
[0007]—種基于用戶評(píng)論的產(chǎn)品檢索方法,該方法根據(jù)用戶提供的信息需求,通過(guò)結(jié)合產(chǎn)品數(shù)據(jù),檢索出最為相關(guān)的產(chǎn)品列表,返回給用戶,包括如下步驟:
[0008]第一步:通過(guò)對(duì)產(chǎn)品數(shù)據(jù)進(jìn)行數(shù)據(jù)處理和準(zhǔn)備,具體為:對(duì)產(chǎn)品數(shù)據(jù)進(jìn)行結(jié)構(gòu)化分析、倒排索引創(chuàng)建、情感特征抽取、特征等價(jià)類構(gòu)造和評(píng)論質(zhì)量分析,得到索引數(shù)據(jù)庫(kù)、情感特征數(shù)據(jù)庫(kù)和評(píng)論權(quán)重?cái)?shù)據(jù)庫(kù);
[0009]第二步:用戶提交查詢串,對(duì)查詢串進(jìn)行查詢串預(yù)處理;
[0010]第三步:通過(guò)情感特征數(shù)據(jù)庫(kù)中的等價(jià)類信息,對(duì)上述預(yù)處理后的查詢串進(jìn)行詞項(xiàng)拓展,得到查詢?cè)~項(xiàng)集;
[0011]第四步:通過(guò)對(duì)評(píng)論權(quán)重?cái)?shù)據(jù)庫(kù)中的的評(píng)分進(jìn)行綜合,利用查詢?cè)~項(xiàng)集中的查詢?cè)~項(xiàng)在索引數(shù)據(jù)庫(kù)中進(jìn)行產(chǎn)品檢索,對(duì)檢索到的每一個(gè)產(chǎn)品,通過(guò)分別獲得產(chǎn)品特征數(shù)據(jù)的評(píng)分值和產(chǎn)品評(píng)論數(shù)據(jù)的評(píng)分值,獲得每一個(gè)產(chǎn)品的最終評(píng)分值;
[0012]第五步:將檢索到的所有產(chǎn)品,按照每一個(gè)產(chǎn)品的最終評(píng)分值進(jìn)行高低排序后取截?cái)?,獲得產(chǎn)品列表,返回給用戶。
[0013]上述基于用戶評(píng)論的產(chǎn)品檢索方法中,第一步中,產(chǎn)品數(shù)據(jù)包括產(chǎn)品特征數(shù)據(jù)和產(chǎn)品評(píng)論數(shù)據(jù);結(jié)構(gòu)化分析具體為將電商網(wǎng)站的產(chǎn)品頁(yè)面中的產(chǎn)品特征數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)后,將產(chǎn)品特征以〈屬性名稱,屬性值〉的形式表示;倒排索引創(chuàng)建具體為將所述結(jié)構(gòu)化分析得到的產(chǎn)品數(shù)據(jù)按產(chǎn)品屬性值進(jìn)行劃分,并以倒排索引的形式分域存儲(chǔ)為索引數(shù)據(jù)庫(kù);情感特征抽取具體為通過(guò)從產(chǎn)品評(píng)論數(shù)據(jù)中抽取,得到帶有情感評(píng)價(jià)的情感特征詞組,特征等價(jià)類構(gòu)造具體為通過(guò)所述情感特征詞組來(lái)構(gòu)建特征等價(jià)類,形成情感特征數(shù)據(jù)庫(kù);評(píng)論質(zhì)量分析具體為通過(guò)所述情感特征數(shù)據(jù)庫(kù)與產(chǎn)品評(píng)論數(shù)據(jù)進(jìn)行評(píng)論質(zhì)量的分析,從而構(gòu)造評(píng)論權(quán)重?cái)?shù)據(jù)庫(kù)。
[0014]第二步中的查詢串預(yù)處理包括詞項(xiàng)切分和詞性標(biāo)注操作。
[0015]在第四步中,產(chǎn)品特征數(shù)據(jù)的評(píng)分值是通過(guò)現(xiàn)有的關(guān)鍵詞檢索方法獲得;產(chǎn)品評(píng)論數(shù)據(jù)的評(píng)分值,是首先通過(guò)現(xiàn)有的關(guān)鍵詞檢索方法獲得評(píng)分值,然后將所述評(píng)分值與評(píng)論權(quán)重?cái)?shù)據(jù)庫(kù)中的信息進(jìn)行加權(quán)而獲得;每一個(gè)產(chǎn)品的最終評(píng)分值是通過(guò)將上述各類評(píng)分進(jìn)行加和而獲得。其中,產(chǎn)品評(píng)論數(shù)據(jù)的評(píng)分值的權(quán)重可以通過(guò)電商搜索日志加以訓(xùn)練而獲得。
[0016]為實(shí)際應(yīng)用,本發(fā)明提供一種基于用戶評(píng)論的產(chǎn)品檢索系統(tǒng),該系統(tǒng)以索引數(shù)據(jù)庫(kù)、情感特征數(shù)據(jù)庫(kù)和評(píng)論權(quán)重?cái)?shù)據(jù)庫(kù)為支撐,包括用戶查詢操作模塊、查詢預(yù)處理模塊、檢索模塊和結(jié)果輸出模塊。其中,用戶查詢操作模塊用于用戶輸入查詢串并進(jìn)行提交;所述查詢預(yù)處理模塊用于將用戶提交的查詢串進(jìn)行預(yù)處理;所述檢索模塊用于將查詢串通過(guò)情感特征數(shù)據(jù)庫(kù)中的等價(jià)類信息進(jìn)行詞項(xiàng)拓展獲得查詢?cè)~項(xiàng),查詢?cè)~項(xiàng)再通過(guò)對(duì)評(píng)論權(quán)重?cái)?shù)據(jù)庫(kù)中的的評(píng)分進(jìn)行綜合,在索引數(shù)據(jù)庫(kù)中進(jìn)行產(chǎn)品檢索,對(duì)檢索到的產(chǎn)品通過(guò)計(jì)算其產(chǎn)品特征數(shù)據(jù)的評(píng)分值和產(chǎn)品評(píng)論數(shù)據(jù)的評(píng)分值獲得最終評(píng)分值;所述結(jié)果輸出模塊用于將檢索到的產(chǎn)品按其最終評(píng)分值進(jìn)行高低排序后取截?cái)啵@得產(chǎn)品列表的結(jié)果,返回給用戶。
[0017]本發(fā)明的有益效果:本發(fā)明提供一種基于用戶評(píng)論的產(chǎn)品檢索方法,該方法根據(jù)用戶提供的信息需求,結(jié)合產(chǎn)品的評(píng)論信息,從產(chǎn)品庫(kù)中挖掘出最為相關(guān)的產(chǎn)品列表,返回給用戶。該方法利用用戶的產(chǎn)品評(píng)論信息,可優(yōu)化檢索效果;同時(shí)分析評(píng)論文本中的可借鑒程度,保證引入信息的有效性;此外,還可拓展產(chǎn)品檢索的使用范圍與用戶查詢的類型。為了應(yīng)用于實(shí)際中,本發(fā)明提供一種基于用戶評(píng)論的產(chǎn)品檢索系統(tǒng),適用于電商網(wǎng)站的產(chǎn)品檢索、禮品推薦等應(yīng)用。
【專利附圖】

【附圖說(shuō)明】[0018]圖1為本發(fā)明產(chǎn)品檢索過(guò)程的流程示意圖。
[0019]圖2為本發(fā)明產(chǎn)品檢索系統(tǒng)包括的數(shù)據(jù)庫(kù)、模塊及流程示意圖。
【具體實(shí)施方式】
[0020]下面結(jié)合附圖和具體實(shí)施例,對(duì)本發(fā)明進(jìn)一步詳細(xì)描述,但不以任何方式限制本發(fā)明的范圍。
[0021]本發(fā)明提供的產(chǎn)品檢索方法,是基于電子商務(wù)網(wǎng)站上的產(chǎn)品數(shù)據(jù)而進(jìn)行。產(chǎn)品數(shù)據(jù)包括產(chǎn)品特征數(shù)據(jù)和產(chǎn)品評(píng)論數(shù)據(jù)。產(chǎn)品特征數(shù)據(jù)指的是標(biāo)識(shí)產(chǎn)品型號(hào)、品牌、樣式、參數(shù)等專特征信息的結(jié)構(gòu)化數(shù)據(jù);產(chǎn)品評(píng)論數(shù)據(jù)指針對(duì)特定產(chǎn)品的用戶評(píng)論文本、評(píng)價(jià)星級(jí)等數(shù)據(jù)。本實(shí)施例對(duì)產(chǎn)品數(shù)據(jù)進(jìn)行數(shù)據(jù)處理和準(zhǔn)備,數(shù)據(jù)處理和準(zhǔn)備主要包括對(duì)產(chǎn)品特征數(shù)據(jù)和產(chǎn)品評(píng)論數(shù)據(jù)的結(jié)構(gòu)化分析、倒排索引創(chuàng)建、情感特征抽取、特征等價(jià)類構(gòu)造和評(píng)論質(zhì)量分析,得到索引數(shù)據(jù)庫(kù)、情感特征數(shù)據(jù)庫(kù)和評(píng)論權(quán)重?cái)?shù)據(jù)庫(kù),在此基礎(chǔ)上通過(guò)用戶提交查詢串對(duì)產(chǎn)品進(jìn)行檢索。
[0022]對(duì)用戶進(jìn)行產(chǎn)品檢索產(chǎn)生的用戶查詢?nèi)罩具M(jìn)行分析,可以看出,有一些用戶存在類似于“送給老人的手機(jī)”這樣的查詢需求。利用現(xiàn)有檢索方法,將很難得到滿意的結(jié)果。這是因?yàn)椋a(chǎn)品的適用人群,往往未必在產(chǎn)品的特征數(shù)據(jù)中體現(xiàn)。假如有用戶在評(píng)論中提及:“這款手機(jī)適合老人用”,就可以將該產(chǎn)品與“老人”這個(gè)概念相聯(lián)系。同樣地,由于用戶的評(píng)論用語(yǔ)變化較為多樣,其中的關(guān)鍵詞能夠提供更多信息。比如,關(guān)鍵詞“外觀”、“顏色”、“做工”表達(dá)的是相近的概念,但卻因?yàn)椴皇墙x詞而無(wú)法在檢索過(guò)程中得以聯(lián)系,通過(guò)對(duì)用戶評(píng)論的分析,進(jìn)行話題模型的構(gòu)建,就有可能得到概念的等價(jià)類劃分,從而在應(yīng)對(duì)“買(mǎi)一款外觀好看的手機(jī)”這樣的查詢串時(shí)也能返回出被用戶評(píng)價(jià)為“做工精美”、“顏色不錯(cuò)”的產(chǎn)品O
[0023]如錯(cuò)誤!未找到引用源。,本發(fā)明提供的基于用戶評(píng)論的產(chǎn)品檢索方法包括如下步驟:
[0024]第一步:通過(guò)對(duì)產(chǎn)品數(shù)據(jù)進(jìn)行數(shù)據(jù)處理和準(zhǔn)備,具體為:對(duì)產(chǎn)品數(shù)據(jù)進(jìn)行結(jié)構(gòu)化分析、倒排索引創(chuàng)建、情感特征抽取、特征等價(jià)類構(gòu)造和評(píng)論質(zhì)量分析,得到索引數(shù)據(jù)庫(kù)、情感特征數(shù)據(jù)庫(kù)和評(píng)論權(quán)重?cái)?shù)據(jù)庫(kù);
[0025]第二步:用戶提交查詢串,對(duì)查詢串進(jìn)行包括詞項(xiàng)切分和詞性標(biāo)注操作的查詢串預(yù)處理;
[0026]第三步:通過(guò)情感特征數(shù)據(jù)庫(kù)中的等價(jià)類信息,對(duì)上述預(yù)處理后的查詢串進(jìn)行詞項(xiàng)拓展,得到查詢?cè)~項(xiàng)集;
[0027]第四步:通過(guò)對(duì)評(píng)論權(quán)重?cái)?shù)據(jù)庫(kù)中的的評(píng)分進(jìn)行綜合,利用查詢?cè)~項(xiàng)集中的查詢?cè)~項(xiàng)在索引數(shù)據(jù)庫(kù)中進(jìn)行產(chǎn)品檢索,得到產(chǎn)品集;將上述檢索到的產(chǎn)品集中的每一個(gè)產(chǎn)品,分別獲得產(chǎn)品特征數(shù)據(jù)的評(píng)分值和產(chǎn)品評(píng)論數(shù)據(jù)的評(píng)分值;其中,產(chǎn)品特征數(shù)據(jù)的評(píng)分值,通過(guò)現(xiàn)有的關(guān)鍵詞檢索方法獲得;產(chǎn)品評(píng)論數(shù)據(jù)的評(píng)分值,是首先通過(guò)現(xiàn)有的關(guān)鍵詞檢索方法獲得評(píng)分值,然后將該評(píng)分值與評(píng)論權(quán)重?cái)?shù)據(jù)庫(kù)中的信息進(jìn)行加權(quán);通過(guò)將上述各類評(píng)分進(jìn)行加和,獲得每一個(gè)產(chǎn)品的最終評(píng)分值;上述各類評(píng)分的權(quán)重可以利用電商搜索日志加以訓(xùn)練。
[0028]第五步:將產(chǎn)品集中的所有的產(chǎn)品按照每一個(gè)產(chǎn)品的最終評(píng)分值進(jìn)行高低排序后取截?cái)?,獲得產(chǎn)品列表,返回給用戶。
[0029]例如,用戶提交的的查詢串為“給女朋友買(mǎi)的外形好看的手機(jī)”,對(duì)該查詢串進(jìn)行詞項(xiàng)切分和詞性標(biāo)注操作預(yù)處理,在預(yù)處理后表示為“女朋友”,“外形:好看”,“手機(jī)”}。通過(guò)情感特征數(shù)據(jù)庫(kù)中的等價(jià)類信息,上述查詢串經(jīng)過(guò)等價(jià)類拓展后得到的查詢?cè)~項(xiàng)集的表示為:{“女朋友/女友/媳婦/女生”,“外形:好看/外形:美觀/做工:精致/外觀:漂亮”,“手機(jī)”}。在產(chǎn)品檢索過(guò)程中,利用查詢?cè)~項(xiàng)集中的查詢?cè)~項(xiàng)在索引數(shù)據(jù)庫(kù)中進(jìn)行產(chǎn)品檢索;由于查詢?cè)~項(xiàng)集中的關(guān)鍵詞“手機(jī)”是唯一的類型匹配詞,所有類型為“手機(jī)”的產(chǎn)品在產(chǎn)品特征數(shù)據(jù)評(píng)分均高于非手機(jī)類型產(chǎn)品的評(píng)分;在產(chǎn)品評(píng)論數(shù)據(jù)中,那些提及到“送女友的,很漂亮”、“小巧漂亮美觀,適合女生”的評(píng)論,就會(huì)被賦予更多的評(píng)分。最后的加總評(píng)分也因此會(huì)傾向于對(duì)應(yīng)的手機(jī)產(chǎn)品;由此獲得產(chǎn)品貼近用戶查詢需求的產(chǎn)品檢索列表。
[0030]上述基于用戶評(píng)論的產(chǎn)品檢索方法中,第一步中的數(shù)據(jù)處理和準(zhǔn)備具體為:通過(guò)對(duì)產(chǎn)品數(shù)據(jù)進(jìn)行結(jié)構(gòu)化分析、倒排索引創(chuàng)建、情感特征抽取、特征等價(jià)類構(gòu)造和評(píng)論質(zhì)量分析,得到索引數(shù)據(jù)庫(kù)、情感特征數(shù)據(jù)庫(kù)和評(píng)論權(quán)重?cái)?shù)據(jù)庫(kù),其處理和準(zhǔn)備過(guò)程如圖2所示,具體說(shuō)明如下:
[0031]I)結(jié)構(gòu)化分析
[0032]電商網(wǎng)站的數(shù)據(jù)信息一般有如下事實(shí):一是所有信息以HTML形式展示;二是部分結(jié)構(gòu)化信息會(huì)混合在同一 HTML標(biāo)簽的內(nèi)容中。
[0033]為保證信息的統(tǒng)一,通過(guò)結(jié)構(gòu)化分析,將電商網(wǎng)站的產(chǎn)品頁(yè)面的html數(shù)據(jù)轉(zhuǎn)換成可分析的結(jié)構(gòu)化數(shù)據(jù)。所有的產(chǎn)品屬性都以〈key,value〉對(duì)的形式進(jìn)行表示。比如,典型的產(chǎn)品屬性包括:“商品名稱”、“類型”、“品牌”、“價(jià)格”、“評(píng)論列表”等。所有的文本信息均用分詞工具進(jìn)行切分與`詞性標(biāo)注。一般地,“評(píng)論列表”的典型屬性包括:“評(píng)論者”、“評(píng)論時(shí)間”、“評(píng)論星級(jí)”和“評(píng)論內(nèi)容”。
[0034]2)倒排索引創(chuàng)建
[0035]這一過(guò)程將上述分析后的結(jié)構(gòu)化產(chǎn)品數(shù)據(jù)按產(chǎn)品屬性值進(jìn)行劃分,并以倒排索引的形式分域存儲(chǔ)為索引數(shù)據(jù)庫(kù)。產(chǎn)品的特征數(shù)據(jù)信息視作一篇文檔Pi,其對(duì)應(yīng)的評(píng)論列表視作其子文檔...,ri;k}。構(gòu)建索引時(shí),先將每個(gè)產(chǎn)品的子文檔Ri視作一個(gè)組進(jìn)行索引,再將文檔Pi加入索引中。
[0036]3)情感特征抽取
[0037]這一過(guò)程將從產(chǎn)品評(píng)論數(shù)據(jù)中抽取帶有情感評(píng)價(jià)的詞組,即情感特征。
[0038]將評(píng)論文本中某段長(zhǎng)度為η的詞組設(shè)為P=Iw1, W2, , wn},該詞組中的每個(gè)詞對(duì)應(yīng)的詞性信息設(shè)為Q=It1, t2,...,tj。在本實(shí)例中,為了保證處理的詞組為情感特征詞,限定t1=名詞,tn=形容詞。將評(píng)論文本中的另一段長(zhǎng)度為m的詞組設(shè)為p’ =Iv1, V2,, vj,使得滿足W1=V1和Wn=vm??梢詫?duì)以下幾種信息進(jìn)行統(tǒng)計(jì):
[0039](I)詞組P在所有評(píng)論文本出現(xiàn)的頻數(shù),設(shè)為tfp ;
[0040](2)詞組P對(duì)應(yīng)的P’在所有評(píng)論文本中出現(xiàn)的頻數(shù),設(shè)為tfp’ ;
[0041]則詞組P的特征分?jǐn)?shù)設(shè)為Score(P),通過(guò)以下公式計(jì)算獲得:
【權(quán)利要求】
1.一種基于用戶評(píng)論的產(chǎn)品檢索方法,其特征是,所述方法根據(jù)用戶提供的信息需求,通過(guò)結(jié)合產(chǎn)品數(shù)據(jù),檢索出最為相關(guān)的產(chǎn)品列表,返回給用戶,包括如下步驟: 第一步:通過(guò)對(duì)產(chǎn)品數(shù)據(jù)進(jìn)行數(shù)據(jù)處理和準(zhǔn)備,具體為:對(duì)產(chǎn)品數(shù)據(jù)進(jìn)行結(jié)構(gòu)化分析、倒排索引創(chuàng)建、情感特征抽取、特征等價(jià)類構(gòu)造和評(píng)論質(zhì)量分析,得到索引數(shù)據(jù)庫(kù)、情感特征數(shù)據(jù)庫(kù)和評(píng)論權(quán)重?cái)?shù)據(jù)庫(kù); 第二步:用戶提交查詢串,對(duì)查詢串進(jìn)行查詢串預(yù)處理; 第三步:通過(guò)情感特征數(shù)據(jù)庫(kù)中的等價(jià)類信息,對(duì)上述預(yù)處理后的查詢串進(jìn)行詞項(xiàng)拓展,得到查詢?cè)~項(xiàng)集; 第四步:通過(guò)對(duì)評(píng)論權(quán)重?cái)?shù)據(jù)庫(kù)中的的評(píng)分進(jìn)行綜合,利用查詢?cè)~項(xiàng)集中的查詢?cè)~項(xiàng)在索引數(shù)據(jù)庫(kù)中進(jìn)行產(chǎn)品檢索,對(duì)檢索到的每一個(gè)產(chǎn)品,通過(guò)分別獲得產(chǎn)品特征數(shù)據(jù)的評(píng)分值和產(chǎn)品評(píng)論數(shù)據(jù)的評(píng)分值,獲得每一個(gè)產(chǎn)品的最終評(píng)分值; 第五步:將檢索到的所有產(chǎn)品,按照每一個(gè)產(chǎn)品的最終評(píng)分值進(jìn)行高低排序后取截?cái)?,獲得產(chǎn)品列表,返回給用戶。
2.如權(quán)利要求1所述基于用戶評(píng)論的產(chǎn)品檢索方法,其特征是,第一步所述產(chǎn)品數(shù)據(jù)包括產(chǎn)品特征數(shù)據(jù)和產(chǎn)品評(píng)論數(shù)據(jù);所述結(jié)構(gòu)化分析具體為將電商網(wǎng)站的產(chǎn)品頁(yè)面中的產(chǎn)品特征數(shù)據(jù)轉(zhuǎn)換成結(jié)構(gòu)化數(shù)據(jù)后,將產(chǎn)品特征以〈屬性名稱,屬性值〉的形式表示;所述倒排索引創(chuàng)建具體為將所述結(jié)構(gòu)化分析得到的產(chǎn)品數(shù)據(jù)按產(chǎn)品屬性值進(jìn)行劃分,并以倒排索引的形式分域存儲(chǔ)為索引數(shù)據(jù)庫(kù);所述情感特征抽取具體為通過(guò)從產(chǎn)品評(píng)論數(shù)據(jù)中抽取,得到帶有情感評(píng)價(jià)的情感特征詞組,所述特征等價(jià)類構(gòu)造具體為通過(guò)所述情感特征詞組來(lái)構(gòu)建特征等價(jià)類,形成情感特征數(shù)據(jù)庫(kù);所述評(píng)論質(zhì)量分析具體為通過(guò)所述情感特征數(shù)據(jù)庫(kù)與產(chǎn)品評(píng)論數(shù)據(jù)進(jìn)行評(píng)論質(zhì)量的分析,從而構(gòu)造評(píng)論權(quán)重?cái)?shù)據(jù)庫(kù)。
3.如權(quán)利要求1所述基于用戶評(píng)論的產(chǎn)品檢索方法,其特征是,第二步所述查詢串預(yù)處理包括詞項(xiàng)切分和詞性標(biāo)注操作。
4.如權(quán)利要求1所述基于用戶評(píng)論的產(chǎn)品檢索方法,其特征是,第四步所述產(chǎn)品特征數(shù)據(jù)的評(píng)分值是通過(guò)現(xiàn)有的關(guān)鍵詞檢索方法獲得;所述產(chǎn)品評(píng)論數(shù)據(jù)的評(píng)分值,是首先通過(guò)現(xiàn)有的關(guān)鍵詞檢索方法獲得評(píng)分值,然后將所述評(píng)分值與評(píng)論權(quán)重?cái)?shù)據(jù)庫(kù)中的信息進(jìn)行加權(quán)而獲得;所述每一個(gè)產(chǎn)品的最終評(píng)分值是通過(guò)將上述各類評(píng)分進(jìn)行加和而獲得。
5.如權(quán)利要求4所述基于用戶評(píng)論的產(chǎn)品檢索方法,其特征是,所述產(chǎn)品評(píng)論數(shù)據(jù)的評(píng)分值的權(quán)重通過(guò)電商搜索日志加以訓(xùn)練而獲得。
6.一種基于用戶評(píng)論的產(chǎn)品檢索系統(tǒng),其特征是,所述系統(tǒng)以索引數(shù)據(jù)庫(kù)、情感特征數(shù)據(jù)庫(kù)和評(píng)論權(quán)重?cái)?shù)據(jù)庫(kù)為支撐,包括用戶查詢操作模塊、查詢預(yù)處理模塊、檢索模塊和結(jié)果輸出模塊。
7.如權(quán)利要求6所述基于用戶評(píng)論的產(chǎn)品檢索系統(tǒng),其特征是,所述用戶查詢操作模塊用于用戶輸入查詢串并進(jìn)行提交;所述查詢預(yù)處理模塊用于將用戶提交的查詢串進(jìn)行預(yù)處理;所述檢索模塊用于將查詢串通過(guò)情感特征數(shù)據(jù)庫(kù)中的等價(jià)類信息進(jìn)行詞項(xiàng)拓展獲得查詢?cè)~項(xiàng),查詢?cè)~項(xiàng)再通過(guò)對(duì)評(píng)論權(quán)重?cái)?shù)據(jù)庫(kù)中的的評(píng)分進(jìn)行綜合,在索引數(shù)據(jù)庫(kù)中進(jìn)行產(chǎn)品檢索,對(duì)檢索到的產(chǎn)品通過(guò)計(jì)算其產(chǎn)品特征數(shù)據(jù)的評(píng)分值和產(chǎn)品評(píng)論數(shù)據(jù)的評(píng)分值獲得最終評(píng)分值;所述結(jié)果輸出模塊用于將檢索到的產(chǎn)品按其最終評(píng)分值進(jìn)行高低排序后取截?cái)?,獲得產(chǎn)品列表的結(jié)果,返回給用戶。
【文檔編號(hào)】G06F17/30GK103823893SQ201410086745
【公開(kāi)日】2014年5月28日 申請(qǐng)日期:2014年3月11日 優(yōu)先權(quán)日:2014年3月11日
【發(fā)明者】閆宏飛, 趙鑫, 江翰, 李曉明 申請(qǐng)人:北京大學(xué)
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1