本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,尤其涉及一種信息類目錯(cuò)放識(shí)別方法和裝置。
背景技術(shù):
通常來講,一種信息都有自身對(duì)應(yīng)的類目,以信息是商品為例,每個(gè)商品都有對(duì)應(yīng)的類目,賣家可以將一個(gè)商品發(fā)布到其對(duì)應(yīng)的類目下。當(dāng)一個(gè)信息發(fā)布到不屬于該信息對(duì)應(yīng)的類目下稱為信息類目錯(cuò)放。一個(gè)信息被發(fā)布到其不屬于的類目下,可能是信息發(fā)布者無意,故意或者惡意造成的,為了避免信息發(fā)布者作弊等不規(guī)范行為,需要進(jìn)行信息類目錯(cuò)放識(shí)別。
在信息類目錯(cuò)放識(shí)別時(shí),可以采用預(yù)先構(gòu)建的訓(xùn)練模型進(jìn)行識(shí)別?,F(xiàn)有技術(shù)中,以信息是商品為例,構(gòu)建訓(xùn)練模型采用的訓(xùn)練樣本集是當(dāng)前已有的全網(wǎng)商品,但是,這些商品本身就存在一部分類目錯(cuò)放的商品,尤其是一些錯(cuò)放比較嚴(yán)重的類目,采用這些訓(xùn)練樣本集訓(xùn)練得到的訓(xùn)練模型會(huì)存在一定誤差,致使后續(xù)的類目識(shí)別也是不準(zhǔn)確的。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本發(fā)明的一個(gè)目的在于提出一種信息類目錯(cuò)放識(shí)別方法,該方法可以提高識(shí)別準(zhǔn)確度。
本發(fā)明的另一個(gè)目的在于提出一種信息類目錯(cuò)放識(shí)別裝置。
為達(dá)到上述目的,本發(fā)明第一方面實(shí)施例提出的信息類目錯(cuò)放識(shí)別方法,包括:獲取訓(xùn)練模型,所述訓(xùn)練模型是預(yù)先根據(jù)訓(xùn)練樣本集得到的,所述訓(xùn)練樣本集是根據(jù)用戶的搜索日志和點(diǎn)擊日志篩選得到的;獲取待識(shí)別的信息;根據(jù)所述訓(xùn)練模型,確定所述信息是否發(fā)生信息類目錯(cuò)放。
本發(fā)明第一方面實(shí)施例提出的信息類目錯(cuò)放識(shí)別方法,通過根據(jù)搜索日志和點(diǎn)擊日志篩選訓(xùn)練樣本集,可以提高訓(xùn)練樣本集的純凈度,避免選擇存在誤差的訓(xùn)練樣本集,可以提高訓(xùn)練模型的準(zhǔn)確度,從而提高類目識(shí)別的準(zhǔn)確度。
為達(dá)到上述目的,本發(fā)明第二方面實(shí)施例提出的信息類目錯(cuò)放識(shí)別裝置,包括:第一 獲取模塊,用于獲取訓(xùn)練模型,所述訓(xùn)練模型是預(yù)先根據(jù)訓(xùn)練樣本集得到的,所述訓(xùn)練樣本集是根據(jù)用戶的搜索日志和點(diǎn)擊日志篩選得到的;第二獲取模塊,用于獲取待識(shí)別的信息;識(shí)別模塊,用于根據(jù)所述訓(xùn)練模型,確定所述信息是否發(fā)生信息類目錯(cuò)放。
本發(fā)明第二方面實(shí)施例提出的信息類目錯(cuò)放識(shí)別裝置,通過根據(jù)搜索日志和點(diǎn)擊日志篩選訓(xùn)練樣本集,可以提高訓(xùn)練樣本集的純凈度,避免選擇存在誤差的訓(xùn)練樣本集,可以提高訓(xùn)練模型的準(zhǔn)確度,從而提高類目識(shí)別的準(zhǔn)確度。
本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
附圖說明
本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
圖1是本發(fā)明一實(shí)施例提出的信息類目錯(cuò)放識(shí)別方法的流程示意圖;
圖2是本發(fā)明實(shí)施例中獲取訓(xùn)練樣本集的流程示意圖;
圖3是本發(fā)明實(shí)施例中獲取的訓(xùn)練樣本集與現(xiàn)有技術(shù)中獲取的訓(xùn)練樣本集的比較示意圖;
圖4是本發(fā)明另一實(shí)施例提出的信息類目錯(cuò)放識(shí)別方法的流程示意圖;
圖5是本發(fā)明實(shí)施例中不同葉子類目下每個(gè)詞的出現(xiàn)概率的示意圖;
圖6是本發(fā)明實(shí)施例中從商品詳情頁中提取關(guān)鍵詞的流程示意圖;
圖7是本發(fā)明實(shí)施例中基于訓(xùn)練模型以及商品詳情頁和商品標(biāo)題進(jìn)行類目錯(cuò)放識(shí)別的流程示意圖;
圖8是本發(fā)明另一實(shí)施例提出的信息類目識(shí)別裝置的結(jié)構(gòu)示意圖;
圖9是本發(fā)明另一實(shí)施例提出的信息類目識(shí)別裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的模塊或具有相同或類似功能的模塊。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對(duì)本發(fā)明的限制。相反,本發(fā)明的實(shí)施例包括落入所附加權(quán)利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
圖1是本發(fā)明一實(shí)施例提出的信息類目錯(cuò)放識(shí)別方法的流程示意圖,該方法包括:
S11:獲取訓(xùn)練模型,所述訓(xùn)練模型是預(yù)先根據(jù)訓(xùn)練樣本集得到的,所述訓(xùn)練樣本集是根據(jù)用戶的搜索日志和點(diǎn)擊日志篩選得到的。
與現(xiàn)有技術(shù)采用全網(wǎng)樣本不同,本實(shí)施例中,采用的訓(xùn)練樣本集是根據(jù)用戶的搜索日志和點(diǎn)擊日志,對(duì)全網(wǎng)樣本進(jìn)行篩選后得到的。
具體的,參見圖2,本實(shí)施例的方法還可以包括獲取訓(xùn)練樣本集,所述獲取訓(xùn)練樣本集,可以包括:
S21:獲取預(yù)設(shè)時(shí)間內(nèi)用戶的搜索日志和點(diǎn)擊日志。
假設(shè)預(yù)設(shè)時(shí)間是30天,則可以收集30天內(nèi)每個(gè)用戶的搜索日志,以及對(duì)應(yīng)的點(diǎn)擊日志。
S22:根據(jù)所述搜索日志獲取搜索詞,以及根據(jù)所述點(diǎn)擊日志確定被用戶點(diǎn)擊過的信息,將每個(gè)搜索詞和對(duì)應(yīng)的一個(gè)被點(diǎn)擊過的信息作為一個(gè)訓(xùn)練樣本,并由訓(xùn)練樣本組成訓(xùn)練樣本集。
例如,參見圖3,以信息是商品為例,圖3的左側(cè)示出了現(xiàn)有技術(shù)采用的訓(xùn)練樣本集,從圖3的左側(cè)可以看出現(xiàn)有技術(shù)中采用的訓(xùn)練樣本集是全網(wǎng)商品,但是,全網(wǎng)商品中會(huì)存在已經(jīng)類目錯(cuò)放的商品。
而本實(shí)施例中,參見圖3的右側(cè),用戶可以在搜索框中輸入搜索詞(Query),搜索引擎根據(jù)搜索詞可以返回商品列表,例如返回的商品列表包括商品1,商品2,…商品N。在返回的商品列表中,用戶可以點(diǎn)擊部分商品,例如,用戶點(diǎn)擊了商品2,商品6和商品7,則可以根據(jù)這些被點(diǎn)擊的商品獲取訓(xùn)練樣本集。具體的,可以是每個(gè)被點(diǎn)擊的商品和此時(shí)的搜索詞組成一個(gè)訓(xùn)練樣本,通過該方式收集到的所有訓(xùn)練樣本形成本實(shí)施例中采用的訓(xùn)練樣本集。另外,該被點(diǎn)擊的商品的葉子類目可以作為該訓(xùn)練樣本的類目,每個(gè)被點(diǎn)擊的商品的葉子類目可以預(yù)先記錄在商品屬性信息中,例如,葉子類目是上衣,或者,數(shù)碼產(chǎn)品等。
當(dāng)用戶搜索商品時(shí),系統(tǒng)會(huì)記錄下大量的點(diǎn)擊日志,即用戶在某Query下點(diǎn)擊了某個(gè)類目下的商品,使用用戶點(diǎn)擊日志作為獲取訓(xùn)練樣本的依據(jù)的一個(gè)優(yōu)點(diǎn)是能夠更好的保證訓(xùn)練樣本的純凈度。因?yàn)樵诋?dāng)前的系統(tǒng)中已經(jīng)存在一些類目錯(cuò)放的商品,有的類目下還比較嚴(yán)重,直接使用這些商品進(jìn)行訓(xùn)練會(huì)帶來一定的誤差。而根據(jù)用戶的搜索行為和點(diǎn)擊行為,一是能夠選擇出質(zhì)量較好(也就是類目未錯(cuò)放)的商品,二是Query本身對(duì)于類目也是一種較好的解釋,例如,在搜索詞中可能包含上衣這種類目相關(guān)的信息。
在篩選得到訓(xùn)練樣本集后,可以對(duì)訓(xùn)練樣本集進(jìn)行訓(xùn)練,得到訓(xùn)練模型。
參見圖4,可以在模型訓(xùn)練階段根據(jù)訓(xùn)練樣本集得到訓(xùn)練模型,模型訓(xùn)練階段可以具體是在離線完成的。圖4以信息是商品為例。如圖4所示,假設(shè)訓(xùn)練模型稱為先驗(yàn)?zāi)P?,則模型訓(xùn)練階段得到訓(xùn)練模型的流程可以包括:
S41:訓(xùn)練樣本集篩選。
其中,訓(xùn)練樣本集可以根據(jù)用戶的搜索日志和點(diǎn)擊日志篩選,具體的篩選流程可以參見上述相關(guān)描述,在此不再贅述。
S42:計(jì)算每個(gè)葉子類目下商品個(gè)數(shù)。
如上描述的,在獲取訓(xùn)練樣本時(shí),可以將一個(gè)被點(diǎn)擊的商品及對(duì)應(yīng)的搜索詞作為一個(gè)訓(xùn)練樣本,該訓(xùn)練樣本的葉子類目就是被點(diǎn)擊的商品的類目。因此,可以獲取每個(gè)訓(xùn)練樣本屬于的葉子類目,通過統(tǒng)計(jì)后就可以獲取每個(gè)葉子類目下的商品個(gè)數(shù)。
假設(shè)一個(gè)葉子類目下的商品個(gè)數(shù)用Nc表示。
S43:計(jì)算每個(gè)葉子類目下每個(gè)詞的出現(xiàn)概率。
其中,每個(gè)詞可以是對(duì)要處理的內(nèi)容采用分詞技術(shù)進(jìn)行分詞后得到的,要處理的內(nèi)容由商品標(biāo)題與對(duì)應(yīng)的搜索詞組成。由于分詞技術(shù)是很常用的技術(shù),因此具體的分詞技術(shù)在此不再贅述,本實(shí)施例對(duì)具體的分詞技術(shù)也不進(jìn)行限定。
該步驟的實(shí)現(xiàn)方法如下:
輸入:S41篩選得到的訓(xùn)練樣本集;
輸出:各葉子類目下每個(gè)詞的出現(xiàn)概率;
實(shí)現(xiàn)算法:
將商品標(biāo)題與點(diǎn)擊時(shí)的搜索詞進(jìn)行合并,并對(duì)其進(jìn)行分詞,得到每個(gè)詞;
統(tǒng)計(jì)每個(gè)詞在該葉子類目下的出現(xiàn)次數(shù)Tw;
采用如下公式計(jì)算出現(xiàn)概率tfw:
tfw=Tw/Nc,其中,Nc是該葉子類目下商品個(gè)數(shù)。
另外,還可以計(jì)算tfmin=1/Nc,為該葉子類目下單個(gè)詞最小概率的基準(zhǔn)值。
參見圖5,分別示出了上衣葉子類目下不同詞的出現(xiàn)概率51,以及數(shù)碼相機(jī)葉子類目下不同詞的出現(xiàn)概率52。
在得到各葉子類目下商品個(gè)數(shù)以及各葉子類目下每個(gè)詞出現(xiàn)概率后,可以在先驗(yàn)?zāi)P椭邪ㄟ@兩個(gè)參數(shù),以用于后續(xù)的商品類目錯(cuò)放識(shí)別。
另外,參見圖4,在模型訓(xùn)練階段還可以包括:
S44:計(jì)算各葉子類目的逆文本頻率(Inverse Document Frequency,IDF)值。IDF值可以用于描述一個(gè)詞的重要程度。
該步驟的實(shí)現(xiàn)方法如下:
輸入:S41篩選得到的訓(xùn)練樣本集;
輸出:各葉子類目下每個(gè)詞的IDF值;
實(shí)現(xiàn)算法:
獲取訓(xùn)練樣本中的商品標(biāo)題,并對(duì)其進(jìn)行分詞,得到每個(gè)詞;
統(tǒng)計(jì)每個(gè)詞在該葉子類目下的出現(xiàn)次數(shù)Tw;
采用如下公式,計(jì)算每個(gè)葉子類目下的每個(gè)詞的IDF值:
IDF=log(Nc/Tw),其中,Nc是該葉子類目下商品個(gè)數(shù)。
上述的流程可以實(shí)現(xiàn)模型訓(xùn)練,在模型訓(xùn)練后得到的結(jié)果可以用于后續(xù)的信息類目錯(cuò)放識(shí)別。
S12:獲取待識(shí)別的信息。
以信息是商品為例,則如圖4所示可以獲取商品表,商品表中包括一個(gè)或多個(gè)商品,可以依次對(duì)每個(gè)商品進(jìn)行識(shí)別。
S13:根據(jù)所述訓(xùn)練模型,確定所述信息是否發(fā)生信息類目錯(cuò)放。
以信息是商品為例,在識(shí)別一個(gè)商品是否被錯(cuò)放時(shí),現(xiàn)有技術(shù)中只根據(jù)該商品的商品標(biāo)題與訓(xùn)練模型進(jìn)行比對(duì),由于商品標(biāo)題會(huì)出現(xiàn)不規(guī)范等問題,僅根據(jù)商品標(biāo)題識(shí)別會(huì)產(chǎn)生誤差。
而本實(shí)施例中,不僅采用商品標(biāo)題,還可以采用商品詳情頁,由于商品詳情頁中包含更多的信息,因此可以降低誤差,提高識(shí)別準(zhǔn)確度。
如圖4所示,商品類目錯(cuò)放識(shí)別具體可以包括:
S45:根據(jù)TF*IDF值,提取各商品詳情頁的關(guān)鍵詞。
可以理解的是,本實(shí)施例以根據(jù)TF*IDF值提取關(guān)鍵詞為例,當(dāng)然,也可以采用其他方式進(jìn)行提取。
對(duì)商品的類目進(jìn)行判斷時(shí),首先是更多地獲取分類樣本的特征。有些商品的標(biāo)題比較規(guī)范,特征容易識(shí)別,但是有些商品的標(biāo)題不規(guī)范,即使人工也無法判斷出該商品應(yīng)該放到哪個(gè)類目,因此需要增加更多的信息進(jìn)行判斷。
本方法中通過加入商品詳情頁中的特征信息作為對(duì)商品標(biāo)題特征的補(bǔ)充,而商品詳情頁中的信息量往往較大,所以需要從其中提取出重要的信息出來作為分類的特征,此處需要使用到S44中所計(jì)算得到的IDF值。
詞頻(term frequency,TF)是一個(gè)詞出現(xiàn)的次數(shù)除以該文檔包含的詞的總數(shù),TF*IDF越大,表示這個(gè)詞(term)的區(qū)分能力越強(qiáng),越重要。
該步驟的實(shí)現(xiàn)方法如下:
輸入:待識(shí)別商品的商品詳情頁;
輸出:商品詳情頁中TF*IDF值最大的前N個(gè)詞,其中,N為預(yù)設(shè)值。
參見圖6,具體的提取關(guān)鍵詞的流程可以包括:
S61:獲取待識(shí)別的商品。
S62:獲取商品詳情頁,并對(duì)其進(jìn)行分詞。
其中,商品詳情頁是指待識(shí)別的商品的詳情頁,具體的分詞技術(shù)不限定。
S63:計(jì)算每個(gè)詞的TF值。
其中,對(duì)應(yīng)分詞得到的每個(gè)詞,可以統(tǒng)計(jì)該詞在商品詳情頁中的出現(xiàn)次數(shù),以及統(tǒng)計(jì)商品詳情頁中的詞的總數(shù),并用該出現(xiàn)次數(shù)除以該詞的總數(shù)得到相應(yīng)詞的TF值。
S64:獲取每個(gè)詞的IDF值。
該IDF值是從訓(xùn)練階段的S44中獲取,例如,商品詳情頁中包括相機(jī)這個(gè)詞,則需要在訓(xùn)練階段的S44中獲取相機(jī)這個(gè)詞的IDF值。
S65:計(jì)算TF*IDF值,并根據(jù)TF*IDF值從大到小的順序選擇N個(gè)重要的詞。
在獲取TF值和IDF值后,可以將兩者進(jìn)行相乘運(yùn)算,從而得到TF*IDF值,之后可以根據(jù)TF*IDF值進(jìn)行降序排列,在排序后依次從前到后選擇預(yù)設(shè)個(gè)數(shù)的詞作為商品詳情頁的關(guān)鍵詞。
S46:判斷商品是否類目錯(cuò)放。
對(duì)商品類目錯(cuò)放的判斷就轉(zhuǎn)換成了一個(gè)分類問題,將每個(gè)葉子類目看成一個(gè)類別,本實(shí)施例中采用樸素貝葉斯算法作為分類方法。需要首先計(jì)算出在每個(gè)類別下不同的特征所出現(xiàn)的概率,這里的特征即是每個(gè)分詞的結(jié)果,即S43計(jì)算得到的每個(gè)詞的出現(xiàn)概率。
對(duì)于一個(gè)類別而言,現(xiàn)有技術(shù)中,如果一個(gè)詞在該類別下的訓(xùn)練樣本中沒有出現(xiàn)過,那么其概率值為0,根據(jù)貝葉斯算法則會(huì)使得該樣本屬于此類別下的后驗(yàn)概率值為0,而本實(shí)施例中,采用簡化的拉普拉斯平滑,若某個(gè)特征在該類別下沒有出現(xiàn)過,則其概率值取為tfmin=1/Nc,其中Nc為該類別下樣本總數(shù)。
可以理解的是,也可以采用其他分類算法,例如可以使用最大熵、支持向量機(jī)(Support Vector Machine,SVM)等分類算法。
該步驟的實(shí)現(xiàn)方法包括:
輸入:待識(shí)別的商品標(biāo)題以及商品詳情頁的關(guān)鍵詞;
輸出:是否類目錯(cuò)放,如果類目錯(cuò)放,輸出推薦類目。
具體的,參見圖7,類目錯(cuò)放識(shí)別的流程可以包括:
S71:對(duì)商品標(biāo)題進(jìn)行分詞。
可以采用常用的分詞技術(shù)對(duì)商品標(biāo)題進(jìn)行分詞。
S72:將商品詳情頁的關(guān)鍵詞添加到商品標(biāo)題的分詞中,去掉重復(fù)的詞,得到處理后的詞。
商品詳情頁的關(guān)鍵詞可以采用上述的根據(jù)TF*IDF值進(jìn)行提取,提取關(guān)鍵詞以及對(duì)商品標(biāo)題進(jìn)行分詞后,可以去掉其中重復(fù)的詞,避免重復(fù)運(yùn)算。
S73:根據(jù)處理后的詞,對(duì)應(yīng)訓(xùn)練模型中的每個(gè)葉子類目,計(jì)算當(dāng)前商品在每個(gè)葉子類目下的后驗(yàn)概率值,以及,計(jì)算當(dāng)前商品在當(dāng)前葉子類目下的后驗(yàn)概率值。
其中,當(dāng)前商品是指待識(shí)別的是否發(fā)生類目錯(cuò)放的商品,當(dāng)前葉子類目是指當(dāng)前商品已經(jīng)記錄的屬于的葉子類目,該葉子類目可能發(fā)生錯(cuò)放或者放置正確。
根據(jù)貝葉斯公式計(jì)算一個(gè)商品在一個(gè)葉子類目下的后驗(yàn)概率值可以表示為:
設(shè)x={a1,a2,…,am}為一個(gè)待分類樣本,在本方法中即為一個(gè)商品,其中每個(gè)變量ai則為該商品的商品標(biāo)題的分詞以及從商品詳情頁中提取出的關(guān)鍵詞。
設(shè)要分類的類別集合為C={y1,y2,…,yn}
此處的yi則為商品的不同的類目。
為了計(jì)算一個(gè)商品x所屬不同類目的概率,需要分別計(jì)算:
P{y1|x},P{y2|x},...,P{yn|x}
當(dāng)P(yk|x)=max{P{y1|x},P{y2|x},...,P{yn|x}}
則判斷商品x屬于第k個(gè)類目的概率最大。
為了計(jì)算商品屬于某個(gè)類目的概率,根據(jù)貝葉斯公式將上式變換為:
由于分母P{x}對(duì)于所有的類別而言都是相同的,因此只需要對(duì)分子進(jìn)行計(jì)算即可,又根據(jù)自然語言模型,假設(shè)每個(gè)詞之間相互獨(dú)立,可得如下公式:
此時(shí)問題則轉(zhuǎn)換為求每個(gè)類目下不同詞出現(xiàn)的概率P{aj|yi},即為步驟S43中所求的結(jié)果。而P{yi}為每個(gè)類目下商品所占的比例,由于所有類目的商品總數(shù)相同,因此P{yi}可以用步驟S42中所求的結(jié)果表示。
由此可根據(jù)貝葉斯公式計(jì)算出一個(gè)商品在一個(gè)葉子類目下的后驗(yàn)概率值。
S74:計(jì)算每個(gè)葉子類目下的后驗(yàn)概率值與當(dāng)前葉子類目的后驗(yàn)概率值之差,并確定差值最大的葉子類目。
當(dāng)計(jì)算出訓(xùn)練模型中每個(gè)葉子類目的后驗(yàn)概率值,以及計(jì)算出當(dāng)前葉子類目的后驗(yàn)概率值之后,就可以分別用每個(gè)葉子類目的后驗(yàn)概率值減去當(dāng)前葉子類目的后驗(yàn)概率值,從 而得到與每個(gè)葉子類目對(duì)應(yīng)的差值。
S75:判斷是否存在大于預(yù)設(shè)閾值的差值,若是,執(zhí)行S76,否則,執(zhí)行S77。
由于有些類目之間存在著一定的相似性,因此并不是差值為正就表示類目錯(cuò)放,為了提高準(zhǔn)確度,可以根據(jù)經(jīng)驗(yàn)設(shè)置一個(gè)閾值,只有大于該閾值的情況下,才判斷當(dāng)前商品為類目錯(cuò)放。
S76:確定當(dāng)前商品發(fā)生類目錯(cuò)放。
進(jìn)一步的,還可以給出推薦類目,推薦類目是上述差值最大的葉子類目。
S77:確定當(dāng)前商品類目放置正確。
本實(shí)施例在具體實(shí)現(xiàn)時(shí)可以采用大規(guī)模并行計(jì)算,具體可以采用云計(jì)算平臺(tái)進(jìn)行運(yùn)算。
本實(shí)施例中,通過根據(jù)搜索日志和點(diǎn)擊日志篩選訓(xùn)練樣本集,可以提高訓(xùn)練樣本集的純凈度,避免選擇存在誤差的訓(xùn)練樣本集,可以提高訓(xùn)練模型的準(zhǔn)確,從而提高類目識(shí)別的準(zhǔn)確度。本實(shí)施例中,通過在商品詳情頁中提取關(guān)鍵詞,解決了部分商品標(biāo)題較短且模糊的情況,有效的提高了識(shí)別的準(zhǔn)確率。
圖8是本發(fā)明另一實(shí)施例提出的信息類目識(shí)別裝置的結(jié)構(gòu)示意圖,該裝置80包括:第一獲取模塊81,第二獲取模塊82和識(shí)別模塊83。
第一獲取模塊81,用于獲取訓(xùn)練模型,所述訓(xùn)練模型是預(yù)先根據(jù)訓(xùn)練樣本集得到的,所述訓(xùn)練樣本集是根據(jù)用戶的搜索日志和點(diǎn)擊日志篩選得到的;
與現(xiàn)有技術(shù)采用全網(wǎng)樣本不同,本實(shí)施例中,采用的訓(xùn)練樣本集是根據(jù)用戶的搜索日志和點(diǎn)擊日志,對(duì)全網(wǎng)樣本進(jìn)行篩選后得到的。
可選的,參見圖9,該裝置80還包括:用于根據(jù)用戶的搜索日志和點(diǎn)擊日志篩選得到獲取訓(xùn)練樣本集的第三獲取模塊84,所述第三獲取模塊84具體用于:
獲取預(yù)設(shè)時(shí)間內(nèi)用戶的搜索日志和點(diǎn)擊日志;
假設(shè)預(yù)設(shè)時(shí)間是30天,則可以收集30天內(nèi)每個(gè)用戶的搜索日志,以及對(duì)應(yīng)的點(diǎn)擊日志。
根據(jù)所述搜索日志獲取搜索詞,以及根據(jù)所述點(diǎn)擊日志確定被用戶點(diǎn)擊過的信息,將每個(gè)搜索詞和對(duì)應(yīng)的一個(gè)被點(diǎn)擊過的信息作為一個(gè)訓(xùn)練樣本,并由訓(xùn)練樣本組成訓(xùn)練樣本集。
例如,參見圖3,以信息是商品為例,圖3的左側(cè)示出了現(xiàn)有技術(shù)采用的訓(xùn)練樣本集,從圖3的左側(cè)可以看出現(xiàn)有技術(shù)中采用的訓(xùn)練樣本集是全網(wǎng)商品,但是,全網(wǎng)商品中會(huì)存在已經(jīng)類目錯(cuò)放的商品。
而本實(shí)施例中,參見圖3的右側(cè),用戶可以在搜索框中輸入搜索詞(Query),搜索引擎根據(jù)搜索詞可以返回商品列表,例如返回的商品列表包括商品1,商品2,…商 品N。在返回的商品列表中,用戶可以點(diǎn)擊部分商品,例如,用戶點(diǎn)擊了商品2,商品6和商品7,則可以根據(jù)這些被點(diǎn)擊的商品獲取訓(xùn)練樣本集。具體的,可以是每個(gè)被點(diǎn)擊的商品和此時(shí)的搜索詞組成一個(gè)訓(xùn)練樣本,該被點(diǎn)擊的商品的葉子類目作為該訓(xùn)練樣本的類目,通過該方式收集到的所有訓(xùn)練樣本形成本實(shí)施例中采用的訓(xùn)練樣本集。
當(dāng)用戶搜索商品時(shí),系統(tǒng)會(huì)記錄下大量的點(diǎn)擊日志,即用戶在某Query下點(diǎn)擊了某個(gè)類目下的商品,使用用戶點(diǎn)擊日志作為獲取訓(xùn)練樣本的依據(jù)的一個(gè)優(yōu)點(diǎn)是能夠更好的保證訓(xùn)練樣本的純凈度。因?yàn)樵诋?dāng)前的系統(tǒng)中已經(jīng)存在一些類目錯(cuò)放的商品,有的類目下還比較嚴(yán)重,直接使用這些商品進(jìn)行訓(xùn)練會(huì)帶來一定的誤差。而根據(jù)用戶的點(diǎn)擊行為,一是能夠選擇出質(zhì)量較好(也就是類目未錯(cuò)放)的商品,二是Query本身對(duì)于類目也是一種較好的解釋。
在篩選得到訓(xùn)練樣本集后,可以對(duì)訓(xùn)練樣本集進(jìn)行訓(xùn)練,得到訓(xùn)練模型。
可選的,參見圖9,該裝置80還包括:用于根據(jù)所述訓(xùn)練樣本集構(gòu)建訓(xùn)練模型的構(gòu)建模塊85,所述構(gòu)建模塊85具體用于:
計(jì)算每個(gè)葉子類目下信息個(gè)數(shù),所述葉子類目是根據(jù)訓(xùn)練樣本中每個(gè)被點(diǎn)擊的信息屬于的葉子類目確定的;
在獲取訓(xùn)練樣本時(shí),可以將一個(gè)被點(diǎn)擊的商品及對(duì)應(yīng)的搜索詞作為一個(gè)訓(xùn)練樣本,該訓(xùn)練樣本的葉子類目就是被點(diǎn)擊的商品的類目。因此,可以獲取每個(gè)訓(xùn)練樣本屬于的葉子類目,也可以獲取每個(gè)葉子類目下的商品個(gè)數(shù)。
假設(shè)一個(gè)葉子類目下的商品個(gè)數(shù)用Nc表示。
根據(jù)所述信息個(gè)數(shù),計(jì)算每個(gè)葉子類目下每個(gè)詞的出現(xiàn)概率,所述每個(gè)詞是對(duì)被點(diǎn)擊的信息的預(yù)設(shè)內(nèi)容進(jìn)行分詞后得到的;
其中,每個(gè)詞可以是對(duì)要處理的內(nèi)容采用分詞技術(shù)進(jìn)行分詞后得到的,要處理的內(nèi)容由商品標(biāo)題與對(duì)應(yīng)的搜索詞組成。由于分詞技術(shù)是很常用的技術(shù),因此具體的分詞技術(shù)在此不再贅述,本實(shí)施例對(duì)具體的分詞技術(shù)也不進(jìn)行限定。
該步驟的實(shí)現(xiàn)方法如下:
輸入:S41篩選得到的訓(xùn)練樣本集;
輸出:各葉子類目下每個(gè)詞的出現(xiàn)概率;
實(shí)現(xiàn)算法:
將商品標(biāo)題與點(diǎn)擊時(shí)的搜索詞進(jìn)行合并,并對(duì)其進(jìn)行分詞,得到每個(gè)詞;
統(tǒng)計(jì)每個(gè)詞在該葉子類目下的出現(xiàn)次數(shù)Tw;
采用如下公式計(jì)算出現(xiàn)概率tfw:
tfw=Tw/Nc,其中,Nc是該葉子類目下商品個(gè)數(shù)。
另外,還可以計(jì)算tfmin=1/Nc,為該葉子類目下單個(gè)詞最小概率的基準(zhǔn)值。
參見圖5,分別示出了上衣葉子類目下不同詞的出現(xiàn)概率51,以及數(shù)碼相機(jī)葉子類目下不同詞的出現(xiàn)概率52。
在得到各葉子類目下商品個(gè)數(shù)以及各葉子類目下每個(gè)詞出現(xiàn)概率后,可以在先驗(yàn)?zāi)P椭邪ㄟ@兩個(gè)參數(shù),以用于后續(xù)的商品類目錯(cuò)放識(shí)別。
將所述信息個(gè)數(shù),以及所述出現(xiàn)概率組成訓(xùn)練模型。
另外,構(gòu)建模塊還可以用于獲取IDF值。具體的獲取IDF值的方式可以參見方法實(shí)施例中的相關(guān)描述,在此不再贅述。
第二獲取模塊82,用于獲取待識(shí)別的信息;
以信息是商品為例,則如圖4所示可以獲取商品表,商品表中包括一個(gè)或多個(gè)商品,可以依次對(duì)每個(gè)商品進(jìn)行識(shí)別。
識(shí)別模塊83,用于根據(jù)所述訓(xùn)練模型,確定所述信息是否發(fā)生信息類目錯(cuò)放。
以信息是商品為例,在識(shí)別一個(gè)商品是否被錯(cuò)放時(shí),現(xiàn)有技術(shù)中只根據(jù)該商品的商品標(biāo)題與訓(xùn)練模型進(jìn)行比對(duì),由于商品標(biāo)題會(huì)出現(xiàn)不規(guī)范等問題,僅根據(jù)商品標(biāo)題識(shí)別會(huì)產(chǎn)生誤差。
而本實(shí)施例中,不僅采用商品標(biāo)題,還可以采用商品詳情頁,由于商品詳情頁中包含更多的信息,因此可以降低誤差,提高識(shí)別準(zhǔn)確度。
可選的,當(dāng)所述信息是商品時(shí),所述裝置80還包括:
第四獲取模塊86,用于獲取所述商品的商品詳情頁,并從所述商品詳情頁中提取關(guān)鍵詞,以及獲取所述商品的商品標(biāo)題;
相應(yīng)的,所述識(shí)別模塊83具體用于:
根據(jù)所述關(guān)鍵詞以及所述商品標(biāo)題,以及所述訓(xùn)練模型,確定所述信息是否發(fā)生信息類目錯(cuò)放。
可選的,所述第四獲取模塊86用于從所述商品詳情頁中提取關(guān)鍵詞,包括:
對(duì)所述商品詳情頁進(jìn)行分詞,得到商品詳情頁的每個(gè)分詞;
計(jì)算每個(gè)分詞的TF值,并獲取IDF值,所述IDF值是在訓(xùn)練模型時(shí),根據(jù)訓(xùn)練樣本集確定的;
計(jì)算每個(gè)分詞的TF值與IDF值的乘積,并根據(jù)乘積從大到小的順序選擇預(yù)設(shè)個(gè)數(shù)的分詞,作為所述關(guān)鍵詞。
相應(yīng)的,所述識(shí)別模塊83進(jìn)一步具體用于:
對(duì)商品標(biāo)題進(jìn)行分詞;
將商品詳情頁的關(guān)鍵詞添加到商品標(biāo)題的分詞中,去掉重復(fù)的詞,得到處理后的詞;
根據(jù)處理后的詞,對(duì)應(yīng)訓(xùn)練模型中的每個(gè)葉子類目,計(jì)算當(dāng)前商品在每個(gè)葉子類目下的分類值,以及,計(jì)算當(dāng)前商品在當(dāng)前葉子類目下的分類值;
計(jì)算每個(gè)葉子類目下的分類值與當(dāng)前葉子類目的分類值之差,并確定差值最大的葉子類目;
當(dāng)存在大于預(yù)設(shè)閾值的差值時(shí),確定發(fā)生信息類目錯(cuò)放。
可選的,參見圖9,當(dāng)發(fā)生信息類目錯(cuò)放時(shí),所述裝置80還包括:
推薦模塊87,用于將差值最大的葉子類目作為推薦類目,并展示所述推薦類目。
所述分類值是根據(jù)如下項(xiàng)中的任一項(xiàng)計(jì)算得到的:貝葉斯公式,最大熵公式,SVM公式。
上述的具體提取關(guān)鍵詞的流程,以及類目錯(cuò)放識(shí)別的流程可以參見方法實(shí)施例中的相關(guān)描述,在此不再贅述。
本實(shí)施例中,通過根據(jù)搜索日志和點(diǎn)擊日志篩選訓(xùn)練樣本集,可以提高訓(xùn)練樣本集的純凈度,避免選擇存在誤差的訓(xùn)練樣本集,可以提高訓(xùn)練模型的準(zhǔn)確,從而提高類目識(shí)別的準(zhǔn)確度。本實(shí)施例中,通過在商品詳情頁中提取關(guān)鍵詞,解決了部分商品標(biāo)題較短且模糊的情況,有效的提高了識(shí)別的準(zhǔn)確率。
需要說明的是,在本發(fā)明的描述中,術(shù)語“第一”、“第二”等僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性。此外,在本發(fā)明的描述中,除非另有說明,“多個(gè)”的含義是指至少兩個(gè)。
流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個(gè)或更多個(gè)用于實(shí)現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實(shí)施方式的范圍包括另外的實(shí)現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時(shí)的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本發(fā)明的實(shí)施例所屬技術(shù)領(lǐng)域的技術(shù)人員所理解。
應(yīng)當(dāng)理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實(shí)現(xiàn)。在上述實(shí)施方式中,多個(gè)步驟或方法可以用存儲(chǔ)在存儲(chǔ)器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實(shí)現(xiàn)。例如,如果用硬件來實(shí)現(xiàn),和在另一實(shí)施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項(xiàng)或他們的組合來實(shí)現(xiàn):具有用于對(duì)數(shù)據(jù)信號(hào)實(shí)現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場(chǎng)可編程門陣列(FPGA)等。
本技術(shù)領(lǐng)域的普通技術(shù)人員可以理解實(shí)現(xiàn)上述實(shí)施例方法攜帶的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲(chǔ)于一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),包括方法實(shí)施例的步驟之一或其組合。
此外,在本發(fā)明各個(gè)實(shí)施例中的各功能單元可以集成在一個(gè)處理模塊中,也可以是各個(gè)單元單獨(dú)物理存在,也可以兩個(gè)或兩個(gè)以上單元集成在一個(gè)模塊中。上述集成的模塊既可以采用硬件的形式實(shí)現(xiàn),也可以采用軟件功能模塊的形式實(shí)現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實(shí)現(xiàn)并作為獨(dú)立的產(chǎn)品銷售或使用時(shí),也可以存儲(chǔ)在一個(gè)計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中。
上述提到的存儲(chǔ)介質(zhì)可以是只讀存儲(chǔ)器,磁盤或光盤等。
在本說明書的描述中,參考術(shù)語“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說明書中,對(duì)上述術(shù)語的示意性表述不一定指的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任何的一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。
盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對(duì)本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。