本申請(qǐng)涉及數(shù)據(jù)處理技術(shù),尤其涉及一種被推薦對(duì)象的過(guò)濾方法及系統(tǒng)。
背景技術(shù):在電子商務(wù)網(wǎng)站中,一般需要對(duì)電子商務(wù)產(chǎn)品進(jìn)行過(guò)濾,以便從中選擇出高質(zhì)量的優(yōu)質(zhì)產(chǎn)品來(lái)向用戶進(jìn)行推薦,例如將被推薦的產(chǎn)品的對(duì)應(yīng)信息放置于電子商務(wù)網(wǎng)站的首頁(yè)等等,從而使得用戶能夠不通過(guò)搜索和過(guò)多的產(chǎn)品瀏覽操作即可獲得優(yōu)質(zhì)產(chǎn)品的信息,更為便捷的進(jìn)行購(gòu)物?,F(xiàn)有技術(shù)中,一般通過(guò)人工肉眼選擇需要向用戶推薦的產(chǎn)品,或者直接根據(jù)電子商務(wù)產(chǎn)品的成交量等來(lái)選擇需要向用戶推薦的產(chǎn)品,但是通過(guò)上述方式選擇出來(lái)的被推薦的產(chǎn)品往往由于人工選擇的傾向性或者選擇依據(jù)的單一而造成選擇結(jié)果與用戶預(yù)期之間的偏差,導(dǎo)致產(chǎn)品推薦的不準(zhǔn)確。也即是說(shuō),當(dāng)將這些選擇出來(lái)的產(chǎn)品向用戶進(jìn)行推薦時(shí),往往并不能獲得客戶的認(rèn)同,從而用戶仍然需要通過(guò)搜索并對(duì)搜索到的產(chǎn)品進(jìn)行瀏覽而最終實(shí)現(xiàn)購(gòu)物,這樣,電子商務(wù)網(wǎng)站所屬的第一服務(wù)器需要進(jìn)行優(yōu)質(zhì)產(chǎn)品的選擇和推薦處理,然而這種選擇和推薦處理并未減少用戶購(gòu)物中的操作,反而由于需要進(jìn)行優(yōu)質(zhì)產(chǎn)品的選擇和推薦處理,從而增加了第一服務(wù)器的數(shù)據(jù)處理壓力,降低了第一服務(wù)器的數(shù)據(jù)處理速度;而且,第一服務(wù)器需要將對(duì)于產(chǎn)品的推薦數(shù)據(jù)發(fā)送到各個(gè)用戶所在的客戶端,以便向用戶進(jìn)行展現(xiàn),第一服務(wù)器和客戶端之間的推薦數(shù)據(jù)傳輸也占用了兩者之間的傳輸帶寬,浪費(fèi)了網(wǎng)絡(luò)傳輸資源。
技術(shù)實(shí)現(xiàn)要素:有鑒于此,本申請(qǐng)要解決的技術(shù)問(wèn)題是,提供一種被推薦對(duì)象的過(guò)濾方法及系統(tǒng),能夠提高第一服務(wù)器的數(shù)據(jù)處理速度,且減少第一服務(wù)器與客戶端之間的傳輸帶寬占用。為此,本申請(qǐng)實(shí)施例采用如下技術(shù)方案:一種被推薦對(duì)象的過(guò)濾方法,包括:獲取被推薦對(duì)象的文本信息的文本識(shí)別概率;并且,獲取被推薦對(duì)象的提供方的行為信息的行為識(shí)別概率;根據(jù)所述文本識(shí)別概率和行為識(shí)別概率確定被推薦對(duì)象的第一概率;判斷所述第一概率是否大于預(yù)設(shè)概率閾值,如果是,將被推薦對(duì)象的第一預(yù)設(shè)信息發(fā)送至客戶端,以便客戶端在指定位置向用戶展現(xiàn)被推薦對(duì)象的第一預(yù)設(shè)信息。一種被推薦對(duì)象的過(guò)濾系統(tǒng),包括:第一獲取單元,用于獲取被推薦對(duì)象的文本信息的文本識(shí)別概率;第二獲取單元,用于獲取被推薦對(duì)象的提供方的行為信息的行為識(shí)別概率;確定單元,用于根據(jù)所述文本識(shí)別概率和行為識(shí)別概率確定被推薦對(duì)象的第一概率;判斷單元,用于判斷所述第一概率是否大于預(yù)設(shè)概率閾值;發(fā)送單元,用于判斷單元的判斷結(jié)果為是時(shí),將被推薦對(duì)象的第一預(yù)設(shè)信息發(fā)送至客戶端,以便客戶端在指定位置向用戶展現(xiàn)被推薦對(duì)象的第一預(yù)設(shè)信息。對(duì)于上述技術(shù)方案的技術(shù)效果分析如下:根據(jù)被推薦對(duì)象的文本識(shí)別概率和被推薦對(duì)象提供方的行為識(shí)別概率確定被推薦對(duì)象的第一概率,進(jìn)而判斷第一概率大于預(yù)設(shè)概率閾值時(shí),將被推薦對(duì)象的第一預(yù)設(shè)信息發(fā)送至客戶端,以便客戶端在指定位置向用戶展現(xiàn)被推薦對(duì)象的第一預(yù)設(shè)信息;從而,在進(jìn)行被推薦對(duì)象的過(guò)濾時(shí),不僅僅依靠人工方式或者依據(jù)被推薦對(duì)象的成交量,而是結(jié)合被推薦對(duì)象以及被推薦對(duì)象的提供方兩方面的因素,相應(yīng)的進(jìn)行被推薦對(duì)象的過(guò)濾,從而使得被推薦對(duì)象的選擇準(zhǔn)確,減少了用戶進(jìn)行搜索和瀏覽的操作,從而第一服務(wù)器的數(shù)據(jù)處理壓力降低,提高了第一服務(wù)器的數(shù)據(jù)處理速度;而且,由于用戶搜索和產(chǎn)品瀏覽操作的減少,客戶端與第一服務(wù)器之間傳輸?shù)乃阉鹘Y(jié)果數(shù)據(jù)以及產(chǎn)品瀏覽對(duì)應(yīng)的產(chǎn)品數(shù)據(jù)減少,從而減少了客戶端與第一服務(wù)器之間的傳輸帶寬占用,減少了對(duì)于網(wǎng)絡(luò)傳輸資源的浪費(fèi)。附圖說(shuō)明圖1為本申請(qǐng)實(shí)施例所應(yīng)用的網(wǎng)絡(luò)環(huán)境;圖2為本申請(qǐng)實(shí)施例一種被推薦對(duì)象的過(guò)濾方法流程示意圖;圖3為本申請(qǐng)實(shí)施例一個(gè)步驟的實(shí)現(xiàn)方法流程示意圖;圖4為本申請(qǐng)實(shí)施例另一個(gè)步驟的實(shí)現(xiàn)方法流程示意圖;圖5為本申請(qǐng)實(shí)施例被推薦數(shù)據(jù)的過(guò)濾系統(tǒng)結(jié)構(gòu)示意圖。具體實(shí)施方式以下,結(jié)合附圖詳細(xì)說(shuō)明本申請(qǐng)實(shí)施例被推薦數(shù)據(jù)的過(guò)濾方法及系統(tǒng)的實(shí)現(xiàn)。為了更好的對(duì)本申請(qǐng)實(shí)施例過(guò)濾方法進(jìn)行理解,首先對(duì)本申請(qǐng)實(shí)施例被推薦對(duì)象的過(guò)濾方法及系統(tǒng)可以適用的網(wǎng)絡(luò)環(huán)境進(jìn)行舉例,如圖1所示,可以包括:客戶端110,用于向第一服務(wù)器發(fā)送被推薦對(duì)象的文本信息;第一服務(wù)器120,用于獲取被推薦對(duì)象的文本信息以及被推薦對(duì)象的提供方的相關(guān)行為信息,并且將被推薦對(duì)象的預(yù)設(shè)信息發(fā)送給客戶端,以便客戶端將預(yù)設(shè)信息在指定位置進(jìn)行展現(xiàn)。其中,所述被推薦對(duì)象例如可以為:產(chǎn)品,而文本信息可以為產(chǎn)品的描述信息、標(biāo)題、關(guān)鍵字等產(chǎn)品相關(guān)的文字信息;而被推薦對(duì)象的提供方可以為商家,所述行為信息可以為被推薦對(duì)象被購(gòu)買(mǎi)、被點(diǎn)擊、被二次點(diǎn)擊等用戶在網(wǎng)頁(yè)上的操作動(dòng)作信息等,所述預(yù)設(shè)信息可以為被推薦對(duì)象的除文字信息之外的其他信息,例如圖片信息、圖片的描述等。圖2為本申請(qǐng)實(shí)施例一種被推薦數(shù)據(jù)的過(guò)濾方法流程示意圖,如圖2所示,該方法包括:步驟201:獲取被推薦對(duì)象的文本信息的文本識(shí)別概率;并且,獲取被推薦對(duì)象的提供方的行為信息的行為識(shí)別概率;步驟202:根據(jù)所述文本識(shí)別概率和行為識(shí)別概率確定被推薦對(duì)象的第一概率;其中,第一概率的計(jì)算公式可以為:第一概率=文本識(shí)別概率*文本識(shí)別概率權(quán)重+行為識(shí)別概率*行為識(shí)別概率權(quán)重。步驟203:判斷所述第一概率是否大于預(yù)設(shè)概率閾值,如果是,將被推薦對(duì)象的第一預(yù)設(shè)信息發(fā)送至客戶端,以便客戶端在指定位置向用戶展現(xiàn)被推薦對(duì)象的第一預(yù)設(shè)信息。在圖2所示的被推薦產(chǎn)品的過(guò)濾方法中,根據(jù)被推薦對(duì)象的文本識(shí)別概率和被推薦對(duì)象提供方的行為識(shí)別概率確定被推薦對(duì)象的第一概率,進(jìn)而判斷第一概率大于預(yù)設(shè)概率閾值時(shí),將將被推薦對(duì)象的第一預(yù)設(shè)信息發(fā)送至客戶端,以便客戶端在指定位置向用戶展現(xiàn)被推薦對(duì)象的第一預(yù)設(shè)信息;從而,在進(jìn)行被推薦對(duì)象的過(guò)濾時(shí),不僅僅依靠人工方式或者依據(jù)被推薦對(duì)象的成交量,而是結(jié)合被推薦對(duì)象以及被推薦對(duì)象的提供方的相關(guān)行為信息兩方面的因素,相應(yīng)的進(jìn)行被推薦對(duì)象的過(guò)濾,從而使得被推薦對(duì)象的選擇可以準(zhǔn)確,減少了用戶進(jìn)行搜索和瀏覽的操作,從而第一服務(wù)器的數(shù)據(jù)處理壓力降低,提高了第一服務(wù)器的數(shù)據(jù)處理速度;而且,由于用戶搜索和產(chǎn)品瀏覽操作的減少,客戶端與第一服務(wù)器之間傳輸?shù)乃阉鹘Y(jié)果數(shù)據(jù)以及產(chǎn)品瀏覽對(duì)應(yīng)的產(chǎn)品數(shù)據(jù)減少,從而減少了客戶端與第一服務(wù)器之間的傳輸帶寬占用,減少了對(duì)于網(wǎng)絡(luò)傳輸資源的浪費(fèi)。在圖2的基礎(chǔ)上對(duì)本申請(qǐng)實(shí)施例被推薦數(shù)據(jù)的過(guò)濾方法的實(shí)現(xiàn)進(jìn)行更為詳細(xì)的說(shuō)明。其中,步驟201中所述獲取被推薦對(duì)象的文本信息的文本識(shí)別概率可以包括:根據(jù)被推薦對(duì)象的樣本,確定樣本的各種文本參數(shù)對(duì)應(yīng)的概率值在文本識(shí)別概率中的權(quán)重值;根據(jù)被推薦對(duì)象的文本信息計(jì)算被推薦對(duì)象在每一種文本參數(shù)下的概率值;根據(jù)被推薦對(duì)象在每一種文本參數(shù)下的概率值以及各種文本參數(shù)對(duì)應(yīng)的概率值在文本識(shí)別概率中的權(quán)重值,計(jì)算被推薦對(duì)象的文本信息的文本識(shí)別概率。具體的,如圖3所示,步驟201中的所述獲取被推薦對(duì)象的文本信息的文本識(shí)別概率可以通過(guò)以下步驟實(shí)現(xiàn)。其中,步驟301~步驟308是所述根據(jù)被推薦對(duì)象的樣本,確定樣本的各種文本參數(shù)對(duì)應(yīng)的概率值在文本識(shí)別概率中的權(quán)重值的一種具體實(shí)現(xiàn),步驟309~步驟312是所述根據(jù)被推薦對(duì)象的文本信息計(jì)算被推薦對(duì)象在每一種文本參數(shù)下的概率值的一種具體實(shí)現(xiàn);步驟313對(duì)應(yīng)所述計(jì)算被推薦對(duì)象的文本信息的文本識(shí)別概率。步驟301:獲取被推薦對(duì)象的樣本,將所述樣本劃分為第一樣本庫(kù)和第二樣本庫(kù)。其中,當(dāng)所述被推薦對(duì)象為產(chǎn)品時(shí),可以按照樣本的產(chǎn)品質(zhì)量高低來(lái)進(jìn)行第一樣本庫(kù)和第二樣本庫(kù)的劃分,例如第一樣本庫(kù)中所包含的樣本的產(chǎn)品質(zhì)量相對(duì)第二樣本庫(kù)中樣本的產(chǎn)品質(zhì)量更高;而第二樣本庫(kù)中樣本的產(chǎn)品質(zhì)量相對(duì)較低。一般的,將描述信息全面、圖片好、價(jià)格數(shù)據(jù)真實(shí)、產(chǎn)品細(xì)節(jié)屬性描述充分、交易量好、評(píng)價(jià)高的產(chǎn)品認(rèn)為是高質(zhì)量產(chǎn)品,高質(zhì)量產(chǎn)品之外的產(chǎn)品為低質(zhì)量產(chǎn)品,本申請(qǐng)實(shí)施例中也可以按照上述標(biāo)準(zhǔn)類(lèi)似的標(biāo)準(zhǔn)進(jìn)行所述產(chǎn)品質(zhì)量高低的判斷。步驟302:對(duì)于每個(gè)樣本,從樣本的各種文本參數(shù)中分別提取各種文本參數(shù)所包含的詞條。其中,當(dāng)所述被推薦對(duì)象為產(chǎn)品時(shí),所述文本參數(shù)可以包括:標(biāo)題、關(guān)鍵字、描述信息等。當(dāng)所述文本參數(shù)為描述信息時(shí),在進(jìn)行樣本的文本參數(shù)中的詞條提取時(shí),可以通過(guò)以下步驟實(shí)現(xiàn):1.1對(duì)于每一樣本的描述信息,去除描述信息中的html標(biāo)簽;1.2從描述信息中去除包含在停用詞列表中的詞組;1.3對(duì)于進(jìn)行上述去除處理后的描述信息,將相鄰的預(yù)設(shè)個(gè)數(shù)的詞組作為一個(gè)詞條。這里,所述預(yù)設(shè)個(gè)數(shù)可以自主設(shè)定,例如可以設(shè)為1個(gè)和/或2個(gè)和/或3個(gè)等,這里不限制。優(yōu)選地,為了防止后續(xù)英文字符的大小寫(xiě)對(duì)詞條的出現(xiàn)次數(shù)統(tǒng)計(jì)結(jié)果構(gòu)成影響,這里還可以將所有詞條中的英文字符全部轉(zhuǎn)換成小寫(xiě)的英文字符。另外,在進(jìn)行詞條的提取之前,還可以先對(duì)兩個(gè)樣本庫(kù)中的樣本進(jìn)行防噪處理,具體的,該防噪處理過(guò)程可以包括:2.1按照樣本的生成時(shí)間,將生成時(shí)間處于預(yù)設(shè)時(shí)間之前的樣本去除;2.2將樣本的預(yù)設(shè)第一文本參數(shù)的關(guān)鍵詞處于黑白名單中的樣本去除;2.3將樣本的提供方處于黑白名單中的樣本去除;2.4將樣本的預(yù)設(shè)第一文本參數(shù)的關(guān)鍵詞包含被禁止關(guān)鍵詞的樣本去除。通過(guò)以上對(duì)于樣本的防噪處理,可以進(jìn)一步選擇出合適的樣本,否則,可能對(duì)后續(xù)的過(guò)濾結(jié)果的準(zhǔn)確性構(gòu)成影響。步驟303:建立每一種文本參數(shù)的詞條庫(kù),每一種文本參數(shù)的詞條庫(kù)中包括:該種文本參數(shù)所包含的各個(gè)詞條在第一樣本庫(kù)樣本的該種文本參數(shù)中的數(shù)量和第二樣本庫(kù)樣本的該種文本參數(shù)中的數(shù)量。也即是說(shuō),對(duì)于提取出的每個(gè)詞條,分別統(tǒng)計(jì)該詞條在第一樣本庫(kù)樣本的對(duì)應(yīng)文本參數(shù)中出現(xiàn)的次數(shù)和第二樣本庫(kù)樣本的對(duì)應(yīng)文本參數(shù)中出現(xiàn)的次數(shù)。例如,對(duì)于描述信息(對(duì)應(yīng)文本參數(shù))中提取出的詞條W1,統(tǒng)計(jì)出其在第一樣本庫(kù)各個(gè)樣本的描述信息(對(duì)應(yīng)文本參數(shù))中出現(xiàn)的次數(shù)HC1,并且,統(tǒng)計(jì)出該詞條W1在第二樣本庫(kù)中各個(gè)樣本的描述信息(對(duì)應(yīng)文本參數(shù))中出現(xiàn)的次數(shù)LC1;對(duì)于標(biāo)題中的詞條W2,統(tǒng)計(jì)出其在第一樣本庫(kù)中各個(gè)樣本的標(biāo)題中出現(xiàn)的次數(shù)HC2,在第二樣本庫(kù)中各個(gè)樣本的標(biāo)題中出現(xiàn)的次數(shù)LC2;等等。以下,通過(guò)步驟304~步驟307詳細(xì)描述如何實(shí)現(xiàn)根據(jù)每一種文本參數(shù)的詞條庫(kù)計(jì)算每一樣本在該種文本參數(shù)下的概率值。步驟304:建立每一種文本參數(shù)的詞條庫(kù),計(jì)算詞條庫(kù)中每個(gè)詞條在該種文本參數(shù)下的出現(xiàn)概率。所述詞條庫(kù)中包括:該種文本參數(shù)所包含的各個(gè)詞條在第一樣本庫(kù)樣本的該種文本參數(shù)中的數(shù)量和第二樣本庫(kù)樣本的該種文本參數(shù)中的數(shù)量。具體的,在某一種文本參數(shù)下,詞條W在該種文本參數(shù)下的出現(xiàn)概率P(W)的計(jì)算公式可以為:P(W)=(HCW*LT)/(HCW*LT+LCW*HT);其中,HCW為詞條W在第一樣本庫(kù)中樣本的該種文本參數(shù)中出現(xiàn)的次數(shù);LCW為詞條W在第二樣本庫(kù)中樣本的該種文本參數(shù)中出現(xiàn)的次數(shù);LT為第一樣本庫(kù)中樣本的總數(shù);HT為第二樣本庫(kù)中樣本總數(shù)。其中,當(dāng)步驟302中進(jìn)行了樣本庫(kù)中樣本的防噪處理時(shí),LT和HT應(yīng)該為樣本庫(kù)進(jìn)行防噪處理后樣本庫(kù)中樣本總數(shù)。步驟305:對(duì)每一詞條在對(duì)應(yīng)文本參數(shù)下的出現(xiàn)概率進(jìn)行修正處理,得到每一詞條的出現(xiàn)概率的修正值。當(dāng)步驟304中概率計(jì)算在HCW為0時(shí),P(W)會(huì)趨近于0,在LCW為0時(shí),P(W)等于1,為了避免這種極端情況的出現(xiàn),可以使用一個(gè)修正函數(shù)f(W)=(s*X+n*P(W))/(s+n)對(duì)步驟304中計(jì)算得到的出現(xiàn)概率進(jìn)行修正處理,其中n為詞條W在第一樣本庫(kù)中各個(gè)樣本的對(duì)應(yīng)文本參數(shù)中出現(xiàn)的次數(shù)HCW和詞條W在第二樣本庫(kù)中各個(gè)樣本的對(duì)應(yīng)文本參數(shù)中出現(xiàn)的次數(shù)LCW之和;X,s為常量,X,s一般為預(yù)設(shè)的值,作用為避免出現(xiàn)P(W)為1或0的極端情況,在實(shí)際應(yīng)用中可以自主設(shè)置,X和s一般取具有參考價(jià)值的經(jīng)驗(yàn)數(shù)據(jù)值,例如可以根據(jù)另外一個(gè)已有詞條的計(jì)算結(jié)果,將s取值為該詞條出現(xiàn)在該詞條對(duì)應(yīng)的第一樣本庫(kù)和第二樣本庫(kù)中的次數(shù)之和;X取值為該詞條在對(duì)應(yīng)的第一樣本庫(kù)中出現(xiàn)的概率。步驟306:對(duì)于每一樣本的每一種文本參數(shù),根據(jù)該樣本的該種文本參數(shù)所包含的所有詞條在該種文本參數(shù)下的出現(xiàn)概率的修正值,計(jì)算該樣本在該種文本參數(shù)下的第一概率值和第二概率值。其中,第一概率值P1=1-(1-f(1))(1-f(2))...(1-f(m))^(1/m),第二概率值P2=1-(f(1)*f(2)...f(m))^(1/m),m為對(duì)應(yīng)文本參數(shù)所包含的詞條的總數(shù)量。例如,某一樣本A的文本參數(shù)B,則根據(jù)該樣本A的文本參數(shù)B中所包含的所有詞條在該文本參數(shù)B下的出現(xiàn)概率的修正值,計(jì)算該樣本A在該文本參數(shù)B下的第一概率值和第二概率值。步驟307:根據(jù)該樣本在該種文本參數(shù)下的第一概率值和第二概率值計(jì)算該樣本在該種文本參數(shù)下的概率值S=(P1-P2)/(P1+P2)。同樣的,本步驟中,根據(jù)樣本A在文本參數(shù)B下的第一概率值和第二概率值計(jì)算樣本A在該文本參數(shù)B下的...