用于預(yù)測數(shù)據(jù)對象的類目的方法和裝置的制造方法
【技術(shù)領(lǐng)域】
[0001] 本申請涉及數(shù)據(jù)處理領(lǐng)域,更具體地涉及一種用于預(yù)測數(shù)據(jù)對象的類目的方法和 裝直。
【背景技術(shù)】
[0002] 隨著網(wǎng)上數(shù)據(jù)交互的不斷發(fā)展,對于一些網(wǎng)站服務(wù)器而言,在獲得了數(shù)據(jù)對象的 基本信息比如標(biāo)題、屬性描述等之后,往往需要將數(shù)據(jù)對象掛到后臺類目上,以便后續(xù)作為 搜索中數(shù)據(jù)對象類目導(dǎo)航、各種維度數(shù)據(jù)統(tǒng)計、產(chǎn)品庫建設(shè)等的依據(jù)。因此,需要對數(shù)據(jù)對 象的類目進(jìn)行預(yù)測,以確定所述數(shù)據(jù)對象的關(guān)聯(lián)類目。
[0003] 在一種現(xiàn)有技術(shù)的類目預(yù)測方案中,是基于類目點擊詞典進(jìn)行的,其中類目點擊 詞典是根據(jù)用戶的歷史查詢詞以及該歷史查詢詞對應(yīng)的類目點擊情況統(tǒng)計各詞的類目點 擊分布。更具體而言,當(dāng)需要對某個數(shù)據(jù)對象的類目進(jìn)行預(yù)測時,首先對該數(shù)據(jù)對象的標(biāo) 題進(jìn)行分詞處理以得到至少一個詞,然后根據(jù)上述類目點擊詞典統(tǒng)計每個詞的類目點擊分 布,并選取在所有詞中出現(xiàn)最多的類目作為該數(shù)據(jù)對象的預(yù)測類目。
[0004] 然而,由于用戶的類目點擊比較稀疏,無法覆蓋海量的數(shù)據(jù);部分查詢詞的輸入還 伴隨著惡意用戶刷查詢詞的現(xiàn)象(某些用戶利用某些查詢詞反復(fù)查詢以提高與自身關(guān)聯(lián)的 信息的點擊率),導(dǎo)致詞的類目點擊的數(shù)據(jù)不是很準(zhǔn)確,嚴(yán)重影響用這些數(shù)據(jù)預(yù)測得到的類 目的準(zhǔn)確率。另外,在預(yù)測類目的時候可能會由于標(biāo)題中某些詞的重復(fù)出現(xiàn)而導(dǎo)致預(yù)測到 一個不準(zhǔn)確的類目。
[0005] 因此,需求一種改進(jìn)的類目預(yù)測技術(shù),來克服現(xiàn)有技術(shù)中的上述問題,以提高對數(shù) 據(jù)對象的類目預(yù)測的準(zhǔn)確率。
【發(fā)明內(nèi)容】
[0006] 本申請的目的在于提供一種用于預(yù)測數(shù)據(jù)對象的類目的技術(shù),其能夠?qū)?shù)據(jù)對象 的類目進(jìn)行更準(zhǔn)確的預(yù)測,以確定數(shù)據(jù)對象的關(guān)聯(lián)類目。
[0007] 具體而言,根據(jù)本申請實施例的一個方面,提供一種用于預(yù)測數(shù)據(jù)對象的類目的 方法,其特征在于,包括:從待預(yù)測數(shù)據(jù)對象中提取至少一個對象特征;根據(jù)對象特征,從 預(yù)先基于數(shù)據(jù)庫內(nèi)已有數(shù)據(jù)對象及對應(yīng)的數(shù)據(jù)對象類目所構(gòu)建的特征樹中,獲取特征集 合,特征集合包含對象特征中存在聯(lián)系的對象特征對以及對象特征中與其它對象特征不存 在聯(lián)系的單個對象特征;根據(jù)特征集合,從預(yù)先基于數(shù)據(jù)庫內(nèi)已有數(shù)據(jù)對象及對應(yīng)的數(shù)據(jù) 對象類目以及特征樹所統(tǒng)計的特征-類目概率分布中,獲取與特征集合中的各對象特征對 或?qū)ο筇卣鞣謩e對應(yīng)的各類目概率分布;以及根據(jù)各類目概率分布,確定待預(yù)測數(shù)據(jù)對象 的預(yù)測類目集合。
[0008] 根據(jù)本申請實施例的另一個方面,提供一種用于預(yù)測數(shù)據(jù)對象的類目的裝置,其 特征在于,包括:特征提取模塊,用于從待預(yù)測數(shù)據(jù)對象中提取至少一個對象特征;第一獲 取模塊,用于根據(jù)對象特征,從預(yù)先基于數(shù)據(jù)庫內(nèi)已有數(shù)據(jù)對象及對應(yīng)的數(shù)據(jù)對象類目所 構(gòu)建的特征樹中,獲取特征集合,特征集合包含對象特征中存在聯(lián)系的對象特征對以及對 象特征中與其它對象特征不存在聯(lián)系的單個對象特征;第二獲取模塊,用于根據(jù)特征集合, 從預(yù)先基于數(shù)據(jù)庫內(nèi)已有數(shù)據(jù)對象及對應(yīng)的數(shù)據(jù)對象類目以及特征樹所統(tǒng)計的特征-類 目概率分布中,獲取與特征集合中的各對象特征對或?qū)ο筇卣鞣謩e對應(yīng)的各類目概率分 布;以及類目確定模塊,用于根據(jù)各類目概率分布,確定待預(yù)測數(shù)據(jù)對象的預(yù)測類目集合。
[0009] 與現(xiàn)有技術(shù)相比,本申請的方案基于數(shù)據(jù)庫(例如網(wǎng)站數(shù)據(jù)庫)內(nèi)已有數(shù)據(jù)對象及 其對應(yīng)類目來構(gòu)建樹增強樸素貝葉斯網(wǎng)絡(luò)模型(特征樹)并基于該模型來進(jìn)行類目預(yù)測,使 得覆蓋全網(wǎng)站數(shù)據(jù)庫的相關(guān)數(shù)據(jù),提高了類目預(yù)測的準(zhǔn)確率。此外,本申請的方案中使用分 詞后的所有不重復(fù)的詞作為特征來構(gòu)建樹增強樸素貝葉斯網(wǎng)絡(luò)模型,所以保證了數(shù)據(jù)對象 類目預(yù)測中不會因為某些重復(fù)的詞產(chǎn)生偏差,提高了類目預(yù)測的準(zhǔn)確率。另外,本申請的方 案在應(yīng)用樹增強樸素貝葉斯網(wǎng)絡(luò)的時候降低了節(jié)點間連接的條件,并允許每個節(jié)點與更多 的其它節(jié)點進(jìn)行連接,極大地豐富了整個樹增強樸素貝葉斯網(wǎng)絡(luò),進(jìn)一步提高了類目預(yù)測 的準(zhǔn)確率。
【附圖說明】
[0010] 此處所說明的附圖用來提供對本申請的進(jìn)一步理解,構(gòu)成本申請的一部分,本申 請的示意性實施例及其說明用于解釋本申請,并不構(gòu)成對本申請的不當(dāng)限定。在附圖中:
[0011] 圖1是根據(jù)本申請一個實施例的用于預(yù)測數(shù)據(jù)對象的類目的方法的流程圖;
[0012] 圖2是根據(jù)本申請一個實施例的用于構(gòu)建特征樹的方法的流程圖;
[0013] 圖3是根據(jù)本申請更具體實施例的用于構(gòu)建特征樹的方法的流程圖;
[0014] 圖4是根據(jù)本申請一個實施例的用于統(tǒng)計特征-類目概率分布的方法的流程圖; 以及
[0015] 圖5是根據(jù)本申請一個實施例的用于預(yù)測數(shù)據(jù)對象的類目的裝置的結(jié)構(gòu)框圖。
【具體實施方式】
[0016] 本申請的主要思想就在于,通過將數(shù)據(jù)庫(例如網(wǎng)站數(shù)據(jù)庫)內(nèi)已有數(shù)據(jù)對象及其 對應(yīng)類目的信息作為原始訓(xùn)練數(shù)據(jù),構(gòu)建樹增強樸素貝葉斯網(wǎng)絡(luò),來進(jìn)行待預(yù)測數(shù)據(jù)對象 的類目預(yù)測,以確定待預(yù)測數(shù)據(jù)對象的關(guān)聯(lián)類目。具體而言,通過基于數(shù)據(jù)庫內(nèi)已有數(shù)據(jù)對 象及其對應(yīng)類目的信息來構(gòu)建特征樹,以及基于數(shù)據(jù)庫內(nèi)已有數(shù)據(jù)對象及其對應(yīng)類目的信 息和特征樹來統(tǒng)計特征-類目概率分布,從而將這樣得到的特征樹和特征-類目概率分布 作為后續(xù)對待預(yù)測數(shù)據(jù)對象進(jìn)行類目預(yù)測的依據(jù)。
[0017] 另外,本申請的思想還在于,在樹增強樸素貝葉斯網(wǎng)絡(luò)的建立過程中,進(jìn)一步優(yōu)化 樹增強樸素貝葉斯網(wǎng)絡(luò)節(jié)點間的連接可能性,提高每個節(jié)點的最大可連接數(shù)。從而防止在 進(jìn)行類目預(yù)測的過程中由于樹增強樸素貝葉斯網(wǎng)絡(luò)的稀疏而使得部分特征無法與其它特 征連接,導(dǎo)致預(yù)測結(jié)果會因為特征組合數(shù)量較少而無法覆蓋更多的相關(guān)類目或產(chǎn)生偏置。 具體而言,本申請打破傳統(tǒng)樹增強樸素貝葉斯網(wǎng)絡(luò)一般只允許一個節(jié)點至多與其他兩個節(jié) 點進(jìn)行連接的思想,而使得一個節(jié)點可以與更多的其它節(jié)點進(jìn)行連接,例如可以達(dá)到與100 個其它節(jié)點進(jìn)行連接,從而使得整個樹增強樸素貝葉斯網(wǎng)絡(luò)更加密集,覆蓋更全面的特征, 進(jìn)而提高數(shù)據(jù)對象類目的預(yù)測準(zhǔn)確率。
[0018] 為使本申請的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合本申請具體實施例及 相應(yīng)的附圖對本申請技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實施例僅是本申請一 部分實施例,而不是全部的實施例。基于本申請中的實施例,本領(lǐng)域普通技術(shù)人員在沒有做 出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本申請保護(hù)的范圍。
[0019] 本申請的類目預(yù)測方案可以應(yīng)用于進(jìn)行類目預(yù)測的各種應(yīng)用場景,即,適用于針 對各種數(shù)據(jù)對象的類目預(yù)測。例如,可以適用于各種網(wǎng)站服務(wù)器對其業(yè)務(wù)對象或服務(wù)對象 等的類目(分類)進(jìn)行預(yù)測。在一個典型應(yīng)用場景中,本申請的方案可以應(yīng)用于電子商務(wù)網(wǎng) 站服務(wù)器對各種商品的類目預(yù)測,以確定和商品關(guān)聯(lián)的類目。應(yīng)指出的是,本申請對應(yīng)用場 景并不作任何限制,而是可以適用于現(xiàn)有或未來開發(fā)的其它任意適合的類目預(yù)測場景。
[0020] 參照圖1,圖1示出了根據(jù)本申請一個實施例的用于預(yù)測數(shù)據(jù)對象的類目的方法 100的流程圖。
[0021] 如圖1所示,在步驟S110處,從待預(yù)測數(shù)據(jù)對象中提取至少一個對象特征。
[0022] 具體而言,可以從待預(yù)測數(shù)據(jù)對象的諸如標(biāo)題、摘要、詳情、屬性等信息中提取出 至少一個對象特征。在一個典型的實施例中,可以從待預(yù)測數(shù)據(jù)對象的標(biāo)題中提取至少一 個對象特征。為便于描述起見,以下都以從待預(yù)測數(shù)據(jù)對象的標(biāo)題中提取對象特征為例來 描述本申請的實施例。但本領(lǐng)域技術(shù)人員應(yīng)理解到,在本申請的其它實施例中,還可以從待 預(yù)測數(shù)據(jù)對象的摘要、詳情、屬性等信息中提取對象特征。
[0023] 在本申請的一個實施例中,可以通過自然語言處理技術(shù),對待預(yù)測數(shù)據(jù)對象的標(biāo) 題進(jìn)行分詞處理,來從中提取出至少一個對象特征。在本申請的其它實施例中,還可以進(jìn)一 步對提取出的對象特征進(jìn)行詞性標(biāo)注處理。在一個優(yōu)選實施例中,可以為標(biāo)注出的產(chǎn)品詞 標(biāo)上預(yù)定標(biāo)簽,以助于提高整個類目預(yù)測的準(zhǔn)確率。
[0024] 更具體而言,可以通過詞權(quán)重(TermWeight)技術(shù),來實現(xiàn)將待預(yù)測數(shù)據(jù)對象的標(biāo) 題分成若干個詞,將該若干個詞作為對象特征,并為產(chǎn)品詞標(biāo)上標(biāo)簽。例如,一條商品的標(biāo) 題為"供應(yīng)白色雪紡連衣裙",則提取出的對象特征可以為"供應(yīng)"、"白色"、"雪紡"、"連衣裙 CP",其中CP為本例中對產(chǎn)品詞的預(yù)定標(biāo)簽,即CP標(biāo)識出本實施例中的"連衣裙"為產(chǎn)品。
[0025] 根據(jù)本申請的一個優(yōu)選實施例,可以在步驟S110處提取出若干個對象特征之后, 例如通過查看根據(jù)經(jīng)驗或根據(jù)需要預(yù)先設(shè)置的過濾詞表,對這些對象特征進(jìn)行過濾處理, 以便濾除掉那些對于預(yù)測基本沒有意義的對象特征,諸如那些在大部分標(biāo)題中都會經(jīng)常出 現(xiàn)的詞。由此可以減少類目預(yù)測中不必要的計算量,降低類目預(yù)測中的計算復(fù)雜度,提高類 目預(yù)測效率。
[0026] 例如,在上述示例中,可以濾除掉大部分標(biāo)題中經(jīng)常出現(xiàn)的"供應(yīng)"這一特征。
[0027] 在步驟S120處,根據(jù)對象特征,從預(yù)先基于數(shù)據(jù)庫內(nèi)已有數(shù)據(jù)對象的標(biāo)題及對應(yīng) 的數(shù)據(jù)對象類目所構(gòu)建的特征樹中,獲取特征集合,所述特征集合包含對象特征中存在聯(lián) 系的對象特征對以及對象特征中與其它對象特征不存在聯(lián)系的單個對象特征。
[0028] 具體而言,在本申請的實施例中,特征樹是基于數(shù)據(jù)庫內(nèi)已有數(shù)據(jù)對象的信息(t匕 如標(biāo)題和對應(yīng)類目)所構(gòu)建的樹增強樸素貝葉斯網(wǎng)絡(luò),其以從已有數(shù)據(jù)對象的信息中提取 的特征為節(jié)點,包含各種節(jié)點之間的拓?fù)潢P(guān)系的有向網(wǎng)絡(luò)結(jié)構(gòu)。
[0029] 在提取出待預(yù)測數(shù)據(jù)對象的對象特征之后,可以根據(jù)預(yù)先構(gòu)建的特征樹來查找若 干個對象特征中存在聯(lián)系的對象特征對以及與其它對象特征之間不存在聯(lián)系的單個對象 特征。
[0030]在本文中,"存在聯(lián)系的對象特征對"是指,在特征樹中如果節(jié)點A指向節(jié)點B,則 認(rèn)為節(jié)點A和節(jié)點B是存在聯(lián)系的對象特征對。"與其它對象特征之間不存在聯(lián)系的單個 對象特征"是指,在特征樹中如果節(jié)點C沒有指向任何其它節(jié)點,則認(rèn)為節(jié)點C是與其它對 象特征之間不存在聯(lián)系的單個對象特征。
[0031]在上述示例中,例如,從預(yù)先構(gòu)建的特征樹中查找到,在特征"供應(yīng)"、"白色"、"雪 紡"、"連衣裙CP"兩兩之間,僅特征節(jié)點"連衣裙CP"指向"雪紡",而其它特征兩兩之間都 不存在聯(lián)系(不存在指向關(guān)系),則與該待預(yù)測數(shù)據(jù)對象對應(yīng)的特征集合