一種數(shù)據(jù)分類方法及系統(tǒng)的制作方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及數(shù)據(jù)信息處理技術(shù)領(lǐng)域,特別涉及一種數(shù)據(jù)分類方法及系統(tǒng)。
【背景技術(shù)】
[0002]在現(xiàn)有的推薦系統(tǒng)(比如廣告系統(tǒng),新聞推薦系統(tǒng),或視頻推薦系統(tǒng)等)中,商家可以通過推薦系統(tǒng)定向地或不定向的將需要推薦的數(shù)據(jù)發(fā)送到各個用戶終端,從而達到推廣某一產(chǎn)品,或告知某一信息的目的。
[0003]一般情況下,推薦系統(tǒng)會基于文本分類的方法,將推薦數(shù)據(jù)進行分類,并按照類別將推薦數(shù)據(jù)發(fā)送給對應的用戶終端,比如將推薦數(shù)據(jù)按照地域進行分類,使得推薦系統(tǒng)將與某一地域相關(guān)的推薦數(shù)據(jù)只發(fā)送給該地域內(nèi)的用戶終端,這樣可以有針對性地發(fā)送推薦數(shù)據(jù)。其中,推薦數(shù)據(jù)的分類方法的主要步驟包括訓練數(shù)據(jù)準備、特征抽取、特征選擇、模型訓練和線上預測,其中訓練數(shù)據(jù)準備階段是選取訓練數(shù)據(jù)的階段,需要對待處理數(shù)據(jù)進行標注,現(xiàn)有技術(shù)中一般采用人工標注的方法,然后再根據(jù)人工標注的數(shù)據(jù)選取訓練數(shù)據(jù),在這個過程中需要大量的人力投入,成本較高。
【發(fā)明內(nèi)容】
[0004]本發(fā)明實施例提供一種數(shù)據(jù)分類方法及系統(tǒng),省去人工標注的過程,從而簡化了選取訓練數(shù)據(jù)的流程。
[0005]本發(fā)明實施例提供一種數(shù)據(jù)分類方法,包括:
[0006]分別獲取多條推薦數(shù)據(jù)的地域信息,及獲取所述多條推薦數(shù)據(jù)分別對應的用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)中包括一種用戶操作對應的用戶位置信息;
[0007]選取所述多條推薦數(shù)據(jù)中的第一推薦數(shù)據(jù)作為訓練數(shù)據(jù),所述第一推薦數(shù)據(jù)的地域信息與對應的用戶位置信息一致;
[0008]根據(jù)所述訓練數(shù)據(jù)獲取地域分類的模型文件,以對待發(fā)送推薦數(shù)據(jù)進行地域分類。
[0009]本發(fā)明實施例中還提供一種數(shù)據(jù)分類系統(tǒng),包括:
[0010]信息獲取單元,用于分別獲取多條推薦數(shù)據(jù)的地域信息,及獲取所述多條推薦數(shù)據(jù)分別對應的用戶行為數(shù)據(jù),所述用戶行為數(shù)據(jù)中包括一種用戶操作對應的用戶位置信息;
[0011]選取單元,用于選取所述多條推薦數(shù)據(jù)中的第一推薦數(shù)據(jù)作為訓練數(shù)據(jù),所述第一推薦數(shù)據(jù)的地域信息與對應的用戶位置信息一致;
[0012]文件獲取單元,用于根據(jù)所述選取單元選取的訓練數(shù)據(jù)獲取地域分類的模型文件,以對待發(fā)送推薦數(shù)據(jù)進行地域分類。
[0013]可見,在本發(fā)明實施例中,推薦系統(tǒng)在獲取對待發(fā)送推薦數(shù)據(jù)進行地域分類的模型文件時,會直接對已經(jīng)發(fā)送的推薦數(shù)據(jù)的地域信息,與各個用戶終端反饋的對推薦數(shù)據(jù)進行操作的用戶行為數(shù)據(jù)中的用戶位置信息進行比較,從而根據(jù)比較結(jié)果自動地選取訓練數(shù)據(jù),以便根據(jù)訓練數(shù)據(jù)得到模型文件。與現(xiàn)有技術(shù)中在選取訓練數(shù)據(jù)的過程中,采用人工標注的方法相比,本發(fā)明實施例中,推薦系統(tǒng)在選取訓練數(shù)據(jù)的過程中,直接根據(jù)獲取的信息的比較來選取訓練數(shù)據(jù),省去了人工標注的過程,從而簡化了選取訓練數(shù)據(jù)的流程。
【附圖說明】
[0014]為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
[0015]圖1是本發(fā)明實施例提供的一種數(shù)據(jù)分類方法的流程圖;
[0016]圖2是本發(fā)明實施例中推薦系統(tǒng)選取訓練數(shù)據(jù)的一種方法流程圖;
[0017]圖3是本發(fā)明實施例中推薦系統(tǒng)選取訓練數(shù)據(jù)的另一種方法流程圖;
[0018]圖4是本發(fā)明實施例提供的一種數(shù)據(jù)分類系統(tǒng)的結(jié)構(gòu)示意圖;
[0019]圖5是本發(fā)明實施例提供的另一種數(shù)據(jù)分類系統(tǒng)的結(jié)構(gòu)示意圖;
[0020]圖6是本發(fā)明實施例提供的另一種數(shù)據(jù)分類系統(tǒng)的結(jié)構(gòu)示意圖;
[0021]圖7是本發(fā)明應用實施例中的新聞推薦系統(tǒng)執(zhí)行數(shù)據(jù)分類方法的結(jié)構(gòu)示意圖。
【具體實施方式】
[0022]下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
[0023]本發(fā)明的說明書和權(quán)利要求書及上述附圖中的術(shù)語“第一”、“第二”、“第三” “第四”等(如果存在)是用于區(qū)別類似的對象,而不必用于描述特定的順序或先后次序。應該理解這樣使用的數(shù)據(jù)在適當情況下可以互換,以便這里描述的本發(fā)明的實施例例如能夠以除了在這里圖示或描述的那些以外的順序?qū)嵤?。此外,術(shù)語“包括”和“具有”以及他們的任何變形,意圖在于覆蓋不排它的包含,例如,包含了一系列步驟或單元的過程、方法、系統(tǒng)、產(chǎn)品或設備不必限于清楚地列出的那些步驟或單元,而是可包括沒有清楚地列出的或?qū)τ谶@些過程、方法、產(chǎn)品或設備固有的其它步驟或單元。
[0024]本發(fā)明實施例提供一種數(shù)據(jù)分類方法,主要是應用于推薦系統(tǒng)中,比如應用于廣告系統(tǒng),新聞推薦系統(tǒng)或視頻推薦系統(tǒng)中,本實施例的方法是推薦系統(tǒng)所執(zhí)行的方法,流程圖如圖1所示,包括:
[0025]步驟101,推薦系統(tǒng)分別獲取多條推薦數(shù)據(jù)的地域信息,及獲取多條推薦數(shù)據(jù)分別對應的用戶行為數(shù)據(jù),用戶行為數(shù)據(jù)中包括一種用戶操作對應的用戶位置信息。
[0026]可以理解,這里的推薦數(shù)據(jù)是推薦系統(tǒng)發(fā)送給各個用戶終端的數(shù)據(jù),比如在廣告系統(tǒng)中推薦數(shù)據(jù)為廣告數(shù)據(jù),在新聞推薦系統(tǒng)中推薦數(shù)據(jù)為新聞數(shù)據(jù),在視頻推薦系統(tǒng)中推薦數(shù)據(jù)為視頻數(shù)據(jù)。某一條推薦數(shù)據(jù)的地域信息是表征該推薦數(shù)據(jù)所涉及的具體內(nèi)容所在地域的信息;某一條推薦數(shù)據(jù)對應的用戶行為數(shù)據(jù)是指:當推薦系統(tǒng)將該條推薦數(shù)據(jù)發(fā)送給用戶終端后,用戶終端對該推薦數(shù)據(jù)執(zhí)行的用戶操作(比如查看,收藏,點贊等用戶操作)的數(shù)據(jù),具體可以包括用戶位置信息(即執(zhí)行用戶操作的用戶終端的位置信息)及用戶操作的信息(表示具體是哪種用戶操作的信息),且用戶行為數(shù)據(jù)還可以包括用戶標識及一些具體應用的信息等。
[0027]在具體實現(xiàn)時,推薦系統(tǒng)在獲取多條推薦數(shù)據(jù)的地域信息時,會將推薦數(shù)據(jù)的標題中的地域詞提取出來,將多條推薦數(shù)據(jù)的標題中的地域詞分別作為多條推薦數(shù)據(jù)的地域信息;如果推薦數(shù)據(jù)的標題中的地域詞有多個,則推薦數(shù)據(jù)會將推薦數(shù)據(jù)的正式文本中的地域詞提取出來,將多條推薦數(shù)據(jù)的正式文本中的地域詞分別作為多條推薦數(shù)據(jù)的地域信息;進一步地,如果推薦數(shù)據(jù)的標題中的地域詞有多個,且推薦數(shù)據(jù)的正式文本中的地域詞也有多個,則推薦數(shù)據(jù)會將推薦數(shù)據(jù)的正式文本和標題中的地域詞都提取出來,并比較正式文本和標題中的地域詞,將多條推薦數(shù)據(jù)的標題中與正式文本中一致的地域詞分別作為多條推薦數(shù)據(jù)的地域信息。
[0028]在獲取用戶行為數(shù)據(jù)時,推薦系統(tǒng)可以主動獲取用戶終端統(tǒng)計的用戶行為數(shù)據(jù),或接收用戶終端主動上報的用戶行為數(shù)據(jù)。由于一條推薦數(shù)據(jù)是發(fā)送給多個用戶終端的,則推薦系統(tǒng)得到的用戶行為數(shù)據(jù)中包括執(zhí)行用戶操作的多個用戶終端的用戶位置信息,且這些用戶終端的用戶操作也可能不同,比如查看推薦數(shù)據(jù),或是收藏推薦數(shù)據(jù)。而在本實施例中,推薦系統(tǒng)會選擇某一種用戶操作(比如查看推薦數(shù)據(jù))對應的多個用戶終端的用戶位置信息,如果這多個用戶終端中N個以上的用戶終端的用戶位置信息一致,則將這N個以上的用戶終端的用戶位置信息作為最終結(jié)果。
[0029]步驟102,推薦系統(tǒng)選取多條推薦數(shù)據(jù)中的第一推薦數(shù)據(jù)作為訓練數(shù)據(jù),其中,第一推薦數(shù)據(jù)的地域信息與對應的用戶位置信息一致。
[0030]推薦系統(tǒng)會根據(jù)步驟101中獲取的每條推薦數(shù)據(jù)的地域信息和對應的用戶位置信息,確定該條推薦數(shù)據(jù)是否可以作為第一推薦數(shù)據(jù)。
[0031]步驟103,推薦系統(tǒng)根據(jù)上述步驟102中得到的訓練數(shù)據(jù)獲取地域分類的模型文件,以對待發(fā)送推薦數(shù)據(jù)進行地域分類。其中,推薦系統(tǒng)具體可以通過對訓練數(shù)據(jù)進行特征抽取和模型訓練的步驟后得到模型文件,進一步地,為了使得得到的模型文件更準確,更能反映訓練數(shù)據(jù)的實際情況,推薦系統(tǒng)在獲取模型文件的過程中,還可以在特征抽取后進行特征選擇,過濾掉高噪音和冗余的特征。
[0032]推薦系統(tǒng)最終得到的模型文件主要描述了各個地域的推薦數(shù)據(jù)的特征約束條件,這樣推薦系統(tǒng)就可以根據(jù)這些特征約束條件來確定某條待發(fā)送推薦數(shù)據(jù)是哪個地域的推薦數(shù)據(jù),即將待發(fā)送推薦數(shù)據(jù)歸入該地域的推薦數(shù)據(jù)中,從而可以將待發(fā)送推薦數(shù)據(jù)的地域分類作為精準投放的一個參考依據(jù),比如將某個地域的待發(fā)送推薦數(shù)據(jù)發(fā)送給該地域部署的用戶終端,而不是發(fā)送給所有的用戶終端。
[0033]可以理解的是,上述步驟101到103中的操