本發(fā)明涉及網(wǎng)絡(luò)數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其涉及一種信息處理方法及裝置。
背景技術(shù):
隨著信息技術(shù)的不斷發(fā)展,互聯(lián)網(wǎng)已深入到各個(gè)領(lǐng)域,涌現(xiàn)出大量的購物平臺(tái)、外賣平臺(tái)、打車平臺(tái)等網(wǎng)絡(luò)信息平臺(tái)。這些網(wǎng)絡(luò)信息平臺(tái)上活動(dòng)(例如各種促銷活動(dòng))眾多,所產(chǎn)生的數(shù)據(jù)(即活動(dòng)描述信息)往往種類繁多,信息量很大,若要從中挖掘出有價(jià)值的內(nèi)容并非易事。
在現(xiàn)有技術(shù)中,為了從眾多數(shù)據(jù)中挖掘出有價(jià)值的內(nèi)容,往往需要?jiǎng)佑萌斯みM(jìn)行調(diào)研和分析,經(jīng)過數(shù)據(jù)篩選最后提煉出有價(jià)值的信息。發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中發(fā)現(xiàn),由于分析的工作量很大,使得現(xiàn)有技術(shù)中的這類方案成本較高,且周期較長,時(shí)效性差,無法應(yīng)對(duì)當(dāng)前網(wǎng)絡(luò)信息的快速變化。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種信息處理方法及裝置,以提高網(wǎng)絡(luò)信息平臺(tái)上的數(shù)據(jù)挖掘效率。
根據(jù)本發(fā)明實(shí)施例的第一方面,提供一種信息處理方法,所述方法包括:
獲取第一信息的多種分類及分類規(guī)則,其中每種分類對(duì)應(yīng)一個(gè)編碼;
根據(jù)所述分類規(guī)則對(duì)每個(gè)對(duì)象的第一信息進(jìn)行分類;
根據(jù)所述對(duì)象所涉及的分類對(duì)應(yīng)的編碼,生成所述對(duì)象的總編碼;
對(duì)所有總編碼進(jìn)行聚類以完成信息處理。
可選的,所述第一信息為用于描述所述對(duì)象所涉及的活動(dòng)的活動(dòng)描述信息。
可選的,所述獲取第一信息的多種分類和分類規(guī)則,包括:
收集所述第一信息;
對(duì)所述第一信息進(jìn)行文本規(guī)整處理;
從經(jīng)過文本規(guī)整處理后的第一信息中抽取出關(guān)鍵詞;
根據(jù)所述關(guān)鍵詞確定所述第一信息的多種分類及分類規(guī)則。
可選的,所述編碼采用二進(jìn)制比特位的編碼方式。
可選的,所述根據(jù)所述對(duì)象所涉及的分類對(duì)應(yīng)的編碼,生成所述對(duì)象的總編碼,包括:
根據(jù)預(yù)設(shè)規(guī)則將所述對(duì)象所涉及的分類對(duì)應(yīng)的編碼進(jìn)行疊加或串聯(lián),以得到所述對(duì)象的總編碼。
可選的,所述對(duì)所有總編碼進(jìn)行聚類,包括:
根據(jù)
獲取總編碼兩兩之間的距離d(x,y),其中,i=0,1,…,n-1,n為總編碼的比特位總數(shù),x[i]、y[i]分別表示兩個(gè)總編碼第i比特位上的值,w[i]表示第i比特位對(duì)應(yīng)的權(quán)重,
根據(jù)總編碼兩兩之間的距離,對(duì)總編碼進(jìn)行聚類。
根據(jù)本發(fā)明實(shí)施例的第二方面,提供一種信息處理裝置,所述裝置包括:
分類準(zhǔn)備模塊,用于獲取第一信息的多種分類及分類規(guī)則,其中每種分類對(duì)應(yīng)一個(gè)編碼;
分類模塊,用于根據(jù)所述分類規(guī)則對(duì)每個(gè)對(duì)象的第一信息進(jìn)行分類;
編碼模塊,用于根據(jù)所述對(duì)象所涉及的分類對(duì)應(yīng)的編碼,生成所述對(duì)象的總編碼;
聚類模塊,用于對(duì)所有總編碼進(jìn)行聚類以完成信息處理。
可選的,所述第一信息為用于描述所述對(duì)象所涉及的活動(dòng)的活動(dòng)描述信息。
可選的,所述分類準(zhǔn)備模塊包括:
信息收集子模塊,用于收集所述第一信息;
文本規(guī)整子模塊,用于對(duì)所述第一信息進(jìn)行文本規(guī)整處理;
關(guān)鍵詞抽取子模塊,用于從經(jīng)過文本規(guī)整處理后的第一信息中抽取出關(guān)鍵詞;
分類及規(guī)則確定子模塊,用于根據(jù)所述關(guān)鍵詞確定所述第一信息的多種分類及分類規(guī)則。
可選的,所述編碼采用二進(jìn)制比特位的編碼方式。
可選的,所述編碼模塊用于:
根據(jù)預(yù)設(shè)規(guī)則將所述對(duì)象所涉及的分類對(duì)應(yīng)的編碼進(jìn)行疊加或串聯(lián),以得到所述對(duì)象的總編碼。
可選的,所述聚類模塊用于:
根據(jù)
獲取總編碼兩兩之間的距離d(x,y),其中,i=0,1,…,n-1,n為總編碼的比特位總數(shù),x[i]、y[i]分別表示兩個(gè)總編碼第i比特位上的值,w[i]表示第i比特位對(duì)應(yīng)的權(quán)重,
根據(jù)總編碼兩兩之間的距離,對(duì)總編碼進(jìn)行聚類。
本發(fā)明的實(shí)施例提供的技術(shù)方案可以包括以下有益效果:
發(fā)明人在實(shí)現(xiàn)本發(fā)明的過程中發(fā)現(xiàn),數(shù)據(jù)挖掘的重要步驟是數(shù)據(jù)的聚類,當(dāng)實(shí)現(xiàn)了聚類后再進(jìn)行分析就方便很多了。因此本發(fā)明實(shí)施例對(duì)網(wǎng)絡(luò)信息平臺(tái)上所產(chǎn)生的第一信息(例如活動(dòng)描述信息)進(jìn)行分類并獲取每種分類的分類規(guī)則,且對(duì)為每種分類定義各自的編碼,然后根據(jù)分類規(guī)則得到每個(gè)對(duì)象(例如商家)的第一信息的分類,進(jìn)而得到每個(gè)對(duì)象的多個(gè)編碼,再對(duì)每個(gè)對(duì)象的多個(gè)編碼進(jìn)行整合,從而得到每個(gè)對(duì)象的總編碼。這樣便可以對(duì)眾多總編碼實(shí)施聚類,從而實(shí)現(xiàn)了對(duì)象的聚類,進(jìn)而可大大提高網(wǎng)絡(luò)信息平臺(tái)上的數(shù)據(jù)挖掘的效率,節(jié)省信息處理時(shí)間。
應(yīng)當(dāng)理解的是,以上的一般描述和后文的細(xì)節(jié)描述僅是示例性和解釋性的,并不能限制本發(fā)明。
附圖說明
為了更清楚地說明本發(fā)明實(shí)施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對(duì)實(shí)施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,對(duì)于本領(lǐng)域普通技術(shù)人員而言,在不付出創(chuàng)造性勞動(dòng)性的前提下,還可以根據(jù)這些附圖獲得其他的附圖。此外,這些介紹并不構(gòu)成對(duì)實(shí)施例的限定,附圖中具有相同參考數(shù)字標(biāo)號(hào)的元件表示為類似的元件,除非有特別申明,附圖中的圖不構(gòu)成比例限制。
圖1是根據(jù)本發(fā)明一示例性實(shí)施例示出的一種信息處理方法的流程圖;
圖2是根據(jù)本發(fā)明一示例性實(shí)施例示出的一種信息處理方法的流程圖;
圖3是根據(jù)本發(fā)明一示例性實(shí)施例示出的一種信息處理裝置的示意圖;
圖4是根據(jù)本發(fā)明一示例性實(shí)施例示出的一種信息處理裝置的示意圖。
具體實(shí)施方式
這里將詳細(xì)地對(duì)示例性實(shí)施例進(jìn)行說明,其示例表示在附圖中。下面的描述涉及附圖時(shí),除非另有表示,不同附圖中的相同數(shù)字表示相同或相似的要素。以下示例性實(shí)施例中所描述的實(shí)施方式并不代表與本發(fā)明相一致的所有實(shí)施方式。相反,它們僅是與如所附權(quán)利要求書中所詳述的、本發(fā)明的一些方面相一致的裝置和方法的例子。
圖1是根據(jù)本發(fā)明一示例性實(shí)施例示出的一種信息處理方法的流程圖。該方法例如可以用于個(gè)人電腦或服務(wù)器等設(shè)備。
參見圖1所示,該方法可以包括如下步驟:
步驟s101,獲取第一信息的多種分類及分類規(guī)則,其中每種分類對(duì)應(yīng)一個(gè)編碼。
對(duì)于各種網(wǎng)絡(luò)信息平臺(tái),例如購物平臺(tái)、外賣平臺(tái)、打車平臺(tái)等,這些網(wǎng)絡(luò)信息平臺(tái)上會(huì)經(jīng)常產(chǎn)生活動(dòng),如各種促銷活動(dòng),或者說是營銷活動(dòng)。營銷活動(dòng),通常是指商家為提高單量、流水、知名度而提供的滿減、立減、新用戶立減、打折、專送、免配送費(fèi)等刺激用戶消費(fèi)而推出的優(yōu)惠活動(dòng)。
這些網(wǎng)絡(luò)平臺(tái)上可以有眾多對(duì)象。作為示例,對(duì)象可以是網(wǎng)絡(luò)信息平臺(tái)上的商品\服務(wù)的提供方,如商家等。所述第一信息可以為用于描述所述對(duì)象所涉及的活動(dòng)的活動(dòng)描述信息。
對(duì)于這些活動(dòng),雖然表面上看是營銷,但是實(shí)際上從技術(shù)上看則是信息或信息集合,換句話說,一個(gè)活動(dòng)其實(shí)就是使用一種信息或一組信息來描述的事物,本實(shí)施例中將用于對(duì)活動(dòng)進(jìn)行描述的一種信息或一組信息稱為活動(dòng)描述信息,對(duì)活動(dòng)的處理反映到技術(shù)上其實(shí)就是對(duì)活動(dòng)描述信息的處理?;顒?dòng)描述信息例如可以以“文字”結(jié)合“數(shù)值”等形式存在,如“立減20”、“打85折”等。可以通過人工收集網(wǎng)絡(luò)信息平臺(tái)上的各對(duì)象的各種活動(dòng)描述信息,也可以通過網(wǎng)絡(luò)爬蟲自動(dòng)收集,等等。
可以獲取到(例如預(yù)設(shè))這些活動(dòng)描述信息的分類(例如分類可以歸為“新用戶活動(dòng)”、“立減活動(dòng)”、“在線支付活動(dòng)”等多種類型),以及每種分類的分類規(guī)則。對(duì)于具體的分類及每種分類的分類規(guī)則本實(shí)施例并不進(jìn)行限制,本領(lǐng)域技術(shù)人員可以根據(jù)不同需求\不同場(chǎng)景而自行設(shè)計(jì),可以在此處使用的這些設(shè)計(jì)都沒有背離本發(fā)明的精神和保護(hù)范圍。
作為示例可參見圖2所示,獲取第一信息的多種分類及分類規(guī)則,可以包括以下子步驟:
步驟s1011,收集所述第一信息。
例如,可以通過人工收集網(wǎng)絡(luò)信息平臺(tái)上的第一信息,也可以通過網(wǎng)絡(luò)爬蟲自動(dòng)收集,等等。
步驟s1012,對(duì)所述第一信息進(jìn)行文本規(guī)整處理。
例如,文本規(guī)整處理可以包括切詞處理、停止詞剔除處理,等等。
步驟s1013,從經(jīng)過文本規(guī)整處理后的第一信息中抽取出關(guān)鍵詞。
例如,可以從“新用戶首單立減10元(在線支付專享)”這一活動(dòng)描述信息中抽取出“新用戶”、“首單”、“立減n”、“在線支付”、“專享”等關(guān)鍵詞,其中n以變量的形式代表立減的數(shù)值。
步驟s1014,根據(jù)所述關(guān)鍵詞確定所述第一信息的多種分類及分類規(guī)則。
例如,將得到的關(guān)鍵詞合并后可以生成“新用戶活動(dòng)”、“立減活動(dòng)”、“在線支付活動(dòng)”等活動(dòng)分類。活動(dòng)分類確定后,根據(jù)每類所含活動(dòng)描述信息,可以進(jìn)一步生成具體的分類規(guī)則。
舉例來講,滿減活動(dòng)的一條分類規(guī)則可以配置為“菜&&滿x&&減n”,即如果活動(dòng)描述信息中同時(shí)出現(xiàn)“某某菜品”、“滿x”“減n”則滿足滿減活動(dòng)的提取規(guī)則,則該活動(dòng)描述信息即屬于滿減活動(dòng)這一分類。
步驟s102,根據(jù)所述分類規(guī)則對(duì)每個(gè)對(duì)象的第一信息進(jìn)行分類。
活動(dòng)描述信息及其分類通常都是通過文字表述的,不利于聚類計(jì)算。為了實(shí)現(xiàn)聚類,本發(fā)明中對(duì)每種分類定義各自的編碼,然后以編碼代替每類活動(dòng)描述信息,從而參與聚類。對(duì)于編碼的形式本實(shí)施例也并不進(jìn)行限制,例如可以是數(shù)字編碼、字符編碼等。
步驟s103,根據(jù)所述對(duì)象所涉及的分類對(duì)應(yīng)的編碼,生成所述對(duì)象的總編碼。
例如,一個(gè)對(duì)象可以開展各種活動(dòng),故一個(gè)對(duì)象可以擁有一條或多條活動(dòng)描述信息,分類后便可以得到一個(gè)或多個(gè)編碼,進(jìn)而一個(gè)對(duì)象可以涉及一個(gè)或多個(gè)編碼。根據(jù)一個(gè)對(duì)象所涉及的一個(gè)或多個(gè)編碼可以進(jìn)一步得到該對(duì)象的總編碼。
步驟s104,對(duì)所有總編碼進(jìn)行聚類以完成信息處理。
對(duì)于聚類時(shí)所采用的具體聚類算法,本實(shí)施例并不進(jìn)行限制,本領(lǐng)域技術(shù)人員可以根據(jù)不同需求\不同場(chǎng)景而自行設(shè)計(jì),可以在此處使用的這些設(shè)計(jì)都沒有背離本發(fā)明的精神和保護(hù)范圍。
對(duì)總編碼聚類后,也即對(duì)眾多對(duì)象聚類后,便可以采取進(jìn)一步的分析處理。
舉例來講,可以進(jìn)行銷售線索挖掘。銷售線索挖掘是在營銷活動(dòng)聚類的基礎(chǔ)上挖掘出有價(jià)值的銷售線索。例如可以進(jìn)行:
1)營銷活動(dòng)比對(duì)。在不同城市、商圈、營業(yè)時(shí)間、商戶類型、競(jìng)爭(zhēng)對(duì)手平臺(tái)等層面進(jìn)行營銷活動(dòng)類型和力度的比對(duì),將比對(duì)的結(jié)果按營銷活動(dòng)差異的程度進(jìn)行排序和存儲(chǔ)。
2)銷售線索發(fā)現(xiàn)。配置銷售線索發(fā)現(xiàn)的規(guī)則,用這些規(guī)則去檢索營銷活動(dòng)比對(duì)生成的結(jié)果,自動(dòng)產(chǎn)出銷售線索。例如可以配置當(dāng)競(jìng)爭(zhēng)對(duì)手活動(dòng)力度大于本產(chǎn)品商戶時(shí),即可以產(chǎn)生營銷活動(dòng)力度優(yōu)化的銷售線索。
3)營銷活動(dòng)可視化。在城市、商圈、競(jìng)爭(zhēng)對(duì)手平臺(tái)等層面可視化展示商戶的營銷活動(dòng)的情況,方便城市經(jīng)理了解商戶的營銷活動(dòng),人工提取出銷售線索。
實(shí)現(xiàn)聚類是數(shù)據(jù)挖掘中非常重要的步驟,為此本實(shí)施例對(duì)活動(dòng)描述信息進(jìn)行分類并獲取每種分類的分類規(guī)則,并對(duì)為每種分類定義各自的編碼,然后根據(jù)分類規(guī)則得到每個(gè)對(duì)象(例如商家)的活動(dòng)描述信息的分類,進(jìn)而得到每個(gè)對(duì)象的多個(gè)編碼,再對(duì)每個(gè)對(duì)象的多個(gè)編碼進(jìn)行整合,得到每個(gè)對(duì)象的總編碼,這樣便可以對(duì)眾多總編碼實(shí)施聚類,從而大大提高了數(shù)據(jù)挖掘的效率,節(jié)省了信息處理時(shí)間。
進(jìn)一步的,隨著餐飲外賣o2o等的發(fā)展,新的模式提供了新的銷售線索挖掘方式,基于銷售活動(dòng)聚類的銷售線索挖掘能夠在下面幾個(gè)方面帶來收益:
營銷活動(dòng)及時(shí)跟蹤。能夠迅速跟蹤本平臺(tái)商戶和競(jìng)爭(zhēng)對(duì)手平臺(tái)商戶營銷活動(dòng)的變化和差異,及時(shí)調(diào)整營銷活動(dòng)策略。
活動(dòng)力度精細(xì)化運(yùn)營??梢愿鶕?jù)競(jìng)爭(zhēng)對(duì)手商戶和商圈內(nèi)同類型商戶的營銷活動(dòng)力度推出適當(dāng)?shù)幕顒?dòng)力度,避免資源浪費(fèi)。
銷售線索自動(dòng)挖掘。由于對(duì)營銷活動(dòng)進(jìn)行了整合和聚類,產(chǎn)出的數(shù)據(jù)可以根據(jù)銷售線索規(guī)則進(jìn)行檢索,自動(dòng)挖掘銷售線索。
實(shí)施例二
本實(shí)施例基于實(shí)施例一,是在實(shí)施例一基礎(chǔ)上所作的進(jìn)一步深化或優(yōu)化。
在本實(shí)施例中,所述編碼可以采用二進(jìn)制比特位的編碼方式。
作為示例,可以為每種活動(dòng)分類設(shè)置一個(gè)type值,具體如下:
表1
type值即是該活動(dòng)分類對(duì)應(yīng)的二進(jìn)制的bit位,例如滿減活動(dòng)對(duì)應(yīng)編碼的右起第一個(gè)bit位,活動(dòng)編碼值為1,折扣活動(dòng)對(duì)應(yīng)第三個(gè)bit位,活動(dòng)編碼為4。
進(jìn)一步的,還可以定義活動(dòng)優(yōu)先級(jí)。基于需要及活動(dòng)的重要性,不同活動(dòng)的優(yōu)先級(jí)可以是不一樣的。例如可以定義低bit位的活動(dòng)優(yōu)先級(jí)高,高bit位的活動(dòng)優(yōu)先級(jí)低,在后續(xù)進(jìn)行聚類的時(shí)候,可以令低bit位的活動(dòng)的權(quán)值大于高bit位的權(quán)值。
在本實(shí)施例中或本發(fā)明其他某些實(shí)施例中,根據(jù)所述對(duì)象所涉及的分類對(duì)應(yīng)的編碼,生成所述對(duì)象的總編碼,可以包括:
根據(jù)預(yù)設(shè)規(guī)則將所述對(duì)象所涉及的分類對(duì)應(yīng)的編碼進(jìn)行疊加或串聯(lián),以得到所述對(duì)象的總編碼。
例如,可以規(guī)定每個(gè)編碼和總編碼的bit位數(shù)量都一樣,例如都為10位,如果一個(gè)商家的活動(dòng)編碼有0000001000和0000000011,那么疊加之后便可以得到該商家的總編碼為0000001011。
又例如,可以規(guī)定活動(dòng)編碼bit位為3位,每個(gè)商家的活動(dòng)不超過3個(gè),總編碼為9位,那么如果一個(gè)商家的活動(dòng)編碼有010、100、101,則串聯(lián)后得到的該商家的總編碼可以為010100101。
對(duì)于編碼、總編碼的具體定義,以及如何通過疊加或串聯(lián)或其他方式得到總編碼,本實(shí)施例均不進(jìn)行限制,本領(lǐng)域技術(shù)人員完全可以根據(jù)不同需求\不同場(chǎng)景而自行設(shè)計(jì),可以在此處使用的這些設(shè)計(jì)都沒有背離本發(fā)明的精神和保護(hù)范圍。
在本實(shí)施例中或本發(fā)明其他某些實(shí)施例中,所述對(duì)所有總編碼進(jìn)行聚類,可以包括:
根據(jù)
獲取總編碼兩兩之間的距離d(x,y),其中,i=0,1,…,n-1,n為總編碼的比特位總數(shù),x[i]、y[i]分別表示兩個(gè)總編碼第i比特位上的值,w[i]表示第i比特位對(duì)應(yīng)的權(quán)重,
根據(jù)總編碼兩兩之間的距離,對(duì)總編碼進(jìn)行聚類。
下述為本發(fā)明裝置實(shí)施例,可以用于執(zhí)行本發(fā)明方法實(shí)施例。對(duì)于本發(fā)明裝置實(shí)施例中未披露的細(xì)節(jié),請(qǐng)參照本發(fā)明方法實(shí)施例。
實(shí)施例三
圖3是根據(jù)本發(fā)明一示例性實(shí)施例示出的一種信息處理裝置的示意圖。該裝置例如可以用于個(gè)人電腦或服務(wù)器等設(shè)備。
參見圖3所示,該裝置可以包括:
分類準(zhǔn)備模塊301,用于獲取第一信息的多種分類及分類規(guī)則,其中每種分類對(duì)應(yīng)一個(gè)編碼。
對(duì)于各種網(wǎng)絡(luò)信息平臺(tái),例如購物平臺(tái)、外賣平臺(tái)、打車平臺(tái)等,這些網(wǎng)絡(luò)信息平臺(tái)上會(huì)經(jīng)常產(chǎn)生活動(dòng),如各種促銷活動(dòng),或者說是營銷活動(dòng)。營銷活動(dòng),通常是指商家為提高單量、流水、知名度而提供的滿減、立減、新用戶立減、打折、專送、免配送費(fèi)等刺激用戶消費(fèi)而推出的優(yōu)惠活動(dòng)。
這些網(wǎng)絡(luò)平臺(tái)上可以有眾多對(duì)象。作為示例,對(duì)象可以是網(wǎng)絡(luò)信息平臺(tái)上的商品\服務(wù)的提供方,如商家等。所述第一信息可以為用于描述所述對(duì)象所涉及的活動(dòng)的活動(dòng)描述信息。
在本實(shí)施例或本發(fā)明其他某些實(shí)施例中,所述編碼可以采用二進(jìn)制比特位的編碼方式。
分類模塊302,用于根據(jù)所述分類規(guī)則對(duì)每個(gè)對(duì)象的第一信息進(jìn)行分類。
活動(dòng)描述信息及其分類通常都是通過文字表述的,不利于聚類計(jì)算。為了實(shí)現(xiàn)聚類,本發(fā)明中對(duì)每種分類定義各自的編碼,然后以編碼代替每類活動(dòng)描述信息,從而參與聚類。對(duì)于編碼的形式本實(shí)施例也并不進(jìn)行限制,例如可以是數(shù)字編碼、字符編碼等。
編碼模塊303,用于根據(jù)所述對(duì)象所涉及的分類對(duì)應(yīng)的編碼,生成所述對(duì)象的總編碼。
例如,一個(gè)對(duì)象可以開展各種活動(dòng),故一個(gè)對(duì)象可以擁有一條或多條活動(dòng)描述信息,分類后便可以得到一個(gè)或多個(gè)編碼,進(jìn)而一個(gè)對(duì)象可以涉及一個(gè)或多個(gè)編碼。根據(jù)一個(gè)對(duì)象所涉及的一個(gè)或多個(gè)編碼可以進(jìn)一步得到該對(duì)象的總編碼。
聚類模塊304,用于對(duì)所有總編碼進(jìn)行聚類以完成信息處理。
對(duì)于聚類時(shí)所采用的具體聚類算法,本實(shí)施例并不進(jìn)行限制,本領(lǐng)域技術(shù)人員可以根據(jù)不同需求\不同場(chǎng)景而自行設(shè)計(jì),可以在此處使用的這些設(shè)計(jì)都沒有背離本發(fā)明的精神和保護(hù)范圍。
參見圖4所示,在本實(shí)施例或本發(fā)明其他某些實(shí)施例中,所述分類準(zhǔn)備模塊301可以包括:
信息收集子模塊3011,用于收集所述第一信息。
例如,可以通過人工收集網(wǎng)絡(luò)信息平臺(tái)上的第一信息,也可以通過網(wǎng)絡(luò)爬蟲自動(dòng)收集,等等。
文本規(guī)整子模塊3012,用于對(duì)所述第一信息進(jìn)行文本規(guī)整處理。
例如,文本規(guī)整處理可以包括切詞處理、停止詞剔除處理,等等。
關(guān)鍵詞抽取子模塊3013,用于從經(jīng)過文本規(guī)整處理后的第一信息中抽取出關(guān)鍵詞。
例如,可以從“新用戶首單立減10元(在線支付專享)”這一活動(dòng)描述信息中抽取出“新用戶”、“首單”、“立減n”、“在線支付”、“專享”等關(guān)鍵詞,其中n以變量的形式代表立減的數(shù)值。
分類及規(guī)則確定子模塊3014,用于根據(jù)所述關(guān)鍵詞確定所述第一信息的多種分類及分類規(guī)則。
例如,將得到的關(guān)鍵詞合并后可以生成“新用戶活動(dòng)”、“立減活動(dòng)”、“在線支付活動(dòng)”等活動(dòng)分類?;顒?dòng)分類確定后,根據(jù)每類所含活動(dòng)描述信息,可以進(jìn)一步生成具體的分類規(guī)則。
在本實(shí)施例或本發(fā)明其他某些實(shí)施例中,所述編碼模塊303可以用于:
根據(jù)預(yù)設(shè)規(guī)則將所述對(duì)象所涉及的分類對(duì)應(yīng)的編碼進(jìn)行疊加或串聯(lián),以得到所述對(duì)象的總編碼。
對(duì)于編碼、總編碼的具體定義,以及如何通過疊加或串聯(lián)或其他方式得到總編碼,本實(shí)施例均不進(jìn)行限制,本領(lǐng)域技術(shù)人員完全可以根據(jù)不同需求\不同場(chǎng)景而自行設(shè)計(jì),可以在此處使用的這些設(shè)計(jì)都沒有背離本發(fā)明的精神和保護(hù)范圍。
在本實(shí)施例或本發(fā)明其他某些實(shí)施例中,所述聚類模塊304可以用于:
根據(jù)
獲取總編碼兩兩之間的距離d(x,y),其中,i=0,1,…,n-1,n為總編碼的比特位總數(shù),x[i]、y[i]分別表示兩個(gè)總編碼第i比特位上的值,w[i]表示第i比特位對(duì)應(yīng)的權(quán)重,
根據(jù)總編碼兩兩之間的距離,對(duì)總編碼進(jìn)行聚類。
實(shí)現(xiàn)聚類是數(shù)據(jù)挖掘中非常重要的步驟,為此本實(shí)施例對(duì)活動(dòng)描述信息進(jìn)行分類并獲取每種分類的分類規(guī)則,并對(duì)為每種分類定義各自的編碼,然后根據(jù)分類規(guī)則得到每個(gè)對(duì)象(例如商家)的活動(dòng)描述信息的分類,進(jìn)而得到每個(gè)對(duì)象的多個(gè)編碼,再對(duì)每個(gè)對(duì)象的多個(gè)編碼進(jìn)行整合,得到每個(gè)對(duì)象的總編碼,這樣便可以對(duì)眾多總編碼實(shí)施聚類,從而大大提高了數(shù)據(jù)挖掘的效率,節(jié)省了信息處理時(shí)間。
關(guān)于上述實(shí)施例中的裝置,其中各個(gè)單元\模塊執(zhí)行操作的具體方式已經(jīng)在有關(guān)該方法的實(shí)施例中進(jìn)行了詳細(xì)描述,此處將不做詳細(xì)闡述說明。
本領(lǐng)域技術(shù)人員在考慮說明書及實(shí)踐這里公開的發(fā)明后,將容易想到本發(fā)明的其它實(shí)施方案。本申請(qǐng)旨在涵蓋本發(fā)明的任何變型、用途或者適應(yīng)性變化,這些變型、用途或者適應(yīng)性變化遵循本發(fā)明的一般性原理并包括本發(fā)明未公開的本技術(shù)領(lǐng)域中的公知常識(shí)或慣用技術(shù)手段。說明書和實(shí)施例僅被視為示例性的,本發(fā)明的真正范圍和精神由所附的權(quán)利要求指出。
應(yīng)當(dāng)理解的是,本發(fā)明并不局限于上面已經(jīng)描述并在附圖中示出的精確結(jié)構(gòu),并且可以在不脫離其范圍進(jìn)行各種修改和改變。本發(fā)明的范圍僅由所附的權(quán)利要求來限制。