本發(fā)明實施例涉及互聯(lián)網(wǎng)技術(shù)領(lǐng)域,尤其涉及一種電話號碼分類識別方法、裝置、設(shè)備及存儲介質(zhì)。
背景技術(shù):
隨著移動終端的應(yīng)用和普及,詐騙、保險、推銷等騷擾電話已經(jīng)成為困擾用戶日常生活的一個嚴重問題。雖然大多數(shù)移動終端通過黑名單可以實現(xiàn)騷擾電話的識別或者攔截,但是準確率和召回率普遍較低。
近年來,隨著云技術(shù)的不斷發(fā)展,一些改進的電話標記系統(tǒng)應(yīng)運而生。其中,通過眾包的方式,引導(dǎo)廣大用戶在移動終端對陌生號碼進行標記,同時將標記號碼數(shù)據(jù)傳輸至云端服務(wù)器進行存儲計算成為了主導(dǎo)。
但是,目前已有解決方案都依賴用戶標記的數(shù)據(jù),大量用戶沒有標記的意愿;同時會有部分用戶惡意標記號碼,這樣就會造成標記的數(shù)據(jù)不夠準確,從而導(dǎo)致陌生電話分類識別的準確率和召回率較低。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例提供一種電話號碼分類識別方法、裝置、設(shè)備及存儲介質(zhì),可以提高陌生電話分類識別的準確率和召回率。
第一方面,本發(fā)明實施例提供了一種電話號碼分類識別方法,該方法包括:
獲取待識別電話號碼的第一歷史通電行為數(shù)據(jù);
根據(jù)所述第一歷史通電行為數(shù)據(jù)確定所述待識別電話號碼的類別。
第二方面,本發(fā)明實施例還提供了一種電話號碼分類識別裝置,該裝置包括:
數(shù)據(jù)獲取模塊,用于獲取待識別電話號碼的第一歷史通電行為數(shù)據(jù);
號碼識別模塊,用于根據(jù)所述第一歷史通電行為數(shù)據(jù)確定所述待識別電話號碼的類別。
第三方面,本發(fā)明實施例還提供了一種設(shè)備,包括:
一個或多個處理器;
存儲裝置,用于存儲一個或多個程序,
當所述一個或多個程序被所述一個或多個處理器執(zhí)行,使得所述一個或多個處理器實現(xiàn)本發(fā)明實施例任一所述的電話號碼分類識別方法。
第四方面,本發(fā)明實施例還提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)本發(fā)明實施例任一所述的電話號碼分類識別方法。
本發(fā)明實施例通過根據(jù)待識別電話號碼的歷史通電行為數(shù)據(jù)確定所述待識別電話號碼的類別,由于歷史通電行為數(shù)據(jù)在一定程度上能夠反應(yīng)該電話號碼的一些分類特征,因此通過歷史通電行為數(shù)據(jù)進行電話號碼分類識別,可以提高陌生電話分類識別的準確率和召回率。
附圖說明
圖1是本發(fā)明實施例一提供的一種電話號碼分類識別方法的流程圖;
圖2a是本發(fā)明實施例二提供的一種電話號碼分類識別方法的流程圖;
圖2b是本發(fā)明實施例二提供的一種電話號碼分類識別方法中的號碼標記界面示意圖;
圖2c是本發(fā)明實施例二提供的一種電話號碼分類識別方法中的號碼分類示意圖;
圖3是本發(fā)明實施例三提供的一種電話號碼分類識別方法的流程圖;
圖4是本發(fā)明實施例四提供的一種電話號碼分類識別裝置的結(jié)構(gòu)圖;
圖5是本發(fā)明實施例五提供的一種計算機設(shè)備的結(jié)構(gòu)示意圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚,下面結(jié)合附圖對本發(fā)明具體實施例作進一步的詳細描述??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋本發(fā)明,而非對本發(fā)明的限定。
另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部內(nèi)容。在更加詳細地討論示例性實施例之前應(yīng)當提到的是,一些示例性實施例被描述成作為流程圖描繪的處理或方法。雖然流程圖將各項操作(或步驟)描述成順序的處理,但是其中的許多操作可以被并行地、并發(fā)地或者同時實施。此外,各項操作的順序可以被重新安排。當其操作完成時所述處理可以被終止,但是還可以具有未包括在附圖中的附加步驟。所述處理可以對應(yīng)于方法、函數(shù)、規(guī)程、子例程、子程序等等。
實施例一
圖1為本發(fā)明實施例一提供的一種電話號碼分類識別方法的流程圖,本實施例可適用于對陌生電話號碼進行分類識別的情況,該方法可以由本發(fā)明實施例提供的電話號碼分類識別裝置來執(zhí)行,該裝置可采用軟件和/或硬件的方式實現(xiàn),該裝置可集成在終端設(shè)備中或終端設(shè)備的應(yīng)用端中。其中,終端設(shè)備可以為但不限于為移動終端(平板電腦或智能手機)、固定終端(臺式電腦或筆記本)。
其中,應(yīng)用端可以為內(nèi)嵌于終端設(shè)備中的某個客戶端的插件,或者為所述終端設(shè)備的操作系統(tǒng)的插件,與內(nèi)嵌于終端設(shè)備中的電話號碼分類識別客戶端或者終端設(shè)備的操作系統(tǒng)中的電話號碼分類識別應(yīng)用程序配合使用;應(yīng)用端也可以為所述終端設(shè)備中一個獨立的可提供電話號碼分類識別的客戶端,本實施例對此不進行限制。
如圖1所述,本實施例的方法具體包括:
s101、獲取待識別電話號碼的第一歷史通電行為數(shù)據(jù)。
其中,第一歷史通電行為數(shù)據(jù)可包含以下至少一項數(shù)據(jù):電話號碼、呼出時間、呼入時間、號碼歸屬地、呼出地、呼入地、累計呼出總次數(shù)、累計呼入總次數(shù)、累計呼出總?cè)藬?shù)、累計呼入總?cè)藬?shù)、呼出城市總量、呼入城市總量、城市累計呼出總次數(shù)和城市累計呼入總次數(shù)。
具體的,可在用戶的終端設(shè)備中安裝號碼查詢客戶端,當有來電或者呼出電話時,通過號碼查詢客戶端統(tǒng)計該電話號碼的通電行為數(shù)據(jù),包括呼出時間、呼入時間、號碼歸屬地、呼出地、呼入地、累計呼出總次數(shù)、累計呼入總次數(shù)、累計呼出總?cè)藬?shù)、累計呼入總?cè)藬?shù)、呼出城市總量、呼入城市總量、城市累計呼出總次數(shù)和城市累計呼入總次數(shù)等,并進行上報。
s102、根據(jù)所述第一歷史通電行為數(shù)據(jù)確定所述待識別電話號碼的類別。
其中,歷史通電行為數(shù)據(jù)在一定程度上能夠反映該電話號碼的類別信息。例如,快遞類別電話的通電行為數(shù)據(jù)通常表現(xiàn)為累計呼出總次數(shù)、累計呼入總次數(shù)、呼出城市總量、呼入城市總量均比較大,但是呼出城市相對集中;詐騙和騷擾電話的通電行為數(shù)據(jù)通常表現(xiàn)為累計呼出總次數(shù)、呼出城市總量均比較大,呼出城市分散,時間段比較集中等。
因此,通過統(tǒng)計待識別電話號碼的歷史通電行為數(shù)據(jù)就可以判斷出該待識別電話號碼的類別,其中,能夠識別出的電話號碼的類別為以下至少一種:廣告、中介、快遞、咋騙、金融和其它等。
本實施例通過根據(jù)待識別電話號碼的歷史通電行為數(shù)據(jù)確定所述待識別電話號碼的類別,由于歷史通電行為數(shù)據(jù)在一定程度上能夠反應(yīng)該電話號碼的一些分類特征,因此通過歷史通電行為數(shù)據(jù)進行電話號碼分類識別,可以提高陌生電話分類識別的準確率和召回率。
實施例二
圖2a是本發(fā)明實施例二提供的一種電話號碼分類識別方法的流程圖。本實施例以上述實施例為基礎(chǔ)進行優(yōu)化,在本實施例中,進一步增加如下步驟:獲取已知類別電話號碼的第二歷史通電行為數(shù)據(jù);根據(jù)所述第二歷史通電行為數(shù)據(jù)訓(xùn)練得到號碼分類識別模型;相應(yīng)的,將所述根據(jù)所述第一歷史通電行為數(shù)據(jù)確定所述待識別電話號碼的類別優(yōu)化為:采用所述號碼分類識別模型對所述待識別電話號碼進行分類識別,根據(jù)輸出結(jié)果確定所述待識別電話號碼的類別。
相應(yīng)的,本實施例的方法具體包括:
s201、獲取已知類別電話號碼的第二歷史通電行為數(shù)據(jù)。
其中,已知類別包含以下至少一種:廣告、中介、快遞、咋騙、金融和其它等。
所述第二歷史通電行為數(shù)據(jù)可包含以下至少一項數(shù)據(jù):電話號碼、用戶標記數(shù)據(jù)、呼出時間、呼入時間、號碼歸屬地、呼出地、呼入地、累計呼出總次數(shù)、累計呼入總次數(shù)、累計呼出總?cè)藬?shù)、累計呼入總?cè)藬?shù)、呼出城市總量、呼入城市總量、城市累計呼出總次數(shù)和城市累計呼入總次數(shù)。其中,用戶標記數(shù)據(jù)為用戶標記的該電話號碼的類別信息。
具體的,可預(yù)先在用戶終端的客戶端中添加號碼查詢模塊,當有陌生來電時,調(diào)號碼查詢模塊查詢陌生來電的號碼信息,如圖2b所示,包括電話號碼、號碼類別信息、號碼歸屬地等,并上報至服務(wù)器;服務(wù)端記錄記錄該次呼叫行為,包括:呼叫時間、電話號碼、當前位置信息(經(jīng)緯度)、呼叫時長等?;蛟诳蛻舳藳]有查詢到所述號碼標記信息時,如圖2c所示,通過向客戶端發(fā)送反饋消息引導(dǎo)客戶端用戶進行號碼類別標記,并反饋給服務(wù)端進行日志記錄,從服務(wù)端的日志記錄中獲取號碼標記信息。
s202、根據(jù)所述第二歷史通電行為數(shù)據(jù)訓(xùn)練得到號碼分類識別模型。
本步驟可選的一種實施方式是,首先對所述第二歷史通電行為數(shù)據(jù)進行以下至少一種預(yù)處理操作:數(shù)據(jù)清洗、特征提取和類別標記;將預(yù)處理后的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)樣本,采用機器學(xué)習(xí)分類算法對所述訓(xùn)練數(shù)據(jù)樣本進行訓(xùn)練得到號碼分類識別模型。
其中,數(shù)據(jù)清洗號主要包括號碼規(guī)則化,例如去掉+86/86等,或者添加號碼的歸屬地信息等。
特征提取主要為提取類別表征意義的數(shù)據(jù),例如,呼入次數(shù)、呼出次數(shù)、類別標記等信息??蛇x的,針對每個電話號碼,根據(jù)訓(xùn)練模型所需要的數(shù)據(jù)格式,從對應(yīng)歷史通電行為數(shù)據(jù)中提取各字段對應(yīng)的數(shù)據(jù)內(nèi)容;統(tǒng)計得到每個電話號碼對應(yīng)的字段數(shù)據(jù)內(nèi)容,作為訓(xùn)練數(shù)據(jù)。例如,主要包括以下至少一個字段:號碼、呼出時間、呼出時長、呼出城市、呼出星期、呼出日期是否節(jié)假日等,根據(jù)歷史通電行為數(shù)據(jù)提取各字段包含的內(nèi)容。
類別標記主要是對對應(yīng)的電話號碼進行類別標記,例如不同類別的電話號碼采用不同的符號進行區(qū)分。
可采用的機器學(xué)習(xí)分類算法為貝葉斯bayes算法、或者支持向量機(supportvectormachine,svm)學(xué)習(xí)算法、或者深度神經(jīng)網(wǎng)絡(luò)(deepneuralnetwork,dnn)模型。
s203、獲取待識別電話號碼的第一歷史通電行為數(shù)據(jù)。
s204、采用所述號碼分類識別模型對所述待識別電話號碼進行分類識別,根據(jù)輸出結(jié)果確定所述待識別電話號碼的類別。
此外,還可以在號碼分類識別模型訓(xùn)練完成以后,將得到的輸出結(jié)果即號碼類別數(shù)據(jù)導(dǎo)入線上數(shù)據(jù)庫,并提供號碼查詢接口,通過號碼查詢接口對待識別電話號碼進行分類識別。
本實施例通過獲取已知類別電話號碼的歷史通電行為數(shù)據(jù),訓(xùn)練得到號碼分類識別模型,并使用號碼分類識別模型對待識別電話號碼進行分類識別,有效提高了號碼識別的準確率和召回率,為用戶提供更準確的號碼標記,幫助用戶識別來電信息。
實施例三
圖3是本發(fā)明實施例三提供的一種電話號碼分類識別方法的流程圖。本實施例以上述實施例為基礎(chǔ)進行優(yōu)化,在本實施例中,將所述將預(yù)處理后的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)樣本,采用機器學(xué)習(xí)分類算法對所述訓(xùn)練數(shù)據(jù)樣本進行訓(xùn)練得到號碼分類識別模型優(yōu)化為:將預(yù)處理后的數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)樣本和驗證數(shù)據(jù)樣本;采用機器學(xué)習(xí)分類算法對訓(xùn)練數(shù)據(jù)樣本進行訓(xùn)練得到初始號碼分類識別模型,采用驗證數(shù)據(jù)樣本對所述初始號碼分類識別模型的分類識別輸出結(jié)果進行驗證;若通過驗證,則將所述初始號碼分類識別模型作為所述號碼分類識別模型。
相應(yīng)的,本實施例的方法具體包括:
s301、獲取已知類別電話號碼的第二歷史通電行為數(shù)據(jù)。
s302、對所述第二歷史通電行為數(shù)據(jù)進行以下至少一種預(yù)處理操作:數(shù)據(jù)清洗、特征提取和類別標記。
s303、將預(yù)處理后的數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)樣本和驗證數(shù)據(jù)樣本。
s304、采用機器學(xué)習(xí)分類算法對訓(xùn)練數(shù)據(jù)樣本進行訓(xùn)練得到初始號碼分類識別模型,采用驗證數(shù)據(jù)樣本對所述初始號碼分類識別模型的分類識別輸出結(jié)果進行驗證。
具體的,為了保證得到的號碼分類識別模型更為準確,在本實施例中,將預(yù)處理后的數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)樣本和驗證數(shù)據(jù)樣本兩部分,首先使用訓(xùn)練數(shù)據(jù)樣本訓(xùn)練得到初始號碼分類識別模型,然后使用初始號碼分類識別模型對驗證數(shù)據(jù)樣本進行分類識別處理,根據(jù)分類識別結(jié)果判斷分類結(jié)果,判斷對驗證數(shù)據(jù)樣本的分類是否全部準確,或者準確率是否達到預(yù)設(shè)百分比(例如,98%),如果全部準確,或達到預(yù)設(shè)百分比,則初始號碼分類識別模型驗證通過。
s305、若通過驗證,則將所述初始號碼分類識別模型作為所述號碼分類識別模型。
s306、獲取待識別電話號碼的第一歷史通電行為數(shù)據(jù)。
s307、根據(jù)所述第一歷史通電行為數(shù)據(jù)確定所述待識別電話號碼的類別。
本實施例通過獲取已知類別電話號碼的歷史通電行為數(shù)據(jù),訓(xùn)練得到號碼分類識別模型,并使用號碼分類識別模型對待識別電話號碼進行分類識別,有效提高了號碼識別的準確率和召回率,為用戶提供更準確的號碼標記,幫助用戶識別來電信息。
實施例四
圖4是本發(fā)明實施例四提供的一種電話號碼分類識別裝置的結(jié)構(gòu)圖。本實施例可適用于對陌生電話號碼進行分類識別的情況,該裝置可采用軟件和/或硬件的方式實現(xiàn),該裝置可集成在終端設(shè)備中或終端設(shè)備的應(yīng)用端中。其中,終端設(shè)備可以為但不限于為移動終端(平板電腦或智能手機)、固定終端(臺式電腦或筆記本)。
其中,應(yīng)用端可以為內(nèi)嵌于終端設(shè)備中的某個客戶端的插件,或者為所述終端設(shè)備的操作系統(tǒng)的插件,與內(nèi)嵌于終端設(shè)備中的電話號碼分類識別客戶端或者終端設(shè)備的操作系統(tǒng)中的電話號碼分類識別應(yīng)用程序配合使用;應(yīng)用端也可以為所述終端設(shè)備中一個獨立的可提供電話號碼分類識別的客戶端,本實施例對此不進行限制。
如圖4所示,所述裝置包括:數(shù)據(jù)獲取模塊401和號碼識別模塊402,其中:
數(shù)據(jù)獲取模塊401用于獲取待識別電話號碼的第一歷史通電行為數(shù)據(jù);
號碼識別模塊402用于根據(jù)所述第一歷史通電行為數(shù)據(jù)確定所述待識別電話號碼的類別。
本實施例的電話號碼分類識別裝置用于執(zhí)行上述各實施例的電話號碼分類識別方法,其技術(shù)原理和產(chǎn)生的技術(shù)效果類似,這里不再贅述。
在上述各實施例的基礎(chǔ)上,所述裝置還包括:模型訓(xùn)練模塊403;
模型訓(xùn)練模塊403用于獲取已知類別電話號碼的第二歷史通電行為數(shù)據(jù);根據(jù)所述第二歷史通電行為數(shù)據(jù)訓(xùn)練得到號碼分類識別模型;
相應(yīng)的,所述號碼識別模塊402具體用于:采用所述號碼分類識別模型對所述待識別電話號碼進行分類識別,根據(jù)輸出結(jié)果確定所述待識別電話號碼的類別。
在上述各實施例的基礎(chǔ)上,所述模型訓(xùn)練模塊403包括:預(yù)處理單元4031和模型訓(xùn)練單元4032;
預(yù)處理單元4031用于對所述第二歷史通電行為數(shù)據(jù)進行以下至少一種預(yù)處理操作:數(shù)據(jù)清洗、特征提取和類別標記;
模型訓(xùn)練單元4032用于將預(yù)處理后的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)樣本,采用機器學(xué)習(xí)分類算法對所述訓(xùn)練數(shù)據(jù)樣本進行訓(xùn)練得到號碼分類識別模型。
在上述各實施例的基礎(chǔ)上,所述模型訓(xùn)練單元4032具體用于:將預(yù)處理后的數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)樣本和驗證數(shù)據(jù)樣本;采用機器學(xué)習(xí)分類算法對訓(xùn)練數(shù)據(jù)樣本進行訓(xùn)練得到初始號碼分類識別模型,采用驗證數(shù)據(jù)樣本對所述初始號碼分類識別模型的分類識別輸出結(jié)果進行驗證;若通過驗證,則將所述初始號碼分類識別模型作為所述號碼分類識別模型。
在上述各實施例的基礎(chǔ)上,所述預(yù)處理單元4031具體用于:針對每個電話號碼,根據(jù)訓(xùn)練模型所需要的數(shù)據(jù)格式,從對應(yīng)歷史通電行為數(shù)據(jù)中提取各字段對應(yīng)的數(shù)據(jù)內(nèi)容;統(tǒng)計得到每個電話號碼對應(yīng)的字段數(shù)據(jù)內(nèi)容,作為訓(xùn)練數(shù)據(jù)。
在上述各實施例的基礎(chǔ)上,所述歷史通電行為數(shù)據(jù)包含以下至少一項數(shù)據(jù):電話號碼、用戶標記數(shù)據(jù)、呼出時間、呼入時間、號碼歸屬地、呼出地、呼入地、累計呼出總次數(shù)、累計呼入總次數(shù)、累計呼出總?cè)藬?shù)、累計呼入總?cè)藬?shù)、呼出城市總量、呼入城市總量、城市累計呼出總次數(shù)和城市累計呼入總次數(shù)。
上述各實施例所提供的電話號碼分類識別裝置可執(zhí)行本發(fā)明任意實施例所提供的電話號碼分類識別方法,具備執(zhí)行電話號碼分類識別方法相應(yīng)的功能模塊和有益效果。
實施例五
圖5為本發(fā)明實施例五提供的一種設(shè)備的結(jié)構(gòu)示意圖。圖5示出了適于用來實現(xiàn)本發(fā)明實施方式的示例性計算機設(shè)備12的框圖。圖5顯示的計算機設(shè)備12僅僅是一個示例,不應(yīng)對本發(fā)明實施例的功能和使用范圍帶來任何限制。
如圖5所示,計算機設(shè)備12以通用計算設(shè)備的形式表現(xiàn)。計算機設(shè)備12的組件可以包括但不限于:一個或者多個處理器或者處理單元16,系統(tǒng)存儲器28,連接不同系統(tǒng)組件(包括系統(tǒng)存儲器28和處理單元16)的總線18。
總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標準體系結(jié)構(gòu)(isa)總線,微通道體系結(jié)構(gòu)(mac)總線,增強型isa總線、視頻電子標準協(xié)會(vesa)局域總線以及外圍組件互連(pci)總線。
計算機設(shè)備12典型地包括多種計算機系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計算機設(shè)備12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動的和不可移動的介質(zhì)。
系統(tǒng)存儲器28可以包括易失性存儲器形式的計算機系統(tǒng)可讀介質(zhì),例如隨機存取存儲器(ram)30和/或高速緩存存儲器32。計算機設(shè)備12可以進一步包括其它可移動/不可移動的、易失性/非易失性計算機系統(tǒng)存儲介質(zhì)。僅作為舉例,存儲系統(tǒng)34可以用于讀寫不可移動的、非易失性磁介質(zhì)(圖5未顯示,通常稱為“硬盤驅(qū)動器”)。盡管圖5中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動器,以及對可移動非易失性光盤(例如cd-rom,dvd-rom或者其它光介質(zhì))讀寫的光盤驅(qū)動器。在這些情況下,每個驅(qū)動器可以通過一個或者多個數(shù)據(jù)介質(zhì)接口與總線18相連。存儲器28可以包括至少一個程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實施例的功能。
具有一組(至少一個)程序模塊42的程序/實用工具40,可以存儲在例如存儲器28中,這樣的程序模塊42包括——但不限于——操作系統(tǒng)、一個或者多個應(yīng)用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡(luò)環(huán)境的實現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實施例中的功能和/或方法。
計算機設(shè)備12也可以與一個或多個外部設(shè)備14(例如鍵盤、指向設(shè)備、顯示器24等)通信,還可與一個或者多個使得用戶能與該計算機設(shè)備12交互的設(shè)備通信,和/或與使得該計算機設(shè)備12能與一個或多個其它計算設(shè)備進行通信的任何設(shè)備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22進行。并且,計算機設(shè)備12還可以通過網(wǎng)絡(luò)適配器20與一個或者多個網(wǎng)絡(luò)(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡(luò),例如因特網(wǎng))通信。如圖所示,網(wǎng)絡(luò)適配器20通過總線18與計算機設(shè)備12的其它模塊通信。應(yīng)當明白,盡管圖中未示出,可以結(jié)合計算機設(shè)備12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設(shè)備驅(qū)動器、冗余處理單元、外部磁盤驅(qū)動陣列、raid系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。
處理單元16通過運行存儲在系統(tǒng)存儲器28中的程序,從而執(zhí)行各種功能應(yīng)用以及數(shù)據(jù)處理,例如實現(xiàn)本發(fā)明實施例所提供的電話號碼分類識別方法:
獲取待識別電話號碼的第一歷史通電行為數(shù)據(jù);
根據(jù)所述第一歷史通電行為數(shù)據(jù)確定所述待識別電話號碼的類別。
進一步的,所述方法還包括:
獲取已知類別電話號碼的第二歷史通電行為數(shù)據(jù);
根據(jù)所述第二歷史通電行為數(shù)據(jù)訓(xùn)練得到號碼分類識別模型;
相應(yīng)的,所述根據(jù)所述第一歷史通電行為數(shù)據(jù)確定所述待識別電話號碼的類別包括:
采用所述號碼分類識別模型對所述待識別電話號碼進行分類識別,根據(jù)輸出結(jié)果確定所述待識別電話號碼的類別。
進一步的,所述根據(jù)所述第二歷史通電行為數(shù)據(jù)訓(xùn)練得到號碼分類識別模型包括:
對所述第二歷史通電行為數(shù)據(jù)進行以下至少一種預(yù)處理操作:數(shù)據(jù)清洗、特征提取和類別標記;
將預(yù)處理后的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)樣本,采用機器學(xué)習(xí)分類算法對所述訓(xùn)練數(shù)據(jù)樣本進行訓(xùn)練得到號碼分類識別模型。
進一步的,所述將預(yù)處理后的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)樣本,采用機器學(xué)習(xí)分類算法對所述訓(xùn)練數(shù)據(jù)樣本進行訓(xùn)練得到號碼分類識別模型包括:
將預(yù)處理后的數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)樣本和驗證數(shù)據(jù)樣本;
采用機器學(xué)習(xí)分類算法對訓(xùn)練數(shù)據(jù)樣本進行訓(xùn)練得到初始號碼分類識別模型,采用驗證數(shù)據(jù)樣本對所述初始號碼分類識別模型的分類識別輸出結(jié)果進行驗證;
若通過驗證,則將所述初始號碼分類識別模型作為所述號碼分類識別模型。
進一步的,對所述第二歷史通電行為數(shù)據(jù)進行特征提取包括:
針對每個電話號碼,根據(jù)訓(xùn)練模型所需要的數(shù)據(jù)格式,從對應(yīng)歷史通電行為數(shù)據(jù)中提取各字段對應(yīng)的數(shù)據(jù)內(nèi)容;
統(tǒng)計得到每個電話號碼對應(yīng)的字段數(shù)據(jù)內(nèi)容,作為訓(xùn)練數(shù)據(jù)。
進一步的,所述歷史通電行為數(shù)據(jù)包含以下至少一項數(shù)據(jù):電話號碼、用戶標記數(shù)據(jù)、呼出時間、呼入時間、號碼歸屬地、呼出地、呼入地、累計呼出總次數(shù)、累計呼入總次數(shù)、累計呼出總?cè)藬?shù)、累計呼入總?cè)藬?shù)、呼出城市總量、呼入城市總量、城市累計呼出總次數(shù)和城市累計呼入總次數(shù)。
實施例六
本發(fā)明實施例6還提供了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時實現(xiàn)如本申請所有發(fā)明實施例提供的電話號碼分類識別方法:
獲取待識別電話號碼的第一歷史通電行為數(shù)據(jù);
根據(jù)所述第一歷史通電行為數(shù)據(jù)確定所述待識別電話號碼的類別。
進一步的,所述方法還包括:
獲取已知類別電話號碼的第二歷史通電行為數(shù)據(jù);
根據(jù)所述第二歷史通電行為數(shù)據(jù)訓(xùn)練得到號碼分類識別模型;
相應(yīng)的,所述根據(jù)所述第一歷史通電行為數(shù)據(jù)確定所述待識別電話號碼的類別包括:
采用所述號碼分類識別模型對所述待識別電話號碼進行分類識別,根據(jù)輸出結(jié)果確定所述待識別電話號碼的類別。
進一步的,所述根據(jù)所述第二歷史通電行為數(shù)據(jù)訓(xùn)練得到號碼分類識別模型包括:
對所述第二歷史通電行為數(shù)據(jù)進行以下至少一種預(yù)處理操作:數(shù)據(jù)清洗、特征提取和類別標記;
將預(yù)處理后的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)樣本,采用機器學(xué)習(xí)分類算法對所述訓(xùn)練數(shù)據(jù)樣本進行訓(xùn)練得到號碼分類識別模型。
進一步的,所述將預(yù)處理后的數(shù)據(jù)作為訓(xùn)練數(shù)據(jù)樣本,采用機器學(xué)習(xí)分類算法對所述訓(xùn)練數(shù)據(jù)樣本進行訓(xùn)練得到號碼分類識別模型包括:
將預(yù)處理后的數(shù)據(jù)劃分為訓(xùn)練數(shù)據(jù)樣本和驗證數(shù)據(jù)樣本;
采用機器學(xué)習(xí)分類算法對訓(xùn)練數(shù)據(jù)樣本進行訓(xùn)練得到初始號碼分類識別模型,采用驗證數(shù)據(jù)樣本對所述初始號碼分類識別模型的分類識別輸出結(jié)果進行驗證;
若通過驗證,則將所述初始號碼分類識別模型作為所述號碼分類識別模型。
進一步的,對所述第二歷史通電行為數(shù)據(jù)進行特征提取包括:
針對每個電話號碼,根據(jù)訓(xùn)練模型所需要的數(shù)據(jù)格式,從對應(yīng)歷史通電行為數(shù)據(jù)中提取各字段對應(yīng)的數(shù)據(jù)內(nèi)容;
統(tǒng)計得到每個電話號碼對應(yīng)的字段數(shù)據(jù)內(nèi)容,作為訓(xùn)練數(shù)據(jù)。
進一步的,所述歷史通電行為數(shù)據(jù)包含以下至少一項數(shù)據(jù):電話號碼、用戶標記數(shù)據(jù)、呼出時間、呼入時間、號碼歸屬地、呼出地、呼入地、累計呼出總次數(shù)、累計呼入總次數(shù)、累計呼出總?cè)藬?shù)、累計呼入總?cè)藬?shù)、呼出城市總量、呼入城市總量、城市累計呼出總次數(shù)和城市累計呼入總次數(shù)。
本發(fā)明實施例的計算機存儲介質(zhì),可以采用一個或多個計算機可讀的介質(zhì)的任意組合。計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或者計算機可讀存儲介質(zhì)。計算機可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導(dǎo)體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導(dǎo)線的電連接、便攜式計算機磁盤、硬盤、隨機存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。
計算機可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括但不限于電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質(zhì)還可以是計算機可讀存儲介質(zhì)以外的任何計算機可讀介質(zhì),該計算機可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。
計算機可讀介質(zhì)上包含的程序代碼可以用任何適當?shù)慕橘|(zhì)傳輸,包括——但不限于無線、電線、光纜、rf等等,或者上述的任意合適的組合。
可以以一種或多種程序設(shè)計語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計算機程序代碼,所述程序設(shè)計語言包括面向?qū)ο蟮某绦蛟O(shè)計語言—諸如java、smalltalk、c++,還包括常規(guī)的過程式程序設(shè)計語言—諸如“c”語言或類似的程序設(shè)計語言。程序代碼可以完全地在用戶計算機上執(zhí)行、部分地在用戶計算機上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶計算機上部分在遠程計算機上執(zhí)行、或者完全在遠程計算機或服務(wù)器上執(zhí)行。在涉及遠程計算機的情形中,遠程計算機可以通過任意種類的網(wǎng)絡(luò)——包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶計算機,或者,可以連接到外部計算機(例如利用因特網(wǎng)服務(wù)提供商來通過因特網(wǎng)連接)。
注意,上述僅為本發(fā)明的較佳實施例及所運用技術(shù)原理。本領(lǐng)域技術(shù)人員會理解,本發(fā)明不限于這里所述的特定實施例,對本領(lǐng)域技術(shù)人員來說能夠進行各種明顯的變化、重新調(diào)整和替代而不會脫離本發(fā)明的保護范圍。因此,雖然通過以上實施例對本發(fā)明進行了較為詳細的說明,但是本發(fā)明不僅僅限于以上實施例,在不脫離本發(fā)明構(gòu)思的情況下,還可以包括更多其他等效實施例,而本發(fā)明的范圍由所附的權(quán)利要求范圍決定。