。本實(shí)施例對提取詞語的方式不進(jìn)行限制,可以只提取固定詞,也可以使用現(xiàn)有技術(shù)的分詞器分詞后再提取。
[0050]步驟430,使用通過已知的第二號(hào)碼對應(yīng)的行為數(shù)據(jù)和屬性所訓(xùn)練的識(shí)別模型,對第一號(hào)碼對應(yīng)的行為數(shù)據(jù)進(jìn)行計(jì)算,以得到第一號(hào)碼的屬性;其中第二號(hào)碼對應(yīng)的行為數(shù)據(jù)為第二號(hào)碼所屬的用戶進(jìn)行的通信行為過程中產(chǎn)生的數(shù)據(jù)。根據(jù)本實(shí)施例的技術(shù)方案,很多垃圾短信息為避免被識(shí)別出,將一些容易識(shí)別的字符轉(zhuǎn)換為其他形式,通過本實(shí)施例的技術(shù)方案對其進(jìn)行轉(zhuǎn)換,可以更容易從文本信息中提取關(guān)鍵詞語。
[0051]例如,根據(jù)圖4,號(hào)碼D發(fā)送的郵件(文本信息)中包含有以下內(nèi)容:“……六五八七三二四……”;該郵件通過非對稱加密算法加密后從終端發(fā)送到云端服務(wù)器,云端服務(wù)器上預(yù)設(shè)的字符轉(zhuǎn)換庫,記錄了需要轉(zhuǎn)換的漢字?jǐn)?shù)字,以及轉(zhuǎn)換之后的阿拉伯?dāng)?shù)字,則轉(zhuǎn)換后的郵件為“……6587324……”;對轉(zhuǎn)換后的郵件進(jìn)行分詞提取,可以順利提取到“6587324” (詞語),云端的服務(wù)器采用識(shí)別模型進(jìn)行識(shí)別,可以發(fā)現(xiàn)該號(hào)碼為詐騙號(hào)碼,所以可將號(hào)碼D分類到“詐騙號(hào)碼”之下。
[0052]如圖5所示,本發(fā)明的一個(gè)實(shí)施例中公開了一種號(hào)碼屬性識(shí)別方法,其包括:
[0053]步驟510,獲取第一號(hào)碼所屬用戶進(jìn)行的多次通話行為的信息作為第一號(hào)碼對應(yīng)的行為數(shù)據(jù)。第一號(hào)碼對應(yīng)的行為數(shù)據(jù)包括以下至少一種:多次通話行為的通話時(shí)間、通話時(shí)長、被掛斷占比、呼入占比、通訊錄聯(lián)系人占比、非長途通話占比、請求通話時(shí)向?qū)Ψ降钠骄埱蟠螖?shù)。
[0054]步驟520,使用通過已知的第二號(hào)碼對應(yīng)的行為數(shù)據(jù)和屬性所訓(xùn)練的識(shí)別模型,對第一號(hào)碼對應(yīng)的行為數(shù)據(jù)進(jìn)行計(jì)算,以得到第一號(hào)碼的屬性;其中第二號(hào)碼對應(yīng)的行為數(shù)據(jù)為第二號(hào)碼所屬的用戶進(jìn)行的通信行為過程中產(chǎn)生的數(shù)據(jù)。根據(jù)本實(shí)施例的技術(shù)方案,通話行為中的很多能夠強(qiáng)烈地反映本次通話是正常通話、還是出現(xiàn)詐騙、推銷等情況,所以根據(jù)通話行為的信息有利于確定第一號(hào)碼的屬性。
[0055]例如,根據(jù)圖5,號(hào)碼E的用戶一天內(nèi)撥叫了二十次電話(通話行為),被掛斷的次數(shù)為16次,被掛斷次數(shù)通過非對稱加密算法加密后發(fā)送到云端服務(wù)器,云端服務(wù)器分析可知被掛斷占比80% (信息);根據(jù)云端服務(wù)器訓(xùn)練的識(shí)別模型,在被掛斷占比超過60%的情況下,判斷號(hào)碼可以屏蔽;所以可以將號(hào)碼E添加到“黑名單”(屬性)分類中。
[0056]如圖6所示,本發(fā)明的一個(gè)實(shí)施例中公開了一種號(hào)碼屬性識(shí)別方法,其包括:
[0057]步驟610,獲取待識(shí)別的第一號(hào)碼所對應(yīng)的行為數(shù)據(jù),第一號(hào)碼對應(yīng)的行為數(shù)據(jù)為第一號(hào)碼所屬的用戶進(jìn)行的通信行為過程中產(chǎn)生的數(shù)據(jù)。本實(shí)施例中,對通信行為的類型不進(jìn)行限制,其包括但不限于打電話、發(fā)短信、發(fā)郵件等;對行為數(shù)據(jù)不進(jìn)行限制,包括但不限于通話時(shí)間、通話時(shí)長、被掛斷占比、呼入占比、通訊錄聯(lián)系人占比、非長途通話占比、請求通話時(shí)向?qū)Ψ降钠骄埱蟠螖?shù)。
[0058]步驟620,獲取第二號(hào)碼的屬性,以用于訓(xùn)練識(shí)別模塊。在本實(shí)施例中,對第二號(hào)碼的屬性不進(jìn)行限制,其包括但不限于為第二號(hào)碼增加的標(biāo)簽或分類等等。
[0059]步驟630,使用通過已知的第二號(hào)碼對應(yīng)的行為數(shù)據(jù)和屬性所訓(xùn)練的識(shí)別模型,對第一號(hào)碼對應(yīng)的行為數(shù)據(jù)進(jìn)行計(jì)算,以得到第一號(hào)碼的屬性;其中第二號(hào)碼對應(yīng)的行為數(shù)據(jù)為第二號(hào)碼所屬的用戶進(jìn)行的通信行為過程中產(chǎn)生的數(shù)據(jù)。在本實(shí)施例中,對屬性不進(jìn)行限制,其包括但不限于為第一號(hào)碼增加的標(biāo)簽或分類等等。在本實(shí)施例中,對識(shí)別模型對應(yīng)的算法不進(jìn)行限制,例如,svm、boosting決策樹等算法均適用。
[0060]如圖7所示,本發(fā)明的一個(gè)實(shí)施例中公開了一種號(hào)碼屬性識(shí)別方法,其包括:
[0061]步驟710,獲取待識(shí)別的第一號(hào)碼所對應(yīng)的行為數(shù)據(jù),第一號(hào)碼對應(yīng)的行為數(shù)據(jù)為第一號(hào)碼所屬的用戶進(jìn)行的通信行為過程中產(chǎn)生的數(shù)據(jù)。
[0062]步驟720,獲取在特定時(shí)間段內(nèi)產(chǎn)生的第二號(hào)碼對應(yīng)的標(biāo)記數(shù)據(jù),標(biāo)記數(shù)據(jù)用于表示第二號(hào)碼被其他用戶標(biāo)記為第一屬性。在本實(shí)施例中,對第一屬性的類型不進(jìn)行限制,其可以是允許用戶標(biāo)記的任何屬性。
[0063]步驟730,根據(jù)標(biāo)記數(shù)據(jù),計(jì)算在特定時(shí)間段內(nèi)第二號(hào)碼被標(biāo)記為第一屬性的次數(shù)。在本實(shí)施例中,對特定時(shí)間段不進(jìn)行限制,其可以是任何長度的時(shí)間段。
[0064]步驟740,根據(jù)次數(shù)的大小,確定第二號(hào)碼是否具有第一屬性。在本實(shí)施例中,在一定時(shí)間段內(nèi)被標(biāo)記的次數(shù)過多,可以確定該第二號(hào)碼具有第一屬性。
[0065]步驟750,使用通過已知的第二號(hào)碼對應(yīng)的行為數(shù)據(jù)和屬性所訓(xùn)練的識(shí)別模型,對第一號(hào)碼對應(yīng)的行為數(shù)據(jù)進(jìn)行計(jì)算,以得到第一號(hào)碼的屬性;其中第二號(hào)碼對應(yīng)的行為數(shù)據(jù)為第二號(hào)碼所屬的用戶進(jìn)行的通信行為過程中產(chǎn)生的數(shù)據(jù)。根據(jù)本實(shí)施例的技術(shù)方案,利用用戶對第二號(hào)碼的標(biāo)記,來確定第二號(hào)碼的屬性,準(zhǔn)確程度非常高。
[0066]例如,根據(jù)圖7,對于號(hào)碼F經(jīng)統(tǒng)計(jì)得知選取最近兩周(特定時(shí)間段)內(nèi)標(biāo)記為“送餐”(屬性)號(hào)碼的次數(shù)為45次;兩周內(nèi)標(biāo)記為同一屬性的次數(shù)大于30次則表示其較活躍,用戶的標(biāo)記具有參考價(jià)值,所以確定號(hào)碼F的屬性為“送餐”(屬性)號(hào)碼,可以用于進(jìn)行訓(xùn)練。
[0067]如圖8所示,本發(fā)明的一個(gè)實(shí)施例中公開了一種號(hào)碼屬性識(shí)別方法,其包括:
[0068]步驟810,獲取待識(shí)別的第一號(hào)碼所對應(yīng)的行為數(shù)據(jù),第一號(hào)碼對應(yīng)的行為數(shù)據(jù)為第一號(hào)碼所屬的用戶進(jìn)行的通信行為過程中產(chǎn)生的數(shù)據(jù)。
[0069]步驟820,在第二號(hào)碼已被識(shí)別為具有第二屬性,且無法獲取到在特定時(shí)間段內(nèi)產(chǎn)生的第二號(hào)碼對應(yīng)的標(biāo)記數(shù)據(jù)時(shí),確定第二號(hào)碼具有第二屬性;標(biāo)記數(shù)據(jù)用于表示第二號(hào)碼被其他用戶所標(biāo)記為第一屬性。在本實(shí)施例中,對第一屬性和第二屬性不進(jìn)行限制,其包括但不限于為第二號(hào)碼增加的標(biāo)簽或分類等等。
[0070]步驟830,使用通過已知的第二號(hào)碼對應(yīng)的行為數(shù)據(jù)和屬性所訓(xùn)練的識(shí)別模型,對第一號(hào)碼對應(yīng)的行為數(shù)據(jù)進(jìn)行計(jì)算,以得到第一號(hào)碼的屬性;其中第二號(hào)碼對應(yīng)的行為數(shù)據(jù)為第二號(hào)碼所屬的用戶進(jìn)行的通信行為過程中產(chǎn)生的數(shù)據(jù)。根據(jù)本實(shí)施例的技術(shù)方案,在第二號(hào)碼已被識(shí)別為第二屬性,只要沒有用戶標(biāo)記來否定該識(shí)別結(jié)果,即可以確定該第二號(hào)碼具有第二屬性,準(zhǔn)確率很高。
[0071]例如,根據(jù)圖8,對于已經(jīng)識(shí)別為“個(gè)人號(hào)碼”分類(屬性)的號(hào)碼G,如果最近兩周(特定時(shí)間段)沒有用戶將號(hào)碼G標(biāo)記為其他類號(hào)碼,例如,“送餐”、“騷擾”類號(hào)碼;則可以確定當(dāng)前的識(shí)別結(jié)果是準(zhǔn)確的,所以確定號(hào)碼G的“個(gè)人號(hào)碼”分類可以用于訓(xùn)練。
[0072]如圖9所示,本發(fā)明的一個(gè)實(shí)施例中公開了一種號(hào)碼屬性識(shí)別方法,其包括:
[0073]步驟910,獲取待識(shí)別的第一號(hào)碼所對應(yīng)的行為數(shù)據(jù),第一號(hào)碼對應(yīng)的行為數(shù)據(jù)為第一號(hào)碼所屬的用戶進(jìn)行的通信行為過程中產(chǎn)生的數(shù)據(jù)。
[0074]步驟920,在識(shí)別模型為多個(gè)時(shí),統(tǒng)計(jì)多個(gè)識(shí)別模型的分析結(jié)果中每一種屬性的數(shù)量,根據(jù)數(shù)量高低從分析結(jié)果中選擇第一號(hào)碼的屬性。根據(jù)本實(shí)施例的技術(shù)方案,綜合多個(gè)識(shí)別模型的識(shí)別結(jié)果,有利于準(zhǔn)確選擇出第一號(hào)碼的屬性。
[0075]例如,根據(jù)圖9,通過位于云端服務(wù)器的四種識(shí)別模型對號(hào)碼H識(shí)別得到的識(shí)別結(jié)果——“個(gè)人號(hào)碼”、“個(gè)人號(hào)碼”、“個(gè)人號(hào)碼”和“騷擾”(屬性),根據(jù)識(shí)別結(jié)果設(shè)計(jì)投票:“個(gè)人號(hào)碼”3票,“騷擾” I票,所以確定號(hào)碼H屬于“個(gè)人號(hào)碼”分類。
[0076]如圖10所示,本發(fā)明的一個(gè)實(shí)施例中公開了一種號(hào)碼屬性識(shí)別方法,其包括:
[0077]步驟1010,獲取待識(shí)別的第一號(hào)碼所對應(yīng)的行為數(shù)據(jù),第一號(hào)碼對應(yīng)的行為數(shù)據(jù)為第一號(hào)碼所屬的用戶進(jìn)行的通信行為過程中產(chǎn)生的數(shù)據(jù)。
[0078]步驟1020,根據(jù)第一號(hào)碼對應(yīng)的每種行為數(shù)據(jù),計(jì)算第一號(hào)碼具有第一屬性的概率。在本實(shí)施例中,對第一屬性的類型不進(jìn)行限制,其包括但不限于為第一號(hào)碼增加的標(biāo)簽或分類等等。
[0079]步驟1030,根據(jù)第一號(hào)碼對應(yīng)的多個(gè)行為數(shù)據(jù)各自對應(yīng)的概率,計(jì)算共同對應(yīng)的聯(lián)合概率。在本實(shí)施例中,聯(lián)合概率反映了多個(gè)行為同時(shí)存在的情況下,第一號(hào)碼是否為第一屬性的概率。
[0080]步驟1040,根據(jù)聯(lián)合概率的大小,判斷第一號(hào)碼是否具有第一屬性。通過本實(shí)施例的技術(shù)方案,可以合理評估第一號(hào)碼具有第一屬性的可能性,在可能性較低時(shí)并不認(rèn)為第一號(hào)碼具有第一屬性,以防止判斷錯(cuò)誤。
[0081]例如,根據(jù)圖10,經(jīng)統(tǒng)計(jì)對于號(hào)碼I的近期的多次通話行為(通信行為)中,通話對象中通訊錄聯(lián)系人占比為20% (行為數(shù)據(jù)),呼入占比為30% (行為數(shù)據(jù));根據(jù)通訊錄聯(lián)系占比,判斷號(hào)碼I為“騷擾類”(第一屬性)號(hào)碼的概率為60%,根據(jù)呼入占比判斷號(hào)碼I為“騷擾類”號(hào)碼的概率為50%;經(jīng)計(jì)算得到聯(lián)合概率為80%;預(yù)設(shè)聯(lián)合概率高于90%時(shí),能夠確定對應(yīng)號(hào)碼為“騷擾類”號(hào)碼,所以此時(shí)不能確定號(hào)碼I為“騷擾類”號(hào)碼。
[0082]如圖11所示,本發(fā)明的一個(gè)實(shí)施例中公開了一種號(hào)碼屬性識(shí)別方法,其包括:
[0083]步驟1110,按預(yù)設(shè)的時(shí)間段,獲取在每個(gè)時(shí)間段內(nèi)產(chǎn)生的第一號(hào)碼對應(yīng)的行為數(shù)據(jù)。在本實(shí)施例中,對時(shí)間段的長短不進(jìn)行限制,例如,一個(gè)時(shí)間段可以是一小時(shí)或一天。
[0084]步驟1120,按預(yù)設(shè)的包含多個(gè)時(shí)間段的周期長短,累加多個(gè)周期中對應(yīng)時(shí)間段內(nèi)產(chǎn)生的第一號(hào)碼對應(yīng)的行為數(shù)據(jù)。在本實(shí)施例中,對周期的長短不進(jìn)行限制,例如,一個(gè)周期可以是一周或一天。
[0085]步驟1130,根據(jù)每次累加得到的行為數(shù)據(jù),來識(shí)別第一號(hào)碼的屬性。在本實(shí)施例中,同樣的通信行為如果發(fā)生在完全不同的時(shí)間段,可能產(chǎn)生完全不同的行為數(shù)據(jù),因此完全不同的時(shí)間段內(nèi)產(chǎn)生的行為數(shù)據(jù)累加到一起,反而體現(xiàn)不出用戶在每個(gè)時(shí)間段內(nèi)的特點(diǎn);但單個(gè)時(shí)間段內(nèi)得到的行為數(shù)據(jù)存在偶然性較大的問題;而本實(shí)施例中通過累加對應(yīng)的多個(gè)時(shí)間段內(nèi)產(chǎn)生的行為數(shù)據(jù),既能體現(xiàn)該多個(gè)時(shí)間段的特點(diǎn),又克服了偶然性的問題。
[0086]例如,根據(jù)圖11,在一周內(nèi)統(tǒng)計(jì)以小時(shí)(時(shí)間段)為單位統(tǒng)計(jì)號(hào)碼J的呼出次數(shù)(行為數(shù)據(jù)),并累加每天(周期)中的11點(diǎn)-12點(diǎn)(對應(yīng)時(shí)間段)時(shí)的呼出次數(shù)——15次、20次、20次、15次、20次、10次、10次,累加得到一周內(nèi)11點(diǎn)-12點(diǎn)號(hào)碼J的呼出次數(shù)為110次;由于11點(diǎn)-12點(diǎn)這個(gè)時(shí)間段是送餐時(shí)間,所以預(yù)設(shè)規(guī)則設(shè)計(jì)為一周內(nèi)11點(diǎn)-12點(diǎn)呼出次數(shù)超過80次,可判斷相應(yīng)號(hào)碼為“送餐”(屬性)號(hào)碼;所以可知號(hào)碼J屬于“送餐”類號(hào)碼。
[0087]如圖12所示,本發(fā)明的一個(gè)實(shí)施例中公開了一種號(hào)碼屬性識(shí)別裝置,其包括:
[0088]行為數(shù)據(jù)獲取模塊1210,獲取待識(shí)別的第一號(hào)碼所對應(yīng)的行為數(shù)據(jù),第一號(hào)碼對應(yīng)的行為數(shù)據(jù)為第一號(hào)碼所屬的用戶進(jìn)行的通信行為過程中產(chǎn)生的數(shù)據(jù)。本實(shí)施例中,對通信行為的類型不進(jìn)行限制,包括但不限于打電話、發(fā)短信、發(fā)郵件等;對行為數(shù)據(jù)不進(jìn)行限制,包括但不限于通話時(shí)間、通話時(shí)長、被掛斷占比、呼入占比、通訊錄聯(lián)系人占比、非長途通話占比、請求通話時(shí)向?qū)Ψ降钠骄埱蟠螖?shù)。
[0089]屬性識(shí)別模塊1220,使用通過已知的第二號(hào)碼對應(yīng)的行為數(shù)據(jù)和屬性所訓(xùn)練的識(shí)別模型,對第一號(hào)碼對應(yīng)的行為數(shù)據(jù)進(jìn)行計(jì)算,以得到第一號(hào)碼的屬性;其中第二號(hào)碼對應(yīng)的行為數(shù)據(jù)為第二號(hào)碼所屬的用戶進(jìn)行的通信行為過程中產(chǎn)生的數(shù)據(jù)。在本實(shí)施例中,對屬性不進(jìn)