1.一種用于大數(shù)據(jù)清洗的異常檢測(cè)和消除的方法,其特征在于用于大數(shù)據(jù)清洗的異常檢測(cè)和消除的方法,具體如下:
首先構(gòu)建用于大數(shù)據(jù)分析的數(shù)據(jù)挖掘平臺(tái),其包括配置給會(huì)員的連接在電信網(wǎng)絡(luò)上的手機(jī)、智能終端和電信網(wǎng)絡(luò)服務(wù)器,其中手機(jī)、智能終端和電信網(wǎng)絡(luò)服務(wù)器之間通過(guò)電信網(wǎng)絡(luò)建立通信連接,而互聯(lián)網(wǎng)通過(guò)接入網(wǎng)關(guān)或升級(jí)的接入側(cè)設(shè)備與所述電信網(wǎng)絡(luò)連接,互聯(lián)網(wǎng)內(nèi)包含有郵件服務(wù)器,前臺(tái)處理終端和后臺(tái)服務(wù)器連接在所述電信網(wǎng)絡(luò)或者互聯(lián)網(wǎng)上,另外所述前臺(tái)處理終端內(nèi)包括有智能語(yǔ)音識(shí)別模塊、ETL模塊、TTS語(yǔ)音合成模塊、模擬機(jī)器人控制模塊、郵箱域名邏輯判斷及檢測(cè)模塊、會(huì)員信息和機(jī)器人模擬發(fā)送系統(tǒng),所述會(huì)員信息包括會(huì)員ID、會(huì)員手機(jī)號(hào)碼、會(huì)員的聲音特征樣本、會(huì)員的郵箱域名和會(huì)員通訊地址,所述后臺(tái)服務(wù)器上具有包含地理信息的數(shù)據(jù)庫(kù)、郵箱域名數(shù)據(jù)庫(kù)、郵編數(shù)據(jù)庫(kù)、所有會(huì)員的會(huì)員ID、會(huì)員手機(jī)號(hào)碼、會(huì)員的聲音特征樣本、會(huì)員的郵箱域名和會(huì)員通訊地址,所述地理信息包括有地理屬性的詞庫(kù)、核心地理信息、以及過(guò)去出現(xiàn)過(guò)的反映錯(cuò)誤地理信息的詞條,另外地理信息還包括過(guò)去出現(xiàn)過(guò)的反映錯(cuò)誤地理信息的詞條所對(duì)應(yīng)的正確的地址、在表達(dá)同一地址的若干數(shù)據(jù)所構(gòu)成的同義數(shù)據(jù)之間建立起的映射關(guān)系,過(guò)去出現(xiàn)過(guò)的錯(cuò)誤的郵件地址;所述郵箱域名數(shù)據(jù)庫(kù)中包括有過(guò)去出現(xiàn)過(guò)的錯(cuò)誤的郵件地址和與之對(duì)應(yīng)的正確的郵件地址;
當(dāng)會(huì)員通過(guò)智能終端對(duì)前臺(tái)處理終端發(fā)送信息來(lái)時(shí),所述前臺(tái)處理終端自動(dòng)運(yùn)行ETL模塊來(lái)提取有效信息,若提取出的有效信息中包括有地址信息,就啟動(dòng)模擬機(jī)器人控制模塊進(jìn)行地址標(biāo)準(zhǔn)化處理和地址清洗,所述地址標(biāo)準(zhǔn)化處理就是把地址信息用地址信息中的地址所在省、市、區(qū)或者縣、街道以及門牌號(hào)來(lái)表示,所述地址清洗就是把標(biāo)準(zhǔn)化處理的地址信息發(fā)送到所述后臺(tái)服務(wù)器中,若標(biāo)準(zhǔn)化處理的地址信息中帶有同義數(shù)據(jù),后臺(tái)服務(wù)器就通過(guò)在表達(dá)同一地址的若干數(shù)據(jù)所構(gòu)成的同義數(shù)據(jù)之間建立起的映射關(guān)系中判定出同義數(shù)據(jù),若標(biāo)準(zhǔn)化處理的地址信息和包含地理信息的數(shù)據(jù)庫(kù)中的過(guò)去出現(xiàn)過(guò)的反映錯(cuò)誤地理信息的詞條存在一致的,就把標(biāo)準(zhǔn)化處理的地址信息糾正為與之一致的過(guò)去出現(xiàn)過(guò)的反映錯(cuò)誤地理信息的詞條所對(duì)應(yīng)的正確的地址,另外還結(jié)合郵編數(shù)據(jù)庫(kù)把標(biāo)準(zhǔn)化處理的地址信息對(duì)應(yīng)的郵編查詢出來(lái),并把標(biāo)準(zhǔn)化處理的地址信息及其對(duì)應(yīng)的郵編返回前臺(tái)處理終端;
若提取出的有效信息中包括有郵件地址,就用郵箱域名邏輯判斷及檢測(cè)模塊進(jìn)行對(duì)郵件地址的格式進(jìn)行檢測(cè),如果郵件地址存在格式錯(cuò)誤,就改正成正確格式,然后啟動(dòng)機(jī)器人模擬發(fā)送系統(tǒng)把郵件地址發(fā)送到后臺(tái)服務(wù)器中,郵件地址若同郵箱域名數(shù)據(jù)庫(kù)中的過(guò)去出現(xiàn)過(guò)的錯(cuò)誤的郵件地址有相一致的,就替換成和與之該過(guò)去出現(xiàn)過(guò)的錯(cuò)誤的郵件地址對(duì)應(yīng)的正確的郵件地址,然后把正確的郵件地址返回前臺(tái)處理終端;
另外在有效信息中包括有會(huì)員ID和會(huì)員手機(jī)號(hào)碼時(shí),在所述把準(zhǔn)化處理的地址信息發(fā)送到所述后臺(tái)服務(wù)器中時(shí),同步還能把所述會(huì)員ID和會(huì)員手機(jī)號(hào)碼發(fā)送到所述后臺(tái)服務(wù)器中,并且還能夠進(jìn)行把準(zhǔn)化處理的地址信息和所有會(huì)員的會(huì)員通訊地址進(jìn)行對(duì)比,如果沒(méi)有相匹配的會(huì)員通訊地址,就對(duì)前臺(tái)處理終端發(fā)出請(qǐng)求來(lái)啟動(dòng)智能語(yǔ)音交互核對(duì)功能來(lái)進(jìn)行通訊地址核對(duì);
另外在有效信息中包括有會(huì)員ID和會(huì)員手機(jī)號(hào)碼時(shí),在所述把郵箱地址信息發(fā)送到所述后臺(tái)服務(wù)器中時(shí),同步還能把所述會(huì)員ID和會(huì)員手機(jī)號(hào)碼發(fā)送到所述后臺(tái)服務(wù)器中,并且還能夠進(jìn)行把郵箱地址信息和所有會(huì)員的會(huì)員的郵箱域名進(jìn)行對(duì)比,如果沒(méi)有相匹配的會(huì)員的郵箱域名,就對(duì)前臺(tái)處理終端發(fā)出請(qǐng)求來(lái)啟動(dòng)智能語(yǔ)音交互核對(duì)功能來(lái)進(jìn)行郵箱核對(duì)。
2.根據(jù)權(quán)利要求1所述的用于大數(shù)據(jù)清洗的異常檢測(cè)和消除的方法,其特征在于所述啟動(dòng)智能語(yǔ)音交互核對(duì)功能來(lái)進(jìn)行通訊地址核對(duì)就是通過(guò)智能語(yǔ)音交互與消費(fèi)者進(jìn)行確認(rèn),得到正確的通訊地址和郵編,具體的就是通過(guò)啟動(dòng)所述前臺(tái)處理終端內(nèi)的智能語(yǔ)音識(shí)別模塊和TTS語(yǔ)音合成模塊,讓智能語(yǔ)音識(shí)別模塊就操縱手機(jī)卡模塊經(jīng)由電信網(wǎng)絡(luò)服務(wù)器來(lái)對(duì)會(huì)員手機(jī)號(hào)碼對(duì)應(yīng)的手機(jī)進(jìn)行測(cè)撥,在該手機(jī)經(jīng)由電信網(wǎng)絡(luò)服務(wù)器來(lái)對(duì)前臺(tái)處理終端返回正常撥通號(hào)碼、關(guān)機(jī)、停機(jī)、空號(hào)、來(lái)電提醒、已設(shè)置呼入限制、暫時(shí)無(wú)法接通或受限的信號(hào)音時(shí),智能語(yǔ)音識(shí)別模塊就把這些正常撥通號(hào)碼、關(guān)機(jī)、停機(jī)、空號(hào)、來(lái)電提醒、已設(shè)置呼入限制、暫時(shí)無(wú)法接通或受限的信號(hào)音轉(zhuǎn)化成各自對(duì)應(yīng)的提示正常撥通號(hào)碼、關(guān)機(jī)、停機(jī)、空號(hào)、來(lái)電提醒、已設(shè)置呼入限制、暫時(shí)無(wú)法接通或受限的文字信息,并把這些文字信息通過(guò)TTS語(yǔ)音合成模塊合成為語(yǔ)音播放出來(lái),還能把這樣的文字信息和此時(shí)的本地時(shí)間發(fā)送到后臺(tái)服務(wù)器中存儲(chǔ),在正常撥通號(hào)碼的條件下,通過(guò)所述前臺(tái)處理終端錄入交互信息并經(jīng)過(guò)TTS語(yǔ)音合成模塊轉(zhuǎn)化成語(yǔ)音信息播放出來(lái),智能語(yǔ)音識(shí)別模塊并把該語(yǔ)音信息和錄入的交互信息經(jīng)由電信網(wǎng)絡(luò)服務(wù)器發(fā)送到會(huì)員手機(jī)號(hào)碼對(duì)應(yīng)的手機(jī)中分別進(jìn)行播放和顯示,在會(huì)員通過(guò)手機(jī)進(jìn)行回復(fù)而傳遞回前臺(tái)處理終端的語(yǔ)音信息首先同該會(huì)員的聲音特征樣本進(jìn)行對(duì)比,如果是該會(huì)員的聲音特征樣本,就把接收到的語(yǔ)音信息進(jìn)行播放并經(jīng)由智能語(yǔ)音識(shí)別模塊進(jìn)行轉(zhuǎn)化成文本信息來(lái)顯示,這樣交互直至獲取到會(huì)員正確的通訊地址和郵編,然后發(fā)送到后臺(tái)服務(wù)器中存儲(chǔ),如果不是該會(huì)員的聲音特征樣本,就結(jié)束溝通。
3.根據(jù)權(quán)利要求1所述的用于大數(shù)據(jù)清洗的異常檢測(cè)和消除的方法,其特征在于所述啟動(dòng)智能語(yǔ)音交互核對(duì)功能來(lái)進(jìn)行通訊地址核對(duì)就是通過(guò)智能語(yǔ)音交互與消費(fèi)者進(jìn)行確認(rèn),得到正確的郵箱地址信息,具體的就是通過(guò)啟動(dòng)所述前臺(tái)處理終端內(nèi)的智能語(yǔ)音識(shí)別模塊和TTS語(yǔ)音合成模塊,讓智能語(yǔ)音識(shí)別模塊就操縱手機(jī)卡模塊經(jīng)由電信網(wǎng)絡(luò)服務(wù)器來(lái)對(duì)會(huì)員手機(jī)號(hào)碼對(duì)應(yīng)的手機(jī)進(jìn)行測(cè)撥,在該手機(jī)經(jīng)由電信網(wǎng)絡(luò)服務(wù)器來(lái)對(duì)前臺(tái)處理終端返回正常撥通號(hào)碼、關(guān)機(jī)、停機(jī)、空號(hào)、來(lái)電提醒、已設(shè)置呼入限制、暫時(shí)無(wú)法接通或受限的信號(hào)音時(shí),智能語(yǔ)音識(shí)別模塊就把這些正常撥通號(hào)碼、關(guān)機(jī)、停機(jī)、空號(hào)、來(lái)電提醒、已設(shè)置呼入限制、暫時(shí)無(wú)法接通或受限的信號(hào)音轉(zhuǎn)化成各自對(duì)應(yīng)的提示正常撥通號(hào)碼、關(guān)機(jī)、停機(jī)、空號(hào)、來(lái)電提醒、已設(shè)置呼入限制、暫時(shí)無(wú)法接通或受限的文字信息,并把這些文字信息通過(guò)TTS語(yǔ)音合成模塊合成為語(yǔ)音播放出來(lái),還能把這樣的文字信息和此時(shí)的本地時(shí)間發(fā)送到后臺(tái)服務(wù)器中存儲(chǔ),在正常撥通號(hào)碼的條件下,通過(guò)所述前臺(tái)處理終端錄入交互信息并經(jīng)過(guò)TTS語(yǔ)音合成模塊轉(zhuǎn)化成語(yǔ)音信息播放出來(lái),智能語(yǔ)音識(shí)別模塊并把該語(yǔ)音信息和錄入的交互信息經(jīng)由電信網(wǎng)絡(luò)服務(wù)器發(fā)送到會(huì)員手機(jī)號(hào)碼對(duì)應(yīng)的手機(jī)中分別進(jìn)行播放和顯示,在會(huì)員通過(guò)手機(jī)進(jìn)行回復(fù)而傳遞回前臺(tái)處理終端的語(yǔ)音信息首先同該會(huì)員的聲音特征樣本進(jìn)行對(duì)比,如果是該會(huì)員的聲音特征樣本,就把接收到的語(yǔ)音信息進(jìn)行播放并經(jīng)由智能語(yǔ)音識(shí)別模塊進(jìn)行轉(zhuǎn)化成文本信息來(lái)顯示,這樣交互直至獲取到會(huì)員正確的郵箱地址信息,然后發(fā)送到后臺(tái)服務(wù)器中存儲(chǔ),如果不是該會(huì)員的聲音特征樣本,就結(jié)束溝通。
4.根據(jù)權(quán)利要求1所述的用于大數(shù)據(jù)清洗的異常檢測(cè)和消除的方法,其特征在于所述前臺(tái)處理終端包括計(jì)算機(jī)、PDA或前臺(tái)服務(wù)器。
5.根據(jù)權(quán)利要求1所述的用于大數(shù)據(jù)清洗的異常檢測(cè)和消除的方法,其特征在于所述會(huì)員通過(guò)智能終端對(duì)前臺(tái)處理終端發(fā)送的信息為文本、圖片或者視頻信息。
6.根據(jù)權(quán)利要求1所述的用于大數(shù)據(jù)清洗的異常檢測(cè)和消除的方法,其特征在于所述有效信息包括地址信息或者郵件地址。
7.根據(jù)權(quán)利要求1所述的用于大數(shù)據(jù)清洗的異常檢測(cè)和消除的方法,其特征在于所述會(huì)員ID為身份證號(hào)。