本發(fā)明涉及一種數(shù)據(jù)挖掘技術(shù)領(lǐng)域,尤其是涉及一種用于大數(shù)據(jù)清洗的異常檢測和消除的方法。
背景技術(shù):
隨著計算機技術(shù)和通訊技術(shù)的飛速發(fā)展,人們可以獲得越來越多的數(shù)字化信息,但同時也需要投入更多的時間對數(shù)字化信息進行組織和整理。數(shù)據(jù)挖掘,又稱為數(shù)據(jù)庫中知識發(fā)現(xiàn)(Knowledge Discovery from Database,簡稱KDD),是一個從大量數(shù)據(jù)中抽取挖掘出未知的、有價值的模式或規(guī)律等知識的復雜過程。在數(shù)據(jù)挖掘過程中,根據(jù)數(shù)據(jù)挖掘目的或?qū)嶋H業(yè)務需求,需要使用不同的數(shù)據(jù)挖掘算法。在數(shù)據(jù)挖掘平臺設計初期,為提高數(shù)據(jù)挖掘平臺的處理能力,使數(shù)據(jù)挖掘平臺滿足各種數(shù)據(jù)挖掘目的,常常需要在數(shù)據(jù)挖掘平臺中引入多個固定的數(shù)據(jù)挖掘算法。數(shù)據(jù)挖掘是一個減少數(shù)據(jù)錯誤和不一致性的過程,主要任務是檢測并刪除或改正將轉(zhuǎn)入數(shù)據(jù)庫的臟數(shù)據(jù)。另外,對這些臟數(shù)據(jù)進行分析歸類,并反饋給業(yè)務系統(tǒng),也能幫助業(yè)務系統(tǒng)更好的定位代碼的缺陷,改進業(yè)務流程,從而提高數(shù)據(jù)的質(zhì)量。
技術(shù)實現(xiàn)要素:
本發(fā)明所要解決的技術(shù)問題在于提供一種用于大數(shù)據(jù)清洗的異常檢測和消除的方法,兼具語音識別回應、文本抓取優(yōu)化、多形態(tài)數(shù)據(jù)跨庫比對互通這樣的功能,是一款集成多格式辨別、高速自動化處理、多樣數(shù)據(jù)適配功能的智能挖掘方式。
為解決上述技術(shù)問題,本發(fā)明的技術(shù)解決方案是:
一種用于大數(shù)據(jù)清洗的異常檢測和消除的方法,具體如下:
首先構(gòu)建用于大數(shù)據(jù)分析的數(shù)據(jù)挖掘平臺,其包括配置給會員的連接在電信網(wǎng)絡上的手機、智能終端和電信網(wǎng)絡服務器,其中手機、智能終端和電信網(wǎng)絡服務器之間通過電信網(wǎng)絡建立通信連接,而互聯(lián)網(wǎng)通過接入網(wǎng)關(guān)或升級的接入側(cè)設備與所述電信網(wǎng)絡連接,互聯(lián)網(wǎng)內(nèi)包含有郵件服務器,前臺處理終端和后臺服務器連接在所述電信網(wǎng)絡或者互聯(lián)網(wǎng)上,另外所述前臺處理終端內(nèi)包括有智能語音識別模塊、ETL模塊、TTS語音合成模塊、模擬機器人控制模塊、郵箱域名邏輯判斷及檢測模塊、會員信息和機器人模擬發(fā)送系統(tǒng),所述會員信息包括會員ID、會員手機號碼、會員的聲音特征樣本、會員的郵箱域名和會員通訊地址,所述后臺服務器上具有包含地理信息的數(shù)據(jù)庫、郵箱域名數(shù)據(jù)庫、郵編數(shù)據(jù)庫、所有會員的會員ID、會員手機號碼、會員的聲音特征樣本、會員的郵箱域名和會員通訊地址,所述地理信息包括有地理屬性的詞庫、核心地理信息、以及過去出現(xiàn)過的反映錯誤地理信息的詞條,另外地理信息還包括過去出現(xiàn)過的反映錯誤地理信息的詞條所對應的正確的地址、在表達同一地址的若干數(shù)據(jù)所構(gòu)成的同義數(shù)據(jù)之間建立起的映射關(guān)系,過去出現(xiàn)過的錯誤的郵件地址;所述郵箱域名數(shù)據(jù)庫中包括有過去出現(xiàn)過的錯誤的郵件地址和與之對應的正確的郵件地址;
當會員通過智能終端對前臺處理終端發(fā)送信息來時,所述前臺處理終端自動運行ETL模塊來提取有效信息,若提取出的有效信息中包括有地址信息,就啟動模擬機器人控制模塊進行地址標準化處理和地址清洗,所述地址標準化處理就是把地址信息用地址信息中的地址所在省、市、區(qū)或者縣、街道以及門牌號來表示,所述地址清洗就是把標準化處理的地址信息發(fā)送到所述后臺服務器中,若標準化處理的地址信息中帶有同義數(shù)據(jù),后臺服務器就通過在表達同一地址的若干數(shù)據(jù)所構(gòu)成的同義數(shù)據(jù)之間建立起的映射關(guān)系中判定出同義數(shù)據(jù),若標準化處理的地址信息和包含地理信息的數(shù)據(jù)庫中的過去出現(xiàn)過的反映錯誤地理信息的詞條存在一致的,就把標準化處理的地址信息糾正為與之一致的過去出現(xiàn)過的反映錯誤地理信息的詞條所對應的正確的地址,另外還結(jié)合郵編數(shù)據(jù)庫把標準化處理的地址信息對應的郵編查詢出來,并把標準化處理的地址信息及其對應的郵編返回前臺處理終端;
若提取出的有效信息中包括有郵件地址,就用郵箱域名邏輯判斷及檢測模塊進行對郵件地址的格式進行檢測,如果郵件地址存在格式錯誤,就改正成正確格式,然后啟動機器人模擬發(fā)送系統(tǒng)把郵件地址發(fā)送到后臺服務器中,郵件地址若同郵箱域名數(shù)據(jù)庫中的過去出現(xiàn)過的錯誤的郵件地址有相一致的,就替換成和與之該過去出現(xiàn)過的錯誤的郵件地址對應的正確的郵件地址,然后把正確的郵件地址返回前臺處理終端;
另外在有效信息中包括有會員ID和會員手機號碼時,在所述把準化處理的地址信息發(fā)送到所述后臺服務器中時,同步還能把所述會員ID和會員手機號碼發(fā)送到所述后臺服務器中,并且還能夠進行把準化處理的地址信息和所有會員的會員通訊地址進行對比,如果沒有相匹配的會員通訊地址,就對前臺處理終端發(fā)出請求來啟動智能語音交互核對功能來進行通訊地址核對;
另外在有效信息中包括有會員ID和會員手機號碼時,在所述把郵箱地址信息發(fā)送到所述后臺服務器中時,同步還能把所述會員ID和會員手機號碼發(fā)送到所述后臺服務器中,并且還能夠進行把郵箱地址信息和所有會員的會員的郵箱域名進行對比,如果沒有相匹配的會員的郵箱域名,就對前臺處理終端發(fā)出請求來啟動智能語音交互核對功能來進行郵箱核對。
所述啟動智能語音交互核對功能來進行通訊地址核對就是通過智能語音交互與消費者進行確認,得到正確的通訊地址和郵編,具體的就是通過啟動所述前臺處理終端內(nèi)的智能語音識別模塊和TTS語音合成模塊,讓智能語音識別模塊就操縱手機卡模塊經(jīng)由電信網(wǎng)絡服務器來對會員手機號碼對應的手機進行測撥,在該手機經(jīng)由電信網(wǎng)絡服務器來對前臺處理終端返回正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設置呼入限制、暫時無法接通或受限的信號音時,智能語音識別模塊就把這些正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設置呼入限制、暫時無法接通或受限的信號音轉(zhuǎn)化成各自對應的提示正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設置呼入限制、暫時無法接通或受限的文字信息,并把這些文字信息通過TTS語音合成模塊合成為語音播放出來,還能把這樣的文字信息和此時的本地時間發(fā)送到后臺服務器中存儲,在正常撥通號碼的條件下,通過所述前臺處理終端錄入交互信息并經(jīng)過TTS語音合成模塊轉(zhuǎn)化成語音信息播放出來,智能語音識別模塊并把該語音信息和錄入的交互信息經(jīng)由電信網(wǎng)絡服務器發(fā)送到會員手機號碼對應的手機中分別進行播放和顯示,在會員通過手機進行回復而傳遞回前臺處理終端的語音信息首先同該會員的聲音特征樣本進行對比,如果是該會員的聲音特征樣本,就把接收到的語音信息進行播放并經(jīng)由智能語音識別模塊進行轉(zhuǎn)化成文本信息來顯示,這樣交互直至獲取到會員正確的通訊地址和郵編,然后發(fā)送到后臺服務器中存儲,如果不是該會員的聲音特征樣本,就結(jié)束溝通。
所述啟動智能語音交互核對功能來進行通訊地址核對就是通過智能語音交互與消費者進行確認,得到正確的郵箱地址信息,具體的就是通過啟動所述前臺處理終端內(nèi)的智能語音識別模塊和TTS語音合成模塊,讓智能語音識別模塊就操縱手機卡模塊經(jīng)由電信網(wǎng)絡服務器來對會員手機號碼對應的手機進行測撥,在該手機經(jīng)由電信網(wǎng)絡服務器來對前臺處理終端返回正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設置呼入限制、暫時無法接通或受限的信號音時,智能語音識別模塊就把這些正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設置呼入限制、暫時無法接通或受限的信號音轉(zhuǎn)化成各自對應的提示正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設置呼入限制、暫時無法接通或受限的文字信息,并把這些文字信息通過TTS語音合成模塊合成為語音播放出來,還能把這樣的文字信息和此時的本地時間發(fā)送到后臺服務器中存儲,在正常撥通號碼的條件下,通過所述前臺處理終端錄入交互信息并經(jīng)過TTS語音合成模塊轉(zhuǎn)化成語音信息播放出來,智能語音識別模塊并把該語音信息和錄入的交互信息經(jīng)由電信網(wǎng)絡服務器發(fā)送到會員手機號碼對應的手機中分別進行播放和顯示,在會員通過手機進行回復而傳遞回前臺處理終端的語音信息首先同該會員的聲音特征樣本進行對比,如果是該會員的聲音特征樣本,就把接收到的語音信息進行播放并經(jīng)由智能語音識別模塊進行轉(zhuǎn)化成文本信息來顯示,這樣交互直至獲取到會員正確的郵箱地址信息,然后發(fā)送到后臺服務器中存儲,如果不是該會員的聲音特征樣本,就結(jié)束溝通
經(jīng)由本發(fā)明的結(jié)構(gòu),與現(xiàn)有技術(shù)相比,本發(fā)明的優(yōu)點在于:
在需要和人進行溝通核實數(shù)據(jù)的清洗環(huán)節(jié),運用現(xiàn)在已有的技術(shù)實現(xiàn)人機對話,對人的回答進行識別和判定并及時給出答復,同時完成數(shù)據(jù)的校驗和缺陷修復。將通訊地址出現(xiàn)的種種錯漏問題,高速地自動刪除、歸類、補充,轉(zhuǎn)換之后,最終將輸出一套標準的綠色的數(shù)據(jù)庫。利用方法代替?zhèn)鹘y(tǒng)以人工電話的數(shù)據(jù)清洗方式,顯著提高數(shù)據(jù)清洗工作的效率,同時減少人力成本,從而實現(xiàn)數(shù)據(jù)清洗的高效率低成本。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合實施例,對本發(fā)明進行進一步詳細說明。應當理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。
用于大數(shù)據(jù)清洗的異常檢測和消除的方法,具體如下:
首先構(gòu)建用于大數(shù)據(jù)分析的數(shù)據(jù)挖掘平臺,其包括配置給會員的連接在電信網(wǎng)絡上的手機、智能終端和電信網(wǎng)絡服務器,其中手機、智能終端和電信網(wǎng)絡服務器之間通過電信網(wǎng)絡建立通信連接,而互聯(lián)網(wǎng)通過接入網(wǎng)關(guān)或升級的接入側(cè)設備與所述電信網(wǎng)絡連接,互聯(lián)網(wǎng)內(nèi)包含有郵件服務器,前臺處理終端和后臺服務器連接在所述電信網(wǎng)絡或者互聯(lián)網(wǎng)上,另外所述前臺處理終端內(nèi)包括有智能語音識別模塊、ETL模塊、TTS語音合成模塊、模擬機器人控制模塊、郵箱域名邏輯判斷及檢測模塊、會員信息和機器人模擬發(fā)送系統(tǒng),所述會員信息包括會員ID、會員手機號碼、會員的聲音特征樣本、會員的郵箱域名和會員通訊地址,所述后臺服務器上具有包含地理信息的數(shù)據(jù)庫、郵箱域名數(shù)據(jù)庫、郵編數(shù)據(jù)庫、所有會員的會員ID、會員手機號碼、會員的聲音特征樣本、會員的郵箱域名和會員通訊地址,所述地理信息包括有地理屬性的詞庫、核心地理信息、以及過去出現(xiàn)過的反映錯誤地理信息的詞條,另外地理信息還包括過去出現(xiàn)過的反映錯誤地理信息的詞條所對應的正確的地址、在表達同一地址的若干數(shù)據(jù)所構(gòu)成的同義數(shù)據(jù)之間建立起的映射關(guān)系,過去出現(xiàn)過的錯誤的郵件地址;所述郵箱域名數(shù)據(jù)庫中包括有過去出現(xiàn)過的錯誤的郵件地址和與之對應的正確的郵件地址;
當會員通過智能終端對前臺處理終端發(fā)送信息來時,所述前臺處理終端自動運行ETL模塊來提取有效信息,若提取出的有效信息中包括有地址信息,就啟動模擬機器人控制模塊進行地址標準化處理和地址清洗,所述地址標準化處理就是把地址信息用地址信息中的地址所在省、市、區(qū)或者縣、街道以及門牌號來表示,所述地址清洗就是把標準化處理的地址信息發(fā)送到所述后臺服務器中,若標準化處理的地址信息中帶有同義數(shù)據(jù),后臺服務器就通過在表達同一地址的若干數(shù)據(jù)所構(gòu)成的同義數(shù)據(jù)之間建立起的映射關(guān)系中判定出同義數(shù)據(jù),若標準化處理的地址信息和包含地理信息的數(shù)據(jù)庫中的過去出現(xiàn)過的反映錯誤地理信息的詞條存在一致的,就把標準化處理的地址信息糾正為與之一致的過去出現(xiàn)過的反映錯誤地理信息的詞條所對應的正確的地址,另外還結(jié)合郵編數(shù)據(jù)庫把標準化處理的地址信息對應的郵編查詢出來,并把標準化處理的地址信息及其對應的郵編返回前臺處理終端;這樣可針對會員通訊地址字段出現(xiàn)的缺漏、錯誤進行智能補齊,并運用數(shù)據(jù)標準化技術(shù),將雜亂、重復的地址數(shù)據(jù)進行系統(tǒng)自動整理和規(guī)范。此外,系統(tǒng)還能集成了全國最新最全的郵編數(shù)據(jù)庫,通過加載運行自主研發(fā)的地址信息字段智能讀取識別系統(tǒng),可實現(xiàn)數(shù)據(jù)庫自動訪問,進行郵編查詢工作,完成郵政編碼精確地校對、補齊和匹配。
比如對于“徐匯區(qū)斜土路1223號”和“上海市之俊大廈”這兩條數(shù)據(jù),平臺通過調(diào)用地理信息數(shù)據(jù)庫很快能判定為同義數(shù)據(jù),甚至之后遇到“上海市黃浦區(qū)斜土路1223號之駿大廈”這樣的數(shù)據(jù)時,平臺還能將其中的分區(qū)錯誤“黃浦區(qū)”和錯字“駿”識別出來,同時結(jié)合全面的郵政編碼庫進行郵編查詢,最后調(diào)動將其標準化輸出為“上海市徐匯區(qū)斜土路1223號之俊大廈,200032”。
若提取出的有效信息中包括有郵件地址,就用郵箱域名邏輯判斷及檢測模塊進行對郵件地址的格式進行檢測,如果郵件地址存在格式錯誤,就改正成正確格式,然后啟動機器人模擬發(fā)送系統(tǒng)把郵件地址發(fā)送到后臺服務器中,郵件地址若同郵箱域名數(shù)據(jù)庫中的過去出現(xiàn)過的錯誤的郵件地址有相一致的,就替換成和與之該過去出現(xiàn)過的錯誤的郵件地址對應的正確的郵件地址,然后把正確的郵件地址返回前臺處理終端;可針對網(wǎng)易、雅虎、新浪等在內(nèi)的個人和企業(yè)公開郵箱域名進行智能檢測,通過集成海量公開郵箱域名數(shù)據(jù)庫,運用邏輯運算技術(shù),對格式錯誤的無效地址進行剔除,同時還可基于郵箱域名數(shù)據(jù)庫,對失準域名進行近似值匹配,并進行正確域名智能補齊,為企業(yè)提供更人性化的數(shù)據(jù)挖掘和清洗工作。
比如當看到Ber ry.zh@iclud.com這樣的郵件地址,平臺也會迅速調(diào)用域名邏輯判斷系統(tǒng)進行檢測,再結(jié)合郵箱域名數(shù)據(jù)庫進行檢測,刪除空格,更正域名,自動將其輸出為Berry.zh@icloud.com。
另外在有效信息中包括有會員ID和會員手機號碼時,在所述把準化處理的地址信息發(fā)送到所述后臺服務器中時,同步還能把所述會員ID和會員手機號碼發(fā)送到所述后臺服務器中,并且還能夠進行把準化處理的地址信息和所有會員的會員通訊地址進行對比,如果沒有相匹配的會員通訊地址,就對前臺處理終端發(fā)出請求來啟動智能語音交互核對功能來進行通訊地址核對;
另外在有效信息中包括有會員ID和會員手機號碼時,在所述把郵箱地址信息發(fā)送到所述后臺服務器中時,同步還能把所述會員ID和會員手機號碼發(fā)送到所述后臺服務器中,并且還能夠進行把郵箱地址信息和所有會員的會員的郵箱域名進行對比,如果沒有相匹配的會員的郵箱域名,就對前臺處理終端發(fā)出請求來啟動智能語音交互核對功能來進行郵箱核對。
所述啟動智能語音交互核對功能來進行通訊地址核對就是通過智能語音交互與消費者進行確認,得到正確的通訊地址和郵編,具體的就是通過啟動所述前臺處理終端內(nèi)的智能語音識別模塊和TTS語音合成模塊,讓智能語音識別模塊就操縱手機卡模塊經(jīng)由電信網(wǎng)絡服務器來對會員手機號碼對應的手機進行測撥,在該手機經(jīng)由電信網(wǎng)絡服務器來對前臺處理終端返回正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設置呼入限制、暫時無法接通或受限的信號音時,智能語音識別模塊就把這些正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設置呼入限制、暫時無法接通或受限的信號音轉(zhuǎn)化成各自對應的提示正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設置呼入限制、暫時無法接通或受限的文字信息,并把這些文字信息通過TTS語音合成模塊合成為語音播放出來,還能把這樣的文字信息和此時的本地時間發(fā)送到后臺服務器中存儲,這樣也能起到提供完整數(shù)據(jù)報告,方便企業(yè)對會員留存狀態(tài)進行及時掌握,并可通過會員手機號碼狀態(tài)執(zhí)行屬性分類跟蹤管理,在正常撥通號碼的條件下,通過所述前臺處理終端錄入交互信息并經(jīng)過TTS語音合成模塊轉(zhuǎn)化成語音信息播放出來,智能語音識別模塊并把該語音信息和錄入的交互信息經(jīng)由電信網(wǎng)絡服務器發(fā)送到會員手機號碼對應的手機中分別進行播放和顯示,在會員通過手機進行回復而傳遞回前臺處理終端的語音信息首先同該會員的聲音特征樣本進行對比,如果是該會員的聲音特征樣本,就把接收到的語音信息進行播放并經(jīng)由智能語音識別模塊進行轉(zhuǎn)化成文本信息來顯示,這樣交互直至獲取到會員正確的通訊地址和郵編,然后發(fā)送到后臺服務器中存儲,如果不是該會員的聲音特征樣本,就結(jié)束溝通。
所述啟動智能語音交互核對功能來進行通訊地址核對就是通過智能語音交互與消費者進行確認,得到正確的郵箱地址信息,具體的就是通過啟動所述前臺處理終端內(nèi)的智能語音識別模塊和TTS語音合成模塊,讓智能語音識別模塊就操縱手機卡模塊經(jīng)由電信網(wǎng)絡服務器來對會員手機號碼對應的手機進行測撥,在該手機經(jīng)由電信網(wǎng)絡服務器來對前臺處理終端返回正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設置呼入限制、暫時無法接通或受限的信號音時,智能語音識別模塊就把這些正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設置呼入限制、暫時無法接通或受限的信號音轉(zhuǎn)化成各自對應的提示正常撥通號碼、關(guān)機、停機、空號、來電提醒、已設置呼入限制、暫時無法接通或受限的文字信息,并把這些文字信息通過TTS語音合成模塊合成為語音播放出來,還能把這樣的文字信息和此時的本地時間發(fā)送到后臺服務器中存儲,這樣也能起到提供完整數(shù)據(jù)報告,方便企業(yè)對會員留存狀態(tài)進行及時掌握,并可通過會員手機號碼狀態(tài)執(zhí)行屬性分類跟蹤管理,在正常撥通號碼的條件下,通過所述前臺處理終端錄入交互信息并經(jīng)過TTS語音合成模塊轉(zhuǎn)化成語音信息播放出來,智能語音識別模塊并把該語音信息和錄入的交互信息經(jīng)由電信網(wǎng)絡服務器發(fā)送到會員手機號碼對應的手機中分別進行播放和顯示,在會員通過手機進行回復而傳遞回前臺處理終端的語音信息首先同該會員的聲音特征樣本進行對比,如果是該會員的聲音特征樣本,就把接收到的語音信息進行播放并經(jīng)由智能語音識別模塊進行轉(zhuǎn)化成文本信息來顯示,這樣交互直至獲取到會員正確的郵箱地址信息,然后發(fā)送到后臺服務器中存儲,如果不是該會員的聲音特征樣本,就結(jié)束溝通。
智能語音識別模塊對原本的手機號碼清洗領(lǐng)域中,憑機器測撥進行正常號碼、關(guān)機、停機、空號、來電提醒、呼入限制等十余種號碼狀態(tài)識別反饋的系統(tǒng)進行了有力補充,不僅可以判斷號碼的狀態(tài),還能判斷人與號碼的匹配狀態(tài),完成了分辨機器信號到分辨真實語音的巨大跨越。
為了對語音進行準確辨識,平臺還集成全國八大方言語系,共計二十余種小方言的語法特征和海量語音庫,由機器自動記憶及學習系統(tǒng)理解掌握,再用每一次清洗結(jié)果來“反哺”機器大腦,由此平臺也可以在不斷的學習及驗證中得到優(yōu)化。
平臺對接收和判斷的結(jié)果完成輸出反饋。在與數(shù)據(jù)相關(guān)人核實信息時,根據(jù)不同的應答結(jié)果,通過自然語言處理和智能語音識別,會做出個性化的不同應答。
如相關(guān)人確認這條數(shù)據(jù),平臺會在表明來意后,將需要分步傳達的通知信息一次送達,比如相關(guān)人希望了解的活動或賬戶變動的通知信息;對于錯誤的相關(guān)人,平臺會禮貌性解釋情況并結(jié)束溝通;對不確定的信息,還會用其他問題進行二次驗證。另外,這些應答語音的擬真程度和反應速度都與真人無異,保證整個溝通過程順暢快速,不會造成對數(shù)據(jù)相關(guān)人的困擾,更加人性化。
數(shù)據(jù)挖掘的最終目的是讓數(shù)據(jù)庫恢復健康,并千方百計提高它的質(zhì)量,平臺可以在辨識出清洗結(jié)果后,運用ETL標準化技術(shù)調(diào)動數(shù)據(jù)模型對數(shù)據(jù)庫的“蛀點”進行修補優(yōu)化。
像前文提到的電子郵件地址和通訊地址出現(xiàn)的種種錯漏問題,高速地自動刪除、歸類、補充,轉(zhuǎn)換之后,最終將輸出一套標準的綠色的數(shù)據(jù)庫。
同時,平臺的多線程并行系統(tǒng)還將數(shù)據(jù)清洗提升到前所未有的效率。它能以每分鐘百萬字的處理速度,24小時不間斷運轉(zhuǎn),高速準確過篩人力無法負荷的數(shù)據(jù)。這也是大數(shù)據(jù)清洗機器人相對于人力的獨特優(yōu)勢。
①面向企業(yè)或者公共政府部門,提供數(shù)據(jù)分析結(jié)果的服務
定位在某一具體行業(yè),通過大量數(shù)據(jù)支持,對數(shù)據(jù)進行挖掘分析后預測相關(guān)主體的行為,以開展業(yè)務;利用數(shù)據(jù)挖掘技術(shù)幫助客戶開拓精準營銷或者新業(yè)務。
②面向個人,提供基于數(shù)據(jù)分析的服務
面向零售商、政府部門、公共機構(gòu)提供基于地點的人員流動數(shù)據(jù):以時間為維度(小時/天/月/年),在特定區(qū)域的人員人口統(tǒng)計數(shù)據(jù)(性別、年齡)和行動等數(shù)據(jù)。
該平臺典型的實用案例為海淘,從國外寄送到國內(nèi)的貨物,因報關(guān)的身份信息不正確、國內(nèi)地址不正確、聯(lián)系方式不正確等,導致出現(xiàn)無法報關(guān)、無法收貨,而貨物退回海外成本非常高,通過該平臺可以有效解決此問題。
(1)地址標準化
國內(nèi)用戶在海淘網(wǎng)站上下單后,數(shù)據(jù)挖掘平臺立即自動對配送地址進行標準化和清洗,將用戶輸入的非標準的地址標準化為xx省xx市/區(qū)xx路/街xx樓xx號。并與數(shù)據(jù)挖掘平臺的全國地址數(shù)據(jù)庫進行匹配,對于匹配不到的地址信息,將啟動智能語音交互核對。
例如表1所示:
表1
(2)報關(guān)信息清洗
報關(guān)需核對用戶的身份信息,數(shù)據(jù)挖掘平臺將用戶提供的身份證姓名信息,與公安數(shù)據(jù)庫進行比對,對于匹配不到的用戶身份信息,將啟動智能語音交互核對。
例如表2所示:
表2
(3)智能語音清洗
通過智能語音交互與消費者進行確認,得到正確的身份、地址和郵編等信息。
客戶提交的注冊信息包括會員姓名、郵箱、收貨地址,需要對每個會員的這三條信息進行數(shù)據(jù)清洗。
例如如下所示:
數(shù)據(jù)挖掘平臺:您好,這里是海淘網(wǎng)客戶服務中心,您是【王小帥先生嗎?】(語音播放+TTS)
客戶:是的(語義識別)
數(shù)據(jù)挖掘平臺:【412985127@qq.com】是您的郵箱地址嗎?(語音播放+TTS)
客戶:對的(語義識別)
數(shù)據(jù)挖掘平臺:【上海市徐匯區(qū)斜土路之俊大廈1802室】是您的收貨地址嗎?(語音播放+TTS)
客戶:不是,換了。(語義識別)
數(shù)據(jù)挖掘平臺:您現(xiàn)在的收貨地址是哪里?(語音播放)
客戶:徐匯區(qū)斜土路之俊大廈905室(語音播放+地址標準化)
數(shù)據(jù)挖掘平臺:您的收貨地址更改為【上海市徐匯區(qū)斜土路之俊大廈905室】(語音播放+TTS)
客戶:嗯,對的(語義識別)
數(shù)據(jù)挖掘平臺:感謝您的接聽與配合,海淘網(wǎng)祝您購物愉快,再見!(語音播放)電話結(jié)束,根據(jù)電話的結(jié)果,通過ETL標準化流程將此客戶的信息優(yōu)化為:
若一個平臺年平均新增會員數(shù)量為100萬,如果利用傳統(tǒng)的呼叫中心進行數(shù)據(jù)清洗工作的話,每條信息需要5分鐘語音通話??偣残枰?000萬分鐘語音通話。呼叫中心以500分鐘/人/天,每年按照250天工作計算。則總共需要40個客服人員一年的工作量。而利用本平臺部署1000條并行線路,則只需要10天即可完成所有的工作。大幅度提升數(shù)據(jù)清洗效率的同時也大大減少人力消耗,相應減少企業(yè)的辦公場地、辦公用品等費用,從而極大地減低了企業(yè)大數(shù)據(jù)清洗的成本。每年可以節(jié)約因地址無效導致的貨物損失的數(shù)百萬元費用。
可見,通過本平臺,在需要和人進行溝通核實數(shù)據(jù)的清洗環(huán)節(jié),運用現(xiàn)在已有的技術(shù)實現(xiàn)人機對話,對人的回答進行識別和判定并及時給出答復,同時完成數(shù)據(jù)的校驗和“蛀點”修復。將通訊地址出現(xiàn)的種種錯漏問題,高速地自動刪除、歸類、補充,轉(zhuǎn)換之后,最終將輸出一套標準的綠色的數(shù)據(jù)庫。利用云信留客WinRobot機器人智能清洗數(shù)據(jù)挖掘平臺代替?zhèn)鹘y(tǒng)以人工電話的數(shù)據(jù)清洗方式,顯著提高數(shù)據(jù)清洗工作的效率,同時減少人力成本,從而實現(xiàn)數(shù)據(jù)清洗的高效率低成本。
通過智能語音識別模塊,加載計算機機器人控制系統(tǒng),實現(xiàn)對會員手機號碼的零干擾自動測撥,運用信號音自動分析和處理技術(shù),將模擬信號轉(zhuǎn)化成數(shù)字識別信號,實現(xiàn)對會員手機號碼進行包括正常號碼、關(guān)機、停機、空號、來電提醒、已設置呼入限制、暫時無法接通、受限數(shù)據(jù)等十余種狀態(tài)識別反饋,并提供完整數(shù)據(jù)報告,方便企業(yè)對會員留存狀態(tài)進行及時掌握,并可通過會員手機號碼狀態(tài)執(zhí)行屬性分類跟蹤管理。
(2)傳統(tǒng)地址清洗功能
通過集成海量公開地理信息數(shù)據(jù)庫,內(nèi)嵌230個地理屬性詞庫、9800萬條地址信息核心詞匯、860萬組錯誤詞條,構(gòu)建了大規(guī)模的地址數(shù)值模型,基于模型匹配原理,可針對會員通訊地址字段出現(xiàn)的缺漏、錯誤進行智能補齊,并運用數(shù)據(jù)標準化技術(shù),將雜亂、重復的地址數(shù)據(jù)進行系統(tǒng)自動整理和規(guī)范。此外,系統(tǒng)還集成了全國最新最全的郵編數(shù)據(jù)庫,通過加載運行自主研發(fā)的地址信息字段智能讀取識別系統(tǒng),可實現(xiàn)數(shù)據(jù)庫自動訪問,進行郵編查詢工作,完成郵政編碼精確地校對、補齊和匹配。
(3)互聯(lián)網(wǎng)數(shù)據(jù)清洗功能
通過郵箱域名邏輯判斷及檢測模塊,加載計算機機器人模擬發(fā)送系統(tǒng),可針對網(wǎng)易、雅虎、新浪等在內(nèi)的個人和企業(yè)公開郵箱域名進行智能檢測,通過集成海量公開郵箱域名數(shù)據(jù)庫,運用邏輯運算技術(shù),對格式錯誤的無效地址進行剔除,同時還可基于郵箱域名數(shù)據(jù)庫,對失準域名進行近似值匹配,并進行正確域名智能補齊,為企業(yè)提供更人性化的數(shù)據(jù)清洗工作。
所述前臺處理終端包括計算機、PDA或前臺服務器。
所述會員通過智能終端對前臺處理終端發(fā)送的信息為文本、圖片或者視頻信息。
所述有效信息包括地址信息或者郵件地址。
所述會員ID為身份證號。
以上述依據(jù)本發(fā)明的理想實施例為啟示,通過上述的說明內(nèi)容,相關(guān)工作人員完全可以在不偏離本項發(fā)明技術(shù)思想的范圍內(nèi),進行多樣的變更以及修改。本項發(fā)明的技術(shù)性范圍并不局限于說明書上的內(nèi)容,必須要根據(jù)權(quán)利要求范圍來確定其技術(shù)性范圍。