專利名稱:處理文本的方法和裝置的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)涉及計(jì)算機(jī)技術(shù),尤其涉及一種處理文本的方法和裝置。
背景技術(shù):
在互聯(lián)網(wǎng)中,為了避免無用信息或有害信息的傳播,常常需要進(jìn)行文本處理。例如,在反垃圾郵件的設(shè)置中,郵件接收裝置例如郵件接收客戶端軟件將來信的地址與預(yù)存的黑名單地址進(jìn)行精確匹配,若二者中的所有字符相同則拒收此來信。在這種情況下處理的文本為電子郵箱的地址。又如,在電子商務(wù)系統(tǒng)中,某些用戶會(huì)執(zhí)行欺詐行為,為了限制欺詐行為需要對(duì)這些用戶留下的地址(通常為通信地址)進(jìn)行檢測(cè),目前也采用 地址黑名單,將每一個(gè)地址進(jìn)行精確匹配,若該地址中的所有字符與黑名單中的至少一個(gè)地址的所有字符相同,則認(rèn)為該用戶涉嫌欺詐。在這種“地址黑名單”的應(yīng)用場(chǎng)景中,某些郵件發(fā)送者或者電子商務(wù)系統(tǒng)的用戶會(huì)采用變更地址的方式躲避檢測(cè),傳統(tǒng)的做法是對(duì)地址文本中的少數(shù)字符進(jìn)行更改,上述的檢測(cè)方式無法檢測(cè)出這種地址。另外,在文本處理中還會(huì)遇到“歷史地址比較”的應(yīng)用場(chǎng)景,即對(duì)于某個(gè)特定地址判斷已有地址列表中是否有某個(gè)曾經(jīng)出現(xiàn)過的地址和它相類似,借以分析不同地址出現(xiàn)的次數(shù)等等。傳統(tǒng)的完全匹配法無法識(shí)別上文所述的變更地址,導(dǎo)致判斷的結(jié)果不準(zhǔn)確。在“地址黑名單”場(chǎng)景中,需要根據(jù)文本處理的結(jié)果來決策當(dāng)前被判斷的地址是否涉嫌欺詐?,F(xiàn)有的精確匹配技術(shù)只能處理完全相同的地址,如果對(duì)地址的少數(shù)字符進(jìn)行修改,則無法直接檢測(cè)出修改后的地址,無法發(fā)揮黑名單的真正作用。同時(shí),由于黑名單需要人工維護(hù),即使能夠獲得所有修改后的地址并加入黑名單,這個(gè)名單也會(huì)變得很龐大,難以維護(hù)。在“歷史地址比較”場(chǎng)景中,需要根據(jù)文本處理的結(jié)果來決策當(dāng)前被判斷的地址是否為出現(xiàn)過的歷史地址,并統(tǒng)計(jì)不同地址出現(xiàn)的次數(shù)等指標(biāo)?,F(xiàn)有的匹配技術(shù)同樣只能匹配完全相同的地址,兩個(gè)相似的地址會(huì)被判斷成兩個(gè)不同地址,但是實(shí)際上它們是同一個(gè)地址。因此,傳統(tǒng)的處理技術(shù)會(huì)導(dǎo)致地址分析的結(jié)果不準(zhǔn)確。針對(duì)這兩個(gè)應(yīng)用場(chǎng)景,現(xiàn)有的文本檢測(cè)方法處理效果不佳,目前尚未提出有效解決方案。
發(fā)明內(nèi)容
本申請(qǐng)的主要目的是提供一種處理文本的方法和裝置,以解決現(xiàn)有技術(shù)中對(duì)于文本檢測(cè)的效果不佳的問題。為了實(shí)現(xiàn)上述目的,根據(jù)本申請(qǐng)的一個(gè)方面,提供了一種處理文本的方法。本申請(qǐng)的處理文本的方法包括在倒排索引中查找待處理的文本段中的關(guān)鍵詞,統(tǒng)計(jì)預(yù)存的文本段集合中的各個(gè)文本段或該文本段的標(biāo)識(shí)出現(xiàn)在包括所述關(guān)鍵詞的條目中的次數(shù),按該次數(shù)由高到低的順序從所述預(yù)存的文本段集合中選擇多個(gè)文本段,所述倒排索引為對(duì)預(yù)存的文本段集合建立的倒排索引,其包括多個(gè)條目,每個(gè)條目包括一個(gè)關(guān)鍵詞,并且對(duì)應(yīng)保存有包含該關(guān)鍵詞的文本段或該文本段的標(biāo)識(shí);計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度,得到多個(gè)相似度的值;判斷所述多個(gè)相似度的值中的最小值是否處于設(shè)定范圍內(nèi),若是,則輸出預(yù)設(shè)內(nèi)容的信息。進(jìn)一步地,所述計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度包括使用字符串相似度比對(duì)的算法計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度。進(jìn)一步地,在所述判斷的結(jié)果為是的情況下,將所述待處理文本段添加到所述文本段集合中。進(jìn)一步地,所述計(jì)算待處理的文本段與預(yù)存的文本段集合內(nèi)的多個(gè)文本段之間的相似度之前,還包括按照預(yù)設(shè)的字符串相似的判斷準(zhǔn)則,去除所述文本段集合中與其他文本段相似的文本段。
進(jìn)一步地,所述預(yù)存的文本段集合為電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的歷史用戶通信地址;所述預(yù)設(shè)內(nèi)容的信息包括歷史地址提示信息,用于表達(dá)待處理的文本段屬于所述歷史用戶通信地址。進(jìn)一步地,所述預(yù)存的文本段集合為電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的黑名單通信地址;所述預(yù)設(shè)內(nèi)容的信息包括黑名單用戶提示信息,用于表達(dá)待處理的文本段屬于所述黑名單通信地址。根據(jù)本申請(qǐng)的另一方面,提供了一種處理文本的裝置。本申請(qǐng)的處理文本的裝置包括文本段選擇模塊,用于在倒排索引中查找待處理的文本段中的所有關(guān)鍵詞,統(tǒng)計(jì)預(yù)存的文本段集合中的各個(gè)文本段或該文本段的標(biāo)識(shí)出現(xiàn)在包括所述關(guān)鍵詞的條目中的次數(shù),按該次數(shù)由高到低的順序從所述預(yù)存的文本段集合中選擇多個(gè)文本段,所述倒排索引為對(duì)預(yù)存的文本段集合建立的倒排索引,其包括多個(gè)條目,每個(gè)條目包括一個(gè)關(guān)鍵詞,并且對(duì)應(yīng)保存有包含該關(guān)鍵詞的文本段或該文本段的標(biāo)識(shí);計(jì)算模塊,用于計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度,得到多個(gè)相似度的值;判斷模塊,用于判斷所述多個(gè)相似度的值中的最小值是否處于設(shè)定范圍內(nèi),若是,則輸出預(yù)設(shè)內(nèi)容的信息。進(jìn)一步地,所述計(jì)算模塊還用于使用字符串相似度比對(duì)的算法計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度。進(jìn)一步地,所述文本段選擇模塊判斷模塊還用于在所述判斷結(jié)果為是的情況下,將所述待處理文本段添加到所述文本段集合中。進(jìn)一步地,還包括預(yù)處理模塊,用于在所述計(jì)算模塊進(jìn)行計(jì)算之前,按照預(yù)設(shè)的字符串相似的判斷準(zhǔn)則,去除所述文本段集合中與其他文本段相似的文本段。進(jìn)一步地,還包括保存模塊,用于將電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的歷史用戶通信地址作為所述文本段集合進(jìn)行保存;所述判斷模塊還用于輸出歷史地址提示信息,該歷史地址提示信息用于表達(dá)待處理的文本段屬于所述歷史用戶通信地址。進(jìn)一步地,還包括保存模塊,用于將電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的黑名單通信地址作為所述文本段集合進(jìn)行保存;所述判斷模塊還用于輸出黑名單用戶提示信息,該黑名單用戶提示信息用于表達(dá)待處理的文本段屬于所述黑名單通信地址。
根據(jù)本發(fā)明的技術(shù)方案,使用倒排索引記錄地址中的關(guān)鍵詞以及地址,根據(jù)當(dāng)前待處理地址在該倒排索引中相關(guān)條目中出現(xiàn)的次數(shù)來選擇多個(gè)已存儲(chǔ)的地址,再將這些地址與當(dāng)前待處理地址進(jìn)行相似度計(jì)算,這種方式能夠大大加快相似度計(jì)算的速度,從而很快確認(rèn)當(dāng)前待處理地址是否為歷史地址或黑名單中的地址,提高了電子商務(wù)系統(tǒng)的計(jì)算機(jī)性能。
說明書附圖用來提供對(duì)本申請(qǐng)的進(jìn)一步理解,構(gòu)成本申請(qǐng)的一部分,本申請(qǐng)的示意性實(shí)施例及其說明用于解釋本申請(qǐng),并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中圖I是根據(jù)本申請(qǐng)實(shí)施例的處理文本的方法的主要步驟的流程圖;圖2是根據(jù)本申請(qǐng)實(shí)施例的倒排索引的內(nèi)容的示意圖;圖3是根據(jù)本申請(qǐng)實(shí)施例的使用倒排索引進(jìn)行地址相似程度統(tǒng)計(jì)的示意圖; 圖4是根據(jù)本申請(qǐng)實(shí)施例的處理文本的裝置的主要模塊的示意圖。
具體實(shí)施例方式需要說明的是,在不沖突的情況下,本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本申請(qǐng)。圖I是根據(jù)本申請(qǐng)實(shí)施例的處理文本的方法的主要步驟的流程圖,如圖I所示,該方法主要包括如下步驟步驟Sll :獲取待處理文本。步驟S13 :計(jì)算待處理的文本段與預(yù)存的文本段集合內(nèi)的多個(gè)文本段之間的相似度,得到多個(gè)相似度的值。本步驟中可以使用現(xiàn)有或?qū)砜赡艹霈F(xiàn)的各種字符串相似度比對(duì)的算法進(jìn)行計(jì)算,字符串相似度比對(duì)的算法例如Levenshtein Distance算法、LCS算法、向量乘積算法等。相似度比對(duì)的算法能夠根據(jù)兩個(gè)給定字符串計(jì)算其距離,該距離的值為O至I之間的小數(shù),數(shù)值越大,表示兩個(gè)字符串越不相同;本實(shí)施例中,兩個(gè)地址之間的相似度的值是以I減去該距離而得到,相似度的值也是O至I之間的小數(shù),相似度的值越大表示兩個(gè)字符串越相似,相似度的值為I則認(rèn)為兩個(gè)字符串完全相同,為O則認(rèn)為兩個(gè)字符串完全不同。步驟S15 :判斷得到的多個(gè)相似度的值中的最小值是否處于設(shè)定范圍內(nèi),若是,則進(jìn)入步驟S17,否則進(jìn)入步驟S19。根據(jù)步驟S13中的計(jì)算,能夠得到介于O至I之間的相似度的值;在本實(shí)施例中,對(duì)于相似度的值設(shè)置一個(gè)范圍來作為決策的根據(jù)。步驟S17 :輸出預(yù)設(shè)內(nèi)容的信息。本步驟中預(yù)設(shè)的內(nèi)容依應(yīng)用場(chǎng)景而定。例如在“地址黑名單”的應(yīng)用場(chǎng)景中,在步驟S15中設(shè)置的相似度的值范圍為大于O. 7,這樣若相似度的值大于O. 7,則認(rèn)為待處理文本所代表的地址涉嫌欺詐,此時(shí)輸出的信息可以是黑名單用戶提示信息,用于表達(dá)待處理的文本段屬于黑名單通信地址,例如“當(dāng)前地址為欺詐地址”。又如在“歷史地址比較”的應(yīng)用場(chǎng)景中,在步驟S15中設(shè)置的相似度的值范圍為大于O. 75,這樣若相似度的值小于O. 75,則認(rèn)為待處理文本所代表的地址在歷史地址列表中出現(xiàn)過,此時(shí)輸出的信息用于表達(dá)待處理的文本段屬于所述歷史用戶通信地址,例如“當(dāng)前地址為歷史地址”。步驟S19 :獲取下一條待處理的文本段。然后返回步驟S13。若所有待處理文本段都已處理過,則結(jié)束當(dāng)前流程。從以上步驟可以看出,本實(shí)施例通過計(jì)算字符串之間相似度的方式來處理文本,能夠避免字符串之間精確匹配所導(dǎo)致的局限性。以上述的“地址黑名單”的應(yīng)用場(chǎng)景為例,若某些用戶采用變更地址中的部分字符的方式來躲避檢測(cè),對(duì)于在電子商務(wù)的信息交互中客觀存在的這種現(xiàn)實(shí),采用本實(shí)施例的方案能夠發(fā)現(xiàn)變更了部分字符的地址,從而有助于全面地檢測(cè)出地址欺詐行為??梢愿鶕?jù)系統(tǒng)的實(shí)際情況,結(jié)合系統(tǒng)管理人員的經(jīng)驗(yàn)來設(shè)置步驟S15中的設(shè)定范圍,這樣系統(tǒng)管理人員能夠使系統(tǒng)實(shí)現(xiàn)自己對(duì)客觀現(xiàn)實(shí)所產(chǎn)生的需求,例如檢查地址欺詐行為,或者確認(rèn)某一地址為歷史地址。接下來以文本段為電子商務(wù)中的用戶通信地址為例,對(duì)本實(shí)施例中的處理文本的方法作進(jìn)一步說明。用戶通信地址是電子商務(wù)的用戶提供的地址,例如在購買商品時(shí)填寫的送貨地址,通常由多個(gè)關(guān)鍵詞組成,標(biāo)識(shí)地理意義上的具體位置,例如國(guó)家、地區(qū)、街道以 及門牌號(hào)。首先獲取地址的列表,該列表中的地址用來與當(dāng)前待處理的地址進(jìn)行比較。對(duì)于“地址黑名單”的應(yīng)用場(chǎng)景,此列表為欺詐地址列表;對(duì)于“歷史地址比較”的應(yīng)用場(chǎng)景,此列表為歷史地址。以下以“歷史地址比較”的應(yīng)用場(chǎng)景為例,對(duì)于上述的步驟S13進(jìn)行詳細(xì)說明。在步驟S13中,計(jì)算待處理的文本段與預(yù)存的文本段集合內(nèi)的多個(gè)文本段之間的相似度。此處待處理的文本段指的是待處理的通信地址;預(yù)存的文本段集合指的是“黑名單”場(chǎng)景中的黑名單或者“歷史地址比較”場(chǎng)景中的地址集合。設(shè)這個(gè)集合為Q,當(dāng)前待處理的地址為字符串S,在步驟S13中,可以將S和Q中的所有地址進(jìn)行相似度計(jì)算,也可以先獲得Q中與S最相似的若干個(gè)地址(設(shè)這若干個(gè)地址組成Qtl),然后將S與Qtl中的地址進(jìn)行相似度計(jì)算,后者方式可提高比較的速度。在進(jìn)行計(jì)算之前,可以對(duì)S進(jìn)行分詞并標(biāo)準(zhǔn)化,分詞和標(biāo)準(zhǔn)化的步驟視字符串的語言而定,例如對(duì)于英文可將關(guān)鍵詞按照空格分開,并將所有小寫字母變成大寫。為了獲得Q中的上述“最相似的若干個(gè)地址”,可以事先確定一個(gè)相似程度比較方式,作為S與Q中的地址比較的原則,將Q中所有地址與S進(jìn)行比較,再按照相似程度由高到低的順序從Q中選擇與S最相似的m個(gè)(例如10個(gè))地址作為%。這里的相似程度有區(qū)別于上文中的相似度,本實(shí)施例中,通過字符串相似度比對(duì)的算法進(jìn)行計(jì)算得到相似度的值,而相似程度則是通過比較來得出,比較的原則依地址的語言而定,例如對(duì)于英文來說,可以是相同關(guān)鍵詞數(shù)最多??梢灾苯訉與Q中的地址進(jìn)行比較,也可以通過倒排索引來加快比較速度,以下對(duì)后者方式做出說明。Q中的每個(gè)地址均由若干個(gè)關(guān)鍵詞組成。為Q中所有出現(xiàn)的關(guān)鍵詞建立倒排索引,即每一個(gè)關(guān)鍵詞對(duì)應(yīng)一串地址或地址的標(biāo)識(shí),該一串地址中的每個(gè)地址均包含所對(duì)應(yīng)的關(guān)鍵詞。圖2是根據(jù)本申請(qǐng)實(shí)施例的倒排索引的內(nèi)容的示意圖。如圖2所示,表格左側(cè)為關(guān)鍵詞(圖中示意為“關(guān)鍵詞1”、“關(guān)鍵詞2”、……“關(guān)鍵詞N”),右側(cè)為包含該關(guān)鍵詞的地址的序號(hào)(在Q中可以為每個(gè)地址編排序號(hào)),例如“地址1”、“地址2”等。對(duì)于一個(gè)關(guān)鍵詞,可有一個(gè)或多個(gè)地址的序號(hào)與之相對(duì)應(yīng)。當(dāng)然上述表格的右側(cè)內(nèi)容也可以是地址本身。
接下來在倒排索引中查找S中的所有關(guān)鍵詞,統(tǒng)計(jì)Q中的各個(gè)文本段或Q中各文本段的標(biāo)識(shí)出現(xiàn)在所有包含該關(guān)鍵詞的倒排索引條目中的次數(shù)。該統(tǒng)計(jì)的示意如圖3所示,圖3是根據(jù)本申請(qǐng)實(shí)施例的使用倒排索引進(jìn)行地址相似程度統(tǒng)計(jì)的示意圖。為了描述簡(jiǎn)便,假設(shè)當(dāng)前待處理的地址中包含3個(gè)關(guān)鍵詞,分別為關(guān)鍵詞I、關(guān)鍵詞2和關(guān)鍵詞3,Q中有四個(gè)地址,為地址I至地址4。圖3左側(cè)方框31內(nèi)示出了倒排索引的部分內(nèi)容,包含上述的關(guān)鍵詞I、關(guān)鍵詞2和關(guān)鍵詞3,這三個(gè)關(guān)鍵詞所在的條目中分別有地址I至地址4中的一個(gè)或幾個(gè)。圖3右側(cè)方框32內(nèi)示出了按照各個(gè)地址比較的統(tǒng)計(jì)結(jié)果,左邊為各個(gè)地址,右邊為統(tǒng)計(jì)得到的指標(biāo),其中的數(shù)字為地址在關(guān)鍵詞I、關(guān)鍵詞2和關(guān)鍵詞3 (即當(dāng)前待處理的地址的所有關(guān)鍵詞)所在的所有條目中出現(xiàn)的次數(shù)。具體地,如圖3所示,地址I在關(guān)鍵詞I和關(guān)鍵詞3所在條目中出現(xiàn)過,因此地址I的統(tǒng)計(jì)指標(biāo)為2 ;地址2在關(guān)鍵詞I、關(guān)鍵詞2和關(guān)鍵詞3所在條目中出現(xiàn)過,因此地址2的統(tǒng)計(jì)指標(biāo)為3。對(duì)于地址3和地址4的統(tǒng)計(jì)類似,它們的統(tǒng)計(jì)指標(biāo)分別為2和1,如方框32所示。這樣,因?yàn)榈刂?的指標(biāo)為3,大于其他地址的指標(biāo),于是得出地址2是與當(dāng)前待 處理的地址的相似程度最高。這里舉了一個(gè)簡(jiǎn)單的例子,從Q中獲得了與待處理地址最相似的一個(gè)地址。一般地,在Q中的地址數(shù)量較大的情況下,可以從Q中按照相似程度從高至低獲取多個(gè)例如10個(gè)地址,這些地址與當(dāng)前待處理的地址(即S)有更高的相似程度,即上文所說的“最相似的若干個(gè)地址”,也即上文的Qm在獲得Qtl之后,將S與Qtl中的每個(gè)地址--作相似度計(jì)算,即得到多個(gè)相似度的
值,至此,步驟S13執(zhí)行完成。在接下來的步驟S15中,在得到的多個(gè)相似度的值中找到最小值,若該最小值小于預(yù)設(shè)值,則認(rèn)為S是一個(gè)歷史地址。反之,S不是歷史地址,此時(shí)可以將S加入Q中,以更新歷史地址列表。以上對(duì)于將S與Q中的所有或部分地址進(jìn)行比較的具體方式做出了說明,此外,在進(jìn)行該比較之前,可以對(duì)Q進(jìn)行去重處理,去除Q中與其他地址相似的地址,這里的相似判斷準(zhǔn)則可以預(yù)先設(shè)定,可按照本實(shí)施例上文所述的方式進(jìn)行。以下對(duì)此再作一說明。設(shè)去重處理之前的歷史地址集合為P,可先從P中取I個(gè)地址作為集合Q的第一個(gè)元素,再從P中取I個(gè)地址作為S,使用上文中的S與Q內(nèi)的地址進(jìn)行相似程度比較的方式(包括S與Q中的所有元素直接比較的方式,以及S與Q中預(yù)選出Qtl進(jìn)行比較的方式)來比較S與P內(nèi)的地址的相似程度,若比較結(jié)果為不相似,則將S加入P中。然后再從P中取I個(gè)地址再比較該地址與當(dāng)前Q中地址的相似程度。這樣,P中的部分地址進(jìn)入Q,最終P中各個(gè)歷史地址都進(jìn)行了相似程度的篩選,從而得到的Q中的各個(gè)地址之間具有較低的相似程度。采用倒排索引以及相似程度的處理方式,可以極大地減少處理量,尤其是在地址列表十分龐大的時(shí)候。如果不采用倒排索引,則必須把地址列表遍歷一遍并將地址中的每個(gè)關(guān)鍵詞和待處理地址中的每個(gè)關(guān)鍵詞做比較。而倒排索引只需將索引中的關(guān)鍵詞和待處理地址中的每個(gè)關(guān)鍵詞進(jìn)行比較即可,相當(dāng)于為地址列表建立了緩存,大大加快了處理速度。同時(shí),相似程度算法更是大幅度減少了字符串比對(duì)算法的調(diào)用次數(shù)。不采用相似程度算法,則待處理地址必須和地址列表中每一個(gè)地址進(jìn)行比對(duì);而采用相似程度算法后,實(shí)際上只需和地址列表中若干個(gè)地址進(jìn)行比對(duì)即可。通常字符串比對(duì)算法都比較耗時(shí),因此相似程度算法大幅度減少了計(jì)算量。
以下對(duì)于本申請(qǐng)實(shí)施例中的處理文本的裝置做出說明。圖4是根據(jù)本申請(qǐng)實(shí)施例的處理文本的裝置的主要模塊的示意圖。如圖4所示,處理文本的裝置40主要包括文本段選擇模塊41、計(jì)算模塊42和判斷模塊43。其中文本段選擇模塊41用于在倒排索引中查找待處理的文本段中的所有關(guān)鍵詞,統(tǒng)計(jì)預(yù)存的文本段集合中的各個(gè)文本段或該文本段的標(biāo)識(shí)出現(xiàn)在所有包含上述關(guān)鍵詞的倒排索引條目中的次數(shù),按該次數(shù)由高到低的順序從該文本段集合中選擇多個(gè)文本段,該倒排索引包含多個(gè)條目,每個(gè)條目?jī)?nèi)有一個(gè)關(guān)鍵詞和文本段集合中所有包含該關(guān)鍵詞的文本段或該文本段的標(biāo)識(shí),條目?jī)?nèi)的關(guān)鍵詞來自于文本段集合。計(jì)算模塊42用于計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度,得到多個(gè)相似度的值;判斷模塊43用于判斷計(jì)算模塊42得到的多個(gè)相似度的值中的最小值是否處于設(shè)定范圍內(nèi),若是,則輸出預(yù)設(shè)內(nèi)容的信息。文本段選擇模塊41還可以用于使用字符串相似度比對(duì)的算法計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度。判斷模塊43還可以用于在判斷結(jié)果為是的情況下,將待處理文本段添加到文本段集合中。
處理文本的裝置40還可以包括預(yù)處理模塊(圖中未示出),用于在計(jì)算模塊42進(jìn)行計(jì)算之前,按照預(yù)設(shè)的字符串相似的判斷準(zhǔn)則,去除文本段集合中與其他文本段相似的文本段。處理文本的裝置40還可以包括保存模塊(圖中未示出),用于將電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的歷史用戶通信地址作為文本段集合進(jìn)行保存,相應(yīng)地,判斷模塊43還可用于輸出歷史地址提示信息,該歷史地址提示信息用于表達(dá)待處理的文本段屬于所述歷史用戶通信地址。保存模塊也可以用于將電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的黑名單通信地址作為文本段集合進(jìn)行保存;相應(yīng)地判斷模塊43還可用于輸出黑名單用戶提示信息,該黑名單用戶提示信息用于表達(dá)待處理的文本段屬于黑名單通信地址。根據(jù)本申請(qǐng)實(shí)施例的技術(shù)方案,將每一個(gè)地址與歷史地址進(jìn)行匹配,通過相似度來衡量改地址是否與原有地址相同,有助于改善文本檢測(cè)的效果。對(duì)于電子商務(wù)中普遍存在的修改地址中少量字符來達(dá)到躲避系統(tǒng)檢測(cè)的問題,采用本申請(qǐng)實(shí)施例的技術(shù)方案有助于識(shí)別相似地址從而提高系統(tǒng)的欺詐地址檢測(cè)性能。并且,本實(shí)施例中使用倒排索引記錄地址中的關(guān)鍵詞以及地址,根據(jù)當(dāng)前待處理地址在該倒排索引中相關(guān)條目中出現(xiàn)的次數(shù)來選擇多個(gè)已存儲(chǔ)的地址,再將這些地址與當(dāng)前待處理地址進(jìn)行相似度計(jì)算,這種方式能夠大大加快相似度計(jì)算的速度,從而很快確認(rèn)當(dāng)前待處理地址是否為歷史地址或黑名單中的地址,提高了電子商務(wù)系統(tǒng)的計(jì)算機(jī)性能。顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本申請(qǐng)的各模塊或各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn),它們可以集中在單個(gè)的計(jì)算裝置上,或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn),從而,可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來執(zhí)行,或者將它們分別制作成各個(gè)集成電路模塊,或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來實(shí)現(xiàn)。這樣,本申請(qǐng)不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本申請(qǐng)的優(yōu)選實(shí)施例而已,并不用于限制本申請(qǐng),對(duì)于本領(lǐng)域的技術(shù)人員來說,本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本申請(qǐng)的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種處理文本的方法,其特征在于,包括在倒排索引中查找待處理的文本段中的關(guān)鍵詞,統(tǒng)計(jì)預(yù)存的文本段集合中的各個(gè)文本段或該文本段的標(biāo)識(shí)出現(xiàn)在包括所述關(guān)鍵詞的條目中的次數(shù),按該次數(shù)由高到低的順序從所述預(yù)存的文本段集合中選擇多個(gè)文本段,所述倒排索引為對(duì)預(yù)存的文本段集合建立的倒排索引,其包括多個(gè)條目,每個(gè)條目包括一個(gè)關(guān)鍵詞,并且對(duì)應(yīng)保存有包含該關(guān)鍵詞的文本段或該文本段的標(biāo)識(shí);計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度,得到多個(gè)相似度的值;判斷所述多個(gè)相似度的值中的最小值是否處于設(shè)定范圍內(nèi),若是,則輸出預(yù)設(shè)內(nèi)容的信息。
2.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度包括使用字符串相似度比對(duì)的算法計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度。
3.根據(jù)權(quán)利要求I所述的方法,其特征在于,在所述判斷的結(jié)果為是的情況下,將所述待處理文本段添加到所述文本段集合中。
4.根據(jù)權(quán)利要求I所述的方法,其特征在于,所述計(jì)算待處理的文本段與預(yù)存的文本段集合內(nèi)的多個(gè)文本段之間的相似度之前,還包括按照預(yù)設(shè)的字符串相似的判斷準(zhǔn)則,去除所述文本段集合中與其他文本段相似的文本段。
5.根據(jù)權(quán)利要求I至4中任一項(xiàng)所述的方法,其特征在于,所述預(yù)存的文本段集合為電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的歷史用戶通信地址;所述預(yù)設(shè)內(nèi)容的信息包括歷史地址提示信息,用于表達(dá)待處理的文本段屬于所述歷史用戶通信地址。
6.根據(jù)權(quán)利要求I至4中任一項(xiàng)所述的方法,其特征在于,所述預(yù)存的文本段集合為電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的黑名單通信地址;所述預(yù)設(shè)內(nèi)容的信息包括黑名單用戶提示信息,用于表達(dá)待處理的文本段屬于所述黑名單通信地址。
7.一種處理文本的裝置,其特征在于,包括文本段選擇模塊,用于在倒排索引中查找待處理的文本段中的關(guān)鍵詞,統(tǒng)計(jì)預(yù)存的文本段集合中的各個(gè)文本段或該文本段的標(biāo)識(shí)出現(xiàn)在包括所述關(guān)鍵詞的條目中的次數(shù),按該次數(shù)由高到低的順序從所述預(yù)存的文本段集合中選擇多個(gè)文本段,所述倒排索引為對(duì)預(yù)存的文本段集合建立的倒排索引,其包括多個(gè)條目,每個(gè)條目包括一個(gè)關(guān)鍵詞,并且對(duì)應(yīng)保存有包含該關(guān)鍵詞的文本段或該文本段的標(biāo)識(shí);計(jì)算模塊,用于計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度,得到多個(gè)相似度的值;判斷模塊,用于判斷所述多個(gè)相似度的值中的最小值是否處于設(shè)定范圍內(nèi),若是,則輸出預(yù)設(shè)內(nèi)容的信息。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述文本段選擇模塊還用于使用字符串相似度比對(duì)的算法計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度。
9.根據(jù)權(quán)利要求7所述的裝置,其特征在于,判斷模塊還用于在所述判斷結(jié)果為是的情況下,將所述待處理文本段添加到所述文本段集合中。
10.根據(jù)權(quán)利要求7所述的裝置,其特征在于,還包括預(yù)處理模塊,用于在所述計(jì)算模塊進(jìn)行計(jì)算之前,按照預(yù)設(shè)的字符串相似的判斷準(zhǔn)則,去除所述文本段集合中與其他文本段相似的文本段。
11.根據(jù)權(quán)利要求7至10中任一項(xiàng)所述的裝置,其特征在于,所述裝置還包括保存模塊,用于將電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的歷史用戶通信地址作為所述文本段集合進(jìn)行保存;所述判斷模塊還用于輸出歷史地址提示信息,該歷史地址提示信息用于表達(dá)待處理的文本段屬于所述歷史用戶通信地址。
12.根據(jù)權(quán)利要求7至10中任一項(xiàng)所述的裝置,其特征在于,所述裝置還包括保存模塊,用于將電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的黑名單通信地址作為所述文本段集合進(jìn)行保存;所述判斷模塊還用于輸出黑名單用戶提示信息,該黑名單用戶提示信息用于表達(dá)待處理的文本段屬于所述黑名單通信地址。
全文摘要
本申請(qǐng)?zhí)峁┝艘环N處理文本的方法和裝置,用以解決現(xiàn)有技術(shù)中文本檢測(cè)的處理效果不佳的問題。該方法包括在倒排索引中查找待處理的文本段中的關(guān)鍵詞,統(tǒng)計(jì)預(yù)存的文本段集合中的各個(gè)文本段或該文本段的標(biāo)識(shí)出現(xiàn)在包括關(guān)鍵詞的條目中的次數(shù),按該次數(shù)由高到低的順序從預(yù)存的文本段集合中選擇多個(gè)文本段,倒排索引為對(duì)預(yù)存的文本段集合建立的倒排索引,其包括多個(gè)條目,每個(gè)條目包括一個(gè)關(guān)鍵詞,并且對(duì)應(yīng)保存有包含該關(guān)鍵詞的文本段或該文本段的標(biāo)識(shí);計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度得到多個(gè)相似度的值;判斷多個(gè)相似度的值中的最小值是否處于設(shè)定范圍內(nèi),若是則輸出預(yù)設(shè)內(nèi)容的信息。
文檔編號(hào)G06F17/30GK102929891SQ201110230270
公開日2013年2月13日 申請(qǐng)日期2011年8月11日 優(yōu)先權(quán)日2011年8月11日
發(fā)明者許泰清, 徐磊石, 胡四海 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司