處理文本的方法和裝置的制作方法

文檔序號(hào)：6430671閱讀：173來源：國(guó)知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

專利名稱：處理文本的方法和裝置的制作方法
技術(shù)領(lǐng)域：
本申請(qǐng)涉及計(jì)算機(jī)技術(shù)，尤其涉及一種處理文本的方法和裝置。
背景技術(shù)：
在互聯(lián)網(wǎng)中，為了避免無用信息或有害信息的傳播，常常需要進(jìn)行文本處理。例如，在反垃圾郵件的設(shè)置中，郵件接收裝置例如郵件接收客戶端軟件將來信的地址與預(yù)存的黑名單地址進(jìn)行精確匹配，若二者中的所有字符相同則拒收此來信。在這種情況下處理的文本為電子郵箱的地址。又如，在電子商務(wù)系統(tǒng)中，某些用戶會(huì)執(zhí)行欺詐行為，為了限制欺詐行為需要對(duì)這些用戶留下的地址(通常為通信地址)進(jìn)行檢測(cè)，目前也采用地址黑名單，將每一個(gè)地址進(jìn)行精確匹配，若該地址中的所有字符與黑名單中的至少一個(gè)地址的所有字符相同，則認(rèn)為該用戶涉嫌欺詐。在這種“地址黑名單”的應(yīng)用場(chǎng)景中，某些郵件發(fā)送者或者電子商務(wù)系統(tǒng)的用戶會(huì)采用變更地址的方式躲避檢測(cè)，傳統(tǒng)的做法是對(duì)地址文本中的少數(shù)字符進(jìn)行更改，上述的檢測(cè)方式無法檢測(cè)出這種地址。另外，在文本處理中還會(huì)遇到“歷史地址比較”的應(yīng)用場(chǎng)景，即對(duì)于某個(gè)特定地址判斷已有地址列表中是否有某個(gè)曾經(jīng)出現(xiàn)過的地址和它相類似，借以分析不同地址出現(xiàn)的次數(shù)等等。傳統(tǒng)的完全匹配法無法識(shí)別上文所述的變更地址，導(dǎo)致判斷的結(jié)果不準(zhǔn)確。在“地址黑名單”場(chǎng)景中，需要根據(jù)文本處理的結(jié)果來決策當(dāng)前被判斷的地址是否涉嫌欺詐?，F(xiàn)有的精確匹配技術(shù)只能處理完全相同的地址，如果對(duì)地址的少數(shù)字符進(jìn)行修改，則無法直接檢測(cè)出修改后的地址，無法發(fā)揮黑名單的真正作用。同時(shí)，由于黑名單需要人工維護(hù)，即使能夠獲得所有修改后的地址并加入黑名單，這個(gè)名單也會(huì)變得很龐大，難以維護(hù)。在“歷史地址比較”場(chǎng)景中，需要根據(jù)文本處理的結(jié)果來決策當(dāng)前被判斷的地址是否為出現(xiàn)過的歷史地址，并統(tǒng)計(jì)不同地址出現(xiàn)的次數(shù)等指標(biāo)?，F(xiàn)有的匹配技術(shù)同樣只能匹配完全相同的地址，兩個(gè)相似的地址會(huì)被判斷成兩個(gè)不同地址，但是實(shí)際上它們是同一個(gè)地址。因此，傳統(tǒng)的處理技術(shù)會(huì)導(dǎo)致地址分析的結(jié)果不準(zhǔn)確。針對(duì)這兩個(gè)應(yīng)用場(chǎng)景，現(xiàn)有的文本檢測(cè)方法處理效果不佳，目前尚未提出有效解決方案。

發(fā)明內(nèi)容
本申請(qǐng)的主要目的是提供一種處理文本的方法和裝置，以解決現(xiàn)有技術(shù)中對(duì)于文本檢測(cè)的效果不佳的問題。為了實(shí)現(xiàn)上述目的，根據(jù)本申請(qǐng)的一個(gè)方面，提供了一種處理文本的方法。本申請(qǐng)的處理文本的方法包括在倒排索引中查找待處理的文本段中的關(guān)鍵詞，統(tǒng)計(jì)預(yù)存的文本段集合中的各個(gè)文本段或該文本段的標(biāo)識(shí)出現(xiàn)在包括所述關(guān)鍵詞的條目中的次數(shù)，按該次數(shù)由高到低的順序從所述預(yù)存的文本段集合中選擇多個(gè)文本段，所述倒排索引為對(duì)預(yù)存的文本段集合建立的倒排索引，其包括多個(gè)條目，每個(gè)條目包括一個(gè)關(guān)鍵詞，并且對(duì)應(yīng)保存有包含該關(guān)鍵詞的文本段或該文本段的標(biāo)識(shí)；計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度，得到多個(gè)相似度的值；判斷所述多個(gè)相似度的值中的最小值是否處于設(shè)定范圍內(nèi)，若是，則輸出預(yù)設(shè)內(nèi)容的信息。進(jìn)一步地，所述計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度包括使用字符串相似度比對(duì)的算法計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度。進(jìn)一步地，在所述判斷的結(jié)果為是的情況下，將所述待處理文本段添加到所述文本段集合中。進(jìn)一步地，所述計(jì)算待處理的文本段與預(yù)存的文本段集合內(nèi)的多個(gè)文本段之間的相似度之前，還包括按照預(yù)設(shè)的字符串相似的判斷準(zhǔn)則，去除所述文本段集合中與其他文本段相似的文本段。
進(jìn)一步地，所述預(yù)存的文本段集合為電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的歷史用戶通信地址；所述預(yù)設(shè)內(nèi)容的信息包括歷史地址提示信息，用于表達(dá)待處理的文本段屬于所述歷史用戶通信地址。進(jìn)一步地，所述預(yù)存的文本段集合為電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的黑名單通信地址；所述預(yù)設(shè)內(nèi)容的信息包括黑名單用戶提示信息，用于表達(dá)待處理的文本段屬于所述黑名單通信地址。根據(jù)本申請(qǐng)的另一方面，提供了一種處理文本的裝置。本申請(qǐng)的處理文本的裝置包括文本段選擇模塊，用于在倒排索引中查找待處理的文本段中的所有關(guān)鍵詞，統(tǒng)計(jì)預(yù)存的文本段集合中的各個(gè)文本段或該文本段的標(biāo)識(shí)出現(xiàn)在包括所述關(guān)鍵詞的條目中的次數(shù)，按該次數(shù)由高到低的順序從所述預(yù)存的文本段集合中選擇多個(gè)文本段，所述倒排索引為對(duì)預(yù)存的文本段集合建立的倒排索引，其包括多個(gè)條目，每個(gè)條目包括一個(gè)關(guān)鍵詞，并且對(duì)應(yīng)保存有包含該關(guān)鍵詞的文本段或該文本段的標(biāo)識(shí)；計(jì)算模塊，用于計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度，得到多個(gè)相似度的值；判斷模塊，用于判斷所述多個(gè)相似度的值中的最小值是否處于設(shè)定范圍內(nèi)，若是，則輸出預(yù)設(shè)內(nèi)容的信息。進(jìn)一步地，所述計(jì)算模塊還用于使用字符串相似度比對(duì)的算法計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度。進(jìn)一步地，所述文本段選擇模塊判斷模塊還用于在所述判斷結(jié)果為是的情況下，將所述待處理文本段添加到所述文本段集合中。進(jìn)一步地，還包括預(yù)處理模塊，用于在所述計(jì)算模塊進(jìn)行計(jì)算之前，按照預(yù)設(shè)的字符串相似的判斷準(zhǔn)則，去除所述文本段集合中與其他文本段相似的文本段。進(jìn)一步地，還包括保存模塊，用于將電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的歷史用戶通信地址作為所述文本段集合進(jìn)行保存；所述判斷模塊還用于輸出歷史地址提示信息，該歷史地址提示信息用于表達(dá)待處理的文本段屬于所述歷史用戶通信地址。進(jìn)一步地，還包括保存模塊，用于將電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的黑名單通信地址作為所述文本段集合進(jìn)行保存；所述判斷模塊還用于輸出黑名單用戶提示信息，該黑名單用戶提示信息用于表達(dá)待處理的文本段屬于所述黑名單通信地址。
根據(jù)本發(fā)明的技術(shù)方案，使用倒排索引記錄地址中的關(guān)鍵詞以及地址，根據(jù)當(dāng)前待處理地址在該倒排索引中相關(guān)條目中出現(xiàn)的次數(shù)來選擇多個(gè)已存儲(chǔ)的地址，再將這些地址與當(dāng)前待處理地址進(jìn)行相似度計(jì)算，這種方式能夠大大加快相似度計(jì)算的速度，從而很快確認(rèn)當(dāng)前待處理地址是否為歷史地址或黑名單中的地址，提高了電子商務(wù)系統(tǒng)的計(jì)算機(jī)性能。

說明書附圖用來提供對(duì)本申請(qǐng)的進(jìn)一步理解，構(gòu)成本申請(qǐng)的一部分，本申請(qǐng)的示意性實(shí)施例及其說明用于解釋本申請(qǐng)，并不構(gòu)成對(duì)本申請(qǐng)的不當(dāng)限定。在附圖中圖I是根據(jù)本申請(qǐng)實(shí)施例的處理文本的方法的主要步驟的流程圖；圖2是根據(jù)本申請(qǐng)實(shí)施例的倒排索引的內(nèi)容的示意圖；圖3是根據(jù)本申請(qǐng)實(shí)施例的使用倒排索引進(jìn)行地址相似程度統(tǒng)計(jì)的示意圖；圖4是根據(jù)本申請(qǐng)實(shí)施例的處理文本的裝置的主要模塊的示意圖。
具體實(shí)施例方式需要說明的是，在不沖突的情況下，本申請(qǐng)中的實(shí)施例及實(shí)施例中的特征可以相互組合。下面將參考附圖并結(jié)合實(shí)施例來詳細(xì)說明本申請(qǐng)。圖I是根據(jù)本申請(qǐng)實(shí)施例的處理文本的方法的主要步驟的流程圖，如圖I所示，該方法主要包括如下步驟步驟Sll :獲取待處理文本。步驟S13 :計(jì)算待處理的文本段與預(yù)存的文本段集合內(nèi)的多個(gè)文本段之間的相似度，得到多個(gè)相似度的值。本步驟中可以使用現(xiàn)有或?qū)砜赡艹霈F(xiàn)的各種字符串相似度比對(duì)的算法進(jìn)行計(jì)算，字符串相似度比對(duì)的算法例如Levenshtein Distance算法、LCS算法、向量乘積算法等。相似度比對(duì)的算法能夠根據(jù)兩個(gè)給定字符串計(jì)算其距離，該距離的值為O至I之間的小數(shù)，數(shù)值越大，表示兩個(gè)字符串越不相同；本實(shí)施例中，兩個(gè)地址之間的相似度的值是以I減去該距離而得到，相似度的值也是O至I之間的小數(shù)，相似度的值越大表示兩個(gè)字符串越相似，相似度的值為I則認(rèn)為兩個(gè)字符串完全相同，為O則認(rèn)為兩個(gè)字符串完全不同。步驟S15 :判斷得到的多個(gè)相似度的值中的最小值是否處于設(shè)定范圍內(nèi)，若是，則進(jìn)入步驟S17，否則進(jìn)入步驟S19。根據(jù)步驟S13中的計(jì)算，能夠得到介于O至I之間的相似度的值；在本實(shí)施例中，對(duì)于相似度的值設(shè)置一個(gè)范圍來作為決策的根據(jù)。步驟S17 :輸出預(yù)設(shè)內(nèi)容的信息。本步驟中預(yù)設(shè)的內(nèi)容依應(yīng)用場(chǎng)景而定。例如在“地址黑名單”的應(yīng)用場(chǎng)景中，在步驟S15中設(shè)置的相似度的值范圍為大于O. 7，這樣若相似度的值大于O. 7，則認(rèn)為待處理文本所代表的地址涉嫌欺詐，此時(shí)輸出的信息可以是黑名單用戶提示信息，用于表達(dá)待處理的文本段屬于黑名單通信地址，例如“當(dāng)前地址為欺詐地址”。又如在“歷史地址比較”的應(yīng)用場(chǎng)景中，在步驟S15中設(shè)置的相似度的值范圍為大于O. 75，這樣若相似度的值小于O. 75，則認(rèn)為待處理文本所代表的地址在歷史地址列表中出現(xiàn)過，此時(shí)輸出的信息用于表達(dá)待處理的文本段屬于所述歷史用戶通信地址，例如“當(dāng)前地址為歷史地址”。步驟S19 :獲取下一條待處理的文本段。然后返回步驟S13。若所有待處理文本段都已處理過，則結(jié)束當(dāng)前流程。從以上步驟可以看出，本實(shí)施例通過計(jì)算字符串之間相似度的方式來處理文本，能夠避免字符串之間精確匹配所導(dǎo)致的局限性。以上述的“地址黑名單”的應(yīng)用場(chǎng)景為例，若某些用戶采用變更地址中的部分字符的方式來躲避檢測(cè)，對(duì)于在電子商務(wù)的信息交互中客觀存在的這種現(xiàn)實(shí)，采用本實(shí)施例的方案能夠發(fā)現(xiàn)變更了部分字符的地址，從而有助于全面地檢測(cè)出地址欺詐行為?？梢愿鶕?jù)系統(tǒng)的實(shí)際情況，結(jié)合系統(tǒng)管理人員的經(jīng)驗(yàn)來設(shè)置步驟S15中的設(shè)定范圍，這樣系統(tǒng)管理人員能夠使系統(tǒng)實(shí)現(xiàn)自己對(duì)客觀現(xiàn)實(shí)所產(chǎn)生的需求，例如檢查地址欺詐行為，或者確認(rèn)某一地址為歷史地址。接下來以文本段為電子商務(wù)中的用戶通信地址為例，對(duì)本實(shí)施例中的處理文本的方法作進(jìn)一步說明。用戶通信地址是電子商務(wù)的用戶提供的地址，例如在購買商品時(shí)填寫的送貨地址，通常由多個(gè)關(guān)鍵詞組成，標(biāo)識(shí)地理意義上的具體位置，例如國(guó)家、地區(qū)、街道以及門牌號(hào)。首先獲取地址的列表，該列表中的地址用來與當(dāng)前待處理的地址進(jìn)行比較。對(duì)于“地址黑名單”的應(yīng)用場(chǎng)景，此列表為欺詐地址列表；對(duì)于“歷史地址比較”的應(yīng)用場(chǎng)景，此列表為歷史地址。以下以“歷史地址比較”的應(yīng)用場(chǎng)景為例，對(duì)于上述的步驟S13進(jìn)行詳細(xì)說明。在步驟S13中，計(jì)算待處理的文本段與預(yù)存的文本段集合內(nèi)的多個(gè)文本段之間的相似度。此處待處理的文本段指的是待處理的通信地址；預(yù)存的文本段集合指的是“黑名單”場(chǎng)景中的黑名單或者“歷史地址比較”場(chǎng)景中的地址集合。設(shè)這個(gè)集合為Q，當(dāng)前待處理的地址為字符串S，在步驟S13中，可以將S和Q中的所有地址進(jìn)行相似度計(jì)算，也可以先獲得Q中與S最相似的若干個(gè)地址(設(shè)這若干個(gè)地址組成Qtl)，然后將S與Qtl中的地址進(jìn)行相似度計(jì)算，后者方式可提高比較的速度。在進(jìn)行計(jì)算之前，可以對(duì)S進(jìn)行分詞并標(biāo)準(zhǔn)化，分詞和標(biāo)準(zhǔn)化的步驟視字符串的語言而定，例如對(duì)于英文可將關(guān)鍵詞按照空格分開，并將所有小寫字母變成大寫。為了獲得Q中的上述“最相似的若干個(gè)地址”，可以事先確定一個(gè)相似程度比較方式，作為S與Q中的地址比較的原則，將Q中所有地址與S進(jìn)行比較，再按照相似程度由高到低的順序從Q中選擇與S最相似的m個(gè)(例如10個(gè))地址作為％。這里的相似程度有區(qū)別于上文中的相似度，本實(shí)施例中，通過字符串相似度比對(duì)的算法進(jìn)行計(jì)算得到相似度的值，而相似程度則是通過比較來得出，比較的原則依地址的語言而定，例如對(duì)于英文來說，可以是相同關(guān)鍵詞數(shù)最多?？梢灾苯訉與Q中的地址進(jìn)行比較，也可以通過倒排索引來加快比較速度，以下對(duì)后者方式做出說明。Q中的每個(gè)地址均由若干個(gè)關(guān)鍵詞組成。為Q中所有出現(xiàn)的關(guān)鍵詞建立倒排索引，即每一個(gè)關(guān)鍵詞對(duì)應(yīng)一串地址或地址的標(biāo)識(shí)，該一串地址中的每個(gè)地址均包含所對(duì)應(yīng)的關(guān)鍵詞。圖2是根據(jù)本申請(qǐng)實(shí)施例的倒排索引的內(nèi)容的示意圖。如圖2所示，表格左側(cè)為關(guān)鍵詞(圖中示意為“關(guān)鍵詞1”、“關(guān)鍵詞2”、……“關(guān)鍵詞N”)，右側(cè)為包含該關(guān)鍵詞的地址的序號(hào)(在Q中可以為每個(gè)地址編排序號(hào))，例如“地址1”、“地址2”等。對(duì)于一個(gè)關(guān)鍵詞，可有一個(gè)或多個(gè)地址的序號(hào)與之相對(duì)應(yīng)。當(dāng)然上述表格的右側(cè)內(nèi)容也可以是地址本身。
接下來在倒排索引中查找S中的所有關(guān)鍵詞，統(tǒng)計(jì)Q中的各個(gè)文本段或Q中各文本段的標(biāo)識(shí)出現(xiàn)在所有包含該關(guān)鍵詞的倒排索引條目中的次數(shù)。該統(tǒng)計(jì)的示意如圖3所示，圖3是根據(jù)本申請(qǐng)實(shí)施例的使用倒排索引進(jìn)行地址相似程度統(tǒng)計(jì)的示意圖。為了描述簡(jiǎn)便，假設(shè)當(dāng)前待處理的地址中包含3個(gè)關(guān)鍵詞，分別為關(guān)鍵詞I、關(guān)鍵詞2和關(guān)鍵詞3，Q中有四個(gè)地址，為地址I至地址4。圖3左側(cè)方框31內(nèi)示出了倒排索引的部分內(nèi)容，包含上述的關(guān)鍵詞I、關(guān)鍵詞2和關(guān)鍵詞3，這三個(gè)關(guān)鍵詞所在的條目中分別有地址I至地址4中的一個(gè)或幾個(gè)。圖3右側(cè)方框32內(nèi)示出了按照各個(gè)地址比較的統(tǒng)計(jì)結(jié)果，左邊為各個(gè)地址，右邊為統(tǒng)計(jì)得到的指標(biāo)，其中的數(shù)字為地址在關(guān)鍵詞I、關(guān)鍵詞2和關(guān)鍵詞3 (即當(dāng)前待處理的地址的所有關(guān)鍵詞)所在的所有條目中出現(xiàn)的次數(shù)。具體地，如圖3所示，地址I在關(guān)鍵詞I和關(guān)鍵詞3所在條目中出現(xiàn)過，因此地址I的統(tǒng)計(jì)指標(biāo)為2 ;地址2在關(guān)鍵詞I、關(guān)鍵詞2和關(guān)鍵詞3所在條目中出現(xiàn)過，因此地址2的統(tǒng)計(jì)指標(biāo)為3。對(duì)于地址3和地址4的統(tǒng)計(jì)類似，它們的統(tǒng)計(jì)指標(biāo)分別為2和1，如方框32所示。這樣，因?yàn)榈刂?的指標(biāo)為3，大于其他地址的指標(biāo)，于是得出地址2是與當(dāng)前待處理的地址的相似程度最高。這里舉了一個(gè)簡(jiǎn)單的例子，從Q中獲得了與待處理地址最相似的一個(gè)地址。一般地，在Q中的地址數(shù)量較大的情況下，可以從Q中按照相似程度從高至低獲取多個(gè)例如10個(gè)地址，這些地址與當(dāng)前待處理的地址(即S)有更高的相似程度，即上文所說的“最相似的若干個(gè)地址”，也即上文的Qm在獲得Qtl之后，將S與Qtl中的每個(gè)地址--作相似度計(jì)算，即得到多個(gè)相似度的
值，至此，步驟S13執(zhí)行完成。在接下來的步驟S15中，在得到的多個(gè)相似度的值中找到最小值，若該最小值小于預(yù)設(shè)值，則認(rèn)為S是一個(gè)歷史地址。反之，S不是歷史地址，此時(shí)可以將S加入Q中，以更新歷史地址列表。以上對(duì)于將S與Q中的所有或部分地址進(jìn)行比較的具體方式做出了說明，此外，在進(jìn)行該比較之前，可以對(duì)Q進(jìn)行去重處理，去除Q中與其他地址相似的地址，這里的相似判斷準(zhǔn)則可以預(yù)先設(shè)定，可按照本實(shí)施例上文所述的方式進(jìn)行。以下對(duì)此再作一說明。設(shè)去重處理之前的歷史地址集合為P，可先從P中取I個(gè)地址作為集合Q的第一個(gè)元素，再從P中取I個(gè)地址作為S，使用上文中的S與Q內(nèi)的地址進(jìn)行相似程度比較的方式(包括S與Q中的所有元素直接比較的方式，以及S與Q中預(yù)選出Qtl進(jìn)行比較的方式)來比較S與P內(nèi)的地址的相似程度，若比較結(jié)果為不相似，則將S加入P中。然后再從P中取I個(gè)地址再比較該地址與當(dāng)前Q中地址的相似程度。這樣，P中的部分地址進(jìn)入Q，最終P中各個(gè)歷史地址都進(jìn)行了相似程度的篩選，從而得到的Q中的各個(gè)地址之間具有較低的相似程度。采用倒排索引以及相似程度的處理方式，可以極大地減少處理量，尤其是在地址列表十分龐大的時(shí)候。如果不采用倒排索引，則必須把地址列表遍歷一遍并將地址中的每個(gè)關(guān)鍵詞和待處理地址中的每個(gè)關(guān)鍵詞做比較。而倒排索引只需將索引中的關(guān)鍵詞和待處理地址中的每個(gè)關(guān)鍵詞進(jìn)行比較即可，相當(dāng)于為地址列表建立了緩存，大大加快了處理速度。同時(shí)，相似程度算法更是大幅度減少了字符串比對(duì)算法的調(diào)用次數(shù)。不采用相似程度算法，則待處理地址必須和地址列表中每一個(gè)地址進(jìn)行比對(duì)；而采用相似程度算法后，實(shí)際上只需和地址列表中若干個(gè)地址進(jìn)行比對(duì)即可。通常字符串比對(duì)算法都比較耗時(shí)，因此相似程度算法大幅度減少了計(jì)算量。
以下對(duì)于本申請(qǐng)實(shí)施例中的處理文本的裝置做出說明。圖4是根據(jù)本申請(qǐng)實(shí)施例的處理文本的裝置的主要模塊的示意圖。如圖4所示，處理文本的裝置40主要包括文本段選擇模塊41、計(jì)算模塊42和判斷模塊43。其中文本段選擇模塊41用于在倒排索引中查找待處理的文本段中的所有關(guān)鍵詞，統(tǒng)計(jì)預(yù)存的文本段集合中的各個(gè)文本段或該文本段的標(biāo)識(shí)出現(xiàn)在所有包含上述關(guān)鍵詞的倒排索引條目中的次數(shù)，按該次數(shù)由高到低的順序從該文本段集合中選擇多個(gè)文本段，該倒排索引包含多個(gè)條目，每個(gè)條目?jī)?nèi)有一個(gè)關(guān)鍵詞和文本段集合中所有包含該關(guān)鍵詞的文本段或該文本段的標(biāo)識(shí)，條目?jī)?nèi)的關(guān)鍵詞來自于文本段集合。計(jì)算模塊42用于計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度，得到多個(gè)相似度的值；判斷模塊43用于判斷計(jì)算模塊42得到的多個(gè)相似度的值中的最小值是否處于設(shè)定范圍內(nèi)，若是，則輸出預(yù)設(shè)內(nèi)容的信息。文本段選擇模塊41還可以用于使用字符串相似度比對(duì)的算法計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度。判斷模塊43還可以用于在判斷結(jié)果為是的情況下，將待處理文本段添加到文本段集合中。
處理文本的裝置40還可以包括預(yù)處理模塊(圖中未示出)，用于在計(jì)算模塊42進(jìn)行計(jì)算之前，按照預(yù)設(shè)的字符串相似的判斷準(zhǔn)則，去除文本段集合中與其他文本段相似的文本段。處理文本的裝置40還可以包括保存模塊(圖中未示出)，用于將電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的歷史用戶通信地址作為文本段集合進(jìn)行保存，相應(yīng)地，判斷模塊43還可用于輸出歷史地址提示信息，該歷史地址提示信息用于表達(dá)待處理的文本段屬于所述歷史用戶通信地址。保存模塊也可以用于將電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的黑名單通信地址作為文本段集合進(jìn)行保存；相應(yīng)地判斷模塊43還可用于輸出黑名單用戶提示信息，該黑名單用戶提示信息用于表達(dá)待處理的文本段屬于黑名單通信地址。根據(jù)本申請(qǐng)實(shí)施例的技術(shù)方案，將每一個(gè)地址與歷史地址進(jìn)行匹配，通過相似度來衡量改地址是否與原有地址相同，有助于改善文本檢測(cè)的效果。對(duì)于電子商務(wù)中普遍存在的修改地址中少量字符來達(dá)到躲避系統(tǒng)檢測(cè)的問題，采用本申請(qǐng)實(shí)施例的技術(shù)方案有助于識(shí)別相似地址從而提高系統(tǒng)的欺詐地址檢測(cè)性能。并且，本實(shí)施例中使用倒排索引記錄地址中的關(guān)鍵詞以及地址，根據(jù)當(dāng)前待處理地址在該倒排索引中相關(guān)條目中出現(xiàn)的次數(shù)來選擇多個(gè)已存儲(chǔ)的地址，再將這些地址與當(dāng)前待處理地址進(jìn)行相似度計(jì)算，這種方式能夠大大加快相似度計(jì)算的速度，從而很快確認(rèn)當(dāng)前待處理地址是否為歷史地址或黑名單中的地址，提高了電子商務(wù)系統(tǒng)的計(jì)算機(jī)性能。顯然，本領(lǐng)域的技術(shù)人員應(yīng)該明白，上述的本申請(qǐng)的各模塊或各步驟可以用通用的計(jì)算裝置來實(shí)現(xiàn)，它們可以集中在單個(gè)的計(jì)算裝置上，或者分布在多個(gè)計(jì)算裝置所組成的網(wǎng)絡(luò)上，可選地，它們可以用計(jì)算裝置可執(zhí)行的程序代碼來實(shí)現(xiàn)，從而，可以將它們存儲(chǔ)在存儲(chǔ)裝置中由計(jì)算裝置來執(zhí)行，或者將它們分別制作成各個(gè)集成電路模塊，或者將它們中的多個(gè)模塊或步驟制作成單個(gè)集成電路模塊來實(shí)現(xiàn)。這樣，本申請(qǐng)不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本申請(qǐng)的優(yōu)選實(shí)施例而已，并不用于限制本申請(qǐng)，對(duì)于本領(lǐng)域的技術(shù)人員來說，本申請(qǐng)可以有各種更改和變化。凡在本申請(qǐng)的精神和原則之內(nèi)，所作的任何修改、等同替換、改進(jìn)等，均應(yīng)包含在本申請(qǐng)的保護(hù)范圍之內(nèi)。
權(quán)利要求
1.一種處理文本的方法，其特征在于，包括在倒排索引中查找待處理的文本段中的關(guān)鍵詞，統(tǒng)計(jì)預(yù)存的文本段集合中的各個(gè)文本段或該文本段的標(biāo)識(shí)出現(xiàn)在包括所述關(guān)鍵詞的條目中的次數(shù)，按該次數(shù)由高到低的順序從所述預(yù)存的文本段集合中選擇多個(gè)文本段，所述倒排索引為對(duì)預(yù)存的文本段集合建立的倒排索引，其包括多個(gè)條目，每個(gè)條目包括一個(gè)關(guān)鍵詞，并且對(duì)應(yīng)保存有包含該關(guān)鍵詞的文本段或該文本段的標(biāo)識(shí)；計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度，得到多個(gè)相似度的值；判斷所述多個(gè)相似度的值中的最小值是否處于設(shè)定范圍內(nèi)，若是，則輸出預(yù)設(shè)內(nèi)容的信息。
2.根據(jù)權(quán)利要求I所述的方法，其特征在于，所述計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度包括使用字符串相似度比對(duì)的算法計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度。
3.根據(jù)權(quán)利要求I所述的方法，其特征在于，在所述判斷的結(jié)果為是的情況下，將所述待處理文本段添加到所述文本段集合中。
4.根據(jù)權(quán)利要求I所述的方法，其特征在于，所述計(jì)算待處理的文本段與預(yù)存的文本段集合內(nèi)的多個(gè)文本段之間的相似度之前，還包括按照預(yù)設(shè)的字符串相似的判斷準(zhǔn)則，去除所述文本段集合中與其他文本段相似的文本段。
5.根據(jù)權(quán)利要求I至4中任一項(xiàng)所述的方法，其特征在于，所述預(yù)存的文本段集合為電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的歷史用戶通信地址；所述預(yù)設(shè)內(nèi)容的信息包括歷史地址提示信息，用于表達(dá)待處理的文本段屬于所述歷史用戶通信地址。
6.根據(jù)權(quán)利要求I至4中任一項(xiàng)所述的方法，其特征在于，所述預(yù)存的文本段集合為電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的黑名單通信地址；所述預(yù)設(shè)內(nèi)容的信息包括黑名單用戶提示信息，用于表達(dá)待處理的文本段屬于所述黑名單通信地址。
7.一種處理文本的裝置，其特征在于，包括文本段選擇模塊，用于在倒排索引中查找待處理的文本段中的關(guān)鍵詞，統(tǒng)計(jì)預(yù)存的文本段集合中的各個(gè)文本段或該文本段的標(biāo)識(shí)出現(xiàn)在包括所述關(guān)鍵詞的條目中的次數(shù)，按該次數(shù)由高到低的順序從所述預(yù)存的文本段集合中選擇多個(gè)文本段，所述倒排索引為對(duì)預(yù)存的文本段集合建立的倒排索引，其包括多個(gè)條目，每個(gè)條目包括一個(gè)關(guān)鍵詞，并且對(duì)應(yīng)保存有包含該關(guān)鍵詞的文本段或該文本段的標(biāo)識(shí)；計(jì)算模塊，用于計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度，得到多個(gè)相似度的值；判斷模塊，用于判斷所述多個(gè)相似度的值中的最小值是否處于設(shè)定范圍內(nèi)，若是，則輸出預(yù)設(shè)內(nèi)容的信息。
8.根據(jù)權(quán)利要求7所述的裝置，其特征在于，所述文本段選擇模塊還用于使用字符串相似度比對(duì)的算法計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度。
9.根據(jù)權(quán)利要求7所述的裝置，其特征在于，判斷模塊還用于在所述判斷結(jié)果為是的情況下，將所述待處理文本段添加到所述文本段集合中。
10.根據(jù)權(quán)利要求7所述的裝置，其特征在于，還包括預(yù)處理模塊，用于在所述計(jì)算模塊進(jìn)行計(jì)算之前，按照預(yù)設(shè)的字符串相似的判斷準(zhǔn)則，去除所述文本段集合中與其他文本段相似的文本段。
11.根據(jù)權(quán)利要求7至10中任一項(xiàng)所述的裝置，其特征在于，所述裝置還包括保存模塊，用于將電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的歷史用戶通信地址作為所述文本段集合進(jìn)行保存；所述判斷模塊還用于輸出歷史地址提示信息，該歷史地址提示信息用于表達(dá)待處理的文本段屬于所述歷史用戶通信地址。
12.根據(jù)權(quán)利要求7至10中任一項(xiàng)所述的裝置，其特征在于，所述裝置還包括保存模塊，用于將電子商務(wù)的計(jì)算機(jī)系統(tǒng)中的黑名單通信地址作為所述文本段集合進(jìn)行保存；所述判斷模塊還用于輸出黑名單用戶提示信息，該黑名單用戶提示信息用于表達(dá)待處理的文本段屬于所述黑名單通信地址。
全文摘要
本申請(qǐng)?zhí)峁┝艘环N處理文本的方法和裝置，用以解決現(xiàn)有技術(shù)中文本檢測(cè)的處理效果不佳的問題。該方法包括在倒排索引中查找待處理的文本段中的關(guān)鍵詞，統(tǒng)計(jì)預(yù)存的文本段集合中的各個(gè)文本段或該文本段的標(biāo)識(shí)出現(xiàn)在包括關(guān)鍵詞的條目中的次數(shù)，按該次數(shù)由高到低的順序從預(yù)存的文本段集合中選擇多個(gè)文本段，倒排索引為對(duì)預(yù)存的文本段集合建立的倒排索引，其包括多個(gè)條目，每個(gè)條目包括一個(gè)關(guān)鍵詞，并且對(duì)應(yīng)保存有包含該關(guān)鍵詞的文本段或該文本段的標(biāo)識(shí)；計(jì)算待處理的文本段與選擇的多個(gè)文本段中的各個(gè)文本段之間的相似度得到多個(gè)相似度的值；判斷多個(gè)相似度的值中的最小值是否處于設(shè)定范圍內(nèi)，若是則輸出預(yù)設(shè)內(nèi)容的信息。
文檔編號(hào)G06F17/30GK102929891SQ201110230270
公開日2013年2月13日申請(qǐng)日期2011年8月11日優(yōu)先權(quán)日2011年8月11日
發(fā)明者許泰清, 徐磊石, 胡四海申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司

完整全部詳細(xì)技術(shù)資料下載

該技術(shù)已申請(qǐng)專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請(qǐng)聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：許泰清;徐磊石;胡四海
技術(shù)所有人：阿里巴巴集團(tuán)控股有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請(qǐng)點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測(cè)
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢(shì)感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

文本處理方法相關(guān)技術(shù)

濕熱處理的方法和裝置相關(guān)技術(shù)

文本預(yù)處理相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

處理文本的方法和裝置的制作方法