本申請涉及數(shù)據(jù)挖掘
技術(shù)領(lǐng)域:
,尤其涉及一種特征提取方法和裝置。
背景技術(shù):
:隨著數(shù)據(jù)倉庫中文本信息的飛速增長,文本挖掘成為信息領(lǐng)域的研究熱點。地址信息是以文本的形式存儲在數(shù)據(jù)倉庫中的,由于地址信息在大數(shù)據(jù)分析中占據(jù)非常重要的地位,地址特征挖掘作為文本挖掘的一種,其重要性也越來越明顯。對中文地址文本進(jìn)行分詞處理是進(jìn)行文本挖掘的基礎(chǔ),這是由中文的特點決定的。比如對中文地址文本“浙江省杭州市余杭區(qū)五常街道荊豐社區(qū)文一西路”進(jìn)行分詞處理后,可以得到包括浙江省、杭州市、余杭區(qū)、五常街道、荊豐社區(qū)、文一西路這幾個詞的地址文本,分詞處理后的地址文本中的每個詞都有其對應(yīng)的地址含義(比如單獨看浙、江、省這三個字,不具備任何地址含義,但將其組合后的詞浙江省就有了對應(yīng)的地址含義)。在很多情況下,對于一個中文地址文本,若只提取其中的部分詞,提取的詞在很多情況下仍具有較強的可區(qū)別性。如圖1所示,為在文本分類中對中文地址文本進(jìn)行特征提取的過程。從圖1中可以看出,在文本挖掘中,首先對中文地址文本進(jìn)行分詞處理,然后進(jìn)行特征提取,也即從中文地址文本中進(jìn)行取詞,接下來就是基于取詞結(jié)果進(jìn)行分類的過程,因此,在對中文地址文本進(jìn)行分詞處理后,影響中文地址文本挖掘效果的首要因素就是進(jìn)行特征提取。目前,進(jìn)行特征提取的方法主要是基于n元模型(n-gram)來實現(xiàn)的,n-gram的定義為:若地址文本由m個詞構(gòu)成(w1w2w3…wm),其中wi為地址文本中 的第i個詞,則n-gram定義為:{wiwi+1…wi+n-1|1≤i≤m-n+1}。比如,當(dāng)前地址文本由5個詞組成,為w1w2w3w4w5,則:當(dāng)n=1時,產(chǎn)生的1-gram有w1、w2、w3、w4、w5;當(dāng)n=2時,產(chǎn)生的2-gram有w1w2、w2w3、w3w4、w4w5;當(dāng)n=3時,產(chǎn)生的3-gram有w1w2w3、,w2w3w4、w3w4w5,;混合n元模型是取所有g(shù)ram的并集,比如混合三元模型的gram有:w1、w2、w3、w4、w5、w1w2、w2w3、w3w4、、w4w5、w1w2w3、w2w3w4、w3w4w5。由此看出,基于n-gram進(jìn)行地址特征提取就是在地址文本中連續(xù)提取n個詞,得到包含n個詞的特征詞串。但是在有些情況下,地址文本中的詞存在長距離依賴,或者人們在描述同一個地址時會忽略掉一些不重要的詞匯,以標(biāo)準(zhǔn)地址文本“浙江省杭州市余杭區(qū)五常街道荊豐社區(qū)文一西路969號阿里巴巴西溪園區(qū)”為例,人們在輸入地址有可能會使用簡短形式:“杭州市余杭區(qū)文一西路969號阿里巴巴西溪園區(qū)”。顯然,特征提取方式是提取不出這種簡短形式的地址的,因為該簡短形式的地址中包含的“余杭區(qū)文一西路”在標(biāo)準(zhǔn)地址文本中并不連續(xù),而“余杭區(qū)文一西路”恰恰又具有非常強的可區(qū)別性。綜上,目前對地址文本進(jìn)行地址特征提取時,提取出的特征詞串中所包含的詞在地址文本中都是連續(xù)的,其中可能不包含區(qū)別性較強的特征詞串,從而導(dǎo)致對地址文本的挖掘效果較差。技術(shù)實現(xiàn)要素:本申請實施例提供一種特征提取方法和裝置,用以提高對地址文本的挖掘效果。本申請實施例提供一種特征提取方法,包括:確定進(jìn)行分詞處理后的地址文本;所述進(jìn)行分詞處理后的地址文本中包含 n個詞,所述n為大于1的整數(shù);根據(jù)預(yù)先設(shè)置的取詞數(shù)和跳詞數(shù),從所述進(jìn)行分詞處理后的地址文本中取詞,構(gòu)成所述進(jìn)行分詞處理后的地址文本的特征詞串;其中,每個特征詞串中包含的所取的詞的個數(shù)等于所述取詞數(shù),且每個特征詞串中存在兩個相鄰的詞在所述地址文本中相隔的詞數(shù)量等于所述跳詞數(shù)。可選地,根據(jù)預(yù)先設(shè)置的取詞數(shù)和跳詞數(shù),從所述進(jìn)行分詞處理后的地址文本中取詞,構(gòu)成所述進(jìn)行分詞處理后的地址文本的特征詞串,具體包括:預(yù)先設(shè)置取詞數(shù)為n,以及預(yù)先設(shè)置跳詞數(shù)為從1至k的整數(shù),所述n為大于1、且小于n的整數(shù),所述k為大于1、且小于n-1的整數(shù);根據(jù)當(dāng)前跳詞數(shù)s,在所述進(jìn)行分詞處理后的地址文本中,從當(dāng)前位置的詞開始選取n個詞,得到所述特征詞串;s為大于0、且小于或等于k的整數(shù)。可選地,根據(jù)當(dāng)前跳詞數(shù)s,在所述進(jìn)行分詞處理后的地址文本中,從當(dāng)前位置的詞開始選取n個詞,得到所述特征詞串,包括:在所述進(jìn)行分詞處理后的地址文本中,從所述當(dāng)前位置的詞開始,連續(xù)選取n個詞,得到第一詞串;在所述進(jìn)行分詞處理后的地址文本中,確定從所述當(dāng)前位置的詞開始連續(xù)選取n個詞之后的剩余詞;在所述剩余詞的數(shù)量大于或等于s時,從所述剩余詞中的第一個詞開始,連續(xù)選取s個詞,得到第二詞串;在所述第一詞串中除第一個詞之外的其它詞中,確定第一目標(biāo)詞,以及在所述第二詞串中確定與所述第一目標(biāo)詞個數(shù)相同的第二目標(biāo)詞;通過將所述第一詞串中的所述第一目標(biāo)詞替換為所述第二目標(biāo)詞,確定所述特征詞串。可選地,在所述第一詞串中除第一個詞之外的其它詞中,確定第一目標(biāo)詞,以及在所述第二詞串中確定與所述第一目標(biāo)詞個數(shù)相同的第二目標(biāo)詞,包括:分別將所述第一詞串中的第二個詞到最后一個詞作為起始跳詞,執(zhí)行以下操作:當(dāng)在所述第一詞串中,從所述起始跳詞開始到所述第一詞串的第n個詞的詞數(shù)量q大于或等于s時,將從所述起始跳詞開始的連續(xù)s個詞確定為所述第一目標(biāo)詞,以及將所述第二詞串中的詞確定為所述第二目標(biāo)詞;q為大于1、且小于n的整數(shù);當(dāng)在所述第一詞串中,從所述起始跳詞開始到所述第一詞串的第n個詞的詞數(shù)量q小于s時,將從所述起始跳詞開始到第n個詞的q個詞確定為第一目標(biāo)詞,以及從所述第二詞串中最后一個詞開始,向著第二詞串中第一個詞的方向,連續(xù)選取q個詞作為第二目標(biāo)詞。可選地,通過將所述第一詞串中的所述第一目標(biāo)詞替換為所述第二目標(biāo)詞,確定所述特征詞詞串,包括:將所述第一詞串中的所述第一目標(biāo)詞替換為所述第二目標(biāo)詞,得到第三詞串;按照所述進(jìn)行分詞處理后的地址文本中n個詞排列的先后順序,對所述第三詞串中的詞進(jìn)行重新排序,得到所述特征詞串。本申請實施例提供一種特征提取裝置,包括:確定模塊,用于確定進(jìn)行分詞處理后的地址文本;所述進(jìn)行分詞處理后的地址文本中包含n個詞,所述n為大于1的整數(shù);取詞模塊,用于根據(jù)預(yù)先設(shè)置的取詞數(shù)和跳詞數(shù),從所述進(jìn)行分詞處理后的地址文本中取詞,構(gòu)成所述進(jìn)行分詞處理后的地址文本的特征詞串;其中,每個特征詞串中包含的所取的詞的個數(shù)等于所述取詞數(shù),且每個特征詞串中存在兩個相鄰的詞在所述地址文本中相隔的詞數(shù)量等于所述跳詞數(shù)。本申請方案可以對地址文本進(jìn)行跳詞處理,從而有機會得到可區(qū)別性較強的特征詞串,提升對地址文本的挖掘效果。本申請的其它特征和優(yōu)點將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實施本申請而了解。本申請的目的和其他優(yōu)點可通過在所寫的說明書、權(quán)利要求書、以及附圖中所特別指出的結(jié)構(gòu)來實現(xiàn)和獲 得。附圖說明附圖用來提供對本申請的進(jìn)一步理解,并且構(gòu)成說明書的一部分,與本申請實施例一起用于解釋本申請,并不構(gòu)成對本申請的限制。在附圖中:圖1為現(xiàn)有技術(shù)中數(shù)據(jù)挖掘中的文本分類流程圖;圖2為本申請實施例中提供的一種特征提取方法流程圖;圖3a為本申請實施例中提供的在s<n的情況下,生成特征詞串的示意圖;圖3b為本申請實施例中提供的在s<n的情況下,生成特征詞串的另一示意圖;圖4為本申請實施例中提供的在s≥n的情況下,生成特征詞串的示意圖;圖5為本申請實施例中提供的一種特征提取裝置的結(jié)構(gòu)示意圖。具體實施方式以下結(jié)合說明書附圖對本申請的優(yōu)選實施例進(jìn)行說明,應(yīng)當(dāng)理解,此處所描述的優(yōu)選實施例僅用于說明和解釋本申請,并不用于限定本申請。并且在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。本申請實施例提供一種特征提取方法,如圖2所示,包括:步驟21,確定進(jìn)行分詞處理后的地址文本,該進(jìn)行分詞處理后的地址文本中包含n個詞。n為大于1的整數(shù)。步驟22,根據(jù)預(yù)先設(shè)置的取詞數(shù)和跳詞數(shù),從進(jìn)行分詞處理后的地址文本中取詞,構(gòu)成進(jìn)行分詞處理后的地址文本的特征詞串。在步驟22中,根據(jù)預(yù)先設(shè)置的取詞數(shù)和跳詞數(shù),從進(jìn)行分詞處理后的地址文本中取詞,得到包含至少一個特征詞串的特征詞串集合,其中每個特征詞串中包含的詞的個數(shù)等于所述取詞數(shù),且每個特征詞串中存在兩個相鄰的詞在進(jìn)行分詞處理后的地址文本中相隔的詞數(shù)量等于所述跳詞數(shù)。在具體實施中,還可以結(jié)合連續(xù)提取的方式從進(jìn)行分詞處理后的地址文本中取詞,這樣得到的特征詞串集合中既包括連續(xù)提取的特征詞串,也包括采用本申請方案提供的非連續(xù)提取的方式提取的特征詞串。在具體實施中,步驟22可以但不限于按照如下方式實現(xiàn):步驟a1:預(yù)先設(shè)置取詞數(shù)為n,以及預(yù)先設(shè)置跳詞數(shù)為從1至k(若結(jié)合連續(xù)提取的方式從地址文本中取詞,則可以設(shè)置跳詞數(shù)為從0至k)的整數(shù),n為大于1、且小于n的整數(shù),k為大于1、且小于n-1的整數(shù)。比如,對于進(jìn)行分詞處理后的地址文本w1w2w3w4w5,該地址文本包含5個詞w1、w2、w3、w4、w5,即n=5,可以設(shè)置取詞數(shù)n=3,設(shè)置跳詞數(shù)為1、2或者0、1、2(即k=2)。在具體實施中,若除非連續(xù)提取的方式外,還采用連續(xù)提取的方式從地址文本中取詞,則可以設(shè)置跳詞數(shù)取值從0至k。以下介紹中也以跳詞數(shù)取值從0至k為例進(jìn)行介紹,需要說明的是,跳詞數(shù)可以取值為0這種情況僅是本申請實施例的一種實施方式,在實際實施中跳詞數(shù)也可以不包括取值為0的這種情況。步驟a2:根據(jù)當(dāng)前跳詞數(shù)s,在進(jìn)行分詞處理后的地址文本中,從當(dāng)前位置的詞開始選取n個詞,得到所述特征詞串。在具體實施中,本申請實施例可以基于k-skip-n-gram的方式實現(xiàn)非連續(xù)特征提取,也可以基于conti-k-skip-n-gram的方式實現(xiàn)非連續(xù)特征提取。這里,k-skip-n-gram是指提取的特征詞串中任意兩個相鄰的詞在地址文本中都相隔k個詞,而conti-k-skip-n-gram是指提取的特征詞串中只存在兩個相鄰的詞在地址文本中相隔k個詞,由于k-skip-n-gram在k>2和n>3時在程序上較難實現(xiàn),本申請實施例優(yōu)選基于conti-k-skip-n-gram的方式實現(xiàn)特征提取。步驟a2是一個循環(huán)執(zhí)行的過程。這個過程可以按照以當(dāng)前跳詞數(shù)的循環(huán),嵌套當(dāng)前位置的循環(huán)的方式執(zhí)行,也可以按照以當(dāng)前位置的循環(huán),嵌套當(dāng)前跳詞數(shù)的循環(huán)的方式執(zhí)行。下面分別作介紹。循環(huán)方式一:以當(dāng)前跳詞數(shù)的循環(huán),嵌套當(dāng)前位置的循環(huán)。在這種方式下,針對當(dāng)前跳詞數(shù)s,分別將進(jìn)行分詞處理后的地址文本中的第一個詞到第n-n-s+1(為了得到符合取詞數(shù)及跳詞數(shù)條件的特征詞串,當(dāng)前位置不大于n-n-s+1)個詞,作為當(dāng)前位置的詞,執(zhí)行操作:根據(jù)當(dāng)前跳詞數(shù)s,在進(jìn)行分詞處理后的地址文本中,從當(dāng)前位置的詞開始選取n個詞,得到特征詞串。比如,對于分詞處理后的地址文本w1w2w3w4w5,該地址文本包含5個詞w1、w2、w3、w4、w5,即n=5,設(shè)置取詞數(shù)n=3,設(shè)置跳詞數(shù)s分別為0、1、2(即k=2),則在循環(huán)方式一下的操作過程為:1)當(dāng)前跳詞數(shù)s為0。以當(dāng)前位置的詞為w1,從w1開始連續(xù)選取3個詞,得到特征詞串w1w2w3;接下來以當(dāng)前位置的詞為w2,從w2開始連續(xù)選取3個詞,得到特征詞串w2w3w4;接下來以當(dāng)前位置的詞為w3,從w3開始連續(xù)選取3個詞,得到特征詞串w3w4w5;由于n-n-s+1=5-3-0+1=3,因此,當(dāng)前跳詞數(shù)s為0時,以當(dāng)前位置到w3為止。2)當(dāng)前跳詞數(shù)s為1。以當(dāng)前位置的詞為w1,從w1開始選取3個詞,選取的特征詞串中存在兩個相鄰的詞在地址文本中相隔的詞數(shù)量等于1,則得到特征詞串w1w3w4和w1w2w4;接下來以當(dāng)前位置的詞為w2,從w2開始選取3個詞,選取的特征詞串中存在兩個相鄰的詞在地址文本中相隔的詞數(shù)量等于1,得到特征詞串w2w3w5和w2w4w5;由于n-n-s+1=5-3-1+1=2,因此,當(dāng)前跳詞數(shù)s為1時,以當(dāng)前位置到w2為止。2)當(dāng)前跳詞數(shù)為2。以當(dāng)前位置的詞為w1,從w1開始選取3個詞,選取的特征詞串中存在兩個相鄰的詞在地址文本中相隔的詞數(shù)量等于2,得到特征詞串w1w4w5和w1w2w5.。由于n-n-s+1=5-3-2+1=1,因此,當(dāng)前跳詞數(shù)s為2時,以當(dāng)前位置到w1為止。至此,采用上述循環(huán)方式一得到的特征詞串包括w1w2w3、w2w3w4、w3w4w5、w1w3w4、w1w2w4、w2w3w5、w2w4w5、w1w4w5、w1w2w5。循環(huán)方式二:以當(dāng)前位置的循環(huán),嵌套當(dāng)前跳詞數(shù)的循環(huán)。在這種方式下,針對當(dāng)前位置的詞(依次將第1到n-n+1個詞作為當(dāng)前位置的詞),分別將從0至k作為當(dāng)前跳詞數(shù),執(zhí)行操作:根據(jù)當(dāng)前跳詞數(shù)s,在所述進(jìn)行分詞處理后的地址文本中,從當(dāng)前位置的詞開始選取n個詞,得到特征詞串。仍以分詞處理后的地址文本w1w2w3w4w5為例,該地址文本包含5個詞w1、w2、w3、w4、w5,即n=5,設(shè)置取詞數(shù)n=3,設(shè)置跳詞數(shù)s分別為0、1、2(即k=2),則在循環(huán)方式二下的操作過程為:1)當(dāng)前位置的詞為w1。以當(dāng)前跳詞數(shù)s為0,從w1開始連續(xù)選取3個詞,得到特征詞串w1w2w3;以當(dāng)前跳詞數(shù)s為1,從w1開始選取3個詞,選取的特征詞串中存在兩個相鄰的詞在地址文本中相隔的詞數(shù)量等于1,得到特征詞串w1w3w4和w1w2w4;以當(dāng)前跳詞數(shù)s為2,從w1開始選取3個詞,選取的特征詞串中存在兩個相鄰的詞在地址文本中相隔的詞數(shù)量等于2,得到特征詞串w1w4w5和w1w2w5。2)當(dāng)前位置的詞為w2。以當(dāng)前跳詞數(shù)s為0,從w2開始連續(xù)選取3個詞,得到特征詞串w2w3w4;以當(dāng)前跳詞數(shù)s為1,從w2開始選取3個詞,選取的特征詞串中存在兩個相鄰的詞在地址文本中相隔的詞數(shù)量等于1,得到特征詞串w2w3w5和w2w4w5;為了得到符合取詞數(shù)及跳詞數(shù)條件的特征詞串,當(dāng)前位置不大于n-n-s+1,由于n-n-s+1=2時,s=1(也即s最大為1),因此,當(dāng)前位置的詞為w2時,以當(dāng)前跳詞數(shù)s為1為止。3)當(dāng)前位置的詞為w3。以當(dāng)前跳詞數(shù)s為0,從w3開始連續(xù)選取3個詞,則得到特征詞串w3w4w5;由于n-n-s+1=3時,s=0,因此,當(dāng)前位置的詞為w3時,以當(dāng)前跳詞數(shù)s為0為止。至此,采用上述循環(huán)方式得到的特征詞串包括w1w2w3、w1w3w4、w1w2w4、w1w4w5、w1w2w5.、w2w3w4、w2w3w5、w2w4w5、w3w4w5。除上述兩種循環(huán)執(zhí)行的方式外,還可以不按照將當(dāng)前跳詞數(shù)和當(dāng)前位置依 次加1的順序循環(huán)執(zhí)行,只要最后將所有可能的當(dāng)前跳詞數(shù)和當(dāng)前位置都遍歷到即可。從上述實施結(jié)果可知,本申請實施例可以得到9種特征詞串,而按照傳統(tǒng)的連續(xù)提取的方式只能得到w1w2w3、w2w3w4、w3w4w5這三種特征詞串,因此,采用本申請方案,不僅可以得到非連續(xù)的特征詞串,而且得到的特征詞串的數(shù)量得到增加,因此可以提升對地址文本的挖掘效果。不管采用哪種循環(huán)方式,針對每一次循環(huán)過程(對應(yīng)一個當(dāng)前跳詞數(shù)s和一個當(dāng)前位置),上述步驟a2可以但不限于按照以下步驟實現(xiàn):步驟b1,在進(jìn)行分詞處理后的地址文本中,從當(dāng)前位置的詞開始,連續(xù)選取n個詞,得到第一詞串。這里的連續(xù)選取,是指向著所述地址文本中最后一個詞的方向連續(xù)選取(以下未說明向著第一個詞的方向連續(xù)選取的,均指的向著最后一個詞的方向連續(xù)選取)。步驟b1是一個連續(xù)選詞的過程,對于分詞處理后的地址文本w1w2w3w4w5,若當(dāng)前位置的詞為w1,則連續(xù)選取n=3個詞,得到第一詞串為w1w2w3。步驟b2,在進(jìn)行分詞處理后的地址文本中,確定從當(dāng)前位置的詞開始連續(xù)選取n個詞(第一詞串)之后的剩余詞;在所述剩余詞的數(shù)量大于或等于s時,從所述剩余詞中的第一個詞開始,連續(xù)選取s個詞,得到第二詞串。這里,若剩余詞數(shù)量小于s,此時是無法從當(dāng)前位置的詞開始,按照當(dāng)前跳詞個數(shù)s選取出n個詞的,因為會超過地址文本的邊界。這種情況下該循環(huán)過程結(jié)束。比如,對于分詞處理后的地址文本w1w2w3w4w5,假設(shè)n=3,s=2,當(dāng)前位置的詞為w2,此時從w2開始的第3個詞之后的剩余詞數(shù)量為1,此時無法執(zhí)行從w5開始連續(xù)選取2個詞。因此,本申請實施例中,只有在剩余詞數(shù)量不小于s時,才執(zhí)行得到第二詞串的過程。比如,對于分詞處理后的地址文本w1w2w3w4w5,從當(dāng)前位置的詞w1開始連續(xù)選取3個詞之后的剩余詞為w4、w5,剩余詞的數(shù)量為2,等于s(當(dāng)前跳 詞數(shù)s=2),則從剩余詞w4、w5中選取第1、2個詞,得到第二詞串為w4w5。在具體實施中,在已知當(dāng)前跳詞數(shù)s的情況下,可以設(shè)置當(dāng)前位置最大為n-n-s+1(參見上述循環(huán)方式一),這樣就可以保證剩余詞的數(shù)量不小于s。步驟b3,在所述第一詞串中除第一個詞之外的其它詞中,確定第一目標(biāo)詞,以及在所述第二詞串中確定與所述第一目標(biāo)詞個數(shù)相同的第二目標(biāo)詞。比如,在第一詞串w1w2w3中除第一個詞w1之外的其它詞w2、w3中,確定第一目標(biāo)詞為w3,在第二詞串w4w5中,確定第二目標(biāo)詞為w5。步驟b4,通過將所述第一詞串中的所述第一目標(biāo)詞替換為所述第二目標(biāo)詞,確定所述特征詞詞串。這里,由于將第一詞串中的第一目標(biāo)詞替換為第二目標(biāo)詞后,詞的排序不符合地址文本中詞的排序,此時步驟b4可以執(zhí)行為:步驟b4*:將第一詞串中的第一目標(biāo)詞替換為第二目標(biāo)詞,得到第三詞串;然后按照進(jìn)行分詞處理后的地址文本中n個詞排列的先后順序,對第三詞串中的詞進(jìn)行重新排序,得到所述特征詞串。比如,將第一詞串w1w2w3中的第一目標(biāo)詞w3替換為第二目標(biāo)詞w5,得到w1w5w2,再按照地址文本w1w2w3w4w5中詞的排列順序,對w1w5w2重新排序,即得到特征詞串w1w2w5。在具體實施中,上述步驟b3確定的第一目標(biāo)詞和第二目標(biāo)詞除滿足個數(shù)相同的條件外,還需要滿足在執(zhí)行步驟b4之后得到的特征詞詞串中的跳詞數(shù)等于當(dāng)前跳詞數(shù)。為了滿足這個條件,可以先在第一詞串中選取所有可能的第一目標(biāo)詞,在第二詞串中選取所有可能的第二目標(biāo)詞,然后確定所有可能的第一目標(biāo)詞和第二目標(biāo)詞的組合方式,再從中選取滿足當(dāng)前跳詞數(shù)的組合方式,但這種方式工作量較大,耗費系統(tǒng)資源較大,基于此,本申請實施例提出了基于步驟c1~c2的優(yōu)選方式,詳見下述說明。上述步驟b3的具體實施過程可以為:分別將所述第一詞串中的第二個詞到最后一個詞作為起始跳詞(比如分別 將第一詞串w1w2w3中的w2和w3作為起始跳詞),執(zhí)行以下步驟:步驟c1:當(dāng)在第一詞串中,從起始跳詞開始到第一詞串的第n個詞的詞數(shù)量q大于或等于s時,將從所述起始跳詞開始的連續(xù)s個詞確定為所述第一目標(biāo)詞,以及將所述第二詞串中的詞確定為所述第二目標(biāo)詞;q為大于1、且小于n的整數(shù)。比如,第一詞串w1w2w3中,從起始跳詞w2開始到第一詞串的第3個詞w3的詞數(shù)量2等于當(dāng)前跳詞數(shù)2,則將從起始跳詞w2開始連續(xù)2個詞,確定為所述第一目標(biāo)詞,即將w2、w3確定為所述第一目標(biāo)詞。將第二詞串w4w5中的詞w4、w5確定為所述第二目標(biāo)詞。這樣,將第一詞串w1w2w3中的第一目標(biāo)詞w2、w3替換為第二目標(biāo)詞w4、w5后即為w1w4w5。步驟c2:當(dāng)在第一詞串中,從起始跳詞開始到第一詞串的第n個詞的詞數(shù)量q小于s時,將從所述起始跳詞開始到第n個詞的q個詞確定為第一目標(biāo)詞,以及從所述第二詞串中最后一個詞開始,向著第二詞串中第一個詞的方向,連續(xù)選取q個詞作為第二目標(biāo)詞。比如,第一詞串w1w2w3中,從起始跳詞w3開始到第3個詞w3的詞數(shù)量1小于當(dāng)前跳詞數(shù)2,則將起始跳詞w3確定為所述第一目標(biāo)詞,將第二詞串w4w5中的最后一個詞w5確定為所述第二目標(biāo)詞。這樣,將第一詞串w1w2w3中的第一目標(biāo)詞替換為第二目標(biāo)詞后即為w1w2w5。為了更好的理解本申請實施例,以下結(jié)合具體的示例對本申請實施例的具體實施過程進(jìn)行說明。示例一如圖3a和圖3b所示,分別為在s<n的情況下特征詞串的生成過程示意圖。在該示例中,設(shè)定n=6,s=3,當(dāng)前位置的詞為從地址文本起始詞開始的第i個詞(即當(dāng)前位置為i),則gram的生成過程如下:1、從當(dāng)前位置的詞開始連續(xù)選取n(n=6)個詞,放入buff中,此時buff 中的詞拼在一起即為第一詞串(對應(yīng)上述步驟b1);2、從第一詞串之后的第1個詞(即對應(yīng)位置i+n)開始連續(xù)選取s個詞(對應(yīng)上述步驟b2),作為第二詞串;3、根據(jù)第一詞串中的起始跳詞位置的不同,又可以分成兩種情況:第一詞串中從起始跳詞開始到第一詞串的第n個詞的詞數(shù)量q不小于s等情況(情況一)和q小于s的情況(情況二)。對于情況一,比如當(dāng)?shù)谝辉~串中的起始跳詞為第一詞串中的第2個詞,即第i+1個詞時,將從起始跳詞開始的連續(xù)s(s=3)個詞(對應(yīng)位置i+1,i+2,i+3)確定為第一目標(biāo)詞,以及將位置i+n,i+n+1,和i+n+2上的詞(第二詞串中的詞)確定為第二目標(biāo)詞(對應(yīng)上述步驟c1)。具體過程見圖3a所示。對于情況二,當(dāng)?shù)谝辉~串中的起始跳詞為第一詞串中的第5個詞(對應(yīng)位置i+4)時,則將從起始跳詞開始到第一詞串中的第n(n=6)個詞(即位置i+4、i+5上的詞)確定為第一目標(biāo)詞,將從第二詞串中最后一個詞(對應(yīng)位置i+n+2)開始,向著第二詞串中第一個詞的方向,連續(xù)選取與第一目標(biāo)詞數(shù)量相同的詞確定為第二目標(biāo)詞,即將位置為i+n+2和i+n+1上的詞選取為第二目標(biāo)詞(對應(yīng)上述步驟c2)。具體過程見圖3b所示。4、將第一詞串中的第一目標(biāo)詞替換為第二目標(biāo)詞,并按照地址文本中n個詞排列的先后順序,對在第4步中得到的詞串重新排序,得到重新排序后的特征詞串(對應(yīng)上述步驟b4*。示例二如圖4所示,為示例二提供的在s≥n的情況下gram的另一種生成過程示意圖。在該示例中,設(shè)定n=4,s=5,當(dāng)前位置的詞為從地址文本起始詞開始的第i個詞(即當(dāng)前位置為i),則gram的生成過程包括如下:1、從當(dāng)前位置的詞開始連續(xù)選取n(n=4)個詞,放入buff中,此時buff中的詞拼在一起即為第一詞串(對應(yīng)上述步驟b1);2、從第一詞串之后的第1個詞(即對應(yīng)位置i+n)開始連續(xù)選取s個詞(對應(yīng)上述步驟b2),作為第二詞串;3、在s≥n的情況下,無論第一詞串中的起始跳詞在何位置,第一詞串中從起始跳詞開始到第一詞串的第n個詞的詞數(shù)量q均小于s。比如第一詞串中的當(dāng)前跳詞起始位置為第一詞串中的第2個詞(對應(yīng)位置i+1)時,將包括當(dāng)前跳詞起始位置在內(nèi)的剩余詞位置(i+1,i+2,i+3)上的詞確定為第一目標(biāo)詞,以及從第二詞串中最后一個詞位置(i+n+4)上的詞開始,向著第二詞串中第一個詞的方向,連續(xù)選取與第一目標(biāo)詞數(shù)量相同的詞確定為第二目標(biāo)詞,即選取位置i+n+4、i+n+3和i+n+2上的詞(對應(yīng)上述步驟c2)。4、將第一目標(biāo)詞替換為第二目標(biāo)詞,得到特征詞串(對應(yīng)上述b4)。這里,將上述基于conti-k-skip-n-gram提取的特征詞串,與基于n-gram提取到的特征詞串?dāng)?shù)量進(jìn)行了對比。表1列舉了分別基于2-gram和conti-k-skip-2-gram(k=1、2、3和4)提取的特征詞串(gram)數(shù)量的對比數(shù)據(jù),表2列舉了分別基于3-gram和conti-k-skip-3-gram(k=1、2、3和4)提取的gram數(shù)量的對比數(shù)據(jù)。表1n2-gramconti-1-skipconti-2-skipconti-3-skipconti-4-skip5479101010917243035151427395060201935516680表2由表1與表2可見,基于conti-k-skip-n-gram提取的gram的數(shù)量明顯比基于n-gram提取的gram的數(shù)量要多,也就是說conti-k-skip-n-gram能產(chǎn)生n-gram所不能產(chǎn)生的gram(gram中存在相鄰的詞在地址文本中不相鄰)。另外,對應(yīng)于傳統(tǒng)的混合n元模型,本申請實施例中可以采用conti-k-skip混合n元模型(k=2,n=3)。以阿里巴巴西溪園區(qū)的詳細(xì)地址為例:“浙江省杭州市余杭區(qū)五常街道荊豐社區(qū)文一西路969號阿里巴巴西溪園區(qū)5號樓”,產(chǎn)生的gram的數(shù)量統(tǒng)計見表3。表3conti-2-skip-1-gram10+0conti-2-skip-2-gram9+15conti-2-skip-3-gram8+26合計68從表3中可以看出conti-2-skip混合3元模型產(chǎn)生的gram數(shù)為68個,而傳統(tǒng)的n-gram混合3元模型產(chǎn)生27個gram,相當(dāng)于多產(chǎn)生41個gram,多出的41個gram包括:1.15個2-gram:1)浙江省余杭區(qū)2)浙江省五常街道(※)3)杭州市五常街道(※)4)杭州市荊豐社區(qū)(※)5)余杭區(qū)荊豐社區(qū)(※)6)余杭區(qū)文一西路(※)7)五常街道文一西路(※)8)五常街道9699)荊豐社區(qū)96910)荊豐社區(qū)號11)文一西路號12)文一西路阿里巴巴西溪園區(qū)(※)13)969阿里巴巴西溪園區(qū)(※)14)9695號樓15)阿里巴巴西溪園區(qū)5號樓(※)2.26個3-gram:1)浙江省余杭區(qū)五常街道(※)2)浙江省杭州市五常街道(※)3)浙江省五常街道荊豐社區(qū)(※)4)浙江省杭州市荊豐社區(qū)(※)5)杭州市五常街道荊豐社區(qū)(※)6)杭州市余杭區(qū)荊豐社區(qū)(※)7)杭州市荊豐社區(qū)文一西路(※)8)杭州市余杭區(qū)文一西路(※)9)余杭區(qū)荊豐社區(qū)文一西路(※)10)余杭區(qū)五常街道文一西路(※)11)余杭區(qū)文一西路969(※)12)余杭區(qū)五常街道96913)五常街道文一西路969(※)14)五常街道荊豐社區(qū)96915)五常街道969號16)五常街道荊豐社區(qū)號17)荊豐社區(qū)969號18)荊豐社區(qū)文一西路號19)荊豐社區(qū)號阿里巴巴西溪園區(qū)20)荊豐社區(qū)文一西路阿里巴巴西溪園區(qū)(※)21)文一西路號阿里巴巴西溪園區(qū)(※)22)文一西路969阿里巴巴西溪園區(qū)(※)23)文一西路阿里巴巴西溪園區(qū)5號樓(※)24)文一西路9695號樓25)969阿里巴巴西溪園區(qū)5號樓(※)26)969號5號樓在上述gram中,比n-gram多出的41個gram中有很多可區(qū)別性非常強的gram,基于地址應(yīng)用的測試語料,經(jīng)過特征選擇,發(fā)現(xiàn)有27個特征(見標(biāo)(※)的部分)可區(qū)別性非常強??梢姡赾onti-k-skip-n-gram實現(xiàn)的特征提取方法可以明顯改善地址文本的挖掘效果。另外,本申請實施例將基于n-gram和conti-k-skip-n-gram提取到的gram應(yīng)用于對地址文本和非地址文本進(jìn)行文本分類,以下表4是對分類準(zhǔn)確度的統(tǒng)計。表4從表4可知,在少量實驗數(shù)據(jù)的條件下,通過提升提取特征詞串的數(shù)量,相比非地址文本,對于地址文本而言,基于conti-k-skip-n-gram實現(xiàn)的文本分類的準(zhǔn)確性更好。基于同一發(fā)明構(gòu)思,本申請實施例還提供了一種與特征提取方法對應(yīng)的特征提取裝置,由于該裝置解決問題的原理與本申請實施例提供的特征提取方法相似,因此重復(fù)之處不再贅述。如圖5所示,為本申請實施例提供的特征提取裝置,包括:確定模塊51,用于確定進(jìn)行分詞處理后的地址文本;所述進(jìn)行分詞處理后的地址文本中包含n個詞,所述n為大于1的整數(shù);取詞模塊52,用于根據(jù)預(yù)先設(shè)置的取詞數(shù)和跳詞數(shù),從所述進(jìn)行分詞處理后的地址文本中取詞,構(gòu)成所述進(jìn)行分詞處理后的地址文本的特征詞串;其中,每個特征詞串中包含的所取的詞的個數(shù)等于所述取詞數(shù),且每個特征詞串中存在兩個相鄰的詞在所述地址文本中相隔的詞數(shù)量等于所述跳詞數(shù)??蛇x地,所述取詞模塊52具體用于:預(yù)先設(shè)置取詞數(shù)為n,以及預(yù)先設(shè)置跳詞數(shù)為從1至k的整數(shù),所述n為大于1、且小于n的整數(shù),所述k為大于1、且小于n-1的整數(shù);根據(jù)當(dāng)前跳詞數(shù)s,在所述進(jìn)行分詞處理后的地址文本中,從當(dāng)前位置的詞開始選取n個詞,得到所述特征詞串;s為大于0、且小于或等于k的整數(shù)。可選地,所述取詞模塊52具體用于:在所述進(jìn)行分詞處理后的地址文本中,從所述當(dāng)前位置的詞開始,連續(xù)選取n個詞,得到第一詞串;在所述進(jìn)行分詞處理后的地址文本中,確定從所述當(dāng)前位置的詞開始連續(xù)選取n個詞之后的剩余詞;在所述剩余詞的數(shù)量大于或等于s時,從所述剩余詞中的第一個詞開始,連續(xù)選取s個詞,得到第二詞串;在所述第一詞串中除第一個詞之外的其它詞中,確定第一目標(biāo)詞,以及在所述第二詞串中確定與所述第一目標(biāo)詞個數(shù)相同的第二目標(biāo)詞;通過將所述第一詞串中的所述第一目標(biāo)詞替換為所述第二目標(biāo)詞,確定所述特征詞串??蛇x地,所述取詞模塊52具體用于:分別將所述第一詞串中的第二個詞到最后一個詞作為起始跳詞,執(zhí)行以下操作:當(dāng)在所述第一詞串中,從所述起始跳詞開始到所述第一詞串的第n個詞的詞數(shù)量q大于或等于s時,將從所述起始跳詞開始的連續(xù)s個詞確定為所述第一目標(biāo)詞,以及將所述第二詞串中的詞確定為所述第二目標(biāo)詞;q為大于1、且小于n的整數(shù);當(dāng)在所述第一詞串中,從所述起始跳詞開始到所述第一詞串的第n個詞的詞數(shù)量q小于s時,將從所述起始跳詞開始到第n個詞的q個詞確定為第一目標(biāo)詞,以及從所述第二詞串中最后一個詞開始,向著第二詞串中第一個詞的方向,連續(xù)選取q個詞作為第二目標(biāo)詞??蛇x地,所述取詞模塊52具體用于:將所述第一詞串中的所述第一目標(biāo)詞替換為所述第二目標(biāo)詞,得到第三詞串;按照所述進(jìn)行分詞處理后的地址文本中n個詞排列的先后順序,對所述第三詞串中的詞進(jìn)行重新排序,得到所述特征詞串。本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本申請的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本申請可采用完全硬件實施例、完全軟件實施例、或結(jié)合軟件和硬件方面的實施例的形式。而且,本申請可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器、cd-rom、光學(xué)存儲器等)上實施的計算機程序產(chǎn)品的形式。本申請是參照根據(jù)本申請實施例的方法、設(shè)備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。這些計算機程序指令也可存儲在能引導(dǎo)計算機或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中 的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計算機或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設(shè)備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。盡管已描述了本申請的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本申請范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對本申請進(jìn)行各種改動和變型而不脫離本申請的精神和范圍。這樣,倘若本申請的這些修改和變型屬于本申請權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請也意圖包含這些改動和變型在內(nèi)。當(dāng)前第1頁12