本發(fā)明涉及互聯(lián)網(wǎng)應(yīng)用技術(shù)領(lǐng)域,特別涉及一種文本相關(guān)性的確定方法及裝置。
背景技術(shù):
隨著Web技術(shù)的不斷發(fā)展,大數(shù)據(jù)時代已經(jīng)到來,基于大數(shù)據(jù)的機器學(xué)習(xí)已經(jīng)被應(yīng)用在醫(yī)療、教育、交通、娛樂等眾多領(lǐng)域。文本是最常見的數(shù)據(jù)類型,由若干個詞組成,通常來自網(wǎng)絡(luò)中的電子郵件、短信、微博、論壇的帖子等。目標文本與目標領(lǐng)域的相關(guān)性判定,是常見的文本數(shù)據(jù)處理方式。
以關(guān)鍵詞進行文本抓取為例,如搜索與名稱為《左耳》的影片相關(guān)的影評,可能會獲得:“周末去影院看了《左耳》,非常好看”的相關(guān)文本、“我左耳朵不舒服,需要找耳科醫(yī)生看看”的不相關(guān)文本。因此,要從結(jié)果中剔除相關(guān)性很低的噪聲文本,現(xiàn)有技術(shù)通常采用將待處理的目標文本向量化以后與目標領(lǐng)域的相關(guān)文本的向量進行比較,得到目標文本與目標領(lǐng)域的相關(guān)度,由于相關(guān)文本的數(shù)量比較大,逐次比較花費的時間較長。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例的目的在于提供一種文本相關(guān)性的確定方法及裝置,以提高目標文本和目標領(lǐng)域的相關(guān)性判定的速度。
為達到上述目的,本發(fā)明實施例公開了一種文本相關(guān)性的確定方法,預(yù)先將獲得的針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量進行聚類,并計算每一類的質(zhì)心向量;所述方法包括:
獲得待處理目標文本對應(yīng)的文本向量;
根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度;
根據(jù)所述相關(guān)度,確定所述待處理目標文本與所述目標領(lǐng)域的相關(guān)性。
優(yōu)選的,獲得針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量,包括:
針對所述文本樣本中每一文本,采用詞嵌入技術(shù),獲得該文本對應(yīng)的文本向量;
獲得待處理目標文本對應(yīng)的文本向量,包括:
針對所述待處理目標文本,采用詞嵌入技術(shù),獲得該文本對應(yīng)的文本向量。
優(yōu)選的,所述將獲得的針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量進行聚類,包括:
根據(jù)預(yù)設(shè)聚類算法,將所述文本樣本中每一文本對應(yīng)的文本向量聚類。
優(yōu)選的,所述根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度,包括:
根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,采用余弦相似度算法,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度。
優(yōu)選的,所述根據(jù)所述相關(guān)度,確定所述待處理目標文本與所述目標領(lǐng)域的相關(guān)性,包括:
獲得所述待處理目標文本與每一類質(zhì)心的相關(guān)度中的最大值;
當所述最大值不小于第一預(yù)設(shè)閾值時,確定所述待處理目標文本與所述目標領(lǐng)域相關(guān);
當所述最大值不大于第二預(yù)設(shè)閾值時,確定所述待處理目標文本與所述目標領(lǐng)域不相關(guān);
當所述最大值介于所述第二預(yù)設(shè)閾值與所述第一預(yù)設(shè)閾值之間時,利用自編碼神經(jīng)網(wǎng)絡(luò)對所述待處理目標文本對應(yīng)的文本向量進行訓(xùn)練;計算訓(xùn)練前的文本向量和訓(xùn)練后的文本向量的均方差;判斷所述均方差是否大于第三預(yù)設(shè)閾值;如果是,確定所述待處理目標文本與所述目標領(lǐng)域相關(guān);如果否,確定所述待處理目標文本與所述目標領(lǐng)域不相關(guān),其中,所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值。
優(yōu)選的,在確定所述待處理目標文本與所述目標領(lǐng)域相關(guān)的情況下,所述方法還包括:
將所述待處理目標文本標記為所述目標領(lǐng)域的相關(guān)文本。
為達到上述目的,本發(fā)明實施例還公開了一種文本相關(guān)性的確定裝置,所述裝置包括:
聚類模塊,用于預(yù)先將獲得的針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量進行聚類,并計算每一類的質(zhì)心向量;
獲得模塊,用于獲得待處理目標文本對應(yīng)的文本向量;
計算模塊,用于根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度;
確定模塊,用于根據(jù)所述相關(guān)度,確定所述待處理目標文本與所述目標領(lǐng)域的相關(guān)性。
優(yōu)選的,獲得針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量,包括:
針對所述文本樣本中每一文本,采用詞嵌入技術(shù),獲得該文本對應(yīng)的文本向量;
獲得待處理目標文本對應(yīng)的文本向量,包括:
針對所述待處理目標文本,采用詞嵌入技術(shù),獲得該文本對應(yīng)的文本向量。
優(yōu)選的,所述將獲得的針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量進行聚類,包括:
根據(jù)預(yù)設(shè)聚類算法,將所述文本樣本中每一文本對應(yīng)的文本向量聚類。
優(yōu)選的,所述計算模塊,具體用于:
根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,采用余弦相似度算法,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度。
優(yōu)選的,所述確定模塊,具體用于:
獲得所述待處理目標文本與每一類質(zhì)心的相關(guān)度中的最大值;
當所述最大值不小于第一預(yù)設(shè)閾值時,確定所述待處理目標文本與所述目標領(lǐng)域相關(guān);
當所述最大值不大于第二預(yù)設(shè)閾值時,確定所述待處理目標文本與所述目標領(lǐng)域不相關(guān);
當所述最大值介于所述第二預(yù)設(shè)閾值與所述第一預(yù)設(shè)閾值之間時,利用自編碼神經(jīng)網(wǎng)絡(luò)對所述待處理目標文本對應(yīng)的文本向量進行訓(xùn)練;計算訓(xùn)練前的文本向量和訓(xùn)練后的文本向量的均方差;判斷所述均方差是否大于第三預(yù)設(shè)閾值;如果是,確定所述待處理目標文本與所述目標領(lǐng)域相關(guān);如果否,確定所述待處理目標文本與所述目標領(lǐng)域不相關(guān),其中,所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值。
優(yōu)選的,所述裝置還包括:標記模塊,
所述標記模塊,用于在確定所述待處理目標文本與所述目標領(lǐng)域相關(guān)的情況下,將所述待處理目標文本標記為所述目標領(lǐng)域的相關(guān)文本。
由上述的技術(shù)方案可見,本發(fā)明實施例提供的一種文本相關(guān)性的確定方法及裝置,預(yù)先將獲得的針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量進行聚類,并計算每一類的質(zhì)心向量;所述方法包括:獲得待處理目標文本對應(yīng)的文本向量;根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度;根據(jù)所述相關(guān)度,確定所述待處理目標文本與所述目標領(lǐng)域的相關(guān)性。
應(yīng)用本發(fā)明實施例提供的技術(shù)方案,將目標領(lǐng)域的文本樣本對應(yīng)的向量采用聚類算法聚成若干類并計算對應(yīng)的質(zhì)心向量,計算待處理目標文本對應(yīng)的向量與每一類質(zhì)心向量相關(guān)度,然后根據(jù)相關(guān)度確定待處理目標文本與目標領(lǐng)域是否相關(guān),避免了將待處理目標文本對應(yīng)的向量與目標領(lǐng)域的每一個文本樣本對應(yīng)的向量進行相關(guān)度的計算,顯著減少了計算量。因此,提高了目標文本和目標領(lǐng)域的相關(guān)性判定的速度。
當然,實施本發(fā)明的任一產(chǎn)品或方法必不一定需要同時達到以上所述的所有優(yōu)點。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實施例提供的一種文本相關(guān)性的確定方法的流程示意圖;
圖2為本發(fā)明實施例提供的一種文本相關(guān)性的確定裝置的結(jié)構(gòu)示意圖。
具體實施方式
下面將結(jié)合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術(shù)方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領(lǐng)域普通技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
為解決現(xiàn)有技術(shù)問題,本發(fā)明實施例提供了一種文本相關(guān)性的確定方法及裝置,以下分別進行詳細說明。
需要說明的是,根據(jù)目標領(lǐng)域,可以獲得大量的與目標領(lǐng)域相關(guān)的文本,即目標領(lǐng)域的文本樣本。預(yù)先將獲得的針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量進行聚類,并計算每一類的質(zhì)心向量。本領(lǐng)域技術(shù)人員可以理解的是,為了減少計算量,將大量的目標領(lǐng)域的文本樣本向量化后進行聚類,并計算每一類的質(zhì)心向量。
具體的,獲得針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量,可以根據(jù)針對所述文本樣本中每一文本,采用詞嵌入技術(shù),獲得該文本對應(yīng)的文本向量。實際應(yīng)用中,可以采用詞嵌入技術(shù),詞嵌入技術(shù)考慮到了詞的語義信息,如同義詞、上下文語意等,而且相比現(xiàn)有技術(shù)采用的TF-IDF進行文本向量化還具有文本向量較短的優(yōu)勢。
具體的,將獲得的針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量進行聚類,可以根據(jù)預(yù)設(shè)聚類算法,將所述文本樣本中每一文本對應(yīng)的文本向量聚類。預(yù)設(shè)的聚類算法可以是劃分法、層次法,向量聚類為現(xiàn)有技術(shù),本發(fā)明實施例在此不做贅述。假設(shè),目標領(lǐng)域的文本樣本為100個,根據(jù)聚類算法得到聚類數(shù)量為5類,得到對應(yīng)的質(zhì)心向量也為5個。實際應(yīng)用中,具體某一類中文本樣本的個數(shù)是由聚類算法本身決定的,一般情況下,每一類中的文本樣本數(shù)都是不一樣的。本發(fā)明實施例給出的目標領(lǐng)域的文本數(shù)量和聚類算法僅僅是示例性的,不構(gòu)成對本發(fā)明實施例的限定。
圖1為本發(fā)明實施例提供的一種文本相關(guān)性的確定方法的流程示意圖,包括如下步驟:
S101,獲得待處理目標文本對應(yīng)的文本向量。
具體的,獲得待處理目標文本對應(yīng)的文本向量,可以根據(jù)針對所述待處理目標文本,采用詞嵌入技術(shù),獲得該文本對應(yīng)的文本向量。
S102,根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度。
具體的,根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度,可以根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,采用余弦相似度算法,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度。
S103,根據(jù)所述相關(guān)度,確定所述待處理目標文本與所述目標領(lǐng)域的相關(guān)性。
具體的,根據(jù)所述相關(guān)度,確定所述待處理目標文本與所述目標領(lǐng)域的相關(guān)性,可以包括:獲得所述待處理目標文本與每一類質(zhì)心的相關(guān)度中的最大值;當所述最大值不小于第一預(yù)設(shè)閾值時,確定所述待處理目標文本與所述目標領(lǐng)域相關(guān);當所述最大值不大于第二預(yù)設(shè)閾值時,確定所述待處理目標文本與所述目標領(lǐng)域不相關(guān);當所述最大值介于所述第二預(yù)設(shè)閾值與所述第一預(yù)設(shè)閾值之間時,利用自編碼神經(jīng)網(wǎng)絡(luò)對所述待處理目標文本對應(yīng)的文本向量進行訓(xùn)練;計算訓(xùn)練前的文本向量和訓(xùn)練后的文本向量的均方差;判斷所述均方差是否大于第三預(yù)設(shè)閾值;如果是,確定所述待處理目標文本與所述目標領(lǐng)域相關(guān);如果否,確定所述待處理目標文本與所述目標領(lǐng)域不相關(guān),其中,所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值。
具體的,在確定所述待處理目標文本與所述目標領(lǐng)域相關(guān)的情況下,還可以將所述待處理目標文本標記為所述目標領(lǐng)域的相關(guān)文本。
實際應(yīng)用中,將待判定是否為目標領(lǐng)域相關(guān)的文本稱之為待處理目標文本,首先將其向量化。采用的詞嵌入技術(shù)將目標文本向量化的過程是:將待處理目標文本分成n個詞,每個詞由一個m維的向量來表示,那么,目標文本將會由這n個m維的向量拼接組成,即每個詞對應(yīng)的m維相加后的向量來表示。文本分詞和文本向量化為現(xiàn)有技術(shù),本發(fā)明實施例在此不做贅述。
示例性的,判斷待處理目標文本“我左耳朵不舒服,需要找耳科醫(yī)生看看”是否為電影《左耳》的影評,待處理目標文本采用詞嵌入進行向量化,獲得對應(yīng)的向量為b。假設(shè),b由三個詞組成,每個詞用6維的向量表示,則b可以表示為:b=b10b11b20b21b30b31,實際應(yīng)用中,詞向量的維數(shù)通常要達到100-500維,本發(fā)明實施例僅僅是示例性的,不構(gòu)成對本發(fā)明的限定;目標領(lǐng)域的文本對應(yīng)的5個質(zhì)心向量為:a1、a2、a3、a4、a5。
本領(lǐng)域技術(shù)人員可以理解的是,經(jīng)過聚類的質(zhì)心向量中的每個向量值是所有被聚類的向量對應(yīng)位置值的平均值。示例性的,對于質(zhì)心向量a1,由5個文本向量聚類而成,a1=a10a11a12a13a14a15,以a10為例,是進行聚類的5個文本向量對應(yīng)在a10位置的向量值的平均。計算向量值為現(xiàn)有技術(shù),本發(fā)明實施例在此不做贅述。
通過計算目標文本對應(yīng)的向量與每一類質(zhì)心向量的相關(guān)度,即可反應(yīng)目標文本與該類質(zhì)心向量對應(yīng)的文本的相關(guān)度,通常采用的計算方式為余弦相似度算法。示例性的,待處理目標文本的文本向量b與質(zhì)心向量a1的相關(guān)度為:s=sim(b,a1),其中,余弦相似度算法sim表示兩個向量的空間夾角的余弦數(shù)值。
本領(lǐng)域技術(shù)人員可以理解的是,根據(jù)待處理目標文本的文本向量與每一類質(zhì)心向量的相關(guān)度,能夠確定目標文本是否與目標領(lǐng)域相關(guān)。通常,在所有相關(guān)度中取最大值,將其確定為待處理目標文本與目標領(lǐng)域的相關(guān)度。假設(shè),第一預(yù)設(shè)閾值為0.55、第二預(yù)設(shè)閾值為0.45、第三預(yù)設(shè)閾值為0.04;根據(jù)余弦相似度算法,獲得待處理目標文本的文本向量與每一質(zhì)心的相關(guān)度,分別為0.1、0.2、0.3、0.6、0.3、0.4,則待處理目標文本與目標領(lǐng)域的相關(guān)度為0.6,因為0.6>0.55,則確定待處理目標文本與目標領(lǐng)域為相關(guān)。
若相關(guān)度分別為0.3、0.2、0.1、0.4、0.3、0.4,則待處理目標文本與目標領(lǐng)域的相關(guān)度為0.4,因為0.4小于第二預(yù)設(shè)閾值0.45,則確定待處理目標文本與目標領(lǐng)域為不相關(guān)。
若相關(guān)度分別為0.5、0.2、0.45、0.5、0.3、0.4,則待處理目標文本與目標領(lǐng)域的相關(guān)度為0.5,因為0.45<0.5<0.55,將待處理目標文本的文本向量b輸入自編碼神經(jīng)網(wǎng)絡(luò)進行訓(xùn)練,輸出訓(xùn)練后向量為b’。示例性的,b、b’對應(yīng)的向量值分別為:b=(0.2,0.3,0.1,0.4,0.5,0.1)、b’=(0.1,0.1,0.1,0.1,0.1,0.1),獲得b、b’的均方差為[(0.2-0.1)2+(0.3-0.1)2+(0.1-0.1)2+(0.4-0.1)2+(0.5-0.1)2+(0.1-0.1)2]/6=0.05。因為0.05大于第三預(yù)設(shè)閾值0.04,確定待處理目標文本為目標領(lǐng)域的相關(guān)文本。
將確定的相關(guān)文本進行標記后,可以將其作為目標領(lǐng)域的文本樣本,以此不斷的對目標領(lǐng)域的文本樣本進行更新,能夠提高待處理目標文本與目標領(lǐng)域相關(guān)性判定的準確性。
實際應(yīng)用中,若待處理目標文本確定為目標領(lǐng)域的不相關(guān)文本,則將其作為自編碼神經(jīng)網(wǎng)絡(luò)的訓(xùn)練文本向量。本領(lǐng)域技術(shù)人員可以理解的是,自編碼神經(jīng)網(wǎng)絡(luò)中用來訓(xùn)練輸入的文本向量的是一些目標領(lǐng)域的不相關(guān)文本對應(yīng)向量的集合,將這些不相關(guān)文本對應(yīng)的向量作為特征,訓(xùn)練一個自編碼神經(jīng)網(wǎng)絡(luò)。對于這些不相關(guān)文本的對應(yīng)向量,自編碼神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)出編碼權(quán)重和解碼權(quán)重,此時輸出向量和輸入是一致的。如果輸入的是不相關(guān)文本對應(yīng)的向量,那么通過兩組權(quán)重還原后的輸出向量和輸入向量接近相等,即兩個向量的均方差接近0。而均方差越大,說明其還原程度越差,則該文本屬于目標領(lǐng)域的相關(guān)文本的可能性較大。自編碼神經(jīng)網(wǎng)絡(luò)為現(xiàn)有技術(shù),本發(fā)明實施例在此不做贅述。
可見,應(yīng)用本發(fā)明圖1所示的實施例,將目標領(lǐng)域的文本樣本對應(yīng)的向量采用聚類算法聚成若干類并計算對應(yīng)的質(zhì)心向量,計算待處理目標文本對應(yīng)的向量與每一類質(zhì)心向量相關(guān)度,然后根據(jù)相關(guān)度確定待處理目標文本與目標領(lǐng)域是否相關(guān),避免了將待處理目標文本對應(yīng)的向量與目標領(lǐng)域的每一個文本樣本對應(yīng)的向量進行相關(guān)度的計算,顯著減少了計算量。因此,提高了目標文本和目標領(lǐng)域的相關(guān)性判定的速度。
圖2為本發(fā)明實施例提供的一種文本相關(guān)性的確定裝置的結(jié)構(gòu)示意圖,可以包括:聚類模塊201、獲得模塊202、計算模塊203、確定模塊204。
聚類模塊201,用于預(yù)先將獲得的針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量進行聚類,并計算每一類的質(zhì)心向量。
具體的,實際應(yīng)用中,獲得針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量,可以針對所述文本樣本中每一文本,采用詞嵌入技術(shù),獲得該文本對應(yīng)的文本向量。
具體的,實際應(yīng)用中,所述將獲得的針對目標領(lǐng)域的文本樣本中每一文本對應(yīng)的文本向量進行聚類,可以根據(jù)預(yù)設(shè)聚類算法,將所述文本樣本中每一文本對應(yīng)的文本向量聚類。
獲得模塊202,用于獲得待處理目標文本對應(yīng)的文本向量。
具體的,實際應(yīng)用中,獲得待處理目標文本對應(yīng)的文本向量,可以針對所述待處理目標文本,采用詞嵌入技術(shù),獲得該文本對應(yīng)的文本向量。
計算模塊203,用于根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度。
具體的,實際應(yīng)用中,所述計算模塊203,可以用于:
根據(jù)所述待處理目標文本對應(yīng)的文本向量以及所述每一類的質(zhì)心向量,采用余弦相似度算法,計算所述待處理目標文本與每一類質(zhì)心的相關(guān)度。
確定模塊204,用于根據(jù)所述相關(guān)度,確定所述待處理目標文本與所述目標領(lǐng)域的相關(guān)性。
具體的,實際應(yīng)用中,所述確定模塊204,可以用于:
獲得所述待處理目標文本與每一類質(zhì)心的相關(guān)度中的最大值;
當所述最大值不小于第一預(yù)設(shè)閾值時,確定所述待處理目標文本與所述目標領(lǐng)域相關(guān);
當所述最大值不大于第二預(yù)設(shè)閾值時,確定所述待處理目標文本與所述目標領(lǐng)域不相關(guān);
當所述最大值介于所述第二預(yù)設(shè)閾值與所述第一預(yù)設(shè)閾值之間時,利用自編碼神經(jīng)網(wǎng)絡(luò)對所述待處理目標文本對應(yīng)的文本向量進行訓(xùn)練;計算訓(xùn)練前的文本向量和訓(xùn)練后的文本向量的均方差;判斷所述均方差是否大于第三預(yù)設(shè)閾值;如果是,確定所述待處理目標文本與所述目標領(lǐng)域相關(guān);如果否,確定所述待處理目標文本與所述目標領(lǐng)域不相關(guān),其中,所述第二預(yù)設(shè)閾值小于所述第一預(yù)設(shè)閾值。
具體的,實際應(yīng)用中,所述裝置還可以包括:標記模塊(圖中未示出),
標記模塊,用于在確定所述待處理目標文本與所述目標領(lǐng)域相關(guān)的情況下,將所述待處理目標文本標記為所述目標領(lǐng)域的相關(guān)文本。
將確定的相關(guān)文本進行標記后,可以將其作為目標領(lǐng)域的文本樣本,以此不斷的對目標領(lǐng)域的文本樣本進行更新,能夠提高待處理目標文本與目標領(lǐng)域相關(guān)性判定的準確性。
可見,應(yīng)用本發(fā)明圖2所示的實施例,將目標領(lǐng)域的文本樣本對應(yīng)的向量采用聚類算法聚成若干類并計算對應(yīng)的質(zhì)心向量,計算待處理目標文本對應(yīng)的向量與每一類質(zhì)心向量相關(guān)度,然后根據(jù)相關(guān)度確定待處理目標文本與目標領(lǐng)域是否相關(guān),避免了將待處理目標文本對應(yīng)的向量與目標領(lǐng)域的每一個文本樣本對應(yīng)的向量進行相關(guān)度的計算,顯著減少了計算量。因此,提高了目標文本和目標領(lǐng)域的相關(guān)性判定的速度。
需要說明的是,在本文中,諸如第一和第二等之類的關(guān)系術(shù)語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關(guān)系或者順序。而且,術(shù)語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設(shè)備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設(shè)備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設(shè)備中還存在另外的相同要素。
本說明書中的各個實施例均采用相關(guān)的方式描述,各個實施例之間相同相似的部分互相參見即可,每個實施例重點說明的都是與其他實施例的不同之處。尤其,對于裝置實施例而言,由于其基本相似于方法實施例,所以描述的比較簡單,相關(guān)之處參見方法實施例的部分說明即可。
本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述方法實施方式中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲于計算機可讀取存儲介質(zhì)中,這里所稱得的存儲介質(zhì),如:ROM/RAM、磁碟、光盤等。
以上所述僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。凡在本發(fā)明的精神和原則之內(nèi)所作的任何修改、等同替換、改進等,均包含在本發(fā)明的保護范圍內(nèi)。