本發(fā)明實施例涉及自然語言處理中詞匯相關(guān)性計算領(lǐng)域,尤其涉及一種計算詞性相關(guān)性的方法及裝置。
背景技術(shù):
詞匯的相關(guān)性研究是在自然語言處理的一個基本研究課題,相關(guān)性計算水平的提高對文本聚類、語義消歧、語義web、信息檢索等眾多應(yīng)用領(lǐng)域具有重要意義。在傳統(tǒng)的詞語相關(guān)性研究中,大多關(guān)注一對詞匯之間的相關(guān)性;并且大多都存在一個假設(shè):即相關(guān)的詞匯至少應(yīng)該以“共同出現(xiàn)”為基礎(chǔ)。
在國外,詞匯的相關(guān)性研究起步較早,成果也相對較多。目前較為成熟的相關(guān)性語義詞典有wordnet、framenete、mindnet等。而國內(nèi)漢語方面也有how—net、同義詞詞林等。這些語義詞典從本質(zhì)上是通過研究詞與詞之間的關(guān)系相互映射,并通過大量統(tǒng)計得到。它們均是靠人為統(tǒng)計和計算,從研發(fā)到產(chǎn)品上線大都需要耗費(fèi)一定的人力和資源。
目前被廣泛研究與采用的兩種方法是基于世界知識(ontology)或某種分類體系(taxonomy)的方法和基于統(tǒng)計的上下文向量空間模型方法。由于一些理論上以及運(yùn)行條件的限制,現(xiàn)有的技術(shù)還存在很多問題,難以發(fā)揮理想的效果。例如,在單文本或是單個自然段中,基于上下文統(tǒng)計的詞匯相關(guān)性計算方法比較有說服力,但當(dāng)文本數(shù)據(jù)量大,且討論在一段時間內(nèi)的詞匯相關(guān)性或討論在某一領(lǐng)域內(nèi)(如金融,軍事)的詞匯相關(guān)性時,這種傳統(tǒng)的相關(guān)性計算方法就很難起到作用了。
技術(shù)實現(xiàn)要素:
本發(fā)明實施例的目的在于提出一種計算詞性相關(guān)性的方法及裝置,旨在解決如何在文本數(shù)據(jù)量大的情況下獲取詞性相關(guān)性的問題。
為達(dá)此目的,本發(fā)明實施例采用以下技術(shù)方案:
第一方面,一種計算詞性相關(guān)性的方法,所述方法包括:
獲取文本并進(jìn)行分詞處理,根據(jù)tf-idf權(quán)重計算方法計算所有詞匯的tf-idf權(quán)重值,并篩選關(guān)鍵詞匯;
獲取每個關(guān)鍵詞匯對應(yīng)的特征向量,所述特征向量包括頻次向量或者增長率向量,所述頻次向量用于標(biāo)識所述關(guān)鍵詞匯的頻次,所述增長率向量用于標(biāo)識所述關(guān)鍵詞匯的變化率;
計算關(guān)鍵詞匯的特征向量之間的向量距離;
若所述向量距離大于預(yù)設(shè)距離閾值,則確定所述向量距離對應(yīng)的關(guān)鍵詞匯具有詞匯相關(guān)性。
優(yōu)選地,所述獲取文本并進(jìn)行分詞處理,根據(jù)tf-idf權(quán)重計算方法計算所有詞匯的tf-idf權(quán)重值,并篩選關(guān)鍵詞匯,包括:
獲取預(yù)設(shè)第一時間間隔內(nèi)的特定類型文本作為實驗文本集,并將數(shù)據(jù)按照預(yù)設(shè)第二時間間隔進(jìn)行存儲;
通過文本分詞技術(shù)將所述第二時間間隔內(nèi)的文本進(jìn)行分詞,并統(tǒng)計所有詞匯在所述第二時間間隔內(nèi)出現(xiàn)的頻次;
通過統(tǒng)計每個詞匯的頻次,根據(jù)所述每個詞匯的頻次和所述文本在所述第二時間間隔內(nèi)出現(xiàn)的次數(shù)來計算所述每個詞匯的tf-idf值,并將所有詞匯根據(jù)tf-idf值進(jìn)行詞匯排序,將tf-idf值大的詞匯篩選為關(guān)鍵詞匯。
優(yōu)選地,所述獲取每個關(guān)鍵詞匯對應(yīng)的頻次向量,包括:
獲取每個關(guān)鍵詞匯在所述第一時間間隔內(nèi)的所有頻次值,將所述頻次值按照向量來表示,并形成了一個多維的向量。
優(yōu)選地,所述獲取每個關(guān)鍵詞匯對應(yīng)的增長率向量,包括:
獲取每個關(guān)鍵詞匯在所述第一時間間隔內(nèi)的所有頻次值;
根據(jù)所述所有頻次值計算(fi+1-fi)/fi,所述fi為所述頻次向量對應(yīng)第i個頻次值,所述fi+1為所述頻次向量對應(yīng)的第i+1個頻次值;
將計算得到的(fi+1-fi)/fi按照向量來表示,并形成了一個多維的向量。
優(yōu)選地,所述方法還包括:
若所述向量距離小于等于所述預(yù)設(shè)距離閾值,則確定所述向量距離對應(yīng)的關(guān)鍵詞匯不具有詞匯相關(guān)性。
第二方面,一種計算詞性相關(guān)性的裝置,所述裝置包括:
第一獲取模塊,用于獲取文本并進(jìn)行分詞處理,根據(jù)tf-idf權(quán)重計算方法計算所有詞匯的tf-idf權(quán)重值,并篩選關(guān)鍵詞匯;
第二獲取模塊,用于獲取每個關(guān)鍵詞匯對應(yīng)的特征向量,所述特征向量包括頻次向量或者增長率向量,所述頻次向量用于標(biāo)識所述關(guān)鍵詞匯的頻次,所述增長率向量用于標(biāo)識所述關(guān)鍵詞匯的變化率;
計算模塊,用于計算關(guān)鍵詞匯的特征向量之間的向量距離;
第一確定模塊,用于若所述向量距離大于預(yù)設(shè)距離閾值,則確定所述向量距離對應(yīng)的關(guān)鍵詞匯具有詞匯相關(guān)性。
優(yōu)選地,所述第一獲取模塊,具體用于:
獲取預(yù)設(shè)第一時間間隔內(nèi)的特定類型文本作為實驗文本集,并將數(shù)據(jù)按照預(yù)設(shè)第二時間間隔進(jìn)行存儲;
通過文本分詞技術(shù)將所述第二時間間隔內(nèi)的文本進(jìn)行分詞,并統(tǒng)計所有詞匯在所述第二時間間隔內(nèi)出現(xiàn)的頻次;
通過統(tǒng)計每個詞匯的頻次,根據(jù)所述每個詞匯的頻次和所述文本在所述第二時間間隔內(nèi)出現(xiàn)的次數(shù)來計算所述每個詞匯的tf-idf值,并將所有詞匯根據(jù)tf-idf值進(jìn)行詞匯排序,將tf-idf值大的詞匯篩選為關(guān)鍵詞匯。
優(yōu)選地,所述第二獲取模塊,具體用于:
獲取每個關(guān)鍵詞匯在所述第一時間間隔內(nèi)的所有頻次值,將所述頻次值按照向量來表示,并形成了一個多維的向量。
優(yōu)選地,所述第二獲取模塊,還具體用于:
獲取每個關(guān)鍵詞匯在所述第一時間間隔內(nèi)的所有頻次值;
根據(jù)所述所有頻次值計算(fi+1-fi)/fi,所述fi為所述頻次向量對應(yīng)第i個頻次值,所述fi+1為所述頻次向量對應(yīng)的第i+1個頻次值;
將計算得到的(fi+1-fi)/fi按照向量來表示,并形成了一個多維的向量。
優(yōu)選地,所述裝置還包括:
第二確定模塊,用于若所述向量距離小于等于所述預(yù)設(shè)距離閾值,則確定所述向量距離對應(yīng)的關(guān)鍵詞匯不具有詞匯相關(guān)性。
本發(fā)明實施例提供的一種計算詞性相關(guān)性的方法及裝置,獲取文本并進(jìn)行分詞處理,根據(jù)tf-idf權(quán)重計算方法計算所有詞匯的tf-idf權(quán)重值,并篩選關(guān)鍵詞匯;獲取每個關(guān)鍵詞匯對應(yīng)的特征向量,所述特征向量包括頻次向量或者增長率向量,所述頻次向量用于標(biāo)識所述關(guān)鍵詞匯的頻次,所述增長率向量用于標(biāo)識所述關(guān)鍵詞匯的變化率;計算關(guān)鍵詞匯的特征向量之間的向量距離;若所述向量距離大于預(yù)設(shè)距離閾值,則確定所述向量距離對應(yīng)的關(guān)鍵詞匯具有詞匯相關(guān)性。本發(fā)明需要統(tǒng)計一定時間內(nèi)詞匯出現(xiàn)的頻次,根據(jù)出現(xiàn)的頻次計算出詞匯的增長率向量來計算詞匯之間的相關(guān)性大小。另外,本發(fā)明可以研究某一領(lǐng)域的詞匯相關(guān)性,通過某領(lǐng)域內(nèi)特定的目標(biāo)關(guān)鍵詞來預(yù)測與其相關(guān)詞匯的出現(xiàn),利用該特性可以進(jìn)行事件與事件之間的相互檢索。
附圖說明
圖1是本發(fā)明實施例提供的一種計算詞性相關(guān)性的方法的流程示意圖;
圖2是本發(fā)明實施例提供的一種計算詞性相關(guān)性的裝置的功能模塊示意圖。
具體實施方式
下面結(jié)合附圖和實施例對本發(fā)明實施例作進(jìn)一步的詳細(xì)說明??梢岳斫獾氖?,此處所描述的具體實施例僅僅用于解釋本發(fā)明實施例,而非對本發(fā)明實施例的限定。另外還需要說明的是,為了便于描述,附圖中僅示出了與本發(fā)明實施例相關(guān)的部分而非全部結(jié)構(gòu)。
參考圖1,圖1是本發(fā)明實施例提供的一種計算詞性相關(guān)性的方法的流程示意圖。
如圖1所示,所述計算詞性相關(guān)性的方法包括:
步驟101,獲取文本并進(jìn)行分詞處理,根據(jù)tf-idf權(quán)重計算方法計算所有詞匯的tf-idf權(quán)重值,并篩選關(guān)鍵詞匯;
具體的,本發(fā)明采取網(wǎng)絡(luò)爬蟲獲取2015年金融領(lǐng)域新聞文本作為實驗文本集,并將數(shù)據(jù)按照日期存儲,以天為單位。
通過文本分詞技術(shù),將當(dāng)天的文本進(jìn)行分詞,并統(tǒng)計所有詞匯在當(dāng)天出現(xiàn)的頻次。因為統(tǒng)計周期為一年365天,這樣每個詞匯在每一天都對應(yīng)一個頻次值(當(dāng)某個詞匯在某一天沒有出現(xiàn)時,當(dāng)天頻次為0)。
通過統(tǒng)計詞匯的頻次,根據(jù)頻次和文本出現(xiàn)的天數(shù)來計算詞匯的tf-idf值,并將所有詞匯根據(jù)tf-idf(termfrequency–inversedocumentfrequency)值將詞匯排序,將值大的詞匯作為文本關(guān)鍵詞匯。
優(yōu)選地,所述獲取文本并進(jìn)行分詞處理,根據(jù)tf-idf權(quán)重計算方法計算所有詞匯的tf-idf權(quán)重值,并篩選關(guān)鍵詞匯,包括:
獲取預(yù)設(shè)第一時間間隔內(nèi)的特定類型文本作為實驗文本集,并將數(shù)據(jù)按照預(yù)設(shè)第二時間間隔進(jìn)行存儲;
通過文本分詞技術(shù)將所述第二時間間隔內(nèi)的文本進(jìn)行分詞,并統(tǒng)計所有詞匯在所述第二時間間隔內(nèi)出現(xiàn)的頻次;
通過統(tǒng)計每個詞匯的頻次,根據(jù)所述每個詞匯的頻次和所述文本在所述第二時間間隔內(nèi)出現(xiàn)的次數(shù)來計算所述每個詞匯的tf-idf值,并將所有詞匯根據(jù)tf-idf值進(jìn)行詞匯排序,將tf-idf值大的詞匯篩選為關(guān)鍵詞匯。
步驟102,獲取每個關(guān)鍵詞匯對應(yīng)的特征向量,所述特征向量包括頻次向量或者增長率向量,所述頻次向量用于標(biāo)識所述關(guān)鍵詞匯的頻次,所述增長率向量用于標(biāo)識所述關(guān)鍵詞匯的變化率;
優(yōu)選地,所述獲取每個關(guān)鍵詞匯對應(yīng)的頻次向量,包括:
獲取每個關(guān)鍵詞匯在所述第一時間間隔內(nèi)的所有頻次值,將所述頻次值按照向量來表示,并形成了一個多維的向量。
具體的,詞匯的統(tǒng)計周期為365天,這樣每個詞匯就對應(yīng)了365個頻次值,將頻次按照向量來表示,就形成了一個365維的向量,并且所有詞匯的對應(yīng)的向量的維度均一一對應(yīng)。
優(yōu)選地,所述獲取每個關(guān)鍵詞匯對應(yīng)的增長率向量,包括:
獲取每個關(guān)鍵詞匯在所述第一時間間隔內(nèi)的所有頻次值;
根據(jù)所述所有頻次值計算(fi+1-fi)/fi,所述fi為所述頻次向量對應(yīng)第i個頻次值,所述fi+1為所述頻次向量對應(yīng)的第i+1個頻次值;
將計算得到的(fi+1-fi)/fi按照向量來表示,并形成了一個多維的向量。
具體的,利用詞匯的頻次向量可以匹配頻次大小一致的詞匯,但當(dāng)兩個詞匯的變化趨勢相近,但頻次大小不一致時,利用頻次向量很難將其匹配,所以引入增長率向量的概念,將詞匯頻次在原有基礎(chǔ)上加1,防止在計算增長率時出現(xiàn)分母為0的情況,計算公式為:
a=(fi+1-fi)/fi
其中,fi為詞匯頻次向量對應(yīng)第i個頻次值。fi+1為第i+1個頻次值。
步驟103,計算關(guān)鍵詞匯的特征向量之間的向量距離;
具體的,計算向量夾角來衡量詞匯之間的相關(guān)性。其計算公式為:
s值越小,說明兩個詞匯越相關(guān)。
步驟104,若所述向量距離大于預(yù)設(shè)距離閾值,則確定所述向量距離對應(yīng)的關(guān)鍵詞匯具有詞匯相關(guān)性。
具體的,例如在金融領(lǐng)域來篩選關(guān)鍵詞,通過tf-idf權(quán)重計算后,得到權(quán)重較高的三個詞匯“央行降息”,“信托公司”,“大盤跳水”三個詞匯,并且這三個詞匯可以代表三個事件,通過統(tǒng)計365天的頻次,然后再計算向量之間的距離,得到以下數(shù)據(jù):
l(央行降息,信托公司)=0.135397
l(大盤跳水,信托公司)=0.115351
l(央行降息,大盤跳水)=0.253832。
優(yōu)選地,所述方法還包括:
若所述向量距離小于等于所述預(yù)設(shè)距離閾值,則確定所述向量距離對應(yīng)的關(guān)鍵詞匯不具有詞匯相關(guān)性。
本發(fā)明實施例提供的一種計算詞性相關(guān)性的方法,獲取文本并進(jìn)行分詞處理,根據(jù)tf-idf權(quán)重計算方法計算所有詞匯的tf-idf權(quán)重值,并篩選關(guān)鍵詞匯;獲取每個關(guān)鍵詞匯對應(yīng)的特征向量,所述特征向量包括頻次向量或者增長率向量,所述頻次向量用于標(biāo)識所述關(guān)鍵詞匯的頻次,所述增長率向量用于標(biāo)識所述關(guān)鍵詞匯的變化率;計算關(guān)鍵詞匯的特征向量之間的向量距離;若所述向量距離大于預(yù)設(shè)距離閾值,則確定所述向量距離對應(yīng)的關(guān)鍵詞匯具有詞匯相關(guān)性。本發(fā)明需要統(tǒng)計一定時間內(nèi)詞匯出現(xiàn)的頻次,根據(jù)出現(xiàn)的頻次計算出詞匯的增長率向量來計算詞匯之間的相關(guān)性大小。另外,本發(fā)明可以研究某一領(lǐng)域的詞匯相關(guān)性,通過某領(lǐng)域內(nèi)特定的目標(biāo)關(guān)鍵詞來預(yù)測與其相關(guān)詞匯的出現(xiàn),利用該特性可以進(jìn)行事件與事件之間的相互檢索。
參考圖2,圖2是本發(fā)明實施例提供的一種計算詞性相關(guān)性的裝置的功能模塊示意圖。
如圖2所示,所述裝置包括:
第一獲取模塊201,用于獲取文本并進(jìn)行分詞處理,根據(jù)tf-idf權(quán)重計算方法計算所有詞匯的tf-idf權(quán)重值,并篩選關(guān)鍵詞匯;
優(yōu)選地,所述第一獲取模塊201,具體用于:
獲取預(yù)設(shè)第一時間間隔內(nèi)的特定類型文本作為實驗文本集,并將數(shù)據(jù)按照預(yù)設(shè)第二時間間隔進(jìn)行存儲;
通過文本分詞技術(shù)將所述第二時間間隔內(nèi)的文本進(jìn)行分詞,并統(tǒng)計所有詞匯在所述第二時間間隔內(nèi)出現(xiàn)的頻次;
通過統(tǒng)計每個詞匯的頻次,根據(jù)所述每個詞匯的頻次和所述文本在所述第二時間間隔內(nèi)出現(xiàn)的次數(shù)來計算所述每個詞匯的tf-idf值,并將所有詞匯根據(jù)tf-idf值進(jìn)行詞匯排序,將tf-idf值大的詞匯篩選為關(guān)鍵詞匯。
第二獲取模塊202,用于獲取每個關(guān)鍵詞匯對應(yīng)的特征向量,所述特征向量包括頻次向量或者增長率向量,所述頻次向量用于標(biāo)識所述關(guān)鍵詞匯的頻次,所述增長率向量用于標(biāo)識所述關(guān)鍵詞匯的變化率;
優(yōu)選地,所述第二獲取模塊202,具體用于:
獲取每個關(guān)鍵詞匯在所述第一時間間隔內(nèi)的所有頻次值,將所述頻次值按照向量來表示,并形成了一個多維的向量。
優(yōu)選地,所述第二獲取模塊202,還具體用于:
獲取每個關(guān)鍵詞匯在所述第一時間間隔內(nèi)的所有頻次值;
根據(jù)所述所有頻次值計算(fi+1-fi)/fi,所述fi為所述頻次向量對應(yīng)第i個頻次值,所述fi+1為所述頻次向量對應(yīng)的第i+1個頻次值;
將計算得到的(fi+1-fi)/fi按照向量來表示,并形成了一個多維的向量。
計算模塊203,用于計算關(guān)鍵詞匯的特征向量之間的向量距離;
第一確定模塊204,用于若所述向量距離大于預(yù)設(shè)距離閾值,則確定所述向量距離對應(yīng)的關(guān)鍵詞匯具有詞匯相關(guān)性。
優(yōu)選地,所述裝置還包括:
第二確定模塊,用于若所述向量距離小于等于所述預(yù)設(shè)距離閾值,則確定所述向量距離對應(yīng)的關(guān)鍵詞匯不具有詞匯相關(guān)性。
本發(fā)明實施例提供的一種計算詞性相關(guān)性的裝置,獲取文本并進(jìn)行分詞處理,根據(jù)tf-idf權(quán)重計算方法計算所有詞匯的tf-idf權(quán)重值,并篩選關(guān)鍵詞匯;獲取每個關(guān)鍵詞匯對應(yīng)的特征向量,所述特征向量包括頻次向量或者增長率向量,所述頻次向量用于標(biāo)識所述關(guān)鍵詞匯的頻次,所述增長率向量用于標(biāo)識所述關(guān)鍵詞匯的變化率;計算關(guān)鍵詞匯的特征向量之間的向量距離;若所述向量距離大于預(yù)設(shè)距離閾值,則確定所述向量距離對應(yīng)的關(guān)鍵詞匯具有詞匯相關(guān)性。本發(fā)明需要統(tǒng)計一定時間內(nèi)詞匯出現(xiàn)的頻次,根據(jù)出現(xiàn)的頻次計算出詞匯的增長率向量來計算詞匯之間的相關(guān)性大小。另外,本發(fā)明可以研究某一領(lǐng)域的詞匯相關(guān)性,通過某領(lǐng)域內(nèi)特定的目標(biāo)關(guān)鍵詞來預(yù)測與其相關(guān)詞匯的出現(xiàn),利用該特性可以進(jìn)行事件與事件之間的相互檢索。
以上結(jié)合具體實施例描述了本發(fā)明實施例的技術(shù)原理。這些描述只是為了解釋本發(fā)明實施例的原理,而不能以任何方式解釋為對本發(fā)明實施例保護(hù)范圍的限制?;诖颂幍慕忉專绢I(lǐng)域的技術(shù)人員不需要付出創(chuàng)造性的勞動即可聯(lián)想到本發(fā)明實施例的其它具體實施方式,這些方式都將落入本發(fā)明實施例的保護(hù)范圍之內(nèi)。