一種計算詞性相關(guān)性的方法及裝置與流程

文檔序號：11519606閱讀：213來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

本發(fā)明實施例涉及自然語言處理中詞匯相關(guān)性計算領(lǐng)域，尤其涉及一種計算詞性相關(guān)性的方法及裝置。

背景技術(shù)：

詞匯的相關(guān)性研究是在自然語言處理的一個基本研究課題，相關(guān)性計算水平的提高對文本聚類、語義消歧、語義web、信息檢索等眾多應(yīng)用領(lǐng)域具有重要意義。在傳統(tǒng)的詞語相關(guān)性研究中，大多關(guān)注一對詞匯之間的相關(guān)性；并且大多都存在一個假設(shè)：即相關(guān)的詞匯至少應(yīng)該以“共同出現(xiàn)”為基礎(chǔ)。

在國外，詞匯的相關(guān)性研究起步較早，成果也相對較多。目前較為成熟的相關(guān)性語義詞典有wordnet、framenete、mindnet等。而國內(nèi)漢語方面也有how—net、同義詞詞林等。這些語義詞典從本質(zhì)上是通過研究詞與詞之間的關(guān)系相互映射，并通過大量統(tǒng)計得到。它們均是靠人為統(tǒng)計和計算，從研發(fā)到產(chǎn)品上線大都需要耗費(fèi)一定的人力和資源。

目前被廣泛研究與采用的兩種方法是基于世界知識(ontology)或某種分類體系(taxonomy)的方法和基于統(tǒng)計的上下文向量空間模型方法。由于一些理論上以及運(yùn)行條件的限制，現(xiàn)有的技術(shù)還存在很多問題，難以發(fā)揮理想的效果。例如，在單文本或是單個自然段中，基于上下文統(tǒng)計的詞匯相關(guān)性計算方法比較有說服力，但當(dāng)文本數(shù)據(jù)量大，且討論在一段時間內(nèi)的詞匯相關(guān)性或討論在某一領(lǐng)域內(nèi)(如金融，軍事)的詞匯相關(guān)性時，這種傳統(tǒng)的相關(guān)性計算方法就很難起到作用了。

技術(shù)實現(xiàn)要素：

本發(fā)明實施例的目的在于提出一種計算詞性相關(guān)性的方法及裝置，旨在解決如何在文本數(shù)據(jù)量大的情況下獲取詞性相關(guān)性的問題。

為達(dá)此目的，本發(fā)明實施例采用以下技術(shù)方案：

第一方面，一種計算詞性相關(guān)性的方法，所述方法包括：

獲取文本并進(jìn)行分詞處理，根據(jù)tf-idf權(quán)重計算方法計算所有詞匯的tf-idf權(quán)重值，并篩選關(guān)鍵詞匯；

獲取每個關(guān)鍵詞匯對應(yīng)的特征向量，所述特征向量包括頻次向量或者增長率向量，所述頻次向量用于標(biāo)識所述關(guān)鍵詞匯的頻次，所述增長率向量用于標(biāo)識所述關(guān)鍵詞匯的變化率；

計算關(guān)鍵詞匯的特征向量之間的向量距離；

若所述向量距離大于預(yù)設(shè)距離閾值，則確定所述向量距離對應(yīng)的關(guān)鍵詞匯具有詞匯相關(guān)性。

優(yōu)選地，所述獲取文本并進(jìn)行分詞處理，根據(jù)tf-idf權(quán)重計算方法計算所有詞匯的tf-idf權(quán)重值，并篩選關(guān)鍵詞匯，包括：

獲取預(yù)設(shè)第一時間間隔內(nèi)的特定類型文本作為實驗文本集，并將數(shù)據(jù)按照預(yù)設(shè)第二時間間隔進(jìn)行存儲；

通過文本分詞技術(shù)將所述第二時間間隔內(nèi)的文本進(jìn)行分詞，并統(tǒng)計所有詞匯在所述第二時間間隔內(nèi)出現(xiàn)的頻次；

通過統(tǒng)計每個詞匯的頻次，根據(jù)所述每個詞匯的頻次和所述文本在所述第二時間間隔內(nèi)出現(xiàn)的次數(shù)來計算所述每個詞匯的tf-idf值，并將所有詞匯根據(jù)tf-idf值進(jìn)行詞匯排序，將tf-idf值大的詞匯篩選為關(guān)鍵詞匯。

優(yōu)選地，所述獲取每個關(guān)鍵詞匯對應(yīng)的頻次向量，包括：

獲取每個關(guān)鍵詞匯在所述第一時間間隔內(nèi)的所有頻次值，將所述頻次值按照向量來表示，并形成了一個多維的向量。

優(yōu)選地，所述獲取每個關(guān)鍵詞匯對應(yīng)的增長率向量，包括：

獲取每個關(guān)鍵詞匯在所述第一時間間隔內(nèi)的所有頻次值；

根據(jù)所述所有頻次值計算(fi+1-fi)/fi，所述fi為所述頻次向量對應(yīng)第i個頻次值，所述fi+1為所述頻次向量對應(yīng)的第i+1個頻次值；

將計算得到的(fi+1-fi)/fi按照向量來表示，并形成了一個多維的向量。

優(yōu)選地，所述方法還包括：

若所述向量距離小于等于所述預(yù)設(shè)距離閾值，則確定所述向量距離對應(yīng)的關(guān)鍵詞匯不具有詞匯相關(guān)性。

第二方面，一種計算詞性相關(guān)性的裝置，所述裝置包括：

第一獲取模塊，用于獲取文本并進(jìn)行分詞處理，根據(jù)tf-idf權(quán)重計算方法計算所有詞匯的tf-idf權(quán)重值，并篩選關(guān)鍵詞匯；

第二獲取模塊，用于獲取每個關(guān)鍵詞匯對應(yīng)的特征向量，所述特征向量包括頻次向量或者增長率向量，所述頻次向量用于標(biāo)識所述關(guān)鍵詞匯的頻次，所述增長率向量用于標(biāo)識所述關(guān)鍵詞匯的變化率；

計算模塊，用于計算關(guān)鍵詞匯的特征向量之間的向量距離；

第一確定模塊，用于若所述向量距離大于預(yù)設(shè)距離閾值，則確定所述向量距離對應(yīng)的關(guān)鍵詞匯具有詞匯相關(guān)性。

優(yōu)選地，所述第一獲取模塊，具體用于：

獲取預(yù)設(shè)第一時間間隔內(nèi)的特定類型文本作為實驗文本集，并將數(shù)據(jù)按照預(yù)設(shè)第二時間間隔進(jìn)行存儲；

通過文本分詞技術(shù)將所述第二時間間隔內(nèi)的文本進(jìn)行分詞，并統(tǒng)計所有詞匯在所述第二時間間隔內(nèi)出現(xiàn)的頻次；

優(yōu)選地，所述第二獲取模塊，具體用于：

獲取每個關(guān)鍵詞匯在所述第一時間間隔內(nèi)的所有頻次值，將所述頻次值按照向量來表示，并形成了一個多維的向量。

優(yōu)選地，所述第二獲取模塊，還具體用于：

獲取每個關(guān)鍵詞匯在所述第一時間間隔內(nèi)的所有頻次值；

根據(jù)所述所有頻次值計算(fi+1-fi)/fi，所述fi為所述頻次向量對應(yīng)第i個頻次值，所述fi+1為所述頻次向量對應(yīng)的第i+1個頻次值；

將計算得到的(fi+1-fi)/fi按照向量來表示，并形成了一個多維的向量。

優(yōu)選地，所述裝置還包括：

第二確定模塊，用于若所述向量距離小于等于所述預(yù)設(shè)距離閾值，則確定所述向量距離對應(yīng)的關(guān)鍵詞匯不具有詞匯相關(guān)性。

本發(fā)明實施例提供的一種計算詞性相關(guān)性的方法及裝置，獲取文本并進(jìn)行分詞處理，根據(jù)tf-idf權(quán)重計算方法計算所有詞匯的tf-idf權(quán)重值，并篩選關(guān)鍵詞匯；獲取每個關(guān)鍵詞匯對應(yīng)的特征向量，所述特征向量包括頻次向量或者增長率向量，所述頻次向量用于標(biāo)識所述關(guān)鍵詞匯的頻次，所述增長率向量用于標(biāo)識所述關(guān)鍵詞匯的變化率；計算關(guān)鍵詞匯的特征向量之間的向量距離；若所述向量距離大于預(yù)設(shè)距離閾值，則確定所述向量距離對應(yīng)的關(guān)鍵詞匯具有詞匯相關(guān)性。本發(fā)明需要統(tǒng)計一定時間內(nèi)詞匯出現(xiàn)的頻次，根據(jù)出現(xiàn)的頻次計算出詞匯的增長率向量來計算詞匯之間的相關(guān)性大小。另外，本發(fā)明可以研究某一領(lǐng)域的詞匯相關(guān)性，通過某領(lǐng)域內(nèi)特定的目標(biāo)關(guān)鍵詞來預(yù)測與其相關(guān)詞匯的出現(xiàn)，利用該特性可以進(jìn)行事件與事件之間的相互檢索。

附圖說明

圖1是本發(fā)明實施例提供的一種計算詞性相關(guān)性的方法的流程示意圖；

圖2是本發(fā)明實施例提供的一種計算詞性相關(guān)性的裝置的功能模塊示意圖。

具體實施方式

下面結(jié)合附圖和實施例對本發(fā)明實施例作進(jìn)一步的詳細(xì)說明?？梢岳斫獾氖?，此處所描述的具體實施例僅僅用于解釋本發(fā)明實施例，而非對本發(fā)明實施例的限定。另外還需要說明的是，為了便于描述，附圖中僅示出了與本發(fā)明實施例相關(guān)的部分而非全部結(jié)構(gòu)。

參考圖1，圖1是本發(fā)明實施例提供的一種計算詞性相關(guān)性的方法的流程示意圖。

如圖1所示，所述計算詞性相關(guān)性的方法包括：

步驟101，獲取文本并進(jìn)行分詞處理，根據(jù)tf-idf權(quán)重計算方法計算所有詞匯的tf-idf權(quán)重值，并篩選關(guān)鍵詞匯；

具體的，本發(fā)明采取網(wǎng)絡(luò)爬蟲獲取2015年金融領(lǐng)域新聞文本作為實驗文本集，并將數(shù)據(jù)按照日期存儲，以天為單位。

通過文本分詞技術(shù)，將當(dāng)天的文本進(jìn)行分詞，并統(tǒng)計所有詞匯在當(dāng)天出現(xiàn)的頻次。因為統(tǒng)計周期為一年365天，這樣每個詞匯在每一天都對應(yīng)一個頻次值(當(dāng)某個詞匯在某一天沒有出現(xiàn)時，當(dāng)天頻次為0)。

通過統(tǒng)計詞匯的頻次，根據(jù)頻次和文本出現(xiàn)的天數(shù)來計算詞匯的tf-idf值，并將所有詞匯根據(jù)tf-idf(termfrequency–inversedocumentfrequency)值將詞匯排序，將值大的詞匯作為文本關(guān)鍵詞匯。

優(yōu)選地，所述獲取文本并進(jìn)行分詞處理，根據(jù)tf-idf權(quán)重計算方法計算所有詞匯的tf-idf權(quán)重值，并篩選關(guān)鍵詞匯，包括：

獲取預(yù)設(shè)第一時間間隔內(nèi)的特定類型文本作為實驗文本集，并將數(shù)據(jù)按照預(yù)設(shè)第二時間間隔進(jìn)行存儲；

通過文本分詞技術(shù)將所述第二時間間隔內(nèi)的文本進(jìn)行分詞，并統(tǒng)計所有詞匯在所述第二時間間隔內(nèi)出現(xiàn)的頻次；

步驟102，獲取每個關(guān)鍵詞匯對應(yīng)的特征向量，所述特征向量包括頻次向量或者增長率向量，所述頻次向量用于標(biāo)識所述關(guān)鍵詞匯的頻次，所述增長率向量用于標(biāo)識所述關(guān)鍵詞匯的變化率；

優(yōu)選地，所述獲取每個關(guān)鍵詞匯對應(yīng)的頻次向量，包括：

獲取每個關(guān)鍵詞匯在所述第一時間間隔內(nèi)的所有頻次值，將所述頻次值按照向量來表示，并形成了一個多維的向量。

具體的，詞匯的統(tǒng)計周期為365天，這樣每個詞匯就對應(yīng)了365個頻次值，將頻次按照向量來表示，就形成了一個365維的向量，并且所有詞匯的對應(yīng)的向量的維度均一一對應(yīng)。

優(yōu)選地，所述獲取每個關(guān)鍵詞匯對應(yīng)的增長率向量，包括：

獲取每個關(guān)鍵詞匯在所述第一時間間隔內(nèi)的所有頻次值；

根據(jù)所述所有頻次值計算(fi+1-fi)/fi，所述fi為所述頻次向量對應(yīng)第i個頻次值，所述fi+1為所述頻次向量對應(yīng)的第i+1個頻次值；

將計算得到的(fi+1-fi)/fi按照向量來表示，并形成了一個多維的向量。

具體的，利用詞匯的頻次向量可以匹配頻次大小一致的詞匯，但當(dāng)兩個詞匯的變化趨勢相近，但頻次大小不一致時，利用頻次向量很難將其匹配，所以引入增長率向量的概念，將詞匯頻次在原有基礎(chǔ)上加1，防止在計算增長率時出現(xiàn)分母為0的情況，計算公式為：

a＝(fi+1-fi)/fi

其中，fi為詞匯頻次向量對應(yīng)第i個頻次值。fi+1為第i+1個頻次值。

步驟103，計算關(guān)鍵詞匯的特征向量之間的向量距離；

具體的，計算向量夾角來衡量詞匯之間的相關(guān)性。其計算公式為：

s值越小，說明兩個詞匯越相關(guān)。

步驟104，若所述向量距離大于預(yù)設(shè)距離閾值，則確定所述向量距離對應(yīng)的關(guān)鍵詞匯具有詞匯相關(guān)性。

具體的，例如在金融領(lǐng)域來篩選關(guān)鍵詞，通過tf-idf權(quán)重計算后，得到權(quán)重較高的三個詞匯“央行降息”，“信托公司”，“大盤跳水”三個詞匯，并且這三個詞匯可以代表三個事件，通過統(tǒng)計365天的頻次，然后再計算向量之間的距離，得到以下數(shù)據(jù)：

l(央行降息，信托公司)＝0.135397

l(大盤跳水，信托公司)＝0.115351

l(央行降息，大盤跳水)＝0.253832。

優(yōu)選地，所述方法還包括：

若所述向量距離小于等于所述預(yù)設(shè)距離閾值，則確定所述向量距離對應(yīng)的關(guān)鍵詞匯不具有詞匯相關(guān)性。

本發(fā)明實施例提供的一種計算詞性相關(guān)性的方法，獲取文本并進(jìn)行分詞處理，根據(jù)tf-idf權(quán)重計算方法計算所有詞匯的tf-idf權(quán)重值，并篩選關(guān)鍵詞匯；獲取每個關(guān)鍵詞匯對應(yīng)的特征向量，所述特征向量包括頻次向量或者增長率向量，所述頻次向量用于標(biāo)識所述關(guān)鍵詞匯的頻次，所述增長率向量用于標(biāo)識所述關(guān)鍵詞匯的變化率；計算關(guān)鍵詞匯的特征向量之間的向量距離；若所述向量距離大于預(yù)設(shè)距離閾值，則確定所述向量距離對應(yīng)的關(guān)鍵詞匯具有詞匯相關(guān)性。本發(fā)明需要統(tǒng)計一定時間內(nèi)詞匯出現(xiàn)的頻次，根據(jù)出現(xiàn)的頻次計算出詞匯的增長率向量來計算詞匯之間的相關(guān)性大小。另外，本發(fā)明可以研究某一領(lǐng)域的詞匯相關(guān)性，通過某領(lǐng)域內(nèi)特定的目標(biāo)關(guān)鍵詞來預(yù)測與其相關(guān)詞匯的出現(xiàn)，利用該特性可以進(jìn)行事件與事件之間的相互檢索。

參考圖2，圖2是本發(fā)明實施例提供的一種計算詞性相關(guān)性的裝置的功能模塊示意圖。

如圖2所示，所述裝置包括：

第一獲取模塊201，用于獲取文本并進(jìn)行分詞處理，根據(jù)tf-idf權(quán)重計算方法計算所有詞匯的tf-idf權(quán)重值，并篩選關(guān)鍵詞匯；

優(yōu)選地，所述第一獲取模塊201，具體用于：

獲取預(yù)設(shè)第一時間間隔內(nèi)的特定類型文本作為實驗文本集，并將數(shù)據(jù)按照預(yù)設(shè)第二時間間隔進(jìn)行存儲；

通過文本分詞技術(shù)將所述第二時間間隔內(nèi)的文本進(jìn)行分詞，并統(tǒng)計所有詞匯在所述第二時間間隔內(nèi)出現(xiàn)的頻次；

第二獲取模塊202，用于獲取每個關(guān)鍵詞匯對應(yīng)的特征向量，所述特征向量包括頻次向量或者增長率向量，所述頻次向量用于標(biāo)識所述關(guān)鍵詞匯的頻次，所述增長率向量用于標(biāo)識所述關(guān)鍵詞匯的變化率；

優(yōu)選地，所述第二獲取模塊202，具體用于：

獲取每個關(guān)鍵詞匯在所述第一時間間隔內(nèi)的所有頻次值，將所述頻次值按照向量來表示，并形成了一個多維的向量。

優(yōu)選地，所述第二獲取模塊202，還具體用于：

獲取每個關(guān)鍵詞匯在所述第一時間間隔內(nèi)的所有頻次值；

根據(jù)所述所有頻次值計算(fi+1-fi)/fi，所述fi為所述頻次向量對應(yīng)第i個頻次值，所述fi+1為所述頻次向量對應(yīng)的第i+1個頻次值；

將計算得到的(fi+1-fi)/fi按照向量來表示，并形成了一個多維的向量。

計算模塊203，用于計算關(guān)鍵詞匯的特征向量之間的向量距離；

第一確定模塊204，用于若所述向量距離大于預(yù)設(shè)距離閾值，則確定所述向量距離對應(yīng)的關(guān)鍵詞匯具有詞匯相關(guān)性。

優(yōu)選地，所述裝置還包括：

第二確定模塊，用于若所述向量距離小于等于所述預(yù)設(shè)距離閾值，則確定所述向量距離對應(yīng)的關(guān)鍵詞匯不具有詞匯相關(guān)性。

本發(fā)明實施例提供的一種計算詞性相關(guān)性的裝置，獲取文本并進(jìn)行分詞處理，根據(jù)tf-idf權(quán)重計算方法計算所有詞匯的tf-idf權(quán)重值，并篩選關(guān)鍵詞匯；獲取每個關(guān)鍵詞匯對應(yīng)的特征向量，所述特征向量包括頻次向量或者增長率向量，所述頻次向量用于標(biāo)識所述關(guān)鍵詞匯的頻次，所述增長率向量用于標(biāo)識所述關(guān)鍵詞匯的變化率；計算關(guān)鍵詞匯的特征向量之間的向量距離；若所述向量距離大于預(yù)設(shè)距離閾值，則確定所述向量距離對應(yīng)的關(guān)鍵詞匯具有詞匯相關(guān)性。本發(fā)明需要統(tǒng)計一定時間內(nèi)詞匯出現(xiàn)的頻次，根據(jù)出現(xiàn)的頻次計算出詞匯的增長率向量來計算詞匯之間的相關(guān)性大小。另外，本發(fā)明可以研究某一領(lǐng)域的詞匯相關(guān)性，通過某領(lǐng)域內(nèi)特定的目標(biāo)關(guān)鍵詞來預(yù)測與其相關(guān)詞匯的出現(xiàn)，利用該特性可以進(jìn)行事件與事件之間的相互檢索。

以上結(jié)合具體實施例描述了本發(fā)明實施例的技術(shù)原理。這些描述只是為了解釋本發(fā)明實施例的原理，而不能以任何方式解釋為對本發(fā)明實施例保護(hù)范圍的限制?；诖颂幍慕忉專绢I(lǐng)域的技術(shù)人員不需要付出創(chuàng)造性的勞動即可聯(lián)想到本發(fā)明實施例的其它具體實施方式，這些方式都將落入本發(fā)明實施例的保護(hù)范圍之內(nèi)。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：李強(qiáng);劉鵬
技術(shù)所有人：北京銳安科技有限公司
我是此專利的發(fā)明人

上一篇：用于濕法蝕刻嵌段共聚物自組裝圖案的方法與流程
上一篇：豎排文本的輸入控制方法及系統(tǒng)與流程

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動力學(xué)與控制
3、袁老師：1.計算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計算機(jī)網(wǎng)絡(luò)安全 2.計算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點(diǎn)贊！

精彩留言，會給你點(diǎn)贊！

相關(guān)性計算方法相關(guān)技術(shù)

相關(guān)性計算相關(guān)技術(shù)

計算兩幅圖像的相關(guān)性相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種計算詞性相關(guān)性的方法及裝置與流程