一種基于圖的關(guān)鍵詞抽取方法與流程

文檔序號：11950220閱讀：來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計算;推算;計數(shù)設(shè)備的制造及其應(yīng)用技術(shù)>一種基于圖的關(guān)鍵詞抽取方法與流程

技術(shù)特征：

1.一種基于圖的關(guān)鍵詞抽取方法，其特征在于，包括以下步驟：

對文本信息進行預(yù)處理，所述預(yù)處理包括分詞處理、詞性標注處理和命名實體識別處理；

計算節(jié)點特征，以及計算詞匯的統(tǒng)計關(guān)系和詞匯的語義關(guān)系；所述節(jié)點特征包括：節(jié)點的統(tǒng)計特征、位置特性、詞性特征和實體特征；所述實體特征包括實體類型特征和命名實體鏈接特征；

根據(jù)所述節(jié)點特征計算節(jié)點權(quán)重，以及根據(jù)所述詞匯的統(tǒng)計關(guān)系和詞匯的語義關(guān)系計算邊權(quán)重；

根據(jù)所述節(jié)點權(quán)重和所述邊權(quán)重計算候選詞的分值；

根據(jù)候選詞的分值排序結(jié)果以及文本大小信息確定該文本的關(guān)鍵詞。

2.根據(jù)權(quán)利要求1所述的方法，其特征在于，在所述對文本信息進行預(yù)處理步驟之后，以及在所述計算節(jié)點特征步驟之前，還包括去停用詞步驟。

3.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)所述節(jié)點特征計算節(jié)點權(quán)重步驟包括：

通過公式(3)計算基于TF*IDF的候選詞統(tǒng)計特征:

Feature₁(V_i)＝TF(V_i)*IDF(V_i) (3)

Feature₁(V_i)＝TF_i,j*IDF_i

其中，詞頻(Term Frequency,TF)指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù)，n_i,j是詞V_i在文件j中的出現(xiàn)次數(shù)，而分母則是在文件j中所有字詞的出現(xiàn)次數(shù)之和。

IDF(Inverse Document Frequency，IDF)是反文檔頻率，|D|是語料庫中文檔的總數(shù)，|j:{V_i∈d_j}|是包含V_i的文檔數(shù)；

通過公式(4)計算候選詞的位置特征：

通過公式(5)計算候選詞的詞性特征：

通過公式(6)計算候選詞的實體類型特征：

通過公式(7)計算候選詞的實體特性:

4.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述計算詞匯的統(tǒng)計關(guān)系和詞匯的語義關(guān)系步驟包括：

通過公式(8)計算詞匯統(tǒng)計關(guān)系S_TJ(V_i,V_j)：

$<mrow> <msub> <mi>S</mi> <mi>TJ</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>n</mi> <mi>L</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>k</mi> <mo>×</mo> <mrow> <mo>(</mo> <mi>L</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>$

其中，k為詞V_i和V_j共現(xiàn)的窗口個數(shù)，L為窗口大小。

通過公式(9)計算詞匯的語義關(guān)系S_YY(V_i,V_j)：

$<mrow> <msub> <mi>S</mi> <mi>YY</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>Σ</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>4</mn> </munderover> <msub> <mi>β</mi> <mi>i</mi> </msub> <munderover> <mi>Π</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>Sim</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>$

其中，β_i(1≤i≤4)是可調(diào)節(jié)的參數(shù)，且有：β₁+β₂+β₃+β₄＝1；Sim₁(V_i，V_j)為第一獨立義原描述式，即兩個義原的相似度，計算公式如下：

$<mrow> <msub> <mi>Sim</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mi>α</mi> <mrow> <mi>d</mi> <mo>+</mo> <mi>α</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>$

其中，V_i和V_j表示兩個義原，d是V_i和V_j在義原層次體系中的路徑長度，是一個正整數(shù)。α是一個可調(diào)節(jié)的參數(shù)；Sim₂(V_i,V_j)為其他獨立義原描述式；Sim₃(V_i,V_j)為關(guān)系義原描述式；Sim₄(V_i,V_j)為符號義原描述式。

5.根據(jù)權(quán)利要求1所述的方法，其特征在于，計算節(jié)點權(quán)重步驟包括：

通過公式(11)計算節(jié)點權(quán)重：

$<mrow> <mi>N</mi> <mi>o</mi> <mi>d</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mi>Σ</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>α</mi> <mi>k</mi> </msub> <msub> <mi>Feature</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>$

其中：Feature_i為被打分詞的特征，α_ki為第k個特征的權(quán)重，即不同的特征對被打分詞的分值計算的貢獻是不同的，F(xiàn)eature_k(V_i)∈[0，1.1]。

6.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)詞匯的統(tǒng)計關(guān)系和詞匯的語義關(guān)系計算邊權(quán)重步驟包括：

通過公式(12)計算邊的權(quán)重：

$<mrow> <mi>E</mi> <mi>d</mi> <mi>g</mi> <mi>e</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>S</mi> <mrow> <mi>T</mi> <mi>J</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>,</mo> <msub> <mi>S</mi> <mrow> <mi>Y</mi> <mi>Y</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mrow> <mo>(</mo> <mrow> <msup> <mi>β</mi> <mn>2</mn> </msup> <mo>+</mo> <mn>1</mn> </mrow> <mo>)</mo> </mrow> <mo>*</mo> <msub> <mi>S</mi> <mrow> <mi>T</mi> <mi>J</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>*</mo> <msub> <mi>S</mi> <mrow> <mi>Y</mi> <mi>Y</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <msup> <mi>β</mi> <mn>2</mn> </msup> <msub> <mi>S</mi> <mrow> <mi>T</mi> <mi>J</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>S</mi> <mrow> <mi>Y</mi> <mi>Y</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>$

其中，β決定計算邊權(quán)重時，側(cè)重詞匯統(tǒng)計關(guān)系S_TJ(V_i,V_j)，或者詞匯語義關(guān)系S_YY(V_i,V_j)，β可以設(shè)定為1、2或者1/2，β＝1時則視二者一樣重要。

7.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)節(jié)點權(quán)重和邊權(quán)重計算候選詞的分值步驟包括：

通過公式(13)計算候選詞的分值:

Score(V_i)＝(1-d)*Node(V_i)+d*Node(V_i)*Edge(S_TJ(V_i,V_j),

S_YY(V_i,V_j))*Score(V_j)(13)

其中，Node(V_i)是被打分詞的權(quán)重，Edge(S_TJ(V_i,V_j),S_YY(V_i,V_j))是被打分詞和被打分詞之間的邊權(quán)重，它由兩部分構(gòu)成：S_TJ(V_i,V_j)是V_i與相鄰詞V_j在窗口L中的統(tǒng)計關(guān)系，S_YY(V_i,V_j)是V_i與V_j的語義關(guān)系。

8.根據(jù)權(quán)利要求1所述的方法，其特征在于，所述根據(jù)候選詞的分值排序結(jié)果以及文本大小信息確定該文本的關(guān)鍵詞步驟包括，根據(jù)候選詞的分值排序結(jié)果以及文本大小抽取Top N個分值最高的詞作為該文本的關(guān)鍵詞。

完整全部詳細技術(shù)資料下載

當前第2頁1 2 3

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

關(guān)鍵詞優(yōu)化方法相關(guān)技術(shù)

關(guān)鍵詞抽取的方法相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于圖的關(guān)鍵詞抽取方法與流程