亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于圖的關(guān)鍵詞抽取方法與流程

文檔序號:11950220閱讀:來源:國知局

技術(shù)特征:

1.一種基于圖的關(guān)鍵詞抽取方法,其特征在于,包括以下步驟:

對文本信息進行預(yù)處理,所述預(yù)處理包括分詞處理、詞性標注處理和命名實體識別處理;

計算節(jié)點特征,以及計算詞匯的統(tǒng)計關(guān)系和詞匯的語義關(guān)系;所述節(jié)點特征包括:節(jié)點的統(tǒng)計特征、位置特性、詞性特征和實體特征;所述實體特征包括實體類型特征和命名實體鏈接特征;

根據(jù)所述節(jié)點特征計算節(jié)點權(quán)重,以及根據(jù)所述詞匯的統(tǒng)計關(guān)系和詞匯的語義關(guān)系計算邊權(quán)重;

根據(jù)所述節(jié)點權(quán)重和所述邊權(quán)重計算候選詞的分值;

根據(jù)候選詞的分值排序結(jié)果以及文本大小信息確定該文本的關(guān)鍵詞。

2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述對文本信息進行預(yù)處理步驟之后,以及在所述計算節(jié)點特征步驟之前,還包括去停用詞步驟。

3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述節(jié)點特征計算節(jié)點權(quán)重步驟包括:

通過公式(3)計算基于TF*IDF的候選詞統(tǒng)計特征:

Feature1(Vi)=TF(Vi)*IDF(Vi) (3)

Feature1(Vi)=TFi,j*IDFi

其中,詞頻(Term Frequency,TF)指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù),ni,j是詞Vi在文件j中的出現(xiàn)次數(shù),而分母則是在文件j中所有字詞的出現(xiàn)次數(shù)之和。

IDF(Inverse Document Frequency,IDF)是反文檔頻率,|D|是語料庫中文檔的總數(shù),|j:{Vi∈dj}|是包含Vi的文檔數(shù);

通過公式(4)計算候選詞的位置特征:

通過公式(5)計算候選詞的詞性特征:

通過公式(6)計算候選詞的實體類型特征:

通過公式(7)計算候選詞的實體特性:

4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計算詞匯的統(tǒng)計關(guān)系和詞匯的語義關(guān)系步驟包括:

通過公式(8)計算詞匯統(tǒng)計關(guān)系STJ(Vi,Vj):

<mrow> <msub> <mi>S</mi> <mi>TJ</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <msub> <mi>n</mi> <mi>L</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> </mrow> <mrow> <mi>k</mi> <mo>&times;</mo> <mrow> <mo>(</mo> <mi>L</mi> <mo>-</mo> <mn>1</mn> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>8</mn> <mo>)</mo> </mrow> </mrow>

其中,k為詞Vi和Vj共現(xiàn)的窗口個數(shù),L為窗口大小。

通過公式(9)計算詞匯的語義關(guān)系SYY(Vi,Vj):

<mrow> <msub> <mi>S</mi> <mi>YY</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <munderover> <mi>&Sigma;</mi> <mrow> <mi>n</mi> <mo>=</mo> <mn>1</mn> </mrow> <mn>4</mn> </munderover> <msub> <mi>&beta;</mi> <mi>i</mi> </msub> <munderover> <mi>&Pi;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </munderover> <msub> <mi>Sim</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>9</mn> <mo>)</mo> </mrow> </mrow>

其中,βi(1≤i≤4)是可調(diào)節(jié)的參數(shù),且有:β1234=1;Sim1(Vi,Vj)為第一獨立義原描述式,即兩個義原的相似度,計算公式如下:

<mrow> <msub> <mi>Sim</mi> <mn>1</mn> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mi>&alpha;</mi> <mrow> <mi>d</mi> <mo>+</mo> <mi>&alpha;</mi> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>10</mn> <mo>)</mo> </mrow> </mrow>

其中,Vi和Vj表示兩個義原,d是Vi和Vj在義原層次體系中的路徑長度,是一個正整數(shù)。α是一個可調(diào)節(jié)的參數(shù);Sim2(Vi,Vj)為其他獨立義原描述式;Sim3(Vi,Vj)為關(guān)系義原描述式;Sim4(Vi,Vj)為符號義原描述式。

5.根據(jù)權(quán)利要求1所述的方法,其特征在于,計算節(jié)點權(quán)重步驟包括:

通過公式(11)計算節(jié)點權(quán)重:

<mrow> <mi>N</mi> <mi>o</mi> <mi>d</mi> <mi>e</mi> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mn>1</mn> <mi>n</mi> </mfrac> <msubsup> <mi>&Sigma;</mi> <mrow> <mi>k</mi> <mo>=</mo> <mn>1</mn> </mrow> <mi>n</mi> </msubsup> <msub> <mi>&alpha;</mi> <mi>k</mi> </msub> <msub> <mi>Feature</mi> <mi>k</mi> </msub> <mrow> <mo>(</mo> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>)</mo> </mrow> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>11</mn> <mo>)</mo> </mrow> </mrow>

其中:Featurei為被打分詞的特征,αki為第k個特征的權(quán)重,即不同的特征對被打分詞的分值計算的貢獻是不同的,F(xiàn)eaturek(Vi)∈[0,1.1]。

6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)詞匯的統(tǒng)計關(guān)系和詞匯的語義關(guān)系計算邊權(quán)重步驟包括:

通過公式(12)計算邊的權(quán)重:

<mrow> <mi>E</mi> <mi>d</mi> <mi>g</mi> <mi>e</mi> <mrow> <mo>(</mo> <mrow> <msub> <mi>S</mi> <mrow> <mi>T</mi> <mi>J</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>,</mo> <msub> <mi>S</mi> <mrow> <mi>Y</mi> <mi>Y</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mo>)</mo> </mrow> <mo>=</mo> <mfrac> <mrow> <mrow> <mo>(</mo> <mrow> <msup> <mi>&beta;</mi> <mn>2</mn> </msup> <mo>+</mo> <mn>1</mn> </mrow> <mo>)</mo> </mrow> <mo>*</mo> <msub> <mi>S</mi> <mrow> <mi>T</mi> <mi>J</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>*</mo> <msub> <mi>S</mi> <mrow> <mi>Y</mi> <mi>Y</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> <mrow> <msup> <mi>&beta;</mi> <mn>2</mn> </msup> <msub> <mi>S</mi> <mrow> <mi>T</mi> <mi>J</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> <mo>+</mo> <msub> <mi>S</mi> <mrow> <mi>Y</mi> <mi>Y</mi> </mrow> </msub> <mrow> <mo>(</mo> <mrow> <msub> <mi>V</mi> <mi>i</mi> </msub> <mo>,</mo> <msub> <mi>V</mi> <mi>j</mi> </msub> </mrow> <mo>)</mo> </mrow> </mrow> </mfrac> <mo>-</mo> <mo>-</mo> <mo>-</mo> <mrow> <mo>(</mo> <mn>12</mn> <mo>)</mo> </mrow> </mrow>

其中,β決定計算邊權(quán)重時,側(cè)重詞匯統(tǒng)計關(guān)系STJ(Vi,Vj),或者詞匯語義關(guān)系SYY(Vi,Vj),β可以設(shè)定為1、2或者1/2,β=1時則視二者一樣重要。

7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)節(jié)點權(quán)重和邊權(quán)重計算候選詞的分值步驟包括:

通過公式(13)計算候選詞的分值:

Score(Vi)=(1-d)*Node(Vi)+d*Node(Vi)*Edge(STJ(Vi,Vj),

SYY(Vi,Vj))*Score(Vj)(13)

其中,Node(Vi)是被打分詞的權(quán)重,Edge(STJ(Vi,Vj),SYY(Vi,Vj))是被打分詞和被打分詞之間的邊權(quán)重,它由兩部分構(gòu)成:STJ(Vi,Vj)是Vi與相鄰詞Vj在窗口L中的統(tǒng)計關(guān)系,SYY(Vi,Vj)是Vi與Vj的語義關(guān)系。

8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)候選詞的分值排序結(jié)果以及文本大小信息確定該文本的關(guān)鍵詞步驟包括,根據(jù)候選詞的分值排序結(jié)果以及文本大小抽取Top N個分值最高的詞作為該文本的關(guān)鍵詞。

當前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1