1.一種基于圖的關(guān)鍵詞抽取方法,其特征在于,包括以下步驟:
對文本信息進行預(yù)處理,所述預(yù)處理包括分詞處理、詞性標注處理和命名實體識別處理;
計算節(jié)點特征,以及計算詞匯的統(tǒng)計關(guān)系和詞匯的語義關(guān)系;所述節(jié)點特征包括:節(jié)點的統(tǒng)計特征、位置特性、詞性特征和實體特征;所述實體特征包括實體類型特征和命名實體鏈接特征;
根據(jù)所述節(jié)點特征計算節(jié)點權(quán)重,以及根據(jù)所述詞匯的統(tǒng)計關(guān)系和詞匯的語義關(guān)系計算邊權(quán)重;
根據(jù)所述節(jié)點權(quán)重和所述邊權(quán)重計算候選詞的分值;
根據(jù)候選詞的分值排序結(jié)果以及文本大小信息確定該文本的關(guān)鍵詞。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,在所述對文本信息進行預(yù)處理步驟之后,以及在所述計算節(jié)點特征步驟之前,還包括去停用詞步驟。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述節(jié)點特征計算節(jié)點權(quán)重步驟包括:
通過公式(3)計算基于TF*IDF的候選詞統(tǒng)計特征:
Feature1(Vi)=TF(Vi)*IDF(Vi) (3)
Feature1(Vi)=TFi,j*IDFi
其中,詞頻(Term Frequency,TF)指的是某一個給定的詞語在該文件中出現(xiàn)的次數(shù),ni,j是詞Vi在文件j中的出現(xiàn)次數(shù),而分母則是在文件j中所有字詞的出現(xiàn)次數(shù)之和。
IDF(Inverse Document Frequency,IDF)是反文檔頻率,|D|是語料庫中文檔的總數(shù),|j:{Vi∈dj}|是包含Vi的文檔數(shù);
通過公式(4)計算候選詞的位置特征:
通過公式(5)計算候選詞的詞性特征:
通過公式(6)計算候選詞的實體類型特征:
通過公式(7)計算候選詞的實體特性:
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述計算詞匯的統(tǒng)計關(guān)系和詞匯的語義關(guān)系步驟包括:
通過公式(8)計算詞匯統(tǒng)計關(guān)系STJ(Vi,Vj):
其中,k為詞Vi和Vj共現(xiàn)的窗口個數(shù),L為窗口大小。
通過公式(9)計算詞匯的語義關(guān)系SYY(Vi,Vj):
其中,βi(1≤i≤4)是可調(diào)節(jié)的參數(shù),且有:β1+β2+β3+β4=1;Sim1(Vi,Vj)為第一獨立義原描述式,即兩個義原的相似度,計算公式如下:
其中,Vi和Vj表示兩個義原,d是Vi和Vj在義原層次體系中的路徑長度,是一個正整數(shù)。α是一個可調(diào)節(jié)的參數(shù);Sim2(Vi,Vj)為其他獨立義原描述式;Sim3(Vi,Vj)為關(guān)系義原描述式;Sim4(Vi,Vj)為符號義原描述式。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,計算節(jié)點權(quán)重步驟包括:
通過公式(11)計算節(jié)點權(quán)重:
其中:Featurei為被打分詞的特征,αki為第k個特征的權(quán)重,即不同的特征對被打分詞的分值計算的貢獻是不同的,F(xiàn)eaturek(Vi)∈[0,1.1]。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)詞匯的統(tǒng)計關(guān)系和詞匯的語義關(guān)系計算邊權(quán)重步驟包括:
通過公式(12)計算邊的權(quán)重:
其中,β決定計算邊權(quán)重時,側(cè)重詞匯統(tǒng)計關(guān)系STJ(Vi,Vj),或者詞匯語義關(guān)系SYY(Vi,Vj),β可以設(shè)定為1、2或者1/2,β=1時則視二者一樣重要。
7.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)節(jié)點權(quán)重和邊權(quán)重計算候選詞的分值步驟包括:
通過公式(13)計算候選詞的分值:
Score(Vi)=(1-d)*Node(Vi)+d*Node(Vi)*Edge(STJ(Vi,Vj),
SYY(Vi,Vj))*Score(Vj)(13)
其中,Node(Vi)是被打分詞的權(quán)重,Edge(STJ(Vi,Vj),SYY(Vi,Vj))是被打分詞和被打分詞之間的邊權(quán)重,它由兩部分構(gòu)成:STJ(Vi,Vj)是Vi與相鄰詞Vj在窗口L中的統(tǒng)計關(guān)系,SYY(Vi,Vj)是Vi與Vj的語義關(guān)系。
8.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)候選詞的分值排序結(jié)果以及文本大小信息確定該文本的關(guān)鍵詞步驟包括,根據(jù)候選詞的分值排序結(jié)果以及文本大小抽取Top N個分值最高的詞作為該文本的關(guān)鍵詞。