專利名稱:一種文本的候選關(guān)鍵詞的提取方法
技術(shù)領(lǐng)域:
本發(fā)明涉及文本檢索技術(shù)領(lǐng)域,尤其涉及一種文本的候選關(guān)鍵詞的提取方法。
背景技術(shù):
隨著信息社會(huì)的發(fā)展,人們面對(duì)的是海量的信息源,其中ー種重要的信息源就是文本信息。如何在浩如煙海的文本信息中,獲取自己需要的文本,是人們工作學(xué)習(xí)的首要問題。目前多是對(duì)每ー個(gè)文本給出相關(guān)的關(guān)鍵詞,人們通過關(guān)鍵詞的檢索來獲取自己需要的文本。如何給每個(gè)文本給出合適的關(guān)鍵詞,是提高文本查全率和查準(zhǔn)率的重要環(huán)節(jié)。在利用計(jì)算機(jī)標(biāo)引文本吋,目前都是采用文本自身的詞匯作為關(guān)鍵詞抽取出來,具體步驟如下
I、對(duì)預(yù)處理的文本進(jìn)行詞法分析。例如,預(yù)處理文本為“據(jù)悉2008年北京奧運(yùn)會(huì)將于8月8日開幕?!?br>
詞法分析之后的結(jié)果就是據(jù)悉/V 2008年/m北京/ns奧運(yùn)會(huì)/n將/d于/p 8月/t 8 日 /t 開幕 /v。/wj。2、提取候選關(guān)鍵詞
根據(jù)詞性和詞形等約束,來提取候選關(guān)鍵詞,并記錄用于計(jì)算權(quán)重的信息,比如候選關(guān)鍵詞出現(xiàn)的位置信息。如上例,如果存在約束I :詞性要求是名詞(η)、動(dòng)詞(V)和命名實(shí)體(nr, ns, nt,nz);約束2:要求詞語不能是停用詞。則根據(jù)約束1,可提取“據(jù)悉/V、北京/ns、奧運(yùn)會(huì)/η、開幕/V”等詞;
根據(jù)約束2,可刪除“據(jù)悉/V”,(本處假設(shè)“據(jù)悉”為停用詞)。3、統(tǒng)計(jì)候選關(guān)鍵詞信息并計(jì)算權(quán)重。統(tǒng)計(jì)第2步處理的結(jié)果,根據(jù)相關(guān)信息進(jìn)行計(jì)算權(quán)重。相關(guān)信息一般指詞性、詞形、詞位、詞長等元素,帶入一定的公式中計(jì)算。4、選擇關(guān)鍵詞。將第3步的處理結(jié)果進(jìn)行降序排列,根據(jù)一定的選擇策略來選擇關(guān)鍵詞。比較簡單的選擇策略為提取排完序的候選關(guān)鍵詞序列的前幾個(gè)詞語作為關(guān)鍵詞。以上技術(shù)方案存在的問題是獲得的關(guān)鍵詞都是含義簡單的單詞,通用性較強(qiáng),難以深入地反映文本的真實(shí)意義,因此檢索出來的文本針對(duì)性不夠,準(zhǔn)確性不高。
發(fā)明內(nèi)容
本發(fā)明的目的在于提出一種文本的候選關(guān)鍵詞的提取方法,能夠提高文本的標(biāo)引質(zhì)量,從而提高文本檢索的查準(zhǔn)率。為達(dá)此目的,本發(fā)明采用以下技術(shù)方案
一種文本的候選關(guān)鍵詞的提取方法,包括以下步驟
Α、給每個(gè)自然詞確定對(duì)應(yīng)的詞項(xiàng),并將自然詞和與其對(duì)應(yīng)的詞項(xiàng)存儲(chǔ)到自然詞數(shù)據(jù)庫
中;B、設(shè)置不少于I個(gè)候選關(guān)鍵詞模板,存入模板庫,每個(gè)候選關(guān)鍵詞模板包括I個(gè)模板項(xiàng)序列,每個(gè)模板項(xiàng)序列包括上文約束項(xiàng)、當(dāng)前文約束項(xiàng)序列和下文約束項(xiàng),當(dāng)前文約束項(xiàng)序列包括不少于2個(gè)約束項(xiàng),每個(gè)約束項(xiàng)包括ー個(gè)自然詞字段和一個(gè)預(yù)定的詞項(xiàng);
C、根據(jù)自然詞數(shù)據(jù)庫對(duì)文本進(jìn)行詞法分析,獲得文本每個(gè)自然詞及其對(duì)應(yīng)的詞項(xiàng);
D、從模板庫中按順序抽取I個(gè)候選關(guān)鍵詞模板;
E、按照所述文本的自然詞的順序,將所述候選關(guān)鍵詞模板與所述文本全部自然詞逐個(gè)進(jìn)行比對(duì),如果連續(xù)的自然詞都滿足所述候選關(guān)鍵詞模板中的約束項(xiàng)的詞項(xiàng)要求,則將所述連續(xù)的自然詞中對(duì)應(yīng)所述候選關(guān)鍵詞模板中的模板項(xiàng)序列的當(dāng)前文約束項(xiàng)序列的自然詞組合作為所述文本的候選關(guān)鍵詞;
F、返回步驟D,直到所有的候選關(guān)鍵詞模板完成比對(duì)。所述候選關(guān)鍵詞模板還包括模板項(xiàng)序列的權(quán)值。 采用了本發(fā)明的技術(shù)方案,由于采用結(jié)構(gòu)合理的、字?jǐn)?shù)較多的短句作為文本的關(guān)鍵詞,因此該關(guān)鍵詞能夠更專一的標(biāo)引文本,從而利用該關(guān)鍵詞進(jìn)行文本檢索時(shí),能夠準(zhǔn)確地檢索到需要的文本。
圖I是本發(fā)明具體實(shí)施方式
中文本的候選關(guān)鍵詞的提取流程圖。
具體實(shí)施例方式下面結(jié)合附圖并通過具體實(shí)施方式
來進(jìn)ー步說明本發(fā)明的技術(shù)方案。圖I是本發(fā)明具體實(shí)施方式
中文本的候選關(guān)鍵詞的提取流程圖。如圖I所示,該候選關(guān)鍵詞的提取流程包括以下步驟
步驟101、給每個(gè)自然詞確定對(duì)應(yīng)的詞項(xiàng),并將自然詞和與其對(duì)應(yīng)的詞項(xiàng)存儲(chǔ)到自然詞數(shù)據(jù)庫中。例如“據(jù)悉/v 2008年/m北京/ns奧運(yùn)會(huì)/n將/d于/p 8月/t 8日/t開幕/V。/wj”中,各個(gè)自然詞后面跟隨的字母就代表某個(gè)詞項(xiàng),這里的詞項(xiàng)可以是詞性、詞形、命名實(shí)體、語義,等等。步驟102、設(shè)置多個(gè)候選關(guān)鍵詞模板,存入模板庫,每個(gè)候選關(guān)鍵詞模板包括I個(gè)模板項(xiàng)序列及其權(quán)值,每個(gè)模板項(xiàng)序列包括上文約束項(xiàng)、當(dāng)前文約束項(xiàng)序列和下文約束項(xiàng),當(dāng)前文約束項(xiàng)序列包括多個(gè)約束項(xiàng),每個(gè)約束項(xiàng)包括ー個(gè)自然詞字段和一個(gè)預(yù)定的詞項(xiàng)。例如,模板“(*,m) ( *,ns)(奧運(yùn)會(huì),*) ( *,d) :0· 1”,模板項(xiàng)序列為“(*,m) ( *,ns)(奧運(yùn)會(huì),* ) ( *,d) ”,其中(*,ns)是詞性約束,(奧運(yùn)會(huì),女)是詞形約束,模板權(quán)重為“O. I”。其中模板項(xiàng)序列由關(guān)鍵詞的上文約束項(xiàng)、當(dāng)前文約束項(xiàng)序列和下文約束項(xiàng)組成,還以上面大模板為例,上文約束項(xiàng)為“(*,m)”,它不屬于候選關(guān)鍵詞內(nèi)容,下文約束項(xiàng)為“(*,d)”,它也不屬于候選關(guān)鍵詞內(nèi)容,當(dāng)前文約束項(xiàng)序列為“(*,ns)(奧運(yùn)會(huì),*)”,其內(nèi)容為候選關(guān)鍵詞內(nèi)容。步驟103、根據(jù)自然詞數(shù)據(jù)庫對(duì)文本進(jìn)行詞法分析,獲得文本每個(gè)自然詞及其對(duì)應(yīng)的詞項(xiàng)。
例如文本“據(jù)悉2008年北京奧運(yùn)會(huì)將于8月8日開幕?!边M(jìn)行詞法分析后,結(jié)果為“據(jù)悉/v 2008年/m北京/ns奧運(yùn)會(huì)/n將/d于/p 8月/t 8日/t開幕/v。/wj”。步驟104、從模板庫中按順序抽取I個(gè)候選關(guān)鍵詞模板。例如候選關(guān)鍵詞模板“(*,m) ( *,ns)(奧運(yùn)會(huì),* ) ( *,d) :O. I”。步驟105、按照文本的自然詞的順序,將候選關(guān)鍵詞模板與文本全部自然詞逐個(gè)進(jìn)行比對(duì),如果連續(xù)的自然詞都滿足候選關(guān)鍵詞模板中的約束項(xiàng)的詞項(xiàng)要求,則將連續(xù)的自然詞中對(duì)應(yīng)候選關(guān)鍵詞模板中的模板項(xiàng)序列的當(dāng)前文約束項(xiàng)序列的自然詞組合作為文本的候選關(guān)鍵詞。例如,針對(duì)“據(jù)悉/v 2008年/m北京/ns奧運(yùn)會(huì)/η將/d于/p 8月/t 8日/t開幕/v。/wj”這個(gè)文本,采用候選關(guān)鍵詞模板“(*,m) ( *,ns)(奧運(yùn)會(huì),*)(女,(1):0.1”進(jìn)行比對(duì),首先用約束項(xiàng)“(女,m)”在文本中逐個(gè)自然詞進(jìn)行比對(duì),找到“2008年/m”匹配,再將后面的約束項(xiàng)“(*,ns)(奧運(yùn)會(huì),* ) ( *,d) ”與文本中“ 2008年/m”后面的連續(xù)自然詞逐個(gè)進(jìn)行比對(duì),確定“北京/ns奧運(yùn)會(huì)/n將/d”與約束項(xiàng)“U , ns) (奧運(yùn)會(huì),* ) ( *,d) ”都能夠匹配,因此將文本中“2008年/m北京/ns奧運(yùn)會(huì)/n將/d”的上文約束項(xiàng)“2008年/m”和下文約束項(xiàng)“將/d”刪除,抽取對(duì)應(yīng)當(dāng)前文約束項(xiàng)序列“,ns)(奧運(yùn)會(huì),* ) ”的“北京/ns奧運(yùn)會(huì)/η”中的“北京奧運(yùn)會(huì)”作為文本的候選關(guān)鍵詞。返回步驟104,按順序抽取下I個(gè)候選關(guān)鍵詞模板,直到所有的候選關(guān)鍵詞模板完成比對(duì)。以上所述,僅為本發(fā)明較佳的具體實(shí)施方式
,但本發(fā)明的保護(hù)范圍并不局限于此,任何熟悉該技術(shù)的人在本發(fā)明所揭露的技術(shù)范圍內(nèi),可輕易想到的變化或替換,都應(yīng)涵蓋在本發(fā)明的保護(hù)范圍之內(nèi)。因此,本發(fā)明的保護(hù)范圍應(yīng)該以權(quán)利要求的保護(hù)范圍為準(zhǔn)。
權(quán)利要求
1.一種文本的候選關(guān)鍵詞的提取方法,其特征在于,包括以下步驟 A、給每個(gè)自然詞確定對(duì)應(yīng)的詞項(xiàng),并將自然詞和與其對(duì)應(yīng)的詞項(xiàng)存儲(chǔ)到自然詞數(shù)據(jù)庫中; B、設(shè)置不少于I個(gè)候選關(guān)鍵詞模板,存入模板庫,每個(gè)候選關(guān)鍵詞模板包括I個(gè)模板項(xiàng)序列,每個(gè)模板項(xiàng)序列包括上文約束項(xiàng)、當(dāng)前文約束項(xiàng)序列和下文約束項(xiàng),當(dāng)前文約束項(xiàng)序列包括不少于2個(gè)約束項(xiàng),每個(gè)約束項(xiàng)包括一個(gè)自然詞字段和一個(gè)預(yù)定的詞項(xiàng); C、根據(jù)自然詞數(shù)據(jù)庫對(duì)文本進(jìn)行詞法分析,獲得文本每個(gè)自然詞及其對(duì)應(yīng)的詞項(xiàng); D、從模板庫中按順序抽取I個(gè)候選關(guān)鍵詞模板; E、按照所述文本的自然詞的順序,將所述候選關(guān)鍵詞模板與所述文本全部自然詞逐個(gè)進(jìn)行比對(duì),如果連續(xù)的自然詞都滿足所述候選關(guān)鍵詞模板中的約束項(xiàng)的詞項(xiàng)要求,則將所述連續(xù)的自然詞中對(duì)應(yīng)所述候選關(guān)鍵詞模板中的模板項(xiàng)序列的當(dāng)前文約束項(xiàng)序列的自然詞組合作為所述文本的候選關(guān)鍵詞; 返回步驟D,直到所有的候選關(guān)鍵詞模板完成比對(duì)。
2.根據(jù)權(quán)利要求I所述的一種文本的候選關(guān)鍵詞的提取方法,其特征在于,所述候選關(guān)鍵詞模板還包括模板項(xiàng)序列的權(quán)值。
全文摘要
本發(fā)明公開了一種文本的候選關(guān)鍵詞的提取方法,給每個(gè)自然詞確定對(duì)應(yīng)的詞項(xiàng),并存儲(chǔ)到自然詞數(shù)據(jù)庫中,設(shè)置多個(gè)候選關(guān)鍵詞模板,存入模板庫,根據(jù)自然詞數(shù)據(jù)庫對(duì)文本進(jìn)行詞法分析,獲得文本每個(gè)自然詞及其對(duì)應(yīng)的詞項(xiàng),從模板庫中按順序抽取候選關(guān)鍵詞模板,按照文本的自然詞的順序,將候選關(guān)鍵詞模板與文本全部自然詞逐個(gè)進(jìn)行比對(duì),如果連續(xù)的自然詞都滿足候選關(guān)鍵詞模板中的約束項(xiàng)的詞項(xiàng)要求,則將連續(xù)的自然詞中對(duì)應(yīng)當(dāng)前文約束項(xiàng)序列的自然詞組合作為候選關(guān)鍵詞,直到所有的候選關(guān)鍵詞模板完成比對(duì)。采用了本發(fā)明的技術(shù)方案,能夠提高文本的標(biāo)引質(zhì)量,從而提高文本檢索的查準(zhǔn)率。
文檔編號(hào)G06F17/30GK102682049SQ20111033733
公開日2012年9月19日 申請(qǐng)日期2011年10月31日 優(yōu)先權(quán)日2011年10月31日
發(fā)明者韓建波 申請(qǐng)人:天脈聚源(北京)傳媒科技有限公司