基于動(dòng)態(tài)語義分析的全文檢索系統(tǒng)的制作方法
【專利摘要】本發(fā)明屬于信息檢索技術(shù),提供一種基于動(dòng)態(tài)語義分析的全文檢索系統(tǒng),包括查詢信息接收模塊、查詢語句語義處理模塊、語義知識(shí)庫、詞語貢獻(xiàn)度動(dòng)態(tài)計(jì)算模塊、檢索模塊、索引庫、索引模塊、結(jié)果處理模塊和文檔集。本發(fā)明系統(tǒng)不僅能夠動(dòng)態(tài)計(jì)算和更新詞語貢獻(xiàn)度信息,而且能夠?qū)Σ樵償U(kuò)展語句進(jìn)行詞義消歧,篩選出符合語義的查詢擴(kuò)展語句,實(shí)現(xiàn)支持動(dòng)態(tài)語義分析的全文信息檢索。該系統(tǒng)具有更高的查準(zhǔn)率、查全率和動(dòng)態(tài)性等特點(diǎn)。
【專利說明】基于動(dòng)態(tài)語義分析的全文檢索系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明屬于信息檢索技術(shù),具體涉及一種基于動(dòng)態(tài)語義分析的全文檢索系統(tǒng)。
【背景技術(shù)】
[0002]由于互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展和快速普及,網(wǎng)絡(luò)信息量快速增長。在這樣一個(gè)海量信息時(shí)代,用戶要在信息海洋里查找所需的信息,就像是大海撈針一樣,費(fèi)時(shí)費(fèi)力,而搜索引擎的誕生在一定程度上緩解了信息查找難的問題。搜索引擎是根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將檢索出的相關(guān)信息展示給用戶的系統(tǒng)。大多數(shù)的搜索引擎以信息檢索技術(shù)為基礎(chǔ),即為文檔信息建立索引并存放入索引庫,對(duì)用戶提交的查詢語句進(jìn)行檢索,返回結(jié)果給用戶。
[0003]為了提高檢索的查全率,當(dāng)前很多檢索系統(tǒng)都采用了對(duì)查詢?cè)~進(jìn)行擴(kuò)展的檢索技術(shù),在一定程度上提高了檢索系統(tǒng)的性能。一般的擴(kuò)展檢索都是基于人工構(gòu)建的知識(shí)庫(如
HowNet)進(jìn)行查詢?cè)~擴(kuò)展,但是人工構(gòu)造的知識(shí)庫忽略了詞語語義信息的動(dòng)態(tài)變化問題,
這種變化不能在擴(kuò)展檢索中體現(xiàn)出來,從而限制檢索系統(tǒng)性能的提高;另外,在進(jìn)行查詢?cè)~擴(kuò)展的時(shí)候還存在詞義消歧的問題,如果不考慮查詢語句中有些查詢?cè)~的多義性,擴(kuò)展出來的結(jié)果也將沒有意義。正是因?yàn)檫@樣,傳統(tǒng)的簡單根據(jù)人工建造的知識(shí)庫擴(kuò)展方法并不能很好地解決擴(kuò)展檢索問題,從而不能進(jìn)行準(zhǔn)確的檢索。
[0004]隨著信息檢索技術(shù)的不斷發(fā)展,用戶希望檢索系統(tǒng)能夠準(zhǔn)確地理解查詢語句的語義,返回給用戶更加滿意的檢索結(jié)果。為了解決傳統(tǒng)基于人工構(gòu)建的知識(shí)庫進(jìn)行查詢擴(kuò)展時(shí)存在的語義信息動(dòng)態(tài)更新和詞義消歧問題,提高信息檢索的準(zhǔn)確率,需要實(shí)現(xiàn)動(dòng)態(tài)地計(jì)算和更新語義知識(shí)庫中詞語的語義信息,并將這種動(dòng)態(tài)語義信息融入到查詢?cè)~擴(kuò)展和詞義消歧的過程中,將擴(kuò)展檢索提升到支持動(dòng)態(tài)語義分析的檢索上,這是提高檢索準(zhǔn)確率的關(guān)鍵所在。
【發(fā)明內(nèi)容】
[0005]本發(fā)明提供了一種基于動(dòng)態(tài)語義分析的全文檢索系統(tǒng),該系統(tǒng)不僅能夠動(dòng)態(tài)計(jì)算和更新詞語貢獻(xiàn)度信息,而且能夠?qū)Σ樵償U(kuò)展語句進(jìn)行詞義消歧,篩選出符合語義的查詢擴(kuò)展語句,實(shí)現(xiàn)支持動(dòng)態(tài)語義分析的全文信息檢索。該系統(tǒng)具有更高的查準(zhǔn)率、查全率和動(dòng)態(tài)性等特點(diǎn)。
[0006]本發(fā)明是由以下技術(shù)方案實(shí)現(xiàn)的:基于動(dòng)態(tài)語義分析的全文檢索系統(tǒng),包括查詢信息接收模塊、查詢語句語義處理模塊、語義知識(shí)庫、詞語貢獻(xiàn)度動(dòng)態(tài)計(jì)算模塊、檢索模塊、索引庫、索引模塊、結(jié)果處理模塊和文檔集。
[0007]查詢信息接收模塊用來接受用戶輸入的查詢語句,根據(jù)用戶的需求將查詢信息提交給查詢語句語義處理模塊進(jìn)行語義處理,或者直接提交給檢索模塊進(jìn)行檢索。[0008]查詢語句語義處理模塊用于接收查詢信息接收模塊提交的用戶查詢語句,對(duì)查詢語句進(jìn)行語義處理。首先對(duì)查詢語句進(jìn)行預(yù)處理,將查詢語句進(jìn)行中文分詞,去停用詞(一些出現(xiàn)頻率很高但無關(guān)緊要的詞),得到查詢?cè)~序列,然后將查詢?cè)~提交給語義知識(shí)庫,得到對(duì)應(yīng)的相關(guān)詞群和貢獻(xiàn)度,采用基于語義知識(shí)庫的概念擴(kuò)展方法,對(duì)查詢?cè)~進(jìn)行擴(kuò)展,用擴(kuò)展詞替換到相應(yīng)的查詢?cè)~位置上得到候選的查詢擴(kuò)展語句集合,再采用詞義消歧方法,過濾掉語義不正確的擴(kuò)展語句,最后將查詢語句及其擴(kuò)展語句一起提交給檢索模塊進(jìn)行檢索。
[0009]語義知識(shí)庫存儲(chǔ)詞語及其相關(guān)詞群和貢獻(xiàn)度信息。對(duì)查詢語句語義處理模塊提交的查詢?cè)~,在庫中檢索,將查詢?cè)~對(duì)應(yīng)的相關(guān)詞群及貢獻(xiàn)度返回給查詢語句語義處理模塊。
[0010]詞語貢獻(xiàn)度動(dòng)態(tài)計(jì)算模塊采用詞語貢獻(xiàn)度的動(dòng)態(tài)計(jì)算方法,它動(dòng)態(tài)地計(jì)算詞語的相關(guān)詞對(duì)該詞語的貢獻(xiàn)度,并將計(jì)算的結(jié)果返回給語義知識(shí)庫。
[0011]檢索模塊主要為用戶提供檢索服務(wù)。檢索模塊接收來自查詢信息接收模塊的查詢語句或查詢語句語義處理模塊處理之后的查詢語句,并將查詢語句提交給索引庫進(jìn)行查找匹配,從而得到與查詢語句相關(guān)的所有文檔信息,并且對(duì)相關(guān)的文檔集進(jìn)行排序處理,將排序后的結(jié)果提交至結(jié)果處理模塊。
[0012]索引庫用于存儲(chǔ)由索引模塊對(duì)文本文件建立的索引。索引庫還根據(jù)檢索模塊提交的查詢信息在索引中快速檢索,并且將檢索的結(jié)果返回給檢索模塊。
[0013]索引模塊用于對(duì)文檔集提供的文本文件建立索引。索引模塊對(duì)文本內(nèi)容和標(biāo)題等相關(guān)信息處理得到索引詞,并利用索引詞和文檔相關(guān)信息建立索引。
[0014]文檔集存儲(chǔ)文本文件,并將文本文件提供給索引模塊建立文件的索引。
[0015]結(jié)果處理模塊用于接收來自檢索模塊的檢索結(jié)果,并根據(jù)索引庫的相關(guān)信息建立檢索結(jié)果的摘要信息,并對(duì)返回結(jié)果進(jìn)行分頁處理。
[0016]本發(fā)明系統(tǒng)針對(duì)當(dāng)前擴(kuò)展檢索方法中存在的一些問題提出了兩個(gè)方面的解決辦法:動(dòng)態(tài)地計(jì)算和更新語義知識(shí)庫中詞語的貢獻(xiàn)度,并且將這種動(dòng)態(tài)更新的語義信息融入到擴(kuò)展檢索的查詢?cè)~擴(kuò)展和詞義消歧的過程中,從而實(shí)現(xiàn)檢索過程的動(dòng)態(tài)語義分析。
[0017]本發(fā)明具有智能化的信息服務(wù)特點(diǎn),可以為用戶提供更加方便和準(zhǔn)確的檢索服務(wù),具體而言,本發(fā)明具有以下的特點(diǎn):
(I)查全率高:該系統(tǒng)對(duì)語義知識(shí)庫中詞語的貢獻(xiàn)度進(jìn)行動(dòng)態(tài)地計(jì)算和更新,依據(jù)動(dòng)態(tài)的詞語貢獻(xiàn)度,對(duì)查詢語句進(jìn)行擴(kuò)展,來擴(kuò)大用戶提交的查詢語句的語義信息,從而提高了檢索的查全率。
[0018](2)查準(zhǔn)率高:該系統(tǒng)依據(jù)動(dòng)態(tài)的詞語貢獻(xiàn)度語義信息,對(duì)候選的查詢擴(kuò)展語句集合進(jìn)行詞義消歧,篩選出符合語義的查詢擴(kuò)展語句,在一定程度上實(shí)現(xiàn)查詢語句與文檔集的準(zhǔn)確匹配,從而提高檢索的查準(zhǔn)率。
[0019](3)動(dòng)態(tài)性:該系統(tǒng)對(duì)語義知識(shí)庫中詞語的貢獻(xiàn)度進(jìn)行動(dòng)態(tài)地計(jì)算和更新,并將這種動(dòng)態(tài)更新的語義信息用于查詢?cè)~擴(kuò)展和詞義消歧的過程中,從而實(shí)現(xiàn)了擴(kuò)展檢索過程的動(dòng)態(tài)語義分析。
【專利附圖】
【附圖說明】
[0020]圖1是本發(fā)明基于動(dòng)態(tài)語義分析的全文檢索系統(tǒng)的結(jié)構(gòu)圖。[0021]圖2是本發(fā)明基于動(dòng)態(tài)語義分析的全文檢索系統(tǒng)的模塊結(jié)構(gòu)圖。
[0022]圖3是本發(fā)明中查詢信息接收模塊的流程圖。
[0023]圖4是查詢語句語義處理模塊中查詢語句預(yù)處理流程圖。
[0024]圖5是查詢語句語義處理模塊中查詢?cè)~擴(kuò)展流程圖。
[0025]圖6是查詢語句語義處理模塊中詞義消歧流程圖。
[0026]圖7是本發(fā)明中基于語義知識(shí)庫的詞義消歧方法流程圖。
[0027]圖8是本發(fā)明中詞語貢獻(xiàn)度動(dòng)態(tài)計(jì)算模塊的流程圖。
[0028]圖9是本發(fā)明中檢索模塊的流程圖。
[0029]圖10是本發(fā)明中結(jié)果處理模塊的流程圖。
【具體實(shí)施方式】
[0030]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)說明。
[0031]如圖1所示,本發(fā)明提供的基于動(dòng)態(tài)語義分析的全文檢索系統(tǒng)包括查詢信息接收模塊100、查詢語句語義處理模塊200、語義知識(shí)庫300、詞語貢獻(xiàn)度動(dòng)態(tài)計(jì)算模塊400、檢索模塊500、索引庫600、索引模塊700、文檔集800和結(jié)果處理模塊900。
[0032]查詢信息接收模塊100用于接收用戶輸入的查詢語句,并根據(jù)用戶的需求將查詢信息提交給查詢語句語義處理模塊200進(jìn)行語義處理,或者直接提交給檢索模塊500進(jìn)行檢索。
[0033]如圖3所示,查詢信息接收模塊100的處理過程為:(1)用戶輸入查詢語句;(2)用戶根據(jù)需要選擇是否進(jìn)行查詢語句語義處理;(3)如果選擇進(jìn)行查詢語句語義處理,系統(tǒng)將查詢信息提交給查詢語句語義處理模塊200對(duì)查詢語句進(jìn)行語義處理;(4)如果沒有選擇,系統(tǒng)將查詢信息直接提交給檢索模塊500。
[0034]查詢語句語義處理模塊200接收查詢信息接收模塊100提交的查詢信息,對(duì)查詢語句進(jìn)行語義處理。首先對(duì)查詢語句進(jìn)行預(yù)處理,采用正向最大匹配分詞方法對(duì)查詢語句進(jìn)行中文分詞,然后去停用詞,得到查詢?cè)~序列;然后將查詢?cè)~提交給語義知識(shí)庫300,得到對(duì)應(yīng)的相關(guān)詞群和貢獻(xiàn)度,采用基于語義知識(shí)庫的概念擴(kuò)展方法,對(duì)查詢?cè)~進(jìn)行擴(kuò)展,用擴(kuò)展詞替換到相應(yīng)的查詢?cè)~位置上得到候選的查詢擴(kuò)展語句集合,再采用詞義消歧方法,過濾掉語義不正確的擴(kuò)展語句,最后將查詢語句及其擴(kuò)展語句一起提交給檢索模塊500進(jìn)行檢索。
[0035]語義知識(shí)庫300存儲(chǔ)詞語及其相關(guān)詞群和貢獻(xiàn)度信息。對(duì)查詢語句語義處理模塊200提交的查詢?cè)~,在庫中檢索,將查詢?cè)~對(duì)應(yīng)的相關(guān)詞群及貢獻(xiàn)度返回給查詢語句語義處理模塊200。
[0036]詞語貢獻(xiàn)度動(dòng)態(tài)計(jì)算模塊400采用詞語貢獻(xiàn)度的動(dòng)態(tài)計(jì)算方法,它動(dòng)態(tài)地計(jì)算詞語的相關(guān)詞對(duì)該詞語的貢獻(xiàn)度,并將計(jì)算的結(jié)果返回給語義知識(shí)庫300。
[0037]檢索模塊500主要為用戶提供精確、智能化的檢索服務(wù)。檢索模塊500接收來自查詢信息接收模塊100的查詢信息和查詢語句語義處理模塊200處理之后的查詢語句,并將查詢語句提交給索引庫600進(jìn)行查找,得到與查詢語句相關(guān)的所有文檔,并且根據(jù)文檔打分公式,使用Lucene的文檔打分公式并結(jié)合查詢語句及其擴(kuò)展語句中查詢?cè)~的語義信
息,對(duì)返回的文檔集進(jìn)行排序,將排序后的結(jié)果提交給結(jié)果處理模塊900。
[0038]索引庫600用于存儲(chǔ)由索引模塊700對(duì)文本文件建立的索引;索引庫600還根據(jù)檢索模塊500提交的查詢信息在索引中快速檢索,并且將結(jié)果返回給檢索模塊500。
[0039]索引模塊700用于對(duì)文檔集800提供的文本文件建立索引。索引模塊700對(duì)文本內(nèi)容和標(biāo)題等相關(guān)信息處理得到索引詞,并利用索引詞和文檔相關(guān)信息建立索引。
[0040]文檔集800存儲(chǔ)文本文件,并將文本文件提供給索引模塊700建立文件的索引。
[0041]結(jié)果處理模塊900用于接收來自檢索模塊500的檢索結(jié)果,并根據(jù)索引庫600的相關(guān)信息建立檢索結(jié)果的摘要和鏈接信息,并對(duì)返回結(jié)果進(jìn)行分頁處理。
[0042]下面分別對(duì)查詢語句語義處理模塊200、詞語貢獻(xiàn)度動(dòng)態(tài)計(jì)算模塊400、檢索模塊500、結(jié)果處理模塊900作進(jìn)一步的詳細(xì)說明。
[0043]如圖2所示,查詢語句語義處理模塊200包括查詢語句預(yù)處理模塊210、查詢?cè)~擴(kuò)展模塊220和詞義消歧模塊230。
[0044]查詢語句預(yù)處理模塊210主要對(duì)查詢語句進(jìn)行預(yù)處理,包括中文分詞、去停用詞;這里采用正向最大匹配分詞方法對(duì)查詢語句進(jìn)行分詞處理,然后去掉停用詞,例如“吧”,“嗎”等詞,得到查詢?cè)~序列。例如查詢語句“證件丟失了到哪里補(bǔ)辦? ”經(jīng)過預(yù)處理之后得到查詢?cè)~序列“證件丟失補(bǔ)辦”。
[0045]該模塊涉及的正向最大匹配分詞算法的思想是:(1)事先建立詞典,并得到詞典中最長詞條所含漢字的個(gè)數(shù)MaxL ; (2)取被處理文本的當(dāng)前字符串的前MaxL個(gè)字作為
匹配字段,查找詞典,如果詞典中有這樣的MaxL個(gè)字的詞,則匹配成功,將當(dāng)前字段作為
一個(gè)詞分割;(3)如果詞典中沒有找到與當(dāng)前匹配字段相同的詞,則去掉匹配字段的最后一個(gè)字,剩下的字作為新的匹配字段,再進(jìn)行匹配。如此重復(fù),直到匹配成功。
[0046]如圖4所示,查詢語句預(yù)處理模塊210的工作流程為:(I)對(duì)用戶輸入的查詢語句進(jìn)行中文分詞處理;(2)對(duì)分詞之后的語句進(jìn)行去停用詞處理;(3)得到查詢?cè)~序列,并提交給查詢?cè)~擴(kuò)展模塊220。
[0047]查詢?cè)~擴(kuò)展模塊220將查詢語句預(yù)處理模塊210提交的查詢?cè)~序列提交給語義知識(shí)庫300,得到各個(gè)查詢?cè)~對(duì)應(yīng)的相關(guān)詞群和貢獻(xiàn)度,然后采用基于語義知識(shí)庫的概念擴(kuò)展方法,對(duì)查詢?cè)~進(jìn)行擴(kuò)展,用擴(kuò)展詞替換到相應(yīng)的查詢?cè)~位置上,得到候選的查詢擴(kuò)展語句集合;并且將擴(kuò)展出來的查詢語句提交給詞義消歧模塊230。
[0048]概念擴(kuò)展方法采用基于語義知識(shí)庫的概念擴(kuò)展方法,這里語義知識(shí)庫采用的是語義指紋知識(shí)庫。語義指紋知識(shí)庫存儲(chǔ)著語義標(biāo)簽和語義指紋組成的知識(shí)單元。語義標(biāo)簽指代語義中的一個(gè)知識(shí)單元(也即概念),語義指紋是對(duì)語義標(biāo)簽所指代概念的描述,由語義標(biāo)簽的相關(guān)詞群及其貢獻(xiàn)度共同組成。其中語義標(biāo)簽對(duì)應(yīng)于語言中的詞語或短語(例如百科中的概念),語義指紋是對(duì)概念的語義描述,用從真實(shí)語言文本集合中通過統(tǒng)計(jì)方法得到的概念的相關(guān)詞群及每個(gè)詞對(duì)語義標(biāo)簽的貢獻(xiàn)度來刻畫。貢獻(xiàn)度也表達(dá)了語義指紋中的一個(gè)詞語與語義標(biāo)簽(也是一個(gè)詞語)的關(guān)聯(lián)度。
表1給出了語義知識(shí)單元示例,
【權(quán)利要求】
1.基于動(dòng)態(tài)語義分析的全文檢索系統(tǒng),包括查詢信息接收模塊、查詢語句語義處理模塊、語義知識(shí)庫、詞語貢獻(xiàn)度動(dòng)態(tài)計(jì)算模塊、檢索模塊、索引庫、索引模塊、結(jié)果處理模塊和文檔集; 所述查詢信息接收模塊用于接受用戶輸入的查詢語句,根據(jù)用戶的需求將查詢信息提交給查詢語句語義處理模塊進(jìn)行語義處理,或者直接提交給檢索模塊進(jìn)行檢索; 所述查詢語句語義處理模塊用于接收查詢信息接收模塊提交的用戶查詢語句,對(duì)查詢語句進(jìn)行語義處理;首先對(duì)查詢語句進(jìn)行預(yù)處理,將查詢語句進(jìn)行中文分詞,去停用詞,得到查詢?cè)~序列,然后將查詢?cè)~序列提交給語義知識(shí)庫,得到對(duì)應(yīng)的相關(guān)詞群和貢獻(xiàn)度,采用基于語義知識(shí)庫的概念擴(kuò)展方法,對(duì)查詢?cè)~進(jìn)行擴(kuò)展,用擴(kuò)展詞替換到相應(yīng)的查詢?cè)~位置上得到候選的查詢擴(kuò)展語句集合,再采用詞義消歧方法,過濾掉語義不正確的擴(kuò)展語句,最后將查詢語句及其擴(kuò)展語句一起提交給檢索模塊進(jìn)行檢索; 所述語義知識(shí)庫存儲(chǔ)詞語及其相關(guān)詞群和貢獻(xiàn)度信息,對(duì)查詢語句語義處理模塊提交的查詢?cè)~,在庫中檢索,將查詢?cè)~對(duì)應(yīng)的相關(guān)詞群及貢獻(xiàn)度返回給查詢語句語義處理模塊; 所述詞語貢獻(xiàn)度動(dòng)態(tài)計(jì)算模塊采用詞語貢獻(xiàn)度的動(dòng)態(tài)計(jì)算方法,動(dòng)態(tài)地計(jì)算詞語的相關(guān)詞對(duì)該詞語的貢獻(xiàn)度,并將計(jì)算的結(jié)果返回給語義知識(shí)庫; 所述檢索模塊用于為用戶提供檢索服務(wù),檢索模塊接收來自查詢信息接收模塊的查詢語句或查詢語句語義處理模塊處理之后的查詢語句,并將查詢語句提交給索引庫進(jìn)行查找匹配,從而得到與查詢語句相關(guān)的所有文檔信息,并且對(duì)相關(guān)的文檔集進(jìn)行排序處理,將排序后的結(jié)果提交至結(jié)果處理模塊; 所述索引庫用于存儲(chǔ)由索引模塊對(duì)文本文件建立的索引,索引庫還根據(jù)檢索模塊提交的查詢信息在索引中快速檢索,并且將檢索的結(jié)果返回給檢索模塊; 所述索引模塊用于對(duì)文檔集提供的文本文件建立索引,索引模塊對(duì)文本內(nèi)容和標(biāo)題處理得到索引詞,并利用索引詞和文檔相關(guān)信息建立索引; 所述文檔集存儲(chǔ)文本文件,并將文本文件提供給索引模塊建立文件的索引; 所述結(jié)果處理模塊用于接收來自檢索模塊的檢索結(jié)果,并根據(jù)索引庫的相關(guān)信息建立檢索結(jié)果的摘要信息,并對(duì)返回結(jié)果進(jìn)行分頁處理。
2.根據(jù)權(quán)利要求1所述的基于動(dòng)態(tài)語義分析的全文檢索系統(tǒng),其特征在于:所述查詢語句語義處理模塊包括查詢語句預(yù)處理模塊、查詢?cè)~擴(kuò)展模塊和詞義消歧模塊; 所述查詢語句預(yù)處理模塊主要對(duì)查詢語句進(jìn)行預(yù)處理,包括中文分詞、去停用詞;這里采用正向最大匹配分詞方法對(duì)查詢語句進(jìn)行分詞處理,然后去掉停用詞,得到查詢?cè)~序列,并提交給查詢?cè)~擴(kuò)展模塊; 所述查詢?cè)~擴(kuò)展模塊將查詢語句預(yù)處理模塊提交的查詢?cè)~序列提交給語義知識(shí)庫,得到各個(gè)查詢?cè)~對(duì)應(yīng)的相關(guān)詞群和貢獻(xiàn)度,然后采用基于語義知識(shí)庫的概念擴(kuò)展方法,對(duì)查詢?cè)~進(jìn)行擴(kuò)展,用擴(kuò)展詞替換到相應(yīng)的查詢?cè)~位置上,得到候選的查詢擴(kuò)展語句集合;并且將擴(kuò)展出來的查詢語句提交給詞義消歧模塊; 所述詞義消歧模塊對(duì)查詢?cè)~擴(kuò)展模塊提交的查詢擴(kuò)展語句集合,采用基于語義知識(shí)庫的詞義消歧方法進(jìn)行消歧,確定查詢語句中正確的詞義,然后在候選擴(kuò)展語句集合中查找,將包含了不正確詞義相關(guān)詞語的擴(kuò)展語句去除,得到最終的查詢擴(kuò)展語句集合,并同查詢語句一起提交至檢索模塊。
3.根據(jù)權(quán)利要求1所述的基于動(dòng)態(tài)語義分析的全文檢索系統(tǒng),其特征在于:所述詞語貢獻(xiàn)度動(dòng)態(tài)計(jì)算模塊,采用詞語貢獻(xiàn)度的動(dòng)態(tài)計(jì)算方法,動(dòng)態(tài)地計(jì)算詞語的相關(guān)詞對(duì)該詞語的貢獻(xiàn)度; 將互動(dòng)百科中的一個(gè)詞條t自身屬于的開放分類集合Cm,該詞條解釋正文中所有內(nèi)部鏈接詞條所屬于的開放分類的集合cInwOTd與用戶添加的該詞條的相關(guān)詞條所屬于的開放分類的集合CUsOTWOTd的并集定義為詞條t的開放分類語義知識(shí)集合RCt ;當(dāng)兩個(gè)詞語的開放分類語義知識(shí)集合中大部分開放分類都是一樣的時(shí)候,那么這兩個(gè)詞語必定在語義上有很強(qiáng)的相關(guān)性;因此,相關(guān)詞語的貢獻(xiàn)度計(jì)算可以通過比較語義標(biāo)簽t的開放分類語義知識(shí)集合RCt與其相關(guān)詞語Wt的開放分類語義知識(shí)集合RCwt而得到; 在計(jì)算語義標(biāo)簽t與相關(guān)詞語Wt之間的語義關(guān)聯(lián)度時(shí),首先定義一個(gè)開放分類語義知識(shí)向量V,開放分類語義知識(shí)向量的維數(shù)n = IRCtURCwtI,每一維代表一個(gè)開放分類,記為Cp ;語義標(biāo)簽t的開放分類語義知識(shí)向量Vt在P維上的值即為t的開放分類語義知識(shí)集合RCt中對(duì)應(yīng)開放分類Cp出現(xiàn)的頻次,對(duì)相關(guān)詞Wt的開放分類語義知識(shí)向量Vwt也有同樣的定義; 因此相關(guān)詞語Wt與語義標(biāo)簽t的語義關(guān)聯(lián)度,也即相關(guān)詞語對(duì)語義標(biāo)簽的貢獻(xiàn)度為:r = (vt-vWi)/(|vt|x|vWt|); 詞語貢獻(xiàn)度更新的具體過程為:(1)得到最近更新的所有詞條,并構(gòu)建更新詞條集;(2)在更新詞條集中取出一個(gè)詞條,在語義知識(shí)庫的相關(guān)詞群中查找該新詞條是否是相關(guān)詞;(3)如果是相關(guān)詞則重新計(jì)算新詞條對(duì)語義標(biāo)簽的貢獻(xiàn)度;如果不是,則進(jìn)行下一個(gè)新詞條的查找,直到查找完全部的更新詞條; 如果更新詞條是相關(guān)詞,則重新計(jì)算他對(duì)語義標(biāo)簽的貢獻(xiàn)度,方法如下, 對(duì)于更新了的相關(guān)詞,假設(shè)它的原來的貢獻(xiàn)度為Valy,新計(jì)算的貢獻(xiàn)度為vals/,那么它最終的貢獻(xiàn)度為:ValiJii = Svalije-Pt + Pvaljj 這里5、β大于等于O,且d+ β= 1,5和β分別表示原來的貢獻(xiàn)度和新計(jì)算的貢獻(xiàn)度對(duì)最終貢獻(xiàn)度的影響大小,t為更新次數(shù)P力衰減常數(shù),我們將P的值取小一點(diǎn),表示衰減曲線平緩一些;因?yàn)橄嚓P(guān)詞有更新,這里我們?nèi)? = 0.ι,β = 0.5,表示新計(jì)算的貢獻(xiàn)度對(duì)最終貢獻(xiàn)度的影響大一些,這樣就得到了一次動(dòng)態(tài)計(jì)算和更新后的相關(guān)詞語貢獻(xiàn)度;新計(jì)算的貢獻(xiàn)度vayf通過更新詞條Cij的開放分類語義知識(shí)向量Vey和語義標(biāo)簽的開放分類語義知識(shí)向量進(jìn)行向量空間模型計(jì)算得到,即:
4.根據(jù)權(quán)利要求1所述的基于動(dòng)態(tài)語義分析的全文檢索系統(tǒng),其特征在于:所述檢索模塊是本系統(tǒng)提供給用戶檢索文本信息的模塊,它包括查詢模塊和排序模塊; 查詢模塊在索引庫中查找出所有相關(guān)的文檔,從相關(guān)的文檔中選擇出滿足查詢要求的那部分文檔作為結(jié)果集,并將結(jié)果集提交給排序模塊; 排序模塊用來對(duì)查詢模塊的結(jié)果集進(jìn)行排序,該模塊根據(jù)查詢?cè)~及其擴(kuò)展詞在文檔中出現(xiàn)的頻率和逆文檔頻率,以及文檔長度因素進(jìn)行打分排序,對(duì)于查詢語句Q,對(duì)文檔d打分,給出基于動(dòng)態(tài)語義分析的全文檢索系統(tǒng)的文檔打分公式如下:
5.根據(jù)權(quán)利要求1所述的基于動(dòng)態(tài)語義分析的全文檢索系統(tǒng),其特征在于:所述結(jié)果處理模塊是用戶查詢顯示的界面,它包括提示模塊,鏈接模塊,分頁模塊; 所述提示模塊用于顯示查詢結(jié)果的提示信息,如果檢索模塊返回的結(jié)果集不是空的,就在首頁顯示結(jié)果集中的文檔數(shù);如果沒有檢索到匹配的信息,則顯示沒有匹配信息的提示; 所述鏈接模塊用于顯示返回給用戶的文檔摘要信息,頁面內(nèi)容以標(biāo)題、摘要的形式,逐條羅列,標(biāo)題為超鏈接形式,用戶可以點(diǎn)擊標(biāo)題并打開檢索內(nèi)容所在的原文;文檔摘要顯示原文中含有檢索內(nèi)容的一段摘要; 所述分頁模塊用于將結(jié)果集的多篇文檔分頁顯示,每個(gè)頁面顯示10個(gè)文檔信息,頁面最下角標(biāo)注10頁范圍供用戶進(jìn)行選擇。
【文檔編號(hào)】G06F17/30GK103678576SQ201310669139
【公開日】2014年3月26日 申請(qǐng)日期:2013年12月11日 優(yōu)先權(quán)日:2013年12月11日
【發(fā)明者】張茂元, 鄒春燕, 吳德鈺, 張紅, 袁芳, 華麗君, 羅賢亮, 賀凡黎, 陳水銀, 孟瓊瑤 申請(qǐng)人:華中師范大學(xué)