一種語(yǔ)義分析查殺法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及語(yǔ)義搜索引擎系統(tǒng),更具體地說(shuō),涉及一種語(yǔ)義分析查殺技術(shù),以及利用該語(yǔ)義查殺技術(shù)實(shí)現(xiàn)的一種語(yǔ)義分析查殺法。
【背景技術(shù)】
[0002]由于互聯(lián)網(wǎng)技術(shù)的不斷發(fā)展和快速普及,網(wǎng)絡(luò)信息量快速增長(zhǎng)。在這樣一個(gè)海量信息時(shí)代,用戶要在信息海洋里查找所需的信息,就像是大海撈針一樣,費(fèi)時(shí)費(fèi)力,而搜索引擎的誕生在一定程度上緩解了信息查找難的問(wèn)題。搜索引擎是根據(jù)一定的策略、運(yùn)用特定的計(jì)算機(jī)程序從互聯(lián)網(wǎng)上搜集信息,在對(duì)信息進(jìn)行組織和處理后,為用戶提供檢索服務(wù),將檢索出的相關(guān)信息展示給用戶的系統(tǒng)。大多數(shù)的搜索引擎以信息檢索技術(shù)為基礎(chǔ),即為文檔信息建立索引并存放入索引庫(kù),對(duì)用戶提交的查詢(xún)語(yǔ)句進(jìn)行檢索,返回結(jié)果給用戶。目前搜索引擎所采用的技術(shù),基本是以全文檢索為主的。其一般原理就是利用倒排文件的技術(shù),將待搜索的文字文本建立索引,然后利用關(guān)鍵詞匹配的檢索技術(shù),從索引庫(kù)中,把包含相關(guān)關(guān)鍵詞的內(nèi)容返回給用戶。關(guān)鍵詞檢索技術(shù)一般利用詞頻等統(tǒng)計(jì)信息計(jì)算索引庫(kù)中的文檔和關(guān)鍵詞的相關(guān)度,然后按照相關(guān)度排序的方式給出包含這些關(guān)鍵詞的文檔。這種技術(shù)把關(guān)鍵詞當(dāng)做一個(gè)字符串進(jìn)行統(tǒng)計(jì)處理,基本上沒(méi)有考慮關(guān)鍵詞本身的語(yǔ)義和關(guān)鍵詞所在的語(yǔ)言環(huán)境。
[0003]專(zhuān)利號(hào)為CN 103838833 A的基于相關(guān)詞語(yǔ)語(yǔ)義分析的全文檢索系統(tǒng),該系統(tǒng)是一種全文檢索系統(tǒng),但是其往往會(huì)把關(guān)鍵詞當(dāng)做一個(gè)字符串進(jìn)行統(tǒng)計(jì)處理,基本上沒(méi)有考慮關(guān)鍵詞本身的語(yǔ)義和關(guān)鍵詞所在的語(yǔ)言環(huán)境。無(wú)法達(dá)到快速準(zhǔn)確的檢索查殺目的。
[0004]因此,有必要提供一種新的技術(shù)方案以克服上述缺陷。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的在于提供一種語(yǔ)義分析查殺法。
[0006]為達(dá)到發(fā)明之目的,采用如下技術(shù)方案:
[0007]—種語(yǔ)義分析查殺方法,其特征在于:包括信息輸入模塊、語(yǔ)義處理模塊、索引系統(tǒng)、結(jié)果查殺處理模塊四個(gè)模塊,所述的信息輸入模塊是用于接收用戶輸入的文本信息;所述的語(yǔ)義處理模塊包括查詢(xún)?cè)~擴(kuò)展模塊、查詢(xún)語(yǔ)句和詞義查殺;所述的語(yǔ)義處理模塊對(duì)提取的文本進(jìn)行語(yǔ)義分析;所述的索引系統(tǒng)包含查詢(xún)模塊和排序模塊;所述的索引庫(kù)是為索引系統(tǒng)提供信息;所述的結(jié)果查殺處理模塊包含獨(dú)立查殺模塊、組合查殺模塊和分頁(yè)模塊。
[0008]所述的一種語(yǔ)義分析查殺方法,其特征在于:所述的信息輸入模塊中文本信息可直接復(fù)制也可以從文件夾中導(dǎo)入。
[0009]所述的一種語(yǔ)義分析查殺方法,其特征在于:所述的查詢(xún)語(yǔ)句是為了選取文本中的具體語(yǔ)句進(jìn)行語(yǔ)義分析查殺。
[0010]所述的一種語(yǔ)義分析查殺方法,其特征在于:所述的查詢(xún)?cè)~擴(kuò)展模塊用于確定詞語(yǔ)在不同語(yǔ)境中分別對(duì)應(yīng)的語(yǔ)義。
[0011]所述的一種語(yǔ)義分析查殺方法,其特征在于:所述的詞義查殺是為了消除詞義分歧,為后續(xù)工作進(jìn)行預(yù)處理。
[0012]所述的一種語(yǔ)義分析查殺方法,其特征在于:所述的排序模塊是對(duì)文本中要查詢(xún)的語(yǔ)句進(jìn)行排序。
[0013]所述的一種語(yǔ)義分析查殺方法,其特征在于:所述的分頁(yè)模塊是對(duì)文本進(jìn)行分頁(yè)處理。
[0014]所述的一種語(yǔ)義分析查殺方法,其特征在于在查殺時(shí),可以對(duì)不同語(yǔ)境屬性進(jìn)行獨(dú)立查殺,也可以進(jìn)行組合查殺。
[0015]所述的一種語(yǔ)義分析查殺方法,其特征在于:結(jié)果查殺處理模塊處理的結(jié)果會(huì)保存在指定文件夾中,最終用于反饋給用戶。
[0016]與現(xiàn)有技術(shù)相比,本發(fā)明具有如下有益效果:利用語(yǔ)境屬性來(lái)表示詞語(yǔ)所在的語(yǔ)言環(huán)境,語(yǔ)境屬性綜合了詞語(yǔ)的出現(xiàn)次數(shù)、詞語(yǔ)的概念屬性和詞語(yǔ)在句子中的語(yǔ)義地位,這樣在檢索時(shí),可以增加語(yǔ)言環(huán)境的限定,使得檢索結(jié)果的相關(guān)度更好。本發(fā)明特別適合于企業(yè)搜索、垂直搜索等與領(lǐng)域相關(guān)的搜索引擎系統(tǒng),也適合于通用搜索引擎對(duì)大量“暗網(wǎng)”數(shù)據(jù)的處理。具有查全率高、查準(zhǔn)率高和一定的動(dòng)態(tài)性。
【附圖說(shuō)明】
[0017]圖1是本發(fā)明基于語(yǔ)義分析查殺方法的結(jié)構(gòu)圖;
[0018]圖2是語(yǔ)句處理模塊流程圖;
[0019]圖3是語(yǔ)句處理模塊中查詢(xún)語(yǔ)句流程圖;
[0020]圖4是本發(fā)明中檢索模塊的流程圖。
[0021 ] 圖中:10、信息輸入模塊,20、語(yǔ)句處理模塊,21、查詢(xún)?cè)~擴(kuò)展模塊,22、查詢(xún)語(yǔ)句模塊,23、詞義查殺模塊,30、檢索模塊,31、查詢(xún)模塊,32、排序模塊,40、檢索庫(kù),50、結(jié)果查殺處理模塊,51、獨(dú)立查殺模塊,52、組合查殺看,53、分頁(yè)模塊。
【具體實(shí)施方式】
[0022]下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步詳細(xì)說(shuō)明。
[0023]如1-4所示,本發(fā)明提供一種語(yǔ)義分析查殺方法包括信息輸入模塊10、語(yǔ)義處理模塊20、索引系統(tǒng)30、檢索庫(kù)40和結(jié)果查殺處理模塊50五個(gè)模塊,所述的信息輸入模塊10是用于接收用戶輸入的文本信息;所述的語(yǔ)義處理模塊20包括查詢(xún)?cè)~擴(kuò)展模塊21、查詢(xún)語(yǔ)句22和詞義查殺23 ;所述的語(yǔ)義處理模塊20對(duì)提取的文本進(jìn)行語(yǔ)義分析;所述的索引系統(tǒng)30包含查詢(xún)模塊31和排序模塊32 ;所述的索引庫(kù)40是為索引系統(tǒng)30提供信息;所述的結(jié)果查殺處理模塊50包含獨(dú)立查殺模塊51、組合查殺模塊52和分頁(yè)模塊53。
[0024]進(jìn)一步,所述的信息輸入模塊10中文本信息可直接復(fù)制也可以從文件夾中導(dǎo)入。所述的查詢(xún)語(yǔ)句22是為了選取文本中的具體語(yǔ)句進(jìn)行語(yǔ)義分析查殺。所述的查詢(xún)?cè)~擴(kuò)展模塊21用于確定詞語(yǔ)在不同語(yǔ)境中分別對(duì)應(yīng)的語(yǔ)義。所述的詞義查殺23是為了消除詞義分歧,為后續(xù)工作進(jìn)行預(yù)處理。所述的排序模塊32是對(duì)文本中要查詢(xún)的語(yǔ)句進(jìn)行排序。所述的分頁(yè)模塊53是對(duì)文本進(jìn)行分頁(yè)處理??梢詫?duì)不同語(yǔ)境屬性進(jìn)行獨(dú)立查殺51,也可以進(jìn)行組合查殺52 ;結(jié)果查殺處理模塊處理50的結(jié)果會(huì)保存在指定文件夾中,最終用于反饋給用戶。
[0025]顯然,上述實(shí)施例僅僅是為了清楚地說(shuō)明所作的舉例,而并非對(duì)實(shí)施方式的限定。對(duì)于所屬領(lǐng)域的普通技術(shù)人員來(lái)說(shuō),在上述說(shuō)明的基礎(chǔ)上還可以做出其他不同形式的變化或者變動(dòng)。這里無(wú)需也無(wú)法對(duì)所有實(shí)施方式予以窮舉。而由此所引申出的顯而易見(jiàn)的變化或者變?nèi)蕴幱诒景l(fā)明創(chuàng)造的保護(hù)范圍之中。
【主權(quán)項(xiàng)】
1.一種語(yǔ)義分析查殺方法,其特征在于:包括信息輸入模塊、語(yǔ)義處理模塊、索引系統(tǒng)、結(jié)果查殺處理模塊四個(gè)模塊,所述的信息輸入模塊是用于接收用戶輸入的文本信息;所述的語(yǔ)義處理模塊包括查詢(xún)?cè)~擴(kuò)展模塊、查詢(xún)語(yǔ)句和詞義查殺;所述的語(yǔ)義處理模塊對(duì)提取的文本進(jìn)行語(yǔ)義分析;所述的索引系統(tǒng)包含查詢(xún)模塊和排序模塊;所述的索引庫(kù)是為索引系統(tǒng)提供信息;所述的結(jié)果查殺處理模塊包含獨(dú)立查殺模塊、組合查殺模塊和分頁(yè)模塊。2.根據(jù)權(quán)利要求1所述的一種語(yǔ)義分析查殺方法,其特征在于:所述的信息輸入模塊中文本信息可直接復(fù)制也可以從文件夾中導(dǎo)入。3.根據(jù)權(quán)利要求1所述的一種語(yǔ)義分析查殺方法,其特征在于:所述的查詢(xún)語(yǔ)句是為了選取文本中的具體語(yǔ)句進(jìn)行語(yǔ)義分析查殺。4.根據(jù)權(quán)利要求1所述的一種語(yǔ)義分析查殺方法,其特征在于:所述的查詢(xún)?cè)~擴(kuò)展模塊用于確定詞語(yǔ)在不同語(yǔ)境中分別對(duì)應(yīng)的語(yǔ)義。5.根據(jù)權(quán)利要求1所述的一種語(yǔ)義分析查殺方法,其特征在于:所述的詞義查殺是為了消除詞義分歧,為后續(xù)工作進(jìn)行預(yù)處理。6.根據(jù)權(quán)利要求1所述的一種語(yǔ)義分析查殺方法,其特征在于:所述的排序模塊是對(duì)文本中要查詢(xún)的語(yǔ)句進(jìn)行排序。7.根據(jù)權(quán)利要求1所述的一種語(yǔ)義分析查殺方法,其特征在于:所述的分頁(yè)模塊是對(duì)文本進(jìn)行分頁(yè)處理。8.根據(jù)權(quán)利要求1所述的一種語(yǔ)義分析查殺方法,其特征在于在查殺時(shí),可以對(duì)不同語(yǔ)境屬性進(jìn)行獨(dú)立查殺,也可以進(jìn)行組合查殺。9.根據(jù)權(quán)利要求1所述的一種語(yǔ)義分析查殺方法,其特征在于:結(jié)果查殺處理模塊處理的結(jié)果會(huì)保存在指定文件夾中,最終用于反饋給用戶。
【專(zhuān)利摘要】本發(fā)明公開(kāi)了一種語(yǔ)義分析查殺方法,其特征在于:包括信息輸入模塊、語(yǔ)義處理模塊、索引系統(tǒng)、結(jié)果查殺處理模塊四個(gè)模塊,所述的信息輸入模塊是用于接收用戶輸入的文本信息;所述的語(yǔ)義處理模塊包括查詢(xún)?cè)~擴(kuò)展模塊、查詢(xún)語(yǔ)句和詞義查殺;所述的語(yǔ)義處理模塊對(duì)提取的文本進(jìn)行語(yǔ)義分析;所述的索引系統(tǒng)包含查詢(xún)模塊和排序模塊;所述的索引庫(kù)是為索引系統(tǒng)提供信息;所述的結(jié)果查殺處理模塊包含獨(dú)立查殺模塊、組合查殺模塊和分頁(yè)模塊。該系統(tǒng)具有更高的查準(zhǔn)率、查全率和動(dòng)態(tài)性等特點(diǎn)。
【IPC分類(lèi)】G06F17/30, G06F17/27
【公開(kāi)號(hào)】CN105608080
【申請(qǐng)?zhí)枴緾N201410620672
【發(fā)明人】王飛
【申請(qǐng)人】上海萊凱數(shù)碼科技有限公司
【公開(kāi)日】2016年5月25日
【申請(qǐng)日】2014年11月6日