亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

新一代行業(yè)知識(shí)全文檢索方法

文檔序號(hào):6491142閱讀:262來(lái)源:國(guó)知局
新一代行業(yè)知識(shí)全文檢索方法
【專(zhuān)利摘要】一種新一代行業(yè)知識(shí)全文檢索方法,1,構(gòu)建分詞詞典:構(gòu)建分詞詞典,并將詞典信息存入數(shù)據(jù)庫(kù);2,構(gòu)建全量索引:對(duì)已經(jīng)存在的全文文檔“也稱(chēng)為知識(shí)點(diǎn)文檔”進(jìn)行讀取、分詞和分析,建立索引文件;3,構(gòu)建增量索引:對(duì)新增的文檔進(jìn)行處理,更新硬盤(pán)上的索引文件;4,構(gòu)建內(nèi)存索引,構(gòu)建內(nèi)存分詞詞典:將分詞詞典數(shù)據(jù)讀入內(nèi)存,構(gòu)建內(nèi)存分詞詞典數(shù)據(jù)結(jié)構(gòu);步驟5,全文檢索,標(biāo)準(zhǔn)化用戶(hù)問(wèn)題,分詞,語(yǔ)義理解,語(yǔ)義擴(kuò)展,獲取候選文檔,排序候選文檔其中,系統(tǒng)初始化的時(shí)候,構(gòu)建分詞詞典;構(gòu)建全量索引:讀取所有的知識(shí)點(diǎn)文檔,全量構(gòu)建硬盤(pán)索引文件“簡(jiǎn)稱(chēng)索引文件”;新增全文文檔的時(shí)候,構(gòu)建增量索引,這三個(gè)活動(dòng),獨(dú)立于全文檢索模塊,獨(dú)立運(yùn)行。
【專(zhuān)利說(shuō)明】新一代行業(yè)知識(shí)全文檢索方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及全文檢索領(lǐng)域,尤其是行業(yè)知識(shí)的全文檢索領(lǐng)域,提出了一種新的行業(yè)知識(shí)全文檢索系統(tǒng)和方法。
【背景技術(shù)】
[0002]全文檢索是指計(jì)算機(jī)索引程序通過(guò)掃描文章中的每一個(gè)詞,對(duì)每一個(gè)詞建立一個(gè)索引,指明該詞在文章中出現(xiàn)的次數(shù)和位置,當(dāng)用戶(hù)查詢(xún)時(shí),檢索程序就根據(jù)事先建立的索引進(jìn)行查找,并將查找的結(jié)果反饋給用戶(hù)的檢索方式。這個(gè)過(guò)程類(lèi)似于通過(guò)字典中的檢索字表查字的過(guò)程。全文檢索是一種將文件中所有文本與檢索項(xiàng)匹配的文字資料檢索方法。全文檢索系統(tǒng)是按照全文檢索理論建立起來(lái)的用于提供全文檢索服務(wù)的軟件系統(tǒng)。全文檢索是將存儲(chǔ)于數(shù)據(jù)庫(kù)中整本書(shū)、整篇文章中的任意內(nèi)容信息查找出來(lái)的檢索。它可以根據(jù)需要獲得全文中有關(guān)章、節(jié)、段、句、詞等信息,也可以進(jìn)行各種統(tǒng)計(jì)和分析。例如,它可以回答“《紅樓夢(mèng)》一書(shū)中“林黛玉” 一共出現(xiàn)多少次? ”的問(wèn)題。
[0003]傳統(tǒng)的全文檢索系統(tǒng)只是基于關(guān)鍵字、關(guān)鍵詞的匹配,缺乏英文、拼音、錯(cuò)別字、同義詞、近義詞等多方位的語(yǔ)義識(shí)別和糾錯(cuò)的能力。隨著客戶(hù)需求的智能要求越來(lái)越高,傳統(tǒng)的全文檢索系統(tǒng)越發(fā)顯得落后。
[0004]為了解決存在的問(wèn)題,急需一種新的全文檢索系統(tǒng),它可以讓檢索更智能,具體表現(xiàn)為:可以實(shí)現(xiàn)最普遍的拼音、漢字、英文互相表達(dá),比如用戶(hù)輸入“shengka”,系統(tǒng)可以理解出,用戶(hù)可能查詢(xún)的內(nèi)容是“聲卡”;可以實(shí)現(xiàn)錯(cuò)別字糾錯(cuò),可以實(shí)現(xiàn)語(yǔ)義理解和語(yǔ)義擴(kuò)充。如:用戶(hù)輸入“商務(wù)領(lǐng)航”、“上午領(lǐng)航”、“shangmilinghang”、“Shwlh”都可達(dá)到“商務(wù)領(lǐng)航”的搜索效果;用戶(hù)輸入“寬帶怎么辦理”、“怎么安裝寬帶”、“給俺弄個(gè)寬帶”、“我想開(kāi)通寬帶”等等意思相近的甚至口語(yǔ)化的檢索形式,也能正確返回相關(guān)“寬帶辦理”的答案。

【發(fā)明內(nèi)容】

[0005]針對(duì)上述問(wèn)題,本發(fā)明在傳統(tǒng)的基于關(guān)鍵字、詞匹配的全文檢索系統(tǒng)基礎(chǔ)上,增加了英文、拼音、錯(cuò)別字、同義詞、近義詞等多方位的語(yǔ)義識(shí)別和糾錯(cuò)功能,又增加了上下位、屬性識(shí)別等語(yǔ)義擴(kuò)展能力。本發(fā)明是一款具有語(yǔ)義理解語(yǔ)義擴(kuò)展功能的全文檢索系統(tǒng)。
[0006]技術(shù)方案:為了解決以上問(wèn)題本發(fā)明提供了一種新一代行業(yè)知識(shí)全文檢索方法,其特征在于:包括以下步驟:
步驟1,構(gòu)建分詞詞典:構(gòu)建分詞詞典,并將詞典信息存入數(shù)據(jù)庫(kù);
步驟2,構(gòu)建全量索引:對(duì)已經(jīng)存在的全文文檔“也稱(chēng)為知識(shí)點(diǎn)文檔”進(jìn)行讀取、分詞和分析,建立索引文件;
步驟3,構(gòu)建增量索引:對(duì)新增的文檔進(jìn)行處理,更新硬盤(pán)上的索引文件;
步驟4,構(gòu)建內(nèi)存索引,包括:
步驟4-1,構(gòu)建內(nèi)存分詞詞典:將分詞詞典數(shù)據(jù)讀入內(nèi)存,構(gòu)建內(nèi)存分詞詞典數(shù)據(jù)結(jié)
構(gòu); 步驟4-2,構(gòu)建全量?jī)?nèi)存索引:從硬盤(pán)上讀取索引文件,全量構(gòu)建內(nèi)存索引;
步驟4-3,構(gòu)建增量?jī)?nèi)存索引:對(duì)新增的文檔進(jìn)行處理,實(shí)現(xiàn)內(nèi)存索引增量更新;
步驟5,全文檢索,包括:
步驟5-1,標(biāo)準(zhǔn)化用戶(hù)問(wèn)題:接受用戶(hù)咨詢(xún)的問(wèn)題并進(jìn)行標(biāo)準(zhǔn)化處理“也稱(chēng)規(guī)范化 處理”,去掉冗余詞、去掉不影響語(yǔ)義信息的沒(méi)用的標(biāo)點(diǎn)符號(hào),識(shí)錯(cuò)糾錯(cuò)、別稱(chēng)標(biāo)準(zhǔn)化; 步驟5-2,分詞:對(duì)標(biāo)準(zhǔn)化后的問(wèn)題進(jìn)行分詞;
步驟5-3,語(yǔ)義理解:對(duì)分詞結(jié)果進(jìn)行處理,提取出問(wèn)題中出現(xiàn)的分詞的所屬詞類(lèi)或 者標(biāo)準(zhǔn)詞,獲取分詞語(yǔ)義信息;
步驟5-4,語(yǔ)義擴(kuò)展:對(duì)分詞語(yǔ)義信息進(jìn)行語(yǔ)義擴(kuò)展,得到擴(kuò)展后的語(yǔ)義信息,這些 語(yǔ)義擴(kuò)展信息,使用一些詞或詞類(lèi)表示;
步驟5-5,獲取候選文檔:利用語(yǔ)義擴(kuò)展后得到的詞或者詞類(lèi)“這些詞或詞類(lèi)代表 擴(kuò)展后的語(yǔ)義信”,根據(jù)內(nèi)存索引信息,搜索相應(yīng)的全文文檔,作為候選文檔;
步驟5-6,排序候選文檔:對(duì)候選文檔進(jìn)行多角度的評(píng)分排名,評(píng)分越高,排名越 靠前,排序后的候選文檔成為最終的全文檢索結(jié)果;
其中,系統(tǒng)初始化的時(shí)候,構(gòu)建分詞詞典;構(gòu)建全量索引:讀取所有的知識(shí)點(diǎn)文檔,全量構(gòu)建硬盤(pán)索引文件“簡(jiǎn)稱(chēng)索引文件”;新增全文文檔的時(shí)候,構(gòu)建增量索引。這三個(gè)活動(dòng),獨(dú)立于全文檢索模塊,獨(dú)立運(yùn)行。
[0007]步驟I所述的構(gòu)建分詞詞典,主要是實(shí)現(xiàn)分詞詞典的構(gòu)建,構(gòu)建的分詞詞典是“二級(jí)分詞詞典”,其構(gòu)造方法如下:
步驟1-1,根據(jù)《通用分詞詞表》+《業(yè)務(wù)詞表》,構(gòu)成一級(jí)分詞;
其中,《通用分詞詞表》采用中科院計(jì)算所詞表作為通用分詞詞表,《業(yè)務(wù)詞表》包含了行業(yè)相關(guān)的專(zhuān)有名詞,可通過(guò)導(dǎo)入行業(yè)內(nèi)的業(yè)務(wù)名稱(chēng)構(gòu)建;
步驟1-2,自動(dòng)將一級(jí)分詞進(jìn)行細(xì)分,構(gòu)成候選二級(jí)分詞;
步驟1-3,人工篩選候選二級(jí)分詞;
構(gòu)建后的二級(jí)分詞詞典格式如下:一級(jí)分詞二級(jí)分詞數(shù)組(用I分割)。
[0008]步驟2所述的構(gòu)建全量索引,主要功能是實(shí)現(xiàn)數(shù)據(jù)索引文件的全量構(gòu)建,其主要過(guò)程如下:
步驟2-1,讀取每一個(gè)知識(shí)點(diǎn)文檔,對(duì)知識(shí)點(diǎn)文檔進(jìn)行分詞:分詞過(guò)程中將普通的分詞詞典和具有了語(yǔ)義關(guān)系的上下位詞典結(jié)合在一起,產(chǎn)生了多組分詞結(jié)果,并且根據(jù)每組結(jié)果中所包含的詞的個(gè)數(shù)以及詞的長(zhǎng)度進(jìn)行了排序,分詞的時(shí)候,按行讀取,然后在將每一行按照一些標(biāo)點(diǎn)符號(hào)進(jìn)行截取,得到小段的文字,依照分詞詞典和上下位詞類(lèi)“所謂詞類(lèi)就是具有同樣或者相近意思的一組詞的一個(gè)統(tǒng)稱(chēng)”詞典進(jìn)行分詞,對(duì)于到底是用詞類(lèi)還是用詞來(lái)建立索引,做了以下的規(guī)定,
①如果一個(gè)詞有詞類(lèi)并且只有一個(gè)詞類(lèi)“并且不是冗余詞類(lèi)”那么就用詞類(lèi)名來(lái)建立索引;
②如果一個(gè)詞有詞類(lèi)并且不止一個(gè),則需要對(duì)這個(gè)詞的每一個(gè)詞類(lèi)“不包含冗余詞類(lèi)”建立索引;
③如果一個(gè)詞在詞典中,但是不存在詞類(lèi),就用這個(gè)詞的本事來(lái)建立索引;
④如果一個(gè)詞在詞典中,并且是冗余詞類(lèi),則不對(duì)其建立索引;步驟2-2,建立索引,對(duì)每個(gè)詞/詞類(lèi)建立索引結(jié)構(gòu)。
[0009]所述的步驟2-2還包括以下步驟:
步驟2-2-1,建立索引文件:索引是一種用來(lái)從索引詞找到對(duì)應(yīng)文檔的方法,英文文本中單詞直接用空白分隔進(jìn)行分詞,中文文本采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所的分詞工具ICTClass進(jìn)行中文分詞,分詞后產(chǎn)生的詞作為索引詞直接進(jìn)行詞級(jí)或詞類(lèi)級(jí)的索引;
索引構(gòu)建中采用倒排文件“inverted file”方式建立,其處理過(guò)程是:依次處理每篇文檔記錄它包含的每個(gè)詞的出現(xiàn)位置,同時(shí)詞屬于詞類(lèi),這樣對(duì)每篇文檔中出現(xiàn)的每個(gè)詞可以產(chǎn)生一個(gè)三元組〈DocID(文檔 ID), TermID (詞 ID) |WordClassID (詞類(lèi) ID),Positions(多個(gè)位置信息)>,其中Positions代表索引詞TermID在DocID中出現(xiàn)的位置,
索引結(jié)構(gòu)包括:
〈ItemID I WordClassID (詞ID詞類(lèi)ID),〈DocID (文檔的ID),〈詞在文檔中的起始位置和所在的行數(shù) < 索引對(duì)象>>>>
此結(jié)構(gòu)是一個(gè)三級(jí)索引的對(duì)象,從內(nèi)到外的介紹如下:
最內(nèi)層的索引對(duì)象:
int StartIndex;// 一條索引中詞或者詞類(lèi)出現(xiàn)的起始位置 short int Length;//詞或者詞類(lèi)的長(zhǎng)度 第三層的結(jié)構(gòu):NkiInt2Ptr類(lèi)型〈詞在文檔中的起始位置和所在行數(shù),〈索引對(duì)象〉 第二層的結(jié)構(gòu):NkiString2Ptr類(lèi)型〈文檔的ID,第三層的結(jié)構(gòu)>
第一層的結(jié)構(gòu):NkiString2Ptr類(lèi)型〈詞類(lèi)/詞,第二層的結(jié)構(gòu)>
索引中每個(gè)字段的含義:
詞類(lèi)/詞:是對(duì)文檔內(nèi)容進(jìn)行分詞以后得到的;
文檔的ID:是文檔的唯一標(biāo)識(shí),因?yàn)橐粋€(gè)詞類(lèi)/詞可能出現(xiàn)在多個(gè)文檔中,此處用文檔名代替;
詞在文檔中的起始位置:由于一篇文檔中也可能有同一個(gè)詞的多次出現(xiàn),這個(gè)信息的記錄也是為后期的評(píng)分階段需要用的詞和詞之間的距離的計(jì)算;
詞在文檔中的行數(shù):根據(jù)知識(shí)點(diǎn)文檔的格式,第一行是知識(shí)點(diǎn)所在的業(yè)務(wù),第二行是知識(shí)點(diǎn)的概括,第三行是知識(shí)點(diǎn)的具體內(nèi)容,根據(jù)這個(gè)索引結(jié)構(gòu)就可以建立起所有的要檢索的知識(shí)點(diǎn)文檔的索引;
步驟2-2-2,壓縮索 引文件:對(duì)于每一個(gè)順串文件需要以TermID(WordClassID)為序存儲(chǔ)了大量〈TermID, DocID, Freq, posl, pos2, pos3,…,pos freq> 結(jié)構(gòu),當(dāng) TermID相同時(shí),以DocID為序遞增;在此結(jié)構(gòu)內(nèi)部,位置信息pos也按遞增排列;壓縮時(shí),第一步要進(jìn)行游程編碼,也就是把遞增整數(shù)序列變換為差分序列“原來(lái)相鄰整數(shù)之間的增量序列”;第二步,用某種編碼方法對(duì)小整數(shù)進(jìn)行編碼,以實(shí)現(xiàn)壓縮;隨后對(duì)所有順串文件歸并,得到最終的倒排文件索引;最終倒排文件中每一項(xiàng)的編碼方法和產(chǎn)生順串文件時(shí)的編碼方法是一樣的,只是少了 TermID ;米用Delta Code編碼方法,把整數(shù)χ>=1編碼為l+ljogij的Gama Code表示’后接卩呢^^位^-^^^的二進(jìn)制表示;當(dāng)一個(gè)文檔集中出現(xiàn)的〈term,doc>對(duì)總數(shù)為f,將它除以不同索引詞的總數(shù)n,再除以文檔總數(shù)N,得到P = f/(N*n),它表示任何隨機(jī)選取的文檔包含任何隨機(jī)選取的索引詞的概率,一個(gè)索引詞在文檔中出現(xiàn)一次就需要在倒排文件索引中記錄一個(gè)DocID增量值,當(dāng)?shù)古盼臋n中出現(xiàn)的f個(gè)〈term, doc>對(duì)是從文檔集所有可能的N*n個(gè)〈term, doc>對(duì)中隨機(jī)選取的,這個(gè)過(guò)程視為一個(gè)貝努利過(guò)程,有了這個(gè)假設(shè),DocID增量為X的概率可以表示為文檔中連續(xù)x-1個(gè)非特定索引詞后接著出現(xiàn)一次某個(gè)特定索引詞的概率,即
【權(quán)利要求】
1.一種新一代行業(yè)知識(shí)全文檢索方法,其特征在于:包括以下步驟: 步驟1,構(gòu)建分詞詞典:構(gòu)建分詞詞典,并將詞典信息存入數(shù)據(jù)庫(kù); 步驟2,構(gòu)建全量索引:對(duì)已經(jīng)存在的全文文檔“也稱(chēng)為知識(shí)點(diǎn)文檔”進(jìn)行讀取、分詞和分析,建立索引文件; 步驟3,構(gòu)建增量索引:對(duì)新增的文檔進(jìn)行處理,更新硬盤(pán)上的索引文件; 步驟4,構(gòu)建內(nèi)存索引,包括: 步驟4-1,構(gòu)建內(nèi)存分詞詞典:將分詞詞典數(shù)據(jù)讀入內(nèi)存,構(gòu)建內(nèi)存分詞詞典數(shù)據(jù)結(jié)構(gòu); 步驟4-2,構(gòu)建全量?jī)?nèi)存索引:從硬盤(pán)上讀取索引文件,全量構(gòu)建內(nèi)存索引; 步驟4-3,構(gòu)建增量?jī)?nèi)存索引:對(duì)新增的文檔進(jìn)行處理,實(shí)現(xiàn)內(nèi)存索引增量更新; 步驟5,全文檢索,包括: 步驟5-1,標(biāo)準(zhǔn)化用戶(hù)問(wèn)題:接受用戶(hù)咨詢(xún)的問(wèn)題并進(jìn)行標(biāo)準(zhǔn)化處理“也稱(chēng)規(guī)范化 處理”,去掉冗余詞、去掉不影響語(yǔ)義信息的沒(méi)用的標(biāo)點(diǎn)符號(hào),識(shí)錯(cuò)糾錯(cuò)、別稱(chēng)標(biāo)準(zhǔn)化; 步驟5-2,分詞:對(duì)標(biāo)準(zhǔn)化后的問(wèn)題進(jìn)行分詞; 步驟5-3,語(yǔ)義理解:對(duì)分詞結(jié)果進(jìn)行處理,提取出問(wèn)題中出現(xiàn)的分詞的所屬詞類(lèi)或 者標(biāo)準(zhǔn)詞,獲取分詞語(yǔ)義信息; 步驟5-4,語(yǔ)義擴(kuò)展:對(duì)分詞語(yǔ)義信息進(jìn)行語(yǔ)義擴(kuò)展,得到擴(kuò)展后的語(yǔ)義信息,這些 語(yǔ)義擴(kuò)展信息,使用一些詞或詞類(lèi)表示; 步驟5-5,獲取候選文檔:利用語(yǔ)義擴(kuò)展后得到的詞或者詞類(lèi)“這些詞或詞類(lèi)代表 擴(kuò)展后的語(yǔ)義信”,根據(jù)內(nèi)存索引信息,搜索相應(yīng)的全文文檔,作為候選文檔; 步驟5-6,排序候選文檔:對(duì)候選文檔進(jìn)行多角度的評(píng)分排名,評(píng)分越高,排名越 靠前,排序后的候選文檔成為最終的全文檢索結(jié)果; 其中,系統(tǒng)初始化的時(shí)候,構(gòu)建分詞詞典;構(gòu)建全量索引:讀取所有的知識(shí)點(diǎn)文檔,全量構(gòu)建硬盤(pán)索引文件“簡(jiǎn)稱(chēng)索引文件”;新增全文文檔的時(shí)候,構(gòu)建增量索引,這三個(gè)活動(dòng),獨(dú)立于全文檢索模塊,獨(dú)立運(yùn)行。
2.根據(jù)權(quán)利要求1所述的新一代行業(yè)知識(shí)全文檢索方法,其特征在于:步驟I所述的構(gòu)建分詞詞典,主要是實(shí)現(xiàn)分詞詞典的構(gòu)建,構(gòu)建的分詞詞典是“二級(jí)分詞詞典”,其構(gòu)造方法如下: 步驟1-1,根據(jù)《通用分詞詞表》+《業(yè)務(wù)詞表》,構(gòu)成一級(jí)分詞; 其中,《通用分詞詞表》采用中科院計(jì)算所詞表作為通用分詞詞表,《業(yè)務(wù)詞表》包含了行業(yè)相關(guān)的專(zhuān)有名詞,可通過(guò)導(dǎo)入行業(yè)內(nèi)的業(yè)務(wù)名稱(chēng)構(gòu)建; 步驟1-2,自動(dòng)將一級(jí)分詞進(jìn)行細(xì)分,構(gòu)成候選二級(jí)分詞; 步驟1-3,人工篩選候選二級(jí)分詞; 構(gòu)建后的二級(jí)分詞詞典格式如下:一級(jí)分詞二級(jí)分詞數(shù)組(用I分割)。
3.根據(jù)權(quán)利要求1所述的新一代行業(yè)知識(shí)全文檢索方法,其特征在于:步驟2所述的構(gòu)建全量索引,主要功能是實(shí)現(xiàn)數(shù)據(jù)索引文件的全量構(gòu)建,其主要過(guò)程如下: 步驟2-1,讀取每一個(gè)知識(shí)點(diǎn)文檔,對(duì)知識(shí)點(diǎn)文檔進(jìn)行分詞:分詞過(guò)程中將普通的分詞詞典和具有了語(yǔ)義關(guān)系的上下位詞典結(jié)合在一起,產(chǎn)生了多組分詞結(jié)果,并且根據(jù)每組結(jié)果中所包含的詞的個(gè)數(shù)以及詞的長(zhǎng)度 進(jìn)行了排序,分詞的時(shí)候,按行讀取,然后在將每一行按照一些標(biāo)點(diǎn)符號(hào)進(jìn)行截取,得到小段的文字,依照分詞詞典和上下位詞類(lèi)“所謂詞類(lèi)就是具有同樣或者相近意思的一組詞的一個(gè)統(tǒng)稱(chēng)”詞典進(jìn)行分詞,對(duì)于到底是用詞類(lèi)還是用詞來(lái)建立索引,做了以下的規(guī)定, ①如果一個(gè)詞有詞類(lèi)并且只有一個(gè)詞類(lèi)“并且不是冗余詞類(lèi)”那么就用詞類(lèi)名來(lái)建立索引; ②如果一個(gè)詞有詞類(lèi)并且不止一個(gè),則需要對(duì)這個(gè)詞的每一個(gè)詞類(lèi)“不包含冗余詞類(lèi)”建立索引; ③如果一個(gè)詞在詞典中,但是不存在詞類(lèi),就用這個(gè)詞的本事來(lái)建立索引; ④如果一個(gè)詞在詞典中,并且是冗余詞類(lèi),則不對(duì)其建立索引; 步驟2-2,建立索引,對(duì)每個(gè)詞/詞類(lèi)建立索引結(jié)構(gòu)。
4.根據(jù)權(quán)利要求3所述的新一代行業(yè)知識(shí)全文檢索方法,其特征在于:所述的步驟2-2還包括以下步驟: 步驟2-2-1,建立索引文件:索引是一種用來(lái)從索引詞找到對(duì)應(yīng)文檔的方法,英文文本中單詞直接用空白分 隔進(jìn)行分詞,中文文本采用中國(guó)科學(xué)院計(jì)算技術(shù)研究所的分詞工具ICTClass進(jìn)行中文分詞,分詞后產(chǎn)生的詞作為索引詞直接進(jìn)行詞級(jí)或詞類(lèi)級(jí)的索引; 索引構(gòu)建中采用倒排文件“inverted file”方式建立,其處理過(guò)程是:依次處理每篇文檔記錄它包含的每個(gè)詞的出現(xiàn)位置,同時(shí)詞屬于詞類(lèi),這樣對(duì)每篇文檔中出現(xiàn)的每個(gè)詞可以產(chǎn)生一個(gè)三元組〈DocID(文檔 ID), TermID (詞 ID) |WordClassID (詞類(lèi) ID),Positions(多個(gè)位置信息)>,其中Positions代表索引詞TermID在DocID中出現(xiàn)的位置, 索引結(jié)構(gòu)包括: 〈ItemID I WordClassID (詞ID詞類(lèi)ID),〈DocID (文檔的ID), <詞在文檔中的起始位置和所在的行數(shù) < 索引對(duì)象>>>> 此結(jié)構(gòu)是一個(gè)三級(jí)索引的對(duì)象,從內(nèi)到外的介紹如下: 最內(nèi)層的索引對(duì)象:
int StartIndex;// 一條索引中詞或者詞類(lèi)出現(xiàn)的起始位置 short int Length;//詞或者詞類(lèi)的長(zhǎng)度 第三層的結(jié)構(gòu):NkiInt2Ptr類(lèi)型〈詞在文檔中的起始位置和所在行數(shù),〈索引對(duì)象〉 第二層的結(jié)構(gòu):NkiString2Ptr類(lèi)型〈文檔的ID,第三層的結(jié)構(gòu)> 第一層的結(jié)構(gòu):NkiString2Ptr類(lèi)型〈詞類(lèi)/詞,第二層的結(jié)構(gòu)> 索引中每個(gè)字段的含義: 詞類(lèi)/詞:是對(duì)文檔內(nèi)容進(jìn)行分詞以后得到的; 文檔的ID:是文檔的唯一標(biāo)識(shí),因?yàn)橐粋€(gè)詞類(lèi)/詞可能出現(xiàn)在多個(gè)文檔中,此處用文檔名代替; 詞在文檔中的起始位置:由于一篇文檔中也可能有同一個(gè)詞的多次出現(xiàn),這個(gè)信息的記錄也是為后期的評(píng)分階段需要用的詞和詞之間的距離的計(jì)算; 詞在文檔中的行數(shù):根據(jù)知識(shí)點(diǎn)文檔的格式,第一行是知識(shí)點(diǎn)所在的業(yè)務(wù),第二行是知識(shí)點(diǎn)的概括,第三行是知識(shí)點(diǎn)的具體內(nèi)容,根據(jù)這個(gè)索引結(jié)構(gòu)就可以建立起所有的要檢索的知識(shí)點(diǎn)文檔的索引; 步驟2-2-2,壓縮索引文件:對(duì)于每一個(gè)順串文件需要以TermID(WordClassID)為序存儲(chǔ)了大量〈TermID,DocID, Freq, posl, pos2, pos3,…,pos freq> 結(jié)構(gòu),當(dāng) TermID相同時(shí),以DocID為序遞增;在此結(jié)構(gòu)內(nèi)部,位置信息pos也按遞增排列;壓縮時(shí),第一步要進(jìn)行游程編碼,也就是把遞增整數(shù)序列變換為差分序列“原來(lái)相鄰整數(shù)之間的增量序列”;第二步,用某種編碼方法對(duì)小整數(shù)進(jìn)行編碼,以實(shí)現(xiàn)壓縮;隨后對(duì)所有順串文件歸并,得到最終的倒排文件索引;最終倒排文件中每一項(xiàng)的編碼方法和產(chǎn)生順串文件時(shí)的編碼方法是一樣的,只是少了 TermID ;米用Delta Code編碼方法,把整數(shù)χ>=1編碼為1口0明扣的Gama Code表示,后接自明扣位χ[] 的二進(jìn)制表示;當(dāng)一個(gè)文檔集中出現(xiàn)的〈term,doc>對(duì)總數(shù)為f,將它除以不同索引詞的總數(shù)η,再除以文檔總數(shù)N,得到P = f/(N*n),它表示任何隨機(jī)選取的文檔包含任何隨機(jī)選取的索引詞的概率,一個(gè)索引詞在文檔中出現(xiàn)一次就需要在倒排文件索引中記錄一個(gè)DocID增量值,當(dāng)?shù)古盼臋n中出現(xiàn)的f個(gè)〈term, doc>對(duì)是從文檔集所有可能的N*n個(gè)〈term, doc>對(duì)中隨機(jī)選取的,這個(gè)過(guò)程視為一個(gè)貝努利過(guò)程,有了這個(gè)假設(shè),DocID增量為X的概率可以表示為文檔中連續(xù)x-1個(gè)非特定索引詞后接著出現(xiàn)一次某個(gè)特定索引詞的概率,即;Prk]CUlOjCnl P,說(shuō)明X符合幾何分布,這里隱含的條件是〈term,doc>對(duì)的出現(xiàn)是獨(dú)立同分布“貝奴利分布”的。
5.根據(jù)權(quán)利要求1所述的新一代行業(yè)知識(shí)全文檢索方法,其特征在于:步驟4所述的構(gòu)建內(nèi)存索引:完成增量?jī)?nèi)存索引、全量?jī)?nèi)存索引和內(nèi)存分詞詞典的構(gòu)建,主要過(guò)程包括: 步驟4-1,構(gòu)建內(nèi)存分詞詞典:將分詞詞典數(shù)據(jù)讀入內(nèi)存,構(gòu)建內(nèi)存分詞詞典數(shù)據(jù)結(jié)構(gòu); 步驟4-2,構(gòu)建全量?jī)?nèi)存索引: 對(duì)Tokeni中的所有分詞Wi: 若Wi不為單字{` 若Wi有詞類(lèi)Ci,則用Ci進(jìn)行索引到文檔集合D=W1, d2,…}; 否則,用Wi進(jìn)行索引;
} 否則,用Wi進(jìn)行索引; 步驟4-3,構(gòu)建增量?jī)?nèi)存索引; 步驟4-3-1,對(duì)增量文檔進(jìn)行分詞; 步驟4-3-2,增量更新現(xiàn)有的分詞詞典內(nèi)存結(jié)構(gòu); 步驟4-3-3,增量更新現(xiàn)有的內(nèi)存索引。
6.根據(jù)權(quán)利要求1所述的新一代行業(yè)知識(shí)全文檢索方法,其特征在于:步驟5所述的全文檢索:全文檢索過(guò)程如下: 步驟5-1,標(biāo)準(zhǔn)化用戶(hù)問(wèn)題:接受用戶(hù)咨詢(xún)的問(wèn)題并進(jìn)行標(biāo)準(zhǔn)化處理“也稱(chēng)規(guī)范化處理”,去掉冗余詞、去掉不影響語(yǔ)義信息的沒(méi)用的標(biāo)點(diǎn)符號(hào),識(shí)錯(cuò)糾錯(cuò)、別稱(chēng)標(biāo)準(zhǔn)化; 步驟5-2,分詞:對(duì)標(biāo)準(zhǔn)化后的問(wèn)題進(jìn)行分詞; 步驟5-2-1,對(duì)用戶(hù)query進(jìn)行分詞; 步驟5-2-2,話(huà)務(wù)員輸入關(guān)鍵詞組,設(shè)為query ; 步驟5-2-3,對(duì)query根據(jù)一級(jí)、二級(jí)分詞分詞,得到多組分詞結(jié)果,稱(chēng)為糾錯(cuò)前分詞Segl ;步驟5-2-4,對(duì)糾錯(cuò)前分詞進(jìn)行糾錯(cuò)處理,得到多組分詞結(jié)果,稱(chēng)為糾錯(cuò)后分詞Seg2,設(shè)為Seg=Segl U Seg2= {(W1, W2,…}},分詞結(jié)果按照分詞個(gè)數(shù)由少到多排序;糾錯(cuò)過(guò)程: (1)首先用糾錯(cuò)詞典糾錯(cuò); (2)然后用統(tǒng)計(jì)信息糾錯(cuò); 糾錯(cuò)如提條件: (I)對(duì)query中的每個(gè)word,記未糾錯(cuò)的word搜索歷史頻度T,糾錯(cuò)后的keyword搜索歷史頻度T’, a)若T’?T,則用糾錯(cuò)后進(jìn)行檢索,且給出提示; b)否則,用糾錯(cuò)前檢索; 步驟5-3,語(yǔ)義理解:對(duì)分詞結(jié)果進(jìn)行處理,提取出問(wèn)題中出現(xiàn)的分詞的所屬詞類(lèi)或 者標(biāo)準(zhǔn)詞,獲取分詞語(yǔ)義信息; 步驟5-3-1,分詞結(jié)果詞類(lèi)化,結(jié)果為T(mén)oken=HW1 (C1)1W2 (C2),...}};使用詞類(lèi)來(lái)表示分詞的含義,每一個(gè)分詞,可以存在多個(gè)含義,即可以屬于不同的詞類(lèi),Tokeni表示第I組分詞; 步驟5-3-2,咨詢(xún)歷史查詢(xún) 從咨詢(xún)歷史庫(kù)中,找到與query最相似的咨詢(xún)歷史query’,找到后,返回query’的檢索結(jié)果作為T(mén)opl文檔; 咨詢(xún)相似度定義如下:`
Sim (Tokeni (query) , Tokenj (query' ) ) = S i m ( {W I (Cl) , W 2 ( ' ),...},K,(Cl,),w2’(W2,),…})
=avg (sem_sim(Ci, Ci') + (1-a) *syn_sim (Wi, Wi')) (1)其中avg()是均值函數(shù);
(2)sem_sim(Ci, Ci') =1 (if ci U ci,! = Φ )


Oelse (Skyrusim^W/) =組成WjPW/中相同字符的個(gè)數(shù)/ WjPW/中互不相同的字符個(gè)數(shù); 步驟5-4,語(yǔ)義擴(kuò)展:對(duì)分詞語(yǔ)義信息進(jìn)行語(yǔ)義擴(kuò)展,得到擴(kuò)展后的語(yǔ)義信息,這些語(yǔ)義擴(kuò)展信息,使用一些詞或詞類(lèi)表示,對(duì)Tokeni進(jìn)行同義詞擴(kuò)展,擴(kuò)展后的分詞記為ETokeni 步驟5-5,獲取候選文檔:利用語(yǔ)義擴(kuò)展后得到的詞或者詞類(lèi)“這些詞或詞類(lèi)代表擴(kuò)展后的語(yǔ)義信”,根據(jù)內(nèi)存索引信息,搜索相應(yīng)的全文文檔,作為候選文檔; 步驟5-6,排序候選文檔:對(duì)候選文檔進(jìn)行多角度的評(píng)分排名,評(píng)分越高,排名越 靠前,排序后的候選文檔成為最終的全文檢索結(jié)果; 對(duì)D中的所有文檔進(jìn)行評(píng)分;評(píng)分考慮以下因素: (1)SegNum:query 分詞數(shù); (2)Segffordffgt:分詞自身權(quán)重“標(biāo)題、業(yè)務(wù)、摘要中的詞權(quán)重高”; (3)Docffordffgt:分詞在文檔中的權(quán)重; (4)DocHits:被索引到文檔的點(diǎn)擊量; (5)DocTime:被索引到文檔的時(shí)間;(6)Hitffordffgts:在文檔中出現(xiàn)的query中詞的權(quán)重; (7)Missedffordffgts:在文檔中未出現(xiàn)的query中詞的權(quán)重; (8)WordSpan(W1, W2,…,d):query中多個(gè)分詞兩兩在文檔中的距離; 步驟5-6-1
Credit(d)=Hitffordffgts/( Hitffordffgts + Missedffordffgts)
Wordffgt(wi, d)=doc_word_wgt(wi, d)*Posiffgt(wi)

Doc_word_wgt (wi, d) = tf idf (wi, d)={ 2.0 (需調(diào)),if word出現(xiàn)在標(biāo)題或業(yè)務(wù)中 Posiffgt (wi) = { 1.5 (需調(diào)),if word 出現(xiàn)在摘要中 { 1.0, else 步驟5-6-2
Credit (d) *= l/log2 (SegNum+1) 把Credit (d) Top_N (N待定)按時(shí)間排序; 步驟5-6-3 Credit (d) /= (WordSpan (wl***wn, d)+l)WordSpan(wl***wn, d) =Sum(l〈=i〈j〈=n 間隔字?jǐn)?shù)的函數(shù)(wi,wj)) 步驟5-7,咨詢(xún)歷史保存
系統(tǒng)第一次 Topl 給出=Token1=W1 (C1)W2 (C2) -Wn(Cn) dk
用戶(hù)選擇:Token2= W1' (C/)W2’ (C2X (Cn,) d』
若 k ! = j,且(HistoryTopl (Token2) = Φ )或者(HistoryTopl (Token2) !=dk) 則提示用戶(hù)進(jìn)行反饋,反饋實(shí)現(xiàn)如下: 步驟5-7-1,在j>2時(shí),在話(huà)務(wù)員查看文檔后,關(guān)閉時(shí),彈出反饋對(duì)話(huà)框,以確認(rèn)用戶(hù)對(duì)查詢(xún)的結(jié)果是否滿(mǎn)意; 步驟5-7-2 ,若話(huà)務(wù)員選是,那么保存HistoryTopl (Token2) =dj,保存格式如下: <Query, Token2, doc_type (文檔類(lèi)型),doc_id (文檔 ID) , doc_id_value (文檔 ID值)>。
7.根據(jù)權(quán)利要求6所述的新一代行業(yè)知識(shí)全文檢索方法,其特征在于:所述的全文檢索的檢索粒度,分別是“Service”、“Topic”、“Abstract”和“Mix”,其中Service (業(yè)務(wù))代表了全文文檔業(yè)務(wù)分類(lèi)信息;Topic (主題)代表了業(yè)務(wù)的一級(jí)知識(shí)點(diǎn);Abstract (摘要)代表了最細(xì)粒度的知識(shí)點(diǎn),是最精細(xì)的查詢(xún),Mix (混合)代表了各個(gè)知識(shí)粒度都返回。
【文檔編號(hào)】G06F17/30GK103823799SQ201210461748
【公開(kāi)日】2014年5月28日 申請(qǐng)日期:2012年11月16日 優(yōu)先權(quán)日:2012年11月16日
【發(fā)明者】王衛(wèi)民, 符建輝, 王石 申請(qǐng)人:鎮(zhèn)江諾尼基智能技術(shù)有限公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1