專利名稱:一種快速檢索方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及互聯(lián)網(wǎng)信息處理領(lǐng)域,具體涉及一種快速檢索方法及 系統(tǒng)。
背景技術(shù):
搜索引擎是以一定的策略搜集互聯(lián)網(wǎng)上的信息,在對信息進(jìn)行組 織和處理后為用戶提供網(wǎng)絡(luò)信息服務(wù)的計算機系統(tǒng),它包括計算機網(wǎng) 絡(luò)、計算機硬件系統(tǒng)以及在硬件系統(tǒng)上運行的軟件程序三個部分。它 的主要作用是幫助用戶快捷、高效的獲取存在于互聯(lián)網(wǎng)信息環(huán)境中的 能夠滿足用戶需求的高質(zhì)量信息。
目前,通用搜索引擎包含信息搜集、信息整理和用戶査詢?nèi)糠帧?搜索引擎通過被稱為網(wǎng)絡(luò)爬行器的工具進(jìn)行信息搜索,用索引器對抓 取的信息進(jìn)行整理,進(jìn)而使用查詢器進(jìn)行用戶查詢,并返回相關(guān)結(jié)果 列表,提供相關(guān)信息以滿足用戶的查詢需求。
從使用者的角度看,搜索引擎提供一個包含搜索框的頁面,用戶 在搜索框輸入能反映自己查詢需求的關(guān)鍵詞,通過瀏覽器提交給搜索 引擎后,搜索引擎返回和用戶輸入的內(nèi)容相關(guān)的搜索結(jié)果信息列表, 用戶進(jìn)行點擊查找所需要的信息。
專家檢索可以理解為是使用搜索引擎幫助用戶查詢給定主題方面
的權(quán)威與可信人。文本檢索會議TREC(Text Retrieval Conference)是文
本檢索領(lǐng)域中人氣最旺、最具權(quán)威的評測會議,由美國國防部和美國 國家技術(shù)標(biāo)準(zhǔn)局(NIST)聯(lián)合主辦。根據(jù)TREC對網(wǎng)絡(luò)信息檢索部 分的權(quán)威定義,專家是某一個給定領(lǐng)域的權(quán)威性人物,而專家檢索是 根據(jù)用戶給定的需求,利用搜索引擎收集的信息自動分析判斷,返回 一個相關(guān)專家結(jié)果列表,提供專家信息滿足用戶查詢需求。提供的專家信息可以包括專家的姓名、主頁信息、專家領(lǐng)域還有描述文檔。其中描述文檔的定義為在搜素引擎收集的信息文檔中,搜索引擎可以判斷為對某個候選人是專家具有支持信息的文檔。專家檢索之所以關(guān)鍵,是因為它提供給用戶一個方便尋找某個領(lǐng)域?qū)<业谋憬莘椒ā?br>
由于在實際中用戶有很強的尋找專家的需求,同時目前的通用搜索引擎很難滿足用戶尋找專家的需求,因此,自動準(zhǔn)確地查找某一查詢主題下的專家資源對于網(wǎng)絡(luò)信息檢索工具提高其信息收集的有效性十分重要,其定位技術(shù)也成為了網(wǎng)絡(luò)信息檢索研究和應(yīng)用中的重點
考察問題之一。反映在文本檢索會議TREC ( Text RetrievalConference)特意設(shè)立了 一個專家檢索的檢索任務(wù),每年都有來自世界各國的大學(xué)與研究機構(gòu)進(jìn)行搜索評測,同時在國際信息檢索研究最高水平的SIGIR( International ACM SIGIR Conference on Research andDevelopment in Information Retrieval )會議上,專家檢索查找技術(shù)無論從論文數(shù)目還是質(zhì)量來看,近年來逐漸呈上升趨勢。查找專家,是當(dāng)前網(wǎng)絡(luò)信息檢索的發(fā)展熱點,也已經(jīng)獲得了一些卓有成效的理論研究和實驗結(jié)果。但總的來說,專家技術(shù)研究的發(fā)展還停留在一個相對低的水平上,作為評價標(biāo)準(zhǔn)的平均結(jié)果檢索精度(Mean AveragePrecision, MAP ) —直在40%左右徘徊。
傳統(tǒng)專家檢索技術(shù)釆用的方式是給定某領(lǐng)域關(guān)鍵詞,使用搜索引擎檢索出相關(guān)的文檔。然后從這些相關(guān)的文檔中挖掘該領(lǐng)域的專家。該種方法在第一步找出相關(guān)文檔中可以使用一些現(xiàn)有比較成熟的比如語言模型等方法,在第二步挖掘?qū)<铱梢允褂枚喾N方法,比如統(tǒng)計這些文檔中出現(xiàn)的專家名次數(shù),然后按出現(xiàn)次數(shù)排序,出現(xiàn)的多的即為專家。
這種傳統(tǒng)的檢索方法存在的弊端是1、找到的相關(guān)的文檔中可能含有專家信息不多,因為專家名在整個文檔集合中的分布是比較稀疏的;2、檢索效率不高,由于整個第二步即專家挖掘過程都是在線上時間開展,也就是用戶和搜索引擎交互的時間,因此用戶希望這段時 間越短越好,但當(dāng)時間受限時,就不能釆用比較復(fù)雜效果好的算法來 尋找專家。3、查詢詞對專家的區(qū)分度不強,在第一步文檔檢索中, 查詢詞的區(qū)分度是根據(jù)該詞在文檔集合中出現(xiàn)次數(shù)決定的,比如"導(dǎo) 師"這個詞在整個文檔集合中出現(xiàn)不多,那么這個詞對文檔的區(qū)分度 就很高。但是對于專家檢索來說,"導(dǎo)師"這個詞對于專家來說區(qū)分度 就不高,因此傳統(tǒng)方法不能解決查詢詞對專家區(qū)分度不同的問題。
在搜索引擎領(lǐng)域,不只是專家搜索引擎存在以上技術(shù)問題,對于 其它需要獲取特定方面信息的搜索引擎均存在以上問題。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種快速檢索方法及系統(tǒng),可以解決需要獲 取特定方面信息的搜索引擎如專家檢索所存在的速度慢、區(qū)分度不高 的技術(shù)問題,有效提高了檢索速度,且檢索結(jié)果準(zhǔn)確。
為實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案
一種快速檢索方法,該方法包括步驟s101,收集待檢索對象列 表及文檔;s102,在所述文檔中標(biāo)注出現(xiàn)在所述待檢索對象列表中的 待檢索對象;s103,抽取所述文檔中已標(biāo)注的待檢索對象前若干個字
符信息,及已標(biāo)注的待檢索對象后若干個字符信息;si04,將由同一
待檢索對象抽取的字符信息匯集為 一 個描述文檔,得到該待檢索對象
對應(yīng)的描述文檔;sl05,在所有待檢索對象對應(yīng)的描述文檔上建立索
引,根據(jù)用戶的査詢詞在所有待檢索對象對應(yīng)的描述文檔上檢索并給 出檢索結(jié)果。
其中,所述待檢索對象為人名,所述人名為包括中文名和外文名, 在收集的待檢索人名列表中,將屬于同一外文名的不同變體形式的待 檢索人名視為同一待檢索人名。
其中,所述文檔包括電子郵件,在步驟sl01后還包括根據(jù)電 子郵件的格式化信息,獲取由所述電子郵件的發(fā)件人和發(fā)件人郵箱地
8址信息、收件人與收件人地址信息、抄送人與抄送人地址信息分別構(gòu) 成包括人名與郵箱地址信息的人名郵箱對;將出現(xiàn)所述待檢索人名列 表中的待檢索人名的人名郵箱對的郵箱地址信息抽取出來,添加到所 述待檢索人名列表中,所述抽取的人名郵箱對中包含的郵箱地址信息 視為與所出現(xiàn)的待檢索人名為同一待檢索人名。
其中,所述文檔包括不同數(shù)據(jù)格式的文檔,步驟S102之前,還
包括對不同數(shù)據(jù)格式的文檔進(jìn)行預(yù)處理,轉(zhuǎn)換為國際標(biāo)準(zhǔn)漢字編碼 的同一數(shù)據(jù)格式;根據(jù)所述文檔的格式化信息,對預(yù)處理后的具有同
一數(shù)據(jù)格式的文檔進(jìn)行冗余信息過濾,所述冗余信息包括文檔中的腳 本程序和頭部信息。
其中,所述文檔包括電子郵件,在步驟s103中,包括根據(jù)電 子郵件的格式化信息獲取郵件的標(biāo)題域、發(fā)件人域、接收人域、抄送 人域、作者書寫域;當(dāng)所述已標(biāo)注的待檢索人名出現(xiàn)在電子郵件的發(fā) 件人域時,則抽取所述電子的標(biāo)題域和作者書寫域的全部字符信息; 當(dāng)所述已標(biāo)注的待檢索人名出現(xiàn)在所述收件人域或抄送人域時,則抽 取所述電子郵件的標(biāo)題域的全部字符信息。
其中,在步驟sl03中,還包括根據(jù)電子郵件的格式化信息獲 取包括作者書寫域、前文引文域、正文段落、子章節(jié)標(biāo)題段落、文字 加粗段落的正文域;當(dāng)所述已標(biāo)注的待檢索人名出現(xiàn)在正文域時,則 抽取已標(biāo)注的待檢索人名前后各若干個字符信息,同時還抽取所述電 子郵件的標(biāo)題域的字符信息、距離已標(biāo)注的待檢索人名之前最近的子 章節(jié)標(biāo)題段落的字符信息、距離已標(biāo)注的待檢索人名前后最近的文字 加粗段落的字符信息。
其中,所述文檔包括網(wǎng)頁,在步驟sl03中,包括根據(jù)網(wǎng)頁的 格式化信息獲取網(wǎng)頁的標(biāo)題域、正文域、子章節(jié)標(biāo)題段落、文字加粗 段落;當(dāng)所述已標(biāo)注的待檢索人名出現(xiàn)在網(wǎng)頁的正文域時,則抽取已 標(biāo)注的待檢索人名前后各若干個字符信息,同時還抽取所述網(wǎng)頁的標(biāo)題域的字符信息、距離已標(biāo)注的待檢索人名之前最近的子章節(jié)標(biāo)題段 落的字符信息、距離已標(biāo)注的待檢索人名前后最近的文字加粗段落的 字符信息。
其中,在步驟Sl03中,在文檔中連續(xù)出現(xiàn)多個已標(biāo)注的待檢索 人名,且其中每兩個相鄰的已標(biāo)注的待檢索人名間的字符數(shù)小于設(shè)定 值,則所述連續(xù)出現(xiàn)的多個已標(biāo)注的待檢索人名構(gòu)成待檢索人名組, 對于所述待檢索人名組中的每一個待檢索人名,在所述文檔中抽取待 檢索人名組前的若干子符信息及待檢索人名組后的若干個字符信息。
其中,在步驟sl05中,在給出檢索前包括步驟獲取每個待檢 索人名對應(yīng)的描述文檔的知識程度,所述知識程度與知識專注比成正 比,所述知識專注比為
待檢索人名對應(yīng)的描述文檔中2出現(xiàn)的所有片斷長度和
知識專注比二 (1_6)
待檢索人名對應(yīng)的描述文檔長度
該式中,6為用于調(diào)節(jié)知識專注比強度的常量,取值范圍在0至1之 間,所述g為用戶給定的查詢詞,所述片斷為抽取的由已標(biāo)注的待 檢索人名前的若干個字符信息與待檢索人名后的若干個字符信息組 成的片段;將前n個具有最高的知識程度的待檢索人名對應(yīng)的描述文 檔作為檢索結(jié)果輸出,其中n為設(shè)定值。
其中,在步驟s105中,在獲取所述知識專注比后,還包括獲取 查詢詞^的區(qū)分度,所述知識程度與查詢詞g的區(qū)分度成正比,所 述查詢詞^的區(qū)分度為
查綱柳區(qū)分度「 鵬文檔集合中的文檔M
在描述文檔集合中出現(xiàn)查詢詞g的文檔數(shù)量 該式中,所述描述文檔集合為由所有待檢索人名對應(yīng)的描述文檔構(gòu)成 的集合。
其中,在步驟sl05中,在獲取查詢詞后,還包括獲取每個待檢 索人名對應(yīng)的描述文檔的信息強度,所述每個待檢索人名對應(yīng)的描述 文檔信息強度為描述文檔的信息強度= Z該描述文檔中片斷,的信息強度
該描述文檔中每個片段''
該式中,所述片斷Z為抽取的由已標(biāo)注的待檢索人名前的若干個字符 信息與待檢索人名后的若干個字符信息組成的片段,Z'為正整數(shù)用于
區(qū)分不同的片斷,所述該描述文檔中片斷z'的信息強度為
'古ift'夫廿秋出&l的^自觀齒一伯坐刑W玄3S許査詢詞g在片斷 '中出現(xiàn)的次數(shù)x (A: + 1) 該描扁中片關(guān)k隱—z的鄉(xiāng),度x^^^^^^
該式中,Z'的類型聯(lián)系強度根據(jù)描述文檔的類型設(shè)定的權(quán)重,取值范 圍0 1,A是用于調(diào)節(jié)信息強度的變量,A與查詢詞g在片斷/中出現(xiàn) 的次數(shù)成正比,取值范圍為0~1;每個待檢索人名對應(yīng)的描述文檔
的知識程度為
知識程度二該描述文檔的信息強度x查詢詞g的區(qū)分度x知識專注比。
本發(fā)明還提供了一種快速檢索系統(tǒng),該系統(tǒng)包括待檢索信息獲 取單元,用于收集待檢索對象列表及文檔;待檢索對象標(biāo)注單元,用
于在所述文檔中標(biāo)注出現(xiàn)在所述待檢索對象列表中的待檢索對象;待
檢索信息抽取單元,用于抽取所述文檔中已標(biāo)注的待檢索對象前若干
個字符信息,及已標(biāo)注的待檢索對象后若干個字符信息;待檢索信息 整理單元,用于將由相同的待檢索對象抽取的字符信息匯集為一個描 述文檔,得到該待檢索對象對應(yīng)的描述文檔;檢索單元,在所有待檢 索對象對應(yīng)的描述文檔上離線建立索引,根據(jù)用戶的查詢詞在所有待 檢索對象對應(yīng)的描述文檔上檢索并給出檢索結(jié)果。
利用本發(fā)明提供的快速檢索方法及系統(tǒng)具有以下有益效果
若待檢索對象式人名時,利用已有的人名列表(如由企業(yè)進(jìn)行提 供的專家人名列表),對收集的所有文檔(由企業(yè)提供或通過網(wǎng)絡(luò)爬 蟲下載)進(jìn)行分析,事先將人名列表中與人名具有支持或者描述信息 的內(nèi)容進(jìn)行自動識別與抽取,進(jìn)而將這些被抽取的與人名信息相關(guān)的
片段聚到一起構(gòu)成一個該人名具有描述作用的文檔;然后使用現(xiàn)有的 搜索引擎簡歷索引的技術(shù)在這些描述文檔集合上建立索引,當(dāng)?shù)絹聿?詢時,檢索出相關(guān)的描述文檔,返回該描述文檔對應(yīng)的人名。由于對
ii人名(專家)的人名標(biāo)注、描述文檔片段識別與抽取,建立描述文檔 索引這些過程都是在線下自動完成的,因此可以大大提高用戶在線搜 索的反應(yīng)時間,提高用戶的滿意度。
圖i為本發(fā)明快速檢索方法的流程圖2為本發(fā)明快速檢索系統(tǒng)的組成框圖3為本發(fā)明實施例中電子郵件中各區(qū)域標(biāo)注示意圖4為本發(fā)明實施例中網(wǎng)頁中各區(qū)域標(biāo)注示意圖5為本發(fā)明實施例中人名獲取過程流程圖6為本發(fā)明實施中在文檔中進(jìn)行人名標(biāo)注流程圖7為本發(fā)明實施例中給出檢索結(jié)果過程流程圖。
具體實施例方式
本發(fā)明提出的快速檢索方法及系統(tǒng),結(jié)合附圖和實施例詳細(xì)說明 如下。
如圖l所示為本發(fā)明快速檢索方法流程圖,該方法包括步驟 s101,收集待檢索對象列表及文檔;s102,在文檔中標(biāo)注出現(xiàn)在待檢 索對象列表中的待檢索對象;s103,抽取文檔中已標(biāo)注的待檢索對象 前、后若干個字符信息;s104,將由同一待檢索對象抽取的字符信息 匯集為一個描述文檔,得到該待檢索對象對應(yīng)的描述文檔;s105,在 所有待檢索對象對應(yīng)的描述文檔上建立索引,根據(jù)用戶的查詢詞在所 有待檢索對象對應(yīng)的描述文檔上檢索并給出檢索結(jié)果。
如圖2所示為本發(fā)明快速檢索系統(tǒng)的組成框圖,該系統(tǒng)包括待 檢索信息獲取單元,用于收集待檢索對象列表及文檔;待檢索對象標(biāo) 注單元,用于在文檔中標(biāo)注出現(xiàn)在待檢索對象列表中的待檢索對象; 待檢索信息抽取單元,用于抽取文檔中已標(biāo)注的待檢索對象前、后若 干個字符信息;待檢索信息整理單元,用于將由相同的待檢索對象抽 取的字符信息匯集為一個描述文檔,得到該待檢索對象對應(yīng)的描述文檔;檢索單元,在所有待檢索對象對應(yīng)的描述文檔上離線建立索引, 根據(jù)用戶的查詢詞在所有待檢索對象對應(yīng)的描述文檔上檢索并給出 檢索結(jié)果。 實施例
本實施例中待檢索對象為人名,檢索方法是基于專家描述文檔構(gòu)
建的快速專家檢索方法,根據(jù)TREC對網(wǎng)絡(luò)信息檢索部分的權(quán)威定義, 專家是某一個給定領(lǐng)域的權(quán)威性人物,而專家檢索是根據(jù)用戶給定的 需求,利用搜索引擎收集的信息自動分析判斷,返回一個相關(guān)專家結(jié) 果列表,提供專家信息滿足用戶查詢需求。利用本發(fā)明提供的檢索方 法收集企業(yè)提供的認(rèn)為為專家的專家人名列表,及搜集可能包含專家 支持信息的文檔,可以解決現(xiàn)有技術(shù)中檢索速度慢,專家檢索效果不 高且專家區(qū)分度低的問題,本實施例的詳細(xì)過程為 步驟l:收集待檢索人名列表及文檔
本實施例中待檢索人名列表為專家人名列表,對于每一個搜索引 擎商家來說,都要事先進(jìn)行被檢索文檔信息的下載,將下載下來的文 檔信息保存在服務(wù)器上,離線建立索引,當(dāng)用戶查詢時便可以根據(jù)查 詢關(guān)鍵詞在服務(wù)器上已保存的文檔信息中迅速查到相關(guān)信息并返回。 本實施例中即可以利用現(xiàn)有技術(shù)中的網(wǎng)絡(luò)爬蟲將有可能包括專家的 信息的文檔下載下來,也可以直接收集由企業(yè)提供的可能包括專家的 信息的文檔,該文檔可以是各種數(shù)據(jù)格式的文檔,如網(wǎng)頁、電子郵件、 PDF與Word文檔等。網(wǎng)絡(luò)爬蟲實際是一種網(wǎng)絡(luò)下載工具,其特點是 根據(jù)初始的網(wǎng)頁(種子)不斷鏈接網(wǎng)頁并下載,同時還不斷連接已下 載網(wǎng)頁所能鏈接的網(wǎng)頁并下載,詳細(xì)過程這里不再詳述。
本實施例中的專家人名列表具體由企業(yè)提供的所有潛在專家的人 名列表,過步驟為信息收集過程,可以釆用不同的渠道,所收集的專 家人名列表中的人名作為檢索對象被認(rèn)為是專家,如圖5所示,具體 包括步驟
13步驟l.l:獲取初始專家人名集合及人名變體
本實施例中根據(jù)獲得的人名得到人名集合列表,列表時,人名的 表示根據(jù)中文名和外文人名用不用的方式表示。 對于中文人名,包括人的全名,即姓和名。
而外文人名包括名(Firstname), 中間名(Middlename)和姓 (Lastname),其中對于外文人名本實施例中還生成幾種變體形式,以 方便于在文檔集合上進(jìn)行標(biāo)注,這些變體形式包括
名(Firstname)姓(Lastname);
名(Firstname).姓(Lastname);
名的首字母大寫(F).姓(Lastname);
名的首字母大寫(F).中間名大寫(M).姓(Lastname);
姓(Lastname),名(Firstname); 本實施例中的變體形式不限于以上幾種形式,還可以根據(jù)需要作 出其它的變體,從上面的變體可以看出,有可能出現(xiàn)一個人名用上述 不同的形式表示的情況,本實施例中初始時,對所有不同的人名包括 人名的變體形式,都對應(yīng)分配一個專家標(biāo)識號id,代表這個專家的可 能用名形式。每個專家標(biāo)識號id是系統(tǒng)自動分配的用戶標(biāo)識號,用 于區(qū)別不同專家。
步驟1.2:人名集合排歧
在步驟1.1中獲得的人名集合中存在著一定的歧義可能,例如不 同專家標(biāo)識號id的人名集合中存在著相同的人名變體形式,比如共 同的名的首字母大寫(F).姓(Lastname),因此,需要將同一個人名對應(yīng) 的其它變體形式被分配的標(biāo)識號id刪除,保證不同的專家使用不同 的id號,避免出現(xiàn)同一個專家由于人名表示方式不同而釆用不同標(biāo) 識號id的情況,本實施例中檢查所有專家標(biāo)識號id,刪除所有隸屬 于不同專家標(biāo)識號id的相同的人名變體的標(biāo)識號id,即用一個標(biāo)識 號id表示該人名及對應(yīng)的人名變體。該過程很簡單,具體為使用枚舉的方法羅列初始全部的人名的各所屬的表示方式,判斷其中是否有 重復(fù),將不同表示方式的人名表示相同部位,如姓、名和中間名對應(yīng) 比較,如果完全相同則表示是同一個人名。
步驟1.3:獲取人名集合對應(yīng)的郵箱名
在電子郵件文檔中,可以根據(jù)電子的格式化信息,獲取電子郵件 頭部的發(fā)件人、收取人、抄送人的人名與對應(yīng)的郵箱地址信息,其中 每一個人的人名與郵箱地址構(gòu)成了 一個人名-郵箱名對。
對所有的專家標(biāo)識號id,從第一個專家M開始(這里的M表示 第一個專家id),設(shè)其初始人名集合為該專家M的全名和所有的人名 變體;在從電子郵件信息中抽取的所有的人名-郵箱名對中,將所有 的出現(xiàn)有專家M的全名和人名變體的人名-郵箱名對中的郵箱地址添 加到專家M的人名集合中,意味著這些郵箱是專家M使用的郵箱, 也是專家M的一種人名標(biāo)示。對專家M的所有可能郵箱名,記錄其 出現(xiàn)的次數(shù),如果郵箱的出現(xiàn)次數(shù)小于等于3,則從專家M對應(yīng)的人 名集合中去除該郵箱名。刪除出現(xiàn)次數(shù)少的郵箱是考慮到存在有的郵 箱地址是敲錯的,同時有可能某人借用了其他人郵箱發(fā)信的情況,因 此只有一個郵箱被一個人使用多次時才能說明該郵箱是其使用的郵 箱。
步驟2:在文檔中進(jìn)行人名標(biāo)注
用于專家檢索的數(shù)據(jù)集合通常來自于企業(yè)內(nèi)部的各種數(shù)據(jù)格式 的文檔,包括網(wǎng)頁、電子郵件、PDF與Word文檔等,對于不同的數(shù) 據(jù)格式需要進(jìn)行不同的數(shù)據(jù)預(yù)處理,如圖6所示為本實施例中人名標(biāo) 注過程,該過程包括
步驟2.1:對于所有的網(wǎng)頁與電子郵件文檔,將其采用的不同的 記錄格式(如通用資源標(biāo)志符即URI格式等)轉(zhuǎn)換成國家標(biāo)準(zhǔn)漢字 編碼GBK格式,然后以UTF8 (Unicode Transformation Format — 8 bit)
的格式進(jìn)行存儲;步驟2.2:對于PDF、 Word和PPT等文檔格式,釆用格式解析 程序?qū)⑦@些文檔中的文本信息取出,然后以國家標(biāo)準(zhǔn)漢字編碼的 GBK格式,然后以UTF8的格式進(jìn)行存儲;
步驟2.3:對轉(zhuǎn)好碼的文檔進(jìn)行冗余信息的過濾,包括網(wǎng)頁中的 腳本程序、網(wǎng)頁頭部信息等,腳本程序和網(wǎng)頁頭部信息在格式化信息 中使用超文本標(biāo)記語言html格式的命令標(biāo)注說明出來,如果識別到 這些標(biāo)注信息就可以判斷出哪些為腳本程序,哪些為頭部信息。
步驟2.4:利用步驟l中獲得的專家人名集合在步驟2.3預(yù)處理后 的文檔中進(jìn)行人名標(biāo)注。對所有具有不同標(biāo)識號專家id,從第一個專 家M開始,對所有文檔進(jìn)行掃描,將專家M的人名集合中包括的所 有的全名、人名變體、郵箱名在文檔中的地方都標(biāo)注出來,出現(xiàn)的專 家M的標(biāo)志前后以'、Mid〉識別出的專家的人名〈/Mid"的格式標(biāo) 記出,其中〈M id〉標(biāo)識第一個專家M的標(biāo)識號,然后遍歷專家列表 中的所有不同的id的專家,重復(fù)以上步驟,完成人名標(biāo)注步驟。
步驟3:在文檔集合中自動識別與抽取專家信息相關(guān)的知識片段
本實施例中根據(jù)文檔不同的類型采用不同的專家信息抽取方法, 若文檔類型為電子郵件,采用如下方法.-
根據(jù)電子郵件的格式化信息獲取郵件的頭域與正文域,如圖3所 示,頭域包括標(biāo)題域A、發(fā)件人域B、接收人域或抄送人域C,正文 域包括普通段落、子章節(jié)標(biāo)題段落、文字加粗段落和文字加斜段落, 圖3中的H域是關(guān)于這封郵件的曰志信息,I域是到其他和這封郵件 相關(guān)郵件的鏈接。
對于已經(jīng)在電子郵件中被步驟2中標(biāo)注出的專家標(biāo)示符,具體為 "<M id〉識別出的專家的人名</M id>",對其相關(guān)的知識片段信息的 識別與抽取包括以下幾種情況
如果"識別出的專家的人名"出現(xiàn)在郵件頭域的郵件發(fā)件人域B, 則將郵件的標(biāo)題域A和正文域中的作者書寫域中(包括D、 E、 F、 G,D為收信人稱呼域,E為前文域,F(xiàn)為正文內(nèi)容域,G為發(fā)信人結(jié)尾祝好與簽名域)的全部內(nèi)容作為支持專家c的專家描述文檔標(biāo)記出。本實施例中在標(biāo)題域A的信息前后以<Mid—mailTitle>標(biāo)題 〈/N^mailTitle〉的格式標(biāo)記出。正文域中的作者書寫域中的全部內(nèi)容 前后以〈Mid—mailAuthor〉作者書寫內(nèi)容々Mid—mailAuthor〉標(biāo)記出。如果"識別出的專家的人名"出現(xiàn)在郵件頭域的收件人或者抄送 人域C,則將郵件的標(biāo)題域A的全部內(nèi)容作為支持M的專家描述文 檔標(biāo)記出;標(biāo)題域A的信息前后以<Mid—mailTMe>標(biāo)題 </M—mailTitle>的格式標(biāo)記出。對于在正文域中出現(xiàn)的"識別出的專家的人名",首先對該"識別 出的專家的人名"前后出現(xiàn)的100個字符(如果前或后少于IOO個字 符,則取其所有)取出作為M的上下文描述文檔片段,然后以 <Mid—mailContext〉正文域</M_mailContext>的格式標(biāo)記出;接著將標(biāo) 題域前后以〈Mid—mailTitle〉標(biāo)題域〈/M—mailContext〉的格式標(biāo)記出; 接著將距離"識別出的專家的人名"之前最近的一個子章節(jié)標(biāo)題段落 以〈Mid—mailHeading〉子標(biāo)題域〈/Mid—mailHeading >格式標(biāo)記出;將 "識別出的專家的人名"前后最近的文字加粗段落為《id一mai舊old〉 粗體域々Cid—mai舊old〉格式標(biāo)記出。以上被標(biāo)記出的這些描述信息都是"識別出的專家的人名"的id 對應(yīng)的專家信息相關(guān)描述信息。若文檔類型為網(wǎng)頁,釆用如下方法根據(jù)網(wǎng)頁的格式化信息獲取網(wǎng)頁區(qū)分網(wǎng)頁中的各個不同的域,如 圖4所示的被標(biāo)注的標(biāo)題域Ai、正文域、子章節(jié)標(biāo)題段落B!、文字 加粗段落和文字加斜段落(圖中d為上下文描述文檔域),由于網(wǎng)頁 中每個部分都有HTML格式化信息標(biāo)注,例如頭信息前后有々itlex/ title>標(biāo)注出,標(biāo)題域有< heading 1 >< /heading 1 >或者< heading2>< /heading2>等標(biāo)注出,粗體域有<bold></bold>標(biāo)注出,斜體域有17<italic></ italic >標(biāo)注出等,因此很容易將上述各個域區(qū)分出來。對于在正文域中出現(xiàn)的"識別出的專家的人名",首先對該標(biāo)識前后出現(xiàn)的100個字符(如果前或后少于100個字符,則取其所有)取 出作為專家M的上下文描述文檔片段,之后以〈Mid—webContext〉正 文域</M—webContext>的格式標(biāo)記出;接著將標(biāo)題域A!前后以 <Mid—webTitle〉標(biāo)題域</M—webContext>的格式標(biāo)記出;接著將距離"識別出的專家的人名"之前最近的一個正文子章節(jié)標(biāo)題以 <Mid—webHeading〉子標(biāo)題域〈/Mid—webHeading〉格式標(biāo)記出;將"識 別出的專家的人名"前后最近的文字加粗段落為〈Mid—webBold〉粗體 域〈/Mid—webBold〉格式標(biāo)記出。在網(wǎng)頁和其它類型的文檔中,還存在多個"識別出的專家的人名" 同時出現(xiàn)的情況,多個"識別出的專家的人名"出現(xiàn)在一起構(gòu)成一個 組。進(jìn)行如下處理在文檔中連續(xù)出現(xiàn)多個(本實施例中設(shè)定大于5個)的"識別出的專家的人名",且其中每兩個相鄰"識別出的專家的人名"間字符 數(shù)少于設(shè)定值(本實施例中該設(shè)定值為15),則這些連續(xù)出現(xiàn)的多個 "識別出的專家的人名"構(gòu)成一個專家組。對于組中的每一個專家N, 在整個組前后的出現(xiàn)的100個字符(如果前或后少于100個字符,則 取其所有)取出,以前后<Nid _groupContext >正文域 〈/NicLgroupContext〉的格式標(biāo)記出。對每個專家N的標(biāo)識號id與其 后面的字符取出,前后以<Nid_groupDesrciption>正文域</Nid_ Nid—groupDesrciption >的格式標(biāo)記出。以上被標(biāo)記出的這些描述信息都是"識別出的專家的人名"的id 對應(yīng)的專家信息相關(guān)描述信息。步驟4,構(gòu)建專家對應(yīng)的描述文檔在步驟3中標(biāo)注出了每一個專家對應(yīng)的描述文檔片段。把每一個 專家對應(yīng)的全部的描述文檔片段抽取出來拼接成一個描述文檔,文件名命名為專家標(biāo)識號id,這樣即實現(xiàn)了每一個專家id對應(yīng)于一個描 述文檔。步驟5,離線建立索引,根據(jù)用于給定查詢在專家描述文檔集合上檢索對應(yīng)專家 離線建立索引技術(shù)為現(xiàn)有技術(shù),這里不再詳述。本實施例中在用戶給定查詢詞Q后,設(shè)在整個專家描述文檔集合 中共有L個描述文檔,本實施例依次計算每一個專家對應(yīng)的描述文檔 的專家知識程度,對所有專家對應(yīng)的描述文檔的專家知識程度值進(jìn)行 排序,取前n位作為查詢結(jié)果返回(n為設(shè)定值),則這n個專家描 述文檔對應(yīng)的專家就是給定查詢詞Q的領(lǐng)域的專家。如圖7所示為 給出檢索結(jié)果的詳細(xì)過程,該過程包括步驟5.1,計算描述文檔的專家信息強度本實施例中計算對于給定用戶查詢詞Q,每個專家對應(yīng)的描述文 檔的專家信息強度,即每個專家對應(yīng)的描述文檔中包含查詢詞Q的 強度。設(shè)專家M對應(yīng)的描述文檔中包含有j個與M相關(guān)的描述文檔 片段(即上述利用格式化標(biāo)記出的前后段信息),每個片段具有不同 的標(biāo)記信息,如〈Mid—groupContext>、 <Mid—webHeading〉等。本實施例中首先計算描述文檔中片段i的專家信息強度(i為正整數(shù),表示 描述文檔中的第i個片段),計算公式為憂、十a(chǎn)外出—^ .的土々戶自口S p — t伯來肝《 s *..査詢詞2在片斷'.中出現(xiàn)的次數(shù)x ( A: +1) M劉牛麵鵬割曰鵬—鵬翻繊x查詢詞Q在片斷z中出現(xiàn)的次數(shù)+A其中查詢詞Q在片段i中出現(xiàn)的次數(shù),可以通過對片段i的字符中對查詢詞Q進(jìn)行統(tǒng)計計數(shù)得到;i的類型聯(lián)系強度是本實施例設(shè)定的一個值,決定著不同類型的描述文檔與專家M的緊密程度,比如網(wǎng)頁中的上下文類型〈Cid—webContext〉我們給定權(quán)重為1的聯(lián)系強 度。k是用于調(diào)節(jié)信息強度的變量(是指用戶給定查詢詞Q出現(xiàn)在描 述片段中次數(shù),次數(shù)越多該值越大),取值范圍在0到1之間。當(dāng)?shù)玫矫枋鑫臋n中每一個片段i的專家信息強度后,計算專家M對應(yīng)的描述文檔的專家信息強度描述文檔的專家信息強度= Z該描述文檔中片斷挑專家信息強度該描述文檔中每個片段;將專家對應(yīng)描述文檔中的所有片段i的專家信息強度加起來,即得到M對應(yīng)的描述文檔的專家信息強度。 步驟5.2,計算查詢詞Q的專家區(qū)分度查詢詞Q的專家區(qū)分度是由專家描述文檔集合中文檔數(shù)量與查詢 詞Q出現(xiàn)在整個專家描述文檔集合中的文檔個數(shù)決定的,計算公式 如下杳、們的*家區(qū)分^ =_專家描述文檔集合中文檔數(shù)量_stBJwytr、j^^iL^i5-查詢詞q出現(xiàn)在專家描述文檔集合中的文檔數(shù)量w由于查詢詞Q出現(xiàn)在整個專家描述文檔集合中的文檔個數(shù)Q會少 于專家描述文檔集合中全部的文檔數(shù)量,因此查詢詞Q的專家區(qū)分 度會大于等于1。步驟5.3,計算專家知識專注比專家知識專注比被認(rèn)為是候選人的與查詢相關(guān)的知識與其具有所有的專家知識的比例,是對于一個描述文檔中與查詢相關(guān)的專家信息片段與描述文檔中所有專家信息片段的比。對于每一個專家對應(yīng)的描述文檔,其專家知識專注比計算如下去免加、口去膀n " a專家描述文檔中q出現(xiàn)的所有片段和 專家知識專汪比=(1_6) + 6><-專家描述文檔長度-專家描述文檔長度即文檔中字符的數(shù)量。專家描述文檔中查詢詞 Q出現(xiàn)的片段和,即包含查詢詞Q的描述文檔片段的字符數(shù)量的和, 可以先統(tǒng)計查詢詞Q出現(xiàn)的專家描述文檔片段,然后計算這些片段 的長度和。b是用于調(diào)節(jié)專家知識專注比強度的設(shè)定常量,取值范圍 在0至1之間,該值越大,越強調(diào)專家知識專注比強度,由于專家描 述文檔中查詢詞Q出現(xiàn)的片段和是專家描述文檔長度的一部分,所 以專家知識專注比的取值范圍必然在O至1之間。20步驟5.4,獲取每個專家對應(yīng)描述文檔的專家知識程度通過步驟5.1、 5.2、 5.3獲取的專家信息強度、查詢詞的專家區(qū)分 度、專家知識專注比,給定用戶查詢詞Q,每個專家對應(yīng)的專家描述 文檔的專家程度計算公式為描述文檔的專家知識程度二專家信息強度x査詢詞的專家區(qū)分度x專家知識專注比 步驟5.5,對所有專家對應(yīng)的描述文檔的專家知識程度值進(jìn)行排序,取前n位作為查詢結(jié)果返回(n為設(shè)定值),則這n個專家描述文檔對應(yīng)的專家就是給定查詢詞Q的領(lǐng)域的專家。為了驗證本發(fā)明的有效性和可靠性,本實施例進(jìn)行了性能評測的相關(guān)試驗。從運行效率上講,當(dāng)程序運行硬件環(huán)境為1.8G主頻CPU、 1G內(nèi) 存與100M的LAN網(wǎng)絡(luò)時,原數(shù)據(jù)集大小為5G的數(shù)據(jù)上檢索專家用 時幾個毫秒。這比較傳統(tǒng)的先檢索文檔再抽取專家的專家檢索方式耗 時幾秒的做法有了很大的提高。從評價的正確性上講,經(jīng)過與TREC ( Text Retrieval Conference ) 提供的專家檢索任務(wù)的平臺數(shù)據(jù)上的實驗,自動檢索專家準(zhǔn)確率如 下在TREC2005數(shù)據(jù)集上準(zhǔn)確率為27.4%,在TREC2006數(shù)據(jù)集準(zhǔn) 確率為50.8%。相比其他數(shù)十家參加該評測的公司與院校提供的檢索 性能結(jié)果比較,本實施例的結(jié)果在TREC2005數(shù)據(jù)集上性能最優(yōu),在 TREC2006上性能排列第三。本發(fā)明能夠自動從企業(yè)的數(shù)據(jù)中自動識別與抽取專家相關(guān)的知識 信息并構(gòu)建專家描述文檔,進(jìn)而建立索引,可以實現(xiàn)專家的自動發(fā)現(xiàn) 與檢索。模型結(jié)構(gòu)和參數(shù)簡單,算法復(fù)雜度低,在實驗測試數(shù)據(jù)上取 得了很好的性能。這說明本發(fā)明具有較好的推廣性和適應(yīng)性,具有良 好的應(yīng)用前景。以上實施方式僅用于說明本發(fā)明,而并非對本發(fā)明的限制,有關(guān) 技術(shù)領(lǐng)域的普通技術(shù)人員,在不脫離本發(fā)明的精神和范圍的情況下,還可以做出各種變化和變型,因此所有等同的技術(shù)方案也屬于本發(fā)明 的范疇,本發(fā)明的專利保護范圍應(yīng)由權(quán)利要求限定。
權(quán)利要求
1、一種快速檢索方法,其特征在于,該方法包括步驟s101,收集待檢索對象列表及文檔;s102,在所述文檔中標(biāo)注出現(xiàn)在所述待檢索對象列表中的待檢索對象;s103,抽取所述文檔中已標(biāo)注的待檢索對象前若干個字符信息,及已標(biāo)注的待檢索對象后若干個字符信息;s104,將由同一待檢索對象抽取的字符信息匯集為一個描述文檔,得到該待檢索對象對應(yīng)的描述文檔;s105,在所有待檢索對象對應(yīng)的描述文檔上建立索引,根據(jù)用戶的查詢詞在所有待檢索對象對應(yīng)的描述文檔上檢索并給出檢索結(jié)果。
2、 如權(quán)利要求1所述的快速檢索方法,其特征在于,所述待檢 索對象為人名,所述人名為包括中文名和外文名,在收集的待檢索人 名列表中,將屬于同一外文名的不同變體形式的待檢索人名視為同一 待檢索人名。
3、 如權(quán)利要求2所述的快速檢索方法,其特征在于,所述文檔 包括電子郵件,在步驟sl01后還包括根據(jù)電子郵件的格式化信息,獲取由所述電子郵件的發(fā)件人和發(fā) 件人郵箱地址信息、收件人與收件人地址信息、抄送人與抄送人地址 信息分別構(gòu)成包括人名與郵箱地址信息的人名郵箱對;將出現(xiàn)所述待檢索人名列表中的待檢索人名的人名郵箱對的郵 箱地址信息抽取出來,添加到所述待檢索人名列表中,所述抽取的人 名郵箱對中包含的郵箱地址信息視為與所出現(xiàn)的待檢索人名為同一 待檢索人名。
4、 如權(quán)利要求2所述的快速檢索方法,其特征在于,所述文檔 包括不同數(shù)據(jù)格式的文檔,步驟sl02之前,還包括對不同數(shù)據(jù)格式的文檔進(jìn)行預(yù)處理,轉(zhuǎn)換為國際標(biāo)準(zhǔn)漢字編碼的根據(jù)所述文檔的格式化信息,對預(yù)處理后的具有同一數(shù)據(jù)格式的文檔進(jìn)行冗余信息過濾,所述冗余信息包括文檔中的腳本程序和頭部掉自 I 口 ,a、。
5、 如權(quán)利要求2所述的快速檢索方法,其特征在于,所述文檔 包括電子郵件,在步驟sl03中,包括根據(jù)電子郵件的格式化信息獲取郵件的標(biāo)題域、發(fā)件人域、接收 人域、抄送人域、作者書寫域;當(dāng)所述已標(biāo)注的待檢索人名出現(xiàn)在電子郵件的發(fā)件人域時,則抽 取所述電子的標(biāo)題域和作者書寫域的全部字符信息;當(dāng)所述已標(biāo)注的待檢索人名出現(xiàn)在所述收件人域或抄送人域時, 則抽取所述電子郵件的標(biāo)題域的全部字符信息。
6、 如權(quán)利要求5所述的快速檢索方法,其特征在于,在步驟sl03 中,還包括根據(jù)電子郵件的格式化信息獲取包括作者書寫域、前文引文域、 正文段落、子章節(jié)標(biāo)題段落、文字加粗段落的正文域;當(dāng)所述已標(biāo)注的待檢索人名出現(xiàn)在正文域時,則抽取已標(biāo)注的待 檢索人名前后各若干個字符信息,同時還抽取所述電子郵件的標(biāo)題域 的字符信息、距離已標(biāo)注的待檢索人名之前最近的子章節(jié)標(biāo)題段落的 字符信息、距離已標(biāo)注的待檢索人名前后最近的文字加粗段落的字符J古自
7、 如權(quán)利要求2所述的快速檢索方法,其特征在于,所述文檔 包括網(wǎng)頁,在步驟sl03中,包括根據(jù)網(wǎng)頁的格式化信息獲取網(wǎng)頁的標(biāo)題域、正文域、子章節(jié)標(biāo)題 段落、文字加粗段落;當(dāng)所述已標(biāo)注的待檢索人名出現(xiàn)在網(wǎng)頁的正文域時,則抽取已標(biāo) 注的待檢索人名前后各若干個字符信息,同時還抽取所述網(wǎng)頁的標(biāo)題域的字符信息、距離已標(biāo)注的待檢索人名之前最近的子章節(jié)標(biāo)題段落 的字符信息、距離已標(biāo)注的待檢索人名前后最近的文字加粗段落的字符寸曰息。
8、 如權(quán)利要求2 ~ 7之任一項所述的快速檢索方法,其特征在于, 在步驟sl03中,在文檔中連續(xù)出現(xiàn)多個已標(biāo)注的待檢索人名,且其 中每兩個相鄰的已標(biāo)注的待檢索人名間的字符數(shù)小于設(shè)定值,則所述 連續(xù)出現(xiàn)的多個已標(biāo)注的待檢索人名構(gòu)成待檢索人名組,對于所述待 檢索人名組中的每一個待檢索人名,在所述文檔中抽取待檢索人名組 前的若干子符信息及待檢索人名組后的若干個字符信息。
9、 如權(quán)利要求2所述的快速檢索方法,其特征在于,在步驟sl05 中,在給出檢索前包括步驟獲取每個待檢索人名對應(yīng)的描述文檔的知識程度,所述知識程度與知識專注比成正比,所述知識專注比為待檢索人名對應(yīng)的描述文檔中2出現(xiàn)的所有片斷長度和知識專注比=(H)待檢索人名對應(yīng)的描述文檔長度其中,6為用于調(diào)節(jié)知識專注比強度的常量,取值范圍在0至1之間,所述g為用戶給定的查詢詞,所述片斷為抽取的由已標(biāo)注的 待檢索人名前的若干個字符信息與待檢索人名后的若干個字符信息 組成的片段;將前n個具有最高的知識程度的待檢索人名對應(yīng)的描述文檔作 為檢索結(jié)果輸出,其中n為設(shè)定值。
10、如權(quán)利要求9所述的快速檢索方法,其特征在于,在步驟s105 中,在獲取所述知識專注比后,還包括獲取查詢詞g的區(qū)分度,所 述知識程度與查詢詞g的區(qū)分度成正比,所述查詢詞g的區(qū)分度為查詢詞鵬區(qū)分度- 鵬文檔集合中的文檔M在描述文檔集 中出現(xiàn)查詢詞^的文檔數(shù)量 其中,所述描述文檔集合為由所有待檢索人名對應(yīng)的描述文檔構(gòu) 成的集合。
11、 如權(quán)利要求io所述的快速檢索方法,其特征在于,在步驟Sl05中,在獲取查詢詞后,還包括獲取每個待檢索人名對應(yīng)的描述文檔的信息強度,所述每個待檢索人名對應(yīng)的描述文檔信息強度為描述文檔的信息強度= Z該描述文檔中片斷z的信息強度該描述文檔中每個片段'其中,所述片斷/為抽取的由已標(biāo)注的待檢索人名前的若干個字 符信息與待檢索人名后的若干個字符信息組成的片段,z'為正整數(shù)用 于區(qū)分不同的片斷,所述該描述文檔中片斷z'的信息強度為該描述文檔巾片斷艦認(rèn)強度4的類型聯(lián)系強度x^lP^ll^lfl^查詢詞g在片斷z'中出現(xiàn)的次數(shù)+ A: 其中,/的類型聯(lián)系強度根據(jù)描述文檔的類型設(shè)定的權(quán)重,取值 范圍0 1,A是用于調(diào)節(jié)信息強度的變量,;t與查詢詞^在片斷/中出現(xiàn)的次數(shù)成正比,取值范圍為0-l;每個待檢索人名對應(yīng)的描述文檔的知識程度為知識程度二該描述文檔的信息強度x查詢詞g的區(qū)分度x知識專注比。
12、 一種快速檢索系統(tǒng),其特征在于,該系統(tǒng)包括 待檢索信息獲取單元,用于收集待檢索對象列表及文檔; 待檢索對象標(biāo)注單元,用于在所述文檔中標(biāo)注出現(xiàn)在所述待檢索對象列表中的待檢索對象;待檢索信息抽取單元,用于抽取所述文檔中已標(biāo)注的待檢索對象 前若干個字符信息,及已標(biāo)注的待檢索對象后若干個字符信息;待檢索信息整理單元,用于將由相同的待檢索對象抽取的字符信 息匯集為一個描述文檔,得到該待檢索對象對應(yīng)的描述文檔;檢索單元,在所有待檢索對象對應(yīng)的描述文檔上離線建立索引, 根據(jù)用戶的查詢詞在所有待檢索對象對應(yīng)的描述文檔上檢索并給出 檢索結(jié)果。
全文摘要
本發(fā)明涉及一種快速檢索方法及系統(tǒng),該方法包括收集待檢索對象列表及文檔;在文檔中標(biāo)注出現(xiàn)在待檢索對象列表中的待檢索對象;抽取文檔中已標(biāo)注的待檢索對象前后各若干個字符信息;將由同一待檢索對象抽取的字符信息匯集為一個文檔,得到該待檢索對象對應(yīng)的描述文檔;根據(jù)用戶的查詢詞在所有待檢索對象對應(yīng)的描述文檔上檢索并給出檢索結(jié)果,該系統(tǒng)包括待檢索信息獲取單元、待檢索對象標(biāo)注單元、待檢索信息抽取單元、待檢索信息整理單元和檢索單元。本發(fā)明在線下將對應(yīng)對象列表中對象具有支持和描述信息識別并抽取匯集為一個文檔,用戶檢索時直接將該對象對應(yīng)的所有信息輸出,檢索速度快,檢索精度高。
文檔編號G06F17/30GK101630315SQ20081011675
公開日2010年1月20日 申請日期2008年7月16日 優(yōu)先權(quán)日2008年7月16日
發(fā)明者劉奕群, 富羽鵬, 敏 張, 金奕江, 馬少平 申請人:清華大學(xué)