亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

倒排索引建立方法

文檔序號:6586452閱讀:236來源:國知局
專利名稱:倒排索引建立方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索領(lǐng)域,特別涉及一種倒排索引建立方法。
背景技術(shù)
隨著計算機、互聯(lián)網(wǎng)的發(fā)展,人類的知識越來越多地以數(shù)字化形式存儲。如何在海 量的數(shù)字化文本中,快速、準確的檢索人們想要的知識成為急迫的需求。1945年,Varmevar
Bush的論文《就像我們可能會想的......》第一次提出了設(shè)計自動的、在大規(guī)模的存儲數(shù)
據(jù)中進行查找的機器的構(gòu)想。這被認為是現(xiàn)代信息檢索技術(shù)的開山之作。進入50年代后, 研究者們開始為逐步的實現(xiàn)這些設(shè)想而努力。50年代中期,在利用電腦對文本數(shù)據(jù)進行檢 索的研究上,研究者取得了一些成果。其中最有代表性的是Luhn在IBM公司的工作(請見 參考文獻 1“H. P. Luhn,“A statistical approach tomechanized encoding and searching of literary information”,IBM Journal ofResearch and Development, vol. 1(4), PP. 309-317,1957”),他提出了利用詞對文檔構(gòu)建索引并利用檢索使用的關(guān)鍵詞與文檔中 詞的匹配程度進行檢索的方法,這種方法就是目前常用的倒排索引技術(shù)的雛形。所謂的倒排索引(Inverted index)也常被稱為反向索引、置入檔案或反向檔案, 是一種常用的索引方法,它被用來存儲在全文搜索下某個單詞在一個文檔或者一組文檔中 的存儲位置的映射。它是文檔檢索系統(tǒng)中最常用的數(shù)據(jù)結(jié)構(gòu)。在現(xiàn)有技術(shù)中一種已知的實 現(xiàn)方式中,倒排索引可以被看成一個鏈表數(shù)組,每個鏈表的表頭包含關(guān)鍵詞,其后續(xù)單元則 包括所有包含這個關(guān)鍵詞的文檔標號以及一些其他信息。這些信息可以是文檔中該詞的頻 率,也可以是文檔中該詞的位置等信息。這樣在檢索時可以直接利用各個鏈表表頭的關(guān)鍵 詞來查找包含這些關(guān)鍵詞的文檔,而無需對所有的文檔逐個進行基于關(guān)鍵詞的檢索,有利 于提高檢索的效率。Google等知名的搜索引擎公司多數(shù)都采用了倒排索引方法來實現(xiàn)信息 的檢索?,F(xiàn)有技術(shù)中,倒排索引的建立過程通常包含以下幾個步驟步驟1)、文檔解析。將不同的文檔存儲格式轉(zhuǎn)換為統(tǒng)一的字符串形式。現(xiàn)在的文 檔格式特別多,如PDF格式、HTML格式、TXT格式、DOC格式等,文檔解析步驟的任務(wù)是讀取 文檔文件,轉(zhuǎn)換為統(tǒng)一的字符串格式。步驟2)、關(guān)鍵詞提取。這個步驟主要完成包括中文分詞、去除停用詞、大小寫轉(zhuǎn)換、 時態(tài)還原等操作。步驟3)、建立、存儲倒排索引。將關(guān)鍵詞、文章號、關(guān)鍵詞的出現(xiàn)位置加入到前面所 述的倒排索引數(shù)據(jù)結(jié)構(gòu)中,將倒排索引數(shù)據(jù)結(jié)構(gòu)存儲到數(shù)據(jù)庫或文件等持久化設(shè)備中?,F(xiàn)有技術(shù)中的倒排索引為根據(jù)詞找到文檔提供了快速檢索途徑,但是它的匹配過 程是精確匹配,只有包含檢索詞的文檔才能被搜索到,這在很多場合往往是不夠的。例如, 在企業(yè)和政府部門的文本信息搜索應用中,經(jīng)常會有類似這樣的需求輸入某個人的姓名, 不僅要找到包含該人名的所有文檔,還希望知道和這個人相關(guān)的電話號碼、郵箱等信息。顯 然,在搜索引擎上輸入“電話號碼”這個詞,只能找到含有“電話號碼”這個詞的所有文檔,而找不到只含有用數(shù)字表示的電話號碼卻沒出現(xiàn)“電話號碼”這個詞的文檔。本領(lǐng)域技術(shù)人員雖然已經(jīng)認識到了倒排索引技術(shù)所存在的上述缺陷,但所提出的 解決方案通常具有實現(xiàn)效率很低的缺陷。如現(xiàn)有技術(shù)中對前述問題的一種典型解決方法 是找到包含該人名的所有文檔后,再通過信息抽取系統(tǒng)對搜索到的文檔的全文進行解析, 抽取出所需的電話號碼、郵箱等。這個方法最大的問題是每次搜索都要再對被搜索到的文 檔進行一次信息抽取,當文檔數(shù)量巨大,搜索次數(shù)很多時,時間開銷顯然讓人無法接受。

發(fā)明內(nèi)容
本發(fā)明的目的是克服現(xiàn)有技術(shù)無法通過倒排索引方法直接查找某一類型數(shù)據(jù)的 缺陷,從而提供一種新的倒排索引創(chuàng)建方法。為了實現(xiàn)上述目的,本發(fā)明提供了一種倒排索引建立方法,所述倒排索引包括抽 取結(jié)果表,所述抽取結(jié)果表包括文檔號以及與該文檔號相對應的抽取結(jié)果記錄,所述抽取 結(jié)果記錄包括有類型、內(nèi)容以及位置信息項;該方法包括步驟1)、對由字符串格式表示的文檔做分詞操作,從所述分詞操作結(jié)果中取出一 個詞;步驟2)、判斷所取出的詞是否屬于某一類型的數(shù)據(jù),如果屬于,則執(zhí)行下一步,否 則,執(zhí)行步驟4);步驟3)、將所提取出來的詞的內(nèi)容、在所在文檔中的位置以及判斷該詞是否屬于 某一類型的數(shù)據(jù)時所采用的檢測方法分別填入所述抽取結(jié)果記錄中的內(nèi)容、位置以及類型 信息項,創(chuàng)建抽取結(jié)果表,然后執(zhí)行下一步;步驟4)、為所取出的詞建立通用的倒排索引表。上述技術(shù)方案中,在所述的步驟2)中,采用正則表達式檢測所取出的詞是否屬于 某一類型的數(shù)據(jù)。上述技術(shù)方案中,所述的某一類型的數(shù)據(jù)包括移動電話號碼、固定電話號碼、身份 證號碼、電子郵箱地址中的一種。上述技術(shù)方案中,在所述的步驟2)中,采用命名實體識別的方法檢測所取出的詞 是否屬于某一類型的數(shù)據(jù);其中,所述命名實體識別的方法包括基于規(guī)則的方法、基于統(tǒng)計 的方法、基于詞庫的方法中的一種。上述技術(shù)方案中,所述的某一類型的數(shù)據(jù)包括人名、公司名、地址中的一種。本發(fā)明還提供了一種利用所建立的倒排索引實現(xiàn)搜索的方法,包括步驟1)、利用關(guān)鍵詞在倒排索引表中做查找,得到包含有該關(guān)鍵詞的文檔的文檔 號;步驟2)、根據(jù)所述文檔號從抽取結(jié)果表中找出相關(guān)文檔的抽取結(jié)果并顯示。本發(fā)明的優(yōu)點在于本發(fā)明的倒排索引創(chuàng)建方法所創(chuàng)建的倒排索引能夠查找類型數(shù)據(jù),避免了現(xiàn)有技 術(shù)在查找類型數(shù)據(jù)時所花費的額外開銷。


圖1為本發(fā)明的倒排索引建立方法的流程圖2為本發(fā)明中所涉及的抽取結(jié)果表的示意圖;圖3為利用本發(fā)明所創(chuàng)建的倒排索引實現(xiàn)搜索的方法的流程圖。
具體實施例方式下面結(jié)合附圖和具體實施方式
對本發(fā)明加以說明。在本發(fā)明中,除了要從文檔中提取關(guān)鍵詞,并為關(guān)鍵詞建立倒排索引外,還能夠根 據(jù)需要從文檔中抽取出相關(guān)信息并存儲。使得用戶在搜索時,通過關(guān)鍵詞可以直接找到抽 取出來的相關(guān)信息,無需再對原始文檔進行解析,從而提高搜索時的時間效率。下面以通訊 信息為例,對建立包含有通訊信息的倒排索引的過程加以說明。與現(xiàn)有技術(shù)相同,在建立倒排索引的過程中,首先要解析文檔,將不同的文檔存儲 格式轉(zhuǎn)換為統(tǒng)一的字符串形式。如將PDF格式、HTML格式、TXT格式、DOC格式中的任意一 種轉(zhuǎn)換為統(tǒng)一的字符串格式。該步驟中的轉(zhuǎn)換操作與現(xiàn)有技術(shù)并無二致,因此不在此處做 重復說明。在將文檔轉(zhuǎn)換為統(tǒng)一的字符串格式后,下面就要從文檔中提取關(guān)鍵詞。與現(xiàn)有技 術(shù)中所涉及的關(guān)鍵詞的概念不同的是,在本發(fā)明中,關(guān)鍵詞這一概念所包含的范圍更為廣 泛。本發(fā)明中的關(guān)鍵詞除了現(xiàn)有技術(shù)中常見的特定字符數(shù)據(jù)外(如若干個確定的漢字或字 母),還可以包括某種類型的數(shù)據(jù),如固定電話號碼、移動電話號碼、電子郵箱、身份證號碼 等。對這些內(nèi)容不同但類型相同的數(shù)據(jù)的提取采用現(xiàn)有技術(shù)中的文本匹配的方法已經(jīng)無法 實現(xiàn),因此需要采用一些特殊的技術(shù)手段。同種類型的數(shù)據(jù)一般來說都有一些共同的特點,例如,如果都是移動電話號碼,那 么這些數(shù)據(jù)應該都是由數(shù)字組成,并且具有相同的位數(shù),又如,如果都是電子郵箱,那么在 數(shù)據(jù)中應當包含@字符。因此,在本實施例中可以設(shè)定一些特殊字符來做初步提取,然后 再通過能夠?qū)σ?guī)則加以描述的正則表達式來實現(xiàn)詳細的提取過程?;谏鲜鲈?,參考圖 1,本發(fā)明在得到用字符串格式描述的文檔后,首先對該文檔做分詞操作,從分詞后的結(jié)果 中取出一個詞,然后判斷所取出的詞中是否包含有特殊字符,如果有特殊字符,那么就可以 采用與該特殊字符相對應的正則表達式做匹配操作,將成功匹配的結(jié)果提取出來,如果不 含有特殊字符或者正則表達式匹配不成功,則按照現(xiàn)有技術(shù)中的關(guān)鍵詞提取方法提取關(guān)鍵 詞。下面以移動電話號碼為例,對上述過程加以說明。由于不同用戶的移動電話號碼的數(shù) 字組合存在差異,因此,除非已經(jīng)知道移動電話號碼的具體內(nèi)容,否則很難依靠現(xiàn)有的關(guān)鍵 詞提取方法從文檔中找出所有屬于移動電話號碼類型的數(shù)據(jù)。在本實施例中,采用正則表 達式來實現(xiàn)對移動電話號碼類型數(shù)據(jù)的提取。例如,中國大陸地區(qū)的移動電話號碼的正則 表達式如下(15 [13567890] \d {8} 13 [13567890] \d {8})。那么在關(guān)鍵詞提取過程中,在分 詞后,判斷從分詞結(jié)果中所取出的一個詞內(nèi)是否有數(shù)字,如果有數(shù)字,就采用上述的正則表 達式對該詞做匹配操作,將成功匹配的結(jié)果提取出來。上文以從文檔中提取移動電話號碼類型的數(shù)據(jù)為例,對關(guān)鍵詞提取的有關(guān)操作做 了說明。在實際應用中,還可以以同樣的方法實現(xiàn)對包括固定電話號碼、身份證號碼、電子 郵箱在內(nèi)的多種類型的數(shù)據(jù)的提取,只是在提取這些類型的數(shù)據(jù)的時候,對該類型數(shù)據(jù)的 識別方法可能會有一定的變動(如所采用的特殊字符的具體內(nèi)容會有所不同),另外,所采 用的正則表達式也會有所不同。下面給出了固定電話號碼、移動電話號碼、電子郵箱、身份證號碼等類型的數(shù)據(jù)各自所對應的正則表達式。本領(lǐng)域技術(shù)人員應當了解,根據(jù)實際需要
還可以提取其它類型的數(shù)據(jù),而其它類型數(shù)據(jù)也會有各自對應的正則表達式。
權(quán)利要求
1.一種倒排索引建立方法,所述倒排索引包括抽取結(jié)果表,所述抽取結(jié)果表包括文檔 號以及與該文檔號相對應的抽取結(jié)果記錄,所述抽取結(jié)果記錄包括有類型、內(nèi)容以及位置 信息項;該方法包括步驟1)、對由字符串格式表示的文檔做分詞操作,從所述分詞操作結(jié)果中取出一個詞;步驟2)、判斷所取出的詞是否屬于某一類型的數(shù)據(jù),如果屬于,則執(zhí)行下一步,否則,執(zhí) 行步驟4);步驟3)、將所提取出來的詞的內(nèi)容、在所在文檔中的位置以及判斷該詞是否屬于某一 類型的數(shù)據(jù)時所采用的檢測方法分別填入所述抽取結(jié)果記錄中的內(nèi)容、位置以及類型信息 項,創(chuàng)建抽取結(jié)果表,然后執(zhí)行下一步;步驟4)、為所取出的詞建立通用的倒排索引表。
2.根據(jù)權(quán)利要求1所述的倒排索引建立方法,其特征在于,在所述的步驟2)中,采用正 則表達式檢測所取出的詞是否屬于某一類型的數(shù)據(jù)。
3.根據(jù)權(quán)利要求2所述的倒排索引建立方法,其特征在于,所述的某一類型的數(shù)據(jù)包 括移動電話號碼、固定電話號碼、身份證號碼、電子郵箱地址中的一種。
4.根據(jù)權(quán)利要求1所述的倒排索引建立方法,其特征在于,在所述的步驟2)中,采用命 名實體識別的方法檢測所取出的詞是否屬于某一類型的數(shù)據(jù);其中,所述命名實體識別的 方法包括基于規(guī)則的方法、基于統(tǒng)計的方法、基于詞庫的方法中的一種。
5.根據(jù)權(quán)利要求4所述的倒排索引建立方法,其特征在于,所述的某一類型的數(shù)據(jù)包 括人名、公司名、地址中的一種。
6.一種利用權(quán)利要求1-5之一所建立的倒排索引實現(xiàn)搜索的方法,包括步驟1)、利用關(guān)鍵詞在倒排索引表中做查找,得到包含有該關(guān)鍵詞的文檔的文檔號; 步驟2)、根據(jù)所述文檔號從抽取結(jié)果表中找出相關(guān)文檔的抽取結(jié)果并顯示。
全文摘要
本發(fā)明提供一種倒排索引建立方法,所述倒排索引包括抽取結(jié)果表,所述抽取結(jié)果表包括文檔號以及與該文檔號相對應的抽取結(jié)果記錄,所述抽取結(jié)果記錄包括有類型、內(nèi)容以及位置信息項;該方法包括對由字符串格式表示的文檔做分詞操作,從所述分詞操作結(jié)果中取出一個詞;判斷所取出的詞是否屬于某一類型的數(shù)據(jù),如果屬于,則執(zhí)行下一步,否則,為所取出的詞建立通用的倒排索引表后結(jié)束操作;將所提取出來的詞的內(nèi)容、在所在文檔中的位置以及判斷該詞是否屬于某一類型的數(shù)據(jù)時所采用的檢測方法分別填入所述抽取結(jié)果記錄中的內(nèi)容、位置以及類型信息項,創(chuàng)建抽取結(jié)果表,然后為所取出的詞建立通用的倒排索引表。
文檔編號G06F17/30GK102110123SQ20091026070
公開日2011年6月29日 申請日期2009年12月29日 優(yōu)先權(quán)日2009年12月29日
發(fā)明者單大甫, 吳泉源, 周斌, 崔凱, 李愛平, 楊樹強, 梁政, 蔣子海, 賈焰, 鄒鵬, 韓偉紅, 韓毅, 黃九鳴 申請人:中國人民解放軍國防科學技術(shù)大學
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1