亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種用于海量文本快速相似搜索的方法

文檔序號(hào):6650191閱讀:693來源:國(guó)知局
專利名稱:一種用于海量文本快速相似搜索的方法
技術(shù)領(lǐng)域
本發(fā)明屬于智能信息處理技術(shù),具體涉及的是一種用于海量文本快速相似搜索的方法。
背景技術(shù)
在信息檢索和數(shù)據(jù)挖掘等技術(shù)領(lǐng)域,經(jīng)常需要在對(duì)象集合中查找與某個(gè)給定對(duì)象“相似”的對(duì)象,如,相似的文檔、圖片、多媒體片斷,這種的查找稱為“相似搜索”。相似搜索不同于通常所說的查詢或檢索。通常查詢或檢索指的是精確檢索,所要求的是“精確地”匹配對(duì)象的一個(gè)或幾個(gè)基本特征,而相似搜索的查找目標(biāo)是多種基本特征的綜合評(píng)價(jià)。隨著因特網(wǎng)等信息技術(shù)的發(fā)展,信息量爆炸性增長(zhǎng),對(duì)海量文本數(shù)據(jù)進(jìn)行相似搜索在海量信息智能檢索、文本消重、內(nèi)容引用發(fā)現(xiàn)等應(yīng)用領(lǐng)域中具有廣泛的應(yīng)用前景。
多年來,人們已提出了多種相似搜索的方法,這些方法采用的技術(shù)大致可分為如下4類(1)基于距離的變換方法。這類方法將數(shù)據(jù)對(duì)象進(jìn)行映射變換,保持?jǐn)?shù)據(jù)對(duì)象之間的距離不變,利用低維空間中的高效查詢技術(shù)。實(shí)際應(yīng)用中,往往難以找到合適的變換方法,使這類方法的通用性差。
(2)基于空間的分割方法。這類方法將整個(gè)數(shù)據(jù)空間分割為規(guī)則或不規(guī)則的子空間,如k-d-樹、R-樹、SS-樹、SS+-樹、SR-樹等。但當(dāng)維數(shù)增加時(shí),這類方法將退化為線性掃描,性能顯著下降,該現(xiàn)象被稱為維數(shù)災(zāi)難。
(3)基于距離的索引方法。這類方法根據(jù)數(shù)據(jù)對(duì)象之間的距離利用樹形結(jié)構(gòu)進(jìn)行索引,獲得查詢的高效性,如mvp-樹和gh-樹。
(4)基于單元格的填充方法。它是將高維空間分割為規(guī)則的單元格,對(duì)單元格進(jìn)行編碼或索引,將其映射到一維空間上,其相似搜索結(jié)果存在著遺漏問題。
目前,第(2)和(3)類方法是被廣泛采用的方法,其基本思想都是通過對(duì)高維空間進(jìn)行分割并用樹形結(jié)構(gòu)進(jìn)行索引組織。研究實(shí)驗(yàn)表明,當(dāng)數(shù)據(jù)集的維數(shù)較高(超過20)或數(shù)據(jù)量很大(超過10萬)時(shí),這些高維索引方法的性能迅速降低,不適合文本數(shù)據(jù)集等海量高維數(shù)據(jù)的相似搜索。
隨著因特網(wǎng)的發(fā)展,網(wǎng)頁等文本數(shù)據(jù)爆炸性增長(zhǎng),而且文本向量通常是數(shù)萬維的,傳統(tǒng)的基于多維索引的相似搜索難以實(shí)現(xiàn)海量文本的快速相似搜索。

發(fā)明內(nèi)容
針對(duì)現(xiàn)有技術(shù)中存在的缺陷,本發(fā)明的目的是為海量文本提供一種快速的相似搜索方法。該方法能夠顯著地提高海量文本相似搜索的效率。
為了實(shí)現(xiàn)本發(fā)明所述的目的,本發(fā)明提出基于快速預(yù)選進(jìn)行相似搜索的兩步搜索策略。包括以下步驟1)內(nèi)容讀取讀取查詢文檔的內(nèi)容;2)快速預(yù)選利用重要特征快速排除絕大多數(shù)的不相關(guān)文檔,獲得小的預(yù)選結(jié)果集;3)相似計(jì)算逐個(gè)計(jì)算預(yù)算結(jié)果與查詢文檔的相似度;4)結(jié)果輸出按相似度選擇結(jié)果并輸出。
在步驟2快速預(yù)選中可通過事先建立索引以便加快預(yù)選過程。其索引可以是多種類型的索引,包括倒排索引、高維索引或多重索引。
進(jìn)一步的,可通過事先建立倒排索引以便加快預(yù)選過程快速預(yù)選中。其步驟包括1)特征分析對(duì)查詢文檔進(jìn)行分析,計(jì)算獲得最重要的少數(shù)幾個(gè)詞作為特征詞以及其權(quán)重值;2)條件生成將特征詞及其權(quán)重按邏輯運(yùn)算組成檢索條件;3)內(nèi)容檢索根據(jù)檢索條件利用倒排索引對(duì)目標(biāo)文檔集進(jìn)行檢索。
再進(jìn)一步,采用關(guān)鍵詞提取技術(shù)進(jìn)行特征分析,獲取特征詞及其權(quán)重。
再進(jìn)一步,特征詞及其權(quán)重按“與”運(yùn)算組成檢索條件;進(jìn)一步的,選取最后結(jié)果通過考察兩方面情況最小相似度閾值和相似度排序中的位置。
本發(fā)明的效果在于本發(fā)明由于通過兩步式搜索過程,首先通過快速預(yù)選實(shí)現(xiàn)無關(guān)文本的快速過濾,在幾乎不降低準(zhǔn)確度的情況下使得海量文檔相似搜索的速度大為加快。實(shí)驗(yàn)表明,在普通PC環(huán)境下(CPU為P42.0G,內(nèi)存為1.0GB),10個(gè)小時(shí)可構(gòu)建100萬文檔的索引庫,并可在1秒左右找出與任意指定的一篇文檔最相似的10個(gè)文檔。
本發(fā)明方法與現(xiàn)有技術(shù)的主要區(qū)別在于,本發(fā)明中將海量文本相似搜索的過程分成兩步,在第一步通過快速預(yù)選進(jìn)行預(yù)搜索,快速排除大量無關(guān)的文本,從而提高搜索過程并使得該方法可適用于海量文本的相似搜索。


圖1是本發(fā)明所述方法的流程圖;圖2是索引構(gòu)建時(shí)間隨數(shù)據(jù)總量的變化示意圖;圖3是10-NN相似搜索性能隨數(shù)據(jù)量變化對(duì)比試驗(yàn)示意圖;圖4是10-NN相似搜索準(zhǔn)確性與關(guān)鍵詞選取個(gè)數(shù)及預(yù)選集大小的關(guān)系示意圖;具體實(shí)施方式
下面結(jié)合附圖和實(shí)施例對(duì)本發(fā)明作進(jìn)一步的描述。
本發(fā)明在普通PC上進(jìn)行實(shí)驗(yàn),實(shí)驗(yàn)選用的數(shù)據(jù)是從因特網(wǎng)上抓取的新聞?lì)愔形木W(wǎng)頁,對(duì)網(wǎng)頁處理后的純文本文件,每個(gè)文件為一篇新聞稿件,共100多萬篇,約4GB。
如圖1所示,一種用于海量文本快速相似搜索的方法,包括以下步驟1)內(nèi)容讀取讀取查詢文檔的內(nèi)容;2)特征分析對(duì)查詢文檔進(jìn)行分詞并利用關(guān)鍵詞提取技術(shù),計(jì)算獲得最重要的少數(shù)幾個(gè)詞作為特征詞以及其權(quán)重值,本實(shí)施例中選擇10個(gè)特征詞,并為了進(jìn)行分析對(duì)比,本實(shí)施例中還分別選擇了30個(gè)和100個(gè)特征詞進(jìn)行分析;3)條件生成將特征詞及其權(quán)重按“與”運(yùn)算組成檢索條件;4)內(nèi)容檢索根據(jù)檢索條件通過全文檢索的方法利用倒排索引對(duì)目標(biāo)文檔集進(jìn)行檢索;5)預(yù)選結(jié)果對(duì)檢索結(jié)果根據(jù)檢索的評(píng)分大小選擇部分結(jié)果作為預(yù)選結(jié)果,實(shí)施例中分別選擇前10個(gè)、前20個(gè)、......、前90個(gè)、前100個(gè)結(jié)果作為預(yù)選結(jié)果進(jìn)行分析;6)相似計(jì)算逐個(gè)計(jì)算預(yù)算結(jié)果與查詢文檔的相似度;7)結(jié)果輸出按相似度排序并選擇前10個(gè)結(jié)果輸出。
實(shí)驗(yàn)中選用基于多維索引樹SS+-樹的相似搜索與本發(fā)明的方法進(jìn)行對(duì)比實(shí)驗(yàn)。對(duì)比實(shí)驗(yàn)算法中采用相同相似度計(jì)算公式。
本發(fā)明首先在不同規(guī)模數(shù)據(jù)集上,對(duì)索引構(gòu)建效率與搜索效率進(jìn)行了對(duì)比實(shí)驗(yàn),在相同的軟硬件環(huán)境下,主要從時(shí)間上進(jìn)行對(duì)比。如圖2和圖3所示。圖2表明,在小數(shù)據(jù)量的環(huán)境下,SS+-樹的索引構(gòu)建速度快,但數(shù)據(jù)量超過10萬之后,倒排索引的索引構(gòu)建速度更快,并隨數(shù)據(jù)量的增加其優(yōu)勢(shì)更明顯。與圖2類似,圖3表明,在小數(shù)據(jù)量的環(huán)境下,基于SS+-樹的相似搜索速度更快,但數(shù)據(jù)量超過數(shù)萬之后,本發(fā)明所述的方法提出的倒排索引的相似搜索具有更好的速度,并隨數(shù)據(jù)量的增加其優(yōu)勢(shì)更明顯,甚至達(dá)到數(shù)十倍的速度。
本發(fā)明進(jìn)一步對(duì)其準(zhǔn)確性進(jìn)行了實(shí)驗(yàn),因?yàn)槔碚撋匣赟S+-樹的相似搜索可保證完全正確,所以以其為準(zhǔn)確度的標(biāo)準(zhǔn)參考。以100萬文檔做倒排索引,以10萬文檔分別作為查詢文檔,分別計(jì)算本文方法各種情況下的準(zhǔn)確度并進(jìn)行統(tǒng)計(jì)分析,結(jié)果如圖4所示。實(shí)驗(yàn)表明,選取100個(gè)特征詞具有很好的準(zhǔn)確度;選取30個(gè)特征詞時(shí),預(yù)選結(jié)果集大小為50時(shí),其準(zhǔn)確度能達(dá)到95%;僅選取10個(gè)特征詞時(shí),預(yù)選結(jié)果集大小為100時(shí),其準(zhǔn)確度可達(dá)到90%左右。
綜合以上實(shí)驗(yàn)結(jié)果,本發(fā)明提出一種海量文本快速相似搜索方法在對(duì)海量文本集進(jìn)行相似搜索時(shí),其速度遠(yuǎn)遠(yuǎn)高于現(xiàn)有技術(shù)SS+-樹等方法。因此,本發(fā)明的所述的方法相對(duì)于現(xiàn)有技術(shù)來說,具有顯著的效果。
本發(fā)明所述的方法并不限于具體實(shí)施方式
中所述的實(shí)施例,本領(lǐng)域技術(shù)人員根據(jù)本發(fā)明的技術(shù)方案得出其他的實(shí)施方式,同樣屬于本發(fā)明的技術(shù)創(chuàng)新范圍。
權(quán)利要求
1.一種用于海量文本快速相似搜索的方法,包括以下步驟1)內(nèi)容讀取讀取查詢文檔的內(nèi)容;2)快速預(yù)選利用重要特征快速排除絕大多數(shù)的不相關(guān)文檔,獲得小的預(yù)選結(jié)果集;3)相似計(jì)算逐個(gè)計(jì)算預(yù)算結(jié)果與查詢文檔的相似度;4)結(jié)果輸出按相似度選擇結(jié)果并輸出。
2.如權(quán)利要求1所述的一種用于海量文本快速相似搜索的方法,其特征在于在第2步所述的快速預(yù)選中通過事先建立索引以便加快預(yù)選過程。
3.如權(quán)利要求2所述的一種用于海量文本快速相似搜索的方法,其特征在于所述的索引是倒排索引。
4.如權(quán)利要求2所述的一種用于海量文本快速相似搜索的方法,其特征在于所述的索引是高維索引或多重索引。
5.如權(quán)利要求3所述的一種用于海量文本快速相似搜索的方法,其特征在于建立所述倒排索引的步驟包括1)特征分析對(duì)查詢文檔進(jìn)行分析,計(jì)算獲得最重要的少數(shù)幾個(gè)詞作為特征詞以及其權(quán)重值;2)條件生成將特征詞及其權(quán)重按邏輯運(yùn)算組成檢索條件;3)內(nèi)容檢索根據(jù)檢索條件利用倒排索引對(duì)目標(biāo)文檔集進(jìn)行檢索。
6.如權(quán)利要求5所述的一種用于海量文本快速相似搜索的方法,其特征在于在步驟1)中采用關(guān)鍵詞提取技術(shù)進(jìn)行分析,獲取特征詞及其權(quán)重。
7.如權(quán)利要求5所述的一種用于海量文本快速相似搜索的方法,其特征在于在步驟1)中計(jì)算獲得最重要的3至30個(gè)詞作為特征詞。
8.如權(quán)利要求5或6所述的一種用于海量文本快速相似搜索的方法,其特征在于在步驟2)中將特征詞及其權(quán)重按“與”運(yùn)算組成檢索條件。
9.如權(quán)利要求8所述的一種用于海量文本快速相似搜索的方法,其特征在于在步驟4中通過考察兩方面情況以便選取最后結(jié)果最小相似度閾值和相似度排序中的位置。
10.如權(quán)利要求1、2、3、4、5、6或7所述的一種用于海量文本快速相似搜索的方法,其特征在于在步驟4中通過考察兩方面情況以便選取最后結(jié)果最小相似度閾值和相似度排序中的位置。
全文摘要
本發(fā)明涉及一種用于海量文本快速相似搜索的方法,屬于智能信息處理技術(shù)。當(dāng)數(shù)據(jù)集的維數(shù)較高(超過20)或數(shù)據(jù)量很大(超過10萬)時(shí),現(xiàn)有技術(shù)方法的性能迅速降低,難以滿足海量文本的相似搜索。本發(fā)明提出一種海量文本快速相似搜索方法。它提出兩步搜索策略,首先通過快速預(yù)選進(jìn)行文本的預(yù)搜索,從而快速排除絕大多數(shù)的不相關(guān)文檔,然后在剩余的小結(jié)果集上進(jìn)一步判斷相似性。該方法具有很高的效率,可適用于對(duì)海量文本的搜索。本發(fā)明的方法在海量信息智能檢索、文本消重、內(nèi)容引用發(fā)現(xiàn)等應(yīng)用領(lǐng)域中具有廣泛的應(yīng)用前景。
文檔編號(hào)G06F17/30GK1790321SQ20051011700
公開日2006年6月21日 申請(qǐng)日期2005年10月28日 優(yōu)先權(quán)日2005年10月28日
發(fā)明者楊建武, 吳於茜, 陳曉鷗 申請(qǐng)人:北大方正集團(tuán)有限公司, 北京北大方正技術(shù)研究院有限公司, 北京大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1