亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種查找相似文本的方法及連接位相似性度量算法的制作方法

文檔序號:6369040閱讀:391來源:國知局
專利名稱:一種查找相似文本的方法及連接位相似性度量算法的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息檢索領(lǐng)域,尤其涉及一種估計(jì)相似度的方法,可應(yīng)用于海量文檔之間的相似度度量估計(jì),特別適用于海量信息中快速查找相似的文本信息。
背景技術(shù)
互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,使得網(wǎng)絡(luò)上的數(shù)據(jù)信息呈現(xiàn)指數(shù)級增長,如何在海量的信息中快速查找有效的信息,變得越來越重要。文本相似度度量這一概念及相關(guān)技術(shù)也應(yīng)運(yùn)而生。一個(gè)好的文本相似度度量方法在自動(dòng)問答系統(tǒng)、智能檢索、網(wǎng)頁去重、自然語言處理等研究領(lǐng)域具有重要的意義。
文本相似度是指兩個(gè)或者多個(gè)文本之間的匹配程度的一個(gè)度量參數(shù),相似度越高,表示兩個(gè)文本之間的相似程度越大,反之越低。傳統(tǒng)的文本相似度度量方法是向量空間模型(VSM)通過計(jì)算待查文檔與數(shù)據(jù)集中某一篇文檔帶有權(quán)重的頻率向量內(nèi)積,得到兩篇文檔的相似度。算法需要存儲大量的特征詞匯、比對速度慢、準(zhǔn)確率低等缺點(diǎn),無法應(yīng)用于海量數(shù)據(jù)中相似度度量?;趍inwise相似性度量算法通過將相似度問題轉(zhuǎn)換為一個(gè)事件的發(fā)生概率問題,該方法將文本特征詞匯集合映射到hash值集合中,將字符串比對問題轉(zhuǎn)化為數(shù)值比對問題,適用于海量數(shù)據(jù)相似度度量,但是算法需要比對大量的指紋,占用大量的存儲空間。2010年,Ping Li等人在minwise相似性度量算法的基礎(chǔ)上進(jìn)行了改進(jìn),提出了 b位minwise相似性度量算法,該算法通過使用更少的b位來估計(jì)兩個(gè)文檔的相似度,但是算法還是需要比對大量的指紋。

發(fā)明內(nèi)容
本發(fā)明提出了一種新的查找相似文本的方法,以克服前面提及的現(xiàn)有技術(shù)中的種種不足。根據(jù)本發(fā)明的方法,包括以下步驟步驟一,文本特征提取步驟該步驟用于提取文本特征集合Sshgs ;步驟二,連接位指紋生成步驟該步驟用于將Sshgs生成連接位指紋,記為Sdn ;步驟三,連接位相似性度量步驟該步驟用于比較兩個(gè)文檔的連接位指紋相似度;步驟四,利用獲得的連接位指紋相似度結(jié)果,獲取需要的文本。本發(fā)明還提供了一種連接位相似性量度算法,其特征在于包括前述的步驟一,步
驟二,步驟三。


圖I是根據(jù)本發(fā)明的方法的主要流程示意2是根據(jù)本發(fā)明的實(shí)施例的連接位相似度與方差的關(guān)系3是根據(jù)本發(fā)明的實(shí)施例在XX數(shù)據(jù)集中連接位的準(zhǔn)確率和召喚率的實(shí)驗(yàn)結(jié)果
圖4是根據(jù)本發(fā)明的實(shí)施例在XX數(shù)據(jù)集的的實(shí)際效率比對圖
具體實(shí)施例方式以下將結(jié)合附圖對本發(fā)明提供的方法進(jìn)行詳細(xì)的說明,并將結(jié)合實(shí)例及實(shí)驗(yàn)數(shù)據(jù)對根據(jù)本發(fā)明的方法的優(yōu)勢進(jìn)行具體的說明。實(shí)驗(yàn)表明,本發(fā)明的方法在略微犧牲很小的精度的情況下,卻能成倍地減少比對的次數(shù),提升查找性能。本發(fā)明提出的查找相似文本的方法,具體包括如下步驟步驟一,文本特征提取步驟該步驟用于提取文本特征集合Sshgs ;步驟二,連接位指紋生成步驟該步驟用于將Sshgs生成連接位指紋,記為Sdn ;步驟三,連接位相似性度量步驟該步驟用于比較兩個(gè)文檔的連接位指紋相似度;步驟四,利用獲得的連接位指紋相似度結(jié)果,獲取需要的文本。優(yōu)選的,在步驟一中,具體包括首先,對文本信息進(jìn)行掃描分析,利用中文分詞算法對文檔進(jìn)行分詞,生成詞語集合;然后,構(gòu)建停用詞表,并利用停用詞表過濾掉文本噪音數(shù)據(jù)后的分詞集合即為文檔的特征集合Sshgs。噪音即為文本中無意義的詞語,一般是高頻低義的助詞、虛詞等;優(yōu)選的,在步驟二中具體包括I)形成 minwise 指紋對步驟一生成的文檔特征集合Sshgs采用Rabin函數(shù),映射32位的整數(shù),映射后集合命名為Sd。假定全集Q = {0,1,. . .,D-Ihaciai,.. . aD_!恒指Q上的一個(gè)排列,向量(aQ,ax, , 代表Q的一個(gè)置換
權(quán)利要求
1.一種查找相似文本的方法,其特征在于包括以下步驟 步驟一,文本特征提取步驟該步驟用于提取文本特征集合Sshgs ; 步驟二,連接位指紋生成步驟該步驟用于將Sshgs生成連接位指紋,記為Sdn ; 步驟三,連接位相似性度量步驟該步驟用于比較兩個(gè)文檔的連接位指紋相似度; 步驟四,利用獲得的連接位指紋相似度結(jié)果,獲取需要的文本。
2.根據(jù)權(quán)利要求I所述的查找相似文本的方法,其特征在于步驟一具體包括 首先,對文本信息進(jìn)行掃描分析,利用中文分詞算法對文檔進(jìn)行分詞,生成詞語集合;然后,構(gòu)建停用詞表,并利用停用詞表過濾掉文本噪音數(shù)據(jù)后的分詞集合即為文檔的特征集合Sshgs °
3.根據(jù)權(quán)利要求1-2所述的查找相似文本的方法,其特征在于,步驟二的具體步驟包括 首先,形成minwise指紋;然后,形成b位minwise指紋;最后形成連接位指紋。
4.根據(jù)權(quán)利要求1-3所述的連接位相似性度量算法,其特征在于,步驟三的具體步驟包括 定義Z1, Z2是一個(gè)隨機(jī)置換群n作用在文檔I、文檔2的minwise指紋集合S1和S2上的最小值Z1 = min { n (S1)},z2 = min { n (S2)}, 定義表示在Jij作用下Zl (Z1)的低位數(shù)起的第i位。定義b位時(shí)連接n個(gè)的連接位變量X1, X2
5.一種連接位相似性度量算法,其特征在于包括 步驟一,文本特征提取步驟該步驟用于提取文本特征集合Sshgs ; 步驟二,連接位指紋生成步驟該步驟用于將Sshgs生成連接位指紋,記為Sdn ; 步驟三,連接位相似性度量步驟該步驟用于比較兩個(gè)文檔的連接位指紋相似度。
全文摘要
本發(fā)明公開了一種查找相似文本的方法,包括以下幾個(gè)步驟步驟1文本特征提取步驟該步驟用于提取文本特征集合Sshgs;步驟2連接位指紋生成步驟該步驟用于將Sshgs生成連接位指紋,記為Sdn;步驟3連接位相似性度量步驟該步驟用于比較兩個(gè)文檔的連接位指紋相似度;步驟4利用連接位相似度結(jié)果,獲得需要的文本。本發(fā)明相應(yīng)的還公開了連接位相似性量度算法,并結(jié)合實(shí)驗(yàn)數(shù)據(jù)證明了此算法在略微犧牲很小的精度的情況下,卻能成倍地減少比對的次數(shù),提升算法的性能。
文檔編號G06F17/30GK102682104SQ201210135339
公開日2012年9月19日 申請日期2012年5月4日 優(yōu)先權(quán)日2012年5月4日
發(fā)明者羅躍逸, 袁鑫攀, 龍軍 申請人:中南大學(xué)
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1