亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

文本數(shù)據(jù)高效搜索方法

文檔序號:9579398閱讀:868來源:國知局
文本數(shù)據(jù)高效搜索方法
【技術(shù)領(lǐng)域】
[0001] 本發(fā)明涉及自然語言處理,特別涉及一種文本數(shù)據(jù)高效搜索方法。
【背景技術(shù)】
[0002] 隨著互聯(lián)網(wǎng)技術(shù)的快速發(fā)展,當(dāng)今社會已進入信息時代,尤其是當(dāng)前金融領(lǐng)域大 數(shù)據(jù)背景下網(wǎng)絡(luò)文本信息文檔的數(shù)量越來越龐大。網(wǎng)絡(luò)信息文本文檔隨之呈現(xiàn)出更加復(fù)雜 的特性,暴露出一些亟待解決的問題。然而,傳統(tǒng)金融領(lǐng)域搜索引擎面對文本字符串匹配的 語法層面,缺乏針對信息表示及處理和理解的語義級分析,即信息是豐富的,而知識卻是貧 乏的,所以依賴傳統(tǒng)的數(shù)據(jù)檢索方式已很難滿足越來越高的金融類用戶的需求。

【發(fā)明內(nèi)容】

[0003] 為解決上述現(xiàn)有技術(shù)所存在的問題,本發(fā)明提出了一種文本數(shù)據(jù)高效搜索方法, 包括:
[0004] 對實體進行概念描述,構(gòu)建實體知識庫;
[0005] 基于所述知識庫對文本文檔進行語義分析;
[0006] 計算用戶檢索詞與實體概念的相似值,以及
[0007] 基于所計算的相似值對檢索結(jié)果進行排序并返回給用戶。
[0008] 優(yōu)選地,所述對文本文檔進行語義分析,包括對文檔的語義進行標(biāo)記,并提取文檔 特征和進行文本映射,從實體詞匯中獲取實體概念,建立文檔的語義特征域,完成文檔庫文 檔的自動標(biāo)記,并標(biāo)記和索引文檔的非語義特征,由此生成文檔索引庫和元數(shù)據(jù)庫,其中基 于文檔標(biāo)記信息構(gòu)建索引庫,以索引庫為依據(jù)檢索出滿足用戶需求的文檔信息;
[0009] 所述基于相似值對檢索結(jié)果進行排序,包括以實體生成的實體詞庫為依據(jù),執(zhí)行 用戶檢索輸入文字的分詞過程,將用戶檢索分成實體概念集合和非實體概念集合;然后分 別對這兩個集合按相似值拓展,得到兩個檢索候選集合,獲得排序后的檢索集合,最后將檢 索結(jié)果按檢索請求的相似值排序后,將結(jié)果推送給用戶。
[0010] 優(yōu)選地,所述文本映射包括以下步驟:
[0011] 首先將實體概念描述為F= (U,T,J,Y),其中U=K,u2,...,U|u|}表示使用詞語 管理文本文檔的用戶,并且每個用戶有唯一的ID號標(biāo)識;T= {ti,t2,. . .,t|T|}表示集合中 用戶使用過的詞語,該詞語為任意的字符串,J= {^,込...,1|;|}表示所有領(lǐng)域相關(guān)文本 文檔,其內(nèi)容取決于用戶標(biāo)記集合的類型,用戶標(biāo)記集合由用戶、詞語、文檔三個要素組成, 即用(U,T,J)進行描述;YgLXTXj表示三元關(guān)系,其中(u,t,i)元素描述用戶使用詞語 t標(biāo)記收藏的文本文檔i;F(u,i) ={teT| (u,t,i)eY}描述用戶使用一組詞語定義一個 文本文檔,其中ueU,ieJ;用二元組構(gòu)建主實體B0 = (C,R),其中C= {Cl,c2,...,Cw} 表示概念集合,所述概念表示為c= (id,syn,phase,kind),id是概念的唯一標(biāo)識,syn是 同義詞集合,phase是描述概念的短語,kind是將概念所分類的詞類;R= {η,r2,. . .,r|R|} 表示概念集合之間的關(guān)系;現(xiàn)定義為一組同義詞集合S,每個文本文檔weS用二元組表示 為:(w,fq。)),其中,fq。(w)為文本文檔w的出現(xiàn)頻率;
[0012] 在文本映射階段,利用以下文本映射方法之一:
[0013] 直接映射,即將每個詞語映射到實體中的概念,表示為TC:對于所有teT,有 T- 2%其中,概念集合中C的每個t都是同義詞集合syn中的一個資源,描述詞語到概念 的直接映射;
[0014] 部分映射,即當(dāng)詞語不能直接映射時,從開始到結(jié)束的時間,將短語逐步縮短成一 個詞;基于語法從短語的左邊開始嘗試在哪個階段可以映射縮短短語,然后從右邊進行完 善修改;
[0015] 文檔映射,即首先設(shè)置用于描述詞語和概念之間映射強度的矩陣DC:[Ut山Xn, 其中,m= |T|即詞語數(shù)量,n= |C|即概念數(shù)量;在映射過程中產(chǎn)生初始矩陣,初始矩陣的 映射強度是相關(guān)聯(lián)的syn文檔詞頻:
[0016]
[0017] 映射結(jié)束后,初始矩陣DC的值表示詞庫中tjPcj的映射強度。
[0018] 本發(fā)明相比現(xiàn)有技術(shù),具有以下優(yōu)點:
[0019] 本發(fā)明提出了一種文本數(shù)據(jù)高效搜索方法,彌補傳統(tǒng)數(shù)據(jù)檢索的不足,從信息查 全率和查準(zhǔn)率方面改善數(shù)據(jù)檢索的效率。
【附圖說明】
[0020] 圖1是根據(jù)本發(fā)明實施例的文本數(shù)據(jù)高效搜索方法的流程圖。
【具體實施方式】
[0021] 下文與圖示本發(fā)明原理的附圖一起提供對本發(fā)明一個或者多個實施例的詳細描 述。結(jié)合這樣的實施例描述本發(fā)明,但是本發(fā)明不限于任何實施例。本發(fā)明的范圍僅由權(quán) 利要求書限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細節(jié) 以便提供對本發(fā)明的透徹理解。出于示例的目的而提供這些細節(jié),并且無這些具體細節(jié)中 的一些或者所有細節(jié)也可以根據(jù)權(quán)利要求書實現(xiàn)本發(fā)明。
[0022] 本發(fā)明的一方面提供了一種文本數(shù)據(jù)高效搜索方法。圖1是根據(jù)本發(fā)明實施例的 文本數(shù)據(jù)高效搜索方法流程圖。本發(fā)明利用實體建立詞語之間的語義關(guān)系,實現(xiàn)語義檢索, 通過語義中豐富的描述能力和強大的邏輯推理能力準(zhǔn)確描述信息文本文檔,構(gòu)建一種能夠 實現(xiàn)語義級分析的檢索方法。語義檢索與傳統(tǒng)基于關(guān)鍵字匹配的檢索方式不同,因為語義 檢索基于信息理解的語義級對信息文本文檔及用戶提交的檢索請求進行分析,語義檢索方 式對檢索條件、信息組織以及檢索結(jié)果均賦予了語義成分,可提高檢索精度。
[0023] 基于實體的語義數(shù)據(jù)檢索,在于使文檔進行語義描述,借助實體知識庫完成對文 檔對象的語義標(biāo)記,進而分析出文檔對象的語義理解,及其用戶檢索詞的語義信息,同時可 實現(xiàn)實體檢索詞的語義拓展,最終完成理想檢索結(jié)果的獲取,具體檢索過程為:
[0024] 步驟1 :構(gòu)建并描述實體概念。描述實體概念,構(gòu)建實體知識庫。
[0025] 步驟2 :提取文檔的特征并進行文本映射。借助實體概念描述及知識庫構(gòu)建和管 理,對獲取的文檔進行語義標(biāo)記及文本映射,對文檔語義含義進行分析。
[0026] 步驟3 :制定實體概念拓展及檢索語義拓展策略。在實體概念描述的基礎(chǔ)上,對用 戶檢索請求的語義信息進行分析,并對用戶檢索詞進行語義拓展,檢索系統(tǒng)完成對生成的 備選檢索詞集的檢索過程。
[0027] 步驟4 :進行實體概念相似值計算。依賴實體概念結(jié)構(gòu)圖,執(zhí)行實體概念語義距離 計算、實體概念結(jié)點深度計算及語義總體相似值計算,以此服務(wù)于檢索結(jié)果排序過程。
[0028] 步驟5 :對檢索系統(tǒng)的檢索結(jié)果進行排序。基于關(guān)聯(lián)相似值計算規(guī)則,完成用戶原 始檢索詞及檢索系統(tǒng)返回檢索結(jié)果的相似值比較,基于相似值對檢索系統(tǒng)的檢索結(jié)果進行 排序并反饋給用戶。
[0029] 其中,實體及其分類體系作為數(shù)據(jù)文本文檔語義表征的核心,可對文檔描述給予 指導(dǎo)。領(lǐng)域知識也作為檢索拓展和檢索結(jié)果排序的基本依據(jù)。因此,領(lǐng)域知識的構(gòu)建和維 護,如推理規(guī)則的構(gòu)建和維護,離不開領(lǐng)域知識管理。文檔的語義可通過標(biāo)記進行語義分 析,再借助文檔特征提取技術(shù),從實體詞匯中獲取實體概念,建立文檔的語義特征域,完成 文檔庫文檔的自動標(biāo)記,并完成標(biāo)記和索引文檔的非語義特征,由此生成文檔索引庫和元 數(shù)據(jù)庫?;谖臋n標(biāo)記信息構(gòu)建索引庫,以此為依據(jù),檢索出能滿足用戶需求的文檔信息。 實現(xiàn)檢索拓展及結(jié)果排序,就是以實體生成的實體詞庫為依據(jù),完成用戶檢索輸入文字的 分詞工作,將用戶檢索分成實體概念集合和非實體概念集合。然后,分別對這兩個集合按 相似值拓展,得到兩個檢索候選集合,借助關(guān)聯(lián)相似值排序算法獲得排序后的檢索集合,最 后,完成檢索請求到索引庫及檢索庫的提交環(huán)節(jié),將檢索結(jié)果按檢索請求的相似值排序后, 將結(jié)果推送給用戶。
[0030] 本發(fā)明將實體概念描述為:F= (U,T,J,Y),其中,U= {Ul,u2, . . .,U|u|}表 示用戶,描述使用詞語管理文本文檔的用戶,并且每個用戶有唯一的ID號標(biāo)識。T= ΙΛ,t2, . . .,t|T|}表示詞語,描述集合中用戶使用過的詞語,詞語可以是任意的字符串(單 詞或短語),現(xiàn)將詞語表示為一組詞語序列,t={termuterm2,. . .,termj,teT,上述公 式描述詞語并映射成一組術(shù)語,術(shù)語可以是任意單詞。J=ΙΛ,i2,. . .,表示文本文檔, 描述所有領(lǐng)域相關(guān)文檔,其內(nèi)容取決于用戶標(biāo)記集合的類型,用戶標(biāo)記集合由用戶、詞語、 文檔三個要素組成,即用(U,T,J)進行描述。YdIXTXJ表示三元關(guān)系,其中(u,t,i)元 素描述用戶使用詞語t標(biāo)記收藏的文本文檔i。F(u,i) = {teT|(u,t,i)eY}描述用戶 使用一組詞語定義一個文本文檔,其中ueU,ieJ。
[0031] 為了理解用戶詞語含義及詞語之間的關(guān)系,構(gòu)建主實體,用二元組進行描述:B0 =(C,R),其中C= {ο。c2,. . .,Cw}表示概念集合,概念表示為c= (id,syn,phase,kind), id是概念的唯一標(biāo)識,syn是同義詞集合,包含了概念的同義術(shù)語集合,phase是描述概念 的短語,kind是將概念所分類的詞類;R= {Γι,r2,. . .,r|R|}表示概念集合之間的關(guān)系?,F(xiàn) 定義為一組同義詞集合S,文本文檔weS,每個文本文檔w用二元組表示為:(w,fq。)),其 中,fqjw)為文本文檔w的出現(xiàn)頻率。
[0032] -個詞語可以映射成一個或多個概念,也有可能只有部分詞語可以映射成一個或 多個概念,本發(fā)明利用以下幾種文本映射方法。
[0033]直接映射:描述詞語到概念的映射,即將每個詞語映射到實體中的概念,可表示 為:TC:對于所有teT,有T-2、其中,概念集合中的每個t都是syn中的一個文本文檔, 描述詞語到概念的直接映射。
[0034] 部分映射:當(dāng)詞語不能直接映射時,從開始到結(jié)束的時間,可按如下步驟完成部分 映射。步驟1:將短語逐步縮短成一個詞。步驟2:基于語法,從短語的左邊開始,嘗試在哪 個階段可以映射縮短短語,然后從右邊進行完善修改。
[0035] 文檔映射:首先設(shè)置用于描述詞語和概念之間映射強度的矩陣:DC:[Ut山Xn,其 中,m= |T|即詞語數(shù)量,n= |C|即概念數(shù)量。在映射過程中將產(chǎn)生初始矩陣,初始矩陣 的映射強度是相關(guān)聯(lián)的syn文本文檔單詞頻率:
[0036]
[003
當(dāng)前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1