基于文本的數(shù)據(jù)檢索方法
【技術領域】
[0001] 本發(fā)明涉及自然語言處理,特別涉及一種基于文本的數(shù)據(jù)檢索方法。
【背景技術】
[0002] 隨著互聯(lián)網(wǎng)技術的快速發(fā)展,當今社會已進入信息時代,尤其是當前金融領域大 數(shù)據(jù)背景下網(wǎng)絡文本信息文檔的數(shù)量越來越龐大。網(wǎng)絡信息文本文檔隨之呈現(xiàn)出更加復雜 的特性,暴露出一些亟待解決的問題。然而,傳統(tǒng)金融領域搜索引擎面對文本字符串匹配的 語法層面,缺乏針對信息表示及處理和理解的語義級分析,即信息是豐富的,而知識卻是貧 乏的,所以依賴傳統(tǒng)的數(shù)據(jù)檢索方式已很難滿足越來越高的金融類用戶的需求。
【發(fā)明內(nèi)容】
[0003] 為解決上述現(xiàn)有技術所存在的問題,本發(fā)明提出了一種基于文本的數(shù)據(jù)檢索方 法,包括:
[0004] 利用實體知識庫建立詞語之間的語義關系,對文檔內(nèi)容進行語義標記,分析用戶 檢索詞的語義信息,并對該語義信息進行拓展;比較用戶原始檢索詞及拓展后的檢索結果 集合的相似值。
[0005] 優(yōu)選地,所述對語義信息進行拓展,包括以下步驟:
[0006] 首先將實體概念描述為F = (U,T,J,Y),其中U = Iu1, u2, · . ·,U|u|}表示使用詞語 管理文本文檔的用戶,并且每個用戶有唯一的ID號標識;T = It1, t2, ...,t|T|}表示集合中 用戶使用過的詞語,該詞語為任意的字符串,J= U1, i2,...,i|;l}表示所有領域相關文本 文檔,其內(nèi)容取決于用戶標記集合的類型,用戶標記集合由用戶、詞語、文檔三個要素組成, 即用(U,T,J)進行描述;YgU:XT:XJ表示三元關系,其中(u,t,i)元素描述用戶使用詞 語t標記收藏的文本文檔i ;F(u, i) = {t e TI (u, t, i) e Y}描述用戶使用一組詞語定義一 個文本文檔,其中ueu,i e J;用二元組構建主實體BO= (C,R),其中C= {Cl,c2,...,Cw} 表示概念集合,所述概念表示為c = (id, syn, phase, kind),id是概念的唯一標識,syn是 同義詞集合,phase是描述概念的短語,kind是將概念所分類的詞類;R = Ir1, r2, ...,r|R|} 表示概念集合之間的關系;定義一組同義詞集合S,每個文本文檔w e S用二元組表示為: (w, fq。)),其中,fq。(W)為文本文檔w的出現(xiàn)頻率;
[0007] 對每個實體概念進行拓展,令e (c) = {x I sim(x, c) >ρ Π y I (y乒X)且 sim(y, c)〈sim(x, c)}為實體概念集合,其中sim()為兩個實體概念的相似值函數(shù),p為預設 相似值閾值;對實體概念進行語義拓展形成e (C1) = {Cn,C12, ...,C11, },其中集合中每個元 素或為空,或sim(Clk, C1) >p,且sim(Clk, C1Xsim(Clk, Cm);即基于關聯(lián)相似值的計算來拓展 單個實體概念,選擇相似值大于給定閾值p的實體概念,并且被選取的實體概念同其他用 戶實體概念之間的相似值,比該被選取實體概念同當前單個實體概念之間的相似值??;
[0008] 對用戶實體概念集合的元素進行拓展,將每個概念元素拓展為一個拓展集合e,可 分別從每個e中進行實體概念的選取,構建實體概念檢索集合,并描述為:
[0009] fc= {f !, f2, . . . fn}
[0010] 其中,匕在e (C1)中選取,匕在e (Cn)中選??;將所有實體概念檢索集合描述為, FC(C) = ((F1U) IF1G ^C1), ...FnG e(Cn)}
[0011] 每個實體概念集合f。與用戶輸入的未拓展的實體概念集合C的相似值由下式計 算:
[0012]
[0013] 其中,Θ為調(diào)節(jié)參數(shù);
[0014] 令η為用戶輸入的未拓展的實體概念集合C中的元素個數(shù),因此將simSM(f。,C)描 述為:
[0015]
[0016] 其中,允許多個Θ存在于每個實體概念拓展集合中;
[0017] 對于拓展關鍵字,將原關鍵字集的冪集作為所有拓展的關鍵字集合所組成的集 合,記為P (K),其中的元素本身也是集合,若P為冪集P (K)中的元素,則P與關鍵字集合K 之間的相似值計算方法為:
[0018]
[0019] 本發(fā)明相比現(xiàn)有技術,具有以下優(yōu)點:
[0020] 本發(fā)明提出了一種基于文本的數(shù)據(jù)檢索方法,彌補傳統(tǒng)數(shù)據(jù)檢索的不足,從信息 查全率和查準率方面改善數(shù)據(jù)檢索的效率。
【附圖說明】
[0021] 圖1是根據(jù)本發(fā)明實施例的基于文本的數(shù)據(jù)檢索方法的流程圖。
【具體實施方式】
[0022] 下文與圖示本發(fā)明原理的附圖一起提供對本發(fā)明一個或者多個實施例的詳細描 述。結合這樣的實施例描述本發(fā)明,但是本發(fā)明不限于任何實施例。本發(fā)明的范圍僅由權 利要求書限定,并且本發(fā)明涵蓋諸多替代、修改和等同物。在下文描述中闡述諸多具體細節(jié) 以便提供對本發(fā)明的透徹理解。出于示例的目的而提供這些細節(jié),并且無這些具體細節(jié)中 的一些或者所有細節(jié)也可以根據(jù)權利要求書實現(xiàn)本發(fā)明。
[0023] 本發(fā)明的一方面提供了一種基于文本的數(shù)據(jù)檢索方法。圖1是根據(jù)本發(fā)明實施例 的基于文本的數(shù)據(jù)檢索方法流程圖。本發(fā)明利用實體建立詞語之間的語義關系,實現(xiàn)語義 檢索,通過語義中豐富的描述能力和強大的邏輯推理能力準確描述信息文本文檔,構建一 種能夠?qū)崿F(xiàn)語義級分析的檢索方法。語義檢索與傳統(tǒng)基于關鍵字匹配的檢索方式不同,因 為語義檢索基于信息理解的語義級對信息文本文檔及用戶提交的檢索請求進行分析,語義 檢索方式對檢索條件、信息組織以及檢索結果均賦予了語義成分,可提高檢索精度。
[0024] 基于實體的語義數(shù)據(jù)檢索,在于使文檔進行語義描述,借助實體知識庫完成對文 檔對象的語義標記,進而分析出文檔對象的語義理解,及其用戶檢索詞的語義信息,同時可 實現(xiàn)實體檢索詞的語義拓展,最終完成理想檢索結果的獲取,具體檢索過程為:
[0025] 步驟1 :構建并描述實體概念。描述實體概念,構建實體知識庫。
[0026] 步驟2 :提取文檔的特征并進行文本映射。借助實體概念描述及知識庫構建和管 理,對獲取的文檔進行語義標記及文本映射,對文檔語義含義進行分析。
[0027] 步驟3 :制定實體概念拓展及檢索語義拓展策略。在實體概念描述的基礎上,對用 戶檢索請求的語義信息進行分析,并對用戶檢索詞進行語義拓展,檢索系統(tǒng)完成對生成的 備選檢索詞集的檢索過程。
[0028] 步驟4 :進行實體概念相似值計算。依賴實體概念結構圖,執(zhí)行實體概念語義距離 計算、實體概念結點深度計算及語義總體相似值計算,以此服務于檢索結果排序過程。
[0029] 步驟5 :對檢索系統(tǒng)的檢索結果進行排序?;陉P聯(lián)相似值計算規(guī)則,完成用戶原 始檢索詞及檢索系統(tǒng)返回檢索結果的相似值比較,基于相似值對檢索系統(tǒng)的檢索結果進行 排序并反饋給用戶。
[0030] 其中,實體及其分類體系作為數(shù)據(jù)文本文檔語義表征的核心,可對文檔描述給予 指導。領域知識也作為檢索拓展和檢索結果排序的基本依據(jù)。因此,領域知識的構建和維 護,如推理規(guī)則的構建和維護,離不開領域知識管理。文檔的語義可通過標記進行語義分 析,再借助文檔特征提取技術,從實體詞匯中獲取實體概念,建立文檔的語義特征域,完成 文檔庫文檔的自動標記,并完成標記和索引文檔的非語義特征,由此生成文檔索引庫和元 數(shù)據(jù)庫?;谖臋n標記信息構建索引庫,以此為依據(jù),檢索出能滿足用戶需求的文檔信息。 實現(xiàn)檢索拓展及結果排序,就是以實體生成的實體詞庫為依據(jù),完成用戶檢索輸入文字的 分詞工作,將用戶檢索分成實體概念集合和非實體概念集合。然后,分別對這兩個集合按 相似值拓展,得到兩個檢索候選集合,借助關聯(lián)相似值排序算法獲得排序后的檢索集合,最 后,完成檢索請求到索引庫及檢索庫的提交環(huán)節(jié),將檢索結果按檢索請求的相似值排序后, 將結果推送給用戶。
[0031] 本發(fā)明將實體概念描述為:F = (U,T,J,Y),其中,U = Iu1, u2, . . .,U|u|}表 示用戶,描述使用詞語管理文本文檔的用戶,并且每個用戶有唯一的ID號標識。T = It1, t2, . . .,t|T|}表示詞語,描述集合中用戶使用過的詞語,詞語可以是任意的字符串(單 詞或短語),現(xiàn)將詞語表示為一組詞語序列,t = Iterm1, term2,. . .,termj,t e T,上述公 式描述詞語并映射成一組術語,術語可以是任意單詞。J = U1, i2, ...,表示文本文檔, 描述所有領域相關文檔,其內(nèi)容取決于用戶標記集合的類型,用戶標記集合由用戶、詞語、 文檔三個要素組成,即用(U,T,J)進行描述。Υ !Ξ1:ΧΤ'Χ,丨表示三元關系,其中(u,t,i)元 素描述用戶使用詞語t標記收藏的文本文檔i。F(u,i) = {teT|(u,t,i) eY}描述用戶 使用一組詞語定義一個文本文檔,其中u e U, i e J。
[0032] 為了理解用戶詞語含義及詞語之間的關系,構建主實體,用二元組進行描述:B0 =(C,R),其中 C = Ic1, c2, . . .,Cw}表示概念集合,概念表示為 c = (id, syn, phase, kind), id是概念的唯一標識,syn是同義詞集合,包含了概念的同義術語集合,phase是描述概念 的短語,kind是將概念所分類的詞類;R = Ir1, r2, ...,r|R|}表示概念集合之間的關系。現(xiàn) 定義為一組同義詞集合S,文本文檔w e S,每個文本文檔w用二元組表示為:(w, fq。)),其 中,fq。(w)為文本文檔w的出現(xiàn)頻率。
[0033] -個詞語可以映射成一個或多個概念,也有可能只有部分詞語可以映射成一個或 多個概念,本發(fā)明利用以下幾種文本映射方法。
[0034] 直接映射:描述詞語到概念的映射,即將每個詞語映射到實體中的概念,可表示 為:TC:對于所有t e T,有T -2°C其中,概念集合中的每個t都是syn中的一個文本文檔, 描述詞語到概念的直接映射。
[0035] 部分映射:當詞語不能直接映射時,從開始到結束的時間,可按如下步驟完成部分 映射。步驟1:將短語逐步縮短成一個詞。步驟2:基于語法,從短語的左邊開始,嘗試在哪 個階段可以映射縮短短語,然后從右邊進行完善修改。
[0036] 文檔映射:首先設置用于描述詞語和概念之間映射強度的矩陣:DC : [U t山Xn,其 中,m= |τ|即詞語數(shù)量,n= |c|即概念數(shù)量。在映射過程中將產(chǎn)生初始矩陣,初始矩陣 的映射強度是相關聯(lián)的sy