亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于實(shí)體的文本數(shù)據(jù)與xml文檔的匹配方法_2

文檔序號:9911107閱讀:來源:國知局
emay A.Retrieving Meaningful Relaxed Tightest Fragments for XML Keyword Search[C].Proceedings of ACM EDBT,2009,815-826.

【發(fā)明內(nèi)容】

[0031] 本發(fā)明要解決的問題是現(xiàn)有技術(shù)難以有效支持文本數(shù)據(jù)與XML文檔間的匹配以實(shí) 現(xiàn)數(shù)據(jù)集成。
[0032] 為解決上述問題,本發(fā)明技術(shù)方案的目的在于提出一種利用實(shí)體抽取技術(shù),針對 文本數(shù)據(jù)與可擴(kuò)展標(biāo)記語言(XML)文檔進(jìn)行匹配以實(shí)現(xiàn)數(shù)據(jù)集成的方法,能夠自動(dòng)化完成 文本數(shù)據(jù)在XML文檔中的匹配映射。
[0033] 本發(fā)明技術(shù)方案提出的文本數(shù)據(jù)與XML文檔集成的方法是結(jié)合實(shí)體抽取技術(shù)和 XML關(guān)鍵字查詢的方法,可以記為ECSF算法。
[0034] 本發(fā)明技術(shù)方案提供的基于實(shí)體的文本數(shù)據(jù)與XML文檔的匹配方法的具體步驟如 下:
[0035] 將文本數(shù)據(jù)的模式定義為實(shí)體及實(shí)例集合(即采用實(shí)體、實(shí)例對集合表示文本數(shù) 據(jù)的模式),將文本數(shù)據(jù)與XML文檔模式匹配的語義定義為在XML文檔中檢索包含所有實(shí)體、 實(shí)例對集合的最小連通子樹,將查詢結(jié)果定義為基于實(shí)體的最近語義片段(ECSF);
[0036] 將XML文檔構(gòu)造為一棵有序的帶標(biāo)記樹,節(jié)點(diǎn)采用帶類型的Dewey編碼(eDewey)標(biāo) 注;
[0037] 通過基于條件隨機(jī)場的實(shí)體抽取算法提取文本文檔的實(shí)體及實(shí)例信息,結(jié)合XML 樹,找出所有可能組合的基于實(shí)體的近似語義片段節(jié)點(diǎn)集,然后通過篩選保留最近語義片 段候選集;
[0038] 對所有候選片段進(jìn)行評分,得分最高的片段定義為最終匹配結(jié)果。
[0039] 可選的,所述文本數(shù)據(jù)的模式為通過實(shí)體抽取過程得到的實(shí)例集合Κ(1α,1?2, k3, . . .,kn)及實(shí)體集合C(C1,C2,C3,. . .,cn),每個(gè)實(shí)例ki對應(yīng)一個(gè)命名實(shí)體Ci。
[0040] 可選的,所述文本數(shù)據(jù)與XML文檔模式匹配的語義定義包括:
[00411對實(shí)例集合1(={1^,1?,1?,~,1^}中的每個(gè)實(shí)例1^在乂1^樹上都存在一個(gè)節(jié)點(diǎn)集合 Ki,其中的每個(gè)節(jié)點(diǎn)都直接包含實(shí)例ki且表示實(shí)體Ci的節(jié)點(diǎn)為ki的祖先節(jié)點(diǎn);
[0042] 對每一種可能的節(jié)點(diǎn)組合{61,62,63,-_,611},其中 6#(^,都會(huì)有一個(gè)相應(yīng)的基于 實(shí)體的近似語義片段(表示為ESF)節(jié)點(diǎn)v,即v = esf (ei,e2,e3,…,en);
[0043] 使用^^^,^,^,…,^來表示所有可能組合的基于實(shí)體的近似語義片段節(jié)點(diǎn) 集;
[0044] 對eSf(K1,K2,K3,…,Kn)集合中的節(jié)點(diǎn) V來說,如果集合中沒有其它節(jié)點(diǎn)u滿足V< 11,貝1^是1(1,1(2,1(3,'",1(11的一個(gè)ECSF節(jié)點(diǎn),記為 v = ecsf(Ki,K2,K3,…,Kn),其中v<u 表示v 是 u 的祖先,v < u表不v不是u的祖先;
[0045] 所有這樣的v節(jié)點(diǎn)組成集合記為RiECSFKhK^fo,…,Kn);
[0046]令rj表示R中的一個(gè)元素,其中1幻_< |R|,則由rj及其對應(yīng)的實(shí)例集合K|j確定的 XML子樹的節(jié)點(diǎn)集合記為I (r j)。
[0047]可選的,基于實(shí)體的最近語義片段的篩選包括:
[0048]通過對所有1(〇)集合進(jìn)行評分,擁有最高得分的集合1(〇)即為XML樹上與文本數(shù) 據(jù)匹配的片段;當(dāng)從給定文本數(shù)據(jù)D抽取出實(shí)例集合K及其對應(yīng)實(shí)體集合C后,I是該實(shí)例集 合K在給定XML文檔中匹配的查詢片段,需要滿足下列條件:
[0049] e c(l < i < n\et e descenden^);
[0050] V/.;>i//:e/(l</<|/|)/cYi/:Gl:;
[0051 ] I =maxi;sj;s |r| {score(I (rj),D)} 〇
[0052]可選的,構(gòu)造節(jié)點(diǎn)采用帶類型的Dewey編碼標(biāo)注的XML樹包括:
[0053]對XML樹節(jié)點(diǎn)的編碼在Dewey編碼的基礎(chǔ)上,添加節(jié)點(diǎn)類型標(biāo)志位,格式為"[類型, Dewey編碼]",形成帶節(jié)點(diǎn)類型的Dewey編碼;若節(jié)點(diǎn)A是節(jié)點(diǎn)B的祖先,則記為A〈B,否則記為 A < B;節(jié)點(diǎn)A的前序遍歷序號記為pre(A)。
[0054]可選的,所述XML樹的節(jié)點(diǎn)索引構(gòu)建包括針對XML樹構(gòu)建倒排索引過程,所述構(gòu)建 倒排索引過程包括:
[0055]將XML樹節(jié)點(diǎn)分析成詞條標(biāo)記;
[0056]使用hash散列映射所有詞條,相同的詞條的多個(gè)位置采用鏈表進(jìn)行鏈接,并按照 編碼大小按從小到大排序;
[0057]對詞條生成倒排列表,倒排列表儲(chǔ)存的是XML樹節(jié)點(diǎn)的帶類型的Dewey編碼。
[0058]可選的,所述的近似語義片段候選集的檢索過程如下:
[0059]計(jì)算所有候選近似語義片段的根節(jié)點(diǎn);針對實(shí)例集合(Khfc,...,Kn),將所含實(shí)例 數(shù)量最少的實(shí)例集合放在首位;設(shè)置容量為P的緩沖區(qū),首先計(jì)算Ki的前P節(jié)點(diǎn)與實(shí)例集合心 的近似語義片段根節(jié)點(diǎn)集乂2 = 6〇8丨(?,1(2),然后依次迭代計(jì)算與其它各集合的6〇8£節(jié)點(diǎn)集 Xn = ecsf (. . .ecsf (P,K2). . .Kn),Xn中除最后一個(gè)節(jié)點(diǎn)外的所有結(jié)點(diǎn)均為ecsf節(jié)點(diǎn),而在每 一輪迭代的最后一個(gè)節(jié)點(diǎn)是否為ecsf節(jié)點(diǎn)也都需要驗(yàn)證;驗(yàn)證方法為檢查上一輪最后一個(gè) 節(jié)點(diǎn)與當(dāng)前第一個(gè)節(jié)點(diǎn)的祖孫節(jié)點(diǎn)關(guān)系,如果不存在祖孫節(jié)點(diǎn)則均為ecsf節(jié)點(diǎn),相反則保 留祖先節(jié)點(diǎn)作為ecsf節(jié)點(diǎn);
[0060]校驗(yàn)候選近似語義片段對應(yīng)的子樹是否覆蓋所有實(shí)體和實(shí)例對集合信息;從表示 實(shí)例信息的葉子節(jié)點(diǎn)向上遍歷到子樹根節(jié)點(diǎn),檢查實(shí)例對應(yīng)的實(shí)體節(jié)點(diǎn)是否在這條路徑 上。
[0061 ]可選的,所述對所有候選片段進(jìn)行評分包括:
[0062] 令t表示XML樹中滿足要求的片段,t'表示t去除實(shí)例結(jié)點(diǎn)后的子樹片段,則該片段 與文本文檔的實(shí)例集K的匹配評分為:
[0063]
[0064] 其中tf (V。,t ')表示實(shí)體集對應(yīng)的節(jié)點(diǎn)在子樹t '中出現(xiàn)的頻率:
Ukl表示實(shí)體(^沿著邊到實(shí)例lu的距離,k^Cl的第幾代子孫節(jié)點(diǎn)。
[0065]
【發(fā)明內(nèi)容】
小結(jié)
[0066] 本發(fā)明技術(shù)方案提出一種新方法(利用實(shí)體抽取技術(shù)進(jìn)行文本數(shù)據(jù)與XML文檔的 匹配方法),可以應(yīng)用于企業(yè)異構(gòu)數(shù)據(jù)集中管理分析、大數(shù)據(jù)技術(shù)實(shí)施前的數(shù)據(jù)集成等領(lǐng) 域,具有下面獨(dú)特的特性:
[0067] 1、定義實(shí)體及實(shí)例對集合來表示文本文檔的模式,"基于實(shí)體的最近語義片段 ECSF"來表示與文本數(shù)據(jù)匹配的XML片段;
[0068] 2、擴(kuò)展了Dewey編碼,提出帶節(jié)點(diǎn)類型的Dewey編碼(eDewey),對由XML文檔構(gòu)造成 的有序帶標(biāo)記樹進(jìn)行標(biāo)注;
[0069] 3、提出高效的XML樹節(jié)點(diǎn)索引,輔助ECSF算法檢索所有基于實(shí)體的近似語義片段 候選集。提出的兩階段匹配算法有效地解決了文本數(shù)據(jù)模式與XML樹間語義匹配問題;
[0070] 4、提出充分考慮文本數(shù)據(jù)實(shí)體及實(shí)例信息和XML文檔結(jié)構(gòu)信息的評分模型,相對 于簡單的文本相似度比較算法可能更加有效和準(zhǔn)確地建立文本文檔與XML樹中相關(guān)片段的 映射關(guān)系。
[0071] 與現(xiàn)有技術(shù)相比,本發(fā)明的技術(shù)方案至少具有以下優(yōu)點(diǎn):
[0072] 通過結(jié)合實(shí)體抽取技術(shù)和XML關(guān)鍵字查詢,針對文本數(shù)據(jù)與可擴(kuò)展標(biāo)記語言(XML) 文檔進(jìn)行數(shù)據(jù)集成,自動(dòng)化完成文本數(shù)據(jù)在XML文檔中的匹配映射,能夠有效支持文本數(shù)據(jù) 和XML文檔等異構(gòu)數(shù)據(jù)間的集成,召回率、準(zhǔn)確率高,匹配效果好,可應(yīng)用于企業(yè)異構(gòu)數(shù)據(jù)集 中管理分析、大數(shù)據(jù)技術(shù)實(shí)施前的數(shù)據(jù)集成等領(lǐng)域。
【附圖說明】
[0073] 圖1是本發(fā)明技術(shù)方案提供的基于實(shí)體的文本數(shù)據(jù)與XML文檔的匹配方法的流程 示意圖;
[0074] 圖2為本發(fā)明實(shí)施例的XML文檔樹結(jié)構(gòu)的示意圖;
[0075] 圖3為本發(fā)明實(shí)施例的倒排索引構(gòu)建過程的示意圖;
[0076] 圖4為根據(jù)圖3構(gòu)建出來的XML樹節(jié)點(diǎn)倒排索引結(jié)構(gòu)示意圖;
[0077] 圖5為本發(fā)明實(shí)施例的無人工判別的召回率和準(zhǔn)確率的示意圖;
[0078] 圖6為本發(fā)明實(shí)施例的人工判別后的召回率和準(zhǔn)確率的示意圖;
[0079] 圖7為本發(fā)明實(shí)施例的抽取的實(shí)例數(shù)量分布情況的示意圖;
[0080] 圖8為本發(fā)明實(shí)施例的實(shí)例數(shù)量與匹配結(jié)果之間關(guān)系的示意圖。
【具體實(shí)施方式】
[0081] 本發(fā)明技術(shù)方案屬于數(shù)據(jù)集成技術(shù)領(lǐng)域,具體為一種利用實(shí)體抽取技術(shù),針對文 本數(shù)據(jù)與可擴(kuò)展標(biāo)記語言(XML)文檔進(jìn)行匹配以實(shí)現(xiàn)數(shù)據(jù)集成的方法。
[0082] 如圖1所示,本發(fā)明技術(shù)方案提供的基于實(shí)體的文本數(shù)據(jù)與XML文檔的匹配方法包 括:
[0083] 步驟S101,將文本數(shù)據(jù)的模式定義為實(shí)體及實(shí)例集合,將文本數(shù)據(jù)與XML文檔模式 匹配的語義定義為在XML文檔中檢索包含所有實(shí)體、實(shí)例對集合的最小連通子樹,將查詢結(jié) 果定義為基于實(shí)體的最近語義片段;
[0084]步驟S102,將XML文檔構(gòu)造為一棵有序的帶標(biāo)記樹,構(gòu)造成的XML樹的節(jié)點(diǎn)采用帶 類型的Dewey編碼標(biāo)注;
[0085] 步驟S103,通過基于條件隨機(jī)場的實(shí)體抽取算法提取文本數(shù)據(jù)的實(shí)體及實(shí)例信 息,結(jié)合XML樹,找出所有可能組合的基于實(shí)體的近似語義片段節(jié)點(diǎn)集,然后通過篩選保留 最近語義片段候選集;
[0086] 步驟S104,對所有候選的最近語義片段進(jìn)行評分,以得分最高的最近語義片段作 為最終匹配結(jié)果。
[0087] 本發(fā)明技術(shù)方案中首次提出采用兩階段的算法實(shí)現(xiàn)文本數(shù)據(jù)與XML文檔的模式匹 配,包括:將文本數(shù)據(jù)的模式定義為實(shí)體及實(shí)例集合,將文本數(shù)據(jù)與XML文檔模式匹配的語 義定義為在XML文檔中檢索包含所有實(shí)體、實(shí)例對集合的最小連通子樹,將查詢結(jié)果定義為 基于實(shí)體的最近語義片段(ECSF);基于實(shí)體的最近語義片段(ECSF)定義為XML樹上覆蓋所 有實(shí)體及實(shí)例信息的最小連通子樹,且實(shí)例所對應(yīng)的實(shí)體必須是該實(shí)例的祖先節(jié)點(diǎn);模式 匹配過程首先使用基于條件隨機(jī)場的實(shí)體抽取算法提取文本文檔的實(shí)體及實(shí)例信息,然后 通過ECSF檢索算法在XML文檔樹中查詢覆蓋所有實(shí)體及實(shí)例的最近語義片段作為匹配對 象。
[0088] 本發(fā)明技術(shù)方案能夠有效支持文本數(shù)據(jù)和XML文檔等異構(gòu)數(shù)據(jù)間的集成,召回率、 準(zhǔn)確率高,匹配效果好,可應(yīng)用于企業(yè)異構(gòu)數(shù)據(jù)集中管理分析、大數(shù)據(jù)技術(shù)實(shí)施前的數(shù)據(jù)集 成等領(lǐng)域。
[0089]為使本發(fā)明的上述目的、特征和優(yōu)點(diǎn)能夠更為明顯易懂,下面結(jié)合附圖對本發(fā)明 的具體實(shí)施例作詳細(xì)的說明。
[0090]首先對本實(shí)施例中涉及的一些概念進(jìn)行詳細(xì)說明:
[0091 ] 1.定義模式匹配語義和返回結(jié)果
[0092]異構(gòu)數(shù)據(jù)的集成首先要進(jìn)行模式的匹配,文本數(shù)據(jù)一般是自然語言,因此首先需 要對文本數(shù)據(jù)進(jìn)行自然語言處理,形成一定的模式結(jié)構(gòu)。命名實(shí)體抽取(Named Entity Extraction, ΝΕΕ)是自然語言處理的一項(xiàng)重要技術(shù),它的任務(wù)就是通過分析文本并從中抽 取出專有名詞或有意義的短語。目前大多數(shù)命名實(shí)體抽取研究主要集中在人名、地名、組織 名等幾類上,然而有一些研究已經(jīng)致力于識別一些復(fù)雜的命名實(shí)體,如書名、歌曲名、電影 名等。
[
當(dāng)前第2頁1 2 3 4 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊!
1