亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

融合語(yǔ)境信息的領(lǐng)域術(shù)語(yǔ)識(shí)別方法與流程

文檔序號(hào):12464643閱讀:696來(lái)源:國(guó)知局
本發(fā)明涉及本體學(xué)習(xí)領(lǐng)域術(shù)語(yǔ)抽取,尤其是涉及抑郁癥藥物領(lǐng)域術(shù)語(yǔ)抽取。技術(shù)背景本體在解決知識(shí)表示、知識(shí)組織以及知識(shí)共享等問(wèn)題方面表現(xiàn)出了優(yōu)異的性能,因此,在信息技術(shù)、人工智能、知識(shí)工程、知識(shí)管理、信息檢索等領(lǐng)域被廣泛應(yīng)用,特別是語(yǔ)義Web的產(chǎn)生,使得本體為Web信息共享提出了新的解決方案,為其發(fā)展帶來(lái)了廣闊前景。本體作為概念模型的明確規(guī)范說(shuō)明,是概念間的關(guān)系模型。而術(shù)語(yǔ)作為概念的一種描述,可以用于表示概念的實(shí)例,故本體術(shù)語(yǔ)抽取成為本體構(gòu)建的首要工作,對(duì)本體學(xué)習(xí)以及基于本體的應(yīng)用技術(shù)的發(fā)展具有重要意義。然而,一般的本體術(shù)語(yǔ)抽取方法只適用于通用、寬泛領(lǐng)域,在解決特定、細(xì)粒度領(lǐng)域的術(shù)語(yǔ)抽取問(wèn)題時(shí)準(zhǔn)確率及召回率均很低。技術(shù)實(shí)現(xiàn)要素:為了解決本體學(xué)習(xí)中在特定領(lǐng)域術(shù)語(yǔ)抽取效率偏低的問(wèn)題,本發(fā)明提出了一種融合語(yǔ)境信息的領(lǐng)域術(shù)語(yǔ)識(shí)別方法,整合統(tǒng)計(jì)學(xué)和語(yǔ)言學(xué)方法,借鑒傳統(tǒng)領(lǐng)域相關(guān)性與領(lǐng)域一致性思想,再結(jié)合對(duì)數(shù)似然比,從候選術(shù)語(yǔ)語(yǔ)境信息的復(fù)現(xiàn)次數(shù)角度刻畫(huà)候選術(shù)語(yǔ)在不同領(lǐng)域的分布情況,然后計(jì)算候選術(shù)語(yǔ)的領(lǐng)域?qū)傩灾?,最后根?jù)每個(gè)候選術(shù)語(yǔ)的領(lǐng)域?qū)傩灾党槿☆I(lǐng)域術(shù)語(yǔ)。本發(fā)明所述的融合語(yǔ)境信息的領(lǐng)域術(shù)語(yǔ)識(shí)別方法可獲得非常好的術(shù)語(yǔ)抽取準(zhǔn)確率,其不僅可以應(yīng)用在諸如抑郁癥藥物等領(lǐng)域的術(shù)語(yǔ)抽取中,還能夠在概念抽取方法中作為候選概念產(chǎn)生工具使用。為解決所述技術(shù)問(wèn)題,本發(fā)明采用的技術(shù)方案具體如下:(1)候選術(shù)語(yǔ)及其語(yǔ)境信息產(chǎn)生運(yùn)用自然語(yǔ)言處理技術(shù)從測(cè)試語(yǔ)料庫(kù)中構(gòu)建術(shù)語(yǔ)數(shù)組,抽取術(shù)語(yǔ)周?chē)欢〝?shù)量的詞語(yǔ)構(gòu)建語(yǔ)境數(shù)組,進(jìn)而構(gòu)建術(shù)語(yǔ)語(yǔ)境哈希表,其中,關(guān)鍵詞和值分別是術(shù)語(yǔ)及其語(yǔ)境數(shù)組;(2)構(gòu)造目標(biāo)語(yǔ)料庫(kù)和對(duì)照語(yǔ)料庫(kù)抽取領(lǐng)域文本中已存在的領(lǐng)域術(shù)語(yǔ)的語(yǔ)境信息形成目標(biāo)語(yǔ)料庫(kù),抽取非領(lǐng)域文本中存在的名詞短語(yǔ)的語(yǔ)境信息形成對(duì)照語(yǔ)料庫(kù),最后,對(duì)目標(biāo)語(yǔ)料庫(kù)和對(duì)照語(yǔ)料庫(kù)進(jìn)行詞形還原;(3)候選術(shù)語(yǔ)識(shí)別a)計(jì)算術(shù)語(yǔ)語(yǔ)境與目標(biāo)語(yǔ)料庫(kù)和對(duì)照語(yǔ)料庫(kù)中各語(yǔ)境信息的語(yǔ)境相似度,并構(gòu)建術(shù)語(yǔ)語(yǔ)境相似度數(shù)組,然后,設(shè)置語(yǔ)境相似度閾值,滿足閾值的項(xiàng)數(shù)作為術(shù)語(yǔ)語(yǔ)境在相應(yīng)語(yǔ)料庫(kù)中的復(fù)現(xiàn)頻數(shù),計(jì)算術(shù)語(yǔ)對(duì)數(shù)似然比,并構(gòu)建似然比數(shù)組,進(jìn)而構(gòu)建術(shù)語(yǔ)似然比哈希表,其中,關(guān)鍵字和值分別是術(shù)語(yǔ)和相應(yīng)的似然比數(shù)組中的最大值,最后,設(shè)置對(duì)數(shù)似然比閾值,得到滿足閾值的術(shù)語(yǔ)似然比哈希表;h)統(tǒng)計(jì)術(shù)語(yǔ)在目標(biāo)語(yǔ)料庫(kù)和對(duì)照預(yù)料庫(kù)中的出現(xiàn)的頻數(shù),計(jì)算候選術(shù)語(yǔ)的偏移因子;c)根據(jù)b)的結(jié)果得到領(lǐng)域?qū)傩灾担缓?,設(shè)置屬性值閾值,將滿足閾值的術(shù)語(yǔ)抽取出來(lái),構(gòu)建領(lǐng)域術(shù)語(yǔ)數(shù)組。進(jìn)一步的,所述步驟a)中語(yǔ)境相似度計(jì)算方法具體過(guò)程為:設(shè)術(shù)語(yǔ)語(yǔ)境信息數(shù)組為A,語(yǔ)料庫(kù)某一語(yǔ)境數(shù)組B,首先,統(tǒng)計(jì)數(shù)組A和數(shù)組B中相同詞的個(gè)數(shù)C,計(jì)算兩倍的C與A、B所含單詞數(shù)之和的商值D;然后,計(jì)算數(shù)組A中的相同詞在數(shù)組B中的位置順序構(gòu)成的自然數(shù)序列的逆序數(shù)以及A與B所含相同詞位置順序的自然數(shù)序列的最大逆序數(shù)之間的商值E,進(jìn)而得到1與E之差F;最后,術(shù)語(yǔ)的語(yǔ)境相似度值為D和F線性組合之和且兩者系數(shù)之和等于1。附圖說(shuō)明圖1是本發(fā)明所述的融合語(yǔ)境信息的領(lǐng)域術(shù)語(yǔ)識(shí)別方法流程圖具體實(shí)施方式下面將結(jié)合附圖及具體實(shí)施例,對(duì)本發(fā)明作進(jìn)一步的詳細(xì)描述。(一)本發(fā)明所采用的計(jì)算公式介紹設(shè)語(yǔ)境信息X和Y,那么,X和Y的詞形相似度計(jì)算公式如下:其中,CommonWord(X,Y)表示X和Y中相同詞的個(gè)數(shù),WordNum(X)和WordNum(Y)分別表示X和Y所含單詞的個(gè)數(shù)。那么,X和Y的詞序相似度計(jì)算公式如下:WordOrderSim(X,Y)=1-Rev(X,Y)/MaxRev(X,Y)(2)其中,Rev(X,Y)和MaxRev(X,Y)分別表示X與Y相同詞的個(gè)數(shù)的自然數(shù)序列的逆序數(shù)和最大逆序數(shù)。因此,語(yǔ)境相似度計(jì)算公式如下:SentenceSim(X,Y)=τ*MorphologySim(X,Y)+(1-τ)*WordOrderSim(X,Y)(3)其中,τ為參數(shù),其取值范圍在0到1之間。t表示候選術(shù)語(yǔ)的語(yǔ)境信息,C1、C2分別表示目標(biāo)語(yǔ)料庫(kù)和對(duì)照預(yù)料庫(kù),P(t|C1)、P(t|C2)分別表示候選術(shù)語(yǔ)的語(yǔ)境信息在目標(biāo)語(yǔ)料庫(kù)和對(duì)照語(yǔ)料庫(kù)復(fù)現(xiàn)的概率;運(yùn)用語(yǔ)境相似度算法計(jì)算候選術(shù)語(yǔ)語(yǔ)境信息與語(yǔ)料庫(kù)中各個(gè)語(yǔ)境信息之間的相似度,相似度值大于給定閾值的語(yǔ)境信息個(gè)數(shù)作為其在語(yǔ)料庫(kù)的頻數(shù),假設(shè)候選術(shù)語(yǔ)的語(yǔ)境信息t在C1和C2中出現(xiàn)的次數(shù)分別為w1、w2,使用極大似然估計(jì)計(jì)算P1、P2和P。本發(fā)明的對(duì)數(shù)似然比假設(shè)如下:假設(shè)H1:P(t|C1)=P(t|C2)=P=0.5假設(shè)H2:P(t|C1)=P1=w1/(w1+w2)≠w2/(w1+w2)=P2=P(t|C2)假設(shè)H1和假設(shè)H2的似然值L(H1)及L(H2)可以根據(jù)二項(xiàng)式分布假設(shè)求出,則候選術(shù)語(yǔ)語(yǔ)境信息復(fù)現(xiàn)次數(shù)在目標(biāo)語(yǔ)料庫(kù)和對(duì)照語(yǔ)料庫(kù)中的對(duì)數(shù)似然比如下(以2為底):其中,L(H1)-w2(w2;w1+w2,p)w2(w1;w1+w2,p);L(H2)=w2(w1;w1+w2,p1)w2(w2;w1+w2,p2);另外,候選術(shù)語(yǔ)的偏移因子計(jì)算公式如下所示:最后,候選術(shù)語(yǔ)的領(lǐng)域?qū)傩灾涤?jì)算公式如下所示:Dp(t)=λLRR(t)*Bf(t)(6)(二)候選術(shù)語(yǔ)及其語(yǔ)境信息的提取實(shí)例第一步使用stanford解析器對(duì)測(cè)試數(shù)據(jù)進(jìn)行詞性標(biāo)注及句法解析,提取文本中所有標(biāo)記為“NP”的名詞短語(yǔ);第二步從上述名詞短語(yǔ)中去除冠詞、描述性形容詞等停用詞;第三步將“and”或者“or”連接名詞短語(yǔ)拆分為兩部分,例如,把“dothiepinandamitriptyline”拆為“dothiepin”和“amitriptyline”;第四步從符合“名詞|名詞”或“形容詞|名詞”等類(lèi)似語(yǔ)法結(jié)構(gòu)的名詞短語(yǔ)中進(jìn)一步切割,二次抽取更細(xì)粒度的候選術(shù)語(yǔ),例如,從“desipraminebutriptyline”中產(chǎn)生“desipramine”和“butriptyline”;第五步詞形還原、去重,得到候選術(shù)語(yǔ)集合,以此抽取在測(cè)試語(yǔ)料庫(kù)中對(duì)應(yīng)各個(gè)候選術(shù)語(yǔ)的語(yǔ)境信息,取候選術(shù)語(yǔ)周?chē)?0個(gè)詞作為其語(yǔ)境信息。(三)如圖1所示,所述融合語(yǔ)境信息的領(lǐng)域術(shù)語(yǔ)識(shí)別方法具體流程如下:第一步對(duì)測(cè)試數(shù)據(jù)進(jìn)行詞性標(biāo)注、句法解析,提取所有名詞短語(yǔ)并進(jìn)行詞形還原,形成候選術(shù)語(yǔ)集;第二步對(duì)測(cè)試數(shù)據(jù)、目標(biāo)語(yǔ)料庫(kù)和對(duì)照語(yǔ)料庫(kù)進(jìn)行詞形還原,并在詞形還原后的測(cè)試語(yǔ)料庫(kù)中抽取各個(gè)候選術(shù)語(yǔ)對(duì)應(yīng)的語(yǔ)境信息;第三步對(duì)于每一個(gè)候選術(shù)語(yǔ)的每一個(gè)語(yǔ)境信息,根據(jù)公式(1)、(2)、(3)計(jì)算其與目標(biāo)語(yǔ)料庫(kù)和對(duì)照語(yǔ)料庫(kù)中的各個(gè)語(yǔ)境信息相似度,進(jìn)而得到每一個(gè)語(yǔ)境信息在兩者中各自出現(xiàn)的次數(shù),根據(jù)公式(4)計(jì)算其對(duì)數(shù)似然比,進(jìn)而選取最大的λLRR(t)值作為該候選術(shù)語(yǔ)的對(duì)數(shù)似然比值,最后,設(shè)置對(duì)數(shù)似然比閾值,過(guò)濾出滿足閾值的候選術(shù)語(yǔ);第四步對(duì)于每個(gè)候選術(shù)語(yǔ),根據(jù)公式(5)計(jì)算其偏移因子Bf(t),進(jìn)而根據(jù)公式(6)計(jì)算領(lǐng)域?qū)傩灾礑p(t);第五步對(duì)所有候選術(shù)語(yǔ)的領(lǐng)域?qū)傩灾颠M(jìn)行排序,大于閾值的候選術(shù)語(yǔ)被確認(rèn)為領(lǐng)域術(shù)語(yǔ)。實(shí)驗(yàn)數(shù)據(jù)本發(fā)明所述的領(lǐng)域術(shù)語(yǔ)識(shí)別方法所用原始目標(biāo)語(yǔ)料庫(kù)由3000篇來(lái)自于抑郁癥領(lǐng)域的PubMed摘要構(gòu)成,其中每篇摘要都含有SNOMEDCT術(shù)語(yǔ)集中的術(shù)語(yǔ);原始照語(yǔ)料庫(kù)分別由來(lái)自于NSF數(shù)據(jù)集中的2000篇摘要和1000篇非抑郁癥領(lǐng)域PubMed摘要構(gòu)成。測(cè)試語(yǔ)料庫(kù)的原始文本來(lái)自我們從PubMed數(shù)據(jù)集中抽取的2005年至2007年,發(fā)表在精神病學(xué)領(lǐng)域影響因子大于3的5個(gè)期刊上的文章所形成的子數(shù)據(jù)集,我們從中隨機(jī)抽取300篇構(gòu)造測(cè)試語(yǔ)料庫(kù)。領(lǐng)域?qū)<覅⒖糞NOMEDCT術(shù)語(yǔ)集對(duì)其進(jìn)行概念標(biāo)注,最終標(biāo)注出28個(gè)抑郁癥藥物術(shù)語(yǔ)。本次實(shí)驗(yàn)中共抽取24個(gè)領(lǐng)域術(shù)語(yǔ),其中,10個(gè)為抑郁癥藥物術(shù)語(yǔ),術(shù)語(yǔ)抽取準(zhǔn)確率為41.67%。下表為術(shù)語(yǔ)抽取的詳細(xì)結(jié)果:表1術(shù)語(yǔ)抽取詳情概念Dp(t)備注概念Dp(t)備注maprotiline2.912E-12Trueconclusion0.439732530Falseoupropion4.183E-12Truemirtazapine0.460835970Truecontent3.2631E-9Falseolanzapine0.527306049Truetryptophan4.5344E-6Trueparameter0.639423371Falseanxiety1.070345E-4Falsediscussion0.653526373Falsetrazodone6.937425E-4Truedisease0.701780347Falseformulation0.0097045065Falseescitalopram0.732790427Truenefazodone0.0117234882Truedysthymium0.754463341Falsefunction0.0157323651Falseagoraphobia0.873691455Falsepublication0.0244430292Falsevenlafaxine0.922919259Truemoderate0.0291875725Falseantidepressant0.936160257Falseactivation0.4336680191Falseparoxetine0.967141236True當(dāng)前第1頁(yè)1 2 3 
當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1