專利名稱:一種從文獻(xiàn)中自動識別實驗方案的方法
技術(shù)領(lǐng)域:
本發(fā)明涉及一種從文獻(xiàn)中自動識別實驗方案的方法。
背景技術(shù):
在生命科學(xué)領(lǐng)域,研究者和技術(shù)人員常常需要能夠從海量的文字資料中快速準(zhǔn)確地獲取與實驗方案相關(guān)的內(nèi)容,以便對其進行深入的分析或者進一步的知識發(fā)現(xiàn)。所以,從數(shù)量龐大、內(nèi)容復(fù)雜的文獻(xiàn)中快速定位到自己所需的內(nèi)容是擺在科技人員面前的一個不可回避而又很有意義的問題?,F(xiàn)有的工作方式中,從生命科學(xué)文獻(xiàn)中提取實驗方案段落主要依賴于人工對文獻(xiàn)內(nèi)容進行通讀,然后再對它們進行標(biāo)注提取。該種工作方式需要許多具有豐富經(jīng)驗和專門知識的分類人員做大量的工作,不僅代價高昂,而且效率低下。
發(fā)明內(nèi)容
本發(fā)明的目的是提供一種從文獻(xiàn)中自動識別實驗方案的方法,可以很好的解決上述問題。本發(fā)明的目的是通過以下技術(shù)方案來實現(xiàn)一種從文獻(xiàn)中自動識別實驗方案的方法,包括如下步驟讀取所述文獻(xiàn)中數(shù)字化的文獻(xiàn)內(nèi)容;將文獻(xiàn)內(nèi)容劃分為多個文本段落;基于詞頻統(tǒng)計,采用特征向量表示文獻(xiàn)內(nèi)容中所有的文本段落;對文本段落的原始特征向量進行高層次特征向量的提??;通過上下文無關(guān)分類模型/上下文相關(guān)段落分類模型,判斷文本段落是否為闡述實驗方案的段落。優(yōu)選的,步驟“將文獻(xiàn)內(nèi)容劃分為若干文本段落”后,“基于詞頻統(tǒng)計,采用特征向量表示文獻(xiàn)內(nèi)容中所有的文本段落”前;還包括步驟對文獻(xiàn)內(nèi)容中的所有的文本段落進行預(yù)處理,具體包括去除所述文本段落中的停用詞;對文本段落中的詞根進行還原;將所述文本段落分解為一系列無序的詞條,并獲取所述詞條在所述文本段落中的詞頻和出現(xiàn)所述詞條的所述文本段落的總數(shù)。優(yōu)選的,步驟“基于詞頻統(tǒng)計,采用特征向量表示文獻(xiàn)內(nèi)容中所有的文本段落”具體為給所述詞條加上與該詞條對應(yīng)的權(quán)重;將所述文本段落映射成特征向量。優(yōu)選的,步驟“對文本段落的原始特征向量進行高層次特征向量的提取”具體為通過無監(jiān)督學(xué)習(xí)方法進行文本段落的特征向量的抽取訓(xùn)練;通過無監(jiān)督學(xué)習(xí)方法對新的文本段落進行高層次特征向量抽取。本發(fā)明提供了一種可方便應(yīng)用于計算機,能夠針對生命科學(xué)研究中的海量文獻(xiàn), 通過高層特征的提取和上下文無關(guān)/相關(guān)分類器的構(gòu)造,自動的提取出與實驗方案有關(guān)的段落,代替人工識別選取,具有高效、準(zhǔn)確的特點。
下面根據(jù)附圖和實施例對本發(fā)明作進一步詳細(xì)說明。圖1為本發(fā)明實施例1提出的一種從文獻(xiàn)中自動識別實驗方案的方法流程圖;圖2為本發(fā)明實施例1提出的一種從文獻(xiàn)中自動識別實驗方案中S13的具體流程圖;圖3為本發(fā)明實施例1提出的一種從文獻(xiàn)中自動識別實驗方案中S14的具體流程圖;圖4為本發(fā)明實施例1提出的一種從文獻(xiàn)中自動識別實驗方案中S15的具體流程圖。
具體實施例方式實施例1參見圖1,提出一種實驗方案自動識別方法,并做進一步說明如下S11、讀取文獻(xiàn)中數(shù)字化的文獻(xiàn)內(nèi)容。S12、將文獻(xiàn)內(nèi)容劃分為若干文本段落,保存該文本段落的總數(shù)N。S13、對文獻(xiàn)內(nèi)容中的所有的文本段落進行預(yù)處理,獲取噪聲被初步降低的文獻(xiàn)內(nèi)容。參見圖2,其具體包括如下步驟S131、選擇未經(jīng)過預(yù)處理的文本段落,并去除該文本段落中的停用詞。S132、對該文本段落中的詞根進行還原。S133、將未被特征向量表示的文本段落分解為一系列無序的詞條,并獲取上述詞條在該文本段落中的詞頻tf (t,ρ)和出現(xiàn)該詞條的文本段落的總數(shù)nt。文本段落由一系列詞條組成,根據(jù)現(xiàn)有構(gòu)詞規(guī)則,將文本段落分解為一系列無序的詞條,將詞條在上述文本段落中出現(xiàn)的次數(shù)統(tǒng)計為tf(t,p),即為上述詞條在上述文本段落中的詞頻,統(tǒng)計所有詞條的nt,nt為文獻(xiàn)內(nèi)容中,出現(xiàn)該詞條的文本段落的總數(shù)。S134、判斷文獻(xiàn)內(nèi)容中是否存在未經(jīng)過預(yù)處理的文本段落。如果是,轉(zhuǎn)至S131;如果否,對該文獻(xiàn)的預(yù)處理過程結(jié)束,該文獻(xiàn)內(nèi)容的噪聲也被初步降低。S14、基于詞頻統(tǒng)計,采用特征向量表示文獻(xiàn)內(nèi)容中所有的文本段落。參見圖3,其具體包括如下步驟S141、根據(jù)上述N、tf(t, ρ)、nt給文本段落中每一詞條加上與該詞條對應(yīng)的權(quán)重?!獋€詞條在越多的文本段落中出現(xiàn),其權(quán)重越小,因其區(qū)分文本段落類別的能力越低;在某一個文本段落中,一個詞條出現(xiàn)的頻率越高,則其權(quán)重越大,因其區(qū)分文本段落類別的能力越強。如下詳述采用tf idf函數(shù),通過TF-IDF公式計算該詞條的權(quán)重,并將權(quán)重量化的過程
權(quán)利要求
1.一種從文獻(xiàn)中自動識別實驗方案的方法,其特征在于,包括如下步驟讀取所述文獻(xiàn)中數(shù)字化的文獻(xiàn)內(nèi)容;將文獻(xiàn)內(nèi)容劃分為多個文本段落;基于詞頻統(tǒng)計,采用特征向量表示文獻(xiàn)內(nèi)容中所有的文本段落;對文本段落的原始特征向量進行高層次特征向量的提??;通過上下文無關(guān)分類模型/上下文相關(guān)段落分類模型,判斷文本段落是否為闡述實驗方案的段落。
2.如權(quán)利要求1所述的方法,其特征在于,步驟“將文獻(xiàn)內(nèi)容劃分為若干文本段落”后, “基于詞頻統(tǒng)計,采用特征向量表示文獻(xiàn)內(nèi)容中所有的文本段落”前;還包括步驟對文獻(xiàn)內(nèi)容中的所有的文本段落進行預(yù)處理,具體包括去除所述文本段落中的停用詞;對文本段落中的詞根進行還原;將所述文本段落分解為一系列無序的詞條,并獲取所述詞條在所述文本段落中的詞頻和出現(xiàn)所述詞條的所述文本段落的總數(shù)。
3.如權(quán)利要求1所述的方法,其特征在于,步驟“基于詞頻統(tǒng)計,采用特征向量表示文獻(xiàn)內(nèi)容中所有的文本段落”具體為給所述詞條加上與該詞條對應(yīng)的權(quán)重;將所述文本段落映射成特征向量。
4.如權(quán)利要求1所述的方法,其特征在于,步驟“對文本段落的原始特征向量進行高層次特征向量的提取”具體為通過無監(jiān)督學(xué)習(xí)方法進行文本段落的特征向量的抽取訓(xùn)練;通過無監(jiān)督學(xué)習(xí)方法對新的文本段落進行高層次特征向量抽取。
全文摘要
本發(fā)明提出一種從文獻(xiàn)中自動識別實驗方案的方法,包括如下步驟讀取所述文獻(xiàn)中數(shù)字化的文獻(xiàn)內(nèi)容;將文獻(xiàn)內(nèi)容劃分為多個文本段落;基于詞頻統(tǒng)計,采用特征向量表示文獻(xiàn)內(nèi)容中所有的文本段落;對文本段落的原始特征向量進行高層次特征向量的提?。煌ㄟ^上下文無關(guān)分類模型/上下文相關(guān)段落分類模型,判斷文本段落是否為闡述實驗方案的段落。本發(fā)明針對生命科學(xué)文獻(xiàn)中實驗方案段落的識別任務(wù),通過高層特征的提取和上下文無關(guān)/相關(guān)分類器的構(gòu)造,能夠高效、準(zhǔn)確的在海量的生命科技文獻(xiàn)中自動的提取出實驗方案的段落。
文檔編號G06F17/30GK102169493SQ20111008296
公開日2011年8月31日 申請日期2011年4月2日 優(yōu)先權(quán)日2011年4月2日
發(fā)明者何芳連 申請人:北京奧米時代生物技術(shù)有限公司