亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種文本中知識領域識別方法及系統(tǒng)與流程

文檔序號:12733642閱讀:417來源:國知局
一種文本中知識領域識別方法及系統(tǒng)與流程

本發(fā)明涉及文本數(shù)據(jù)處理技術領域,特別涉及一種文本中知識領域識別方法及系統(tǒng)。



背景技術:

文本中實體間的語義關系的揭示是實現(xiàn)文本中領域知識發(fā)現(xiàn)的重要前提和保障。當前,對于社交媒體文本數(shù)據(jù)知識發(fā)現(xiàn)的研究多為對現(xiàn)有知識發(fā)現(xiàn)方法的應用和改進,鮮少有對文本內容中實體間語義關系的討論,現(xiàn)有技術中,對文本中知識領域的識別僅通過對關鍵詞的識別判定,識別效率不高,且對文本數(shù)據(jù)中領域知識的可靠性難以保證。

綜上所述,如何提高文本中知識領域的識別效率是本領域技術人員目前需要解決的技術問題。



技術實現(xiàn)要素:

有鑒于此,本發(fā)明的目的在于提供一種文本中知識領域識別方法及系統(tǒng),可以顯著提高文本中知識領域的識別效率。其具體方案如下:

一種文本中知識領域識別方法,包括:

步驟S1:判斷相關領域概念和目標領域概念是否出現(xiàn)在同一句子中,若是,則進行步驟S2,若否,則進行步驟S6;

步驟S2:判斷所述相關領域概念的數(shù)量是否唯一,若是,則判定找到概念/關系對,若否,則進行步驟S3;

步驟S3:計算第一相關領域概念距離和第二相關概念領域距離之差的絕對值,得到第一相對距離,其中,所述第一相關領域概念距離為所述第一相關領域概念與所述目標領域概念之差的絕對值,所述第二相關領域概念距離為所述第二相關領域概念與所述目標領域概念之差的絕對值;

步驟S4:判斷所述第一相對距離是否大于或等于第一閾值,若是,則進行步驟S5,若否,則根據(jù)語境進行分析,以得到概念/關系對;

步驟S5:判定所述第一相關領域概念距離和所述第二相關概念領域距離中的較小者相應的相關概念領域為概念/關系對;

步驟S6:判斷步驟S1中所述相關領域概念在相鄰句中是否唯一,若是,則判定找到概念/關系對,若否,則進行步驟S7;

步驟S7:計算第三相關領域概念距離和第四相關概念領域距離之差的絕對值,得到第二相對距離,其中,所述第三相關領域概念距離為所述第三相關領域概念與所述目標領域概念之差的絕對值,所述第四相關領域概念距離為所述第四相關領域概念與所述目標領域概念之差的絕對值;

步驟S8:判斷所述第三相對距離是否大于或等于第二閾值,若是,則進行步驟S9,若否,則根據(jù)語境進行分析,以得到概念/關系對;

步驟S9:判定所述第三相關領域概念距離和所述第四相關概念領域距離中的較小者相應的相關概念領域為概念/關系對。

優(yōu)選的,步驟S4中所述根據(jù)語境進行分析包括:

按照出現(xiàn)順序獲取所述第一相關領域概念、所述第二相關領域概念和所述目標領域的序列集合,根據(jù)所述序列集合進行分析。

優(yōu)選的,所述文本中知識領域識別方法還包括:

若存在相關領域概念的數(shù)量大于2時,判斷每一個相關領域概念是否曾被確認為所述目標領域概念的概念/關系對,若否,則判定為找到新概念/關系對,若是,則需要根據(jù)語境判斷。

優(yōu)選的,所述文本中知識領域識別方法還包括:

若存在相關領域概念的數(shù)量大于2時,判斷每一個相關領域概念是否曾作為所述目標領域概念的結果出現(xiàn),若否,則判定為找到新概念/關系對,若是,則需要根據(jù)語境判斷。

本發(fā)明還公開了一種文本中知識領域識別系統(tǒng),包括同句判斷模塊、第一數(shù)量判斷模塊、第一相對距離計算模塊、第一閾值判斷模塊、第一距離確定模塊、第二數(shù)量判斷模塊、第二相對距離計算模塊、第二閾值判斷模塊和第二距離確定模塊,其中:

所述同句判斷模塊,用于判斷相關領域概念和目標領域概念是否出現(xiàn)在同一句子中,若是,則控制所述第一數(shù)量判斷模塊工作,若否,則控制第二數(shù)量判斷模塊工作;

所述第一數(shù)量判斷模塊,用于判斷所述相關領域概念的數(shù)量是否唯一,若是,則判定找到概念/關系對,若否,則控制所述第一相對距離計算模塊工作;

所述第一相對距離計算模塊,用于計算第一相關領域概念距離和第二相關概念領域距離之差的絕對值,得到第一相對距離,其中,所述第一相關領域概念距離為所述第一相關領域概念與所述目標領域概念之差的絕對值,所述第二相關領域概念距離為所述第二相關領域概念與所述目標領域概念之差的絕對值;

所述第一閾值判斷模塊,用于判斷所述第一相對距離是否大于或等于第一閾值,若是,則控制所述第一距離確定模塊工作,若否,則根據(jù)語境進行分析,以得到概念/關系對;

所述第一距離確定模塊,用于判定所述第一相關領域概念距離和所述第二相關概念領域距離中的較小者相應的相關概念領域為概念/關系對;

所述第二數(shù)量判斷模塊,用于判斷所述同句判斷模塊中的所述相關領域概念在相鄰句中是否唯一,若是,則判定找到概念/關系對,若否,則控制所述第二相對距離計算模塊工作;

所述第二相對距離計算模塊,用于計算第三相關領域概念距離和第四相關概念領域距離之差的絕對值,得到第二相對距離,其中,所述第三相關領域概念距離為所述第三相關領域概念與所述目標領域概念之差的絕對值,所述第四相關領域概念距離為所述第四相關領域概念與所述目標領域概念之差的絕對值;

所述第二閾值判斷模塊,用于判斷所述第三相對距離是否大于或等于第二閾值,若是,則控制所述第二距離確定模塊工作,若否,則根據(jù)語境進行分析,以得到概念/關系對;

所述第二距離確定模塊,用于判定所述第三相關領域概念距離和所述第四相關概念領域距離中的較小者相應的相關概念領域為概念/關系對。

本發(fā)明公開了一種文本中知識領域識別方法,通過判斷相關概念領域和目標概念領域的位置,若相關概念領域的數(shù)量唯一,則找到概念/關系對,若相關概念領域的數(shù)量不唯一,則對同句或相鄰句中的相關概念領域和目標概念領域的相對距離進行計算,若相對距離大于或等于閾值,則距離目標概念領域更近的相關概念領域為概念/關系對,若小于閾值,則需要根據(jù)語境進行分析判斷,可以較快速地處理文本中知識領域之間的匹配關系,從而提高了文本中知識領域的識別效率。

本發(fā)明還公開了一種文本中知識領域識別系統(tǒng),具有與上述權利要求相同的技術效果,在此不再贅述。

附圖說明

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。

圖1為本發(fā)明公開的一種文本中知識領域識別方法的流程示意圖;

圖2為本發(fā)明公開的一種文本中知識領域識別系統(tǒng)的結構示意圖。

具體實施方式

下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。

本發(fā)明實施例公開了一種文本中知識領域識別方法,參見圖1所示,包括步驟S1至S9,其中:

步驟S1:判斷相關領域概念和目標領域概念是否出現(xiàn)在同一句子中,若是,則進行步驟S2,若否,則進行步驟S6。

本發(fā)明對相關領域概念和目標領域概念的位置進行差異化判斷,具體分為出現(xiàn)在同一個句子和出現(xiàn)在不同句子,步驟S2至S5為出現(xiàn)在同一句子,步驟S6至S9為出現(xiàn)在相鄰句中。

可以理解的是,相關領域概念和目標領域概念出現(xiàn)在不相鄰的句子中涵蓋范圍過大,例如相關領域概念和目標領域概念分別出現(xiàn)在全文第一段和最后一段,對于出現(xiàn)在不相鄰的句子的情況,本發(fā)明不予考慮。

步驟S2:判斷所述相關領域概念的數(shù)量是否唯一,若是,則判定找到概念/關系對,若否,則進行步驟S3;

步驟S3:計算第一相關領域概念距離和第二相關概念領域距離之差的絕對值,得到第一相對距離,其中,所述第一相關領域概念距離為所述第一相關領域概念與所述目標領域概念之差的絕對值,所述第二相關領域概念距離為所述第二相關領域概念與所述目標領域概念之差的絕對值;

步驟S4:判斷所述第一相對距離是否大于或等于第一閾值,若是,則進行步驟S5,若否,則根據(jù)語境進行分析,以得到概念/關系對;

步驟S5:判定所述第一相關領域概念距離和所述第二相關概念領域距離中的較小者相應的相關概念領域為概念/關系對。

對于步驟S3至S5,一種具體的實施例為:

計算過程中的字符說明如下:

χ表示目標領域概念;

φ表示與目標領域概念有關系的第一相關領域概念;

τ表示與目標領域概念有關的第二相關領域概念;

Pχ表示目標領域概念在文本中出現(xiàn)的位置;

表示第一相關領域概念在文本中出現(xiàn)的位置;,

Pτ表示第二相關領域概念在文中出現(xiàn)的位置;

S表示包含目標領域概念的句子及其相鄰句子組成的句子集合;

表示相關領域概念組成的集合;

χ表示目標領域概念的集合;

Dist(Si):句子中相關領域概念φ或相關領域概念τ與目標領域概念χ的距離,即第一相對距離。

表示是否找到相關領域概念φ與目標領域概念χ概念對(φ,χ)。

以下推理規(guī)則的構建是建立在包含目標領域概念的當前句子及其相鄰句子中只出現(xiàn)一個目標領域概念的假設下的。

對于相關領域概念與目標領域概念都出現(xiàn)在同一句子中的情況,抽取實體語義關系的推理規(guī)則公式如下:

為定義計算符號,表示取或邏輯,左端表示存在的相關領域概念的數(shù)量唯一,右端表示第一相對距離大于或等于第一閾值3,且第一相關領域概念在文本中出現(xiàn)的位置比第二相關領域概念在文本中出現(xiàn)的位置Pτ更近;&表示與邏輯,在本式中表示同時滿足第一相關領域概念在文本中出現(xiàn)的位置比第二相關領域概念在文本中出現(xiàn)的位置Pτ更近的結果和第一相對距離大于或等于第一閾值3;Sequence(Si)表示相關領域概念與目標領域概念的判定序列,其中判定序列包括第一相關領域概念構成概念/關系對和第二相關領域概念構成概念/關系對;R為相關領域概念與目標領域概念組成的序列集合;others表示運算的其他情況。

當然,第一閾值也可以其他值。

句子中相關領域概念φ或相關領域概念τ與目標領域概念χ的距離Dist(Si)的定義如下:

其中∞表示一定存在φ與χ構成的領域概念/關系對;表示相關領域概念φ和相關領域概念τ與目標領域概念χ的相對距離的差的絕對值。

根據(jù)以上定義,推理規(guī)則公式對應的推理規(guī)則為:

①若當前句子中只有相關領域概念φ,而沒有相關領域概念τ,則認為φ即是要找的與目標領域概念組成實體語義關系的那個領域相關概念,即找到概念/關系對。

②若當前句子中同時出現(xiàn)相關領域概念φ和相關領域概念τ,則需分別計算相關領域概念φ和相關領域概念τ與目標領域概念χ的相對距離。當相對距離的差的絕對值大于等于某個預定的閥值,且相關領域概念φ與目標概念χ的距離更近(即)時,找到概念/關系對。

③當相對距離的差的絕對值小于某個預定的閥值時,由于相關領域概念φ和相關概念領域概念τ與目標領域概念χ的相對距離差別不大,因此需根據(jù)φ、χ、τ出現(xiàn)在文本中的順序進行進一步分析。

對于步驟S4中所述根據(jù)語境進行分析包括:

按照出現(xiàn)順序獲取所述第一相關領域概念、所述第二相關領域概念和所述目標領域的序列集合,根據(jù)所述序列集合進行分析。

根據(jù)上述具體的實施例,定義φ、χ、τ出現(xiàn)在文本中的序列集合R,其中包含φ、χ、τ在文本中出現(xiàn)的所有可能的次序的組合排列。

前四種為第一相關領域概念構成概念/關系對,后兩種為第二相關領域概念構成概念/關系對。

例如,判斷同句子中的第一相關概念領域disease、第二相關概念領域drug和目標概念領域MedicalSign的序列集合,具體包括如下組合:

①在句子中出現(xiàn)的順序依次為Drug name、MedicalSign、disease name;

②在句子中出現(xiàn)的順序依次為Disease name、Drug name、MedicalSign;

③在句子中出現(xiàn)的順序依次為MedicalSign、Drug name、disease name;

④在句子中出現(xiàn)的順序依次為drug name、disease name、MedicalSign;

⑤在句子中出現(xiàn)的順序依次為disease name、MedicalSign、drug name;

⑥在句子中出現(xiàn)的順序依次為MedicalSign、disease name、drug name;

判斷結果為:前四個是藥物不良反應,后兩個是疾病的癥狀。

對于根據(jù)φ、χ、τ出現(xiàn)在文本中的順序不同組成的排列組合R,需要根據(jù)實際語境和語言習慣等進行綜合判斷。

步驟S6:判斷步驟S1中所述相關領域概念在相鄰句中是否唯一,若是,則判定找到概念/關系對,若否,則進行步驟S7;

步驟S7:計算第三相關領域概念距離和第四相關概念領域距離之差的絕對值,得到第二相對距離,其中,所述第三相關領域概念距離為所述第三相關領域概念與所述目標領域概念之差的絕對值,所述第四相關領域概念距離為所述第四相關領域概念與所述目標領域概念之差的絕對值;

步驟S8:判斷所述第三相對距離是否大于或等于第二閾值,若是,則進行步驟S9,若否,則根據(jù)語境進行分析,以得到概念/關系對;

步驟S9:判定所述第三相關領域概念距離和所述第四相關概念領域距離中的較小者相應的相關概念領域為概念/關系對。

步驟S6至S9為相關領域概念和目標領域概念出現(xiàn)在不同句子中,即相鄰句中。

需要說明的是,步驟S6至S9中出現(xiàn)的第三相關領域概念距離、第四相關概念領域距離和第二相對距離,與步驟S2至S5中出現(xiàn)的第一相關領域概念距離、第二相關概念領域距離和第一相對距離僅為防止本領域技術人員閱讀時對判斷語句內容產生誤解而進行的區(qū)別,在實際判斷中,對于目標語句,相關領域概念和目標領域概念出現(xiàn)的情況是確定的,所以步驟S2至S5和步驟S6至S9是排他的,因此,下述實施例中,仍用上述具體實施例一中的符號進行舉例,即φ表示與目標領域概念有關系的第三相關領域概念;τ表示與目標領域概念有關的第四相關領域概念。由于判斷文本相同因此第一閾值和第二閾值一般相同,即取3,當然也可以取其他值。

根據(jù)步驟S6至S9,具體的實施例二如下:

當相關領域概念φ和相關領域概念τ與目標領域概念χ不在同一句子當中時,抽取實體語義關系的推理規(guī)則公式如下所示。

其中表示包含目標領域概念的句子及其相鄰句子組成的句子集合,Si代表當前句,Si-1和Si+1分別表示目標領域概念所在句子的前一句和后一句。

根據(jù)以上定義,推理規(guī)則公式對應的推理規(guī)則為:

①當相關領域概念φ出現(xiàn)在包含目標領域概念的句子的相鄰句中,且相鄰句中沒有其他相關領域概念時,即認為找到概念/關系對。

②當相關領域概念φ和相關領域概念τ都在包含目標領域概念的句子的相鄰句中時,分別計算相關領域概念φ和相關領域概念τ與目標領域概念χ的相對距離。當相關領域概念φ與目標概念χ的距離更近(即)時,找到概念/關系對。

為了提高本發(fā)明對存在多個目標領域概念情況的識別效率,所述文本中知識領域識別方法還包括:

若存在相關領域概念的數(shù)量大于2時,判斷每一個相關領域概念是否曾被確認為所述目標領域概念的概念/關系對,若否,則判定為找到新概念/關系對,若是,則需要根據(jù)語境判斷。

考慮到文本中內容之間的關系,可以對上述存在多個目標領域情況采取另一種判別方法,具體的,所述文本中知識領域識別方法還包括:

若存在相關領域概念的數(shù)量大于2時,判斷每一個相關領域概念是否曾作為所述目標領域概念的結果出現(xiàn),若否,則判定為找到新概念/關系對,若是,則需要根據(jù)語境判斷。

對于存在多個相關領域概念的情況和存在多個目標領域概念的集合,具體的實施例三如下:

當存在多個相關領域概念或多個目標領域概念時,抽取實體語義關系的推理規(guī)則公式如下所示:

其中,表示取或,在本推理公式中左端表示多領域集合大于1且從沒有被確認為所述目標領域概念的結果,右端表示多領域集合大于1且從沒有被作為所述目標領域概念的結果出現(xiàn),表示多個相關領域概念的集合,X=(x1,x2,...,xm)表示多個目標領域概念的集合,表示已被證明是所述目標領域概念的結果的概念/關系對集合,其中表示已被證明是所述目標領域概念的結果的概念/關系對,表示已確認作為所述目標領域概念的結果的集合。

上述推理規(guī)則公式對應的推理規(guī)則為:

①若存在多個相關領域概念,判斷目標領域概念x是否曾經作為述目標領域概念的結果出現(xiàn)過,若沒有,則認為找到新的概念/關系對,只是此時獲得的概念/關系對可看作是“一對多”的形式,如

②對相關領域概念集合中的每個相關領域概念,都需要判斷目標領域概念χ是否曾經與相關領域概念集合中任意一個相關領域概念以概念/關系對的形式被確認為述目標領域概念的結果,若沒有,則可認為找到新的概念/關系對。

本發(fā)明還公開了一種文本中知識領域識別系統(tǒng),包括同句判斷模塊11、第一數(shù)量判斷模塊12、第一相對距離計算模塊13、第一閾值判斷模塊14、第一距離確定模塊15、第二數(shù)量判斷模塊16、第二相對距離計算模塊17、第二閾值判斷模塊18和第二距離確定模塊19,其中:

所述同句判斷模塊,用于判斷相關領域概念和目標領域概念是否出現(xiàn)在同一句子中,若是,則控制所述第一數(shù)量判斷模塊工作,若否,則控制第二數(shù)量判斷模塊工作;

所述第一數(shù)量判斷模塊,用于判斷所述相關領域概念的數(shù)量是否唯一,若是,則判定找到概念/關系對,若否,則控制所述第一相對距離計算模塊工作;

所述第一相對距離計算模塊,用于計算第一相關領域概念距離和第二相關概念領域距離之差的絕對值,得到第一相對距離,其中,所述第一相關領域概念距離為所述第一相關領域概念與所述目標領域概念之差的絕對值,所述第二相關領域概念距離為所述第二相關領域概念與所述目標領域概念之差的絕對值;

所述第一閾值判斷模塊,用于判斷所述第一相對距離是否大于或等于第一閾值,若是,則控制所述第一距離確定模塊工作,若否,則根據(jù)語境進行分析,以得到概念/關系對;

所述第一距離確定模塊,用于判定所述第一相關領域概念距離和所述第二相關概念領域距離中的較小者相應的相關概念領域為概念/關系對;

所述第二數(shù)量判斷模塊,用于判斷所述同句判斷模塊中的所述相關領域概念在相鄰句中是否唯一,若是,則判定找到概念/關系對,若否,則控制所述第二相對距離計算模塊工作;

所述第二相對距離計算模塊,用于計算第三相關領域概念距離和第四相關概念領域距離之差的絕對值,得到第二相對距離,其中,所述第三相關領域概念距離為所述第三相關領域概念與所述目標領域概念之差的絕對值,所述第四相關領域概念距離為所述第四相關領域概念與所述目標領域概念之差的絕對值;

所述第二閾值判斷模塊,用于判斷所述第三相對距離是否大于或等于第二閾值,若是,則控制所述第二距離確定模塊工作,若否,則根據(jù)語境進行分析,以得到概念/關系對;

所述第二距離確定模塊,用于判定所述第三相關領域概念距離和所述第四相關概念領域距離中的較小者相應的相關概念領域為概念/關系對。

最后,還需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備不僅包括那些要素,而且還包括沒有明確列出的其他要素,或者是還包括為這種過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。

以上對本發(fā)明所提供的一種文本中知識領域識別方法及系統(tǒng)進行了詳細介紹,本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領域的一般技術人員,依據(jù)本發(fā)明的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發(fā)明的限制。

當前第1頁1 2 3 
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1