利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法以及裝置與流程

文檔序號(hào)：12824989閱讀：380來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>計(jì)算;推算;計(jì)數(shù)設(shè)備的制造及其應(yīng)用技術(shù)

利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法以及裝置與流程

本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域，特別涉及一種利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法以及裝置。

背景技術(shù)：

隨著信息化水平的不斷提升，政府、企業(yè)等單位都建立了眾多的信息系統(tǒng)來支撐各種業(yè)務(wù)的開展，但是由于系統(tǒng)與系統(tǒng)之間業(yè)務(wù)口徑的不一致、表達(dá)方式存在差異等影響著各個(gè)業(yè)務(wù)系統(tǒng)內(nèi)部數(shù)據(jù)之間的交互。

為了能夠更好地保證各個(gè)業(yè)務(wù)系統(tǒng)內(nèi)部數(shù)據(jù)之間的交互，在相關(guān)技術(shù)中，提出了通過定義統(tǒng)一的標(biāo)準(zhǔn)數(shù)據(jù)元素信息來實(shí)現(xiàn)數(shù)據(jù)間的正常交互，具體可包括以下幾種方式：其一，通過手工定義標(biāo)準(zhǔn)數(shù)據(jù)元素以及數(shù)據(jù)元素的各個(gè)要素；其二，基于標(biāo)準(zhǔn)數(shù)據(jù)元素，計(jì)算表字段與數(shù)據(jù)元素的相似度，形成字段與數(shù)據(jù)元素之間的映射關(guān)系。雖然通過上述幾種方式可以解決數(shù)據(jù)之間不能正常交互的問題，但過于依賴于事先定義好的標(biāo)準(zhǔn)數(shù)據(jù)元素，且對數(shù)據(jù)元素的完整性要求比較高，此外存在較大的人工配置工作量，比較耗時(shí)耗力。

技術(shù)實(shí)現(xiàn)要素：

本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。

為此，本發(fā)明的第一個(gè)目的在于提出一種利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法，該方法實(shí)現(xiàn)了不依賴于事先定義的標(biāo)準(zhǔn)數(shù)據(jù)元素，且減少了人工配置方面的工作量，提升了使用體驗(yàn)。

本發(fā)明的第二個(gè)目的在于提出一種利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置。

為達(dá)上述目的，根據(jù)本發(fā)明第一方面實(shí)施例提出了利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法，該方法包括以下步驟：包括以下步驟：基于信息系統(tǒng)中數(shù)據(jù)的基本信息，定義目標(biāo)數(shù)據(jù)元素的表示信息，并獲取所述信息系統(tǒng)中多個(gè)數(shù)據(jù)表的字段信息；基于預(yù)先配置的語法規(guī)則，根據(jù)所述表示信息從所述多個(gè)數(shù)據(jù)表的字段信息中提取對象詞和特性詞；基于所述對象詞、特性詞和表示信息，對所述多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算；根據(jù)所述相似度計(jì)算的結(jié)果，對所述多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別；根據(jù)每一個(gè)聚類類別中的特征信息定義所述類別的名稱，并將所述類別的名稱作為所述目標(biāo)數(shù)據(jù)元素的名稱，并將聚類后的數(shù)據(jù)表字段的字符類型定義為所述目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型。

本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法，首先，基于信息系統(tǒng)中數(shù)據(jù)的基本信息定義出目標(biāo)數(shù)據(jù)元素的表示信息，并且獲取多個(gè)數(shù)據(jù)表字段信息；其次，基于預(yù)先配置的語法規(guī)則，根據(jù)表示信息從多個(gè)數(shù)據(jù)表字段信息中提取出對象詞和特性詞；再次，基于對象詞、特性詞和表示信息對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別，進(jìn)而根據(jù)每一個(gè)聚類類別中的特征信息定義類別的名稱，并將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱，以及將聚類后的數(shù)據(jù)表字段的字符類型定義為目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型，從而使得系統(tǒng)間的數(shù)據(jù)在交互時(shí)，不必過于依賴事先定義的標(biāo)準(zhǔn)數(shù)據(jù)元素，而是自動(dòng)利用自然語言處理、數(shù)據(jù)挖掘等相關(guān)算法一次性完成對數(shù)據(jù)元素、數(shù)據(jù)元素的要素的定義，同時(shí)也能減少人工配置的工作量，提升了使用體驗(yàn)。

本發(fā)明第二方面實(shí)施例提供了一種利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置，該裝置包括：預(yù)處理模塊，用于基于信息系統(tǒng)中數(shù)據(jù)的基本信息，定義目標(biāo)數(shù)據(jù)元素的表示信息，并獲取所述信息系統(tǒng)中多個(gè)數(shù)據(jù)表的字段信息；提取模塊，用于基于預(yù)先配置的語法規(guī)則，根據(jù)所述表示信息從所述多個(gè)數(shù)據(jù)表的字段信息中提取對象詞和特性詞；相似度計(jì)算模塊，用于基于所述對象詞、特性詞和表示信息，對所述多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算；聚類模塊，用于根據(jù)所述相似度計(jì)算的結(jié)果，對所述多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別；定義模塊，用于根據(jù)每一個(gè)聚類類別中的特征信息定義所述類別的名稱，并將所述類別的名稱作為所述目標(biāo)數(shù)據(jù)元素的名稱，并將聚類后的數(shù)據(jù)表字段的字符類型定義為所述目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型。

本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置，首先，基于信息系統(tǒng)中數(shù)據(jù)的基本信息定義出目標(biāo)數(shù)據(jù)元素的表示信息，并且獲取多個(gè)數(shù)據(jù)表字段信息；其次，基于預(yù)先配置的語法規(guī)則，根據(jù)表示信息從多個(gè)數(shù)據(jù)表字段信息中提取出對象詞和特性詞；再次，基于對象詞、特性詞和表示信息對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別，進(jìn)而根據(jù)每一個(gè)聚類類別中的特征信息定義類別的名稱，并將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱，以及將聚類后的數(shù)據(jù)表字段的字符類型定義為目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型，從而使得系統(tǒng)間的數(shù)據(jù)在交互時(shí)，不必過于依賴事先定義的標(biāo)準(zhǔn)數(shù)據(jù)元素，而是自動(dòng)利用自然語言處理、數(shù)據(jù)挖掘等相關(guān)算法一次性完成對數(shù)據(jù)元素、數(shù)據(jù)元素的要素的定義，同時(shí)也能減少人工配置的工作量，提升了使用體驗(yàn)。

本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出，部分將從下面的描述中變得明顯，或通過本發(fā)明的實(shí)踐了解到。

附圖說明

本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對實(shí)施例的描述中將變得明顯和容易理解，其中：

圖1為本發(fā)明的一個(gè)實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法的流程圖；

圖2為本發(fā)明的另一個(gè)實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法的流程圖；

圖3為本發(fā)明實(shí)施例中對字段信息進(jìn)行分析的具體實(shí)現(xiàn)過程的示意圖；

圖4為本發(fā)明的一個(gè)具體實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法的流程圖；

圖5為本發(fā)明的一個(gè)實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置的結(jié)構(gòu)示意圖；

圖6為本發(fā)明的另一個(gè)實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置的結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面詳細(xì)描述本發(fā)明的實(shí)施例，所述實(shí)施例的示例在附圖中示出，其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的，旨在用于解釋本發(fā)明，而不能理解為對本發(fā)明的限制。

可以理解，數(shù)據(jù)元素(dataelement)又稱數(shù)據(jù)類型，是在特定的語義環(huán)境中被認(rèn)為是不可再分的最小數(shù)據(jù)單元。一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)元素有以下幾個(gè)要素：中文名稱、中文拼音、表示符、對象詞、特性詞、表示詞、數(shù)據(jù)類型、值域等。

由于一個(gè)數(shù)據(jù)元素在不同應(yīng)用環(huán)境下可以有多個(gè)同一名稱，因此，需要定義出一個(gè)統(tǒng)一的標(biāo)準(zhǔn)數(shù)據(jù)元素結(jié)構(gòu)。然而，在現(xiàn)有的數(shù)據(jù)元素定義中，通常會(huì)存在過于依賴于事先定義好的標(biāo)準(zhǔn)數(shù)據(jù)元素，且對數(shù)據(jù)元素的完整性要求比較高，此外存在較大的人工配置工作量等問題。

因此，為了解決上述問題，本發(fā)明提出了一種利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法，該方法從數(shù)據(jù)元素定義的角度，分析和研究數(shù)據(jù)資源整合中不同數(shù)據(jù)表字段之間的關(guān)系，并從識(shí)別不同應(yīng)用環(huán)境中具有相同語義的數(shù)據(jù)表字段信息，進(jìn)而定義出統(tǒng)一的數(shù)據(jù)元素結(jié)構(gòu)，使得在數(shù)據(jù)整合方面提供了借鑒和指導(dǎo)。具體地，下面參考附圖1描述本發(fā)明第一方面實(shí)施例提出的一種利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法。

圖1為本發(fā)明一個(gè)實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法的流程圖。如圖1所示，本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法，包括以下幾個(gè)步驟：

s101，基于信息系統(tǒng)中數(shù)據(jù)的基本信息，定義目標(biāo)數(shù)據(jù)元素的表示信息，并獲取信息系統(tǒng)中多個(gè)數(shù)據(jù)表的字段信息。

其中，在本實(shí)施例中，信息系統(tǒng)中存儲(chǔ)數(shù)據(jù)的基本信息，至少可包括：數(shù)據(jù)的主題、內(nèi)容、格式標(biāo)準(zhǔn)和表達(dá)方式等信息。也就是說，可對信息系統(tǒng)進(jìn)行數(shù)據(jù)信息調(diào)研，了解信息系統(tǒng)中數(shù)據(jù)的主題、內(nèi)容、格式標(biāo)準(zhǔn)和表達(dá)方式等基本信息，然后，可根據(jù)信息系統(tǒng)中存儲(chǔ)的數(shù)據(jù)基本信息定義出目標(biāo)數(shù)據(jù)元素的表示信息，以及獲取信息系統(tǒng)中多個(gè)數(shù)據(jù)表的字段信息。

其中，根據(jù)信息系統(tǒng)中數(shù)據(jù)基本信息定義出的目標(biāo)數(shù)據(jù)元素的表示信息至少可分為：名稱、代碼、時(shí)間、量、描述等信息，同時(shí)獲取信息系統(tǒng)中多個(gè)數(shù)據(jù)表的字段信息可以是多個(gè)數(shù)據(jù)表的表名、字段名、字段格式等。

s102，基于預(yù)先配置的語法規(guī)則，根據(jù)表示信息從多個(gè)數(shù)據(jù)表的字段信息中提取對象詞和特性詞。

具體地，可基于預(yù)先配置的語法規(guī)則的方式將數(shù)據(jù)表的字段信息進(jìn)行語義的拆分，并將數(shù)據(jù)表中的表名、字段名自動(dòng)的提煉出表示詞、特征詞、對象詞等數(shù)據(jù)元要素。具體的實(shí)現(xiàn)方式可參見后續(xù)實(shí)施例的具體描述。

可以理解，上述語法規(guī)則可以是預(yù)先配置的。舉例說明，該預(yù)先配置的語法規(guī)則中可以包括但不限于：當(dāng)核心詞為動(dòng)詞時(shí)，存在主謂關(guān)系的詞即為對象詞，核心詞為特性詞。需要說明的是，上述預(yù)先配置的語法規(guī)則僅是示例性的，還可以根據(jù)實(shí)際使用需求設(shè)定不同的語法規(guī)則，在此不作具體限制。

s103，基于對象詞、特性詞和表示信息，對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算。

具體地，在提取出對象詞和特性詞之后，可基于提取的對象詞、特性詞和表示信息，對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算，舉例說明如下：

以兩個(gè)數(shù)據(jù)表為例，假設(shè)從第一個(gè)數(shù)據(jù)表的字段名“在逃人員作案時(shí)間”中獲取到的對象詞、特性詞和表示信息分別為：在逃人員、作案、時(shí)間，從第二個(gè)數(shù)據(jù)表的字段名“通緝?nèi)藛T作案時(shí)間”中獲取到的對象詞、特性詞和表示信息分別為：通緝?nèi)藛T、作案、時(shí)間，則可通過相似度計(jì)算公式計(jì)算出這兩個(gè)數(shù)據(jù)表字段之間的相似度，即同時(shí)計(jì)算這兩個(gè)數(shù)據(jù)表中對象與對象、特性與特性、表示與表示三者之間的相似度，該相似度結(jié)果即為這兩個(gè)數(shù)據(jù)表字段之間的相似度。

其中，相似度計(jì)算公式可如下式(1)所示：

其中，a、b分別表示兩個(gè)不同數(shù)據(jù)表字段的特征向量，該特征向量分別由對象、特性以及表示建立的，ai、bi分別表示兩個(gè)不同特征向量中的第i個(gè)元素，該元素可以是對象、或特性、或表示，n表示該特征向量的長度。

可以理解，通過上述相似度計(jì)算公式計(jì)算兩個(gè)數(shù)據(jù)表之間的相似度之前，首先將兩個(gè)不同數(shù)據(jù)表中的字段基于對象、特性、表示建立兩個(gè)不同的特征向量a、b，然后，再利用相似度計(jì)算公式(1)同時(shí)計(jì)算上述對象與對象、特性與特性、以及表示與表示三者之間的相似度，從而根據(jù)得到的相似度確定出兩個(gè)數(shù)據(jù)表之間的相似度。

需要說明的是，上述計(jì)算多個(gè)數(shù)據(jù)表字段之間的相似度僅是示例性的，還可根據(jù)實(shí)際需要通過其他不同的方式計(jì)算多個(gè)數(shù)據(jù)表字段之間的相似度，在此不作具體限制。

s104，根據(jù)相似度計(jì)算的結(jié)果，對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別。

具體地，在計(jì)算出多個(gè)數(shù)據(jù)表字段之間的相似度之后，可根據(jù)相似度計(jì)算結(jié)果繼續(xù)對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析。例如，假設(shè)計(jì)算出多個(gè)數(shù)據(jù)表的字段之間的相似度大于或等于預(yù)設(shè)閾值，則可認(rèn)為該多個(gè)數(shù)據(jù)表的字段屬于同一類別，則可將該多個(gè)數(shù)據(jù)表的字段聚為一類。這樣，可以從不同應(yīng)用環(huán)境中將具有相同或相似語義的數(shù)據(jù)表字段信息聚類一類，為后續(xù)標(biāo)準(zhǔn)數(shù)據(jù)元素的定義奠定基礎(chǔ)。

s105，根據(jù)每一個(gè)聚類類別中的特征信息定義類別的名稱，并將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱，并將聚類后的數(shù)據(jù)表字段的字符類型定義為目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型。

具體地，對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析之后，可根據(jù)每一個(gè)聚類類別中的特征信息，定義類別名稱，即目標(biāo)數(shù)據(jù)元素名稱，并獲取聚類后的數(shù)據(jù)表字段的字符類型定義為該目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型。其中，在本發(fā)明的實(shí)施例中，該聚類類別中的特征信息可理解為在該聚類類別下的詞頻信息。

也就是說，可根據(jù)每一個(gè)聚類類別下的詞頻定義該類別的名稱，即將在該聚類類別下出現(xiàn)次數(shù)最多的字段名作為該目標(biāo)數(shù)據(jù)元素名稱。例如，以字段名為“在逃人員作案時(shí)間”、“通緝?nèi)藛T作案時(shí)間”為一個(gè)聚類類別為例，假設(shè)字段名“在逃人員作案時(shí)間”在該類別下出現(xiàn)的次數(shù)最大，則以該“在逃人員作案時(shí)間”為該類別的名稱，即該目標(biāo)數(shù)據(jù)元素名稱，其中該目標(biāo)數(shù)據(jù)元素對應(yīng)的字段信息有：在逃人員作案時(shí)間、通緝?nèi)藛T作案時(shí)間。

本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法，首先，基于信息系統(tǒng)中數(shù)據(jù)的基本信息定義出目標(biāo)數(shù)據(jù)元素的表示信息，并且獲取多個(gè)數(shù)據(jù)表字段信息；其次，基于預(yù)先配置的語法規(guī)則，根據(jù)表示信息從多個(gè)數(shù)據(jù)表字段信息中提取出對象詞和特性詞；再次，基于對象詞、特性詞和表示信息對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別，進(jìn)而根據(jù)每一個(gè)聚類類別中的特征信息定義類別的名稱，并將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱，以及將聚類后的數(shù)據(jù)表字段的字符類型定義為目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型，從而使得系統(tǒng)間的數(shù)據(jù)在交互時(shí)，不必過于依賴事先定義的標(biāo)準(zhǔn)數(shù)據(jù)元素，而是自動(dòng)利用自然語言處理、數(shù)據(jù)挖掘等相關(guān)算法一次性完成對數(shù)據(jù)元素、數(shù)據(jù)元素的要素的定義，同時(shí)也能減少了人工配置的工作量，提升了使用體驗(yàn)。

圖2為本發(fā)明的另一個(gè)實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法的流程圖。

如圖2所示，本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法，包括以下幾個(gè)步驟：

s201，基于信息系統(tǒng)中數(shù)據(jù)的基本信息，定義目標(biāo)數(shù)據(jù)元素的表示信息，并獲取信息系統(tǒng)中多個(gè)數(shù)據(jù)表的字段信息。

s202，對表示信息進(jìn)行語義擴(kuò)展以生成表示的特征詞庫。

具體地，在基于信息系統(tǒng)中數(shù)據(jù)的基本信息定義出目標(biāo)數(shù)據(jù)元素的表示信息，以及獲取多個(gè)數(shù)據(jù)表的字段信息之后，可基于公開的同義詞林詞典對該表示信息進(jìn)行語義擴(kuò)展，以擴(kuò)展出與該表示信息的語義具有相同或相似的詞語，并將這些詞語作為表示的特征詞，以建立該表示的特征詞庫。舉例說明如下：

假設(shè)在信息系統(tǒng)中，首先，定義出了目標(biāo)數(shù)據(jù)元素的表示信息為“時(shí)間”；其次，根據(jù)同義詞林詞典對表示信息進(jìn)行語義擴(kuò)展，例如，時(shí)間的同義詞有：時(shí)間、日期、小時(shí)等，進(jìn)而根據(jù)上述時(shí)間以及與時(shí)間同義的詞生成表示時(shí)間的特征詞庫，該特征詞庫包括時(shí)間、日期、小時(shí)等特征詞，進(jìn)而便于根據(jù)生成的特征詞庫進(jìn)行進(jìn)一步的歸類操作。

s203，對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行表示信息的歸類，形成多個(gè)數(shù)據(jù)表的字段與目標(biāo)數(shù)據(jù)元素中表示的映射關(guān)系。

具體地，可通過文本分類的算法對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行表示信息的歸類，即可通過文本分類算法將具體相同或相似的表示的數(shù)據(jù)表的字段信息歸為一類，并形成數(shù)據(jù)表的字段與表示的映射關(guān)系。例如，以數(shù)據(jù)表的字段名“在逃人員作案時(shí)間”為例，可通過文本分類算法對“在逃人員作案時(shí)間”進(jìn)行表示信息的歸類，即可通過文本分類算法將該字段名與上述定義的表示信息進(jìn)行分類計(jì)算，若計(jì)算結(jié)果達(dá)到某個(gè)閾值，則可將該字段名“在逃人員作案時(shí)間”歸為一類，并形成該字段名與上述定義的表示的映射關(guān)系，如可將“在逃人員作案時(shí)間”的表示指向“時(shí)間”。

需要說明的是，在本發(fā)明的實(shí)施例中，上述文本分類算法的公式可如下式(2)所示：

其中，分類算法為樸素貝葉斯算法，a、b表示兩組不同的事件組，p(bi)表示事件組b中第i個(gè)事件的概率，p(a|bi)表示事件組b中第i個(gè)事件已發(fā)生條件下事件組a的概率，p(bi|a)表示事件組a發(fā)生條件下事件組b中第i個(gè)事件的概率,p(bj)表示事件組b中第j個(gè)事件概率，p(a|bj)表示事件組b中第j個(gè)事件已發(fā)生條件下事件組a的概率，j表示事件組b中的事件，n表示為事件組b中事件的個(gè)數(shù)。

s204，根據(jù)映射關(guān)系以及表示的特征詞庫，從多個(gè)數(shù)據(jù)表的字段信息中剔除表示特征詞。

具體地，在生成映射關(guān)系以及表示的特征詞庫之后，可將多個(gè)數(shù)據(jù)表的字段信息中的表示特征詞剔除掉。例如，以字段名“在逃人員作案時(shí)間”為例，其中的表示特征詞為“時(shí)間”，則可將“在逃人員作案時(shí)間”中的“時(shí)間”剔除。

s205，對剔除表示特征詞之后的多個(gè)數(shù)據(jù)表的字段信息進(jìn)行語義依存分析，以提取剔除表示特征詞之后的多個(gè)數(shù)據(jù)表的字段信息中各個(gè)詞的語法關(guān)系。

可以理解，上述語義依存分析是指分析句子各個(gè)語言單位之間的語義關(guān)聯(lián)，并將語義關(guān)聯(lián)以依存結(jié)構(gòu)呈現(xiàn)。例如，使用語義依存刻畫句子語義，好處在于不需要去抽象詞匯本身，而是通過詞匯所承受的語義框架來描述該詞匯。語義依存分析目標(biāo)是跨越句子表層句法結(jié)構(gòu)的束縛，直接獲取深層的語義信息。

例如，以數(shù)據(jù)表的字段名“在逃人員作案時(shí)間”為例，則該字段名剔除表示特征詞“時(shí)間”之后，得到字符串“在逃人員作案”，對該字符串“在逃人員作案”進(jìn)行語義依存分析，刻畫出如圖3所示的各個(gè)詞之間的語法關(guān)系。例如，如圖3所示，“hed”表示核心關(guān)系，“att”表示定中關(guān)系，“sbv”表示主謂關(guān)系。

s206，根據(jù)語法規(guī)則和語法關(guān)系生成多個(gè)數(shù)據(jù)表的字段信息的對象詞和特性詞。

具體地，在提取剔除表示特征詞之后的多個(gè)數(shù)據(jù)表的字段信息中各個(gè)詞的語法關(guān)系之后，可結(jié)合預(yù)先配置的語法規(guī)則從多個(gè)數(shù)據(jù)表中的字段信息中提煉出對象詞和特性詞。其中，可以理解，此處的字段信息應(yīng)該是已經(jīng)剔除了表示特征詞之后的字符串。

舉例而言，以上述步驟s205中所給出的例子為例，可根據(jù)預(yù)先配置的語法規(guī)則和得到的如圖3所示的語法關(guān)系，從字符串“在逃人員作案”中提煉出對象詞和特性詞，即：核心詞為“作案”，“作案”的上一層是“人員”，存在主謂關(guān)系，“人員”的上一層是“在逃”，存在定中關(guān)系，為修飾“人員”的。因此，可以將“人員”定義為對象詞，“作案”定義為特性詞。此外，由于“在逃”是修飾對象“人員”，并且為一個(gè)名詞，屬于“人員”的一個(gè)子類，因此可將“在逃人員”也定義為一個(gè)對象，進(jìn)而得到最終的結(jié)果為：對象：在逃人員；特性：“作案”；表示：“時(shí)間”。

s207，基于對象詞、特性詞和表示信息，對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算。

s208，根據(jù)相似度計(jì)算的結(jié)果，對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別。

s209，根據(jù)每一個(gè)聚類類別中的特征信息定義類別的名稱，并將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱，并將聚類后的數(shù)據(jù)表字段的字符類型定義為目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型。

為了提高對象詞、特性詞的提煉準(zhǔn)確率，提高目標(biāo)數(shù)據(jù)元素的定義的標(biāo)準(zhǔn)化，進(jìn)一步地，在本發(fā)明的一個(gè)實(shí)施例中，在根據(jù)語法規(guī)則和語法關(guān)系生成多個(gè)數(shù)據(jù)表的字段信息的對象詞和特性詞之后，該利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法還可包括：對生成的結(jié)果信息建立反向自學(xué)習(xí)機(jī)制，并基于反向自學(xué)習(xí)機(jī)制，將結(jié)果信息作為訓(xùn)練信息對對象詞和特性詞進(jìn)行二次修正。

其中，在本發(fā)明的實(shí)施例中，基于對象詞、特性詞和表示信息，對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算的具體實(shí)現(xiàn)過程可如下：基于二次修正后的對象詞、特性詞和表示信息，對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算。也就是說，在對對象詞和特性詞進(jìn)行二次修正之后，在對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算時(shí)，可基于二次修正后的對象詞、特性詞和表示信息對該多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算。由此，可提高計(jì)算的準(zhǔn)確率，進(jìn)而提高聚類的準(zhǔn)確度。

本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法，通過自然語言處理、數(shù)據(jù)挖掘等相關(guān)算法以獲取目標(biāo)數(shù)據(jù)元素之間的語法關(guān)系，以及獲知各個(gè)目標(biāo)元素在信息系統(tǒng)中多個(gè)數(shù)據(jù)表之間的映射關(guān)系，可為目標(biāo)數(shù)據(jù)元素標(biāo)準(zhǔn)化提供支持，并且還能減少人工配置的工作量，提高了系統(tǒng)之間進(jìn)行數(shù)據(jù)交互的性能，更滿足用戶的使用需求。

為了方便不同數(shù)據(jù)元素的區(qū)分，進(jìn)一步地，在本發(fā)明的一個(gè)實(shí)施例中，在將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱之后，該利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法還可包括：基于分詞器對目標(biāo)數(shù)據(jù)元素的名稱進(jìn)行拼音的轉(zhuǎn)化，并截取拼音的首字母組合成目標(biāo)數(shù)據(jù)元素的標(biāo)識(shí)符。

具體地，在將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱之后，可對目標(biāo)數(shù)據(jù)元素的名稱進(jìn)行擴(kuò)展，通過分詞器進(jìn)行拼音的轉(zhuǎn)化，截取拼音的首字母組合成該目標(biāo)數(shù)據(jù)元素的標(biāo)識(shí)符。例如，利用分詞器對目標(biāo)數(shù)據(jù)元素的名稱“在逃人員作案時(shí)間”進(jìn)行拼音轉(zhuǎn)化，得到拼音(zaitaorenyuanzuoanshijian)，并截取該拼音首字母作為該目標(biāo)數(shù)據(jù)元素的標(biāo)識(shí)符(ztryzasj)，以表示該數(shù)據(jù)元素的唯一性。

為了使得本發(fā)明實(shí)施例更清楚明確，下面通過一個(gè)具體實(shí)施例對本發(fā)明提出的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法進(jìn)行詳細(xì)說明，具體可參見圖4所示。

如圖4所示，通過對信息系統(tǒng)進(jìn)行調(diào)研，了解數(shù)據(jù)的基本信息，例如數(shù)據(jù)的主題、內(nèi)容、格式標(biāo)準(zhǔn)、表達(dá)方式等，并定義數(shù)據(jù)元素的表示信息，同時(shí)獲取數(shù)據(jù)表的表名、字段名、字段格式等字段信息(s401)；基于公開的同義詞林詞典，對表示信息進(jìn)行語義擴(kuò)展，形成表示的特征詞庫(s402)；通過文本分類的算法，對數(shù)據(jù)表信息進(jìn)行歸類，形成數(shù)據(jù)表字段與數(shù)據(jù)元素要素“表示”的映射關(guān)系(s403)；對剔除表示特征詞之后信息進(jìn)行文本的語義依存分析，提取短句中各個(gè)詞的語法關(guān)系；定義若干語法規(guī)則，如：當(dāng)核心詞是動(dòng)詞時(shí)，存在主謂關(guān)系的詞即是對象詞，核心詞為特性詞；基于語法規(guī)則，生成數(shù)據(jù)表字段的對象詞、特性詞(s404)；對生成的結(jié)果建立反向自學(xué)習(xí)機(jī)制，將結(jié)果作為訓(xùn)練信息進(jìn)行二次修正，從而達(dá)到提高準(zhǔn)確率的目的(s405)；基于形成的對象、特性、表示信息，對數(shù)據(jù)表字之間進(jìn)行相似度計(jì)算(s406)；聚類分析，并根據(jù)每一個(gè)聚類類別中的特征信息，定義類別名稱，即為數(shù)據(jù)元名稱；對數(shù)據(jù)元名稱進(jìn)行擴(kuò)展，利用分詞器進(jìn)行拼音的轉(zhuǎn)化，截取拼音的首字母組合成數(shù)據(jù)元的標(biāo)識(shí)符，獲取字段的字符類型定義為數(shù)據(jù)元的數(shù)據(jù)類型(s407)。

通過上述實(shí)施例使得系統(tǒng)間的數(shù)據(jù)在交互時(shí)，不必過于依賴事先定義的標(biāo)準(zhǔn)數(shù)據(jù)元素，而是自動(dòng)利用自然語言處理、數(shù)據(jù)挖掘等相關(guān)算法一次性完成對數(shù)據(jù)元素、數(shù)據(jù)元素的要素的定義，同時(shí)也能減少了人工配置的工作量，提升了使用體驗(yàn)。

為了實(shí)現(xiàn)上述實(shí)施例，本發(fā)明還提出一種利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置。

圖5為本發(fā)明一個(gè)實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置的結(jié)構(gòu)示意圖。

如圖5示，本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置包括：預(yù)處理模塊10、提取模塊20、相似度計(jì)算模塊30、聚類模塊40和定義模塊50。

具體地，預(yù)處理模塊10用于基于信息系統(tǒng)中數(shù)據(jù)的基本信息，定義目標(biāo)數(shù)據(jù)元素的表示信息，并獲取信息系統(tǒng)中多個(gè)數(shù)據(jù)表的字段信息。其中，在本實(shí)施例中，信息系統(tǒng)中存儲(chǔ)數(shù)據(jù)的基本信息，至少可包括：數(shù)據(jù)的主題、內(nèi)容、格式標(biāo)準(zhǔn)和表達(dá)方式等信息。也就是說，可對信息系統(tǒng)進(jìn)行數(shù)據(jù)信息調(diào)研，了解信息系統(tǒng)中數(shù)據(jù)的主題、內(nèi)容、格式標(biāo)準(zhǔn)和表達(dá)方式等基本信息，然后，可根據(jù)信息系統(tǒng)中存儲(chǔ)的數(shù)據(jù)基本信息定義出目標(biāo)數(shù)據(jù)元素的表示信息，以及獲取信息系統(tǒng)中多個(gè)數(shù)據(jù)表的字段信息。

提取模塊20用于基于預(yù)先配置的語法規(guī)則，根據(jù)表示信息從多個(gè)數(shù)據(jù)表的字段信息中提取對象詞和特性詞。

相似度計(jì)算模塊30用于基于對象詞、特性詞和表示信息，對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算。具體地，在提取出對象詞和特性詞之后，可基于提取的對象詞、特性詞和表示信息，對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算，舉例說明如下：

其中，相似度計(jì)算公式可如下式(1)所示：

聚類模塊40用于根據(jù)相似度計(jì)算的結(jié)果，對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別。

定義模塊50用于根據(jù)每一個(gè)聚類類別中的特征信息定義類別的名稱，并將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱，并將聚類后的數(shù)據(jù)表字段的字符類型定義為目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型。

本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置，首先，基于信息系統(tǒng)中數(shù)據(jù)的基本信息定義出目標(biāo)數(shù)據(jù)元素的表示信息，并且獲取多個(gè)數(shù)據(jù)表字段信息；其次，基于預(yù)先配置的語法規(guī)則，根據(jù)表示信息從多個(gè)數(shù)據(jù)表字段信息中提取出對象詞和特性詞；再次，基于對象詞、特性詞和表示信息對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別，進(jìn)而根據(jù)每一個(gè)聚類類別中的特征信息定義類別的名稱，并將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱，以及將聚類后的數(shù)據(jù)表字段的字符類型定義為目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型，從而使得系統(tǒng)間的數(shù)據(jù)在交互時(shí)，不必過于依賴事先定義的標(biāo)準(zhǔn)數(shù)據(jù)元素，而是自動(dòng)利用自然語言處理、數(shù)據(jù)挖掘等相關(guān)算法一次性完成對數(shù)據(jù)元素、數(shù)據(jù)元素的要素的定義，同時(shí)也能減少了人工配置的工作量，提升了使用體驗(yàn)。

圖6為本發(fā)明的另一個(gè)實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置的結(jié)構(gòu)示意圖。

如圖6所示，本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置包括：預(yù)處理模塊10、提取模塊20、相似度計(jì)算模塊30、聚類模塊40和定義模塊50。

具體地，預(yù)處理模塊10用于基于信息系統(tǒng)中數(shù)據(jù)的基本信息，定義目標(biāo)數(shù)據(jù)元素的表示信息，并獲取信息系統(tǒng)中多個(gè)數(shù)據(jù)表的字段信息。

提取模塊20用于基于預(yù)先配置的語法規(guī)則，根據(jù)表示信息從多個(gè)數(shù)據(jù)表的字段信息中提取對象詞和特性詞；

具體地，在本實(shí)施例中提取模塊20包括：第一生成單元21、歸類單元22、剔除單元23、提取單元24和第二生成單元25。其中，第一生成單元21用于對表示信息進(jìn)行語義擴(kuò)展以生成表示的特征詞庫。具體地，在基于信息系統(tǒng)中數(shù)據(jù)的基本信息定義出目標(biāo)數(shù)據(jù)元素的表示信息，以及獲取多個(gè)數(shù)據(jù)表的字段信息之后，可基于公開的同義詞林詞典對該表示信息進(jìn)行語義擴(kuò)展，以擴(kuò)展出與該表示信息的語義具有相同或相似的詞語，并將這些詞語作為表示的特征詞，以建立該表示的特征詞庫。舉例說明如下：

歸類單元22用于對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行表示信息的歸類，形成多個(gè)數(shù)據(jù)表的字段與目標(biāo)數(shù)據(jù)元素中表示的映射關(guān)系。

需要說明的是，在本發(fā)明的實(shí)施例中，上述文本分類算法的公式可如下式(2)所示：

剔除單元23用于根據(jù)映射關(guān)系以及表示的特征詞庫，從多個(gè)數(shù)據(jù)表的字段信息中剔除表示特征詞。具體地，在生成映射關(guān)系以及表示的特征詞庫之后，可將多個(gè)數(shù)據(jù)表的字段信息中的表示特征詞剔除掉。例如，以字段名“在逃人員作案時(shí)間”為例，其中的表示特征詞為“時(shí)間”，則可將“在逃人員作案時(shí)間”中的“時(shí)間”剔除。

提取單元24用于對剔除表示特征詞之后的多個(gè)數(shù)據(jù)表的字段信息進(jìn)行語義依存分析，以提取剔除表示特征詞之后的多個(gè)數(shù)據(jù)表的字段信息中各個(gè)詞的語法關(guān)系。

第二生成單元25用于根據(jù)語法規(guī)則和語法關(guān)系生成多個(gè)數(shù)據(jù)表的字段信息的對象詞和特性詞。具體地，在提取剔除表示特征詞之后的多個(gè)數(shù)據(jù)表的字段信息中各個(gè)詞的語法關(guān)系之后，可結(jié)合預(yù)先配置的語法規(guī)則從多個(gè)數(shù)據(jù)表中的字段信息中提煉出對象詞和特性詞。其中，可以理解，此處的字段信息應(yīng)該是已經(jīng)剔除了表示特征詞之后的字符串。

相似度計(jì)算模塊30用于基于對象詞、特性詞和表示信息，對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算。

聚類模塊40用于根據(jù)相似度計(jì)算的結(jié)果，對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別。

為了提高對象詞、特性詞的提煉準(zhǔn)確率，提高目標(biāo)數(shù)據(jù)元素的定義的標(biāo)準(zhǔn)化，進(jìn)一步地，在本發(fā)明的一個(gè)實(shí)施例中，在根據(jù)語法規(guī)則和語法關(guān)系生成多個(gè)數(shù)據(jù)表的字段信息的對象詞和特性詞之后，該利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置還可包括：建立模塊和修正模塊。其中，建立模塊用于在根據(jù)語法規(guī)則和語法關(guān)系生成多個(gè)數(shù)據(jù)表的字段信息的對象詞和特性詞之后，對生成的結(jié)果信息建立反向自學(xué)習(xí)機(jī)制；修正模塊用于基于反向自學(xué)習(xí)機(jī)制，將結(jié)果信息作為訓(xùn)練信息對對象詞和特性詞進(jìn)行二次修正。

其中，相似度計(jì)算模塊30具體用于：基于二次修正后的對象詞、特性詞和所述表示信息，對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算。也就是說，在對對象詞和特性詞進(jìn)行二次修正之后，在對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算時(shí)，可基于二次修正后的對象詞、特性詞和表示信息對該多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算。由此，可提高計(jì)算的準(zhǔn)確率，進(jìn)而提高聚類的準(zhǔn)確度。

本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置，通過自然語言處理、數(shù)據(jù)挖掘等相關(guān)算法以獲取目標(biāo)數(shù)據(jù)元素之間的語法關(guān)系，以及獲知各個(gè)目標(biāo)元素在信息系統(tǒng)中多個(gè)數(shù)據(jù)表之間的映射關(guān)系，可為目標(biāo)數(shù)據(jù)元素標(biāo)準(zhǔn)化提供支持，并且還能減少人工配置的工作量，提高了系統(tǒng)之間進(jìn)行數(shù)據(jù)交互的性能，更滿足用戶的使用需求。

為了方便不同數(shù)據(jù)元素的區(qū)分，進(jìn)一步地，在本發(fā)明的一個(gè)實(shí)施例中，在將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱之后，該利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置還可包括：標(biāo)識(shí)符生成模塊。其中，標(biāo)識(shí)符生成模塊用于在將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱之后，基于分詞器對目標(biāo)數(shù)據(jù)元素的名稱進(jìn)行拼音的轉(zhuǎn)化，并截取拼音的首字母組合成目標(biāo)數(shù)據(jù)元素的標(biāo)識(shí)符。

此外，術(shù)語“第一”、“第二”僅用于描述目的，而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此，限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個(gè)該特征。在本發(fā)明的描述中，“多個(gè)”的含義是至少兩個(gè)，例如兩個(gè)，三個(gè)等，除非另有明確具體的限定。

在本說明書的描述中，參考術(shù)語“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說明書中，對上述術(shù)語的示意性表述不必須針對的是相同的實(shí)施例或示例。而且，描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。此外，在不相互矛盾的情況下，本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實(shí)施例或示例以及不同實(shí)施例或示例的特征進(jìn)行結(jié)合和組合。

盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例，可以理解的是，上述實(shí)施例是示例性的，不能理解為對本發(fā)明的限制，本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實(shí)施例進(jìn)行變化、修改、替換和變型。

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：徐雄偉
技術(shù)所有人：杭州數(shù)夢工場科技有限公司
我是此專利的發(fā)明人

該領(lǐng)域下的技術(shù)專家
如您需求助技術(shù)專家，請點(diǎn)此查看客服電話進(jìn)行咨詢。
1、李老師：1.計(jì)算力學(xué) 2.無損檢測
2、畢老師：機(jī)構(gòu)動(dòng)力學(xué)與控制
3、袁老師：1.計(jì)算機(jī)視覺 2.無線網(wǎng)絡(luò)及物聯(lián)網(wǎng)
4、王老師：1.計(jì)算機(jī)網(wǎng)絡(luò)安全 2.計(jì)算機(jī)仿真技術(shù)
5、王老師：1.網(wǎng)絡(luò)安全；物聯(lián)網(wǎng)安全、大數(shù)據(jù)安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應(yīng)用
如您是高校老師，可以點(diǎn)此聯(lián)系我們加入專家?guī)臁?/a>

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會(huì)獲得點(diǎn)贊！

精彩留言，會(huì)給你點(diǎn)贊！

監(jiān)視和測量裝置定義相關(guān)技術(shù)

聯(lián)合裝置的定義相關(guān)技術(shù)

工藝裝置區(qū)定義相關(guān)技術(shù)

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法以及裝置與流程