本發(fā)明涉及數(shù)據(jù)處理技術(shù)領(lǐng)域,特別涉及一種利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法以及裝置。
背景技術(shù):
隨著信息化水平的不斷提升,政府、企業(yè)等單位都建立了眾多的信息系統(tǒng)來支撐各種業(yè)務(wù)的開展,但是由于系統(tǒng)與系統(tǒng)之間業(yè)務(wù)口徑的不一致、表達(dá)方式存在差異等影響著各個(gè)業(yè)務(wù)系統(tǒng)內(nèi)部數(shù)據(jù)之間的交互。
為了能夠更好地保證各個(gè)業(yè)務(wù)系統(tǒng)內(nèi)部數(shù)據(jù)之間的交互,在相關(guān)技術(shù)中,提出了通過定義統(tǒng)一的標(biāo)準(zhǔn)數(shù)據(jù)元素信息來實(shí)現(xiàn)數(shù)據(jù)間的正常交互,具體可包括以下幾種方式:其一,通過手工定義標(biāo)準(zhǔn)數(shù)據(jù)元素以及數(shù)據(jù)元素的各個(gè)要素;其二,基于標(biāo)準(zhǔn)數(shù)據(jù)元素,計(jì)算表字段與數(shù)據(jù)元素的相似度,形成字段與數(shù)據(jù)元素之間的映射關(guān)系。雖然通過上述幾種方式可以解決數(shù)據(jù)之間不能正常交互的問題,但過于依賴于事先定義好的標(biāo)準(zhǔn)數(shù)據(jù)元素,且對數(shù)據(jù)元素的完整性要求比較高,此外存在較大的人工配置工作量,比較耗時(shí)耗力。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明旨在至少在一定程度上解決相關(guān)技術(shù)中的技術(shù)問題之一。
為此,本發(fā)明的第一個(gè)目的在于提出一種利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法,該方法實(shí)現(xiàn)了不依賴于事先定義的標(biāo)準(zhǔn)數(shù)據(jù)元素,且減少了人工配置方面的工作量,提升了使用體驗(yàn)。
本發(fā)明的第二個(gè)目的在于提出一種利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置。
為達(dá)上述目的,根據(jù)本發(fā)明第一方面實(shí)施例提出了利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法,該方法包括以下步驟:包括以下步驟:基于信息系統(tǒng)中數(shù)據(jù)的基本信息,定義目標(biāo)數(shù)據(jù)元素的表示信息,并獲取所述信息系統(tǒng)中多個(gè)數(shù)據(jù)表的字段信息;基于預(yù)先配置的語法規(guī)則,根據(jù)所述表示信息從所述多個(gè)數(shù)據(jù)表的字段信息中提取對象詞和特性詞;基于所述對象詞、特性詞和表示信息,對所述多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算;根據(jù)所述相似度計(jì)算的結(jié)果,對所述多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別;根據(jù)每一個(gè)聚類類別中的特征信息定義所述類別的名稱,并將所述類別的名稱作為所述目標(biāo)數(shù)據(jù)元素的名稱,并將聚類后的數(shù)據(jù)表字段的字符類型定義為所述目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型。
本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法,首先,基于信息系統(tǒng)中數(shù)據(jù)的基本信息定義出目標(biāo)數(shù)據(jù)元素的表示信息,并且獲取多個(gè)數(shù)據(jù)表字段信息;其次,基于預(yù)先配置的語法規(guī)則,根據(jù)表示信息從多個(gè)數(shù)據(jù)表字段信息中提取出對象詞和特性詞;再次,基于對象詞、特性詞和表示信息對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別,進(jìn)而根據(jù)每一個(gè)聚類類別中的特征信息定義類別的名稱,并將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱,以及將聚類后的數(shù)據(jù)表字段的字符類型定義為目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型,從而使得系統(tǒng)間的數(shù)據(jù)在交互時(shí),不必過于依賴事先定義的標(biāo)準(zhǔn)數(shù)據(jù)元素,而是自動(dòng)利用自然語言處理、數(shù)據(jù)挖掘等相關(guān)算法一次性完成對數(shù)據(jù)元素、數(shù)據(jù)元素的要素的定義,同時(shí)也能減少人工配置的工作量,提升了使用體驗(yàn)。
本發(fā)明第二方面實(shí)施例提供了一種利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置,該裝置包括:預(yù)處理模塊,用于基于信息系統(tǒng)中數(shù)據(jù)的基本信息,定義目標(biāo)數(shù)據(jù)元素的表示信息,并獲取所述信息系統(tǒng)中多個(gè)數(shù)據(jù)表的字段信息;提取模塊,用于基于預(yù)先配置的語法規(guī)則,根據(jù)所述表示信息從所述多個(gè)數(shù)據(jù)表的字段信息中提取對象詞和特性詞;相似度計(jì)算模塊,用于基于所述對象詞、特性詞和表示信息,對所述多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算;聚類模塊,用于根據(jù)所述相似度計(jì)算的結(jié)果,對所述多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別;定義模塊,用于根據(jù)每一個(gè)聚類類別中的特征信息定義所述類別的名稱,并將所述類別的名稱作為所述目標(biāo)數(shù)據(jù)元素的名稱,并將聚類后的數(shù)據(jù)表字段的字符類型定義為所述目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型。
本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置,首先,基于信息系統(tǒng)中數(shù)據(jù)的基本信息定義出目標(biāo)數(shù)據(jù)元素的表示信息,并且獲取多個(gè)數(shù)據(jù)表字段信息;其次,基于預(yù)先配置的語法規(guī)則,根據(jù)表示信息從多個(gè)數(shù)據(jù)表字段信息中提取出對象詞和特性詞;再次,基于對象詞、特性詞和表示信息對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別,進(jìn)而根據(jù)每一個(gè)聚類類別中的特征信息定義類別的名稱,并將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱,以及將聚類后的數(shù)據(jù)表字段的字符類型定義為目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型,從而使得系統(tǒng)間的數(shù)據(jù)在交互時(shí),不必過于依賴事先定義的標(biāo)準(zhǔn)數(shù)據(jù)元素,而是自動(dòng)利用自然語言處理、數(shù)據(jù)挖掘等相關(guān)算法一次性完成對數(shù)據(jù)元素、數(shù)據(jù)元素的要素的定義,同時(shí)也能減少人工配置的工作量,提升了使用體驗(yàn)。
本發(fā)明的附加方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
附圖說明
本發(fā)明的上述和/或附加的方面和優(yōu)點(diǎn)從結(jié)合下面附圖對實(shí)施例的描述中將變得明顯和容易理解,其中:
圖1為本發(fā)明的一個(gè)實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法的流程圖;
圖2為本發(fā)明的另一個(gè)實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法的流程圖;
圖3為本發(fā)明實(shí)施例中對字段信息進(jìn)行分析的具體實(shí)現(xiàn)過程的示意圖;
圖4為本發(fā)明的一個(gè)具體實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法的流程圖;
圖5為本發(fā)明的一個(gè)實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置的結(jié)構(gòu)示意圖;
圖6為本發(fā)明的另一個(gè)實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置的結(jié)構(gòu)示意圖。
具體實(shí)施方式
下面詳細(xì)描述本發(fā)明的實(shí)施例,所述實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,旨在用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
可以理解,數(shù)據(jù)元素(dataelement)又稱數(shù)據(jù)類型,是在特定的語義環(huán)境中被認(rèn)為是不可再分的最小數(shù)據(jù)單元。一個(gè)標(biāo)準(zhǔn)的數(shù)據(jù)元素有以下幾個(gè)要素:中文名稱、中文拼音、表示符、對象詞、特性詞、表示詞、數(shù)據(jù)類型、值域等。
由于一個(gè)數(shù)據(jù)元素在不同應(yīng)用環(huán)境下可以有多個(gè)同一名稱,因此,需要定義出一個(gè)統(tǒng)一的標(biāo)準(zhǔn)數(shù)據(jù)元素結(jié)構(gòu)。然而,在現(xiàn)有的數(shù)據(jù)元素定義中,通常會(huì)存在過于依賴于事先定義好的標(biāo)準(zhǔn)數(shù)據(jù)元素,且對數(shù)據(jù)元素的完整性要求比較高,此外存在較大的人工配置工作量等問題。
因此,為了解決上述問題,本發(fā)明提出了一種利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法,該方法從數(shù)據(jù)元素定義的角度,分析和研究數(shù)據(jù)資源整合中不同數(shù)據(jù)表字段之間的關(guān)系,并從識(shí)別不同應(yīng)用環(huán)境中具有相同語義的數(shù)據(jù)表字段信息,進(jìn)而定義出統(tǒng)一的數(shù)據(jù)元素結(jié)構(gòu),使得在數(shù)據(jù)整合方面提供了借鑒和指導(dǎo)。具體地,下面參考附圖1描述本發(fā)明第一方面實(shí)施例提出的一種利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法。
圖1為本發(fā)明一個(gè)實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法的流程圖。如圖1所示,本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法,包括以下幾個(gè)步驟:
s101,基于信息系統(tǒng)中數(shù)據(jù)的基本信息,定義目標(biāo)數(shù)據(jù)元素的表示信息,并獲取信息系統(tǒng)中多個(gè)數(shù)據(jù)表的字段信息。
其中,在本實(shí)施例中,信息系統(tǒng)中存儲(chǔ)數(shù)據(jù)的基本信息,至少可包括:數(shù)據(jù)的主題、內(nèi)容、格式標(biāo)準(zhǔn)和表達(dá)方式等信息。也就是說,可對信息系統(tǒng)進(jìn)行數(shù)據(jù)信息調(diào)研,了解信息系統(tǒng)中數(shù)據(jù)的主題、內(nèi)容、格式標(biāo)準(zhǔn)和表達(dá)方式等基本信息,然后,可根據(jù)信息系統(tǒng)中存儲(chǔ)的數(shù)據(jù)基本信息定義出目標(biāo)數(shù)據(jù)元素的表示信息,以及獲取信息系統(tǒng)中多個(gè)數(shù)據(jù)表的字段信息。
其中,根據(jù)信息系統(tǒng)中數(shù)據(jù)基本信息定義出的目標(biāo)數(shù)據(jù)元素的表示信息至少可分為:名稱、代碼、時(shí)間、量、描述等信息,同時(shí)獲取信息系統(tǒng)中多個(gè)數(shù)據(jù)表的字段信息可以是多個(gè)數(shù)據(jù)表的表名、字段名、字段格式等。
s102,基于預(yù)先配置的語法規(guī)則,根據(jù)表示信息從多個(gè)數(shù)據(jù)表的字段信息中提取對象詞和特性詞。
具體地,可基于預(yù)先配置的語法規(guī)則的方式將數(shù)據(jù)表的字段信息進(jìn)行語義的拆分,并將數(shù)據(jù)表中的表名、字段名自動(dòng)的提煉出表示詞、特征詞、對象詞等數(shù)據(jù)元要素。具體的實(shí)現(xiàn)方式可參見后續(xù)實(shí)施例的具體描述。
可以理解,上述語法規(guī)則可以是預(yù)先配置的。舉例說明,該預(yù)先配置的語法規(guī)則中可以包括但不限于:當(dāng)核心詞為動(dòng)詞時(shí),存在主謂關(guān)系的詞即為對象詞,核心詞為特性詞。需要說明的是,上述預(yù)先配置的語法規(guī)則僅是示例性的,還可以根據(jù)實(shí)際使用需求設(shè)定不同的語法規(guī)則,在此不作具體限制。
s103,基于對象詞、特性詞和表示信息,對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算。
具體地,在提取出對象詞和特性詞之后,可基于提取的對象詞、特性詞和表示信息,對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算,舉例說明如下:
以兩個(gè)數(shù)據(jù)表為例,假設(shè)從第一個(gè)數(shù)據(jù)表的字段名“在逃人員作案時(shí)間”中獲取到的對象詞、特性詞和表示信息分別為:在逃人員、作案、時(shí)間,從第二個(gè)數(shù)據(jù)表的字段名“通緝?nèi)藛T作案時(shí)間”中獲取到的對象詞、特性詞和表示信息分別為:通緝?nèi)藛T、作案、時(shí)間,則可通過相似度計(jì)算公式計(jì)算出這兩個(gè)數(shù)據(jù)表字段之間的相似度,即同時(shí)計(jì)算這兩個(gè)數(shù)據(jù)表中對象與對象、特性與特性、表示與表示三者之間的相似度,該相似度結(jié)果即為這兩個(gè)數(shù)據(jù)表字段之間的相似度。
其中,相似度計(jì)算公式可如下式(1)所示:
其中,a、b分別表示兩個(gè)不同數(shù)據(jù)表字段的特征向量,該特征向量分別由對象、特性以及表示建立的,ai、bi分別表示兩個(gè)不同特征向量中的第i個(gè)元素,該元素可以是對象、或特性、或表示,n表示該特征向量的長度。
可以理解,通過上述相似度計(jì)算公式計(jì)算兩個(gè)數(shù)據(jù)表之間的相似度之前,首先將兩個(gè)不同數(shù)據(jù)表中的字段基于對象、特性、表示建立兩個(gè)不同的特征向量a、b,然后,再利用相似度計(jì)算公式(1)同時(shí)計(jì)算上述對象與對象、特性與特性、以及表示與表示三者之間的相似度,從而根據(jù)得到的相似度確定出兩個(gè)數(shù)據(jù)表之間的相似度。
需要說明的是,上述計(jì)算多個(gè)數(shù)據(jù)表字段之間的相似度僅是示例性的,還可根據(jù)實(shí)際需要通過其他不同的方式計(jì)算多個(gè)數(shù)據(jù)表字段之間的相似度,在此不作具體限制。
s104,根據(jù)相似度計(jì)算的結(jié)果,對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別。
具體地,在計(jì)算出多個(gè)數(shù)據(jù)表字段之間的相似度之后,可根據(jù)相似度計(jì)算結(jié)果繼續(xù)對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析。例如,假設(shè)計(jì)算出多個(gè)數(shù)據(jù)表的字段之間的相似度大于或等于預(yù)設(shè)閾值,則可認(rèn)為該多個(gè)數(shù)據(jù)表的字段屬于同一類別,則可將該多個(gè)數(shù)據(jù)表的字段聚為一類。這樣,可以從不同應(yīng)用環(huán)境中將具有相同或相似語義的數(shù)據(jù)表字段信息聚類一類,為后續(xù)標(biāo)準(zhǔn)數(shù)據(jù)元素的定義奠定基礎(chǔ)。
s105,根據(jù)每一個(gè)聚類類別中的特征信息定義類別的名稱,并將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱,并將聚類后的數(shù)據(jù)表字段的字符類型定義為目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型。
具體地,對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析之后,可根據(jù)每一個(gè)聚類類別中的特征信息,定義類別名稱,即目標(biāo)數(shù)據(jù)元素名稱,并獲取聚類后的數(shù)據(jù)表字段的字符類型定義為該目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型。其中,在本發(fā)明的實(shí)施例中,該聚類類別中的特征信息可理解為在該聚類類別下的詞頻信息。
也就是說,可根據(jù)每一個(gè)聚類類別下的詞頻定義該類別的名稱,即將在該聚類類別下出現(xiàn)次數(shù)最多的字段名作為該目標(biāo)數(shù)據(jù)元素名稱。例如,以字段名為“在逃人員作案時(shí)間”、“通緝?nèi)藛T作案時(shí)間”為一個(gè)聚類類別為例,假設(shè)字段名“在逃人員作案時(shí)間”在該類別下出現(xiàn)的次數(shù)最大,則以該“在逃人員作案時(shí)間”為該類別的名稱,即該目標(biāo)數(shù)據(jù)元素名稱,其中該目標(biāo)數(shù)據(jù)元素對應(yīng)的字段信息有:在逃人員作案時(shí)間、通緝?nèi)藛T作案時(shí)間。
本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法,首先,基于信息系統(tǒng)中數(shù)據(jù)的基本信息定義出目標(biāo)數(shù)據(jù)元素的表示信息,并且獲取多個(gè)數(shù)據(jù)表字段信息;其次,基于預(yù)先配置的語法規(guī)則,根據(jù)表示信息從多個(gè)數(shù)據(jù)表字段信息中提取出對象詞和特性詞;再次,基于對象詞、特性詞和表示信息對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別,進(jìn)而根據(jù)每一個(gè)聚類類別中的特征信息定義類別的名稱,并將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱,以及將聚類后的數(shù)據(jù)表字段的字符類型定義為目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型,從而使得系統(tǒng)間的數(shù)據(jù)在交互時(shí),不必過于依賴事先定義的標(biāo)準(zhǔn)數(shù)據(jù)元素,而是自動(dòng)利用自然語言處理、數(shù)據(jù)挖掘等相關(guān)算法一次性完成對數(shù)據(jù)元素、數(shù)據(jù)元素的要素的定義,同時(shí)也能減少了人工配置的工作量,提升了使用體驗(yàn)。
圖2為本發(fā)明的另一個(gè)實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法的流程圖。
如圖2所示,本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法,包括以下幾個(gè)步驟:
s201,基于信息系統(tǒng)中數(shù)據(jù)的基本信息,定義目標(biāo)數(shù)據(jù)元素的表示信息,并獲取信息系統(tǒng)中多個(gè)數(shù)據(jù)表的字段信息。
s202,對表示信息進(jìn)行語義擴(kuò)展以生成表示的特征詞庫。
具體地,在基于信息系統(tǒng)中數(shù)據(jù)的基本信息定義出目標(biāo)數(shù)據(jù)元素的表示信息,以及獲取多個(gè)數(shù)據(jù)表的字段信息之后,可基于公開的同義詞林詞典對該表示信息進(jìn)行語義擴(kuò)展,以擴(kuò)展出與該表示信息的語義具有相同或相似的詞語,并將這些詞語作為表示的特征詞,以建立該表示的特征詞庫。舉例說明如下:
假設(shè)在信息系統(tǒng)中,首先,定義出了目標(biāo)數(shù)據(jù)元素的表示信息為“時(shí)間”;其次,根據(jù)同義詞林詞典對表示信息進(jìn)行語義擴(kuò)展,例如,時(shí)間的同義詞有:時(shí)間、日期、小時(shí)等,進(jìn)而根據(jù)上述時(shí)間以及與時(shí)間同義的詞生成表示時(shí)間的特征詞庫,該特征詞庫包括時(shí)間、日期、小時(shí)等特征詞,進(jìn)而便于根據(jù)生成的特征詞庫進(jìn)行進(jìn)一步的歸類操作。
s203,對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行表示信息的歸類,形成多個(gè)數(shù)據(jù)表的字段與目標(biāo)數(shù)據(jù)元素中表示的映射關(guān)系。
具體地,可通過文本分類的算法對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行表示信息的歸類,即可通過文本分類算法將具體相同或相似的表示的數(shù)據(jù)表的字段信息歸為一類,并形成數(shù)據(jù)表的字段與表示的映射關(guān)系。例如,以數(shù)據(jù)表的字段名“在逃人員作案時(shí)間”為例,可通過文本分類算法對“在逃人員作案時(shí)間”進(jìn)行表示信息的歸類,即可通過文本分類算法將該字段名與上述定義的表示信息進(jìn)行分類計(jì)算,若計(jì)算結(jié)果達(dá)到某個(gè)閾值,則可將該字段名“在逃人員作案時(shí)間”歸為一類,并形成該字段名與上述定義的表示的映射關(guān)系,如可將“在逃人員作案時(shí)間”的表示指向“時(shí)間”。
需要說明的是,在本發(fā)明的實(shí)施例中,上述文本分類算法的公式可如下式(2)所示:
其中,分類算法為樸素貝葉斯算法,a、b表示兩組不同的事件組,p(bi)表示事件組b中第i個(gè)事件的概率,p(a|bi)表示事件組b中第i個(gè)事件已發(fā)生條件下事件組a的概率,p(bi|a)表示事件組a發(fā)生條件下事件組b中第i個(gè)事件的概率,p(bj)表示事件組b中第j個(gè)事件概率,p(a|bj)表示事件組b中第j個(gè)事件已發(fā)生條件下事件組a的概率,j表示事件組b中的事件,n表示為事件組b中事件的個(gè)數(shù)。
s204,根據(jù)映射關(guān)系以及表示的特征詞庫,從多個(gè)數(shù)據(jù)表的字段信息中剔除表示特征詞。
具體地,在生成映射關(guān)系以及表示的特征詞庫之后,可將多個(gè)數(shù)據(jù)表的字段信息中的表示特征詞剔除掉。例如,以字段名“在逃人員作案時(shí)間”為例,其中的表示特征詞為“時(shí)間”,則可將“在逃人員作案時(shí)間”中的“時(shí)間”剔除。
s205,對剔除表示特征詞之后的多個(gè)數(shù)據(jù)表的字段信息進(jìn)行語義依存分析,以提取剔除表示特征詞之后的多個(gè)數(shù)據(jù)表的字段信息中各個(gè)詞的語法關(guān)系。
可以理解,上述語義依存分析是指分析句子各個(gè)語言單位之間的語義關(guān)聯(lián),并將語義關(guān)聯(lián)以依存結(jié)構(gòu)呈現(xiàn)。例如,使用語義依存刻畫句子語義,好處在于不需要去抽象詞匯本身,而是通過詞匯所承受的語義框架來描述該詞匯。語義依存分析目標(biāo)是跨越句子表層句法結(jié)構(gòu)的束縛,直接獲取深層的語義信息。
例如,以數(shù)據(jù)表的字段名“在逃人員作案時(shí)間”為例,則該字段名剔除表示特征詞“時(shí)間”之后,得到字符串“在逃人員作案”,對該字符串“在逃人員作案”進(jìn)行語義依存分析,刻畫出如圖3所示的各個(gè)詞之間的語法關(guān)系。例如,如圖3所示,“hed”表示核心關(guān)系,“att”表示定中關(guān)系,“sbv”表示主謂關(guān)系。
s206,根據(jù)語法規(guī)則和語法關(guān)系生成多個(gè)數(shù)據(jù)表的字段信息的對象詞和特性詞。
具體地,在提取剔除表示特征詞之后的多個(gè)數(shù)據(jù)表的字段信息中各個(gè)詞的語法關(guān)系之后,可結(jié)合預(yù)先配置的語法規(guī)則從多個(gè)數(shù)據(jù)表中的字段信息中提煉出對象詞和特性詞。其中,可以理解,此處的字段信息應(yīng)該是已經(jīng)剔除了表示特征詞之后的字符串。
舉例而言,以上述步驟s205中所給出的例子為例,可根據(jù)預(yù)先配置的語法規(guī)則和得到的如圖3所示的語法關(guān)系,從字符串“在逃人員作案”中提煉出對象詞和特性詞,即:核心詞為“作案”,“作案”的上一層是“人員”,存在主謂關(guān)系,“人員”的上一層是“在逃”,存在定中關(guān)系,為修飾“人員”的。因此,可以將“人員”定義為對象詞,“作案”定義為特性詞。此外,由于“在逃”是修飾對象“人員”,并且為一個(gè)名詞,屬于“人員”的一個(gè)子類,因此可將“在逃人員”也定義為一個(gè)對象,進(jìn)而得到最終的結(jié)果為:對象:在逃人員;特性:“作案”;表示:“時(shí)間”。
s207,基于對象詞、特性詞和表示信息,對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算。
s208,根據(jù)相似度計(jì)算的結(jié)果,對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別。
s209,根據(jù)每一個(gè)聚類類別中的特征信息定義類別的名稱,并將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱,并將聚類后的數(shù)據(jù)表字段的字符類型定義為目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型。
為了提高對象詞、特性詞的提煉準(zhǔn)確率,提高目標(biāo)數(shù)據(jù)元素的定義的標(biāo)準(zhǔn)化,進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,在根據(jù)語法規(guī)則和語法關(guān)系生成多個(gè)數(shù)據(jù)表的字段信息的對象詞和特性詞之后,該利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法還可包括:對生成的結(jié)果信息建立反向自學(xué)習(xí)機(jī)制,并基于反向自學(xué)習(xí)機(jī)制,將結(jié)果信息作為訓(xùn)練信息對對象詞和特性詞進(jìn)行二次修正。
其中,在本發(fā)明的實(shí)施例中,基于對象詞、特性詞和表示信息,對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算的具體實(shí)現(xiàn)過程可如下:基于二次修正后的對象詞、特性詞和表示信息,對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算。也就是說,在對對象詞和特性詞進(jìn)行二次修正之后,在對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算時(shí),可基于二次修正后的對象詞、特性詞和表示信息對該多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算。由此,可提高計(jì)算的準(zhǔn)確率,進(jìn)而提高聚類的準(zhǔn)確度。
本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法,通過自然語言處理、數(shù)據(jù)挖掘等相關(guān)算法以獲取目標(biāo)數(shù)據(jù)元素之間的語法關(guān)系,以及獲知各個(gè)目標(biāo)元素在信息系統(tǒng)中多個(gè)數(shù)據(jù)表之間的映射關(guān)系,可為目標(biāo)數(shù)據(jù)元素標(biāo)準(zhǔn)化提供支持,并且還能減少人工配置的工作量,提高了系統(tǒng)之間進(jìn)行數(shù)據(jù)交互的性能,更滿足用戶的使用需求。
為了方便不同數(shù)據(jù)元素的區(qū)分,進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,在將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱之后,該利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法還可包括:基于分詞器對目標(biāo)數(shù)據(jù)元素的名稱進(jìn)行拼音的轉(zhuǎn)化,并截取拼音的首字母組合成目標(biāo)數(shù)據(jù)元素的標(biāo)識(shí)符。
具體地,在將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱之后,可對目標(biāo)數(shù)據(jù)元素的名稱進(jìn)行擴(kuò)展,通過分詞器進(jìn)行拼音的轉(zhuǎn)化,截取拼音的首字母組合成該目標(biāo)數(shù)據(jù)元素的標(biāo)識(shí)符。例如,利用分詞器對目標(biāo)數(shù)據(jù)元素的名稱“在逃人員作案時(shí)間”進(jìn)行拼音轉(zhuǎn)化,得到拼音(zaitaorenyuanzuoanshijian),并截取該拼音首字母作為該目標(biāo)數(shù)據(jù)元素的標(biāo)識(shí)符(ztryzasj),以表示該數(shù)據(jù)元素的唯一性。
為了使得本發(fā)明實(shí)施例更清楚明確,下面通過一個(gè)具體實(shí)施例對本發(fā)明提出的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的方法進(jìn)行詳細(xì)說明,具體可參見圖4所示。
如圖4所示,通過對信息系統(tǒng)進(jìn)行調(diào)研,了解數(shù)據(jù)的基本信息,例如數(shù)據(jù)的主題、內(nèi)容、格式標(biāo)準(zhǔn)、表達(dá)方式等,并定義數(shù)據(jù)元素的表示信息,同時(shí)獲取數(shù)據(jù)表的表名、字段名、字段格式等字段信息(s401);基于公開的同義詞林詞典,對表示信息進(jìn)行語義擴(kuò)展,形成表示的特征詞庫(s402);通過文本分類的算法,對數(shù)據(jù)表信息進(jìn)行歸類,形成數(shù)據(jù)表字段與數(shù)據(jù)元素要素“表示”的映射關(guān)系(s403);對剔除表示特征詞之后信息進(jìn)行文本的語義依存分析,提取短句中各個(gè)詞的語法關(guān)系;定義若干語法規(guī)則,如:當(dāng)核心詞是動(dòng)詞時(shí),存在主謂關(guān)系的詞即是對象詞,核心詞為特性詞;基于語法規(guī)則,生成數(shù)據(jù)表字段的對象詞、特性詞(s404);對生成的結(jié)果建立反向自學(xué)習(xí)機(jī)制,將結(jié)果作為訓(xùn)練信息進(jìn)行二次修正,從而達(dá)到提高準(zhǔn)確率的目的(s405);基于形成的對象、特性、表示信息,對數(shù)據(jù)表字之間進(jìn)行相似度計(jì)算(s406);聚類分析,并根據(jù)每一個(gè)聚類類別中的特征信息,定義類別名稱,即為數(shù)據(jù)元名稱;對數(shù)據(jù)元名稱進(jìn)行擴(kuò)展,利用分詞器進(jìn)行拼音的轉(zhuǎn)化,截取拼音的首字母組合成數(shù)據(jù)元的標(biāo)識(shí)符,獲取字段的字符類型定義為數(shù)據(jù)元的數(shù)據(jù)類型(s407)。
通過上述實(shí)施例使得系統(tǒng)間的數(shù)據(jù)在交互時(shí),不必過于依賴事先定義的標(biāo)準(zhǔn)數(shù)據(jù)元素,而是自動(dòng)利用自然語言處理、數(shù)據(jù)挖掘等相關(guān)算法一次性完成對數(shù)據(jù)元素、數(shù)據(jù)元素的要素的定義,同時(shí)也能減少了人工配置的工作量,提升了使用體驗(yàn)。
為了實(shí)現(xiàn)上述實(shí)施例,本發(fā)明還提出一種利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置。
圖5為本發(fā)明一個(gè)實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置的結(jié)構(gòu)示意圖。
如圖5示,本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置包括:預(yù)處理模塊10、提取模塊20、相似度計(jì)算模塊30、聚類模塊40和定義模塊50。
具體地,預(yù)處理模塊10用于基于信息系統(tǒng)中數(shù)據(jù)的基本信息,定義目標(biāo)數(shù)據(jù)元素的表示信息,并獲取信息系統(tǒng)中多個(gè)數(shù)據(jù)表的字段信息。其中,在本實(shí)施例中,信息系統(tǒng)中存儲(chǔ)數(shù)據(jù)的基本信息,至少可包括:數(shù)據(jù)的主題、內(nèi)容、格式標(biāo)準(zhǔn)和表達(dá)方式等信息。也就是說,可對信息系統(tǒng)進(jìn)行數(shù)據(jù)信息調(diào)研,了解信息系統(tǒng)中數(shù)據(jù)的主題、內(nèi)容、格式標(biāo)準(zhǔn)和表達(dá)方式等基本信息,然后,可根據(jù)信息系統(tǒng)中存儲(chǔ)的數(shù)據(jù)基本信息定義出目標(biāo)數(shù)據(jù)元素的表示信息,以及獲取信息系統(tǒng)中多個(gè)數(shù)據(jù)表的字段信息。
其中,根據(jù)信息系統(tǒng)中數(shù)據(jù)基本信息定義出的目標(biāo)數(shù)據(jù)元素的表示信息至少可分為:名稱、代碼、時(shí)間、量、描述等信息,同時(shí)獲取信息系統(tǒng)中多個(gè)數(shù)據(jù)表的字段信息可以是多個(gè)數(shù)據(jù)表的表名、字段名、字段格式等。
提取模塊20用于基于預(yù)先配置的語法規(guī)則,根據(jù)表示信息從多個(gè)數(shù)據(jù)表的字段信息中提取對象詞和特性詞。
具體地,可基于預(yù)先配置的語法規(guī)則的方式將數(shù)據(jù)表的字段信息進(jìn)行語義的拆分,并將數(shù)據(jù)表中的表名、字段名自動(dòng)的提煉出表示詞、特征詞、對象詞等數(shù)據(jù)元要素。具體的實(shí)現(xiàn)方式可參見后續(xù)實(shí)施例的具體描述。
可以理解,上述語法規(guī)則可以是預(yù)先配置的。舉例說明,該預(yù)先配置的語法規(guī)則中可以包括但不限于:當(dāng)核心詞為動(dòng)詞時(shí),存在主謂關(guān)系的詞即為對象詞,核心詞為特性詞。需要說明的是,上述預(yù)先配置的語法規(guī)則僅是示例性的,還可以根據(jù)實(shí)際使用需求設(shè)定不同的語法規(guī)則,在此不作具體限制。
相似度計(jì)算模塊30用于基于對象詞、特性詞和表示信息,對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算。具體地,在提取出對象詞和特性詞之后,可基于提取的對象詞、特性詞和表示信息,對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算,舉例說明如下:
以兩個(gè)數(shù)據(jù)表為例,假設(shè)從第一個(gè)數(shù)據(jù)表的字段名“在逃人員作案時(shí)間”中獲取到的對象詞、特性詞和表示信息分別為:在逃人員、作案、時(shí)間,從第二個(gè)數(shù)據(jù)表的字段名“通緝?nèi)藛T作案時(shí)間”中獲取到的對象詞、特性詞和表示信息分別為:通緝?nèi)藛T、作案、時(shí)間,則可通過相似度計(jì)算公式計(jì)算出這兩個(gè)數(shù)據(jù)表字段之間的相似度,即同時(shí)計(jì)算這兩個(gè)數(shù)據(jù)表中對象與對象、特性與特性、表示與表示三者之間的相似度,該相似度結(jié)果即為這兩個(gè)數(shù)據(jù)表字段之間的相似度。
其中,相似度計(jì)算公式可如下式(1)所示:
其中,a、b分別表示兩個(gè)不同數(shù)據(jù)表字段的特征向量,該特征向量分別由對象、特性以及表示建立的,ai、bi分別表示兩個(gè)不同特征向量中的第i個(gè)元素,該元素可以是對象、或特性、或表示,n表示該特征向量的長度。
可以理解,通過上述相似度計(jì)算公式計(jì)算兩個(gè)數(shù)據(jù)表之間的相似度之前,首先將兩個(gè)不同數(shù)據(jù)表中的字段基于對象、特性、表示建立兩個(gè)不同的特征向量a、b,然后,再利用相似度計(jì)算公式(1)同時(shí)計(jì)算上述對象與對象、特性與特性、以及表示與表示三者之間的相似度,從而根據(jù)得到的相似度確定出兩個(gè)數(shù)據(jù)表之間的相似度。
需要說明的是,上述計(jì)算多個(gè)數(shù)據(jù)表字段之間的相似度僅是示例性的,還可根據(jù)實(shí)際需要通過其他不同的方式計(jì)算多個(gè)數(shù)據(jù)表字段之間的相似度,在此不作具體限制。
聚類模塊40用于根據(jù)相似度計(jì)算的結(jié)果,對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別。
具體地,在計(jì)算出多個(gè)數(shù)據(jù)表字段之間的相似度之后,可根據(jù)相似度計(jì)算結(jié)果繼續(xù)對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析。例如,假設(shè)計(jì)算出多個(gè)數(shù)據(jù)表的字段之間的相似度大于或等于預(yù)設(shè)閾值,則可認(rèn)為該多個(gè)數(shù)據(jù)表的字段屬于同一類別,則可將該多個(gè)數(shù)據(jù)表的字段聚為一類。這樣,可以從不同應(yīng)用環(huán)境中將具有相同或相似語義的數(shù)據(jù)表字段信息聚類一類,為后續(xù)標(biāo)準(zhǔn)數(shù)據(jù)元素的定義奠定基礎(chǔ)。
定義模塊50用于根據(jù)每一個(gè)聚類類別中的特征信息定義類別的名稱,并將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱,并將聚類后的數(shù)據(jù)表字段的字符類型定義為目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型。
具體地,對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析之后,可根據(jù)每一個(gè)聚類類別中的特征信息,定義類別名稱,即目標(biāo)數(shù)據(jù)元素名稱,并獲取聚類后的數(shù)據(jù)表字段的字符類型定義為該目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型。其中,在本發(fā)明的實(shí)施例中,該聚類類別中的特征信息可理解為在該聚類類別下的詞頻信息。
也就是說,可根據(jù)每一個(gè)聚類類別下的詞頻定義該類別的名稱,即將在該聚類類別下出現(xiàn)次數(shù)最多的字段名作為該目標(biāo)數(shù)據(jù)元素名稱。例如,以字段名為“在逃人員作案時(shí)間”、“通緝?nèi)藛T作案時(shí)間”為一個(gè)聚類類別為例,假設(shè)字段名“在逃人員作案時(shí)間”在該類別下出現(xiàn)的次數(shù)最大,則以該“在逃人員作案時(shí)間”為該類別的名稱,即該目標(biāo)數(shù)據(jù)元素名稱,其中該目標(biāo)數(shù)據(jù)元素對應(yīng)的字段信息有:在逃人員作案時(shí)間、通緝?nèi)藛T作案時(shí)間。
本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置,首先,基于信息系統(tǒng)中數(shù)據(jù)的基本信息定義出目標(biāo)數(shù)據(jù)元素的表示信息,并且獲取多個(gè)數(shù)據(jù)表字段信息;其次,基于預(yù)先配置的語法規(guī)則,根據(jù)表示信息從多個(gè)數(shù)據(jù)表字段信息中提取出對象詞和特性詞;再次,基于對象詞、特性詞和表示信息對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別,進(jìn)而根據(jù)每一個(gè)聚類類別中的特征信息定義類別的名稱,并將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱,以及將聚類后的數(shù)據(jù)表字段的字符類型定義為目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型,從而使得系統(tǒng)間的數(shù)據(jù)在交互時(shí),不必過于依賴事先定義的標(biāo)準(zhǔn)數(shù)據(jù)元素,而是自動(dòng)利用自然語言處理、數(shù)據(jù)挖掘等相關(guān)算法一次性完成對數(shù)據(jù)元素、數(shù)據(jù)元素的要素的定義,同時(shí)也能減少了人工配置的工作量,提升了使用體驗(yàn)。
圖6為本發(fā)明的另一個(gè)實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置的結(jié)構(gòu)示意圖。
如圖6所示,本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置包括:預(yù)處理模塊10、提取模塊20、相似度計(jì)算模塊30、聚類模塊40和定義模塊50。
具體地,預(yù)處理模塊10用于基于信息系統(tǒng)中數(shù)據(jù)的基本信息,定義目標(biāo)數(shù)據(jù)元素的表示信息,并獲取信息系統(tǒng)中多個(gè)數(shù)據(jù)表的字段信息。
提取模塊20用于基于預(yù)先配置的語法規(guī)則,根據(jù)表示信息從多個(gè)數(shù)據(jù)表的字段信息中提取對象詞和特性詞;
具體地,在本實(shí)施例中提取模塊20包括:第一生成單元21、歸類單元22、剔除單元23、提取單元24和第二生成單元25。其中,第一生成單元21用于對表示信息進(jìn)行語義擴(kuò)展以生成表示的特征詞庫。具體地,在基于信息系統(tǒng)中數(shù)據(jù)的基本信息定義出目標(biāo)數(shù)據(jù)元素的表示信息,以及獲取多個(gè)數(shù)據(jù)表的字段信息之后,可基于公開的同義詞林詞典對該表示信息進(jìn)行語義擴(kuò)展,以擴(kuò)展出與該表示信息的語義具有相同或相似的詞語,并將這些詞語作為表示的特征詞,以建立該表示的特征詞庫。舉例說明如下:
假設(shè)在信息系統(tǒng)中,首先,定義出了目標(biāo)數(shù)據(jù)元素的表示信息為“時(shí)間”;其次,根據(jù)同義詞林詞典對表示信息進(jìn)行語義擴(kuò)展,例如,時(shí)間的同義詞有:時(shí)間、日期、小時(shí)等,進(jìn)而根據(jù)上述時(shí)間以及與時(shí)間同義的詞生成表示時(shí)間的特征詞庫,該特征詞庫包括時(shí)間、日期、小時(shí)等特征詞,進(jìn)而便于根據(jù)生成的特征詞庫進(jìn)行進(jìn)一步的歸類操作。
歸類單元22用于對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行表示信息的歸類,形成多個(gè)數(shù)據(jù)表的字段與目標(biāo)數(shù)據(jù)元素中表示的映射關(guān)系。
具體地,可通過文本分類的算法對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行表示信息的歸類,即可通過文本分類算法將具體相同或相似的表示的數(shù)據(jù)表的字段信息歸為一類,并形成數(shù)據(jù)表的字段與表示的映射關(guān)系。例如,以數(shù)據(jù)表的字段名“在逃人員作案時(shí)間”為例,可通過文本分類算法對“在逃人員作案時(shí)間”進(jìn)行表示信息的歸類,即可通過文本分類算法將該字段名與上述定義的表示信息進(jìn)行分類計(jì)算,若計(jì)算結(jié)果達(dá)到某個(gè)閾值,則可將該字段名“在逃人員作案時(shí)間”歸為一類,并形成該字段名與上述定義的表示的映射關(guān)系,如可將“在逃人員作案時(shí)間”的表示指向“時(shí)間”。
需要說明的是,在本發(fā)明的實(shí)施例中,上述文本分類算法的公式可如下式(2)所示:
其中,分類算法為樸素貝葉斯算法,a、b表示兩組不同的事件組,p(bi)表示事件組b中第i個(gè)事件的概率,p(a|bi)表示事件組b中第i個(gè)事件已發(fā)生條件下事件組a的概率,p(bi|a)表示事件組a發(fā)生條件下事件組b中第i個(gè)事件的概率,p(bj)表示事件組b中第j個(gè)事件概率,p(a|bj)表示事件組b中第j個(gè)事件已發(fā)生條件下事件組a的概率,j表示事件組b中的事件,n表示為事件組b中事件的個(gè)數(shù)。
剔除單元23用于根據(jù)映射關(guān)系以及表示的特征詞庫,從多個(gè)數(shù)據(jù)表的字段信息中剔除表示特征詞。具體地,在生成映射關(guān)系以及表示的特征詞庫之后,可將多個(gè)數(shù)據(jù)表的字段信息中的表示特征詞剔除掉。例如,以字段名“在逃人員作案時(shí)間”為例,其中的表示特征詞為“時(shí)間”,則可將“在逃人員作案時(shí)間”中的“時(shí)間”剔除。
提取單元24用于對剔除表示特征詞之后的多個(gè)數(shù)據(jù)表的字段信息進(jìn)行語義依存分析,以提取剔除表示特征詞之后的多個(gè)數(shù)據(jù)表的字段信息中各個(gè)詞的語法關(guān)系。
可以理解,上述語義依存分析是指分析句子各個(gè)語言單位之間的語義關(guān)聯(lián),并將語義關(guān)聯(lián)以依存結(jié)構(gòu)呈現(xiàn)。例如,使用語義依存刻畫句子語義,好處在于不需要去抽象詞匯本身,而是通過詞匯所承受的語義框架來描述該詞匯。語義依存分析目標(biāo)是跨越句子表層句法結(jié)構(gòu)的束縛,直接獲取深層的語義信息。
例如,以數(shù)據(jù)表的字段名“在逃人員作案時(shí)間”為例,則該字段名剔除表示特征詞“時(shí)間”之后,得到字符串“在逃人員作案”,對該字符串“在逃人員作案”進(jìn)行語義依存分析,刻畫出如圖3所示的各個(gè)詞之間的語法關(guān)系。例如,如圖3所示,“hed”表示核心關(guān)系,“att”表示定中關(guān)系,“sbv”表示主謂關(guān)系。
第二生成單元25用于根據(jù)語法規(guī)則和語法關(guān)系生成多個(gè)數(shù)據(jù)表的字段信息的對象詞和特性詞。具體地,在提取剔除表示特征詞之后的多個(gè)數(shù)據(jù)表的字段信息中各個(gè)詞的語法關(guān)系之后,可結(jié)合預(yù)先配置的語法規(guī)則從多個(gè)數(shù)據(jù)表中的字段信息中提煉出對象詞和特性詞。其中,可以理解,此處的字段信息應(yīng)該是已經(jīng)剔除了表示特征詞之后的字符串。
舉例而言,以上述步驟s205中所給出的例子為例,可根據(jù)預(yù)先配置的語法規(guī)則和得到的如圖3所示的語法關(guān)系,從字符串“在逃人員作案”中提煉出對象詞和特性詞,即:核心詞為“作案”,“作案”的上一層是“人員”,存在主謂關(guān)系,“人員”的上一層是“在逃”,存在定中關(guān)系,為修飾“人員”的。因此,可以將“人員”定義為對象詞,“作案”定義為特性詞。此外,由于“在逃”是修飾對象“人員”,并且為一個(gè)名詞,屬于“人員”的一個(gè)子類,因此可將“在逃人員”也定義為一個(gè)對象,進(jìn)而得到最終的結(jié)果為:對象:在逃人員;特性:“作案”;表示:“時(shí)間”。
相似度計(jì)算模塊30用于基于對象詞、特性詞和表示信息,對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算。
聚類模塊40用于根據(jù)相似度計(jì)算的結(jié)果,對多個(gè)數(shù)據(jù)表的字段信息進(jìn)行聚類分析以得到多個(gè)聚類類別。
定義模塊50用于根據(jù)每一個(gè)聚類類別中的特征信息定義類別的名稱,并將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱,并將聚類后的數(shù)據(jù)表字段的字符類型定義為目標(biāo)數(shù)據(jù)元素的數(shù)據(jù)類型。
為了提高對象詞、特性詞的提煉準(zhǔn)確率,提高目標(biāo)數(shù)據(jù)元素的定義的標(biāo)準(zhǔn)化,進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,在根據(jù)語法規(guī)則和語法關(guān)系生成多個(gè)數(shù)據(jù)表的字段信息的對象詞和特性詞之后,該利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置還可包括:建立模塊和修正模塊。其中,建立模塊用于在根據(jù)語法規(guī)則和語法關(guān)系生成多個(gè)數(shù)據(jù)表的字段信息的對象詞和特性詞之后,對生成的結(jié)果信息建立反向自學(xué)習(xí)機(jī)制;修正模塊用于基于反向自學(xué)習(xí)機(jī)制,將結(jié)果信息作為訓(xùn)練信息對對象詞和特性詞進(jìn)行二次修正。
其中,相似度計(jì)算模塊30具體用于:基于二次修正后的對象詞、特性詞和所述表示信息,對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算。也就是說,在對對象詞和特性詞進(jìn)行二次修正之后,在對多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算時(shí),可基于二次修正后的對象詞、特性詞和表示信息對該多個(gè)數(shù)據(jù)表的字段之間進(jìn)行相似度計(jì)算。由此,可提高計(jì)算的準(zhǔn)確率,進(jìn)而提高聚類的準(zhǔn)確度。
本發(fā)明實(shí)施例的利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置,通過自然語言處理、數(shù)據(jù)挖掘等相關(guān)算法以獲取目標(biāo)數(shù)據(jù)元素之間的語法關(guān)系,以及獲知各個(gè)目標(biāo)元素在信息系統(tǒng)中多個(gè)數(shù)據(jù)表之間的映射關(guān)系,可為目標(biāo)數(shù)據(jù)元素標(biāo)準(zhǔn)化提供支持,并且還能減少人工配置的工作量,提高了系統(tǒng)之間進(jìn)行數(shù)據(jù)交互的性能,更滿足用戶的使用需求。
為了方便不同數(shù)據(jù)元素的區(qū)分,進(jìn)一步地,在本發(fā)明的一個(gè)實(shí)施例中,在將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱之后,該利用自然語言處理技術(shù)定義數(shù)據(jù)元素的裝置還可包括:標(biāo)識(shí)符生成模塊。其中,標(biāo)識(shí)符生成模塊用于在將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱之后,基于分詞器對目標(biāo)數(shù)據(jù)元素的名稱進(jìn)行拼音的轉(zhuǎn)化,并截取拼音的首字母組合成目標(biāo)數(shù)據(jù)元素的標(biāo)識(shí)符。
具體地,在將類別的名稱作為目標(biāo)數(shù)據(jù)元素的名稱之后,可對目標(biāo)數(shù)據(jù)元素的名稱進(jìn)行擴(kuò)展,通過分詞器進(jìn)行拼音的轉(zhuǎn)化,截取拼音的首字母組合成該目標(biāo)數(shù)據(jù)元素的標(biāo)識(shí)符。例如,利用分詞器對目標(biāo)數(shù)據(jù)元素的名稱“在逃人員作案時(shí)間”進(jìn)行拼音轉(zhuǎn)化,得到拼音(zaitaorenyuanzuoanshijian),并截取該拼音首字母作為該目標(biāo)數(shù)據(jù)元素的標(biāo)識(shí)符(ztryzasj),以表示該數(shù)據(jù)元素的唯一性。
此外,術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”的特征可以明示或者隱含地包括至少一個(gè)該特征。在本發(fā)明的描述中,“多個(gè)”的含義是至少兩個(gè),例如兩個(gè),三個(gè)等,除非另有明確具體的限定。
在本說明書的描述中,參考術(shù)語“一個(gè)實(shí)施例”、“一些實(shí)施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實(shí)施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)包含于本發(fā)明的至少一個(gè)實(shí)施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不必須針對的是相同的實(shí)施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點(diǎn)可以在任一個(gè)或多個(gè)實(shí)施例或示例中以合適的方式結(jié)合。此外,在不相互矛盾的情況下,本領(lǐng)域的技術(shù)人員可以將本說明書中描述的不同實(shí)施例或示例以及不同實(shí)施例或示例的特征進(jìn)行結(jié)合和組合。
盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在本發(fā)明的范圍內(nèi)可以對上述實(shí)施例進(jìn)行變化、修改、替換和變型。