專利名稱:利用自動規(guī)則生成的非結(jié)構(gòu)化數(shù)據(jù)支持的制作方法
技術(shù)領(lǐng)域:
此申請涉及數(shù)據(jù)處理領(lǐng)域,并且具體地,涉及用于自動地生成用于非結(jié)構(gòu)化數(shù)據(jù)的語言規(guī)則的方法和系統(tǒng)。
背景技術(shù):
非結(jié)構(gòu)化數(shù)據(jù)是指要么不具有數(shù)據(jù)結(jié)構(gòu)要么具有不能由計算機(jī)程序容易地使用的數(shù)據(jù)結(jié)構(gòu)的計算機(jī)化信息。非結(jié)構(gòu)化數(shù)據(jù)可以來源于諸如,例如電子郵件、網(wǎng)站、財務(wù)報告等等的多個源。非結(jié)構(gòu)化數(shù)據(jù)因此可以與結(jié)構(gòu)化數(shù)據(jù)或者半結(jié)構(gòu)化數(shù)據(jù)形成對比,所述結(jié)構(gòu)化數(shù)據(jù)諸如以基于域(field-based)的格式存儲在數(shù)據(jù)庫中的信息,所述半結(jié)構(gòu)化數(shù)據(jù)是在電子文檔中被注釋(例如,被進(jìn)行了語義標(biāo)注的)的數(shù)據(jù)。同時,研究表明在所有潛在可用的商業(yè)信息當(dāng)中很大百分比是以非結(jié)構(gòu)化的形式生成的,比如在電子郵件,網(wǎng)頁、財務(wù)報告等等中。 一些現(xiàn)有的系統(tǒng)能夠從非結(jié)構(gòu)化數(shù)據(jù)源提取已經(jīng)識別為與預(yù)定種類相關(guān)聯(lián)的信息。一些系統(tǒng)甚至允許處理包含外文文本的非結(jié)構(gòu)化數(shù)據(jù)??梢允褂谜Z言規(guī)則處理非結(jié)構(gòu)化數(shù)據(jù)。然而一個挑戰(zhàn)是檢測和提取不同數(shù)據(jù)類型的數(shù)據(jù)實例可能需要特定的語言規(guī)則。例如,可能需要編寫一組特定語言規(guī)則以處理包含不動產(chǎn)的描述的非結(jié)構(gòu)化數(shù)據(jù),而可能需要編寫一組不同的特定語言規(guī)則以處理包含本地商業(yè)新聞的非結(jié)構(gòu)化數(shù)據(jù)。語言規(guī)則寫作會是復(fù)雜的過程,其需要特殊技能和一般在商業(yè)用戶的專業(yè)知識范圍之外的知識。
發(fā)明內(nèi)容
根據(jù)本發(fā)明的一個方面,提供一種計算機(jī)實現(xiàn)的系統(tǒng),其包括接收器,用于訪問非結(jié)構(gòu)化數(shù)據(jù)的源;實體類型模塊,用于確定實體類型;規(guī)則生成器,用于基于確定的實體類型自動地生成語言規(guī)則;以及實體提取器,用于使用語言規(guī)則從非結(jié)構(gòu)化數(shù)據(jù)的源獲得實體,所述實體包括字母數(shù)字串。根據(jù)本發(fā)明的另一方面,提供一種計算機(jī)實現(xiàn)的方法,包括使用一個或多個處理器執(zhí)行如下操作訪問非結(jié)構(gòu)化數(shù)據(jù)的源;確定實體類型;基于確定的實體類型自動地生成語言規(guī)則;以及將該語言規(guī)則提供給實體提取器以使用所述語言規(guī)則從非結(jié)構(gòu)化數(shù)據(jù)的源獲得實體,所述實體包括字母數(shù)字串。根據(jù)很發(fā)明的另一方面,提供一種機(jī)器可讀的非暫時性存儲介質(zhì),其具有導(dǎo)致機(jī)器執(zhí)行如下操作的指令數(shù)據(jù)訪問非結(jié)構(gòu)化數(shù)據(jù)的源;確定實體類型;以及基于確定的實體類型自動地生成語言規(guī)則,所述語言規(guī)則適于從非結(jié)構(gòu)化數(shù)據(jù)的源獲得實體,所述實體包括字母數(shù)字串。
以示例的方式示出本發(fā)明的實施例,但并不限于附圖中的圖形,附圖中相似的參考標(biāo)號指示相似的元件,其中
圖I是根據(jù)一個示例實施例的可以在其中實現(xiàn)用于處理非結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng)的網(wǎng)絡(luò)環(huán)境的圖示;圖2是根據(jù)一個示例實施例的用于處理非結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng)的框圖;圖3是根據(jù)一個示例實施例的用于處理非結(jié)構(gòu)化數(shù)據(jù)的方法的流程圖;圖4是根據(jù)一個示例實施例的非結(jié)構(gòu)化數(shù)據(jù)的源的圖示;圖5是根據(jù)一個示例實施例的選擇視圖的圖示;圖6是根據(jù)一個示例實施例的基于經(jīng)處理的非結(jié)構(gòu)化數(shù)據(jù)而生成的報告的圖示;以及圖7是采用其中可以運行指令的計算機(jī)系統(tǒng)的形式的示例機(jī)器的圖示,所述指令用于使機(jī)器執(zhí)行在此討論的任何一個或多個方法。
具體實施例方式在下面的描述中,出于解釋的目的,闡述許多特定細(xì)節(jié)以便提供對一些示例實施例的全面理解。然而,對本領(lǐng)域技術(shù)人員來說,很顯然沒有這些特定細(xì)節(jié)也可以實踐本發(fā)明的實施例。可以提供計算機(jī)實現(xiàn)的方法和系統(tǒng)以基于選擇的實體類型自動地生成用于處理非結(jié)構(gòu)化數(shù)據(jù)的語言規(guī)則。在本描述的上下文中,短語“實體類型”是指字母-數(shù)字信息的類型或種類。被識別為與實體類型相關(guān)聯(lián)并且因此從非結(jié)構(gòu)化數(shù)據(jù)源被提取的特定的字母-數(shù)字串可以稱為實體。在一個示例實施例中,用于利用自動規(guī)則生成來處理非結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng)組合了文本分析和企業(yè)報告技術(shù)的特征,并且允許用戶基于他們的非結(jié)構(gòu)化數(shù)據(jù)輸入來報告信息。通過使用基于一個或多個實體類型自動生成的語言規(guī)則來提取實體。語言規(guī)則是使用正則表達(dá)式和語言學(xué)屬性編寫的語句,所述正則表達(dá)式和語言學(xué)屬性定義用于非結(jié)構(gòu)化數(shù)據(jù)的源之內(nèi)的實體、事件和關(guān)系的模式。語言規(guī)則可以被編寫(例如,使用計算機(jī)實現(xiàn)的開發(fā)工具來編寫或者根據(jù)此處描述的一些實施例自動地編寫)、編譯并且使其可用于提取引擎(extraction engine),該提取引擎可以被提供有在計算機(jī)系統(tǒng)上運行的應(yīng)用??梢詫⑺鎏崛∫媾渲脼榛谡Z言規(guī)則從非結(jié)構(gòu)化數(shù)據(jù)的源識別并且提取信息。實體類型可以是預(yù)定義的實體類型。預(yù)定義實體類型可以包括,例如,在與各種各樣的主題(topic)相關(guān)的非結(jié)構(gòu)化數(shù)據(jù)的源中通常出現(xiàn)的實體類型。這種常見的實體類型(為了本描述的目的,也被稱為通用實體類型)的示例是地址、日期、電子郵件、電話等等。在下面的表I中示出了與可能出現(xiàn)在非結(jié)構(gòu)化數(shù)據(jù)的源中的地址信息以及用于實體類型地址的語言規(guī)則有關(guān)的示例文本。表I
Address: 555 Fifth Ave, New York, NY
#group Address: ([TE ADDRESS|FACILITY@PATH]<>+[/TE])
(<((a|A)t|(n|N)ear)> ([TE
ADDRES S |FACILITY@PATH]<>+[/TE]))
在下面的表2中示出了與可能出現(xiàn)在非結(jié)構(gòu)化數(shù)據(jù)信息的源中的日期以及用于實體類型日期的語言規(guī)則有關(guān)的示例文本。表權(quán)利要求
1.一種計算機(jī)實現(xiàn)的系統(tǒng),包括 接收器,用于訪問非結(jié)構(gòu)化數(shù)據(jù)的源; 實體類型模塊,用于確定實體類型; 規(guī)則生成器,用于基于確定的實體類型自動地生成語言規(guī)則;以及 實體提取器,用于使用語言規(guī)則從非結(jié)構(gòu)化數(shù)據(jù)的源獲得實體,所述實體包括字母數(shù)字串。
2.如權(quán)利要求I所述的系統(tǒng),包括提供選擇視圖的選擇視圖模塊,所述選擇視圖顯示實體類型。
3.如權(quán)利要求2所述的系統(tǒng),其中 所述選擇視圖包括用于接收用戶提供的關(guān)鍵字的輸入?yún)^(qū);以及 所述實體類型是基于用戶提供的關(guān)鍵字的定制實體類型。
4.如權(quán)利要求2所述系統(tǒng),其中,所述選擇視圖將呈現(xiàn)用于選擇實體類型的選擇控制。
5.如權(quán)利要求4所述系統(tǒng),其中,所述實體類型是先前存儲的通用實體類型。
6.如權(quán)利要求4所述系統(tǒng),其中,所述選擇視圖將呈現(xiàn)關(guān)于實體類型與非結(jié)構(gòu)化數(shù)據(jù)的源中的數(shù)據(jù)的相關(guān)度的信息。
7.如權(quán)利要求4所述系統(tǒng),其中,所述選擇視圖將呈現(xiàn)關(guān)于實體類型在非結(jié)構(gòu)化數(shù)據(jù)的源中出現(xiàn)的頻率的信息。
8.如權(quán)利要求I所述的系統(tǒng),包括提供報告視圖的報告模塊,所述報告視圖用于在顯示設(shè)備上繪制實體。
9.如權(quán)利要求I所述系統(tǒng),其中,所述非結(jié)構(gòu)化數(shù)據(jù)的源是網(wǎng)頁。
10.如權(quán)利要求I所述系統(tǒng),其中,所述非結(jié)構(gòu)化數(shù)據(jù)的源是電子郵件。
11.一種計算機(jī)實現(xiàn)的方法,包括 使用一個或多個處理器執(zhí)行如下操作 訪問非結(jié)構(gòu)化數(shù)據(jù)的源; 確定實體類型; 基于確定的實體類型自動地生成語言規(guī)則;以及 將該語言規(guī)則提供給實體提取器以使用所述語言規(guī)則從非結(jié)構(gòu)化數(shù)據(jù)的源獲得實體,所述實體包括字母數(shù)字串。
12.如權(quán)利要求11所述方法,包括提供選擇視圖,所述選擇視圖用于顯示實體類型。
13.如權(quán)利要求12所述的方法,包括經(jīng)由選擇視圖中的輸入?yún)^(qū)接收用戶提供的關(guān)鍵字,其中,所述實體類型的確定包括基于用戶提供的關(guān)鍵字生成定制實體類型。
14.如權(quán)利要求12所述方法,包括使用選擇視圖呈現(xiàn)用于選擇實體類型的選擇控制。
15.如權(quán)利要求14所述方法,其中,所述實體類型的確定包括訪問先前存儲的通用實體類型。
16.如權(quán)利要求14所述方法,包括使用選擇視圖呈現(xiàn)關(guān)于實體類型與非結(jié)構(gòu)化數(shù)據(jù)的源中的數(shù)據(jù)的相關(guān)度的信息。
17.如權(quán)利要求14所述方法,包括使用選擇視圖呈現(xiàn)關(guān)于實體類型在非結(jié)構(gòu)化數(shù)據(jù)的源中出現(xiàn)的頻率的信息。
18.如權(quán)利要求11所述的方法,包括提供報告視圖,所述報告視圖用于在顯示設(shè)備上繪制實體。
19.如權(quán)利要求11所述方法,其中,所述非結(jié)構(gòu)化數(shù)據(jù)的源是網(wǎng)頁。
20.一種機(jī)器可讀的非暫時性存儲介質(zhì),其具有導(dǎo)致機(jī)器執(zhí)行如下操作的指令數(shù)據(jù) 訪問非結(jié)構(gòu)化數(shù)據(jù)的源; 確定實體類型;以及 基于確定的實體類型自動地生成語言規(guī)則,所述語言規(guī)則適于從非結(jié)構(gòu)化數(shù)據(jù)的源獲得實體,所述實體包括字母數(shù)字串。
全文摘要
提供一種用于處理非結(jié)構(gòu)化數(shù)據(jù)的系統(tǒng)。一種用于處理非結(jié)構(gòu)化數(shù)據(jù)的示例系統(tǒng)包括接收器,用于訪問非結(jié)構(gòu)化數(shù)據(jù)的源;實體類型模塊,用于確定實體類型;規(guī)則生成器,用于基于確定的實體類型自動地生成語言規(guī)則;以及實體提取器,用于使用語言規(guī)則從非結(jié)構(gòu)化數(shù)據(jù)的源獲得實體。所述實體包括字母-數(shù)字串。
文檔編號G06F17/22GK102779114SQ20111012209
公開日2012年11月14日 申請日期2011年5月12日 優(yōu)先權(quán)日2011年5月12日
發(fā)明者劉靖, 熊務(wù)真, 鄭健豪 申請人:商業(yè)對象軟件有限公司