專利名稱:一種命名實體識別的方法及裝置的制作方法
技術(shù)領(lǐng)域:
本申請涉及人工智能領(lǐng)域,尤其涉及一種命名實體識別的方法及裝置。
背景技術(shù):
隨著計算機網(wǎng)絡(luò)規(guī)模的日益擴大,大量的信息以電子文檔的形式出現(xiàn)在人們面前,互聯(lián)網(wǎng)已成為海量信息的載體。人們迫切希望計算機能夠從海量信息中抽取出有用的信息,而信息抽取的主要任務(wù)之一就是命名實體識別(Named Entity Recognized, NER)。命名實體是指被命名的唯一確定的具有特定意義的最小信息單位——專有名稱和數(shù)量短語。主要包括有七種類型的命名實體:人名、地名、組織名、日期、時間、貨幣值和百分?jǐn)?shù)。命名實體識別的主要是任務(wù)是識別出文本中的命名實體并加以歸類。在這七種命名實體中,由于人名、地名和組織名等命名實體具有開放性和發(fā)展性的特點,并且形成規(guī)律具有很大的隨機性,所以對它們的識別會有較多的錯選或漏選,現(xiàn)在大多數(shù)命名實體識別的研究都集中在這三種命名實體的識別技術(shù)上?;跅l件隨機場(conditional random fields)的命名實體識別,是目前常用的一種命名實體識別方法。該方法將命名實體識別過程分為兩層,底層的條件隨機場模型僅以觀察值為條件,用于簡單命名實體的識別。然后,將識別的結(jié)果傳遞到高層識別模型,這樣高層模型的輸入變量不僅包含觀察值,還包含底層模型的簡單識別結(jié)果,從而為高層條件隨機場模型識別復(fù)雜命名實體打下基礎(chǔ)。然而在實現(xiàn)本申請實施例中技術(shù)方案的過程中,本申請人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在如下缺點:由于現(xiàn)有技術(shù)中,只是基于條件隨機場的兩層模型對命名實體進行識別,而沒有考慮到識別出的命名實體的正確與否,所以存在著識別不夠準(zhǔn)確的技術(shù)問題。
發(fā)明內(nèi)容
本發(fā)明提供一種命名實體識別的方法及裝置,用以解決現(xiàn)有技術(shù)中,由于只是基于條件隨機場的兩層模型對命名實體進行識別,而沒有考慮到識別出的命名實體的正確與否,所以存在著識別不夠準(zhǔn)確的技術(shù)問題。本發(fā)明通過本申請中的實施例,提供如下技術(shù)方案:一方面,本發(fā)明通過本申請中的一個實施例,提供如下技術(shù)方案:一種用于識別命名實體的識別模型生成方法,包括:獲得待訓(xùn)練文本的第一特征信息集;對待訓(xùn)練文本的第一特征信息集進行訓(xùn)練,獲得第一識別模型;基于所述第一識別模型對所述第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù);對所述第二特征信息集中進行訓(xùn)練,獲得錯誤驅(qū)動模型。
進一步的,所述獲得第一特征信息集,具體為:獲得待訓(xùn)練文本的第三特征信息集;對待訓(xùn)練文本的第三特征信息集進行訓(xùn)練,獲得第三識別模型;基于所述第三識別模型對所述第三特征信息集進行識別,獲得第一特征信息集,其中所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別獲得的N個命名實體,其中所述N為大于或等于零,但是小于等于M的整數(shù)。進一步的,所述獲得待訓(xùn)練文本的第三特征信息集,具體為:獲得所述待訓(xùn)練文本;將所述待訓(xùn)練文本劃分為至少一個待訓(xùn)練短句;獲得用于標(biāo)記所述至少一個待訓(xùn)練短句的標(biāo)記集合;基于所述標(biāo)記集合對所述至少一個待訓(xùn)練短句進行標(biāo)記,獲得第三特征信息集。進一步的,所述第三特征信息集具體包括:所述至少一個待訓(xùn)練短句中的詞邊界信息、上下文信息、詞性信息、字信息以及標(biāo)點符號信息。另一方面,本發(fā)明通過本申請中的另一實施例提供如下技術(shù)方案:一種命名實體識別的方法,包括如下步驟:獲得待訓(xùn)練文本的第一特征信息集;基于第一識別模型對待訓(xùn)練文本的第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù);基于錯誤驅(qū)動模型對所述第二特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體,所述K為大于或等于零、但小于等于M的整數(shù)。進一步的,所述獲得待訓(xùn)練文本的第一特征信息集,具體為:獲得待識別文本的第二特征信息集;基于第三識別模型對所述第三特征信息集進行識別,獲得第一特征信息集,所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別而獲得的N個命名實體,所述N為大于或等于零,但小于或等于M的整數(shù)。進一步的,所述基于所述錯誤驅(qū)動模型對所述第三特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體之后,還包括:獲取所述K個命名實體的種類信息、位置信息、詞性信息。進一步的,所述獲得待識別文本的第三特征信息集,具體為:獲得所述待識別文本;將所述待識別文本劃分為至少一個待識別短句;獲得用于標(biāo)記所述至少一個待識別短句的標(biāo)記集合;基于所述標(biāo)記集合對所述至少一個待識別短句進行標(biāo)記,獲得第三特征信息集。進一步的,所述第一特征信息集具體包括:所述至少一個待識別短句中的詞邊界信息、上下文信息、詞性信息、字信息以及標(biāo)點符號信息。另一方面,本發(fā)明通過本申請中的另一實施例提供如下技術(shù)方案:
一種用于識別命名實體的識別模型生成裝置,包括:第一特征信息集合獲得模塊:用戶獲得待訓(xùn)練文本的第一特征信息集;第一訓(xùn)練模塊獲得模塊:用于對待訓(xùn)練文本的第一特征信息集進行訓(xùn)練,獲得第一識別模型;第二特征信息集獲得模塊:基于所述第一識別模型對所述第一特征信息集進行識另IJ,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù);錯誤驅(qū)動模型獲得模塊:用于對所述第二特征信息集中進行訓(xùn)練,獲得錯誤驅(qū)動模型。進一步的,所述第一特征信息集獲得模塊,具體包括:第三特征信息集獲得單元:用于獲得待訓(xùn)練文本的第三特征信息集;第三識別模型獲得單元:用于對待訓(xùn)練文本的第三特征信息集進行訓(xùn)練,獲得第三識別模型;第一特征信息集獲得單元:用于基于所述第三識別模型對所述第三特征信息集進行識別,獲得第一特征信息集,其中所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別獲得的N個命名實體,其中所述N為大于或等于零,但是小于等于M的整數(shù)。進一步的,所述第三特征信息集獲得單元,具體包括:待訓(xùn)練文本獲得單元:用于獲得所述待訓(xùn)練文本;劃分單元:用于將所述待訓(xùn)練文本劃分為至少一個待訓(xùn)練短句;標(biāo)記集合獲得單元:用于獲得用于標(biāo)記所述至少一個待訓(xùn)練短句的標(biāo)記集合;標(biāo)記單元:用于基于所述標(biāo)記集合對所述至少一個待訓(xùn)練短句進行標(biāo)記,獲得第三特征信息集。另一方面,本發(fā)明通過本申請中的另一實施例提供如下技術(shù)方案:一種命名實體識別的裝置,包括:第一特征信息集獲得模塊:用于獲得待訓(xùn)練文本的第一特征信息集;第二特征信息集獲得模塊:用于基于第一識別模型對待訓(xùn)練文本的第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù);錯誤糾正模塊:用于基于錯誤驅(qū)動模型對所述第二特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體,所述K為大于或等于零、但小于等于M的整數(shù)。進一步的,所述第一特征信息集獲得模塊,主要包括:第三特征信息集獲得單元:用于獲得待識別文本的第三特征信息集;第一特征信息集獲得單元:用于基于第三識別模型對所述第三特征信息集進行識另IJ,獲得第一特征信息集,所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別而獲得的N個命名實體,所述N為大于或等于零,但小于或等于M的整數(shù)。進一步的,還包括:K個命名實體信息單元:用于基于所述錯誤驅(qū)動模型對所述第三特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體之后,獲取所述K個命名實體的種類信
息、位置信息、詞性信息。進一步的,所述第三特征信息集獲得單元,具體包括:待識別文本獲得單元:用于獲得所述待識別文本;劃分單元:用于將所述待識別文本劃分為至少一個待識別短句;標(biāo)記集合獲得單元:用于獲得用于標(biāo)記所述至少一個待識別短句的標(biāo)記集合;標(biāo)記單元:用于基于所述標(biāo)記集合對所述至少一個待識別短句進行標(biāo)記,獲得第三特征信息集。上述技術(shù)方案中的一個或多個技術(shù)方案,具有如下技術(shù)效果或優(yōu)點:由于采用了在基于條件隨機場模型識別命名實體的基礎(chǔ)上采用了錯誤驅(qū)動模型對條件隨機場模型識別出的命名實體進行錯誤糾正的技術(shù)方案,故而達到了提高命名實體識別準(zhǔn)確性、其中簡單命名實體的識別準(zhǔn)確率達到97.35、復(fù)雜命名實體識別準(zhǔn)確率達到87.6%的技術(shù)效果。
圖1為本申請實施例一中識別命名實體的識別模型生成方法的流程圖;圖2為本申請實施例一中獲得待訓(xùn)練文本的第一特征信息集的流程圖;圖3為本申請實施例一中獲得待訓(xùn)練文本的第三特征信息集的流程圖;圖4為本申請實施例一、二中待訓(xùn)練文本和待識別文本的第一特征信息集的標(biāo)準(zhǔn)模式;圖5為本申請實施例二中命名實體識別的方法的流程圖;圖6為本申請實施例二中獲得待識別文本的第一特征信息集的流程圖;圖7為本申請實施例二中獲得待識別文本的第一特征信息集的流程圖;圖8為本申請實施例三中識別命名實體的識別模型生成裝置的方框圖;圖9為本申請實施例四中命名實體識別的裝置的方框圖。
具體實施例方式為了使本申請所屬技術(shù)領(lǐng)域中的技術(shù)人員更清楚地理解本申請,下面結(jié)合附圖,通過具體實施例對本申請技術(shù)方案作詳細描述。請參考圖1至圖4,本申請實施例一提供一種用于識別命名實體的識別模型生成方法,包括如下步驟:SlOl:獲得待訓(xùn)練文本的第一特征信息集;進一步的,所述獲得第一特征信息集,如圖2所示,具體為:S201:獲得待訓(xùn)練文本的第三特征信息集;進一步的,所述獲得待訓(xùn)練文本的第三特征信息集,如圖3所示,具體為:S301:獲得所述待訓(xùn)練文本;S302:將所述待訓(xùn)練文本劃分為至少一個待訓(xùn)練短句;S303:獲得用于標(biāo)記所述至少一個待訓(xùn)練短句的標(biāo)記集合;S304:基于所述標(biāo)記集合對所述至少一個待訓(xùn)練短句進行標(biāo)記,獲得第三特征信息集。進一步的,所述第三特征信息集具體包括:所述至少一個待訓(xùn)練短句中的詞邊界信息、上下文信息、詞性信息、字信息以及標(biāo)點符號信息。在具體實施過程中,如圖4所示,假設(shè)待訓(xùn)練文本為“張三主持會議通過九屆全國人大一次會議有關(guān)議案本報北京”,那么先基于一定的規(guī)則,將這段待訓(xùn)練文本劃分成待訓(xùn)
練短句。空行404:表示各個待訓(xùn)練短句之間的分割線。然后可以獲得用戶標(biāo)記所述至少一個待訓(xùn)練短句的標(biāo)記集合,在本申請實施例一中,標(biāo)記集合為:C = {BR, IR, BT, IT, BS, IS, BZ, IZ}其中:BR標(biāo)記人名的第一個字;IR標(biāo)記人名的其余字;BT標(biāo)記機構(gòu)名的第一個字;IT標(biāo)記機構(gòu)名的其余字;BS標(biāo)記地名的第一個字;IS標(biāo)記機構(gòu)名的其余字;BZ標(biāo)記其他命名實體的第一個字;IZ標(biāo)記其他命名實體的其余字。但是在具體實施過程中,標(biāo)記集合不限于C = {BR, IR,BT, IT, BS, IS, BZ, IZ}的形式,只要本申請所屬領(lǐng)域的技術(shù)人員所設(shè)置的標(biāo)記所達到的技術(shù)效果與本申請達到的技術(shù)效果相同,都屬于本申請發(fā)明思想概念范圍內(nèi)。然后經(jīng)過標(biāo)記,待訓(xùn)練文本就被處理成如圖3所示的條件隨機場訓(xùn)練所需的第三特征信息集的模式。其中:401:指的是一個文字的特征信息;402:是文字的標(biāo)記集合;403:指的是多個文字的特征信息。在具體實施過程中,條件隨進場訓(xùn)練所需的第三特征信息集,不限于如圖4所示的模式,可能根據(jù)具體情況,增加一些參數(shù)或者減少一些參數(shù),但是只要本申請所屬領(lǐng)域的技術(shù)人員所選擇的第一特征信息集和本申請所達到的技術(shù)效果相同,都屬于本申請發(fā)明思想概念的范圍內(nèi)。S202:對待訓(xùn)練文本的第三特征信息集進行訓(xùn)練,獲得第三識別模型;在具體實施過程中,對待訓(xùn)練文本的第三特征信息集進行訓(xùn)練時,是基于一第三特征模板進行訓(xùn)練的。S203:基于所述第三識別模型對所述第三特征信息集進行識別,獲得第一特征信息集,其中所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別獲得的N個命名實體,其中所述N為大于或等于零,但是小于等于M的整數(shù)。S102:對待訓(xùn)練文本的第一特征信息集進行訓(xùn)練,獲得第一識別模型;在具體實施過程中,對待訓(xùn)練文本的第一特征信息集進行訓(xùn)練,是基于一第一特征模板進行訓(xùn)練的。S103:基于所述第一識別模型對所述第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù);S104:對所述第二特征信息集進行訓(xùn)練,獲得錯誤驅(qū)動模型。在具體實施過程中,對第二特征信息集進行訓(xùn)練,是基于一第二特征模板進行訓(xùn)練的。另外,獲得的錯誤驅(qū)動模型,主要是用于識別第二特征信息集中獲得的M個命名實體是否識別錯誤。在具體實施過程中,第一特征模板、第二特征模板以及第三特征模板,可以在多個特征模板中經(jīng)過多次優(yōu)化,選擇識別效果最好的特征模板。其具體優(yōu)化方式可以是:在基于第一特征模板對第一特征信息集進行識別獲得簡單識別模型后,對其進行識別,然后調(diào)整第一特征模板,再對第一特征信息集進行識別,然后再識別,以此選擇最優(yōu)的第一特征模板,第二特征模板、第三特征模板的選擇過程和第一特征模板的選擇過程類似;也可以是:先選擇第一特征模板、第二特征模板、第三特征模板,然后對第一特征信息集進行識別,獲得簡單識別模型、復(fù)雜識別模型和錯誤驅(qū)動模型,最后總體進行識別,以選擇最優(yōu)的特征模板。但是,在具體實施過程中,第一特征模板、第二特征模板、第三特征模板的選擇方式不限于上述方式,只要本申請所屬領(lǐng)域的技術(shù)人員所選擇的第一特征模板、第二特征模板、第三特征模板所達到的技術(shù)效果與本申請所達到的技術(shù)效果等同,都屬于本申請的發(fā)明思想概念范圍以內(nèi)。請參考圖5,本申請實施例二提供一種命名實體識別的方法,包括如下步驟:S501:獲得待識別文本的第一特征信息集;進一步的,所述獲得待識別文本的第一特征信息集,如圖6所示,具體為:S601:獲得待識別文本的第三特征信息集;進一步的,所述獲得待識別文本的第三特征信息集,如圖7所示,具體為:S701:獲得所述待識別文本;S702:將所述待識別文本劃分為至少一個待識別短句;S703:獲得用于標(biāo)記所述至少一個待識別短句的標(biāo)記集合;S704:基于所述標(biāo)記集合對所述至少一個待識別短句進行標(biāo)記,獲得第三特征信息集。進一步的,所述第一特征信息集具體包括:所述至少一個待識別短句中的詞邊界信息、上下文信息、詞性信息、字信息以及標(biāo)點符號信息。在具體實施過程中,獲得待識別文本的第三特征信息集和獲得待訓(xùn)練文本的第一特征信息集,其獲得過程差不多,以待識別文本為“張三主持會議通過九屆全國人大一次會議有關(guān)議案本報北京”為例,那么先將所述待識別文本處理成如圖4所示的第三特征信息集的形式。當(dāng)然,在具體實施過程中,生成待訓(xùn)練文本和待識別文本的第三特征信息集是兩個完全不同的過程,所以基于不同的條件因素,即是是相同的文本,所生成的待訓(xùn)練文本的第二特征息集和待識別文本的第二特征息集也未必相同。
S602:基于第三識別模型對所述第三特征信息集進行識別,獲得第一特征信息集,所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別而獲得的N個命名實體,所述N為大于或等于零,但小于或等于M的整數(shù)。S502:基于第一識別模型對待訓(xùn)練文本的第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù);在具體實施過程中,第二識別模型識別的命名實體中是所有命名實體中較為簡單、容易識別的部分。假設(shè)基于第二識別模型對前面的待識別文本進行識別,獲得的命名實體為“張三”“北京”。那么先將這兩個命名實體于第二特征信息集中進行標(biāo)記,其標(biāo)記方式和第一特征信息集的標(biāo)記方式相同,也是采用的標(biāo)記集合C對其進行標(biāo)記,當(dāng)然也可以采用其他第一識別模型能夠識別的標(biāo)記方式。S503:基于錯誤驅(qū)動模型對所述第二特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體,所述K為大于或等于零、但小于等于M的整數(shù)。由于,基于第一識別模型和第二識別模型識別出的命名實體中可能存在錯誤的命名實體,所以要基于錯誤驅(qū)動模型對其進行修正。例如,前面識別出三個命名實體“張三”“北京” “全國人”,經(jīng)過錯誤驅(qū)動模型判斷“全國人”識別錯誤,應(yīng)該是“全國人大”,所以對其進行修正。最后獲得三個命名實體為“張三” “北京” “全國人大”。進一步的,所述基于所述錯誤驅(qū)動模型對所述第三特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體之后,還包括:獲取所述K個命名實體的種類信息、位置信息、詞性信息。在具體實施過程中,由于識別出的命名實體未必能直接應(yīng)用,所以還要提取出命名實體的各種屬性信息,比如種類信息、位置信息和詞性信息,以滿足不同應(yīng)用場合的需求。當(dāng)然,在具體實施過程中,提取出的屬性信息不限于命名實體的種類信息、位置信息和詞性信息,只要本申請所屬領(lǐng)域的技術(shù)人員所提取出的屬性信息所達到的技術(shù)效果和本申請所達到的技術(shù)效果等同,都屬于本申請的發(fā)明思想概念范圍內(nèi)。請參考圖8,本申請實施例三提供一種用于識別命名實體的識別模型生成裝置,如圖8所示,包括:第一特征信息集合獲得模塊801:用戶獲得待訓(xùn)練文本的第一特征信息集;進一步的,所述第一特征信息集獲得模塊,具體包括:第三特征信息集獲得單元:用于獲得待訓(xùn)練文本的第三特征信息集;進一步的,所述第三特征信息集獲得單元,具體包括:待訓(xùn)練文本獲得單元:用于獲得所述待訓(xùn)練文本;劃分單元:用于將所述待訓(xùn)練文本劃分為至少一個待訓(xùn)練短句;標(biāo)記集合獲得單元:用于獲得用于標(biāo)記所述至少一個待訓(xùn)練短句的標(biāo)記集合;標(biāo)記單元:用于基于所述標(biāo)記集合對所述至少一個待訓(xùn)練短句進行標(biāo)記,獲得第三特征信息集。第三識別模型獲得單元:用于對待訓(xùn)練文本的第三特征信息集進行訓(xùn)練,獲得第三識別模型;第一特征信息集獲得單元:用于基于所述第三識別模型對所述第三特征信息集進行識別,獲得第一特征信息集,其中所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別獲得的N個命名實體,其中所述N為大于或等于零,但是小于等于M的整數(shù)。第一訓(xùn)練模塊獲得模塊802:用于對待訓(xùn)練文本的第一特征信息集進行訓(xùn)練,獲得第一識別模型;第二特征信息集獲得模塊803:基于所述第一識別模型對所述第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù);錯誤驅(qū)動模型獲得模塊804:用于對所述第二特征信息集中進行訓(xùn)練,獲得錯誤驅(qū)動模型。由于本申請實施三中的裝置為與實施本申請實施例一中的方法所對應(yīng)的裝置,所以基于本申請實施例一中的方法,本領(lǐng)域所屬技術(shù)人員能夠了解本申請實施三中的裝置的具體實施方法以及本申請實施三的裝置的各種變化形式。所以在此對于該裝置的運行不再詳細介紹,只要本領(lǐng)域所屬技術(shù)人員基于本申請實施例一中的方法所采用的裝置,都屬于本申請所欲保護的范圍。請參考圖9,本申請實施例四提供一種命名實體識別的裝置,包括如下結(jié)構(gòu):第一特征信息集獲得模塊901:用于獲得待訓(xùn)練文本的第一特征信息集;進一步的所述第一特征信息集獲得模塊901,主要包括:第三特征信息集獲得單元:用于獲得待識別文本的第三特征信息集;進一步的所述第三特征信息集獲得單元,具體包括:待識別文本獲得單元:用于獲得所述待識別文本;劃分單元:用于將所述待識別文本劃分為至少一個待識別短句;標(biāo)記集合獲得單元:用于獲得用于標(biāo)記所述至少一個待識別短句的標(biāo)記集合;標(biāo)記單元:用于基于所述標(biāo)記集合對所述至少一個待識別短句進行標(biāo)記,獲得第三特征信息集。第一特征信息集獲得單元:用于基于第三識別模型對所述第三特征信息集進行識另IJ,獲得第一特征信息集,所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別而獲得的N個命名實體,所述N為大于或等于零,但小于或等于M的整數(shù)。第二特征信息集獲得模塊902:用于基于第一識別模型對待訓(xùn)練文本的第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù);
錯誤糾正模塊903:用于基于錯誤驅(qū)動模型對所述第二特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體,所述K為大于或等于零、但小于等于M的整數(shù)。進一步的,所述裝置還包括:K個命名實體信息單元:用于基于所述錯誤驅(qū)動模型對所述第三特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體之后,獲取所述K個命名實體的種類信息、位置信息、詞性信息。由于本申請實施四中的裝置為與實施本申請實施例二中的方法所對應(yīng)的裝置,所以基于本申請實施例二中的方法,本領(lǐng)域所屬技術(shù)人員能夠了解本申請實施四中的裝置的具體實施方法以及本申請實施四的裝置的各種變化形式。所以在此對于該裝置的運行不再詳細介紹,只要本領(lǐng)域所屬技術(shù)人員基于本申請實施例二中的方法所采用的裝置,都屬于本申請所欲保護的范圍。上述技術(shù)方案中的一個或多個技術(shù)方案,具有如下技術(shù)效果或優(yōu)點:由于采用了在基于條件隨機場模型識別命名實體的基礎(chǔ)上采用了錯誤驅(qū)動模型對條件隨機場模型識別出的命名實體進行錯誤糾正的技術(shù)方案,故而達到了提高命名實體識別準(zhǔn)確性的技術(shù)效果。盡管已描述了本申請的優(yōu)選實施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對這些實施例作出另外的變更和修改。所以,所附權(quán)利要求意欲解釋為包括優(yōu)選實施例以及落入本申請范圍的所有變更和修改。顯然,本領(lǐng)域的技術(shù)人員可以對本申請進行各種改動和變型而不脫離本申請的精神和范圍。這樣,倘若本申請的這些修改和變型屬于本申請權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本申請也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
1.一種用于識別命名實體的識別模型生成方法,其特征在于,包括: 獲得待訓(xùn)練文本的第一特征信息集; 對待訓(xùn)練文本的第一特征信息集進行訓(xùn)練,獲得第一識別模型; 基于所述第一識別模型對所述第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù); 對所述第二特征信息集中進行訓(xùn)練,獲得錯誤驅(qū)動模型。
2.如權(quán)利要求1所述的方法,其特征在于,所述獲得第一特征信息集,具體為: 獲得待訓(xùn)練文本的第三特征信息集; 對待訓(xùn)練文本的第三特征信息集進行訓(xùn)練,獲得第三識別模型; 基于所述第三識別模型對所述第三特征信息集進行識別,獲得第一特征信息集,其中所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別獲得的N個命名實體,其中所述N為大于或等于零,但是小于等于M的整數(shù)。
3.如權(quán)利要求2所述的方法,其特征在于,所述獲得待訓(xùn)練文本的第三特征信息集,具體為: 獲得所述待訓(xùn)練文本; 將所述待訓(xùn)練文本劃分為至少一個待訓(xùn)練短句; 獲得用于標(biāo)記所述 至少一個待訓(xùn)練短句的標(biāo)記集合; 基于所述標(biāo)記集合對所述至少一個待訓(xùn)練短句進行標(biāo)記,獲得第三特征信息集。
4.如權(quán)利要求2或3所述的方法,其特征在于,所述第三特征信息集具體包括: 所述至少一個待訓(xùn)練短句中的詞邊界信息、上下文信息、詞性信息、字信息以及標(biāo)點符號信息。
5.一種命名實體識別的方法,其特征在于,包括: 獲得待訓(xùn)練文本的第一特征信息集; 基于第一識別模型對待訓(xùn)練文本的第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù); 基于錯誤驅(qū)動模型對所述第二特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體,所述K為大于或等于零、但小于等于M的整數(shù)。
6.如權(quán)利要求5所述的方法,其特征在于,所述獲得待訓(xùn)練文本的第一特征信息集,具體為: 獲得待識別文本的第三特征信息集; 基于第三識別模型對所述第三特征信息集進行識別,獲得第一特征信息集,所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別而獲得的N個命名實體,所述N為大于或等于零,但小于或等于M的整數(shù)。
7.如權(quán)利要求5所述的方法,其特征在于,所述基于所述錯誤驅(qū)動模型對所述第三特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體之后,還包括: 獲取所述K個命名實體的種類信息、位置信息、詞性信息。
8.如權(quán)利要求6所述的方法,其特征在于,所述獲得待識別文本的第三特征信息集,具體為: 獲得所述待識別文本; 將所述待識別文本劃分為至少一個待識別短句; 獲得用于標(biāo)記所述至少一個待識別短句的標(biāo)記集合; 基于所述標(biāo)記集合對所述至少一個待識別短句進行標(biāo)記,獲得第三特征信息集。
9.如權(quán)利要求7或8所述的方法,其特征在于,所述第一特征信息集具體包括: 所述至少一個待識別短句中的詞邊界信息、上下文信息、詞性信息、字信息以及標(biāo)點符號信息。
10.一種用于識別命名實體的識別模型生成裝置,其特征在于,包括: 第一特征信息集合獲得模塊:用戶獲得待訓(xùn)練文本的第一特征信息集; 第一訓(xùn)練模塊獲得模塊:用于對待訓(xùn)練文本的第一特征信息集進行訓(xùn)練,獲得第一識別豐旲型; 第二特征信息集獲得模塊:基于所述第一識別模型對所述第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù); 錯誤驅(qū)動模型獲得模塊:用于對所述第二特征信息集中進行訓(xùn)練,獲得錯誤驅(qū)動模型。
11.如權(quán)利要求10所 述的裝置,其特征在于,所述第一特征信息集獲得模塊,具體包括: 第三特征信息集獲得單元:用于獲得待訓(xùn)練文本的第三特征信息集; 第三識別模型獲得單元:用于對待訓(xùn)練文本的第三特征信息集進行訓(xùn)練,獲得第三識別豐旲型; 第一特征信息集獲得單元:用于基于所述第三識別模型對所述第三特征信息集進行識另IJ,獲得第一特征信息集,其中所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別獲得的N個命名實體,其中所述N為大于或等于零,但是小于等于M的整數(shù)。
12.如權(quán)利要求11所述的裝置,其特征在于,所述第三特征信息集獲得單元,具體包括: 待訓(xùn)練文本獲得單元:用于獲得所述待訓(xùn)練文本; 劃分單元:用于將所述待訓(xùn)練文本劃分為至少一個待訓(xùn)練短句; 標(biāo)記集合獲得單元:用于獲得用于標(biāo)記所述至少一個待訓(xùn)練短句的標(biāo)記集合; 標(biāo)記單元:用于基于所述標(biāo)記集合對所述至少一個待訓(xùn)練短句進行標(biāo)記,獲得第三特征信息集。
13.—種命名實體識別的裝置,其特征在于,包括: 第一特征信息集獲得模塊:用于獲得待訓(xùn)練文本的第一特征信息集; 第二特征信息集獲得模塊:用于基于第一識別模型對待訓(xùn)練文本的第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù); 錯誤糾正模塊:用于基于錯誤驅(qū)動模型對所述第二特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體,所述K為大于或等于零、但小于等于M的整數(shù)。
14.如權(quán)利要求13所述的裝置,其特征在于,所述第一特征信息集獲得模塊,主要包括: 第三特征信息集獲得單元:用于獲得待識別文本的第三特征信息集; 第一特征信息集獲得單元:用于基于第三識別模型對所述第三特征信息集進行識別,獲得第一特征信息集,所述第一特征信息集包含通過所述第三識別模型對所述第三特征信息集進行識別而獲得的N個命名實體,所述N為大于或等于零,但小于或等于M的整數(shù)。
15.如權(quán)利要求13所述的裝置,其特征在于,還包括: K個命名實體信息單元:用于基于所述錯誤驅(qū)動模型對所述第三特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體之后,獲取所述K個命名實體的種類信息、位置信息、詞性信息。
16.如權(quán)利要求14所述的裝置,其特征在于,所述第三特征信息集獲得單元,具體包括: 待識別文本獲得單元:用于獲得所述待識別文本; 劃分單元:用于將所述待識別文本劃分為至少一個待識別短句; 標(biāo)記集合獲得單元:用于獲得用于標(biāo)記所述至少一個待識別短句的標(biāo)記集合; 標(biāo)記單元:用于基于所述標(biāo)記集合對所述至少一個待識別短句進行標(biāo)記,獲得第三特征信息集。
全文摘要
本申請公開了一種用于識別命名實體的識別模型生成方法及裝置、以及一種命名實體識別的方法及裝置,所述命名實體識別方法包括獲得待訓(xùn)練文本的第一特征信息集;基于第一識別模型對待訓(xùn)練文本的第一特征信息集進行識別,獲得第二特征信息集,所述第二特征信息集包含通過所述第一識別模型對所述第一特征信息集進行識別而獲得的M個命名實體,所述M為大于或等于零的整數(shù);基于錯誤驅(qū)動模型對所述第二特征信息集中的所述M個命名實體進行錯誤糾正,獲得K個命名實體,所述K為大于或等于零、但小于等于M的整數(shù)。
文檔編號G06F17/30GK103164426SQ20111041446
公開日2013年6月19日 申請日期2011年12月13日 優(yōu)先權(quán)日2011年12月13日
發(fā)明者劉志超, 于曉明, 楊建武 申請人:北大方正集團有限公司, 北京大學(xué), 北京北大方正電子有限公司