亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

實體名的識別方法和裝置制造方法

文檔序號:6548060閱讀:299來源:國知局
實體名的識別方法和裝置制造方法
【專利摘要】本發(fā)明提出一種實體名的識別方法和裝置,其中,該實體名的識別方法,包括:獲取待識別文本以及待識別文本的來源信息;根據(jù)待識別文本的來源信息和識別模型獲取待識別文本中的第一實體名;根據(jù)預(yù)先建立的詞根表和預(yù)設(shè)約束規(guī)則從待識別文本中非第一實體名的內(nèi)容中獲取第二實體名。本發(fā)明的實體名的識別方法,提升了實體名識別的準確率和召回率,可適用于各種語言類型,通用性較強。此外,對于創(chuàng)意文本中的實體名的有效識別,極大的滿足創(chuàng)意中個性化需求。
【專利說明】實體名的識別方法和裝置
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)信息處理【技術(shù)領(lǐng)域】,特別涉及一種實體名的識別方法和裝置。
【背景技術(shù)】
[0002]隨著計算機的廣泛使用和互聯(lián)網(wǎng)的快速發(fā)展,互聯(lián)網(wǎng)資源逐漸豐富,信息量急劇增大。為了使用戶能夠在海量的信息源中迅速找到真正需要的信息,需要對信息文檔進行處理,以自動識別其中的實體名,以便于用戶根據(jù)實體名查找需要的信息。目前,對實體名的自動識別是一項技術(shù)難題。實體名的類型不同,其識別難度和識別方法也各不相同。實體名的識別主要有統(tǒng)計學(xué)習(xí)的方法和基于規(guī)則的識別方法兩種方式。其中:
[0003]統(tǒng)計學(xué)習(xí)的方法包括訓(xùn)練階段和識別階段,在訓(xùn)練階段,在標注語料的基礎(chǔ)上,通過抽取相關(guān)特征并選擇合適的機器學(xué)習(xí)策略來訓(xùn)練專名識別的模型;在識別階段,使用訓(xùn)練階段得到的模型來自動識別新語料中的專名。但是,在訓(xùn)練階段,需要人工標注、校對訓(xùn)練語料,非常耗時耗力,并且實體名不斷變化,不時會有一些新的實體名出現(xiàn),因此訓(xùn)練語料也需要經(jīng)常更新,這十分耗費人力資源,費時費力,且準確率不高。
[0004]基于規(guī)則的識別方法的思想是將人類用于識別實體名的語言學(xué)知識編寫成若干條規(guī)則,讓機器按照這些規(guī)則對文本中的實體名進行自動識別。這些規(guī)則一般都依賴于具體語言類型,如漢語、英語等。但是用于識別實體名的這些規(guī)則過于繁瑣復(fù)雜,且知識編碼的工作目前也沒有統(tǒng)一的指導(dǎo)性方法,因此,基于規(guī)則的方法,需要針對不同的語言分別編寫識別規(guī)則,工作量大,且通用性較差。
[0005]因此,目前,實體名的識別方法普遍應(yīng)用性較差,且準備工作量大,難以同時實現(xiàn)高準確率且低人力資源耗費。

【發(fā)明內(nèi)容】

[0006]本發(fā)明旨在至少在一定程度上解決上述技術(shù)問題。
[0007]為此,本發(fā)明的第一個目的在于提出一種實體名的識別方法,該方法能夠提升實體名識別的準確率以及通用性。
[0008]本發(fā)明的第二個目的在于提出一種實體名的識別裝置。
[0009]為達上述目的,根據(jù)本發(fā)明第一方面實施例提出了一種實體名的識別方法,包括:獲取待識別文本以及所述待識別文本的來源信息;根據(jù)所述待識別文本的來源信息和識別模型獲取所述待識別文本中的第一實體名;根據(jù)預(yù)先建立的詞根表和預(yù)設(shè)約束規(guī)則從所述待識別文本中非第一實體名的內(nèi)容中獲取第二實體名。
[0010]本發(fā)明實施例的實體名的識別方法,根據(jù)待識別文本的來源信息和識別模型獲取待識別文本中的第一實體名,并根據(jù)詞根表和預(yù)設(shè)規(guī)則獲取待識別文本中的第二實體名,充分結(jié)合了統(tǒng)計學(xué)習(xí)方法和基于規(guī)則的識別方法二者的優(yōu)勢,提升了實體名識別的準確率和召回率,可適用于各種語言類型,通用性較強。此外,對于創(chuàng)意文本中的實體名的有效識另IJ,極大的滿足創(chuàng)意中個性化需求,且滿足了法務(wù)風(fēng)險詞匯的識別需求。[0011]本發(fā)明第二方面實施例提供了一種實體名的識別裝置,包括:獲取模塊,用于獲取待識別文本以及所述待識別文本的來源信息;第一識別模塊,用于根據(jù)所述待識別文本的來源信息和識別模型獲取所述待識別文本中的第一實體名;第二識別模塊,用于根據(jù)預(yù)先建立的詞根表和預(yù)設(shè)約束規(guī)則從所述待識別文本中非第一實體名的內(nèi)容中獲取第二實體名。
[0012]本發(fā)明實施例的實體名的識別裝置,根據(jù)待識別文本的來源信息和識別模型獲取待識別文本中的第一實體名,并根據(jù)詞根表和預(yù)設(shè)規(guī)則獲取待識別文本中的第二實體名,充分結(jié)合了統(tǒng)計學(xué)習(xí)方法和基于規(guī)則的識別方法二者的優(yōu)勢,提升了實體名識別的準確率和召回率,可適用于各種語言類型,通用性較強。此外,對于創(chuàng)意文本中的實體名的有效識另O,極大的滿足創(chuàng)意中個性化需求,且滿足了法務(wù)風(fēng)險詞匯的識別需求。
[0013]本發(fā)明的附加方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【專利附圖】

【附圖說明】
[0014]本發(fā)明的上述和/或附加的方面和優(yōu)點從結(jié)合下面附圖對實施例的描述中將變得明顯和容易理解,其中:
[0015]圖1為根據(jù)本發(fā)明一個實施例的實體名的識別方法的流程圖;
[0016]圖2為根據(jù)本發(fā)明一個實施例的根據(jù)待識別文本的來源信息和識別模型獲取待識別文本中的第一實體名的方法的流程圖;
[0017]圖3為根據(jù)本發(fā)明一個實施例的根據(jù)預(yù)先建立的詞根表和預(yù)設(shè)約束規(guī)則從待識別文本中非第一實體名的內(nèi)容中獲取第二實體名的流程圖;
[0018]圖4為根據(jù)本發(fā)明一個實施例的建立詞根表和詞綴表的方法的流程圖;
[0019]圖5為根據(jù)本發(fā)明一個實施例的建立詞根識別模型的方法的流程圖;
[0020]圖6為根據(jù)本發(fā)明一個實施例的建立實體識別模型的方法的流程圖;
[0021]圖7為根據(jù)本發(fā)明一個實施例的實體名的識別裝置的結(jié)構(gòu)示意圖;
[0022]圖8為根據(jù)本發(fā)明另一個實施例的實體名的識別裝置的結(jié)構(gòu)示意圖。
【具體實施方式】
[0023]下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。
[0024]在本發(fā)明的描述中,需要理解的是,術(shù)語“多個”指兩個或兩個以上;術(shù)語“第一”、“第二”僅用于描述目的,而不能理解為指示或暗示相對重要性。
[0025]下面參考附圖描述根據(jù)本發(fā)明實施例的實體名的識別方法和裝置。
[0026]為了能夠減少識別實體名的人力資源的耗費,且提高識別準確率,本發(fā)明提出了一種實體名的識別方法,包括:獲取待識別文本以及待識別文本的來源信息;根據(jù)待識別文本的來源信息獲取待識別文本中的第一實體名;根據(jù)預(yù)先建立的詞根表和預(yù)設(shè)約束規(guī)則從待識別文本中非第一實體名的內(nèi)容中獲取第二實體名。
[0027]在本發(fā)明的實施例中,實體名為現(xiàn)實世界中任何可區(qū)分、可識別的事物的名稱。舉例來說,例如,機構(gòu)名、品牌名、地名、人名等。
[0028]圖1為根據(jù)本發(fā)明一個實施例的實體名的識別方法的流程圖。如圖1所示,根據(jù)本發(fā)明實施例的實體名的識別方法,包括:
[0029]S101,獲取待識別文本以及待識別文本的來源信息。
[0030]在本發(fā)明的一個實施例中,待識別文本的來源信息為發(fā)布待識別文本的公司名稱、網(wǎng)站名稱等。如“深圳市連訊達電子技術(shù)開發(fā)有限公司”。
[0031]在本發(fā)明的實施例中,待識別文本為自然語言文本。待識別文本的來源信息可為用戶在提供待識別文本時同時提供,也可根據(jù)待識別文本發(fā)布時的發(fā)布信息獲取,如發(fā)布者的賬戶信息等。因為發(fā)布者的賬戶信息中大多會包括發(fā)布者獲取發(fā)布者的賬戶所在或者所代表的機構(gòu)。
[0032]S102,根據(jù)待識別文本的來源信息和識別模型獲取待識別文本中的第一實體名。
[0033]在本發(fā)明的實施例中,第一實體名為與待識別文本的來源信息相關(guān)的實體名。舉例來說,在本發(fā)明的一個實施例中,第一實體名可為機構(gòu)名。例如,如果待識別文本的來源信息為“深圳市連訊達電子技術(shù)開發(fā)有限公司”,則第一實體名可為“連訊達電子技術(shù)開發(fā)有限公司”。
[0034]具體地,在本發(fā)明的一個實施例中,可通過圖2所示的步驟獲取待識別文本中的第一實體名。如圖2所示,根據(jù)待識別文本的來源信息和識別模型獲取待識別文本中的第一實體名的方法,包括:
[0035]S201,根據(jù)詞根識別模型對待識別文本的來源信息進行識別,以獲取待識別文本的來源信息中的詞根。
[0036]在本發(fā)明的實施例中,詞根識別模型為預(yù)先建立的。更具體地,可在對待識別文本進行識別之前訓(xùn)練詞根識別模型,也可從其他存儲裝置拷貝或下載已訓(xùn)練好的詞根識別模型。詞根識別模型是根據(jù)詞根表進行訓(xùn)練得到的,可識別待識別文本的來源信息中的詞根的識別模型。舉例來說,對于來源信息“深圳市連訊達電子技術(shù)開發(fā)有限公司”,通過詞根識別模型可識別出其中的詞根“連迅達”。
[0037]S202,根據(jù)詞根和預(yù)先建立的詞綴表獲取待識別文本中的第一實體名。
[0038]在本發(fā)明的實施例中,詞綴表為包括多個第一實體名的后綴的存儲表。舉例來說,詞綴表中可包括“有限公司”、“機電配件廠”、“有限責(zé)任公司”等實體名的后綴。
[0039]在本發(fā)明的一個實施例中,第一實體名可為帶后綴的實體名,如“連迅達有限公司”,也可為不帶后綴的實體名,如“連迅達”。因此,可首先在待識別文本中查找該詞根,如果存在,則該詞根即為待識別文本中的一個第一實體名。然后,可根據(jù)詞根和詞綴表在待識別文本中查找詞根與詞綴表中任意詞綴相結(jié)合組成的字符串,即為第一實體名。
[0040]在本發(fā)明的另一個實施例中,由于很多實體可能存在別名,因此,根據(jù)來源信息的詞根可能無法覆蓋待識別文本中的實體名例如,“凡客”也可被寫為“VANCL”。為了能夠全面識別待識別文本中實體名,根據(jù)待識別文本的來源信息獲取待識別文本中的第一實體名的方法除了包括步驟S201 - S202之外,還可包括:
[0041]S203,根據(jù)實體識別模型對待識別文本進行識別,以獲取待識別文本中的第一實體名。
[0042]在本發(fā)明的實施例中,實體識別模型為預(yù)先建立的。更具體地,可在對待識別文本進行識別之前訓(xùn)練實體識別模型,也可從其他存儲裝置拷貝或下載已訓(xùn)練好的實體識別模型。實體識別模型是根據(jù)詞根表和詞綴表訓(xùn)練得到的,可識別待識別文本中的實體的識別模型。舉例來說,對于待識別文本中的“VANCL誠品”,通過實體識別模型即可被識別為第一實體名。
[0043]S103,根據(jù)預(yù)先建立的詞根表和預(yù)設(shè)約束規(guī)則從待識別文本中非第一實體名的內(nèi)容中獲取第二實體名。
[0044] 在本發(fā)明的實施例中,第二實體名為與第一實體名的代理、產(chǎn)品、經(jīng)營相關(guān)的實體名。舉例來說,如果第一實體名為機構(gòu)名,則第二實體名可為品牌名。例如,具體地,可通過圖3所示的方法識別待識別文本中的第二實體名,如圖3所示,根據(jù)預(yù)先建立的詞根表和預(yù)設(shè)約束規(guī)則從待識別文本中非第一實體名的內(nèi)容中獲取第二實體名,包括:
[0045]S301,根據(jù)預(yù)先建立的詞根表查找待識別文本中非第一實體名的內(nèi)容所包含的詞根。
[0046]S302,根據(jù)預(yù)設(shè)約束規(guī)則對待識別文本中非第一實體名的內(nèi)容所包含的詞根進行篩選,以獲取待識別文本中非第一實體名的內(nèi)容中獲取第二實體名。
[0047]在本發(fā)明的一個實施例中,詞根表中的詞根,可分為強約束的詞根和弱約束的詞根。其中,強約束的詞根是指在任意情況下都可作為實體名的詞根,而弱約束的詞根是指在滿足一定的上下文約束條件時才可作為實體名的詞根。舉例來說,“凡客”即為強約束的詞根,“七天”僅在與“酒店”或“假日酒店”等詞綴結(jié)合時,才可作為實體名。其他情況下“七天”僅為數(shù)量詞。因此,需要針對弱約束的詞根建立預(yù)設(shè)約束規(guī)則,預(yù)設(shè)約束規(guī)則是用于對弱約束的詞根進行條件限定以使弱約束的詞根在該預(yù)設(shè)約束規(guī)則下可作為實體名。由于弱約束的詞根類型各不相同,因此,預(yù)設(shè)約束規(guī)則也是根據(jù)不同的弱約束的詞根相匹配的,本發(fā)明對預(yù)設(shè)約束規(guī)則的具體形式不進行限定。
[0048]本發(fā)明實施例的實體名的識別方法,根據(jù)待識別文本的來源信息和識別模型獲取待識別文本中的第一實體名,并根據(jù)詞根表和預(yù)設(shè)規(guī)則獲取待識別文本中的第二實體名,充分結(jié)合了統(tǒng)計學(xué)習(xí)方法和基于規(guī)則的識別方法二者的優(yōu)勢,提升了實體名識別的準確率和召回率,可適用于各種語言類型,通用性較強。此外,對于創(chuàng)意文本中的實體名的有效識另IJ,極大的滿足創(chuàng)意中個性化需求,且滿足了法務(wù)風(fēng)險詞匯的識別需求。
[0049]在本發(fā)明的一個實施例中,在識別出實體名后,根據(jù)識別出的實體名的類型打上相應(yīng)的標簽。舉例來說,機構(gòu)名的標簽為〈0RGX/0RG〉,品牌名的標簽為〈BRDX/BRD〉。例如,如果“深圳市連訊達電子技術(shù)開發(fā)有限公司”為一個公司名,則可其發(fā)布的創(chuàng)意中的實體名的標簽如下:
[0050]創(chuàng)意:….<BRD>耐克森</BRD>網(wǎng)線一首選深圳<0RG>連訊達</0RG>...[0051]其中,“聯(lián)訊達”為機構(gòu)名;而“耐克森”是其經(jīng)營的產(chǎn)品名,應(yīng)該被識別為品牌名。
[0052]圖4為根據(jù)本發(fā)明一個實施例的建立詞根表和詞綴表的方法的流程圖。具體地,如圖4所示,建立詞根表和詞綴表的方法,包括:
[0053]S401,收集多個注冊實體名。
[0054]在本發(fā)明的實施例中,注冊實體名是指已確定的實體名。如,已注冊的公司名、產(chǎn)品名、注冊品牌等。
[0055]S402,分別對多個注冊實體名進行分詞,以獲取多個分詞。[0056]其中,對注冊實體名進行分詞可使用相關(guān)技術(shù)中或未來可能出現(xiàn)的任意分詞方法,本發(fā)明對所使用的分詞方法不進行限定。
[0057]S403,獲取多個分詞的屬性特征。
[0058]在本發(fā)明的實施例中,分詞的屬性特征包括分詞的詞性、長度、在全部注冊實體名中出現(xiàn)的頻率、分詞在注冊實體名中的位置等特征。
[0059]S404,根據(jù)屬性特征從多個分詞中篩選出詞根表中的多個詞根以及詞綴表中的多個詞綴,以建立詞根表和詞綴表。
[0060]在本發(fā)明的實施例中,詞根具有出現(xiàn)頻度不高、常在地域詞和產(chǎn)品詞之間等屬性特征,而詞綴具有頻度高、常在公司名尾部等屬性特征。因此,可分別通過詞根和詞綴具有的屬性特征從多個分詞中篩選出多個詞根和多個詞綴。
[0061]舉例來說,可通過以下規(guī)則從多個分詞中篩選出多個詞根:
[0062]A、構(gòu)成詞語的詞不能被其他詞分隔;
[0063]B、詞語不是地域詞;
[0064]C、詞語的頻度*位置必須滿足一定閾值限制;
[0065]D、詞語的總長度必須小于一定長度閾值。
[0066]可通過以下規(guī)則從多個分詞中篩選出多個詞綴:
[0067]a、詞語在公司名的尾部(或在遞歸結(jié)構(gòu)的尾部);
[0068]b、詞語的出現(xiàn)頻率必須大于一定頻率閾值;
[0069]c、構(gòu)成詞語的詞必須滿足一定詞性限制。
[0070]應(yīng)當理解,上述規(guī)則僅為示例性的,在本發(fā)明的其他實施例中,本領(lǐng)域技術(shù)人員也可根據(jù)上述描述中未列舉出的其他詞根和詞綴的屬性特征設(shè)定詞根和詞綴的篩選規(guī)則。
[0071]在本發(fā)明的一個實施例中,由于實體名的種類多樣,因此,詞根表的數(shù)據(jù)量非常龐大,為了在使用詞根表時提高查詢速度,對詞根表建立壓縮索引,舉例來說,對于具有相同前綴的詞根,可根據(jù)他們相同的前綴建立一個共同的索引,從而可提高查詢效率。此外,如前述實施例的,詞根分為強約束的詞根和弱約束的詞根,因此,詞根表可分別強詞根表和弱詞根表。
[0072]圖5為根據(jù)本發(fā)明一個實施例的建立詞根識別模型的方法的流程圖。具體地,如圖5所示,建立詞根識別模型的方法,包括:
[0073]S501,獲取第一訓(xùn)練語料。
[0074]在本發(fā)明的實施例中,第一訓(xùn)練語料是用于訓(xùn)練詞根識別模型的語料。具體地,可在已確定的實體命中抽取少量的實體名,舉例來說,可抽取1000個實體名,然后經(jīng)過對抽取的1000個實體名進行人工校對得到第一訓(xùn)練語料,即可使訓(xùn)練出的識別模型的識別準確率達到95%以上。由于獲取第一訓(xùn)練語料所需要的實體名很少,人工校對的工作量也非常小,僅需幾分鐘就可以完成,大大節(jié)省人力和時間,且準確率較高。
[0075]S502,根據(jù)第一訓(xùn)練語料的詞語特征構(gòu)建第一特征模板。
[0076]在本發(fā)明的實施例中,對于第一訓(xùn)練語料中的實體名中的每個詞,抽取詞本身及其詞性兩類特征,然后,將第一訓(xùn)練語料中不同詞的兩類特征進行組合,得到具有第一預(yù)設(shè)數(shù)量的特征項的第一特征模板。
[0077]S503,根據(jù)第一特征模板和條件隨機場模型訓(xùn)練詞根識別模型。[0078]其中,條件隨機場模型是一種判定性模型,可通過定義標記序列和觀察序列的條件概率來預(yù)測最可能的標記序列。因此,在本發(fā)明的實施例中,可利用條件隨機場模型,根據(jù)構(gòu)建的符合詞根的特征的第一特征模板得到詞根識別模型。
[0079]圖6為根據(jù)本發(fā)明一個實施例的建立實體識別模型的方法的流程圖。具體地,如圖6所示,建立實體識別模型的方法,包括:
[0080]S601,根據(jù)詞根表和詞綴表獲取第二訓(xùn)練語料。
[0081]在本發(fā)明的實施例中,第二訓(xùn)練語料可利用詞根表和詞綴表自動構(gòu)造而成,具體地,首先對大量創(chuàng)意片段進行分詞和詞性識別之后,使用詞根和詞綴表進行正則匹配,然后將滿足格式要求(如:無停用詞、無間隔、長度在閾值內(nèi)等)的詞根+詞綴的最長匹配串作為一個帶后綴的機構(gòu)名。其中,匹配結(jié)束后得到的結(jié)果中,可以分為如下四種情況:
[0082]1、包含“詞根+詞綴”的創(chuàng)意片段;如:北京曙光(詞根)男科醫(yī)院(詞綴)擁有在線資深專家。
[0083]2、僅包含“詞根”的創(chuàng)意片段,如:北京軍都(詞根)采用新技術(shù)五腔離子肽療法治療。
[0084]3、僅包含“詞綴”的創(chuàng)意片段,如:治療前列腺炎哪家醫(yī)院(詞綴)好?
[0085]4、詞根和詞綴都不包含的創(chuàng)意片段,如:不打針.不口服.不開刀.無痛苦。
[0086]上述四種情況中,前兩種包含了實體,這被稱作“正例”;而后兩種不包含實體,被稱作“反例”。因為一個創(chuàng)意包含的創(chuàng)意片段即可能有實體,有可能沒有實體,因此用于訓(xùn)練實體識別模型的第二訓(xùn)練語料中應(yīng)該即包括正例也包括反例,否則訓(xùn)練出的模型會有偏差。其中,正反例個數(shù)需滿足一定比例,在本發(fā)明的一個實施例中,根據(jù)創(chuàng)意中包含實體和未包含實體的創(chuàng)意片段的分布,可設(shè)定第二訓(xùn)練語料中正例與反例的個數(shù)比為1:3。
[0087]S602,根據(jù)第二訓(xùn)練語料的詞語特征構(gòu)建第二特征模板。
[0088]在本發(fā)明的實施例中,對于第二訓(xùn)練語料中的每個詞,抽取詞本身及其詞性、位置、長度四類特征,然后,將第二訓(xùn)練語料中不同詞的四類特征進行組合,得到具有第二預(yù)設(shè)數(shù)量的特征項的第二特征模板。
[0089]S603,根據(jù)第二特征模板和條件隨機場模型訓(xùn)練實體識別模型。
[0090]其中,條件隨機場模型是一種判定性模型,可通過定義標記序列和觀察序列的條件概率來預(yù)測最可能的標記序列。因此,在本發(fā)明的實施例中,可利用條件隨機場模型,根據(jù)構(gòu)建的符合實體名的特征的第二特征模板得到實體識別模型。
[0091]由圖4、圖5、圖6所示的實施例可知,在本發(fā)明實施例的實體名的識別方法中,語料的訓(xùn)練、識別模型的訓(xùn)練、詞根表以及詞綴表的建立幾乎可自動執(zhí)行,雖然,在獲取用于訓(xùn)練詞根識別模型的第一訓(xùn)練語料時,需要人工校對,但是所需人力和時間非常少,對人工的依賴性極低,從而大大地減少了人力、物力資源的消耗,節(jié)省了時間。
[0092]為了實現(xiàn)上述實施例,本發(fā)明還提出一種實體名的識別裝置。
[0093]一種實體名的識別裝置,包括:獲取模塊,用于獲取待識別文本以及待識別文本的來源信息;第一識別模塊,用于根據(jù)待識別文本的來源信息和識別模型獲取待識別文本中的第一實體名;第二識別模塊,用于根據(jù)預(yù)先建立的詞根表和預(yù)設(shè)約束規(guī)則從待識別文本中非第一實體名的內(nèi)容中獲取第二實體名。
[0094]圖7為根據(jù)本發(fā)明一個實施例的實體名的識別裝置的結(jié)構(gòu)示意圖。[0095]如圖7所示,根據(jù)本發(fā)明實施例的實體名的識別裝置,包括:獲取模塊10、第一識別模塊20和第二識別模塊30。
[0096]具體地,獲取模塊10用于獲取待識別文本以及待識別文本的來源信息。在本發(fā)明的一個實施例中,待識別文本的來源信息為發(fā)布待識別文本的公司名稱、網(wǎng)站名稱等。如“深圳市連訊達電子技術(shù)開發(fā)有限公司”。
[0097]在本發(fā)明的實施例中,待識別文本為自然語言文本。待識別文本的來源信息可為用戶在提供待識別文本時同時提供,也可根據(jù)待識別文本發(fā)布時的發(fā)布信息獲取,如發(fā)布者的賬戶信息等。因為發(fā)布者的賬戶信息中大多會包括發(fā)布者獲取發(fā)布者的賬戶所在或者所代表的機構(gòu)。
[0098]第一識別模塊20用于根據(jù)待識別文本的來源信息和識別模型獲取待識別文本中的第一實體名。在本發(fā)明的實施例中,第一實體名為與待識別文本的來源信息相關(guān)的實體名。舉例來說,在本發(fā)明的一個實施例中,第一實體名可為機構(gòu)名。例如,如果待識別文本的來源信息為“深圳市連訊達電子技術(shù)開發(fā)有限公司”,則第一實體名可為“連訊達電子技術(shù)開發(fā)有限公司”。
[0099]更具體地,在本發(fā)明的一個實施例中,第一識別模塊20具體用于根據(jù)詞根識別模型對待識別文本的來源信息進行識別,以獲取待識別文本的來源信息中的詞根,并根據(jù)詞根和預(yù)先建立的詞綴表獲取待識別文本中的第一實體名。
[0100]在本發(fā)明的實施例中,詞根識別模型為預(yù)先建立的。更具體地,可在對待識別文本進行識別之前訓(xùn)練詞根識別模型,也可從其他存儲裝置拷貝或下載已訓(xùn)練好的詞根識別模型。詞根識別模型是根據(jù)詞根表進行訓(xùn)練得到的,可識別待識別文本的來源信息中的詞根的識別模型。舉例來說,對于來源信息“深圳市連訊達電子技術(shù)開發(fā)有限公司”,通過詞根識別模型可識別出其中的詞根“連迅達”。在本發(fā)明的實施例中,詞綴表為包括多個第一實體名的后綴的存儲表。舉例來說,詞綴表中可包括“有限公司”、“機電配件廠”、“有限責(zé)任公司”等實體名的后綴。
[0101]在本發(fā)明的一個實施例中,第一實體名可為帶后綴的實體名,如“連迅達有限公司”,也可為不帶后綴的實體名,如“連迅達”。因此,第一識別模塊20可首先在待識別文本中查找該詞根,如果存在,則該詞根即為待識別文本中的一個第一實體名。然后,第一識別模塊20可根據(jù)詞根和詞綴表在待識別文本中查找詞根與詞綴表中任意詞綴相結(jié)合組成的字符串,即為第一實體名。
[0102]在本發(fā)明的另一個實施例中,由于很多實體可能存在別名,因此,根據(jù)來源信息的詞根可能無法覆蓋待識別文本中的實體名例如,“凡客”也可被寫為“VANCL”。為了能夠全面識別待識別文本中實體名,第一識別模塊20還可用于根據(jù)實體識別模型對待識別文本進行識別,以獲取待識別文本中的第一實體名。其中,實體識別模型為預(yù)先建立的。更具體地,可在對待識別文本進行識別之前訓(xùn)練實體識別模型,也可從其他存儲裝置拷貝或下載已訓(xùn)練好的實體識別模型。實體識別模型是根據(jù)詞根表和詞綴表訓(xùn)練得到的,可識別待識別文本中的實體的識別模型。舉例來說,對于待識別文本中的“VANCL誠品”,通過實體識別模型即可被識別為第一實體名。
[0103]第二識別模塊30用于根據(jù)預(yù)先建立的詞根表和預(yù)設(shè)約束規(guī)則從待識別文本中非第一實體名的內(nèi)容中獲取第二實體名。在本發(fā)明的實施例中,第二實體名為與第一實體名的代理、產(chǎn)品、經(jīng)營相關(guān)的實體名。舉例來說,如果第一實體名為機構(gòu)名,則第二實體名可為品牌名。
[0104]更具體地,第二識別模塊30具體用于根據(jù)預(yù)先建立的詞根表查找待識別文本中非第一實體名的內(nèi)容所包含的詞根,并根據(jù)預(yù)設(shè)約束規(guī)則對待識別文本中非第一實體名的內(nèi)容所包含的詞根進行篩選,以獲取待識別文本中非第一實體名的內(nèi)容中獲取第二實體名。在本發(fā)明的一個實施例中,詞根表中的詞根,可分為強約束的詞根和弱約束的詞根。其中,強約束的詞根是指在任意情況下都可作為實體名的詞根,而弱約束的詞根是指在滿足一定的上下文約束條件時才可作為實體名的詞根。舉例來說,“凡客”即為強約束的詞根,“七天”僅在與“酒店”或“假日酒店”等詞綴結(jié)合時,才可作為實體名。其他情況下“七天”僅為數(shù)量詞。因此,需要針對弱約束的詞根建立預(yù)設(shè)約束規(guī)則,預(yù)設(shè)約束規(guī)則是用于對弱約束的詞根進行條件限定以使弱約束的詞根在該預(yù)設(shè)約束規(guī)則下可作為實體名。由于弱約束的詞根類型各不相同,因此,預(yù)設(shè)約束規(guī)則也是根據(jù)不同的弱約束的詞根相匹配的,本發(fā)明對預(yù)設(shè)約束規(guī)則的具體形式不進行限定。
[0105]本發(fā)明實施例的實體名的識別裝置,根據(jù)待識別文本的來源信息和識別模型獲取待識別文本中的第一實體名,并根據(jù)詞根表和預(yù)設(shè)規(guī)則獲取待識別文本中的第二實體名,充分結(jié)合了統(tǒng)計學(xué)習(xí)方法和基于規(guī)則的識別方法二者的優(yōu)勢,提升了實體名識別的準確率和召回率,可適用于各種語言類型,通用性較強。此外,對于創(chuàng)意文本中的實體名的有效識另O,極大的滿足創(chuàng)意中個性化需求,且滿足了法務(wù)風(fēng)險詞匯的識別需求。
[0106]在本發(fā)明的一個實施例中,在識別出實體名后,根據(jù)識別出的實體名的類型打上相應(yīng)的標簽。舉例來說,機構(gòu)名的標簽為〈0RGX/0RG〉,品牌名的標簽為〈BRDX/BRD〉。例如,如果“深圳 市連訊達電子技術(shù)開發(fā)有限公司”為一個公司名,則可其發(fā)布的創(chuàng)意中的實體名的標簽如下:
[0107]創(chuàng)意:….<BRD>耐克森</BRD>網(wǎng)線一首選深圳<0RG>連訊達</0RG>...[0108]其中,“聯(lián)訊達”為機構(gòu)名;而“耐克森”是其經(jīng)營的產(chǎn)品名,應(yīng)該被識別為品牌名。
[0109]圖8為根據(jù)本發(fā)明另一個實施例的實體名的識別裝置的結(jié)構(gòu)示意圖。如圖8所示,該實體名的識別裝置包括:獲取模塊10、第一識別模塊20、第二識別模塊30、詞表建立模塊40、第一模型訓(xùn)練模塊50和第二模型訓(xùn)練模塊60。
[0110]具體地,詞表建立模塊40用于:
[0111]收集多個注冊實體名,其中,注冊實體名是指已確定的實體名。如,已注冊的公司名、產(chǎn)品名、注冊品牌等;
[0112]分別對多個注冊實體名進行分詞,以獲取多個分詞,其中,對注冊實體名進行分詞可使用相關(guān)技術(shù)中或未來可能出現(xiàn)的任意分詞方法,本發(fā)明對所使用的分詞方法不進行限定;
[0113]獲取多個分詞的屬性特征,其中,分詞的屬性特征包括分詞的詞性、長度、在全部注冊實體名中出現(xiàn)的頻率、分詞在注冊實體名中的位置等特征;
[0114]根據(jù)屬性特征從多個分詞中篩選出詞根表中的多個詞根以及詞綴表中的多個詞綴,以建立詞根表和詞綴表。
[0115]在本發(fā)明的實施例中,詞根具有出現(xiàn)頻度不高、常在地域詞和產(chǎn)品詞之間等屬性特征,而詞綴具有頻度高、常在公司名尾部等屬性特征。因此,可分別通過詞根和詞綴具有的屬性特征從多個分詞中篩選出多個詞根和多個詞綴。
[0116]舉例來說,可通過以下規(guī)則從多個分詞中篩選出多個詞根:
[0117]A、構(gòu)成詞語的詞不能被其他詞分隔;
[0118]B、詞語不是地域詞;
[0119]C、詞語的頻度*位置必須滿足一定閾值限制;
[0120]D、詞語的總長度必須小于一定長度閾值。
[0121]可通過以下規(guī)則從多個分詞中篩選出多個詞綴:
[0122]a、詞語在公司名的尾部(或在遞歸結(jié)構(gòu)的尾部);
[0123]b、詞語的出現(xiàn)頻率必須大于一定頻率閾值;
[0124]C、構(gòu)成詞語的詞必須滿足一定詞性限制。
[0125]應(yīng)當理解,上述規(guī)則僅為示例性的,在本發(fā)明的其他實施例中,本領(lǐng)域技術(shù)人員也可根據(jù)上述描述中未列舉出的其他詞根和詞綴的屬性特征設(shè)定詞根和詞綴的篩選規(guī)則。
[0126]在本發(fā)明的一個實施例中,由于實體名的種類多樣,因此,詞根表的數(shù)據(jù)量非常龐大,為了在使用詞根表時提高查詢速度,對詞根表建立壓縮索引,舉例來說,對于具有相同前綴的詞根,可根據(jù)他們相同的前綴建立一個共同的索引,從而可提高查詢效率。此外,如前述實施例的,詞根分為強約束的詞根和弱約束的詞根,因此,詞根表可分別強詞根表和弱詞根表。
[0127]第一模型訓(xùn)練模塊50用于:
[0128]獲取第一訓(xùn)練語料,其中,第一訓(xùn)練語料是用于訓(xùn)練詞根識別模型的語料。具體地,可在已確定的實體命中抽取少量的實體名,舉例來說,可抽取1000個實體名,然后經(jīng)過對抽取的1000個實體名進行人工校對得到第一訓(xùn)練語料,即可使訓(xùn)練出的識別模型的識別準確率達到95%以上。由于獲取第一訓(xùn)練語料所需要的實體名很少,因此人工校對的工作量也非常小,僅需幾分鐘就可以完成,大大節(jié)省人力和時間,且準確率較高。;
[0129]根據(jù)第一訓(xùn)練語料的詞語特征構(gòu)建第一特征模板,其中,對于第一訓(xùn)練語料中的實體名中的每個詞,抽取詞本身及其詞性兩類特征,然后,將第一訓(xùn)練語料中不同詞的兩類特征進行組合,得到具有第一預(yù)設(shè)數(shù)量的特征項的第一特征模板;
[0130]根據(jù)第一特征模板和條件隨機場模型訓(xùn)練詞根識別模型,其中,條件隨機場模型是一種判定性模型,可通過定義標記序列和觀察序列的條件概率來預(yù)測最可能的標記序列。因此,在本發(fā)明的實施例中,可利用條件隨機場模型,根據(jù)構(gòu)建的符合詞根的特征的第一特征模板得到詞根識別模型。
[0131]第二模型訓(xùn)練模塊60用于:
[0132]根據(jù)詞根表和詞綴表獲取第二訓(xùn)練語料,其中,匹配結(jié)束后得到的結(jié)果中,可以分為如下四種情況:
[0133]1、包含“詞根+詞綴”的創(chuàng)意片段;如:北京曙光(詞根)男科醫(yī)院(詞綴)擁有在線資深專家。
[0134]2、僅包含“詞根”的創(chuàng)意片段,如:北京軍都(詞根)采用新技術(shù)五腔離子肽療法治療。
[0135]3、僅包含“詞綴”的創(chuàng)意片段,如:治療前列腺炎哪家醫(yī)院(詞綴)好?
[0136]4、詞根和詞綴都不包含的創(chuàng)意片段,如:不打針.不口服.不開刀.無痛苦。[0137]上述四種情況中,前兩種包含了實體,這被稱作“正例”;而后兩種不包含實體,被稱作“反例”。因為一個創(chuàng)意包含的創(chuàng)意片段即可能有實體,有可能沒有實體,因此用于訓(xùn)練實體識別模型的第二訓(xùn)練語料中應(yīng)該即包括正例也包括反例,否則訓(xùn)練出的模型會有偏差。其中,正反例個數(shù)需滿足一定比例,在本發(fā)明的一個實施例中,根據(jù)創(chuàng)意中包含實體和未包含實體的創(chuàng)意片段的分布,可設(shè)定第二訓(xùn)練語料中正例與反例的個數(shù)比為1:3 ;
[0138]根據(jù)第二訓(xùn)練語料的詞語特征構(gòu)建第二特征模板,其中,對于第二訓(xùn)練語料中的每個詞,抽取詞本身及其詞性、位置、長度四類特征,然后,將第二訓(xùn)練語料中不同詞的四類特征進行組合,得到具有第二預(yù)設(shè)數(shù)量的特征項的第二特征模板;
[0139]根據(jù)第二特征模板和條件隨機場模型訓(xùn)練實體識別模型,其中,條件隨機場模型是一種判定性模型,可通過定義標記序列和觀察序列的條件概率來預(yù)測最可能的標記序列。因此,在本發(fā)明的實施例中,可利用條件隨機場模型,根據(jù)構(gòu)建的符合實體名的特征的第二特征模板得到實體識別模型。
[0140]本發(fā)明實施例的實體名的識別裝置,語料的訓(xùn)練、識別模型的訓(xùn)練、詞根表以及詞綴表的建立幾乎可自動執(zhí)行,雖然,在獲取用于訓(xùn)練詞根識別模型的第一訓(xùn)練語料時,需要人工校對,但是所需人力和時間非常少,對人工的依賴性極低,從而大大地減少了人力、物力資源的消耗,節(jié)省了時間,且準確率較高。
[0141]流程圖中或在此以其他方式描述的任何過程或方法描述可以被理解為,表示包括一個或更多個用于實現(xiàn)特定邏輯功能或過程的步驟的可執(zhí)行指令的代碼的模塊、片段或部分,并且本發(fā)明的優(yōu)選實施方式的范圍包括另外的實現(xiàn),其中可以不按所示出或討論的順序,包括根據(jù)所涉及的功能按基本同時的方式或按相反的順序,來執(zhí)行功能,這應(yīng)被本發(fā)明的實施例所屬【技術(shù)領(lǐng)域】的技術(shù)人員所理解。
[0142]在流程圖中表示或在此以其他方式描述的邏輯和/或步驟,例如,可以被認為是用于實現(xiàn)邏輯功能的可執(zhí)行指令的定序列表,可以具體實現(xiàn)在任何計算機可讀介質(zhì)中,以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備(如基于計算機的系統(tǒng)、包括處理器的系統(tǒng)或其他可以從指令執(zhí)行系統(tǒng)、裝置或設(shè)備取指令并執(zhí)行指令的系統(tǒng))使用,或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用。就本說明書而言,"計算機可讀介質(zhì)"可以是任何可以包含、存儲、通信、傳播或傳輸程序以供指令執(zhí)行系統(tǒng)、裝置或設(shè)備或結(jié)合這些指令執(zhí)行系統(tǒng)、裝置或設(shè)備而使用的裝置。計算機可讀介質(zhì)的更具體的示例(非窮盡性列表)包括以下:具有一個或多個布線的電連接部(電子裝置),便攜式計算機盤盒(磁裝置),隨機存取存儲器(RAM),只讀存儲器(R0M),可擦除可編輯只讀存儲器(EPR0M或閃速存儲器),光纖裝置,以及便攜式光盤只讀存儲器(⑶ROM)。另外,計算機可讀介質(zhì)甚至可以是可在其上打印所述程序的紙或其他合適的介質(zhì),因為可以例如通過對紙或其他介質(zhì)進行光學(xué)掃描,接著進行編輯、解譯或必要時以其他合適方式進行處理來以電子方式獲得所述程序,然后將其存儲在計算機存儲器中。
[0143]應(yīng)當理解,本發(fā)明的各部分可以用硬件、軟件、固件或它們的組合來實現(xiàn)。在上述實施方式中,多個步驟或方法可以用存儲在存儲器中且由合適的指令執(zhí)行系統(tǒng)執(zhí)行的軟件或固件來實現(xiàn)。例如,如果用硬件來實現(xiàn),和在另一實施方式中一樣,可用本領(lǐng)域公知的下列技術(shù)中的任一項或他們的組合來實現(xiàn):具有用于對數(shù)據(jù)信號實現(xiàn)邏輯功能的邏輯門電路的離散邏輯電路,具有合適的組合邏輯門電路的專用集成電路,可編程門陣列(PGA),現(xiàn)場可編程門陣列(FPGA)等。
[0144]本【技術(shù)領(lǐng)域】的普通技術(shù)人員可以理解實現(xiàn)上述實施例方法攜帶的全部或部分步驟是可以通過程序來指令相關(guān)的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質(zhì)中,該程序在執(zhí)行時,包括方法實施例的步驟之一或其組合。
[0145]此外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理模塊中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個模塊中。上述集成的模塊既可以采用硬件的形式實現(xiàn),也可以采用軟件功能模塊的形式實現(xiàn)。所述集成的模塊如果以軟件功能模塊的形式實現(xiàn)并作為獨立的產(chǎn)品銷售或使用時,也可以存儲在一個計算機可讀取存儲介質(zhì)中。
[0146]上述提到的存儲介質(zhì)可以是只讀存儲器,磁盤或光盤等。
[0147]在本說明書的描述中,參考術(shù)語“一個實施例”、“一些實施例”、“示例”、“具體示例”、或“一些示例”等的描述意指結(jié)合該實施例或示例描述的具體特征、結(jié)構(gòu)、材料或者特點包含于本發(fā)明的至少一個實施例或示例中。在本說明書中,對上述術(shù)語的示意性表述不一定指的是相同的實施例或示例。而且,描述的具體特征、結(jié)構(gòu)、材料或者特點可以在任何的一個或多個實施例或示例中以合適的方式結(jié)合。
[0148]盡管已經(jīng)示出和描述了本發(fā)明的實施例,本領(lǐng)域的普通技術(shù)人員可以理解:在不脫離本發(fā)明的原理和宗旨的情況下可以對這些實施例進行多種變化、修改、替換和變型,本發(fā)明的范圍由權(quán)利要求及其等同限定。
【權(quán)利要求】
1.一種實體名的識別方法,其特征在于,包括: 獲取待識別文本以及所述待識別文本的來源信息; 根據(jù)所述待識別文本的來源信息和識別模型獲取所述待識別文本中的第一實體名;根據(jù)預(yù)先建立的詞根表和預(yù)設(shè)約束規(guī)則從所述待識別文本中非第一實體名的內(nèi)容中獲取第二實體名。
2.如權(quán)利要求1所述的方法,其特征在于, 所述第一實體名為機構(gòu)名; 所述第二實體名為品牌名。
3.如權(quán)利要求1或2所述的方法,其特征在于,所述根據(jù)所述待識別文本的來源信息和識別模型獲取所述待識別文本中的第一實體名,具體包括: 根據(jù)詞根識別模型對所述待識別文本的來源信息進行識別,以獲取所述待識別文本的來源信息中的詞根; 根據(jù)所述詞根 和預(yù)先建立的詞綴表獲取所述待識別文本中的第一實體名。
4.如權(quán)利要求3所述的方法,其特征在于,還包括: 根據(jù)實體識別模型對所述待識別文本進行識別,以獲取所述待識別文本中的第一實體名。
5.如權(quán)利要求1或2所述的方法,其特征在于,所述根據(jù)預(yù)先建立的詞根表和預(yù)設(shè)約束規(guī)則從所述待識別文本中非第一實體名的內(nèi)容中獲取第二實體名,具體包括: 根據(jù)所述預(yù)先建立的詞根表查找所述待識別文本中非第一實體名的內(nèi)容所包含的詞根; 根據(jù)所述預(yù)設(shè)約束規(guī)則對所述待識別文本中非第一實體名的內(nèi)容所包含的詞根進行篩選,以獲取所述待識別文本中非第一實體名的內(nèi)容中獲取第二實體名。
6.如權(quán)利要求3所述的方法,其特征在于,在所述獲取待識別文本以及所述待識別文本的來源信息之前,還包括: 收集多個注冊實體名; 分別對所述多個注冊實體名進行分詞,以獲取多個分詞; 獲取所述多個分詞的屬性特征; 根據(jù)所述屬性特征從所述多個分詞中篩選出所述詞根表中的多個詞根以及所述詞綴表中的多個詞綴,以建立所述詞根表和所述詞綴表。
7.如權(quán)利要求3所述的方法,其特征在于,還包括: 獲取第一訓(xùn)練語料; 根據(jù)所述第一訓(xùn)練語料的詞語特征構(gòu)建第一特征模板; 根據(jù)所述第一特征模板和條件隨機場模型訓(xùn)練所述詞根識別模型。
8.如權(quán)利要求3所述的方法,其特征在于,還包括: 根據(jù)所述詞根表和所述詞綴表獲取第二訓(xùn)練語料; 根據(jù)所述第二訓(xùn)練語料的詞語特征構(gòu)建第二特征模板; 根據(jù)所述第二特征模板和所述條件隨機場模型訓(xùn)練所述實體識別模型。
9.一種實體名的識別裝置,其特征在于,包括: 獲取模塊,用于獲取待識別文本以及所述待識別文本的來源信息;第一識別模塊,用于根據(jù)所述待識別文本的來源信息和識別模型獲取所述待識別文本中的第一實體名; 第二識別模塊,用于根據(jù)預(yù)先建立的詞根表和預(yù)設(shè)約束規(guī)則從所述待識別文本中非第一實體名的內(nèi)容中獲取第二實體名。
10.如權(quán)利要求9所述的裝置,其特征在于, 所述第一實體名為機構(gòu)名; 所述第二實體名為品牌名。
11.如權(quán)利要求9或10所述的裝置,其特征在于,所述第一識別模塊具體用于: 根據(jù)詞根識別模型對所述待識別文本的來源信息進行識別,以獲取所述待識別文本的來源信息中的詞根; 根據(jù)所述詞根和預(yù)先建立的詞綴表獲取所述待識別文本中的第一實體名。
12.如權(quán)利要求11所述的裝置,其特征在于,所述第一識別模塊還用于根據(jù)實體識別模型對所述待識別文本進行識別,以獲取所述待識別文本中的第一實體名。
13.如權(quán)利要求9或10所述的裝置,其特征在于,所述第二實體模塊具體用于: 根據(jù)所述預(yù)先建立的詞根表查找所述待識別文本中非第一實體名的內(nèi)容所包含的詞根; 根據(jù)所述預(yù)設(shè)約束規(guī)則對所述待識別文本中非第一實體名的內(nèi)容所包含的詞根進行篩選,以獲取所述待識別文本中非第一實體名的內(nèi)容中獲取第二實體名。
14.如權(quán)利要求11所述的裝置,其特征在于,還包括詞表建立模塊,所述詞表建立模塊用于: 收集多個注冊實體名; 分別對所述多個注冊實體名進行分詞,以獲取多個分詞; 獲取所述多個分詞的屬性特征; 根據(jù)所述屬性特征從所述多個分詞中篩選出所述詞根表中的多個詞根以及所述詞綴表中的多個詞綴,以建立所述詞根表和所述詞綴表。
15.如權(quán)利要求11所述的裝置,其特征在于,還包括第一模型訓(xùn)練模塊,所述第一模型訓(xùn)練模塊用于: 獲取第一訓(xùn)練語料; 根據(jù)所述第一訓(xùn)練語料的詞語特征構(gòu)建第一特征模板; 根據(jù)所述第一特征模板和條件隨機場模型訓(xùn)練所述詞根識別模型。
16.如權(quán)利要求11所述的裝置,其特征在于,還包括第二模型訓(xùn)練模塊,所述第二模型訓(xùn)練模塊用于: 根據(jù)所述詞根表和所述詞綴表獲取第二訓(xùn)練語料; 根據(jù)所述第二訓(xùn)練語料的詞語特征構(gòu)建第二特征模板; 根據(jù)所述第二特征模板和所述條件隨機場模型訓(xùn)練所述實體識別模型。
【文檔編號】G06F17/30GK103995885SQ201410234622
【公開日】2014年8月20日 申請日期:2014年5月29日 優(yōu)先權(quán)日:2014年5月29日
【發(fā)明者】陳麗歐, 徐明泉, 韓鋒, 姜世超, 周寰, 王平, 雷紹澤, 周豐樂 申請人:百度在線網(wǎng)絡(luò)技術(shù)(北京)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1