亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

實體詞識別方法及裝置制造方法

文檔序號:6488624閱讀:165來源:國知局
實體詞識別方法及裝置制造方法
【專利摘要】本申請?zhí)峁┝艘环N實體詞識別方法,包括以下步驟:接收待識別數據,對所述待識別數據按照第一預定規(guī)則切分得到分組數據;按照第二預定規(guī)則抽取所述每一組分組數據的特征,基于各特征的權重和預定單詞類別計算每一組分組數據所屬的類別組合以及概率;從每一組分組數據所屬的類別組合中選取其中包含的實體詞,并計算所述各實體詞的識別概率;按照所述各實體詞的概率大小對實體詞進行排序。本申請還提供了一種實現(xiàn)前述方法的實體詞識別裝置。本申請的實體詞識別方法及裝置,能夠提高實體詞挖掘效率,且可以降低挖掘成本。
【專利說明】實體詞識別方法及裝置
【技術領域】
[0001]本申請涉及計算機數據處理【技術領域】,特別是涉及一種實體詞識別方法及裝置?!颈尘凹夹g】
[0002]隨著科學技術和互聯(lián)網的快速發(fā)展,計算機和網絡技術己經深入到人們工作、生活的方方面面。利用計算機來獲取需要的信息也逐漸被人們采用,例如信息檢索查詢、計算機輔助翻譯、自動問答等等。在計算機服務器的數據庫中存儲有一些實體詞,例如產品名稱、型號、公司名稱、品牌名稱等等。如果用戶通過客戶端輸入的語句中包含該數據庫中的實體詞,則可以直接從服務器的數據庫中查找對應的結果,例如對應的翻譯結果、問答結果、檢索結果,然后反饋給客戶端。此種方式,對于已有實體詞對應的結果,服務器可以快速反饋給客戶端,從而可以提高系統(tǒng)的響應速度。另外,此種方式可以保證反饋數據的準確性,保證數據傳輸的有效性,避免用戶通過客戶端不斷的發(fā)送檢索、翻譯等請求,從而減少服務器傳輸給客戶端的數據量。
[0003]常見的服務器數據庫中的實體詞多通過人工搜集的方式獲取,隨著技術的不斷發(fā)展,特別是在某些特殊領域,會不斷產生新的實體詞,采用人工搜集的方式往往無法及時對數據庫中的實體詞進行更新,在用戶通過客戶端向服務器發(fā)送檢索、翻譯等請求時,服務器便無法實現(xiàn)快速準確的響應,從而降低了響應速度。當用戶無法得到準確或其期望的結果時,其往往會不斷的發(fā)送新的請求,這就增加了服務器負擔,同時增加了服務器的數據傳輸量。另外,通過人工搜集的方式來挖掘新的實體詞需要耗費大量的工作量,增加人力成本。

【發(fā)明內容】

[0004]本申請?zhí)峁┮环N實體詞識別方法及裝置,能夠解決實體詞挖掘效率低且成本高的問題。
[0005]為了解決上述問題,本申請公開了一種實體詞識別方法,包括以下步驟:
[0006]接收待識別數據,對所述待識別數據按照第一預定規(guī)則切分得到分組數據;
[0007]按照第二預定規(guī)則抽取所述每一組分組數據的特征,基于各特征的權重和預定單詞類別計算每一組分組數據所屬的類別組合以及概率;
[0008]從每一組分組數據所屬的類別組合中選取其中包含的實體詞,并計算所述各實體詞的識別概率;
[0009]按照所述各實體詞的概率大小對實體詞進行排序。
[0010]進一步地,所述預定單詞類別包括無關詞、左邊詞、右邊詞、中間詞和獨立詞,所述從每一組分組數據所屬的類別組合中選取其中包含的實體詞根據如下方式確定:
[0011]若某個類別組合中包含有獨立詞,則確定該獨立詞為該類別組合中包含的實體詞;和
[0012]若某個類別中包含有左邊詞和右邊詞,且所述左邊詞和右邊詞之間沒有其他類別的詞語或只有中間詞,則確定從該左邊詞到右邊詞的組合為實體詞。[0013]進一步地,計算所述各實體詞的識別概率包括:
[0014]選取包含有某個實體詞的所有類別組合;
[0015]將所述所有類別組合的概率相加得到所述實體詞的識別概率。
[0016]進一步地,所述方法通過訓練好的模型實現(xiàn)數據處理。
[0017]進一步地,所述在所述各步驟之前還包括:
[0018]準備訓練數據,對模型進行訓練。
[0019]進一步地,所述準備訓練數據包括采用自動標注的方式進行準備,包括以下步驟:
[0020]獲取待識別數據,判斷其中是否包含有與某個實體詞詞典中匹配的文本,若有,則記錄所述文本;
[0021]統(tǒng)計包含有所述文本的實體詞詞典的數量,并根據所述數量與每個實體詞詞典的優(yōu)先級確定所述文本的分數;
[0022]根據所述分數對待識別數據中的文本進行標注。
[0023]本申請還公開了一種實體詞識別裝置,包括:
[0024]數據接收模塊,用于接收待識別數據,對所述待識別數據按照第一預定規(guī)則切分得到分組數據;
[0025]類別組合概率計算模塊,按照第二預定規(guī)則抽取所述每一組分組數據的特征,基于各特征的權重和預定單詞類別計算每一組分組數據所屬的類別組合以及概率;
[0026]實體詞識別概率計算模塊,用于從每一組分組數據所屬的類別組合中選取其中包含的實體詞,并計算所述各實體詞的識別概率;
[0027]排序模塊,用于按照所述各實體詞的概率大小對實體詞進行排序。
[0028]進一步地,所述預定單詞類別包括無關詞、左邊詞、右邊詞、中間詞和獨立詞,所述實體詞識別概率計算模塊包括:
[0029]實體詞識別單元,用于識別類別組合中的實體詞,采用如下方式實現(xiàn):若某個類別組合中包含有獨立詞,則確定該獨立詞為該類別組合中包含的實體詞;和若某個類別中包含有左邊詞和右邊詞,且所述左邊詞和右邊詞之間沒有其他類別的詞語或只有中間詞,則確定從該左邊詞到右邊詞的組合為實體詞。
[0030]進一步地,實體詞識別概率計算模塊包括:
[0031]類別組合選取子模塊,用于選取包含有某個實體詞的所有類別組合;
[0032]計算子模塊,用于將所述所有類別組合的概率相加得到所述實體詞的識別概率。
[0033]進一步地,所述數據接收模塊、類別組合及實體詞確定模塊、類別組合概率計算模塊、識別概率計算模塊和排序模塊置于訓練好的模型中,所述裝置還包括:
[0034]模型訓練模塊,用于準備訓練數據,對模型進行訓練。
[0035]進一步地,所述模型訓練模塊包括數據準備子模塊,所述數據準備子模塊包括:匹配單元,用于獲取待識別數據,判斷其中是否包含有與某個實體詞詞典中匹配的文本,若有,則記錄所述文本;統(tǒng)計單元,用于統(tǒng)計包含有所述文本的實體詞詞典的數量,并根據所述數量與每個實體詞詞典的優(yōu)先級確定所述文本的分數;標注單元,用于根據所述分數對待識別數據中的文本進行標注。
[0036]與現(xiàn)有技術相比,本申請包括以下優(yōu)點:[0037]本申請的實體詞識別方法及裝置通過在服務器中對待識別語句進行切分后提取特征的方式來確定待識別數據中每一組分組數據可能所屬的類別組合以及概率,并利用該概率來計算待識別數據中被識別為實體詞的概率,通過此種方式,可以對實體詞進行自動識別,無需采用人工處理的方式,從而可以實現(xiàn)實體詞的快速識別以及及時更新,提高了實體詞挖掘效率,并減少挖掘成本。依靠實體詞的識別概率來選取最終的實體詞,而非依靠類別組合的概率,從而去除了無關數據,可以保證實體詞識別的準確性。
[0038]其次,對于實體詞的挖掘可以通過訓練好的模型來實現(xiàn),可以保證挖掘的準確性,還可以提高處理效率。
[0039]在對模型訓練過程中,除了采用人工采集訓練數據的方式,優(yōu)選采用自動標注的方式來準備訓練數據,利用已有數據,實現(xiàn)對訓練數據的自動標注,可以減少工作量,提高訓練數據的準備效率,且可以降低人力成本。
[0040]當然,實施本申請的任一產品不一定需要同時達到以上所述的所有優(yōu)點。
【專利附圖】

【附圖說明】
[0041]圖1是本申請的實體詞識別方法實施例一的流程圖;
[0042]圖2是本申請的實體詞識別方法實施例二的流程圖;
[0043]圖3是本申請的實體詞識別裝置實施例一的結構示意圖;
[0044]圖4是本申請的實體詞識別裝置實施例二的結構示意圖。
【具體實施方式】
[0045]為使本申請的上述目的、特征和優(yōu)點能夠更加明顯易懂,下面結合附圖和【具體實施方式】對本申請作進一步詳細的說明。
[0046]本申請的實體詞是指描述某個物體或者事務的固定名詞,例如產品名稱、型號、公司名稱、品牌名稱等等。
[0047]參照圖1,示出本申請的一種實體詞識別方法實施例一,包括以下步驟:
[0048]步驟101,接收待識別數據,對所述待識別數據按照第一預定規(guī)則切分得到分組數據。
[0049]待識別數據可以是中文,也可以是英文或其他語言,可以是一個完整的句子,也可以是詞組或短語。
[0050]第一預定規(guī)則為預先定義,可以根據實際情況確定。本申請中,根據人類從左到右的閱讀習慣,對待識別數據以左數第一個單詞順序與其他單詞組合的規(guī)則進行切分。即,每一組分組數據是左數第一個單詞順序與其它單詞的組合。此處的單詞為獨立的一個字或單詞,例如,可以為英文中的一個單詞,也可以理解為中文中的一個字,也可以理解為其它語言中的一個獨立個體。例如,以英文“high quality led advertising screen”為例,切分得到的各組分組數據分別為:“high”、“high quality”、“high quality led,,、“highquality led advertising,,以及“high quality led advertising screen,,。又如,以中文“廣告屏”為例,切分得到的各組分組數據分別為:“廣”、“廣告”以及“廣告屏”。
[0051]步驟102,按照第二預定規(guī)則抽取所述每一組分組數據的特征,基于各特征的權重和預定單詞類別計算每一組分組數據所屬的類別組合以及概率。[0052]服務器中預先定義了需要抽取的特征、各特征的抽取規(guī)則以及單詞類別。當服務器接收到待識別數據并進行切分得到分組數據后,則會根據第二預定規(guī)則從每一組分組數據中抽取對應的特征,并基于各特征的權重計算得到每一組分組數據屬于各類別組合的概率。
[0053]本申請中,預先定義的特征包括:當前詞、前后兩個詞、前后詞與當前詞的組合、前兩個詞和后兩個詞、前一個詞和后一個詞的組合以及前兩詞所屬類別??梢岳斫?,預先定義的特征還可以包括每個詞的詞性。特征抽取規(guī)則為:當前詞是指每一組分組數據中的最后一個詞,其前后詞則是在待識別數據中分別位于其前后的詞??梢岳斫?,此處的前后是根據讀寫習慣而言的前后。
[0054]分組數據的類別組合根據預定的單詞類別確定,分組數據的類別組合為其中包含的各個單詞的類別的組合。因為每個單詞可能屬于不同的單詞類別,那么相應的每一組分組數據的類別組合便會不同。根據組合排列規(guī)則,假設單詞類別的數量為A,每一組分組數據中所包含的單詞數量為B,那么每個單詞可能屬于A個類別,相應地,每一組分組數據所屬的類別組合數量則為:A的B次方。雖然每個單詞可能會屬于多個類別,但是其概率值會有所區(qū)別,例如,某個單詞可能屬于a和b兩個類別,其屬于a的概率為90%,屬于b的概率為10%。因此,每一組分組數據所屬的各類別組合的概率也會不相同。
[0055]例如,以前述的“high quality led advertising screen” 的其中一個分組數據“high quality led”為例,抽取的特征包括:當前詞“l(fā)ed”、前后兩個詞“quality”和“advertising”、前后詞與當前詞的組合“quality led advertising”、前兩個詞和后兩個詞 “high quality” 和 “advertising screen”、前一個詞和后一個詞的組合“qualityadvertising”、以及前兩個詞所屬類別。如前所述,每一個詞可能屬于多個類別,只是概率值不同,因此“前兩個詞所屬類別”這一特征則可能出現(xiàn)多種可能。以當前詞“l(fā)ed”為例,其“前兩個詞所屬類別”這一特征可以由前述五個預定類別進行兩兩組合,最終得出25種組合結果。即在抽取“前兩個詞所屬類別”這一特征時,可能會得到多個特征值,這需要根據該組分組數據中包含的單詞數量來確定。
[0056]下面結合具體實例對每一分組數據所屬類別組合以及概率進行說明。假設預先設定的單詞類別包括無關詞(II)、左邊詞(LU、中間詞(MM)、右邊詞(RR)和獨立詞(RL)五種。其中,無關詞是指與實體詞無關的詞語,左邊詞、中間詞和右邊詞是指當實體詞由多個字或單詞組成時,按照書寫順序在對應位置上的詞。當實體詞由兩個字或單詞組成時,則該位于該實體詞左邊的為左邊詞,右邊的為右邊詞,當實體詞由三個或以上的字或單詞組成時,則位于該實體詞左邊的為左邊詞,右邊的為右邊詞,左邊詞和右邊詞之間的則為中間詞,中間詞可以是一個、兩個或多個。獨立詞是指當實體詞由一個字或單詞時,該字或單詞即為獨立詞。例如,對于“high quality led advertising screen”這一例子,假設“high”和“quality”的類別為無關詞(II),“l(fā)ed advertising screen”為實體詞,其中,“l(fā)ed”的類別為左邊詞(LL)、“advertising”為中間詞(MM)、“screen”為右邊詞(RR)。那么,前述五組分組數據中,每一組分組數據的類別組合分別為“II”、“II ΙΙ”、“ΙΙ II LL”、“II II LLMM,,、“II II LL MM RR”??梢岳斫?“high quality led advertising screen”中的每個單詞也可能屬于其他類別,可以根據前述方式組合出每一組分組數據的其他可能類別。例如,對于第一組分組數據“high”,因為只有一個單詞,所以單詞所屬的類別即為該分組數據的類別組合,可以是“ II ”、“LL”、“MM”、“RR”和“RL”,屬于每一個類別的概率可以分別為90%、2%、2%、2% 和 4% ο
[0057]前述計算每一組分組數據所屬的類別組合以及概率可以通過預先設定的公式進行計算,也可以直接通過訓練好的模型進行計算。
[0058]步驟103,從每一組分組數據所屬的類別組合中選取其中包含的實體詞,并計算所述各實體詞的識別概率。
[0059]根據前述描述,從每一組分組數據所屬的類別組合中選取其中包含的實體詞采用如下方式:
[0060]若某個類別組合中包含有獨立詞,則確定該獨立詞為該類別組合中包含的實體詞。若某個類別中包含有左邊詞和右邊詞,且該兩個詞語之間沒有其他類別的詞語或只有中間詞,則確定從該左邊詞到右邊詞的組合為實體詞。即,從左邊詞開始到右邊詞結束的一個整體作為實體詞,二者之間若有中間詞,則左邊詞、右邊詞以及二者之間的所有中間詞的組合為實體詞,二者之間若沒有中間詞,則左邊詞和右邊詞的組合為實體詞。
[0061]計算所述各實體詞的識別概率。具體包括:
[0062]選取包含有某個實體詞的所有類別組合;
[0063]將所述所有類別組合的概率相加得到所述實體詞的識別概率。
[0064]即,只要將某個單詞或短語確定為實體詞的類別組合都會被選取,用于統(tǒng)計計算該實體詞的識別概率。例如,“l(fā)ed advertising screen”作為實體詞的識別概率,可以采用如下方式計算:因為“l(fā)ed advertising screen”整體出現(xiàn)是在最后一組分組數據“highquality led advertising screen” 中,當 “l(fā)ed advertising screen” 的類別組合為 “LL麗RR”時,其可能出現(xiàn)在“high”和“quality”分別為五個類別之一時的類別組合中,即其可能出現(xiàn)在25個類別組合中。此時,獲取最后一組分組數據的這25個類別組合的概率,并相加,得到“l(fā)ed advertising screen”被確定為“LL MM RR”的概率,即確定為實體詞的識別概率。又如,“screen”為實體詞的識別概率,可以采用如下方式計算:因為一個單詞確定為實體詞,其類別應該為“LR”,那么可以在所有分組數據的各類別組合中查找“screen”的類別為“LR”的類別組合,然后將這些類別組合的概率相加,得到“screen”被確定為實體詞的識別概率。
[0065]可以理解,對于實體詞的概率還可以通過如下公式來進行計算:


m
[0066]Pn (A J) = P(K:? = h --+1 =7') = ΣΡ %,+l = j I = h =k,Wn)
k=1( I )




I
[0067]αβ{ {tWk.......tw/ })^ak (tWt) X β, (tWi) X Π Λ (Cj ,人)

<=*+ι( 2 )

m
[0068]A: I iJ,) = Σ ai(々)x 尸(H w,.), ,., p.,


I < / < I <: j < m 門)

m
_9]隊、=分如我、丨丨Wwww (4)
[0070] MU,…r " ==K})
L 」Wtan+l{ROOT) PnJROOT) an+l{ROOT) (5)[0071]公式(1):wn是待識別數據中的第n個單詞(按照書寫習慣從左到右的順序);twn是第n個詞的單詞類別,tw+1是第n+1個詞的單詞類別;i和j表示單詞類別,二者可以相同,也可以不相同;
【權利要求】
1.一種實體詞識別方法,其特征在于,包括以下步驟: 接收待識別數據,對所述待識別數據按照第一預定規(guī)則切分得到分組數據; 按照第二預定規(guī)則抽取所述每一組分組數據的特征,基于各特征的權重和預定單詞類別計算每一組分組數據所屬的類別組合以及概率; 從每一組分組數據所屬的類別組合中選取其中包含的實體詞,并計算所述各實體詞的識別概率; 按照所述各實體詞的概率大小對實體詞進行排序。
2.如權利要求1所述的實體詞識別方法,其特征在于,所述預定單詞類別包括無關詞、左邊詞、右邊詞、中間詞和獨立詞,所述從每一組分組數據所屬的類別組合中選取其中包含的實體詞根據如下方式確定: 若某個類別組合中包含有獨立詞,則確定該獨立詞為該類別組合中包含的實體詞;和若某個類別中包含有左邊詞和右邊詞,且所述左邊詞和右邊詞之間沒有其他類別的詞語或只有中間詞,則確定從該左邊詞到右邊詞的組合為實體詞。
3.如權利要求1所述的實體詞識別方法,其特征在于,計算所述各實體詞的識別概率包括: 選取包含有某個實體詞的所有類別組合; 將所述所有類別組合的概率相加得到所述實體詞的識別概率。
4.如權利要求1至3任一項所述的實體詞識別方法,其特征在于,所述方法通過訓練好的模型實現(xiàn)數據處理。
5.如權利要求4所述的實體詞識別方法,其特征在于,所述在所述各步驟之前還包括: 準備訓練數據,對模型進行訓練。
6.如權利要求5所述的實體詞識別方法,其特征在于,所述準備訓練數據包括采用自動標注的方式進行準備,包括以下步驟: 獲取待識別數據,判斷其中是否包含有與某個實體詞詞典中匹配的文本,若有,則記錄所述文本; 統(tǒng)計包含有所述文本的實體詞詞典的數量,并根據所述數量與每個實體詞詞典的優(yōu)先級確定所述文本的分數; 根據所述分數對待識別數據中的文本進行標注。
7.一種實體詞識別裝置,其特征在于,包括: 數據接收模塊,用于接收待識別數據,對所述待識別數據按照第一預定規(guī)則切分得到分組數據; 類別組合概率計算模塊,按照第二預定規(guī)則抽取所述每一組分組數據的特征,基于各特征的權重和預定單詞類別計算每一組分組數據所屬的類別組合以及概率; 實體詞識別概率計算模塊,用于從每一組分組數據所屬的類別組合中選取其中包含的實體詞,并計算所述各實體詞的識別概率; 排序模塊,用于按照所述各實體詞的概率大小對實體詞進行排序。
8.如權利要求7所述的實體詞識別裝置,其特征在于,所述預定單詞類別包括無關詞、左邊詞、右邊詞、中間詞和獨立詞,所述實體詞識別概率計算模塊包括: 實體詞識別單元,用于識別類別組合中的實體詞,采用如下方式實現(xiàn):若某個類別組合中包含有獨立詞,則確定該獨立詞為該類別組合中包含的實體詞;和若某個類別中包含有左邊詞和右邊詞,且所述左邊詞和右邊詞之間沒有其他類別的詞語或只有中間詞,則確定從該左邊詞到右邊詞的組合為實體詞。
9.如權利要求7所述的實體詞識別裝置,其特征在于,實體詞識別概率計算模塊包括: 類別組合選取子模塊,用于選取包含有某個實體詞的所有類別組合; 計算子模塊,用于將所述所有類別組合的概率相加得到所述實體詞的識別概率。
10.如權利要求7至9任一項所述的實體詞識別裝置,其特征在于,所述數據接收模塊、類別組合及實體詞確定模 塊、類別組合概率計算模塊、識別概率計算模塊和排序模塊置于訓練好的模型中,所述裝置還包括: 模型訓練模塊,用于準備訓練數據,對模型進行訓練。
11.如權利要求10所述的實體詞識別裝置,其特征在于,所述模型訓練模塊包括數據準備子模塊,所述數據準備子模塊包括: 匹配單元,用于獲取待識別數據,判斷其中是否包含有與某個實體詞詞典中匹配的文本,若有,則記錄所述文本; 統(tǒng)計單元,用于統(tǒng)計包含有所述文本的實體詞詞典的數量,并根據所述數量與每個實體詞詞典的優(yōu)先級確定所述文本的分數; 標注單元,用于根據所述分數對待識別數據中的文本進行標注。
【文檔編號】G06F17/30GK103678336SQ201210326664
【公開日】2014年3月26日 申請日期:2012年9月5日 優(yōu)先權日:2012年9月5日
【發(fā)明者】廖劍, 吳克文, 張永剛, 林鋒 申請人:阿里巴巴集團控股有限公司
網友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1