本發(fā)明涉及電子技術領域,具體涉及數(shù)據(jù)處理技術領域,尤其一種數(shù)據(jù)處理方法及裝置。
背景技術:
在地理信息系統(tǒng)中,地標(Point of Interest,POI)用于標識出該地所代表的政府部門、商業(yè)機構(加油站、百貨公司、超市、餐廳、酒店、便利商店、醫(yī)院等)、旅游景點(公園、公共廁所等)、古跡名勝等處所。在實際的應用中,通常需要對POI文字序列進行相應的數(shù)據(jù)處理,例如對POI文字序列進行分類,或者識別POI文字序列中的主子點層次關系等等?,F(xiàn)有技術中,實現(xiàn)這些數(shù)據(jù)處理時,通常首先將POI文字序列劃分為多個分詞,然后根據(jù)預先設定的數(shù)據(jù)處理規(guī)則進行相應的數(shù)據(jù)處理。例如在對POI文字序列進行分類時,POI文字序列為“北京協(xié)和醫(yī)院南門”,將POI文字序列劃分為四個分詞,分別為“北京”“協(xié)和”“醫(yī)院”“南門”,通常預先設定的分類數(shù)據(jù)處理規(guī)則是,根據(jù)最后一個分詞進行分類,由于在“北京協(xié)和醫(yī)院南門”中的最后一個分詞為“南門”,因此在分類時會導致分類錯誤,因為實際上分詞“醫(yī)院”才能表明該POI文字序列的所屬類別。又例如在識別POI文字序列中的主子點層次關系時,POI文字序列為“北京大學物理學院圖書館”,將POI文字序列劃分為五個分詞,分別為“北京”“大學”“物理”“學院”“圖書館”,則通常預先設定的層次關系識別數(shù)據(jù)處理規(guī)則是,將每一個分詞進行分析,識別它們彼此之間是否存在層次關系,最后確定出“大學”“學院”“圖書館”之間存在主子點層次關系,這種識別方式效率很低,需要對每一個分詞進行識別分析。因此現(xiàn)有技術中要么是平等對待POI文字序列中的各個分詞,要么是對固定某一個位置的分詞進行數(shù)據(jù)處理,由于中文博大精深,這種數(shù)據(jù)處理方式往往準確率不高,并且處理效率也比較低。
技術實現(xiàn)要素:
本發(fā)明實施例提供一種數(shù)據(jù)處理方法及裝置,僅對角色標注序列中的特定角色標注分詞進行相應的數(shù)據(jù)處理,提高了數(shù)據(jù)處理效率,并且準確率也比較高。
本發(fā)明第一方面提供一種數(shù)據(jù)處理方法,可包括:
獲取地標文字序列,將所述地標文字序列劃分為至少一個分詞;
將所述至少一個分詞中每一個分詞進行角色標注,并獲得角色標注序列,所述角色標注用于指示所述分詞所屬的語義類別;
對所述角色標注序列中的特定角色標注分詞進行相應的數(shù)據(jù)處理。
本發(fā)明第二方面提供一種數(shù)據(jù)處理裝置,可包括:
劃分模塊,用于獲取地標文字序列,將所述地標文字序列劃分為至少一個分詞;
標注模塊,用于將所述至少一個分詞中每一個分詞進行角色標注,并獲得角色標注序列,所述角色標注用于指示所述分詞所屬的語義類別;
數(shù)據(jù)處理模塊,用于對所述角色標注序列中的特定角色標注分詞進行相應的數(shù)據(jù)處理。
實施本發(fā)明實施例,具有如下有益效果:
本發(fā)明實施例,獲取地標文字序列,將該地標文字序列劃分為至少一個分詞,將該至少一個分詞中每一個分詞進行角色標注,并獲得角色標注序列,角色標注用于指示該分詞所屬的語義類別,對角色標注序列中的特定角色標注分詞進行相應的數(shù)據(jù)處理。這種方式只對角色標注序列中的特定角色標注分詞進行相應的數(shù)據(jù)處理,不需要將地標文字序列中每一個分詞都進行分析處理,因此提高了數(shù)據(jù)處理效率,并且特定角色標注分詞的特定角色也能夠表明分詞的所屬語義類別,因此也提高了數(shù)據(jù)處理的準確率。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1為本發(fā)明實施例提供的一種數(shù)據(jù)處理方法的流程圖;
圖2為本發(fā)明實施例提供的另一種數(shù)據(jù)處理方法的流程圖;
圖3為本發(fā)明實施例提供的一種角色體系框圖;
圖4為本發(fā)明實施例提供的一種角色體系概覽圖;
圖5為本發(fā)明實施例提供的一種相似語義度角色詞的挖掘模型示意圖;
圖6為本發(fā)明實施例提供的一種角色標注算法整體框圖;
圖7為本發(fā)明實施例提供的一種數(shù)據(jù)處理裝置的結構示意圖;
圖8為本發(fā)明實施例提供的一種標注模塊的結構示意圖;
圖9為本發(fā)明實施例提供的另一種數(shù)據(jù)處理裝置的結構示意圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域普通技術人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
下面將結合附圖1-附圖6,對本發(fā)明實施例提供的數(shù)據(jù)處理方法進行詳細介紹。
請參照圖1,為本發(fā)明實施例提供的一種數(shù)據(jù)處理方法的流程圖;該方法可包括以下步驟S100-步驟S102。
S100,獲取地標文字序列,將所述地標文字序列劃分為至少一個分詞;
具體實施例中,地標文字序列即是POI文字序列,是地理信息系統(tǒng)中表示某個處所的地標,景點,例如,用以標示出該地所代表的政府部門,商業(yè)機構(加油站、百貨公司、超市、餐廳、酒店、便利商店、醫(yī)院等)、旅游景點(公園、公共廁所等)、古跡名勝、交通設施(各式車站、停車場、超速照相機、速限標示)等處所。獲取POI文字序列,并將POI文字序列劃分為至少一個分詞,具體的劃分方法可以是根據(jù)POI文字序列中各個文字之間的組詞或者預設分詞數(shù)量進行劃分,例如,若地標文字序列為“北京協(xié)和醫(yī)院”,則可以劃分為三個分詞,分別為“北京”“協(xié)和”“醫(yī)院”。
S101,將所述至少一個分詞中每一個分詞進行角色標注,并獲得角色標注序列,所述角色標注用于指示所述分詞所屬的語義類別;
具體實施例中,角色即是POI文字序列中各個分詞的語義類別,角色標注 即是將POI文字序列中各個分詞標注為不同的角色,用以指明此分詞所指示的語義類別。POI文字序列中主要是由地名和機構名組成,同時還可能包含地標詞、連鎖店等特殊分詞。并且同一個分詞在日常對話與POI文字序列中常呈現(xiàn)不同的語義特征。例如:在日常對話中,“美好”一詞主要起形容描述作用,如“美好的一天”;但在POI文字序列中,“美好”可能更傾向于是一個專有名稱,起指代作用,如“美好飯店”。因此對于POI文字序列中各分詞的角色的識別與標注,需要一套專門的體系框架,如圖3所示,為本發(fā)明實施例提供的角色標注體系框圖,該體系分為標注層和提取層,標注層用于對POI文字序列中各個分詞實現(xiàn)角色標注,形成角色標注序列,如圖所示,各個分詞的角色可以包括基本角色和細分角色,基本角色可以包括但不限于類別詞、泛類別詞、地名、專名、業(yè)務詞、修飾詞、方位詞、位置子點、介詞與連詞、標點符號、英文詞以及數(shù)量詞等等。細分角色即是對基本角色中某個角色的詳細劃分,如圖所示,例如,可以對地名這個角色進一步劃分為省、市、縣、鎮(zhèn)、村、道路、街道、門牌號。如圖4所示,對各個角色名稱的意義進行了解釋說明,并舉例進行進一步的闡述。
具體的,對至少一個分詞中每一個分詞進行角色標注的具體標注方法可以是通過查找角色詞表中是否存在與該分詞匹配的登錄詞,若存在,則將該登錄詞對應的角色確定為該分詞的角色,也可以是通過預先建立的模型參數(shù)和該分詞在POI文字序列中的位置參數(shù)進行計算,獲得該分詞的角色。
S102,對所述角色標注序列中的特定角色標注分詞進行相應的數(shù)據(jù)處理。
具體實施例中,對POI文字序列中各個分詞進行角色標注后獲得角色標注序列,該角色標注序列中包括多個角色標注分詞。當需要進行某種數(shù)據(jù)處理時,只需要從角色標注序列中的多個角色標注分詞中提取出特定角色標注分詞進行相應的數(shù)據(jù)處理。該特定角色標注分詞需要根據(jù)具體的數(shù)據(jù)處理所確定,如圖3所示,具體由提取層提取特定角色標注分詞,并根據(jù)特定角色標注分詞進行相應的數(shù)據(jù)處理,例如提取層可以根據(jù)標注層所標注的類別詞角色標注分詞識別POI文字序列中的主子點層級關系,也可以根據(jù)標注層所標注的專名角色標注分詞提取POI文字序列中的主體詞等等。
可選的,對角色標注序列中的特定角色標注分詞進行數(shù)據(jù)處理可以有以下兩種可選的實施方式:
在第一種可選的實施方式中,若所述角色標注序列中包括類別詞角色標注分詞;選取所述角色標注序列中的類別詞角色標注分詞,并根據(jù)所述類別詞角色標注分詞確定所述地標文字序列中的層次關系。
具體實施例中,根據(jù)基礎層(圖3,圖4中的“標注層”)角色標注結果中的類別詞角色標注分詞的指示作用,識別POI文字序列中的層次關系。例如:POI文字序列為“北京大學物理學院圖書館”,從中可以找出“大學”,“學院”,“圖書館”三個類別詞角色標注分詞,因此POI文字序列中存在三層的主子點層次關系。
需要說明的是,有些類別詞角色標注分詞本身不具備主子點層次關系。例如:POI文字序列為“招商銀行ATM(銀科大廈)”,其中的類別詞“銀行”和“ATM”具有主子點層次關系,但“ATM”和“大廈”則不具備主子點層次關系。
因此,本發(fā)明實施例可以進一步根據(jù)類別詞角色標注分詞的屬性確定是否有沖突進行進一步挖掘,識別出真正具有層次關系的類別詞角色標注分詞,從而提升層次關系的準確率。例如:“銀行”和“ATM”屬于大點套小點關系,符合邏輯;“ATM”和“大廈”屬性關系則為小點套大點關系,不符合現(xiàn)實,故前者是真正的主子點層次關系,而后者不是。因此本發(fā)明實施例還可以根據(jù)其余的類別詞角色分詞的屬性進行判斷,在此不再贅述。
在第二種可選的實施方式中,從所述角色標注序列中查找與預設角色匹配的角色標注分詞,并根據(jù)所述角色標注分詞提取所述地標文字序列中的關鍵詞。
具體實施例中,結合圖3所述的基于POI文字序列中各個分詞的語義類別所建立的角色體系,本發(fā)明可根據(jù)角色標注結果,給出POI文字序列中各個分詞的大致語義重要度,即是提取出地標文字序列中的關鍵詞。在本發(fā)明實施例中,POI文字序列中的關鍵詞通??梢悦枋鯬OI文字序列的唯一性、專有性和指代性。按照不同角色標注分詞對POI文字序列的唯一性、專有性和指代性描述程度高低,通常可將各個角色進行排序,分別為:專名>類別詞>業(yè)務詞>修飾詞。預設角色可以根據(jù)具體情況進行確定,例如,預設角色可以是專名,若該POI文字序列中無專名則預設角色可以是類別詞。通過與預設角色匹配的角色標注分詞,可以提取出POI文字序列中的關鍵詞,用以唯一指代該POI文字序列。
需要說明的是,上述各個角色排序也會根據(jù)特定情況而變化,例如POI文字序列為“中國技術交易大廈”中的“中國”雖然是專名,但其專有性和語義重要度比作為業(yè)務詞的“技術”“交易”低,因此在實際應用中會根據(jù)各個角色標注分詞出 現(xiàn)的位置等特征進行進一步處理,在此不再贅述。
本發(fā)明實施例,獲取地標文字序列,將該地標文字序列劃分為至少一個分詞,將該至少一個分詞中每一個分詞進行角色標注,并獲得角色標注序列,角色標注用于指示該分詞所屬的語義類別,對角色標注序列中的特定角色標注分詞進行相應的數(shù)據(jù)處理。這種方式只對角色標注序列中的特定角色標注分詞進行相應的數(shù)據(jù)處理,不需要將地標文字序列中每一個分詞都進行分析處理,因此提高了數(shù)據(jù)處理效率,并且特定角色標注分詞的特定角色也能夠表明分詞的所屬語義類別,因此也提高了數(shù)據(jù)處理的準確率。
請參照圖2,為本發(fā)明實施例提供的另一種數(shù)據(jù)處理方法的流程圖;該方法可包括以下步驟S200-步驟S208。
S200,獲取角色標準集,所述角色標準集中包括預設數(shù)量的標準角色標注序列;
具體實施例中,從自然語言處理的角度看,角色標注可看作經(jīng)典的序列標注問題;學術界已經(jīng)存在很多模型去解決這個問題,本技術方案中采用經(jīng)典的隱馬爾可夫模型(Hidden Markov Model,HMM)去解決這個問題。選用HMM的原因是易于實現(xiàn)、易于理解、易于和規(guī)則結合。
通常HMM的模型訓練需要標注一定量級的標準集;因此在進行模型訓練之前獲取包括預設數(shù)量的標準角色標注序列的角色標準集,該角色標準集中的標準角色標注序列可以是人工進行標注的,以便于后續(xù)基于該角色標準集進行模型訓練。此外,通過對大量的POI文字序列分析發(fā)現(xiàn),POI文字序列中的各個分詞使用帶有明顯的長尾特征;本發(fā)明通過訓練角色標準集中角色之間的轉移概率,而更多挖掘角色詞表中的新增詞匯。
S201,將所述角色標準集中的所述標準角色標注序列作為模型訓練的輸入,并獲得所述模型參數(shù)。
具體實施例中,獲取標注了預設數(shù)量標準角色標注序列的角色標準集,將角色標準集中的標準角色標注序列作為模型訓練的輸入,并進行模型訓練??蛇x的,從角色標準集中統(tǒng)計發(fā)射概率和生成概率,利用詞表和詞綴對發(fā)射概率進行加權,獲得用于后續(xù)進行角色計算以及詞匯挖掘的模型參數(shù)。
S202,利用所述模型參數(shù),挖掘新增詞匯,并將所述新增詞匯以及所述新 增詞匯對應的角色添加進所述角色標準集中;
具體實施例中,利用所獲得的模型參數(shù)挖掘新增詞匯,例如,在已有的角色標準集基礎上,利用詞語向量計算模型訓練學習詞語的向量表示,并利用所獲得的模型參數(shù)可以得出不同詞語之間的語義相似度。針對未登錄詞(即是該詞未在角色詞表中),基于語義相似的詞應該具有同樣角色的原理,將語義相似度作為一項重要特征加入到角色標注訓練模型中。如圖5所示,“披薩”為已知角色的業(yè)務詞,則和它語義相似的詞有很大概率是業(yè)務詞。如圖5所示利用模型訓練后挖掘出與“披薩”語義相似的很多新增詞匯,這些新增詞匯的角色很大概率就是業(yè)務詞,將新增詞匯以及新增詞匯對應的角色添加進角色標準集中。
進一步基于POI語義類別所建立的角色體系基礎上,利用模型參數(shù)本發(fā)明可進一步根據(jù)一些常見的模式組合,挖掘新增詞匯。比如類別詞+某某+泛類別詞,其中的“某某”通常是業(yè)務詞,舉例來說:“日壇公園攀巖場”,已知“公園”和“場”分別為類別詞和泛類別詞,那么“攀巖”就是業(yè)務詞。
此外,由于角色詞表中包含大量未登錄的機構名,并且不同角色可能識別錯誤,尤其是專名、業(yè)務詞和類別詞三個角色之間,很容易識別錯誤。而從直觀上講,不同角色的分詞用字各有特點,例如,“仁、德”這些字經(jīng)常做專名,“血、菜”經(jīng)常做業(yè)務詞。因此,本發(fā)明基于已有的標準角色集訓練的分類器很好的解決了這個問題;一方面,可以通過分類器驗證已有角色詞表的準確率,并發(fā)現(xiàn)新增詞匯加入角色詞表;另一方面可以作為在線分類的模塊加入到角色標注模型中。
S203,將包含所述新增詞匯的角色標準集確定為所述角色詞表。
具體實施例中,將包含上述新增詞匯的角色標準集確定為角色詞表,便于后續(xù)進行角色標注。
進一步的,本發(fā)明還可以整理各角色常見的角色詞表,并從中總結出角色詞語的特點,主要是后綴字以及各角色用字特點,便于進行后續(xù)進行新增詞匯的進一步挖掘。
S204,獲取地標文字序列,將所述地標文字序列劃分為至少一個分詞;
本發(fā)明實施例步驟S204請參照圖1實施例步驟S100,在此不再贅述。
S205,針對每一個所述分詞,查找角色詞表,判斷所述角色詞表中是否存在與所述分詞匹配的登錄詞;
具體實施例中,將POI文字序列劃分為至少一分詞后,針對每一個分詞,查找角色詞表,判斷角色詞表中是否存在與該分詞匹配的登錄詞,該角色詞表即是前述包括新增詞匯的標準角色集,角色詞表中標注了登錄詞的角色。
S206,若所述角色詞表中存在與所述分詞匹配的登錄詞,則將與所述分詞匹配的登錄詞對應的角色確定為所述分詞的角色,并進行角色標注;
具體實施例中,若角色詞表中存在與分詞匹配的登錄詞,則直接從角色詞表中提取該登錄詞對應的角色,并將所提取的角色確定為該分詞的角色,進行角色標注。
可選的,若與所述分詞匹配的登錄詞對應的角色包括至少兩個;確定分詞的角色可以包括以下步驟S20-S21:
S20,獲取所述分詞在所述地標文字序列中的前一個分詞的角色和所述分詞在所述地標文字序列中的后一個分詞的角色;
具體的,當角色詞表中與該分詞匹配的登錄詞對應的角色包括至少兩個,則需要進行消歧處理,根據(jù)上下文語境選擇正確的角色。即是獲取該分詞在POI文字序列中的前一個分詞的角色和后一個分詞的角色,例如若POI文字序列為“日壇公園攀巖場”,其中的“攀巖”可能為業(yè)務詞,也可能為專名,具體需要根據(jù)上下文語境進行確定,獲取前一個分詞“公園”的角色為類別詞,后一個分詞“場”的角色為泛類別詞。
S21,根據(jù)所述前一個分詞的角色和所述后一個分詞的角色,從所述至少兩個角色中選擇一個角色確定為所述分詞的角色。
具體的,根據(jù)前一個分詞的角色和后一個分詞的角色可以從至少兩個角色中選擇一個恰當?shù)慕巧?,繼續(xù)以上述“日壇公園攀巖場”為例,根據(jù)一些常見角色組合,那么“攀巖”就是業(yè)務詞。
S207,若所述角色詞表中不存在與所述分詞匹配的登錄詞,利用預先建立的模型參數(shù)以及所述分詞在所述地標文字序列中的位置參數(shù)進行計算,獲得所述分詞的角色,并進行角色標注。
具體實施例中,若角色詞表中不存在與分詞匹配的登錄詞,則需要利用預先建立的模型參數(shù)以及分詞在POI文字序列中的位置參數(shù)進行計算,獲得分詞的角色,并進行角色標注。需要說明的是,當通過模型參數(shù)計算出某個分詞的詞頻小于一定值,則加大專名的識別權重。
S208,將每一個進行角色標注的所述分詞組成角色標注序列。
具體實施例中,將POI文字序列中進行角色標注的分詞組成角色標注序列,便于后續(xù)進行數(shù)據(jù)處理。數(shù)據(jù)處理可以是只關心角色標注序列中某一些角色標注分詞。
S209,對所述角色標注序列中的特定角色標注分詞進行相應的數(shù)據(jù)處理。
本發(fā)明實施例步驟S209請參照圖1的實施例步驟S102,在此不再贅述。
本發(fā)明實施例,獲取地標文字序列,將該地標文字序列劃分為至少一個分詞,將該至少一個分詞中每一個分詞進行角色標注,并獲得角色標注序列,角色標注用于指示該分詞所屬的語義類別,對角色標注序列中的特定角色標注分詞進行相應的數(shù)據(jù)處理。這種方式只對角色標注序列中的特定角色標注分詞進行相應的數(shù)據(jù)處理,不需要將地標文字序列中每一個分詞都進行分析處理,因此提高了數(shù)據(jù)處理效率,并且特定角色標注分詞的特定角色也能夠表明分詞的所屬語義類別,因此也提高了數(shù)據(jù)處理的準確率。
請參照圖6,為本發(fā)明實施例提供的一種角色標注算法整體框圖,如圖所示,本發(fā)明實施例包括以下步驟:
S600,對輸入序列進行分詞;
S601,利用模型計算最優(yōu)角色序列;
上述具體過程可以是通過所訓練出的模型計算最優(yōu)角色序列,所述模型是通過標準角色集中標準角色序列進行訓練出的。
S602,利用詞表和序列結果細化角色;
上述詞表為角色詞表,在最優(yōu)角色序列中若可以進一步細化角色,則利用角色詞表和序列結果進行進一步的細化,例如,地名可以進一步細化為省、市、縣、鎮(zhèn)、村等等。
S603,角色序列修正模塊;
利用上述角色序列修正模塊對進行角色標注的角色標注序列進行修正,以獲得最佳角色標注序列。
S604,利用規(guī)則抽取出提取層角色;
利用預先設定的數(shù)據(jù)處理規(guī)則抽取出提取層角色,例如,預先設定數(shù)據(jù)處理規(guī)則可以為抽取提取層的類別詞角色標注分詞作為語義分隔邊界,進而確定 出POI文字序列中的層次關系。
下面將結合附圖7-附圖9,對本發(fā)明實施例提供的一種數(shù)據(jù)處理裝置進行詳細介紹。
請參閱圖7,為本發(fā)明實施例提供的一種數(shù)據(jù)處理裝置的結構示意圖;該裝置可包括:劃分模塊100、標注模塊101以及數(shù)據(jù)處理模塊102;
劃分模塊100,用于獲取地標文字序列,將所述地標文字序列劃分為至少一個分詞;
具體實施例中,地標文字序列即是POI文字序列,是地理信息系統(tǒng)中表示某個處所的地標,景點,例如,用以標示出該地所代表的政府部門,商業(yè)機構(加油站、百貨公司、超市、餐廳、酒店、便利商店、醫(yī)院等)、旅游景點(公園、公共廁所等)、古跡名勝、交通設施(各式車站、停車場、超速照相機、速限標示)等處所。劃分模塊100獲取POI文字序列,并將POI文字序列劃分為至少一個分詞,具體的劃分方法可以是根據(jù)POI文字序列中各個文字之間的組詞或者預設分詞數(shù)量進行劃分,例如,若地標文字序列為“北京協(xié)和醫(yī)院”,則可以劃分為三個分詞,分別為“北京”“協(xié)和”“醫(yī)院”。
標注模塊101,用于將所述至少一個分詞中每一個分詞進行角色標注,并獲得角色標注序列,所述角色標注用于指示所述分詞所屬的語義類別;
具體實施例中,角色即是POI文字序列中各個分詞的語義類別,角色標注即是將POI文字序列中各個分詞標注為不同的角色,用以指明此分詞所指示的語義類別。POI文字序列中主要是由地名和機構名組成,同時還可能包含地標詞、連鎖店等特殊分詞。并且同一個分詞在日常對話與POI文字序列中常呈現(xiàn)不同的語義特征。例如:在日常對話中,“美好”一詞主要起形容描述作用,如“美好的一天”;但在POI文字序列中,“美好”可能更傾向于是一個專有名稱,起指代作用,如“美好飯店”。因此對于POI文字序列中各分詞的角色的識別與標注,需要一套專門的體系框架,如圖3所示,為本發(fā)明實施例提供的角色標注體系框圖,該體系分為標注層和提取層,標注層用于對POI文字序列中各個分詞實現(xiàn)角色標注,形成角色標注序列,如圖所示,各個分詞的角色可以包括基本角色和細分角色,基本角色可以包括但不限于類別詞、泛類別詞、地名、專名、業(yè)務詞、修飾詞、方位詞、位置子點、介詞與連詞、標點符號、英文詞以及數(shù) 量詞等等。細分角色即是對基本角色中某個角色的詳細劃分,如圖所示,例如,可以對地名這個角色進一步劃分為省、市、縣、鎮(zhèn)、村、道路、街道、門牌號。如圖4所示,對各個角色名稱的意義進行了解釋說明,并舉例進行進一步的闡述。
具體的,標注模塊101對至少一個分詞中每一個分詞進行角色標注的具體標注方法可以是通過查找角色詞表中是否存在與該分詞匹配的登錄詞,若存在,則將該登錄詞對應的角色確定為該分詞的角色,也可以是通過預先建立的模型參數(shù)和該分詞在POI文字序列中的位置參數(shù)進行計算,獲得該分詞的角色。
數(shù)據(jù)處理模塊102,用于對所述角色標注序列中的特定角色標注分詞進行相應的數(shù)據(jù)處理。
具體實施例中,對POI文字序列中各個分詞進行角色標注后獲得角色標注序列,該角色標注序列中包括多個角色標注分詞。當需要進行某種數(shù)據(jù)處理時,數(shù)據(jù)處理模塊102只需要從角色標注序列中的多個角色標注分詞中提取出特定角色標注分詞進行相應的數(shù)據(jù)處理。該特定角色標注分詞需要根據(jù)具體的數(shù)據(jù)處理所確定,如圖3所示,具體由提取層提取特定角色標注分詞,并根據(jù)特定角色標注分詞進行相應的數(shù)據(jù)處理,例如提取層可以根據(jù)標注層所標注的類別詞角色標注分詞識別POI文字序列中的主子點層級關系,也可以根據(jù)標注層所標注的專名角色標注分詞提取POI文字序列中的主體詞等等。
可選的,若所述角色標注序列中包括類別詞角色標注分詞;
數(shù)據(jù)處理模塊102具體用于選取所述角色標注序列中的類別詞角色標注分詞,并根據(jù)所述類別詞角色標注分詞確定所述地標文字序列中的層次關系。
具體實施例中,數(shù)據(jù)處理模塊102根據(jù)基礎層(圖3,圖4中的“標注層”)角色標注結果中的類別詞角色標注分詞的指示作用,識別POI文字序列中的層次關系。例如:POI文字序列為“北京大學物理學院圖書館”,從中可以找出“大學”,“學院”,“圖書館”三個類別詞角色標注分詞,因此POI文字序列中存在三層的主子點層次關系。
需要說明的是,有些類別詞角色標注分詞本身不具備主子點層次關系。例如:POI文字序列為“招商銀行ATM(銀科大廈)”,其中的類別詞“銀行”和“ATM”具有主子點層次關系,但“ATM”和“大廈”則不具備主子點層次關系。
因此,本發(fā)明實施例可以進一步根據(jù)類別詞角色標注分詞的屬性確定是否有 沖突進行進一步挖掘,識別出真正具有層次關系的類別詞角色標注分詞,從而提升層次關系的準確率。例如:“銀行”和“ATM”屬于大點套小點關系,符合邏輯;“ATM”和“大廈”屬性關系則為小點套大點關系,不符合現(xiàn)實,故前者是真正的主子點層次關系,而后者不是。因此本發(fā)明實施例還可以根據(jù)其余的類別詞角色分詞的屬性進行判斷,在此不再贅述。
可選的,數(shù)據(jù)處理模塊102具體用于從所述角色標注序列中查找與預設角色匹配的角色標注分詞,并根據(jù)所述角色標注分詞提取所述地標文字序列中的關鍵詞。
具體實施例中,結合圖3所述的基于POI文字序列中各個分詞的語義類別所建立的角色體系,本發(fā)明可根據(jù)角色標注結果,給出POI文字序列中各個分詞的大致語義重要度,即是提取出地標文字序列中的關鍵詞。在本發(fā)明實施例中,POI文字序列中的關鍵詞通??梢悦枋鯬OI文字序列的唯一性、專有性和指代性。按照不同角色標注分詞對POI文字序列的唯一性、專有性和指代性描述程度高低,通??蓪⒏鱾€角色進行排序,分別為:專名>類別詞>業(yè)務詞>修飾詞。預設角色可以根據(jù)具體情況進行確定,例如,預設角色可以是專名,若該POI文字序列中無專名則預設角色可以是類別詞。通過與預設角色匹配的角色標注分詞,可以提取出POI文字序列中的關鍵詞,用以唯一指代該POI文字序列。
需要說明的是,上述各個角色排序也會根據(jù)特定情況而變化,例如POI文字序列為“中國技術交易大廈”中的“中國”雖然是專名,但其專有性和語義重要度比作為業(yè)務詞的“技術”“交易”低,因此在實際應用中會根據(jù)各個角色標注分詞出現(xiàn)的位置等特征進行進一步處理,在此不再贅述。
本發(fā)明實施例,獲取地標文字序列,將該地標文字序列劃分為至少一個分詞,將該至少一個分詞中每一個分詞進行角色標注,并獲得角色標注序列,角色標注用于指示該分詞所屬的語義類別,對角色標注序列中的特定角色標注分詞進行相應的數(shù)據(jù)處理。這種方式只對角色標注序列中的特定角色標注分詞進行相應的數(shù)據(jù)處理,不需要將地標文字序列中每一個分詞都進行分析處理,因此提高了數(shù)據(jù)處理效率,并且特定角色標注分詞的特定角色也能夠表明分詞的所屬語義類別,因此也提高了數(shù)據(jù)處理的準確率。
請參照圖8,為本發(fā)明實施例提供的一種標注模塊的結構示意圖,如圖所示, 標注模塊101包括:
查找單元1010,用于針對每一個所述分詞,查找角色詞表,判斷所述角色詞表中是否存在與所述分詞匹配的登錄詞;
具體實施例中,將POI文字序列劃分為至少一分詞后,查找單元1010針對每一個分詞,查找角色詞表,判斷角色詞表中是否存在與該分詞匹配的登錄詞,該角色詞表即是前述包括新增詞匯的標準角色集,角色詞表中標注了登錄詞的角色。
標注單元1011,用于若所述角色詞表中存在與所述分詞匹配的登錄詞,則將與所述分詞匹配的登錄詞對應的角色確定為所述分詞的角色,并進行角色標注;
具體實施例中,若角色詞表中存在與分詞匹配的登錄詞,標注單元1011則直接從角色詞表中提取該登錄詞對應的角色,并將所提取的角色確定為該分詞的角色,進行角色標注。
可選的,若與所述分詞匹配的登錄詞對應的角色包括至少兩個;標注單元1011可以包括獲取子單元和選擇子單元;
獲取子單元,用于獲取所述分詞在所述地標文字序列中的前一個分詞的角色和所述分詞在所述地標文字序列中的后一個分詞的角色;
具體的,當角色詞表中與該分詞匹配的登錄詞對應的角色包括至少兩個,則需要進行消歧處理,根據(jù)上下文語境選擇正確的角色。即是獲取子單元獲取該分詞在POI文字序列中的前一個分詞的角色和后一個分詞的角色,例如若POI文字序列為“日壇公園攀巖場”,其中的“攀巖”可能為業(yè)務詞,也可能為專名,具體需要根據(jù)上下文語境進行確定,獲取前一個分詞“公園”的角色為類別詞,后一個分詞“場”的角色為泛類別詞。
選擇子單元,用于根據(jù)所述前一個分詞的角色和所述后一個分詞的角色,從所述至少兩個角色中選擇一個角色確定為所述分詞的角色。
具體的,選擇子單元根據(jù)前一個分詞的角色和后一個分詞的角色可以從至少兩個角色中選擇一個恰當?shù)慕巧?,繼續(xù)以上述“日壇公園攀巖場”為例,根據(jù)一些常見角色組合,那么“攀巖”就是業(yè)務詞。
組成單元1012,用于將每一個進行角色標注的所述分詞組成角色標注序列。
具體實施例中,組成單元1012將POI文字序列中進行角色標注的分詞組成 角色標注序列,便于后續(xù)進行數(shù)據(jù)處理。數(shù)據(jù)處理可以是只關心角色標注序列中某一些角色標注分詞。
可選的,標注模塊101還可以包括計算單元1013;
計算單元1013,用于若所述角色詞表中不存在與所述分詞匹配的登錄詞,利用預先建立的模型參數(shù)以及所述分詞在所述地標文字序列中的位置參數(shù)進行計算,獲得所述分詞的角色,并進行角色標注。
具體實施例中,若角色詞表中不存在與分詞匹配的登錄詞,計算單元1013則需要利用預先建立的模型參數(shù)以及分詞在POI文字序列中的位置參數(shù)進行計算,獲得分詞的角色,并進行角色標注。需要說明的是,當通過模型參數(shù)計算出某個分詞的詞頻小于一定值,則加大專名的識別權重。
本發(fā)明實施例,獲取地標文字序列,將該地標文字序列劃分為至少一個分詞,將該至少一個分詞中每一個分詞進行角色標注,并獲得角色標注序列,角色標注用于指示該分詞所屬的語義類別,對角色標注序列中的特定角色標注分詞進行相應的數(shù)據(jù)處理。這種方式只對角色標注序列中的特定角色標注分詞進行相應的數(shù)據(jù)處理,不需要將地標文字序列中每一個分詞都進行分析處理,因此提高了數(shù)據(jù)處理效率,并且特定角色標注分詞的特定角色也能夠表明分詞的所屬語義類別,因此也提高了數(shù)據(jù)處理的準確率。
請參照圖9,為本發(fā)明實施例提供的另一種數(shù)據(jù)處理裝置的結構示意圖;本實施例的數(shù)據(jù)處理裝置是在圖7所示的數(shù)據(jù)處理裝置基礎上優(yōu)化得到的,如圖9所示,該裝置可包括劃分模塊200、標注模塊201、數(shù)據(jù)處理模塊202、獲取模塊203、模型訓練模塊204、挖掘模塊205以及確定模塊206;其中,劃分模塊200、標注模塊201、數(shù)據(jù)處理模塊202請參照圖7的描述,在此不再贅述。
獲取模塊203,用于獲取角色標準集,所述角色標準集中包括預設數(shù)量的標準角色標注序列;
具體實施例中,從自然語言處理的角度看,角色標注可看作經(jīng)典的序列標注問題;學術界已經(jīng)存在很多模型去解決這個問題,本技術方案中采用經(jīng)典的隱馬爾可夫模型(Hidden Markov Model,HMM)去解決這個問題。選用HMM的原因是易于實現(xiàn)、易于理解、易于和規(guī)則結合。
通常HMM的模型訓練需要標注一定量級的標準集;因此在進行模型訓練 之前獲取模塊203獲取包括預設數(shù)量的標準角色標注序列的角色標準集,該角色標準集中的標準角色標注序列可以是人工進行標注的,以便于后續(xù)基于該角色標準集進行模型訓練。此外,通過對大量的POI文字序列分析發(fā)現(xiàn),POI文字序列中的各個分詞使用帶有明顯的長尾特征;本發(fā)明通過訓練角色標準集中角色之間的轉移概率,而更多挖掘角色詞表中的新增詞匯。
模型訓練模塊204,用于將所述角色標準集中的所述標準角色標注序列作為模型訓練的輸入,并獲得所述模型參數(shù)。
具體實施例中,獲取標注了預設數(shù)量標準角色標注序列的角色標準集,模型訓練模塊204將角色標準集中的標準角色標注序列作為模型訓練的輸入,并進行模型訓練??蛇x的,從角色標準集中統(tǒng)計發(fā)射概率和生成概率,利用詞表和詞綴對發(fā)射概率進行加權,獲得用于后續(xù)進行角色計算以及詞匯挖掘的模型參數(shù)。
挖掘模塊205,用于利用所述模型參數(shù),挖掘新增詞匯,并將所述新增詞匯以及所述新增詞匯對應的角色添加進所述角色標準集中;
具體實施例中,挖掘模塊205利用所獲得的模型參數(shù)挖掘新增詞匯,例如,在已有的角色標準集基礎上,利用詞語向量計算模型訓練學習詞語的向量表示,并利用所獲得的模型參數(shù)可以得出不同詞語之間的語義相似度。針對未登錄詞(即是該詞未在角色詞表中),基于語義相似的詞應該具有同樣角色的原理,將語義相似度作為一項重要特征加入到角色標注訓練模型中。如圖5所示,“披薩”為已知角色的業(yè)務詞,則和它語義相似的詞有很大概率是業(yè)務詞。如圖5所示利用模型訓練后挖掘出與“披薩”語義相似的很多新增詞匯,這些新增詞匯的角色很大概率就是業(yè)務詞,將新增詞匯以及新增詞匯對應的角色添加進角色標準集中。
進一步基于POI語義類別所建立的角色體系基礎上,利用模型參數(shù)本發(fā)明可進一步根據(jù)一些常見的模式組合,挖掘新增詞匯。比如類別詞+某某+泛類別詞,其中的“某某”通常是業(yè)務詞,舉例來說:“日壇公園攀巖場”,已知“公園”和“場”分別為類別詞和泛類別詞,那么“攀巖”就是業(yè)務詞。
此外,由于角色詞表中包含大量未登錄的機構名,并且不同角色可能識別錯誤,尤其是專名、業(yè)務詞和類別詞三個角色之間,很容易識別錯誤。而從直觀上講,不同角色的分詞用字各有特點,例如,“仁、德”這些字經(jīng)常做專名,“血、 菜”經(jīng)常做業(yè)務詞。因此,本發(fā)明基于已有的標準角色集訓練的分類器很好的解決了這個問題;一方面,可以通過分類器驗證已有角色詞表的準確率,并發(fā)現(xiàn)新增詞匯加入角色詞表;另一方面可以作為在線分類的模塊加入到角色標注模型中。
確定模塊206,用于將包含所述新增詞匯的角色標準集確定為所述角色詞表。
具體實施例中,確定模塊206將包含上述新增詞匯的角色標準集確定為角色詞表,便于后續(xù)進行角色標注。
進一步的,本發(fā)明還可以整理各角色常見的角色詞表,并從中總結出角色詞語的特點,主要是后綴字以及各角色用字特點,便于進行后續(xù)進行新增詞匯的進一步挖掘。
本發(fā)明實施例,獲取地標文字序列,將該地標文字序列劃分為至少一個分詞,將該至少一個分詞中每一個分詞進行角色標注,并獲得角色標注序列,角色標注用于指示該分詞所屬的語義類別,對角色標注序列中的特定角色標注分詞進行相應的數(shù)據(jù)處理。這種方式只對角色標注序列中的特定角色標注分詞進行相應的數(shù)據(jù)處理,不需要將地標文字序列中每一個分詞都進行分析處理,因此提高了數(shù)據(jù)處理效率,并且特定角色標注分詞的特定角色也能夠表明分詞的所屬語義類別,因此也提高了數(shù)據(jù)處理的準確率。
本領域普通技術人員可以理解實現(xiàn)上述實施例方法中的全部或部分流程,是可以通過計算機程序來指令相關的硬件來完成,所述的程序可存儲于一計算機可讀取存儲介質(zhì)中,附圖7-附圖9所示數(shù)據(jù)處理裝置的模塊或單元對應的程序可存儲在終端設備或服務器的可讀存儲介質(zhì)內(nèi),并被該終端設備或服務器中的至少一個處理器執(zhí)行,以實現(xiàn)上述流媒體處理方法,該方法包括圖1至圖6中各方法實施例所述的流程。其中,所述的存儲介質(zhì)可為磁碟、光盤、只讀存儲記憶體(Read-Only Memory,ROM)或隨機存儲記憶體(Random Access Memory,RAM)等。
以上所揭露的僅為本發(fā)明較佳實施例而已,當然不能以此來限定本發(fā)明之權利范圍,因此依本發(fā)明權利要求所作的等同變化,仍屬本發(fā)明所涵蓋的范圍。