技術領域
本發(fā)明涉及地理信息系統(tǒng)(GIS)技術領域,更具體地說,涉及一種蘊含地理實體關系的關鍵詞提取方法及裝置。
背景技術:
地理實體關系常用于描述地理實體(或事件)的位置、范圍或空間分布,這對于感知地理世界和構建地理知識系統(tǒng)至關重要。關鍵詞為地理實體關系表達提供了重要依據(jù),關鍵詞提取技術已經(jīng)成為現(xiàn)階段研究熱點。
現(xiàn)有的關鍵詞提取方法主要是頻率統(tǒng)計,從含有地理實體的句子中提取出現(xiàn)頻率次數(shù)較高的詞組作為蘊含地理實體關系的關鍵詞。但是,對于分布稀疏的地理實體關系來說,這種關鍵詞提取方法并不適用。
有鑒于此,如何提取分布稀疏的地理實體關系的關鍵詞,是本領域技術人員亟需解決的問題。
技術實現(xiàn)要素:
有鑒于此,本發(fā)明提供一種蘊含地理實體關系的關鍵詞提取方法及裝置,以解決現(xiàn)有的技術方案不能有效提取分布稀疏的地理實體關系的關鍵詞的問題。技術方案如下:
一種蘊含地理實體關系的關鍵詞提取方法,包括:
從網(wǎng)絡文本中獲取至少一個地理實體對及其對應的原始語境,所述地理實體對包含至少兩個地理實體;
根據(jù)每一個所述地理實體對中各個所述地理實體對應的類型映射表,獲取各個地理實體對類型標簽及其對應的當前原始語境,并且依據(jù)預設同義詞詞典信息對各個所述當前原始語境進行語境增強,得到各個增強語境;
針對每一個所述地理實體對類型標簽,從對應的所述增強語境中獲取關鍵詞選擇語料,并從所述關鍵詞選擇語料中選取至少一個蘊含地理實體關系的關鍵詞。
優(yōu)選的,所述從網(wǎng)絡文本中獲取至少一個地理實體對及其對應的原始語境,包括:
對網(wǎng)絡文本進行斷句分割;
為每一個句子中包含的至少一個詞組添加詞性標簽;
通過對詞性標簽為名詞的各個所述詞組進行地理實體識別,確定各個地理實體對及其對應的原始語境。
優(yōu)選的,所述根據(jù)每一個所述地理實體對中各個所述地理實體對應的類型映射表,獲取各個地理實體對類型標簽及其對應的當前原始語境,并且依據(jù)預設同義詞詞典信息對各個所述當前原始語境進行語境增強,得到各個增強語境,包括:
根據(jù)每一個所述地理實體對中各個所述地理實體對應的類型映射表,獲取各個所述地理實體的類型標簽集合,所述類型標簽集合包含至少一個地理實體類型標簽;
針對每一個所述地理實體,計算對應的各個所述地理實體標簽的第一權值,并選取第一權值最大的地理實體標簽作為地理實體唯一標簽,其中,所述第一權值用于表征地理實體類型標簽準確度;
針對每一個所述地理實體對,根據(jù)各個所述地理實體唯一標簽確定地理實體對類型標簽;
對于地理實體對類型標簽相同的原始語境進行合并,得到唯一存在的各個所述地理實體對類型標簽及其對應的當前原始語境;
依據(jù)預設同義詞詞典信息,對各個所述當前原始語境中的詞組進行同義詞替換,得到各個所述地理實體對類型標簽對應的增強語境。
優(yōu)選的,所述從對應的所述增強語境中獲取關鍵詞選擇語料,包括:
選取至少兩個頻率統(tǒng)計算法;
基于各個所述頻率統(tǒng)計算法,分別從對應的所述增強語境中提取關鍵詞組,所述關鍵詞組包含至少一個關鍵詞;
取各個所述關鍵詞組的交集作為關鍵詞選擇語料。
優(yōu)選的,所述從所述關鍵詞選擇語料中選取至少一個蘊含地理實體關系的關鍵詞,包括:
根據(jù)所述關鍵詞選擇語料選取相應的詞法特征;
根據(jù)所述詞法特征計算所述關鍵詞選擇語料中各個關鍵詞的第二權值,所述第二權值用于表征關鍵詞描述準確度;
通過比較各個所述第二權值,從所述關鍵詞選擇語料中選取至少一個蘊含地理實體關系的關鍵詞。
一種蘊含地理實體關系的關鍵詞提取裝置,包括:獲取模塊、語境增強模塊和關鍵詞選取模塊,所述關鍵詞選取模塊包括關鍵詞選擇語料獲取單元和關鍵詞選取單元;
所述獲取模塊,用于從網(wǎng)絡文本中獲取至少一個地理實體對及其對應的原始語境,所述地理實體對包含至少兩個地理實體;
所述語境增強模塊,用于根據(jù)每一個所述地理實體對中各個所述地理實體對應的類型映射表,獲取各個地理實體對類型標簽及其對應的當前原始語境,并且依據(jù)預設同義詞詞典信息對各個所述當前原始語境進行語境增強,得到各個增強語境;
所述關鍵詞選擇語料獲取單元,用于針對每一個所述地理實體對類型標簽,從對應的所述增強語境中獲取關鍵詞選擇語料,
所述關鍵詞選取單元,用于從所述關鍵詞選擇語料中選取至少一個蘊含地理實體關系的關鍵詞。
優(yōu)選的,所述獲取模塊包括:斷句分割單元、詞性標簽添加單元和地理實體識別單元;
所述斷句分割單元,用于對網(wǎng)絡文本進行斷句分割;
所述詞性標簽添加單元,用于為每一個句子中包含的至少一個詞組添加詞性標簽注;
所述地理實體識別單元,用于通過對詞性標簽為名詞的各個所述詞組進行地理實體識別,確定各個地理實體對及其對應的原始語境。
優(yōu)選的,所述語境增強模塊包括:類型標簽集合獲取單元、計算選取單元、確定單元、原始語境合并單元、同義詞替換單元;
所述類型標簽集合獲取單元,用于根據(jù)每一個所述地理實體對中各個所述地理實體對應的類型映射表,獲取各個所述地理實體的類型標簽集合,所述類型標簽集合包含至少一個地理實體類型標簽;
所述計算選取單元,用于針對每一個所述地理實體,計算對應的各個所述地理實體標簽的第一權值,并選取第一權值最大的地理實體標簽作為地理實體唯一標簽,其中,所述第一權值用于表征地理實體類型標簽準確度;
所述確定單元,用于針對每一個所述地理實體對,根據(jù)各個所述地理實體唯一標簽確定地理實體對類型標簽;
所述原始語境合并單元,用于對于地理實體對類型標簽相同的原始語境進行合并,得到唯一存在的各個所述地理實體對類型標簽及其對應的當前原始語境;
所述同義詞替換單元,用于依據(jù)預設同義詞詞典信息,對各個所述當前原始語境中的詞組進行同義詞替換,得到各個所述地理實體對類型標簽對應的增強語境。
優(yōu)選的,所述關鍵詞選擇語料獲取單元包括:頻率統(tǒng)計算法選取子單元、關鍵詞組提取子單元和關鍵詞選擇語料選取子單元;
所述頻率統(tǒng)計算法選取子單元,用于選取至少兩個頻率統(tǒng)計算法;
所述關鍵詞組提取子單元,用于基于各個所述頻率統(tǒng)計算法,分別從對應的所述增強語境中提取關鍵詞組,所述關鍵詞組包含至少一個關鍵詞;
所述關鍵詞選擇語料選取子單元,用于取各個所述關鍵詞組的交集作為關鍵詞選擇語料。
優(yōu)選的,所述關鍵詞選取單元包括:詞法特征選取子單元、計算子單元和關鍵詞選取子單元;
所述詞法特征選取子單元,用于根據(jù)所述關鍵詞選擇語料選取相應的詞法特征;
所述計算子單元,用于根據(jù)所述詞法特征計算所述關鍵詞選擇語料中各個關鍵詞的第二權值,所述第二權值用于表征關鍵詞描述準確度;
所述關鍵詞選取子單元,用于通過比較各個所述第二權值,從所述關鍵詞選擇語料中選取至少一個蘊含地理實體關系的關鍵詞。
相較于現(xiàn)有技術,本發(fā)明實現(xiàn)的有益效果為:
以上本發(fā)明提供的一種蘊含地理實體關系的關鍵詞提取方法及裝置,該方法根據(jù)各個地理實體的類型映射表確定各個地理實體對類型標簽,并通過合并相同地理實體對類型標簽的原始語境實現(xiàn)增加語境中的詞組數(shù)量;再依據(jù)預設同義詞詞典信息增加語境中的詞組頻數(shù),最終從增強語境中選取蘊含地理實體關系的關鍵詞。由此可見,本發(fā)明公開的方法可有效增強稀疏地理實體關系的關鍵詞識別能力,且能生成大量新關鍵詞,有助于以無監(jiān)督學習方式抽取關鍵詞。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術中的技術方案,下面將對實施例或現(xiàn)有技術描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)提供的附圖獲得其他的附圖。
圖1為本發(fā)明實施例一公開的一種蘊含地理實體關系的關鍵詞提取方法流程圖;
圖2為本發(fā)明實施例二公開的一種蘊含地理實體關系的關鍵詞提取方法部分流程圖;
圖3為本發(fā)明實施例二公開的另一種蘊含地理實體關系的關鍵詞提取方法部分流程圖;
圖4為本發(fā)明實施例二公開的另一種蘊含地理實體關系的關鍵詞提取方法部分流程圖;
圖5為本發(fā)明實施例二公開的另一種蘊含地理實體關系的關鍵詞提取方法部分流程圖;
圖6為本發(fā)明實施例三公開的一種蘊含地理實體關系的關鍵詞提取裝置結構示意圖;
圖7為本發(fā)明實施例四公開的一種蘊含地理實體關系的關鍵詞提取裝置部分結構示意圖;
圖8為本發(fā)明實施例四公開的另一種蘊含地理實體關系的關鍵詞提取裝置部分結構示意圖;
圖9為本發(fā)明實施例四公開的另一種蘊含地理實體關系的關鍵詞提取裝置部分結構示意圖;
圖10為本發(fā)明實施例四公開的另一種蘊含地理實體關系的關鍵詞提取裝置部分結構示意圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述,顯然,所描述的實施例僅僅是本發(fā)明一部分實施例,而不是全部的實施例。基于本發(fā)明中的實施例,本領域普通技術人員在沒有做出創(chuàng)造性勞動前提下所獲得的所有其他實施例,都屬于本發(fā)明保護的范圍。
實施例一
本發(fā)明實施例一公開了一種蘊含地理實體關系的關鍵詞提取方法,該方法應用于蘊含地理實體關系的關鍵詞提取裝置,流程圖如圖1所示,包括如下步驟:
S101,從網(wǎng)絡文本中獲取至少一個地理實體對及其對應的原始語境,地理實體對包含至少兩個地理實體;
在執(zhí)行步驟S101的過程中,可從預設百科站點抓取至少一個網(wǎng)絡文本,通過對抓取的至少一個網(wǎng)絡文本預處理得到至少一個地理實體對及其對應的原始語境;其中,預設百科站點包括但不局限于百度百科、維基百科和/或互動百科,可根據(jù)實際需要具體選擇;預處理工具包括但不局限于自然語言處理工具GATE,可根據(jù)實際需要具體選擇。
S102,根據(jù)每一個地理實體對中各個地理實體對應的類型映射表,獲取各個地理實體對類型標簽及其對應的當前原始語境,并且依據(jù)預設同義詞詞典信息對各個當前原始語境進行語境增強,得到各個增強語境;
在執(zhí)行步驟S102的過程中,預設百科站點中存儲有地理實體的類型映射表,通過獲取每個地理實體的唯一標簽確定地理實體對類型標簽,并且通過合并地理實體對類型標簽相同的原始語境得到各個地理實體對類型標簽的當前原始語境,再依據(jù)預設同義詞詞典信息對各個當前原始語境中的詞組進行同義詞替換實現(xiàn)語境增強,由此可得到各個地理實體對類型標簽及其對應的增強語境。
S103,針對每一個地理實體對類型標簽,從對應的增強語境中獲取關鍵詞選擇語料,并從關鍵詞選擇語料中選取至少一個蘊含地理實體關系的關鍵詞。
本發(fā)明實施例公開的蘊含地理實體關系的關鍵詞提取方法,根據(jù)各個地理實體的類型映射表確定各個地理實體對類型標簽,并通過合并相同地理實體對類型標簽的原始語境實現(xiàn)增加語境中的詞組數(shù)量;再依據(jù)預設同義詞詞典信息增加語境中的詞組頻數(shù),最終從增強語境中選取蘊含地理實體關系的關鍵詞。由此可見,本發(fā)明公開的方法可有效增強稀疏地理實體關系的關鍵詞識別能力,且能生成大量新關鍵詞,有助于以無監(jiān)督學習方式抽取關鍵詞。
實施例二
基于上述本發(fā)明實施例一公開的蘊含地理實體關系的關鍵詞提取方法,如圖1所示出的步驟S101中,從網(wǎng)絡文本中獲取至少一個地理實體對及其對應的原始語境的具體執(zhí)行過程,如圖2所示,包括如下步驟:
S201,對網(wǎng)絡文本進行斷句分割;
S202,為每一個句子中包含的至少一個詞組添加詞性標簽;
在執(zhí)行步驟S202的過程中,首先對斷句分割得到的各個句子進行中文分詞,得到各個詞組,再對各個詞組添加詞性標簽,例如,名詞、動詞和形容詞等。
S203,通過對詞性標簽為名詞的各個詞組進行地理實體識別,確定各個地理實體對及其對應的原始語境;
在執(zhí)行步驟S203的過程中,對詞性標簽為名詞的各個詞組進行地理實體識別,由此可確定每個句子中包含的各個地理實體對以及該地理實體對對應的原始語境。
本發(fā)明實施例公開的蘊含地理實體關系的關鍵詞提取方法,通過對網(wǎng)絡文本進行預處理得到包含的各個地理實體對及其對應的原始語境,根據(jù)各個地理實體的類型映射表確定各個地理實體對類型標簽,并通過合并相同地理實體對類型標簽的原始語境實現(xiàn)增加語境中的詞組數(shù)量;再依據(jù)預設同義詞詞典信息增加語境中的詞組頻數(shù),最終從增強語境中選取蘊含地理實體關系的關鍵詞。由此可見,本發(fā)明公開的方法可有效增強稀疏地理實體關系的關鍵詞識別能力,且能生成大量新關鍵詞,有助于以無監(jiān)督學習方式抽取關鍵詞。
基于上述本發(fā)明實施例一公開的蘊含地理實體關系的關鍵詞提取方法,如圖1所示出的步驟S102中,根據(jù)每一個地理實體對中各個地理實體對應的類型映射表,獲取各個地理實體對類型標簽及其對應的當前原始語境,并且依據(jù)預設同義詞詞典信息對各個當前原始語境進行語境增強,得到各個增強語境的具體執(zhí)行過程,如圖3所示,包括如下步驟:
S301,根據(jù)每一個地理實體對中各個地理實體對應的類型映射表,獲取各個所述地理實體的類型標簽集合,所述類型標簽集合包含至少一個地理實體類型標簽;
在執(zhí)行步驟S301的過程中,預設百科站點中存儲有地理實體對應的類型映射表,由此可獲取各個地理實體的類型標簽集合,例如,地理實體“清華大學”的類型標簽集合中包含如下地理實體類型標簽:中國高校、公辦高校、研究生院高校、211高校、985高校、理工類高校、教育部隸屬高校、北京高校、本科高校、大學和學校。
S302,針對每一個地理實體,計算對應的各個地理實體標簽的第一權值,并選取第一權值最大的地理實體標簽作為地理實體唯一標簽,其中,第一權值用于表征地理實體類型標簽準確度;
在執(zhí)行步驟S302的過程中,可根據(jù)公式(1)計算各個地理實體標簽的第一權值;
其中,w(typej|ei)為地理實體ei的類型標簽typej的第一權值,k為地理實體ei的類型標簽集合中地理實體標簽的數(shù)量,j為類型標簽typej在地理實體ei的類型標簽集合中排序值,frequency(typej)為類型標簽typej的全局頻次。
S303,針對每一個地理實體對,根據(jù)各個地理實體唯一標簽確定地理實體對類型標簽;
在執(zhí)行步驟S303的過程中,例如,針對地理實體對“清華大學”和“北京”,另假設地理實體“清華大學”的唯一類型標簽為“公辦高?!?,地理實體“北京”的唯一類型標簽為“首都”,則該地理實體對類型標簽為“公辦高校—首都”。
S304,對于地理實體對類型標簽相同的原始語境進行合并,得到唯一存在的各個地理實體對類型標簽及其對應的當前原始語境;
在執(zhí)行步驟S304的過程中,例如,針對“清華大學”和“北京”這一地理實體對和“哈佛大學”和“華盛頓”這一地理實體對的類型標簽均為“公辦高校—首都”,則將這兩個地理實體對對應的原始語境進行合并,得到地理實體對類型標簽“公辦高?!锥肌钡漠斍霸颊Z境。
S305,依據(jù)預設同義詞詞典信息,對各個當前原始語境中的詞組進行同義詞替換,得到各個地理實體對類型標簽對應的增強語境;
在執(zhí)行步驟S305的過程中,依據(jù)預設同義詞詞典信息,例如哈工大自然語言處理實驗室發(fā)布的可公開下載的資源“詞林”,可對各個當前原始語境中的詞組進行同義詞替換,例如,“附近”、“鄰近”和“周圍”這三個詞為同義詞,可選用其中的一個詞對當前原始語境中出現(xiàn)的其他同義詞進行替換。
本發(fā)明實施例公開的蘊含地理實體關系的關鍵詞提取方法,根據(jù)各個地理實體的類型映射表確定各個地理實體對類型標簽,并通過合并相同地理實體對類型標簽的原始語境實現(xiàn)增加語境中的詞組數(shù)量;再依據(jù)預設同義詞詞典信息增加語境中的詞組頻數(shù),最終從增強語境中選取蘊含地理實體關系的關鍵詞。由此可見,本發(fā)明公開的方法可有效增強稀疏地理實體關系的關鍵詞識別能力,且能生成大量新關鍵詞,有助于以無監(jiān)督學習方式抽取關鍵詞。
基于上述本發(fā)明實施例一公開的蘊含地理實體關系的關鍵詞提取方法,如圖1所示出的步驟S103中,從對應的增強語境中獲取關鍵詞選擇語料的具體執(zhí)行,如圖3所示,包括如下步驟:
S401,選取至少兩個頻率統(tǒng)計算法;
在執(zhí)行步驟S401的過程中,可從預設算法數(shù)據(jù)庫中選取至少兩個頻率統(tǒng)計算法,例如,頻率統(tǒng)計算法Domain Frequency和Entropy;其中,頻率統(tǒng)計算法Domain Frequency用于度量增強語境中各個詞組的全局差異性,頻率統(tǒng)計算法Entropy用于文本分類。
S402,基于各個頻率統(tǒng)計算法,分別從對應的增強語境中提取關鍵詞組,所述關鍵詞組包含至少一個關鍵詞;
在執(zhí)行步驟S402的過程中,針對選取的每個頻率統(tǒng)計算法,對于每個增強語境可提取出一個關鍵詞組。
S403,取各個關鍵詞組的交集作為關鍵詞選擇語料。
本發(fā)明實施例公開的蘊含地理實體關系的關鍵詞提取方法,根據(jù)各個地理實體的類型映射表確定各個地理實體對類型標簽,并通過合并相同地理實體對類型標簽的原始語境實現(xiàn)增加語境中的詞組數(shù)量;再依據(jù)預設同義詞詞典信息增加語境中的詞組頻數(shù),最終從關鍵詞選擇語料中選取蘊含地理實體關系的關鍵詞。由此可見,本發(fā)明公開的方法可有效增強稀疏地理實體關系的關鍵詞識別能力,且能生成大量新關鍵詞,有助于以無監(jiān)督學習方式抽取關鍵詞。
基于上述本發(fā)明實施例一公開的蘊含地理實體關系的關鍵詞提取方法,如圖1所示出的步驟S103中,從關鍵詞選擇語料中選取至少一個蘊含地理實體關系的關鍵詞的具體執(zhí)行過程,如圖5所示,包括如下步驟:
S501,根據(jù)關鍵詞選擇語料選取相應的詞法特征;
在執(zhí)行步驟S501的過程中,針對不同的關鍵詞選擇語料,可對應選取詞法特征,詞法特征包括但不局限于詞性、詞組長度、詞組位置和詞組距離;其中,詞組位置還可包括第一個地理實體的左邊、兩個地理實體之間和第二個地理實體的右邊,具體的,還可為第一個地理實體前一個詞組、第一個地理實體后一個詞組、第二個地理實體前一個詞組和第二個地理實體后一個詞組;詞組距離還可包括與第一地理實體相隔的詞語數(shù)目、與第二個地理實體相隔的詞語數(shù)據(jù)、與句首相隔的詞組數(shù)目和與句尾相隔的詞組數(shù)目。
S502,根據(jù)詞法特征計算關鍵詞選擇語料中各個關鍵詞的第二權值,第二權值用于表征關鍵詞描述準確度;
在執(zhí)行步驟S502的過程中,可根據(jù)公式(2)計算各個關鍵詞的第二權值;
wgt(t)=θLEN*(θPOS+θLOC+θDIS) (2);
其中,wgt(t)為關鍵詞t的第二權值,θLEN、θPOS、θLOC和θDIS分別表示關鍵詞t的詞組長度、詞性、詞組位置和詞組距離對第二權值的影響程度值;另外,θLEN、θPOS、θLOC和θDIS可分別根據(jù)公式(3)、(4)、(5)和(6)計算;
其中,min和max分別為關鍵詞t詞性tpos對應的詞組長度閾值的最小值和最大值;
θPOS=p(tpos) (4)
其中,θPOS表示詞性tpos對應的關鍵詞t的概率值;
其中,θLOC表示在地理實體前后詞組的影響下,不同位置的關鍵詞t對應的概率值,tp(e1)表示第一地理實體e1前一個詞組,tn(e1)表示第一地理實體e1后一個詞組,tp(e2)表示第二地理實體e2前一個詞組,tn(e2)表示第二地理實體e2后一個詞組,例如,p(tloc=between|tp(e1)="是")表示當?shù)谝坏乩韺嶓we1前一個詞組為“是”時,位于第一地理實體e1和第二地理實體e2之間的關鍵詞t的概率值;
其中,θDIS表示在關鍵詞t位置的影響下,不同距離的關鍵詞t對應的概率值,dis(e1)表示關鍵詞t到第一地理實體e1的距離,dis(e2)表示關鍵詞t到第二地理實體e2的距離,dis(head)表示關鍵詞t到句首的距離,dis(tail)表示關鍵詞t到句尾的距離,例如,p(dis(e1)=1|tloc=between)表示當關鍵詞t位于第一地理實體e1和第二地理實體e2之間時,距離第一地理實體e1的距離為1的關鍵詞t的概率值。
S503,通過比較各個第二權值,從關鍵詞選擇語料中選取至少一個蘊含地理實體關系的關鍵詞;
在執(zhí)行步驟S503過程中,可通過比較各個第二權值進行權值降序排列,根據(jù)實際需要選取預設數(shù)量的蘊含地理實體關系的關鍵詞。
本發(fā)明實施例公開的蘊含地理實體關系的關鍵詞提取方法,根據(jù)各個地理實體的類型映射表確定各個地理實體對類型標簽,并通過合并相同地理實體對類型標簽的原始語境實現(xiàn)增加語境中的詞組數(shù)量;再依據(jù)預設同義詞詞典信息增加語境中的詞組頻數(shù),最終從關鍵詞選擇語料中選取蘊含地理實體關系的關鍵詞。由此可見,本發(fā)明公開的方法可有效增強稀疏地理實體關系的關鍵詞識別能力,且能生成大量新關鍵詞,有助于以無監(jiān)督學習方式抽取關鍵詞。
實施例三
基于上述本發(fā)明各實施例提供的蘊含地理實體關系的關鍵詞提取方法,本發(fā)明實施三則對應公開執(zhí)行上述方法的蘊含地理實體關系的關鍵詞提取裝置,其結構示意圖如圖6所示,蘊含地理實體關系的關鍵詞提取裝置100包括:獲取模塊101、語境增強模塊102和關鍵詞選取模塊103,關鍵詞選取模塊103包括關鍵詞選擇語料獲取單元1031和關鍵詞選取單元1032;
獲取模塊101,用于從網(wǎng)絡文本中獲取至少一個地理實體對及其對應的原始語境,地理實體對包含至少兩個地理實體;
語境增強模塊102,用于根據(jù)每一個地理實體對中各個地理實體對應的類型映射表,獲取各個地理實體對類型標簽及其對應的當前原始語境,并且依據(jù)預設同義詞詞典信息對各個當前原始語境進行語境增強,得到各個增強語境;
關鍵詞選擇語料獲取單元1031,用于針對每一個地理實體對類型標簽,從對應的增強語境中獲取關鍵詞選擇語料,
關鍵詞選取單元1032,用于從關鍵詞選擇語料中選取至少一個蘊含地理實體關系的關鍵詞。
本發(fā)明實施例公開的蘊含地理實體關系的關鍵詞提取裝置,根據(jù)各個地理實體的類型映射表確定各個地理實體對類型標簽,并通過合并相同地理實體對類型標簽的原始語境實現(xiàn)增加語境中的詞組數(shù)量;再依據(jù)預設同義詞詞典信息增加語境中的詞組頻數(shù),最終從增強語境中選取蘊含地理實體關系的關鍵詞。由此可見,本發(fā)明公開的裝置可有效增強稀疏地理實體關系的關鍵詞識別能力,且能生成大量新關鍵詞,有助于以無監(jiān)督學習方式抽取關鍵詞。
實施例四
結合上述本發(fā)明實施三公開的蘊含地理實體關系的關鍵詞提取裝置,本實施例四還公開一種蘊含地理實體關系的關鍵詞提取裝置,其中,獲取模塊101的結構示意圖如圖7所示,獲取模塊101包括:斷句分割單元201、詞性標簽添加單元202和地理實體識別單元203;
斷句分割單元201,用于對網(wǎng)絡文本進行斷句分割;
詞性標簽添加單元202,用于為每一個句子中包含的至少一個詞組添加詞性標簽注;
地理實體識別單元203,用于通過對詞性標簽為名詞的各個詞組進行地理實體識別,確定各個地理實體對及其對應的原始語境。
本發(fā)明實施例公開的蘊含地理實體關系的關鍵詞提取裝置,通過對網(wǎng)絡文本進行預處理得到包含的各個地理實體對及其對應的原始語境,根據(jù)各個地理實體的類型映射表確定各個地理實體對類型標簽,并通過合并相同地理實體對類型標簽的原始語境實現(xiàn)增加語境中的詞組數(shù)量;再依據(jù)預設同義詞詞典信息增加語境中的詞組頻數(shù),最終從增強語境中選取蘊含地理實體關系的關鍵詞。由此可見,本發(fā)明公開的裝置可有效增強稀疏地理實體關系的關鍵詞識別能力,且能生成大量新關鍵詞,有助于以無監(jiān)督學習方式抽取關鍵詞。
結合上述本發(fā)明實施三公開的蘊含地理實體關系的關鍵詞提取裝置,本實施例四還公開一種蘊含地理實體關系的關鍵詞提取裝置,其中,語境增強模塊102的結構示意圖如圖8所示,語境增強模塊102包括:類型標簽集合獲取單元301、計算選取單元302、確定單元303、原始語境合并單元304、同義詞替換單元305;
類型標簽集合獲取單元301,用于根據(jù)每一個地理實體對中各個地理實體對應的類型映射表,獲取各個地理實體的類型標簽集合,類型標簽集合包含至少一個地理實體類型標簽;
計算選取單元302,用于針對每一個地理實體,計算對應的各個地理實體標簽的第一權值,并選取第一權值最大的地理實體標簽作為地理實體唯一標簽,其中,第一權值用于表征地理實體類型標簽準確度;
確定單元303,用于針對每一個地理實體對,根據(jù)各個地理實體唯一標簽確定地理實體對類型標簽;
原始語境合并單元304,用于對于地理實體對類型標簽相同的原始語境進行合并,得到唯一存在的各個地理實體對類型標簽及其對應的當前原始語境;
同義詞替換單元305,用于依據(jù)預設同義詞詞典信息,對各個當前原始語境中的詞組進行同義詞替換,得到各個地理實體對類型標簽對應的增強語境。
本發(fā)明實施例公開的蘊含地理實體關系的關鍵詞提取裝置,根據(jù)各個地理實體的類型映射表確定各個地理實體對類型標簽,并通過合并相同地理實體對類型標簽的原始語境實現(xiàn)增加語境中的詞組數(shù)量;再依據(jù)預設同義詞詞典信息增加語境中的詞組頻數(shù),最終從增強語境中選取蘊含地理實體關系的關鍵詞。由此可見,本發(fā)明公開的裝置可有效增強稀疏地理實體關系的關鍵詞識別能力,且能生成大量新關鍵詞,有助于以無監(jiān)督學習方式抽取關鍵詞。
結合上述本發(fā)明實施三公開的蘊含地理實體關系的關鍵詞提取裝置,本實施例四還公開一種蘊含地理實體關系的關鍵詞提取裝置,其中,關鍵詞選擇語料獲取單元1031的結構示意圖如圖9所示,關鍵詞選擇語料獲取單元1031包括:頻率統(tǒng)計算法選取子單元401、關鍵詞組提取子單元402和關鍵詞選擇語料選取子單元403;
頻率統(tǒng)計算法選取子單元401,用于選取至少兩個頻率統(tǒng)計算法;
關鍵詞組提取子單元402,用于基于各個頻率統(tǒng)計算法,分別從對應的增強語境中提取關鍵詞組,關鍵詞組包含至少一個關鍵詞;
關鍵詞選擇語料選取子單元403,用于取各個關鍵詞組的交集作為關鍵詞選擇語料。
本發(fā)明實施例公開的蘊含地理實體關系的關鍵詞提取裝置,根據(jù)各個地理實體的類型映射表確定各個地理實體對類型標簽,并通過合并相同地理實體對類型標簽的原始語境實現(xiàn)增加語境中的詞組數(shù)量;再依據(jù)預設同義詞詞典信息增加語境中的詞組頻數(shù),最終從關鍵詞選擇語料中選取蘊含地理實體關系的關鍵詞。由此可見,本發(fā)明公開的裝置可有效增強稀疏地理實體關系的關鍵詞識別能力,且能生成大量新關鍵詞,有助于以無監(jiān)督學習方式抽取關鍵詞。
結合上述本發(fā)明實施三公開的蘊含地理實體關系的關鍵詞提取裝置,本實施例四還公開一種蘊含地理實體關系的關鍵詞提取裝置,其中,關鍵詞選取單元1032的結構示意圖如圖10所示,關鍵詞選取單元1032包括:詞法特征選取子單元501、計算子單元502和關鍵詞選取子單元503;
詞法特征選取子單元501,用于根據(jù)關鍵詞選擇語料選取相應的詞法特征;
計算子單元502,用于根據(jù)詞法特征計算關鍵詞選擇語料中各個關鍵詞的第二權值,第二權值用于表征關鍵詞描述準確度;
關鍵詞選取子單元503,用于通過比較各個第二權值,從關鍵詞選擇語料中選取至少一個蘊含地理實體關系的關鍵詞。
本發(fā)明實施例公開的蘊含地理實體關系的關鍵詞提取裝置,根據(jù)各個地理實體的類型映射表確定各個地理實體對類型標簽,并通過合并相同地理實體對類型標簽的原始語境實現(xiàn)增加語境中的詞組數(shù)量;再依據(jù)預設同義詞詞典信息增加語境中的詞組頻數(shù),最終從關鍵詞選擇語料中選取蘊含地理實體關系的關鍵詞。由此可見,本發(fā)明公開的裝置可有效增強稀疏地理實體關系的關鍵詞識別能力,且能生成大量新關鍵詞,有助于以無監(jiān)督學習方式抽取關鍵詞。
以上對本發(fā)明所提供的一種蘊含地理實體關系的關鍵詞提取方法及裝置進行了詳細介紹,本文中應用了具體個例對本發(fā)明的原理及實施方式進行了闡述,以上實施例的說明只是用于幫助理解本發(fā)明的方法及其核心思想;同時,對于本領域的一般技術人員,依據(jù)本發(fā)明的思想,在具體實施方式及應用范圍上均會有改變之處,綜上所述,本說明書內容不應理解為對本發(fā)明的限制。
需要說明的是,本說明書中的各個實施例均采用遞進的方式描述,每個實施例重點說明的都是與其他實施例的不同之處,各個實施例之間相同相似的部分互相參見即可。對于實施例公開的裝置而言,由于其與實施例公開的方法相對應,所以描述的比較簡單,相關之處參見方法部分說明即可。
還需要說明的是,在本文中,諸如第一和第二等之類的關系術語僅僅用來將一個實體或者操作與另一個實體或操作區(qū)分開來,而不一定要求或者暗示這些實體或操作之間存在任何這種實際的關系或者順序。而且,術語“包括”、“包含”或者其任何其他變體意在涵蓋非排他性的包含,從而使得包括一系列要素的過程、方法、物品或者設備所固有的要素,或者是還包括為這些過程、方法、物品或者設備所固有的要素。在沒有更多限制的情況下,由語句“包括一個……”限定的要素,并不排除在包括所述要素的過程、方法、物品或者設備中還存在另外的相同要素。
對所公開的實施例的上述說明,使本領域專業(yè)技術人員能夠實現(xiàn)或使用本發(fā)明。對這些實施例的多種修改對本領域的專業(yè)技術人員來說將是顯而易見的,本文中所定義的一般原理可以在不脫離本發(fā)明的精神或范圍的情況下,在其它實施例中實現(xiàn)。因此,本發(fā)明將不會被限制于本文所示的這些實施例,而是要符合與本文所公開的原理和新穎特點相一致的最寬的范圍。