亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種中文旅游領(lǐng)域知識(shí)圖譜構(gòu)建方法及系統(tǒng)與流程

文檔序號(hào):12465966閱讀:735來(lái)源:國(guó)知局
一種中文旅游領(lǐng)域知識(shí)圖譜構(gòu)建方法及系統(tǒng)與流程

本發(fā)明涉及Web挖掘和智能信息處理技術(shù)領(lǐng)域,涉及一種中文旅游領(lǐng)域知識(shí)圖譜構(gòu)建方法及系統(tǒng),本發(fā)明在信息檢索、信息推薦、自動(dòng)問(wèn)答等領(lǐng)域具有廣闊的應(yīng)用前景。



背景技術(shù):

知識(shí)圖譜(Knowledge Graph)是利用可視化技術(shù)或結(jié)構(gòu)化方式來(lái)描述實(shí)體和實(shí)體關(guān)系知識(shí),為搜索引擎用戶(hù)提供高質(zhì)量的知識(shí)檢索服務(wù)。知識(shí)圖譜是構(gòu)建下一代搜索引擎的雛形,使得搜索更加語(yǔ)義化和智能化。目前,通用知識(shí)圖譜包括谷歌的Knowledge Graph、微軟的Satori、百度的知心,以及搜狗的知立方等。

相對(duì)于通用知識(shí)圖譜,專(zhuān)業(yè)領(lǐng)域知識(shí)圖譜構(gòu)建研究較少。Lv Qingjie等在文獻(xiàn)《Research on domain knowledge graph based on the large scale online knowledge fragment》(IEEE Workshop on Advanced Research and Technology in Industry Applications,2014)中,首先從在線百科網(wǎng)站和酒類(lèi)垂直網(wǎng)站中獲取實(shí)體和關(guān)系,然后基于多維圖模型抽取實(shí)體關(guān)系,由此構(gòu)建了酒類(lèi)專(zhuān)業(yè)領(lǐng)域知識(shí)圖譜。周藍(lán)珺在文獻(xiàn)《音樂(lè)領(lǐng)域中文實(shí)體關(guān)系抽取研究》(哈爾濱工業(yè)大學(xué)碩士學(xué)位論文2009)中,采用基于序列模式挖掘的方法、基于最大熵和支持向量機(jī)的方法從新浪網(wǎng)音樂(lè)領(lǐng)域網(wǎng)頁(yè)提取實(shí)體之間的關(guān)系。另外,Patrick Ernst等在文獻(xiàn)《KnowLife:a Knowledge Graph for Health and Life Sciences》(IEEE 30th International Conference on Data Engineering,2014)中,研發(fā)了健康和生命科學(xué)領(lǐng)域知識(shí)圖譜系統(tǒng)Knowlife,從專(zhuān)業(yè)醫(yī)學(xué)網(wǎng)站和科技文獻(xiàn)中抽取疾病、癥狀、病因、藥品和治療等關(guān)聯(lián)關(guān)系。

現(xiàn)有中文專(zhuān)業(yè)領(lǐng)域知識(shí)圖譜構(gòu)建方法主要存在如下問(wèn)題:英文專(zhuān)業(yè)領(lǐng)域知識(shí)圖譜構(gòu)建方法不能完全適用于中文專(zhuān)業(yè)領(lǐng)域知識(shí)圖譜構(gòu)建;現(xiàn)有專(zhuān)業(yè)領(lǐng)域知識(shí)圖譜構(gòu)建方法難以兼顧獲取知識(shí)的規(guī)模和準(zhǔn)確率,也難以融合從多種數(shù)據(jù)源中獲取的領(lǐng)域知識(shí)。

針對(duì)中文專(zhuān)業(yè)領(lǐng)域知識(shí)圖譜構(gòu)建方法存在的上述問(wèn)題和中文旅游領(lǐng)域知識(shí)圖譜知識(shí)量較少的問(wèn)題,為提供高效的中文旅游知識(shí)服務(wù),迫切需要中文旅游領(lǐng)域圖譜構(gòu)建技術(shù)。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明的目的是為了解決中文專(zhuān)業(yè)領(lǐng)域知識(shí)圖譜和中文旅游領(lǐng)域知識(shí)圖譜構(gòu)建中存在的上述問(wèn)題提供一種中文旅游領(lǐng)域知識(shí)圖譜的構(gòu)建方法。中文旅游領(lǐng)域知識(shí)圖譜構(gòu)建任務(wù)包括旅游領(lǐng)域?qū)嶓w屬性知識(shí)擴(kuò)充和旅游領(lǐng)域?qū)嶓w屬性值融合;實(shí)體屬性知識(shí)擴(kuò)充任務(wù)是指提取實(shí)體的給定屬性的屬性值,實(shí)體屬性值融合任務(wù)是指融合通過(guò)多種方法或多種來(lái)源提取的實(shí)體同一屬性的屬性值。相應(yīng)地,中文旅游領(lǐng)域知識(shí)圖譜的構(gòu)建方法包括一種混合式的實(shí)體屬性知識(shí)擴(kuò)充方法和一種基于學(xué)習(xí)排序的實(shí)體屬性值融合方法。

本發(fā)明的目的是通過(guò)以下技術(shù)方案實(shí)現(xiàn)的。

一種旅游領(lǐng)域知識(shí)圖譜的構(gòu)建方法,包括如下步驟:

步驟1,獲取旅游領(lǐng)域知識(shí)圖譜構(gòu)建的語(yǔ)料

作為優(yōu)選,語(yǔ)料的獲取通過(guò)以下過(guò)程完成:首先,采集旅游領(lǐng)域?qū)嶓w詞條網(wǎng)頁(yè)構(gòu)建為語(yǔ)料集,定義旅游領(lǐng)域?qū)嶓w的基本屬性及其屬性值的詞性。旅游領(lǐng)域?qū)嶓w基本屬性包括:別稱(chēng)、地址、電話(huà)、海拔、級(jí)別、建立時(shí)間、開(kāi)放時(shí)間、門(mén)票價(jià)格、榮譽(yù)、相關(guān)人物、英文名、中文名、郵編、占地面積和著名景點(diǎn)。其次,對(duì)語(yǔ)料集網(wǎng)頁(yè)中的句子進(jìn)行中文分詞和詞性標(biāo)注。

根據(jù)旅游領(lǐng)域?qū)嶓w基本屬性的特點(diǎn),將屬性劃分為多值屬性、固定型單值屬性、非固定型單值屬性三種類(lèi)別。實(shí)體的多值屬性是指實(shí)體的屬性存在多個(gè)屬性值。實(shí)體的固定型單值屬性是指實(shí)體的屬性只存在一個(gè)屬性值且表示方式唯一。實(shí)體的非固定型單值屬性是指實(shí)體的屬性只存在一個(gè)屬性值,但表示方式不唯一。在上述旅游領(lǐng)域?qū)嶓w基本屬性中,電話(huà)、別稱(chēng)、榮譽(yù)、相關(guān)人物、著名景點(diǎn)為多值屬性;門(mén)票價(jià)格、海拔、郵編、英文名、中文名、占地面積為固定型單值屬性;地址、級(jí)別、建立時(shí)間、開(kāi)放時(shí)間為非固定型單值屬性。

步驟2,采用混合式方法進(jìn)行實(shí)體屬性知識(shí)擴(kuò)充

本發(fā)明提出的混合式實(shí)體屬性知識(shí)擴(kuò)充方法包括四個(gè)部分,分別是基于模式匹配的實(shí)體屬性知識(shí)擴(kuò)充、基于屬性詞匯場(chǎng)的實(shí)體屬性知識(shí)擴(kuò)充、基于監(jiān)督學(xué)習(xí)的實(shí)體屬性知識(shí)擴(kuò)充,以及基于搜索引擎問(wèn)答的屬性知識(shí)擴(kuò)充。

第一,采用基于模式匹配的方法進(jìn)行實(shí)體屬性知識(shí)擴(kuò)充。

首先,人工構(gòu)建旅游領(lǐng)域?qū)嶓w基本屬性的屬性知識(shí)擴(kuò)充的原始模式。然后,利用《同義詞詞林》根據(jù)原始模式來(lái)學(xué)習(xí)屬性知識(shí)擴(kuò)充的擴(kuò)展模式。最后,根據(jù)原始模式和擴(kuò)展模式采用基于模式匹配的方法進(jìn)行實(shí)體屬性知識(shí)擴(kuò)充,即獲取三元組(實(shí)體,屬性,屬性值)。

第二,采用基于屬性詞匯場(chǎng)的方法進(jìn)行實(shí)體屬性知識(shí)擴(kuò)充。

屬性詞匯場(chǎng)由不同類(lèi)型的屬性線索詞語(yǔ)及其權(quán)重構(gòu)成。屬性線索詞語(yǔ)的類(lèi)型包括屬性詞語(yǔ)、屬性值詞語(yǔ)、屬性觸發(fā)詞語(yǔ)。首先,構(gòu)建每個(gè)旅游領(lǐng)域?qū)嶓w基本屬性a的詞匯場(chǎng)。然后,對(duì)于語(yǔ)料中的每個(gè)句子,計(jì)算句子中包含屬性a的詞匯場(chǎng)中詞語(yǔ)的總數(shù)m和平均權(quán)重w。若m和w大于給定閾值,則將該句子構(gòu)建為擴(kuò)充屬性a的屬性知識(shí)的候選句子。最后,根據(jù)屬性a的屬性值的詞性從候選句子中提取旅游領(lǐng)域?qū)嶓w的屬性a的屬性值。

第三,采用基于搜索引擎問(wèn)答的方法進(jìn)行實(shí)體屬性知識(shí)擴(kuò)充。

本發(fā)明將形如“e a”作為百度搜索引擎的查詢(xún)需求,其中e為旅游領(lǐng)域?qū)嶓w,a為屬性名稱(chēng)。根據(jù)百度搜索引擎檢索結(jié)果,抽取旅游領(lǐng)域?qū)嶓we的屬性a的屬性值。

第四,采用基于監(jiān)督學(xué)習(xí)的方法進(jìn)行實(shí)體屬性知識(shí)擴(kuò)充。

首先,根據(jù)屬性值的詞性從語(yǔ)料的句子中提取旅游領(lǐng)域?qū)嶓w的候選屬性值。

其次,對(duì)于提取出候選屬性值的句子提取其分類(lèi)特征。分類(lèi)特征包括屬性a的候選屬性值v前后五個(gè)詞語(yǔ)的詞頻、v前后各五個(gè)詞語(yǔ)的詞性、v的長(zhǎng)度、v在屬性a的詞匯場(chǎng)中的權(quán)重、v前一詞是否為標(biāo)點(diǎn)符號(hào)、v前三個(gè)詞是否包含否定詞、v在句子中的起始位置、v在句子中的結(jié)束位置、v所在句子中是否包含屬性觸發(fā)詞、v所在句子中屬性觸發(fā)詞與v的距離。

最后,基于訓(xùn)練好的決策樹(shù)、樸素貝葉斯、隨機(jī)森林,以及AdaBoost分類(lèi)器采用多分類(lèi)器投票法來(lái)判別候選屬性值是否為旅游領(lǐng)域?qū)嶓w的屬性值。對(duì)于候選屬性值v,分別采用訓(xùn)練好的決策樹(shù)、樸素貝葉斯、隨機(jī)森林,以及AdaBoost四種分類(lèi)器來(lái)判別候選屬性值。分類(lèi)標(biāo)簽包括True和False兩類(lèi),True表示該候選屬性值判別為旅游領(lǐng)域?qū)嶓w的屬性值,F(xiàn)alse表示該候選屬性值不能判別為旅游領(lǐng)域?qū)嶓w的屬性值。進(jìn)一步,對(duì)于通過(guò)這四種分類(lèi)器判別的候選屬性值v的分類(lèi)結(jié)果,選擇數(shù)量較多的分類(lèi)標(biāo)簽作為分類(lèi)結(jié)果。若數(shù)量較多的分類(lèi)標(biāo)簽為T(mén)rue,則構(gòu)建三元組實(shí)體、屬性和屬性值。

其中,決策樹(shù)、樸素貝葉斯、隨機(jī)森林,以及AdaBoost分類(lèi)器的訓(xùn)練過(guò)程如下:

首先,選取語(yǔ)料集中部分網(wǎng)頁(yè)構(gòu)建為訓(xùn)練集。對(duì)于訓(xùn)練集中的每個(gè)句子,若句子中標(biāo)記為候選屬性值的字符串為旅游領(lǐng)域?qū)嶓w的屬性a的屬性值,則將該句子賦予類(lèi)別標(biāo)簽“True”,標(biāo)記為提取屬性a的屬性值的正例句子;否則,將該句子賦予類(lèi)別標(biāo)簽“False”,標(biāo)記為提取屬性a的屬性值的反例句子。其次,提取訓(xùn)練集中句子的屬性值的分類(lèi)特征。分類(lèi)特征與從包含候選屬性值的句子中提取的分類(lèi)特征相同。

最后,根據(jù)訓(xùn)練集分別訓(xùn)練決策樹(shù)、樸素貝葉斯、隨機(jī)森林,以及AdaBoost四種分類(lèi)器。

步驟3,根據(jù)實(shí)體屬性的特點(diǎn)進(jìn)行實(shí)體屬性值融合

根據(jù)旅游領(lǐng)域?qū)嶓w基本屬性的類(lèi)別,分別進(jìn)行屬性的屬性值融合:

第一,采用一種基于來(lái)源可信度的方法對(duì)多值屬性的屬性值進(jìn)行融合。對(duì)于旅游領(lǐng)域?qū)嶓we及其屬性a,設(shè)通過(guò)基于模式匹配的方法m1獲取實(shí)體e的屬性a的屬性值v1,通過(guò)基于詞匯場(chǎng)的方法m2獲取屬性值v2,通過(guò)基于監(jiān)督學(xué)習(xí)的方法m3獲取屬性值v3,通過(guò)基于搜索引擎問(wèn)答的方法m4獲取屬性值v4,通過(guò)百科信息盒獲取屬性值v5。設(shè)通過(guò)方法m1,m2,m3,m4,m5獲取的屬性值v1,v2,v-3,v4,v5的權(quán)重分別為w1,w2,w3,w4,w5。根據(jù)實(shí)體e的屬性a的屬性值的權(quán)重,將所有屬性值按照權(quán)重非升序的方式排序輸出。

第二,采用一種基于內(nèi)容可信度的方法對(duì)固定型單值屬性的屬性值進(jìn)行融合。

對(duì)于旅游領(lǐng)域?qū)嶓we及其屬性a和候選屬性值v,設(shè)x表示通過(guò)基于來(lái)源可信度的方法獲取的屬性值的權(quán)重,y表示該屬性值通過(guò)混合式屬性知識(shí)擴(kuò)充方法被抽取出的次數(shù),z表示候選屬性值v的長(zhǎng)度,u表示候選屬性值v在屬性a的詞匯場(chǎng)中的權(quán)重。下面式子給出了計(jì)算候選屬性值v的可信度c的方法,其中α,β,γ,δ為用戶(hù)自定義的參數(shù)。

c=αx+βy+γz+δu

若旅游領(lǐng)域?qū)嶓we及其屬性a具有多個(gè)候選屬性值,則選擇可信度最大的候選屬性值作為屬性a的屬性值。

第三,采用一種基于學(xué)習(xí)排序的方法對(duì)非固定型單值屬性的屬性值進(jìn)行融合。

首先,構(gòu)建屬性值融合的訓(xùn)練集。訓(xùn)練集包括“排序分值,查詢(xún)編號(hào),<實(shí)體,屬性,屬性值,來(lái)源>”。根據(jù)屬性值與屬性的相關(guān)程度,將排序分值設(shè)置為0,1,2,或3,分值越大,表示屬性值和屬性相關(guān)度越大。每個(gè)查詢(xún)編號(hào)表示查詢(xún)旅游領(lǐng)域?qū)嶓w的一個(gè)屬性。來(lái)源表示三元組(實(shí)體,屬性,屬性值)的獲取方法。

然后,采用學(xué)習(xí)排序模型對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,構(gòu)建學(xué)習(xí)排序模型。本實(shí)施例中,采用了六種學(xué)習(xí)排序模型:隨機(jī)森林、迭代決策樹(shù)、RankBoost、ListNet、AdaRank和RankNet。

最后,根據(jù)訓(xùn)練的六個(gè)學(xué)習(xí)排序模型,對(duì)需要打分的每個(gè)屬性查詢(xún)的所有候選四元組<實(shí)體,屬性,屬性值,來(lái)源>進(jìn)行打分,獲得六個(gè)排序分值列表。對(duì)排序分值進(jìn)行歸一化,計(jì)算每個(gè)候選四元組在六個(gè)排序分值列表中的分值之和,輸出分值最高的候選四元組作為屬性值融合的結(jié)果。

步驟4,基于XML構(gòu)建旅游領(lǐng)域中文知識(shí)圖譜。

根據(jù)步驟3獲取的三元組知識(shí),構(gòu)建旅游領(lǐng)域知識(shí)圖譜。知識(shí)圖譜包括三種節(jié)點(diǎn)(即圖中的節(jié)點(diǎn))和三種關(guān)系類(lèi)型(即圖中的邊)。節(jié)點(diǎn)類(lèi)型包括旅游領(lǐng)域?qū)嶓w節(jié)點(diǎn)、地點(diǎn)實(shí)體節(jié)點(diǎn)和屬性值節(jié)點(diǎn)。關(guān)系類(lèi)型包括地點(diǎn)實(shí)體和旅游領(lǐng)域?qū)嶓w之間的關(guān)系、地點(diǎn)實(shí)體和地點(diǎn)實(shí)體之間的關(guān)系,以及旅游領(lǐng)域?qū)嶓w和屬性值之間的關(guān)系。通過(guò)可擴(kuò)展標(biāo)記語(yǔ)言XML(Extensible Markup Language)存儲(chǔ)旅游領(lǐng)域?qū)嶓w節(jié)點(diǎn)、地點(diǎn)實(shí)體節(jié)點(diǎn)和屬性值節(jié)點(diǎn)以及它們的關(guān)系邊所表示的知識(shí),即可獲得旅游領(lǐng)域知識(shí)圖譜。

至此,就完成了本方法的全部過(guò)程。

基于上述方法實(shí)現(xiàn)的一種旅游領(lǐng)域知識(shí)圖譜構(gòu)建系統(tǒng),包括旅游領(lǐng)域語(yǔ)料采集模塊、旅游領(lǐng)域?qū)嶓w屬性知識(shí)擴(kuò)充模塊、旅游領(lǐng)域?qū)嶓w屬性值融合模塊,以及旅游領(lǐng)域知識(shí)圖譜構(gòu)建模塊。旅游領(lǐng)域語(yǔ)料采集模塊與旅游領(lǐng)域?qū)嶓w屬性知識(shí)擴(kuò)充模塊相連;旅游領(lǐng)域?qū)嶓w屬性知識(shí)擴(kuò)充模塊與旅游領(lǐng)域?qū)嶓w屬性值融合模塊相連;旅游領(lǐng)域?qū)嶓w屬性值融合模塊與旅游領(lǐng)域知識(shí)圖譜構(gòu)建模塊相連。

所述旅游領(lǐng)域語(yǔ)料采集模塊用于采集旅游領(lǐng)域?qū)嶓w詞條網(wǎng)頁(yè),對(duì)網(wǎng)頁(yè)中的句子進(jìn)行中文分詞和詞性標(biāo)注,以及定義旅游領(lǐng)域?qū)嶓w的基本屬性及其屬性值的詞性,根據(jù)旅游領(lǐng)域?qū)嶓w的基本屬性的特點(diǎn),將其劃分為多值屬性、固定型單值屬性或非固定型單值屬性類(lèi)別;

所述旅游領(lǐng)域?qū)嶓w屬性知識(shí)擴(kuò)充模塊用于對(duì)所述旅游領(lǐng)域語(yǔ)料采集模塊獲取的網(wǎng)頁(yè)的句子進(jìn)行旅游領(lǐng)域?qū)嶓w的屬性和屬性值擴(kuò)充;

作為優(yōu)選,該模塊通過(guò)上述一種旅游領(lǐng)域知識(shí)圖譜的構(gòu)建方法步驟2所述過(guò)程實(shí)現(xiàn)。

所述旅游領(lǐng)域?qū)嶓w屬性值融合模塊用于對(duì)所述旅游領(lǐng)域?qū)嶓w屬性知識(shí)擴(kuò)充模塊提取的實(shí)體的屬性值根據(jù)實(shí)體的屬性類(lèi)別進(jìn)行融合;

作為優(yōu)選,該模塊通過(guò)上述一種旅游領(lǐng)域知識(shí)圖譜的構(gòu)建方法步驟3所述過(guò)程實(shí)現(xiàn)。

所述旅游領(lǐng)域知識(shí)圖譜構(gòu)建模塊用于對(duì)所述旅游領(lǐng)域?qū)嶓w屬性值融合模塊提取的實(shí)體、屬性和屬性值三元組通過(guò)可擴(kuò)展標(biāo)記語(yǔ)言XML存儲(chǔ)旅游領(lǐng)域?qū)嶓w節(jié)點(diǎn)、地點(diǎn)實(shí)體節(jié)點(diǎn)和屬性值節(jié)點(diǎn)以及它們的關(guān)系邊所表示的知識(shí)進(jìn)行旅游領(lǐng)域知識(shí)圖譜構(gòu)建。

有益效果

本發(fā)明的方法,針對(duì)現(xiàn)有中文專(zhuān)業(yè)領(lǐng)域知識(shí)圖譜構(gòu)建方法難以兼顧獲取知識(shí)的規(guī)模和準(zhǔn)確率,也難以融合從多種數(shù)據(jù)源中獲取的領(lǐng)域知識(shí);英文專(zhuān)業(yè)領(lǐng)域知識(shí)圖譜構(gòu)建方法不能完全適用于中文專(zhuān)業(yè)領(lǐng)域知識(shí)圖譜構(gòu)建;中文旅游領(lǐng)域知識(shí)圖譜知識(shí)量較少等問(wèn)題,提供一種中文旅游領(lǐng)域知識(shí)圖譜的構(gòu)建方案,包括一種混合式的實(shí)體屬性知識(shí)擴(kuò)充方法和一種基于學(xué)習(xí)排序的實(shí)體屬性值融合方法。該方法獲取了高質(zhì)量的旅游領(lǐng)域?qū)嶓w知識(shí),極大擴(kuò)充了現(xiàn)有旅游領(lǐng)域知識(shí)圖譜的知識(shí)規(guī)模。具體體現(xiàn)在如下方面:

(1)本發(fā)明采用一種基于屬性詞匯場(chǎng)的屬性知識(shí)擴(kuò)充方法,屬性詞匯場(chǎng)包含了與旅游領(lǐng)域?qū)嶓w屬性相關(guān)的特征詞語(yǔ),并根據(jù)與屬性的關(guān)聯(lián)程度賦予了不同權(quán)重。該方法增加了獲取的旅游領(lǐng)域?qū)嶓w屬性知識(shí)的規(guī)模。

(2)本發(fā)明采用一種混合式屬性知識(shí)擴(kuò)充技術(shù),包括基于模式匹配的實(shí)體屬性知識(shí)擴(kuò)充、基于屬性詞匯場(chǎng)的實(shí)體屬性知識(shí)擴(kuò)充、基于監(jiān)督學(xué)習(xí)的實(shí)體屬性知識(shí)擴(kuò)充,以及基于搜索引擎問(wèn)答的屬性知識(shí)擴(kuò)充。該技術(shù)融合各種方法的特點(diǎn),一方面提高了旅游領(lǐng)域知識(shí)獲取的準(zhǔn)確率,另一方面極大增加了獲取的旅游領(lǐng)域?qū)嶓w知識(shí)的規(guī)模。

(3)本發(fā)明采用一種基于學(xué)習(xí)排序的知識(shí)圖譜屬性值融合方法。該方法的特點(diǎn)是將屬性值融合任務(wù)轉(zhuǎn)化為搜索引擎文檔排序任務(wù),通過(guò)學(xué)習(xí)排序模型對(duì)旅游領(lǐng)域?qū)嶓w的屬性值進(jìn)行排序,篩選表達(dá)粒度精準(zhǔn)的屬性值,提高了用戶(hù)獲取高質(zhì)量知識(shí)的效率。

附圖說(shuō)明

圖1為本發(fā)明實(shí)施例一種中文旅游領(lǐng)域知識(shí)圖譜的構(gòu)建方法的流程示意圖;

圖2為本發(fā)明實(shí)施例一種中文旅游領(lǐng)域知識(shí)圖譜構(gòu)建系統(tǒng)的組成結(jié)構(gòu)示意圖。

具體實(shí)施方式

下面結(jié)合實(shí)施例對(duì)本發(fā)明方法的優(yōu)選實(shí)施方式進(jìn)行詳細(xì)說(shuō)明。

實(shí)施例

一種中文旅游領(lǐng)域知識(shí)圖譜的構(gòu)建方法,如圖1所示,包括如下步驟:

步驟1,獲取旅游領(lǐng)域知識(shí)圖譜構(gòu)建的語(yǔ)料

首先,本發(fā)明從互動(dòng)百科網(wǎng)站旅游相關(guān)分類(lèi)中采集旅游領(lǐng)域?qū)嶓w詞條列表,分類(lèi)包括中國(guó)各省旅游、中國(guó)旅游、1A風(fēng)景區(qū)、2A風(fēng)景區(qū)、3A風(fēng)景區(qū)、4A風(fēng)景區(qū)和5A風(fēng)景區(qū),并且定義旅游領(lǐng)域?qū)嶓w的基本屬性及其屬性值的詞性。本實(shí)施例中定義的基本屬性包括:別稱(chēng)、地址、電話(huà)、海拔、級(jí)別、建立時(shí)間、開(kāi)放時(shí)間、門(mén)票價(jià)格、榮譽(yù)、相關(guān)人物、英文名、中文名、郵編、占地面積和著名景點(diǎn)。對(duì)于旅游領(lǐng)域?qū)嶓w詞條列表中的每個(gè)旅游實(shí)體詞條網(wǎng)頁(yè),本實(shí)施例開(kāi)發(fā)爬蟲(chóng)爬取了詞條正文的信息盒和自由文本。當(dāng)然,本領(lǐng)域技術(shù)人員知道,此處也可以采用包括Heritrix等爬蟲(chóng)工具對(duì)旅游實(shí)體詞條網(wǎng)頁(yè)進(jìn)行爬取。

根據(jù)旅游領(lǐng)域?qū)嶓w基本屬性的特點(diǎn),將屬性劃分為多值屬性、固定型單值屬性、非固定型單值屬性三種類(lèi)別。實(shí)體的多值屬性是指實(shí)體的屬性存在多個(gè)屬性值。實(shí)體的固定型單值屬性是指實(shí)體的屬性只存在一個(gè)屬性值且表示方式唯一。實(shí)體的非固定型單值屬性是指實(shí)體的屬性只存在一個(gè)屬性值,但表示方式不唯一。在上述旅游領(lǐng)域?qū)嶓w基本屬性中,電話(huà)、別稱(chēng)、榮譽(yù)、相關(guān)人物、著名景點(diǎn)為多值屬性;門(mén)票價(jià)格、海拔、郵編、英文名、中文名、占地面積為固定型單值屬性;地址、級(jí)別、建立時(shí)間、開(kāi)放時(shí)間為非固定型單值屬性。

其次,使用哈爾濱工業(yè)大學(xué)的語(yǔ)言技術(shù)平臺(tái)LTP進(jìn)行中文分詞和詞性標(biāo)注,當(dāng)然,本領(lǐng)域技術(shù)人員知道,此處也可以采用其它工具進(jìn)行中文分詞和詞性標(biāo)注。

例如,對(duì)于句子“北京動(dòng)物園,位于北京市西城區(qū)西直門(mén)外大街,東鄰北京展覽館和莫斯科餐廳,占地面積約86公頃,水面8.6公頃?!保衷~和詞性標(biāo)注后的結(jié)果為“北京(ns)動(dòng)物園(n),(wp)位于(v)北京市(ns)西城區(qū)(ns)西直門(mén)(ns)外(nd)大街(n),(wp)東(nd)鄰(n)北京(ns)展覽館(n)和(c)莫斯科(ns)餐廳(n),(wp)占地(v)面積(n)約(d)86(m)公頃(q),(wp)水面(n)8.6(m)公頃(q)。(wp)”。其中,詞語(yǔ)后面的標(biāo)記為詞性標(biāo)注符號(hào),請(qǐng)見(jiàn)語(yǔ)言技術(shù)平臺(tái)LTP。例如,“ns”表示地名。

步驟2,采用混合式方法進(jìn)行旅游領(lǐng)域?qū)嶓w屬性知識(shí)擴(kuò)充

本發(fā)明提出的混合式實(shí)體屬性知識(shí)擴(kuò)充方法包括四個(gè)部分,分別是基于模式匹配的實(shí)體屬性知識(shí)擴(kuò)充、基于屬性詞匯場(chǎng)的實(shí)體屬性知識(shí)擴(kuò)充、基于監(jiān)督學(xué)習(xí)的實(shí)體屬性知識(shí)擴(kuò)充,以及基于搜索引擎問(wèn)答的屬性知識(shí)擴(kuò)充。

第一,采用基于模式匹配的方法進(jìn)行實(shí)體屬性知識(shí)擴(kuò)充。

首先,人工構(gòu)建旅游領(lǐng)域?qū)嶓w基本屬性的屬性知識(shí)擴(kuò)充的原始模式。然后,利用《同義詞詞林》根據(jù)原始模式來(lái)學(xué)習(xí)屬性知識(shí)擴(kuò)充的擴(kuò)展模式。最后,基于原始模式和擴(kuò)展模式采用基于模式匹配的方法進(jìn)行實(shí)體屬性知識(shí)擴(kuò)充,即獲取三元組(實(shí)體,屬性,屬性值)。

原始模式和擴(kuò)展模式的構(gòu)成元素包括詞語(yǔ)常量和詞性變量。例如,屬性門(mén)票價(jià)格的屬性知識(shí)擴(kuò)充的原始模式“門(mén)票為<n><m><q>”包括詞語(yǔ)常量“門(mén)票”和“為”,詞性變量“<n>”、“<m>”和“<q>”,其中,n表示名詞,m表示數(shù)詞,q表示量詞。故宮博物院詞條中的句子“每張門(mén)票為人民幣60元”匹配該模式,由此獲取三元組(故宮博物院,門(mén)票價(jià)格,人民幣60元),表示故宮博物院的屬性門(mén)票價(jià)格的屬性值為60元。

根據(jù)原始模式學(xué)習(xí)屬性知識(shí)擴(kuò)充的擴(kuò)展模式的方法是,首先,對(duì)于原始模式中的詞語(yǔ)常量,通過(guò)《同義詞詞林》或其它方式提取其同義詞;然后,對(duì)于原始模式,原始模式中的詞語(yǔ)常量替換為詞語(yǔ)常量的同義詞,由此構(gòu)建擴(kuò)展模式。

第二,采用基于屬性詞匯場(chǎng)的方法進(jìn)行實(shí)體屬性知識(shí)擴(kuò)充。

屬性詞匯場(chǎng)由不同類(lèi)型的屬性線索詞語(yǔ)及其權(quán)重構(gòu)成。屬性線索詞語(yǔ)的類(lèi)型包括屬性詞語(yǔ)、屬性值詞語(yǔ)、屬性觸發(fā)詞語(yǔ)。本步驟內(nèi)容通過(guò)以下過(guò)程實(shí)現(xiàn):

首先,構(gòu)建每個(gè)旅游領(lǐng)域?qū)嶓w基本屬性a的詞匯場(chǎng)。屬性詞匯場(chǎng)中的屬性詞語(yǔ)包括基本屬性詞語(yǔ)、旅游實(shí)體詞條網(wǎng)頁(yè)的信息盒(Infobox)中的屬性詞語(yǔ)、屬性觸發(fā)詞。屬性詞匯場(chǎng)中的屬性值詞語(yǔ)包括旅游實(shí)體詞條信息盒中的屬性值詞語(yǔ),以及通過(guò)上述基于模式匹配方法抽取的屬性值詞語(yǔ)。

根據(jù)屬性詞語(yǔ)和屬性值詞語(yǔ)的來(lái)源和構(gòu)成,本實(shí)施例中屬性詞語(yǔ)的權(quán)重設(shè)置方法如下:基本屬性詞語(yǔ)和屬性觸發(fā)詞的權(quán)重都設(shè)為3;由單個(gè)漢字組成的屬性詞語(yǔ)的權(quán)重設(shè)為1.5;其他屬性詞語(yǔ)的權(quán)重設(shè)為2.5。屬性值詞語(yǔ)的權(quán)重設(shè)置方法如下:全部由數(shù)字構(gòu)成的屬性值詞語(yǔ)的權(quán)重設(shè)為0.5;由單個(gè)漢字或字母組成的屬性值詞語(yǔ)的權(quán)重設(shè)為1;其他屬性值的權(quán)重設(shè)為2。屬性詞語(yǔ)的權(quán)重設(shè)置遵循如下準(zhǔn)則:屬性詞語(yǔ)和屬性觸發(fā)詞的權(quán)重最大;單個(gè)漢字組成的屬性詞語(yǔ)的權(quán)重最??;其他類(lèi)型的屬性詞語(yǔ)的權(quán)重居中。屬性值詞語(yǔ)的權(quán)重設(shè)置遵循如下準(zhǔn)則:?jiǎn)蝹€(gè)漢字或字母組成的屬性值詞語(yǔ)的權(quán)重大于全部由數(shù)字構(gòu)成的屬性值詞語(yǔ)的權(quán)重,其他類(lèi)型的屬性值詞語(yǔ)的權(quán)重最大。

然后,對(duì)于語(yǔ)料中的每個(gè)句子,計(jì)算句子中包含屬性a的詞匯場(chǎng)中詞語(yǔ)的總數(shù)m和平均權(quán)重w。其中,詞語(yǔ)的平均權(quán)重為m個(gè)詞語(yǔ)的權(quán)重之和除以詞語(yǔ)的總數(shù)m。若m和w大于給定閾值,則將該句子構(gòu)建為擴(kuò)充屬性a的屬性知識(shí)的候選句子。

最后,根據(jù)屬性a的屬性值的詞性從候選句子中提取旅游領(lǐng)域?qū)嶓w的屬性a的屬性值。

例如,對(duì)于句子“798藝術(shù)區(qū)(ArtDist)位于北京朝陽(yáng)區(qū)酒仙橋街道大山子地區(qū),故又稱(chēng)大山子藝術(shù)區(qū)”,它包含屬性地址詞匯場(chǎng)中的5個(gè)詞語(yǔ),這些詞語(yǔ)及其權(quán)重分別是:地區(qū)(2.5)、A(1.0)、位于(3.0)、北京朝陽(yáng)區(qū)酒仙橋街道大山子地區(qū)(2.0)、北京(2.0)。其中,“地區(qū)”和“位于”為屬性詞語(yǔ);“北京朝陽(yáng)區(qū)酒仙橋街道大山子地區(qū)”、“北京”和“A”為屬性值詞語(yǔ)。因此,這5個(gè)詞語(yǔ)的平均權(quán)重為2.1。進(jìn)一步,該句子中包含詞匯場(chǎng)中詞語(yǔ)的個(gè)數(shù)和這些詞語(yǔ)的平均權(quán)重大于給定閾值,因此,提取句子中詞性標(biāo)注為“ns(表示地名)”的字符串“北京朝陽(yáng)區(qū)酒仙橋街道大山子地區(qū)”,作為實(shí)體“798藝術(shù)區(qū)”的屬性地址的屬性值,獲取三元組(798藝術(shù)區(qū),地址,北京朝陽(yáng)區(qū)酒仙橋街道大山子地區(qū))。

第三,采用基于搜索引擎問(wèn)答的方法進(jìn)行實(shí)體屬性知識(shí)擴(kuò)充。

本實(shí)施例將形如“e a”作為百度搜索引擎的查詢(xún)需求,其中e為旅游領(lǐng)域?qū)嶓w,a為屬性名稱(chēng),根據(jù)百度搜索引擎檢索結(jié)果,抽取旅游領(lǐng)域?qū)嶓we的屬性a的屬性值。本實(shí)施例中采用自己開(kāi)發(fā)的網(wǎng)絡(luò)爬蟲(chóng),利用形如“https://www.baidu.com/s?wd=<查詢(xún)>”的URL爬取搜索結(jié)果,并利用正則表達(dá)式判斷搜索結(jié)果中是否包含問(wèn)答形式的結(jié)果,即判斷是否含有op_exactqa_main的HTML標(biāo)簽。若搜索結(jié)果包含問(wèn)答形式的結(jié)果,則提取答案構(gòu)建為實(shí)體e的屬性a的屬性值。

第四,采用基于監(jiān)督學(xué)習(xí)的方法進(jìn)行實(shí)體屬性知識(shí)擴(kuò)充

首先,根據(jù)屬性值的詞性從語(yǔ)料的句子中提取旅游領(lǐng)域?qū)嶓w的候選屬性值。對(duì)于旅游領(lǐng)域?qū)嶓w的每個(gè)屬性,構(gòu)建該屬性的屬性值的候選詞性,并根據(jù)該候選詞性從句子中提取候選屬性值。例如,屬性“級(jí)別”的屬性值的候選詞性是“<m><q>(m表示數(shù)詞,q表示量詞)”。進(jìn)一步,將句子中詞性為數(shù)詞和量詞的連續(xù)兩個(gè)詞語(yǔ)提取為候選屬性值,并在句子中用符號(hào)“{”和“}”標(biāo)記候選屬性值的開(kāi)始位置和結(jié)束位置”。例如,對(duì)于句子“風(fēng)景區(qū)(n)屬(v)中國(guó)(ns)國(guó)家(n)3A(m)級(jí)(q)景區(qū)(n)”,提取候選屬性值“3A級(jí)”,并將該句子標(biāo)記為“風(fēng)景區(qū)(n)屬(v)中國(guó)(ns)國(guó)家(n){3A(m)級(jí)(q)}景區(qū)(n)”。其中,詞語(yǔ)后面的標(biāo)記為詞性標(biāo)注符號(hào),例如,n表示名詞,v表示動(dòng)詞,ns表示地名。

其次,對(duì)于提取出候選屬性值的句子提取其分類(lèi)特征。分類(lèi)特征包括屬性a的候選屬性值v前后五個(gè)詞語(yǔ)的詞頻、v前后各五個(gè)詞語(yǔ)的詞性、v的長(zhǎng)度、v在屬性a的詞匯場(chǎng)中的權(quán)重、v前一詞是否為標(biāo)點(diǎn)符號(hào)、v前三個(gè)詞是否包含否定詞、v在句子中的起始位置、v在句子中的結(jié)束位置、v所在句子中是否包含屬性觸發(fā)詞、v所在句子中屬性觸發(fā)詞與v的距離。

最后,基于訓(xùn)練好的決策樹(shù)、樸素貝葉斯、隨機(jī)森林,以及AdaBoost分類(lèi)器采用多分類(lèi)器投票法來(lái)判別候選屬性值是否為旅游領(lǐng)域?qū)嶓w的屬性值。對(duì)于候選屬性值v,分別采用訓(xùn)練好的決策樹(shù)、樸素貝葉斯、隨機(jī)森林,以及AdaBoost四種分類(lèi)器來(lái)判別候選屬性值。分類(lèi)標(biāo)簽包括True和False兩類(lèi),True表示該候選屬性值判別為旅游領(lǐng)域?qū)嶓w的屬性值,F(xiàn)alse表示該候選屬性值不能判別為旅游領(lǐng)域?qū)嶓w的屬性值。進(jìn)一步,對(duì)于通過(guò)這四種分類(lèi)器判別的候選屬性值v的分類(lèi)結(jié)果,選擇數(shù)量較多的分類(lèi)標(biāo)簽作為分類(lèi)結(jié)果。若數(shù)量較多的分類(lèi)標(biāo)簽為T(mén)rue,則構(gòu)建三元組實(shí)體、屬性和屬性值。

其中,決策樹(shù)、樸素貝葉斯、隨機(jī)森林,以及AdaBoost分類(lèi)器的訓(xùn)練過(guò)程如下:

首先,選取語(yǔ)料集中部分網(wǎng)頁(yè)構(gòu)建為訓(xùn)練集。對(duì)于訓(xùn)練集中的每個(gè)句子,若句子中標(biāo)記為候選屬性值的字符串為旅游領(lǐng)域?qū)嶓w的屬性a的屬性值,則將該句子賦予類(lèi)別標(biāo)簽“True”,標(biāo)記為提取屬性a的屬性值的正例句子;否則,將該句子賦予類(lèi)別標(biāo)簽“False”,標(biāo)記為提取屬性a的屬性值的反例句子。

例如,從句子“風(fēng)景區(qū)(n)屬(v)中國(guó)(ns)國(guó)家(n){3A(m)級(jí)(q)}景區(qū)(n)”中提取的候選屬性值“3A級(jí)”為旅游領(lǐng)域?qū)嶓w的屬性級(jí)別的屬性值,則將該句子標(biāo)記為提取屬性級(jí)別的屬性值的正例句子。再如,從句子“景區(qū)(n)面積(n)約(d)110(m)平方公里(q)”中提取屬性級(jí)別的候選屬性值“110平方公里”,由于該屬性值錯(cuò)誤,因此,將該句子標(biāo)記為提取屬性級(jí)別的屬性值的反例句子。

其次,提取訓(xùn)練集中句子的屬性值的分類(lèi)特征。分類(lèi)特征與從包含候選屬性值的句子中提取的分類(lèi)特征相同。

最后,根據(jù)訓(xùn)練集分別訓(xùn)練決策樹(shù)、樸素貝葉斯、隨機(jī)森林,以及AdaBoost四種分類(lèi)器。

步驟3,利用學(xué)習(xí)排序方法進(jìn)行旅游領(lǐng)域?qū)嶓w屬性值融合

首先,根據(jù)旅游領(lǐng)域?qū)嶓w基本屬性的特點(diǎn),將屬性劃分為多值屬性、固定型單值屬性、非固定型單值屬性三種類(lèi)別。

下面針對(duì)每種類(lèi)別的基本屬性的屬性值融合方法逐一進(jìn)行介紹:

第一,采用一種基于來(lái)源可信度的方法對(duì)多值屬性的屬性值進(jìn)行融合。實(shí)體的多值屬性是指實(shí)體的屬性存在多個(gè)屬性值。對(duì)于旅游領(lǐng)域?qū)嶓we及其屬性a,設(shè)通過(guò)基于模式匹配的方法m1獲取實(shí)體e的屬性a的屬性值v1,通過(guò)基于詞匯場(chǎng)的方法m2獲取屬性值v2,通過(guò)基于監(jiān)督學(xué)習(xí)的方法m3獲取屬性值v3,通過(guò)基于搜索引擎問(wèn)答的方法m4獲取屬性值v4,通過(guò)百科信息盒獲取屬性值v5。設(shè)通過(guò)方法m1,m2,m3,m4,m5獲取的屬性值v1,v2,v3,v4,v5的權(quán)重分別為w1,w2,w3,w4,w5。根據(jù)實(shí)體e的屬性a的屬性值的權(quán)重,將所有屬性值按照權(quán)重非升序的方式排序輸出。在本實(shí)施例中,根據(jù)這五種方法提取的屬性值的準(zhǔn)確率,設(shè)w1=3,w2=2,w3=1,w4=4,w5=5。

第二,采用一種基于內(nèi)容可信度的方法對(duì)固定型單值屬性的屬性值進(jìn)行融合。實(shí)體的固定型單值屬性是指實(shí)體的屬性只存在一個(gè)屬性值且表示方式唯一。例如,旅游領(lǐng)域?qū)嶓w的屬性郵編為固定型單值屬性。

對(duì)于旅游領(lǐng)域?qū)嶓we及其屬性a和候選屬性值v,設(shè)x表示通過(guò)上述基于來(lái)源可信度的方法獲取的屬性值的權(quán)重,y表示該屬性值通過(guò)上述步驟2所述混合式屬性知識(shí)擴(kuò)充方法被抽取出的次數(shù),z表示候選屬性值v的長(zhǎng)度,u表示候選屬性值v在屬性a的詞匯場(chǎng)中的權(quán)重。下面式子給出了計(jì)算候選屬性值v的可信度c的方法,其中α,β,γ,δ為用戶(hù)自定義的參數(shù),表示對(duì)判別候選屬性值正確的影響程度。在本實(shí)施例中,α=20,β=7,γ=5,δ=3。

c=αx+βy+γz+δu

若旅游領(lǐng)域?qū)嶓we及其屬性a具有多個(gè)候選屬性值,則選擇可信度最大的候選屬性值作為屬性a的屬性值。

第三,采用一種基于學(xué)習(xí)排序的方法對(duì)非固定型單值屬性的屬性值進(jìn)行融合。

實(shí)體的非固定型單值屬性是指實(shí)體的屬性只存在一個(gè)屬性值,但表示方式不唯一。例如,旅游領(lǐng)域?qū)嶓w的屬性地址為非固定型單值屬性。旅游領(lǐng)域?qū)嶓w“故宮”的屬性地址的屬性值可以表示為“北京市東城區(qū)”,“北京東城景山”等。

首先,構(gòu)建屬性值融合的訓(xùn)練集。訓(xùn)練集包括“排序分值,查詢(xún)編號(hào),<實(shí)體,屬性,屬性值,來(lái)源>”。根據(jù)屬性值與屬性的相關(guān)程度,將排序分值設(shè)置為0,1,2,或3,分值越大,表示屬性值和屬性相關(guān)度越大。每個(gè)查詢(xún)編號(hào)表示查詢(xún)旅游領(lǐng)域?qū)嶓w的一個(gè)屬性。來(lái)源表示三元組(實(shí)體,屬性,屬性值)的獲取方法。

例如,訓(xùn)練集示例如下:

3 2<丁村民宅,地址,山西省襄汾縣城南4公里汾河?xùn)|岸,IB>

2 2<丁村民宅,地址,山西省襄汾縣,SL>

1 2<丁村民宅,地址,汾河河谷,PM>

對(duì)于“3 2<丁村民宅,地址,山西省襄汾縣城南4公里汾河?xùn)|岸,IB>”,第一部分“3”表示屬性值類(lèi)別標(biāo)簽;第二部分“2”表示查詢(xún)編號(hào);第三部分“<丁村民宅,地址,山西省襄汾縣城南4公里汾河?xùn)|岸,IB>”表示通過(guò)百科詞條信息盒獲取的知識(shí)三元組(丁村民宅,地址,山西省襄汾縣城南4公里汾河?xùn)|岸),也就是,丁村民宅的地址為山西省襄汾縣城南4公里汾河?xùn)|岸,其中“IB”表示三元組知識(shí)通過(guò)百科詞條信息盒獲得。另外,“SL”表示三元組知識(shí)通過(guò)基于監(jiān)督學(xué)習(xí)方法獲得,“PM”表示三元組知識(shí)通過(guò)基于模式匹配方法獲得,“QA”表示三元組知識(shí)通過(guò)基于搜索引擎問(wèn)答方法獲得;“VF”表示表示三元組知識(shí)通過(guò)基于屬性詞匯場(chǎng)的方法獲得。

然后,采用學(xué)習(xí)排序模型對(duì)訓(xùn)練集進(jìn)行訓(xùn)練,構(gòu)建學(xué)習(xí)排序模型。本實(shí)施例中,采用了六種學(xué)習(xí)排序模型:隨機(jī)森林、迭代決策樹(shù)、RankBoost、ListNet、AdaRank和RankNet。

最后,根據(jù)訓(xùn)練的六個(gè)學(xué)習(xí)排序模型,對(duì)需要打分的每個(gè)屬性查詢(xún)的所有候選四元組<實(shí)體,屬性,屬性值,來(lái)源>進(jìn)行打分,獲得六個(gè)排序分值列表。對(duì)排序分值進(jìn)行歸一化,計(jì)算每個(gè)候選四元組在六個(gè)排序分值列表中的分值之和,輸出分值最高的候選四元組作為屬性值融合的結(jié)果。

步驟4,構(gòu)建中文旅游領(lǐng)域中文知識(shí)圖譜

根據(jù)步驟3獲取的三元組知識(shí),構(gòu)建旅游領(lǐng)域知識(shí)圖譜。知識(shí)圖譜包括三種節(jié)點(diǎn)(即圖中的節(jié)點(diǎn))和三種關(guān)系類(lèi)型(即圖中的邊)。節(jié)點(diǎn)類(lèi)型包括旅游領(lǐng)域?qū)嶓w節(jié)點(diǎn)、地點(diǎn)實(shí)體節(jié)點(diǎn)和屬性值節(jié)點(diǎn)。關(guān)系類(lèi)型包括地點(diǎn)實(shí)體和旅游領(lǐng)域?qū)嶓w之間的關(guān)系、地點(diǎn)實(shí)體和地點(diǎn)實(shí)體之間的關(guān)系,以及旅游領(lǐng)域?qū)嶓w和屬性值之間的關(guān)系。通過(guò)可擴(kuò)展標(biāo)記語(yǔ)言XML(Extensible Markup Language)存儲(chǔ)旅游領(lǐng)域?qū)嶓w節(jié)點(diǎn)、地點(diǎn)實(shí)體節(jié)點(diǎn)和屬性值節(jié)點(diǎn)以及它們的關(guān)系邊所表示的知識(shí),即可獲得旅游領(lǐng)域知識(shí)圖譜。例如,“故宮”和“香山公園”為旅游領(lǐng)域?qū)嶓w?!皷|城區(qū)”、“東直門(mén)”為地點(diǎn)實(shí)體。下面對(duì)基于步驟3獲得的旅游領(lǐng)域?qū)嶓w屬性值構(gòu)建旅游領(lǐng)域中文知識(shí)圖譜的過(guò)程進(jìn)行舉例說(shuō)明:

根據(jù)旅游領(lǐng)域?qū)嶓w的屬性地址及其屬性值,提取旅游領(lǐng)域?qū)嶓w節(jié)點(diǎn)、地點(diǎn)實(shí)體節(jié)點(diǎn)、屬性值節(jié)點(diǎn)、旅游領(lǐng)域?qū)嶓w和屬性值之間的關(guān)系、旅游領(lǐng)域?qū)嶓w和地點(diǎn)實(shí)體之間的關(guān)系,以及地點(diǎn)實(shí)體和地點(diǎn)實(shí)體之間的關(guān)系。

例如,對(duì)于旅游領(lǐng)域?qū)嶓w“果洛白玉寺”,其屬性建立時(shí)間的屬性值為“1857年”,首先,構(gòu)建旅游領(lǐng)域?qū)嶓w節(jié)點(diǎn)“果洛白玉寺”、屬性值節(jié)點(diǎn)“1857年”;然后,構(gòu)建該旅游領(lǐng)域?qū)嶓w節(jié)點(diǎn)和該屬性值節(jié)點(diǎn)之間的關(guān)系邊“建立時(shí)間”。

再如,對(duì)于旅游領(lǐng)域?qū)嶓w“汪家莊漢墓”,其屬性地址的屬性值為“互助土族自治縣沙塘川鄉(xiāng)汪家莊”,經(jīng)過(guò)分詞獲得“互助土族自治縣”、“沙塘川鄉(xiāng)”、“汪家莊”三個(gè)地址。由此,提取如下三種關(guān)系:“汪家莊漢墓”位于“汪家莊”;“汪家莊”位于“沙塘川鄉(xiāng)”;“沙塘川鄉(xiāng)”位于“互助土族自治縣”。進(jìn)一步獲得三元組知識(shí)(汪家莊,包含實(shí)體,汪家莊漢墓),(沙塘川鄉(xiāng),包含地點(diǎn),汪家莊)、(互助土族自治縣,包含地點(diǎn),沙塘川鄉(xiāng))。因此,構(gòu)建地點(diǎn)實(shí)體“汪家莊”、“沙塘川鄉(xiāng)”、“互助土族自治縣”和旅游領(lǐng)域?qū)嶓w節(jié)點(diǎn)“汪家莊漢墓”;同時(shí)構(gòu)建三個(gè)關(guān)系:地點(diǎn)實(shí)體節(jié)點(diǎn)“汪家莊”和旅游領(lǐng)域?qū)嶓w節(jié)點(diǎn)“汪家莊漢墓”的關(guān)系邊“包含實(shí)體”;地點(diǎn)實(shí)體節(jié)點(diǎn)“沙塘川鄉(xiāng)”和地點(diǎn)實(shí)體節(jié)點(diǎn)“汪家莊”的關(guān)系邊“包含地點(diǎn)”;地點(diǎn)實(shí)體節(jié)點(diǎn)“互助土族自治縣”和地點(diǎn)實(shí)體節(jié)點(diǎn)“沙塘川鄉(xiāng)”的關(guān)系邊“包含地點(diǎn)”。

一種中文旅游領(lǐng)域知識(shí)圖譜構(gòu)建系統(tǒng),如圖2所示,包括旅游領(lǐng)域語(yǔ)料采集模塊、旅游領(lǐng)域?qū)嶓w屬性知識(shí)擴(kuò)充模塊、旅游領(lǐng)域?qū)嶓w屬性值融合模塊,以及旅游領(lǐng)域知識(shí)圖譜構(gòu)建模塊。旅游領(lǐng)域語(yǔ)料采集模塊與旅游領(lǐng)域?qū)嶓w屬性知識(shí)擴(kuò)充模塊相連;旅游領(lǐng)域?qū)嶓w屬性知識(shí)擴(kuò)充模塊與旅游領(lǐng)域?qū)嶓w屬性值融合模塊相連;旅游領(lǐng)域?qū)嶓w屬性值融合模塊與旅游領(lǐng)域知識(shí)圖譜構(gòu)建模塊相連。

所述旅游領(lǐng)域語(yǔ)料采集模塊用于采集旅游領(lǐng)域?qū)嶓w詞條網(wǎng)頁(yè),對(duì)網(wǎng)頁(yè)中的句子進(jìn)行中文分詞和詞性標(biāo)注,以及定義旅游領(lǐng)域?qū)嶓w的基本屬性及其屬性值的詞性,根據(jù)旅游領(lǐng)域?qū)嶓w的基本屬性的特點(diǎn),將其劃分為多值屬性、固定型單值屬性或非固定型單值屬性類(lèi)別;

所述旅游領(lǐng)域?qū)嶓w屬性知識(shí)擴(kuò)充模塊用于對(duì)所述旅游領(lǐng)域語(yǔ)料采集模塊獲取的網(wǎng)頁(yè)的句子進(jìn)行旅游領(lǐng)域?qū)嶓w的屬性和屬性值擴(kuò)充;本實(shí)施例中,該模塊通過(guò)上述一種旅游領(lǐng)域知識(shí)圖譜的構(gòu)建方法步驟2所述過(guò)程實(shí)現(xiàn)。

所述旅游領(lǐng)域?qū)嶓w屬性值融合模塊用于對(duì)所述旅游領(lǐng)域?qū)嶓w屬性知識(shí)擴(kuò)充模塊提取的實(shí)體的屬性值根據(jù)實(shí)體的屬性類(lèi)別進(jìn)行融合;本實(shí)施例中,該模塊通過(guò)上述一種旅游領(lǐng)域知識(shí)圖譜的構(gòu)建方法步驟3所述過(guò)程實(shí)現(xiàn)。

所述旅游領(lǐng)域知識(shí)圖譜構(gòu)建模塊用于對(duì)所述旅游領(lǐng)域?qū)嶓w屬性值融合模塊提取的實(shí)體、屬性和屬性值三元組進(jìn)行旅游領(lǐng)域知識(shí)圖譜構(gòu)建。

實(shí)驗(yàn)結(jié)果

為說(shuō)明本發(fā)明的中文旅游領(lǐng)域知識(shí)圖譜構(gòu)建方法的效果,本發(fā)明采用評(píng)測(cè)指標(biāo):準(zhǔn)確率、MAP、NDCG@5和NDCG@10。準(zhǔn)確率為獲取的正確的三元組數(shù)量與獲取的三元組數(shù)量的比例。MAP(Mean average precision)稱(chēng)為平均準(zhǔn)確率的均值,是信息檢索領(lǐng)域的重要評(píng)估指標(biāo)。其計(jì)算公式如下,其中n表示檢索主題的個(gè)數(shù),APi表示第i個(gè)主題的檢索結(jié)果的平均準(zhǔn)確率,m表示第i個(gè)主題的檢索結(jié)果的個(gè)數(shù),Rj表示第j個(gè)文檔在檢索結(jié)果中的排名。

NDCG(Normalize Discounted cumulative gain)是信息檢索領(lǐng)域的重要評(píng)估指標(biāo)。NDCD@k計(jì)算公式如下,其中reli表示第k位置上文檔的相關(guān)度,|REL|表示按照文檔相關(guān)度非降序排列的文檔列表,k為整數(shù)。

本發(fā)明的中文旅游領(lǐng)域知識(shí)圖譜構(gòu)建方法中,旅游領(lǐng)域?qū)嶓w屬性知識(shí)擴(kuò)充模塊獲取約35600個(gè)三元組,抽樣準(zhǔn)確率約為89%。本發(fā)明提出的基于屬性詞匯場(chǎng)的實(shí)體屬性知識(shí)擴(kuò)充方法獲取約13400個(gè)三元組,抽樣準(zhǔn)確率約為77%。現(xiàn)有的基于監(jiān)督學(xué)習(xí)的實(shí)體屬性知識(shí)擴(kuò)充方法獲取約19300個(gè)三元組,抽樣準(zhǔn)確率約為82%;現(xiàn)有的基于模式匹配的實(shí)體屬性知識(shí)擴(kuò)充方法獲取約8800個(gè)三元組,抽樣準(zhǔn)確率約為92%;現(xiàn)有的基于搜索引擎問(wèn)答的實(shí)體屬性知識(shí)擴(kuò)充方法獲取約1500個(gè)三元組,所有三元組知識(shí)都正確。從本發(fā)明的中文旅游領(lǐng)域知識(shí)圖譜構(gòu)建方法的實(shí)驗(yàn)結(jié)果看出,本發(fā)明方法獲取的三元組數(shù)量最多,獲取的三元組準(zhǔn)確率高于基于屬性詞匯場(chǎng)和基于監(jiān)督學(xué)習(xí)方法獲取的三元組知識(shí)。本發(fā)明的中文旅游領(lǐng)域知識(shí)圖譜構(gòu)建方法中,實(shí)體屬性值融合模塊對(duì)非固定型單值屬性級(jí)別和開(kāi)放時(shí)間的屬性值融合結(jié)果的正確率約為95%。由此表明:本發(fā)明的中文旅游領(lǐng)域知識(shí)圖譜構(gòu)建方法不僅擴(kuò)大了獲取知識(shí)的規(guī)模,而且提升了獲取知識(shí)的準(zhǔn)確率,從而提高用戶(hù)獲取高質(zhì)量知識(shí)的效率。

為了說(shuō)明本發(fā)明的內(nèi)容及實(shí)施方式,本說(shuō)明書(shū)給出了具體實(shí)施例。在實(shí)施例中引入細(xì)節(jié)的目的不是限制權(quán)利要求書(shū)的范圍,而是幫助理解本發(fā)明所述方法。本領(lǐng)域的技術(shù)人員應(yīng)理解:在不脫離本發(fā)明及其所附權(quán)利要求的精神和范圍內(nèi),對(duì)最佳實(shí)施例步驟的各種修改、變化或替換都是可能的。因此,本發(fā)明不應(yīng)局限于最佳實(shí)施例及附圖所公開(kāi)的內(nèi)容。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1