1.一種旅游領(lǐng)域知識圖譜的構(gòu)建方法,其特征在于,包括以下步驟:
步驟1,獲取旅游領(lǐng)域知識圖譜構(gòu)建的語料;
步驟2,對步驟1所得的語料采用混合式方法進(jìn)行實(shí)體屬性知識擴(kuò)充;
步驟3,對步驟2所得的實(shí)體屬性知識進(jìn)行實(shí)體屬性值融合;
步驟4,對步驟3所得結(jié)果基于可擴(kuò)展標(biāo)記語言XML構(gòu)建旅游領(lǐng)域中文知識圖譜。
2.根據(jù)權(quán)利要求1所述的一種旅游領(lǐng)域知識圖譜的構(gòu)建方法,其特征在于,所述步驟1通過以下過程完成:首先采集旅游領(lǐng)域?qū)嶓w詞條網(wǎng)頁構(gòu)建為語料集,并定義旅游領(lǐng)域?qū)嶓w的基本屬性及其屬性值的詞性,以及根據(jù)旅游領(lǐng)域?qū)嶓w的基本屬性的特點(diǎn),將其劃分為多值屬性、固定型單值屬性或非固定型單值屬性類別;然后對語料集網(wǎng)頁中的句子進(jìn)行中文分詞和詞性標(biāo)注。
3.根據(jù)權(quán)利要求1所述的一種旅游領(lǐng)域知識圖譜的構(gòu)建方法,其特征在于,所述步驟2中混合式方法包括四個部分,分別是基于模式匹配的實(shí)體屬性知識擴(kuò)充、基于屬性詞匯場的實(shí)體屬性知識擴(kuò)充、基于監(jiān)督學(xué)習(xí)的實(shí)體屬性知識擴(kuò)充,以及基于搜索引擎問答的屬性知識擴(kuò)充,具體如下:
第一,采用基于模式匹配的方法進(jìn)行實(shí)體屬性知識擴(kuò)充的具體內(nèi)容如下:
首先,人工構(gòu)建旅游領(lǐng)域?qū)嶓w基本屬性的屬性知識擴(kuò)充的原始模式;
然后,利用《同義詞詞林》根據(jù)原始模式來學(xué)習(xí)屬性知識擴(kuò)充的擴(kuò)展模式;
最后,根據(jù)原始模式和擴(kuò)展模式采用基于模式匹配的方法進(jìn)行實(shí)體屬性知識擴(kuò)充,即獲取三元組(實(shí)體,屬性,屬性值);
第二,采用基于詞匯場的方法進(jìn)行實(shí)體屬性知識擴(kuò)充的具體內(nèi)容如下:
首先,構(gòu)建每個旅游領(lǐng)域?qū)嶓w基本屬性a的詞匯場;
然后,對于所述語料中的每個句子,計(jì)算句子中包含屬性a的詞匯場中詞語的總數(shù)m和平均權(quán)重w;若m和w大于給定閾值,則將該句子構(gòu)建為擴(kuò)充屬性a的屬性知識的候選句子;
最后,根據(jù)屬性a的屬性值的詞性從候選句子中提取旅游領(lǐng)域?qū)嶓w的屬性a的屬性值;
第三,采用基于搜索引擎問答的方法進(jìn)行實(shí)體屬性知識擴(kuò)充的具體內(nèi)容如下:
將形如“e a”作為百度搜索引擎的查詢需求,其中e為旅游領(lǐng)域?qū)嶓w,a為屬性名稱,根據(jù)百度搜索引擎檢索結(jié)果,抽取旅游領(lǐng)域?qū)嶓we的屬性a的屬性值;
第四,采用基于監(jiān)督學(xué)習(xí)的方法進(jìn)行實(shí)體屬性知識擴(kuò)充的具體內(nèi)容如下:
首先,根據(jù)屬性值的詞性從語料的句子中提取旅游領(lǐng)域?qū)嶓w的候選屬性值;
其次,對于提取出候選屬性值的句子提取其如下分類特征:候選屬性值v前后五個詞語的詞頻、v前后各五個詞語的詞性、v的長度、v在詞匯場中的權(quán)重、v前一詞是否為標(biāo)點(diǎn)符號、v前三個詞是否包含否定詞、v在句子中的起始位置、v在句子中的結(jié)束位置、v所在句子中是否包含屬性觸發(fā)詞、v所在句子中屬性觸發(fā)詞與v的距離;
最后,基于訓(xùn)練好的分類器采用多分類器投票法來判別候選屬性值是否為旅游領(lǐng)域?qū)嶓w的屬性的屬性值。
4.根據(jù)權(quán)利要求3所述的一種旅游領(lǐng)域知識圖譜的構(gòu)建方法,其特征在于,所述基于訓(xùn)練好的分類器采用多分類器投票法來判別候選屬性值是否為旅游領(lǐng)域?qū)嶓w的屬性的屬性值通過以下過程完成:首先,對于候選屬性值v,分別采用訓(xùn)練好的決策樹、樸素貝葉斯、隨機(jī)森林,以及AdaBoost四種分類器來判別候選屬性值;分類標(biāo)簽包括True和False兩類,True表示該候選屬性值判別為旅游領(lǐng)域?qū)嶓w的屬性值,F(xiàn)alse表示該候選屬性值不能判別為旅游領(lǐng)域?qū)嶓w的屬性值;然后,對于通過這四種分類器判別的候選屬性值v的分類結(jié)果,選擇數(shù)量較多的分類標(biāo)簽作為分類結(jié)果;若數(shù)量較多的分類標(biāo)簽為True,則構(gòu)建三元組實(shí)體、屬性和屬性值。
5.根據(jù)權(quán)利要求4所述的一種旅游領(lǐng)域知識圖譜的構(gòu)建方法,其特征在于,所述訓(xùn)練好的決策樹、樸素貝葉斯、隨機(jī)森林,以及AdaBoost四種分類器訓(xùn)練過程如下:
首先,選取語料集中部分網(wǎng)頁構(gòu)建為訓(xùn)練集:對于訓(xùn)練集中的每個句子,若句子中標(biāo)記為候選屬性值的字符串為旅游領(lǐng)域?qū)嶓w的屬性a的屬性值,則將該句子賦予類別標(biāo)簽“True”,標(biāo)記為提取屬性a的屬性值的正例句子;否則,將該句子賦予類別標(biāo)簽“False”,標(biāo)記為提取屬性a的屬性值的反例句子;
其次,提取訓(xùn)練集中句子的分類特征:分類特征與權(quán)利要求3第四步所述的從包含候選屬性值的句子中提取的分類特征相同;
最后,根據(jù)訓(xùn)練集分別訓(xùn)練決策樹、樸素貝葉斯、隨機(jī)森林,以及AdaBoost四種分類器。
6.根據(jù)權(quán)利要求1所述的一種旅游領(lǐng)域知識圖譜的構(gòu)建方法,其特征在于,所述步驟3通過以下過程完成:
根據(jù)旅游領(lǐng)域?qū)嶓w基本屬性的特點(diǎn),將屬性劃分為多值屬性、固定型單值屬性、非固定型單值屬性三種類別;
第一,采用一種基于來源可信度的方法對多值屬性的屬性值進(jìn)行融合;
第二,采用一種基于內(nèi)容可信度的方法對固定型單值屬性的屬性值進(jìn)行融合;
第三,采用如下一種基于學(xué)習(xí)排序的方法對非固定型單值屬性的屬性值進(jìn)行融合:
首先,構(gòu)建屬性值融合的訓(xùn)練集:訓(xùn)練集包括“排序分值,查詢編號,<實(shí)體,屬性,屬性值,來源>”,其中,根據(jù)屬性值與屬性的相關(guān)程度,將排序分值設(shè)置為0,1,2,或3,分值越大,表示屬性值和屬性相關(guān)度越大;每個查詢編號表示查詢旅游領(lǐng)域?qū)嶓w的一個屬性;來源表示三元組(實(shí)體,屬性,屬性值)的獲取方法;
然后,采用學(xué)習(xí)排序模型對訓(xùn)練集進(jìn)行訓(xùn)練,構(gòu)建排序模型,本步驟采用了如下六種學(xué)習(xí)排序模型:隨機(jī)森林、迭代決策樹、RankBoost、ListNet、AdaRank和RankNet;
最后,首先根據(jù)訓(xùn)練的六個學(xué)習(xí)排序模型,對需要打分的每個屬性查詢的所有候選四元組<實(shí)體,屬性,屬性值,來源>進(jìn)行打分,獲得六個排序分值列表;然后對排序分值進(jìn)行歸一化,計(jì)算每個候選四元組在六個排序分值列表中的分值之和,輸出分值最高的候選四元組作為屬性值融合的結(jié)果。
7.根據(jù)權(quán)利要求1所述的一種旅游領(lǐng)域知識圖譜的構(gòu)建方法,其特征在于,所述步驟4中通過以下過程實(shí)現(xiàn):
根據(jù)步驟3獲取的三元組知識,構(gòu)建旅游領(lǐng)域知識圖譜;知識圖譜包括三種節(jié)點(diǎn)(即圖中的節(jié)點(diǎn))和三種關(guān)系類型(即圖中的邊),節(jié)點(diǎn)類型包括旅游領(lǐng)域?qū)嶓w節(jié)點(diǎn)、地點(diǎn)實(shí)體節(jié)點(diǎn)和屬性值節(jié)點(diǎn),關(guān)系類型包括地點(diǎn)實(shí)體和旅游領(lǐng)域?qū)嶓w之間的關(guān)系、地點(diǎn)實(shí)體和地點(diǎn)實(shí)體之間的關(guān)系,以及旅游領(lǐng)域?qū)嶓w和屬性值之間的關(guān)系;通過可擴(kuò)展標(biāo)記語言XML(Extensible Markup Language)存儲旅游領(lǐng)域?qū)嶓w節(jié)點(diǎn)、地點(diǎn)實(shí)體節(jié)點(diǎn)和屬性值節(jié)點(diǎn)以及它們的關(guān)系邊所表示的知識,即可獲得旅游領(lǐng)域知識圖譜。
8.一種中文旅游領(lǐng)域知識圖譜構(gòu)建系統(tǒng),其特征在于,包括旅游領(lǐng)域語料采集模塊、旅游領(lǐng)域?qū)嶓w屬性知識擴(kuò)充模塊、旅游領(lǐng)域?qū)嶓w屬性值融合模塊以及旅游領(lǐng)域知識圖譜構(gòu)建模塊;旅游領(lǐng)域語料采集模塊與旅游領(lǐng)域?qū)嶓w屬性知識擴(kuò)充模塊相連;旅游領(lǐng)域?qū)嶓w屬性知識擴(kuò)充模塊與旅游領(lǐng)域?qū)嶓w屬性值融合模塊相連;旅游領(lǐng)域?qū)嶓w屬性值融合模塊與旅游領(lǐng)域知識圖譜構(gòu)建模塊相連;
所述旅游領(lǐng)域語料采集模塊用于采集旅游領(lǐng)域?qū)嶓w詞條網(wǎng)頁,對網(wǎng)頁中的句子進(jìn)行中文分詞和詞性標(biāo)注,以及定義旅游領(lǐng)域?qū)嶓w的基本屬性及其屬性值的詞性,根據(jù)旅游領(lǐng)域?qū)嶓w的基本屬性的特點(diǎn),將其劃分為多值屬性、固定型單值屬性或非固定型單值屬性類別;
所述旅游領(lǐng)域?qū)嶓w屬性知識擴(kuò)充模塊用于對所述旅游領(lǐng)域語料采集模塊獲取的網(wǎng)頁的句子進(jìn)行旅游領(lǐng)域?qū)嶓w的屬性和屬性值擴(kuò)充;
所述旅游領(lǐng)域?qū)嶓w屬性值融合模塊用于對所述旅游領(lǐng)域?qū)嶓w屬性知識擴(kuò)充模塊提取的實(shí)體的屬性值根據(jù)實(shí)體的屬性類別進(jìn)行融合;
所述旅游領(lǐng)域知識圖譜構(gòu)建模塊用于對所述旅游領(lǐng)域?qū)嶓w屬性值融合模塊提取的實(shí)體、屬性和屬性值三元組通過可擴(kuò)展標(biāo)記語言XML存儲旅游領(lǐng)域?qū)嶓w節(jié)點(diǎn)、地點(diǎn)實(shí)體節(jié)點(diǎn)和屬性值節(jié)點(diǎn)以及它們的關(guān)系邊所表示的知識進(jìn)行旅游領(lǐng)域知識圖譜構(gòu)建。
9.根據(jù)權(quán)利要求8所述的一種中文旅游領(lǐng)域知識圖譜構(gòu)建系統(tǒng),其特征在于,所述旅游領(lǐng)域?qū)嶓w屬性知識擴(kuò)充模塊通過權(quán)利要求3所述過程實(shí)現(xiàn)。
10.根據(jù)權(quán)利要求8或9任一所述的一種中文旅游領(lǐng)域知識圖譜構(gòu)建系統(tǒng),其特征在于,所述旅游領(lǐng)域?qū)嶓w屬性值融合模塊通過權(quán)利要求6所述過程實(shí)現(xiàn)。