本發(fā)明涉及人工智能對話系統(tǒng),尤其涉及知識圖譜中實體熱門度的計算方法及裝置、知識圖譜中實體熱門度在人機對話中的應(yīng)用方法及裝置。
背景技術(shù):
含知識圖譜的人工智能對話系統(tǒng),比傳統(tǒng)語料檢索的對話系統(tǒng)的優(yōu)勢在于其多具備了知識和常識方面的回答能力,人在與這類人工智能對話系統(tǒng)聊天時能感受到機器人和人一樣能記憶知識,懂知識,聊知識。含知識圖譜的人工智能對話系統(tǒng)的結(jié)構(gòu)流程通常是用戶輸入句,閑聊類回答與基于知識圖譜的知識類回答作為并行處理(各自給出候選回答并給一個自信分?jǐn)?shù),分?jǐn)?shù)越高越希望出此結(jié)果),最后由一個最終排序器從所有候選回答中挑選最合適的回送給用戶。
當(dāng)知識圖譜的實體(詞條)數(shù)量達到百萬千萬甚至上億的數(shù)量級的時候,實體(詞條)會大量涉及日常用語,例如:我是誰(電影名),你好(歌曲名)等等。因此基于知識圖譜的知識類回答需要做到:判別用戶輸入句的意圖是否想問知識;所問詞條是否屬于日常用語;觸發(fā)知識類回答是否會搶答閑聊類的回答模塊;如何設(shè)置回答自信分?jǐn)?shù)等問題。不能解決這類問題就會造成知識類回答搶答了原本應(yīng)該觸發(fā)的閑聊;另外,同名實體觸發(fā)的優(yōu)先級問題也是需要解決的。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是提供知識圖譜中實體熱門度的計算方法及裝置、知識圖譜中實體熱門度在人機對話中的應(yīng)用方法及裝置,旨在解決現(xiàn)有的人工智能對話系統(tǒng)在人機對話過程中遇到同名實體時,無法根據(jù)用戶輸入句的意圖確定應(yīng)該觸發(fā)知識類回答還是閑聊類回答,以及同名實體觸發(fā)的優(yōu)先級無法確定的問題。
本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是:
一種知識圖譜中實體熱門度的計算方法,包括:
抓取知識圖譜中實體的百科頁面,對所述實體的百科頁面的基礎(chǔ)屬性進行統(tǒng)計,獲取基礎(chǔ)屬性的統(tǒng)計結(jié)果;所述基礎(chǔ)屬性包括屬性數(shù)量、鏈接數(shù)量、頁面篇幅、出品日期/上映時間、百科頁面瀏覽次數(shù)統(tǒng)計、百科頁面最近更新統(tǒng)計、日常用語的實體出現(xiàn)頻率中的一種或多種;
根據(jù)所述基礎(chǔ)屬性的統(tǒng)計結(jié)果,設(shè)置各基礎(chǔ)屬性的初始熱門度;
對各基礎(chǔ)屬性的初始熱門度進行歸一化處理,獲取各基礎(chǔ)屬性的歸一化熱門度;
獲取各基礎(chǔ)屬性的加權(quán)系數(shù);
根據(jù)各基礎(chǔ)屬性的加權(quán)系數(shù),對各基礎(chǔ)屬性的歸一化熱門度進行加權(quán)求和,獲取實體熱門度。
在上述實施例的基礎(chǔ)上,進一步地,還包括:
定期更新實體熱門度。
在上述實施例的基礎(chǔ)上,進一步地,所述定期更新實體熱門度的步驟,具體為:
對各基礎(chǔ)屬性的初始熱門度進行更新;
根據(jù)更新后的各基礎(chǔ)屬性的初始熱門度,對各基礎(chǔ)屬性的歸一化熱門度進行更新;
根據(jù)更新后的各基礎(chǔ)屬性的歸一化熱門度,對實體熱門度進行更新;或者,
根據(jù)搜索網(wǎng)站的熱搜榜單、排名及排名變化,獲取熱搜數(shù)據(jù);
對社區(qū)網(wǎng)站的短評與長評按時間序列進行計數(shù),獲取社區(qū)數(shù)據(jù);
對人機對話記錄中的實體按時間序列進行計數(shù),獲取對話數(shù)據(jù);
將所述熱搜數(shù)據(jù)、所述社區(qū)數(shù)據(jù)、所述對話數(shù)據(jù)作為標(biāo)定數(shù)據(jù)集,根據(jù)所述標(biāo)定數(shù)據(jù)集,對各基礎(chǔ)屬性的加權(quán)系數(shù)進行更新;
根據(jù)更新后的各基礎(chǔ)屬性的加權(quán)系數(shù),對實體熱門度進行更新。
在上述任意實施例的基礎(chǔ)上,進一步地,還包括:
對知識圖譜中相鄰實體的實體熱門度進行修正。
一種知識圖譜中實體熱門度在人機對話中的應(yīng)用方法,包括:
根據(jù)用戶輸入的信息,獲取知識類回答和閑聊類回答;所述知識類回答中包括實體;
上述任一項實施例中的知識圖譜中實體熱門度的計算方法;
根據(jù)實體熱門度,獲取知識類回答分?jǐn)?shù);
獲取閑聊類回答分?jǐn)?shù);
根據(jù)所述知識類回答分?jǐn)?shù)、所述閑聊類回答分?jǐn)?shù),對知識類回答和閑聊類回答進行排序,獲取排序結(jié)果;
根據(jù)所述排序結(jié)果,對用戶進行回應(yīng)。
一種知識圖譜中實體熱門度的計算裝置,包括:
統(tǒng)計模塊,用于抓取知識圖譜中實體的百科頁面,對所述實體的百科頁面的基礎(chǔ)屬性進行統(tǒng)計,獲取基礎(chǔ)屬性的統(tǒng)計結(jié)果;所述基礎(chǔ)屬性包括屬性數(shù)量、鏈接數(shù)量、頁面篇幅、出品日期/上映時間、百科頁面瀏覽次數(shù)統(tǒng)計、百科頁面最近更新統(tǒng)計、日常用語的實體出現(xiàn)頻率中的一種或多種;
設(shè)置模塊,用于根據(jù)所述基礎(chǔ)屬性的統(tǒng)計結(jié)果,設(shè)置各基礎(chǔ)屬性的初始熱門度;
歸一化模塊,用于對各基礎(chǔ)屬性的初始熱門度進行歸一化處理,獲取各基礎(chǔ)屬性的歸一化熱門度;
系數(shù)獲取模塊,用于獲取各基礎(chǔ)屬性的加權(quán)系數(shù);
計算模塊,用于根據(jù)各基礎(chǔ)屬性的加權(quán)系數(shù),對各基礎(chǔ)屬性的歸一化熱門度進行加權(quán)求和,獲取實體熱門度。
在上述實施例的基礎(chǔ)上,進一步地,還包括:
更新模塊,用于定期更新實體熱門度。
在上述實施例的基礎(chǔ)上,進一步地,所述更新模塊用于:
對各基礎(chǔ)屬性的初始熱門度進行更新;
根據(jù)更新后的各基礎(chǔ)屬性的初始熱門度,對各基礎(chǔ)屬性的歸一化熱門度進行更新;
根據(jù)更新后的各基礎(chǔ)屬性的歸一化熱門度,對實體熱門度進行更新;或者,
根據(jù)搜索網(wǎng)站的熱搜榜單、排名及排名變化,獲取熱搜數(shù)據(jù);
對社區(qū)網(wǎng)站的短評與長評按時間序列進行計數(shù),獲取社區(qū)數(shù)據(jù);
對人機對話記錄中的實體按時間序列進行計數(shù),獲取對話數(shù)據(jù);
將所述熱搜數(shù)據(jù)、所述社區(qū)數(shù)據(jù)、所述對話數(shù)據(jù)作為標(biāo)定數(shù)據(jù)集,根據(jù)所述標(biāo)定數(shù)據(jù)集,對各基礎(chǔ)屬性的加權(quán)系數(shù)進行更新;
根據(jù)更新后的各基礎(chǔ)屬性的加權(quán)系數(shù),對實體熱門度進行更新。
在上述任意實施例的基礎(chǔ)上,進一步地,還包括:
修正模塊,用于對知識圖譜中相鄰實體的實體熱門度進行修正。
一種知識圖譜中實體熱門度在人機對話中的應(yīng)用裝置,包括:
回答獲取模塊,用于根據(jù)用戶輸入的信息,獲取知識類回答和閑聊類回答;所述知識類回答中包括實體;
上述任一項實施例中的知識圖譜中實體熱門度的計算裝置;
第一分?jǐn)?shù)模塊,用于根據(jù)實體熱門度,獲取知識類回答分?jǐn)?shù);
第二分?jǐn)?shù)模塊,用于獲取閑聊類回答分?jǐn)?shù);
排序模塊,用于根據(jù)所述知識類回答分?jǐn)?shù)、所述閑聊類回答分?jǐn)?shù),對知識類回答和閑聊類回答進行排序,獲取排序結(jié)果;
回應(yīng)模塊,用于根據(jù)所述排序結(jié)果,對用戶進行回應(yīng)。
本發(fā)明的有益效果是:
本發(fā)明提供了知識圖譜中實體熱門度的計算方法及裝置、知識圖譜中實體熱門度在人機對話中的應(yīng)用方法及裝置,通過對知識圖譜中實體熱門度的計算,將其應(yīng)用在人機對話過程中,使知識類的問答的給分能有效得到定量化。本發(fā)明實現(xiàn)了知識類回答的自信分?jǐn)?shù)設(shè)定,減少日常用語搶答閑聊類的回答;實現(xiàn)了在人與情感聊天機器人對話中的話題延伸,比如對話中聊到某一話題,機器人可以主動發(fā)問相關(guān)熱門詞條的應(yīng)用;實現(xiàn)了知識類回答中對于實體多義詞的處理,在對話上下文沒出現(xiàn)其他線索時輸出默認(rèn)(熱門度最高)實體詞條的回答。
附圖說明
下面結(jié)合附圖和實施例對本發(fā)明進一步說明。
圖1示出了本發(fā)明實施例提供的知識圖譜中實體熱門度的計算方法的流程圖;
圖2示出了本發(fā)明實施例提供的知識圖譜中實體熱門度的計算裝置的結(jié)構(gòu)示意圖。
具體實施方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對本發(fā)明進行進一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅用以解釋本發(fā)明,并不限定本發(fā)明。
具體實施例一
如圖1所示,本發(fā)明實施例提供了一種知識圖譜中實體熱門度的計算方法,包括以下步驟。
步驟S101,抓取知識圖譜中實體的百科頁面,對所述實體的百科頁面的基礎(chǔ)屬性進行統(tǒng)計,獲取基礎(chǔ)屬性的統(tǒng)計結(jié)果;本發(fā)明實施例對基礎(chǔ)屬性不做限定,所述基礎(chǔ)屬性可以包括屬性數(shù)量、鏈接數(shù)量、頁面篇幅、出品日期/上映時間、百科頁面瀏覽次數(shù)統(tǒng)計、百科頁面最近更新統(tǒng)計、日常用語的實體出現(xiàn)頻率中的一種或多種。
步驟S102,根據(jù)所述基礎(chǔ)屬性的統(tǒng)計結(jié)果,設(shè)置各基礎(chǔ)屬性的初始熱門度。
步驟S103,對各基礎(chǔ)屬性的初始熱門度進行歸一化處理,獲取各基礎(chǔ)屬性的歸一化熱門度。
步驟S104,獲取各基礎(chǔ)屬性的加權(quán)系數(shù)。
步驟S105,根據(jù)各基礎(chǔ)屬性的加權(quán)系數(shù),對各基礎(chǔ)屬性的歸一化熱門度進行加權(quán)求和,獲取實體熱門度。
本發(fā)明實施例對步驟S104中獲取各基礎(chǔ)屬性的加權(quán)系數(shù)的方式不做限定,優(yōu)選的,可以抽取多個實體作為樣本,并將樣本人工標(biāo)注成熱門樣本或冷門樣本,再針對被標(biāo)注的熱門樣本和冷門樣本,利用機器學(xué)習(xí)中的邏輯回歸算法,訓(xùn)練出各基礎(chǔ)屬性的加權(quán)系數(shù)。
本發(fā)明實施例通過對知識圖譜中實體熱門度的計算,將其應(yīng)用在人機對話過程中,使知識類的問答的給分能有效得到定量化。
本發(fā)明實施例中,屬性數(shù)量指的是基礎(chǔ)屬性的數(shù)量,一般的百科頁面,社區(qū)類詞條頁面,都會有此詞條的一些基礎(chǔ)屬性,例如如果是電影的話,屬性可以包含:中文名,英文名,發(fā)行時間,導(dǎo)演,演員,評分。屬性數(shù)量的多少與實體詞條熱門度的大小由發(fā)現(xiàn)得出是正相關(guān)的。
本發(fā)明實施例中,鏈接數(shù)量指的是鏈接到其他實體詞條頁面的鏈接數(shù)的統(tǒng)計,例如在實體詞條頁面中的介紹性內(nèi)容中包含其他的實體詞條時,會有鏈接到其他實體詞條的頁面,鏈接數(shù)量就是對此類鏈接數(shù)的統(tǒng)計。鏈接數(shù)量的多少與實體詞條熱門度的大小由發(fā)現(xiàn)得出是正相關(guān)的。
本發(fā)明實施例中,頁面篇幅指的是實體詞條頁面中的字?jǐn)?shù),字?jǐn)?shù)統(tǒng)計包括簡介,特有類別介紹,比如:電影詞條會有劇情梗概,影評,人物介紹;人物詞條會有成長經(jīng)歷,第一桶金;工具類詞條會有應(yīng)用范圍,原理。頁面篇幅的長短與實體詞條熱門度的大小由發(fā)現(xiàn)得出是正相關(guān)的。
本發(fā)明實施例中,出品日期/上映時間的統(tǒng)計大多針對影視作品,書刊雜志。在其他基本信息統(tǒng)計相同時,離當(dāng)前時間上越接近的熱門度越高。
本發(fā)明實施例中,百科頁面瀏覽次數(shù)統(tǒng)計指的是頁面真實被訪問次數(shù)的統(tǒng)計。頁面瀏覽次數(shù)的多少與實體詞條熱門度的大小由發(fā)現(xiàn)得出是正相關(guān)的。
本發(fā)明實施例中,百科頁面最近更新統(tǒng)計指的是實體詞條頁面最近一次被更新的時間。在其他基礎(chǔ)信息統(tǒng)計相同時,越最近被更新的越可能是熱門詞條,即實體熱門度越高。
本發(fā)明實施例中,日常用語的實體出現(xiàn)頻率指的是實體在日常用語里的出現(xiàn)頻率。一類直接用法是如果頻率高就給熱門度減分;另一類用法是人機對話中應(yīng)用時,結(jié)合熱門度對機器人回答的分?jǐn)?shù)進行分?jǐn)?shù)調(diào)整。假設(shè)有兩個相同熱門度的詞條,比如:天黑請閉眼(一類社交游戲)和你好(即是日常用語,也是耀樂團的演唱歌曲,李國祥演唱歌曲,艾夢萌演唱歌曲,綜藝節(jié)目名),顯然“你好”這個詞在日常用語里的出現(xiàn)頻率更高,更被人當(dāng)成日常用語。
舉例來說,實體詞條“姚明”,在某百科頁面中,名字是“姚明”的存在多種多義詞義項:(一)姚明(中職聯(lián)董事長兼總經(jīng)理),初始熱門度計算中:屬性數(shù)量=29;鏈接數(shù)量=50;頁面篇幅=5533;百科編輯次數(shù)=984;頁面瀏覽次數(shù)=1億6千萬等等;定期更新機制下,此姚明詞條處于熱搜榜的人物風(fēng)云榜中等等;知識圖譜中的關(guān)系中,妻子“葉莉”,隊友“易建聯(lián)”等也均為熱門度較高的實體。(二)姚明(中國一級作曲家),初始熱門度計算中:屬性數(shù)量=11;鏈接數(shù)量=53;頁面篇幅=999;百科編輯次數(shù)=35;頁面瀏覽次數(shù)=6百多萬;定期更新機制下,此姚明詞條并不處于任何熱搜榜中;知識圖譜中其有關(guān)系的實體也不是熱門度高的實體。
由此得到的(一)姚明(中職聯(lián)董事長兼總經(jīng)理)的熱門度較高,假設(shè)定分為0至1分的話,為0.98;(二)姚明(中國一級作曲家)的熱門度定分為0.45分。
優(yōu)選的,本發(fā)明實施例還可以包括:步驟S106,定期更新實體熱門度。
本發(fā)明實施例對實體熱門度的更新方式不做限定,優(yōu)選的,所述定期更新實體熱門度的步驟,可以具體為:對各基礎(chǔ)屬性的初始熱門度進行更新;根據(jù)更新后的各基礎(chǔ)屬性的初始熱門度,對各基礎(chǔ)屬性的歸一化熱門度進行更新;根據(jù)更新后的各基礎(chǔ)屬性的歸一化熱門度,對實體熱門度進行更新;或者,根據(jù)搜索網(wǎng)站的熱搜榜單、排名及排名變化,獲取熱搜數(shù)據(jù);對社區(qū)網(wǎng)站的短評與長評按時間序列進行計數(shù),獲取社區(qū)數(shù)據(jù);對人機對話記錄中的實體按時間序列進行計數(shù),獲取對話數(shù)據(jù);將所述熱搜數(shù)據(jù)、所述社區(qū)數(shù)據(jù)、所述對話數(shù)據(jù)作為標(biāo)定數(shù)據(jù)集,根據(jù)所述標(biāo)定數(shù)據(jù)集,對各基礎(chǔ)屬性的加權(quán)系數(shù)進行更新;根據(jù)更新后的各基礎(chǔ)屬性的加權(quán)系數(shù),對實體熱門度進行更新。本發(fā)明實施例對加權(quán)系數(shù)的更新算法不做限定,優(yōu)選的,其可以為基于機器學(xué)習(xí)重排序的算法。
本發(fā)明實施例對熱搜數(shù)據(jù)中排名變化的利用方法不做限定,優(yōu)選的,可以根據(jù)熱搜數(shù)據(jù)對初始熱門度進行加分或者減分,例如熱搜數(shù)據(jù)中排名上升為加分;下降為減分;按變化程度動態(tài)調(diào)分大小。
本發(fā)明實施例中,社區(qū)數(shù)據(jù)主要針對影視作品和書刊,此類在社區(qū)類網(wǎng)站會有評論,對評論按時間求和計數(shù),且區(qū)分評論的長短和質(zhì)量,按照評論的時間作為加權(quán)求和系數(shù)的參考,具體的,可以是離現(xiàn)在越近的系數(shù)越大。例如1年前的10條評論會區(qū)別于昨天晚上的10條評論;而昨天晚上的10條短評也會區(qū)別于昨天晚上的10條長評;昨天晚上的10條3星短評也會區(qū)別于昨天晚上的10條5星長評。計數(shù)結(jié)果的用法可以為:一直接加分;二做標(biāo)定數(shù)據(jù)集的參考,引入機器學(xué)習(xí)重排序。
本發(fā)明實施例中,對話數(shù)據(jù)的獲取類似社區(qū)數(shù)據(jù),只是要更換數(shù)據(jù)源,可以做成所有用戶通用的計數(shù);也可以做成對每個用戶根據(jù)喜好習(xí)慣客制化的計數(shù)。熱門度計算可以是對所有用戶通用的一套體系分值;也可以是對每個用戶客制化的體系分值。
優(yōu)選的,本發(fā)明實施例的計算方法還可以包括:步驟S107,對知識圖譜中相鄰實體的實體熱門度進行修正。在知識圖譜中,一個節(jié)點是一個詞條實體,儲存了實體的所有屬性。兩個節(jié)點的關(guān)系儲存了兩個節(jié)點所代表的兩個實體的關(guān)系和關(guān)系的所有屬性。舉個例子,比如實體A“姚明”,實體B“葉莉”,他們在只是圖譜中分別是以兩個節(jié)點的形式存在的,各自的屬性存于各自的節(jié)點中(比如身高,簡介,主要榮譽)。他們的關(guān)系(具有方向性)為A用關(guān)系R1“妻子”指向B;B用關(guān)系R2“丈夫”指向A。通俗的語言描述A—R1—>B是“姚明(A)的妻子(R1)是葉莉(B)”;A<—R2—B是“葉莉(B)的丈夫(R2)是姚明(A)”。當(dāng)然,關(guān)系不一定只限于人和人的,是可以多樣的,比如“劉德華(A)的代表作品(R)有無間道(B)”,“無間道(B)的主演(R)有劉德華(A)”,還可以是:“白色(A)屬于(R)顏色(B)”。這里對有關(guān)系的相鄰實體的熱門度修正的目的是在得到各個實體的熱門度時,由于有關(guān)系的實體間存在相互內(nèi)在影響,比如實體“姚明”的熱門度高了,連帶把關(guān)系“妻子”的實體“葉莉”;關(guān)系“女兒”的實體“姚沁蕾”的熱門度也帶高了。這類實體熱門度排序問題類似于PageRank的網(wǎng)頁排序問題:實體的熱門度相當(dāng)于網(wǎng)頁的排名;實體間的關(guān)系相當(dāng)于網(wǎng)頁間的鏈接跳轉(zhuǎn)(即實體A到實體B的關(guān)系相當(dāng)于頁面A到頁面B的跳轉(zhuǎn))如此可以把問題轉(zhuǎn)化為利用PageRank類似的衍生算法對知識圖譜中的所有實體的熱門度進行再一次的數(shù)值修正和排序。實驗發(fā)現(xiàn)通過調(diào)整關(guān)系傳遞熱門度的百分比能達到很好的收斂效果。
在上述的具體實施例一中,提供了知識圖譜中實體熱門度的計算方法,與之相對應(yīng)的,本申請還提供知識圖譜中實體熱門度的計算裝置。由于裝置實施例基本相似于方法實施例,所以描述得比較簡單,相關(guān)之處參見方法實施例的部分說明即可。下述描述的裝置實施例僅僅是示意性的。
具體實施例二
本發(fā)明實施例提供了一種知識圖譜中實體熱門度在人機對話中的應(yīng)用方法,包括:根據(jù)用戶輸入的信息,獲取知識類回答和閑聊類回答;所述知識類回答中包括實體;具體實施例一中任一項實施例中的知識圖譜中實體熱門度的計算方法,用于計算得到實體熱門度;根據(jù)實體熱門度,獲取知識類回答分?jǐn)?shù);獲取閑聊類回答分?jǐn)?shù);根據(jù)所述知識類回答分?jǐn)?shù)、所述閑聊類回答分?jǐn)?shù),對知識類回答和閑聊類回答進行排序,獲取排序結(jié)果;根據(jù)所述排序結(jié)果,對用戶進行回應(yīng)。
本發(fā)明實施例實現(xiàn)了知識類回答的自信分?jǐn)?shù)設(shè)定,減少日常用語搶答閑聊類的回答;實現(xiàn)了在人與情感聊天機器人對話中的話題延伸,比如對話中聊到某一話題,機器人可以主動發(fā)問相關(guān)熱門詞條的應(yīng)用;實現(xiàn)了知識類回答中對于實體多義詞的處理,在對話上下文沒出現(xiàn)其他線索時輸出默認(rèn)實體詞條的回答。默認(rèn)實體詞條可以為實體熱門度最高的實體詞條。
當(dāng)用戶與機器人聊天過程中,知識類的回答根據(jù)第一部分的實體熱門度,給予回答的分?jǐn)?shù),而最終排序器會根據(jù)所有模塊(包括知識類的,閑聊類的)給的回答和分?jǐn)?shù),做選擇最后真正恢復(fù)給用戶。因此,熱門度越高的詞條的知識類答案,分?jǐn)?shù)也越高,是正相關(guān)。
從實體詞條的熱門度(包含另一維度:實體詞條在日常用于中的詞頻)對于知識類的回答的定分機制有以下類別:
(i)用戶的一句話就是一個實體詞條或者此實體詞條的同義詞。比如:用戶問:“周杰倫”或者“周董”。此類會根據(jù)上下文做判定:
(i.a)如果上一輪的歷史人機對話記錄為,機器人發(fā)問,此輪用戶是在回答,比如機器人:“你最喜歡的歌手是誰”,用戶:“周杰倫”;此時分?jǐn)?shù)要在熱門度的基礎(chǔ)上調(diào)低,防止出知識類的回答而顯得不合適。
(i.b)如果上一輪的歷史人機對話記錄判定此時用戶是在發(fā)起一個話題,相當(dāng)于用戶想機器人回答此實體詞條“周杰倫”的介紹。此時分?jǐn)?shù)要在熱門度的基礎(chǔ)上調(diào)高,知識類的介紹類回答或根據(jù)知識推理的回答需要變成高分出結(jié)果。
(i.c)如果上一輪的歷史人機對話記錄沒有足夠信心判斷,就根據(jù)實體詞條的熱門度給分,由于冷門詞條的熱門度低,因此此時知識類回答的分?jǐn)?shù)也低,也一定程度上防止了冷門詞條(或日常用語里詞頻高的詞條)的不合適的搶答。
(ii)用戶問一句意圖是介紹實體詞條知識的句子或者是問實體詞條的屬性或者是問實體詞條的關(guān)系時的句子,比如“你知道周杰倫是誰嗎”或者“你知道周杰倫的代表作品嗎”或者“周杰倫的妻子是誰”,這類按照問知識的意圖分類器的信心值以及詞條熱度結(jié)合打分。
(iii)用戶問多個實體詞條時,比如“周杰倫和昆凌是什么關(guān)系”等。此時回答分?jǐn)?shù)根據(jù)問知識的意圖分類器的信心值和句子中詞條的熱門度的組合打分。
具體實施例一中實體“姚明”的例子,在人機對話中的體現(xiàn)大致為:
(1)知識類回答的自信分?jǐn)?shù)設(shè)定,對2個姚明的問答按照熱門度給回答定分,獲取知識類回答分?jǐn)?shù)。
(2)在人機對話中的話題延伸,比如對話中聊到某一話題,機器人可以主動發(fā)問相關(guān)熱門詞條等應(yīng)用。例如用戶問到“姚明”,機器人可以根據(jù)其相關(guān)相鄰熱門實體進行附加回答,例如說“他最近有XX的新聞哦”再附加一句“對了,他的好朋友易建聯(lián)最近去湖人打球了?!?/p>
(3)知識類回答中對于實體多義詞的處理,在對話上下文沒出現(xiàn)其他線索時輸出默認(rèn)(熱門度最高)實體詞條的回答,例如用戶問:“你知道姚明嗎”,給出的就是姚明(中職聯(lián)董事長兼總經(jīng)理)這個姚明的介紹或者相關(guān)的知識推理回答。
應(yīng)用本發(fā)明后,在人機對話中,知識類的問答的給分能有效得到定量化。能解決下列問題:
(1)知識類回答的自信分?jǐn)?shù)設(shè)定,減少日常用語搶答閑聊類的回答。例如對于冷門詞條電影《我是誰》,用戶問:“我是誰”,知識類按照詞條的熱門度并根據(jù)上述(i)的規(guī)則打分偏低,使得閑聊類回答能出結(jié)果;用戶問:“你知道我是誰這本電影嗎”,知識類回答按照詞條的熱門度并根據(jù)上述(ii)的規(guī)則打分偏高,閑聊類不回答,知識類回答。
(2)在人與情感聊天機器人對話中的話題延伸,比如對話中聊到某一話題,機器人可以主動發(fā)問相關(guān)熱門詞條等應(yīng)用。例如用戶問:“今天NBA(美職籃)有湖人隊比賽嗎”,而詞條“易建聯(lián)”去了“湖人隊”打球最近熱門度較高,因此機器人可以根據(jù)“易建聯(lián)”和“湖人隊”在知識圖譜中所存的三元組(實體A,關(guān)系R,實體B)=(易建聯(lián),現(xiàn)在效力于,湖人隊)來回答“今天湖人隊沒比賽,明天XX時會打XX隊。對了,易建聯(lián)在湖人打球了你知道嗎”。
(3)知識類回答中對于實體多義詞的處理,在對話上下文沒出現(xiàn)其他線索時輸出默認(rèn)(熱門度最高)實體詞條的回答,例如用戶問:“你知道姚明嗎”,返回的熱門度最高的詞條為前籃球運動員姚明的知識類回答。(當(dāng)然有上下文線索的時候,根據(jù)線索回答實體詞條,例如“你知道作曲家姚明嗎”,回答就是中國一級作曲家姚明的知識類回答)。
在上述的具體實施例二中,提供了知識圖譜中實體熱門度在人機對話中的應(yīng)用方法,與之相對應(yīng)的,本申請還提供知識圖譜中實體熱門度在人機對話中的應(yīng)用裝置。由于裝置實施例基本相似于方法實施例,所以描述得比較簡單,相關(guān)之處參見方法實施例的部分說明即可。下述描述的裝置實施例僅僅是示意性的。
具體實施例三
如圖2所示,本發(fā)明實施例提供了一種知識圖譜中實體熱門度的計算裝置,包括以下模塊。
統(tǒng)計模塊201,用于抓取知識圖譜中實體的百科頁面,對所述實體的百科頁面的基礎(chǔ)屬性進行統(tǒng)計,獲取基礎(chǔ)屬性的統(tǒng)計結(jié)果;所述基礎(chǔ)屬性包括屬性數(shù)量、鏈接數(shù)量、頁面篇幅、出品日期/上映時間、百科頁面瀏覽次數(shù)統(tǒng)計、百科頁面最近更新統(tǒng)計、日常用語的實體出現(xiàn)頻率中的一種或多種。
設(shè)置模塊202,用于根據(jù)所述基礎(chǔ)屬性的統(tǒng)計結(jié)果,設(shè)置各基礎(chǔ)屬性的初始熱門度。
歸一化模塊203,用于對各基礎(chǔ)屬性的初始熱門度進行歸一化處理,獲取各基礎(chǔ)屬性的歸一化熱門度。
系數(shù)獲取模塊204,用于獲取各基礎(chǔ)屬性的加權(quán)系數(shù)。
計算模塊205,用于根據(jù)各基礎(chǔ)屬性的加權(quán)系數(shù),對各基礎(chǔ)屬性的歸一化熱門度進行加權(quán)求和,獲取實體熱門度。
本發(fā)明對系數(shù)獲取模塊204獲取各基礎(chǔ)屬性的加權(quán)系數(shù)的方式不做限定,優(yōu)選的,系數(shù)獲取模塊204可以用于抽取多個實體作為樣本,并將樣本人工標(biāo)注成熱門樣本或冷門樣本,再針對被標(biāo)注的熱門樣本和冷門樣本,利用機器學(xué)習(xí)中的邏輯回歸算法,訓(xùn)練出各基礎(chǔ)屬性的加權(quán)系數(shù)。
本發(fā)明實施例通過對知識圖譜中實體熱門度的計算,將其應(yīng)用在人機對話過程中,使知識類的問答的給分能有效得到定量化。
優(yōu)選的,本發(fā)明實施例還可以包括:更新模塊206,用于定期更新實體熱門度。
本發(fā)明實施例對更新模塊不做限定,優(yōu)選的,所述更新模塊可以用于:對各基礎(chǔ)屬性的初始熱門度進行更新;根據(jù)更新后的各基礎(chǔ)屬性的初始熱門度,對各基礎(chǔ)屬性的歸一化熱門度進行更新;根據(jù)更新后的各基礎(chǔ)屬性的歸一化熱門度,對實體熱門度進行更新;或者,根據(jù)搜索網(wǎng)站的熱搜榜單、排名及排名變化,獲取熱搜數(shù)據(jù);對社區(qū)網(wǎng)站的短評與長評按時間序列進行計數(shù),獲取社區(qū)數(shù)據(jù);對人機對話記錄中的實體按時間序列進行計數(shù),獲取對話數(shù)據(jù);將所述熱搜數(shù)據(jù)、所述社區(qū)數(shù)據(jù)、所述對話數(shù)據(jù)作為標(biāo)定數(shù)據(jù)集,根據(jù)所述標(biāo)定數(shù)據(jù)集,對各基礎(chǔ)屬性的加權(quán)系數(shù)進行更新;根據(jù)更新后的各基礎(chǔ)屬性的加權(quán)系數(shù),對實體熱門度進行更新。
優(yōu)選的,本發(fā)明實施例還可以包括修正模塊207,用于對知識圖譜中相鄰實體的實體熱門度進行修正。
具體實施例四
本發(fā)明實施例提供了一種知識圖譜中實體熱門度在人機對話中的應(yīng)用裝置,包括:回答獲取模塊,用于根據(jù)用戶輸入的信息,獲取知識類回答和閑聊類回答;所述知識類回答中包括實體;上述任一項實施例中的知識圖譜中實體熱門度的計算裝置;第一分?jǐn)?shù)模塊,用于根據(jù)實體熱門度,獲取知識類回答分?jǐn)?shù);第二分?jǐn)?shù)模塊,用于獲取閑聊類回答分?jǐn)?shù);排序模塊,用于根據(jù)所述知識類回答分?jǐn)?shù)、所述閑聊類回答分?jǐn)?shù),對知識類回答和閑聊類回答進行排序,獲取排序結(jié)果;回應(yīng)模塊,用于根據(jù)所述排序結(jié)果,對用戶進行回應(yīng)。
本發(fā)明實施例實現(xiàn)了知識類回答的自信分?jǐn)?shù)設(shè)定,減少日常用語搶答閑聊類的回答;實現(xiàn)了在人與情感聊天機器人對話中的話題延伸,比如對話中聊到某一話題,機器人可以主動發(fā)問相關(guān)熱門詞條的應(yīng)用;實現(xiàn)了知識類回答中對于實體多義詞的處理,在對話上下文沒出現(xiàn)其他線索時輸出默認(rèn)實體詞條的回答。默認(rèn)實體詞條可以為實體熱門度最高的實體詞條。
需要說明的是,在不沖突的情況下,本發(fā)明中的實施例及實施例中的特征可以相互組合。盡管本發(fā)明已進行了一定程度的描述,明顯地,在不脫離本發(fā)明的精神和范圍的條件下,可進行各個條件的適當(dāng)變化。可以理解,本發(fā)明不限于所述實施方案,而歸于權(quán)利要求的范圍,其包括所述每個因素的等同替換。