亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

短摘要生成方法、數(shù)據(jù)庫建立方法及人機對話方法與流程

文檔序號:12465612閱讀:262來源:國知局
短摘要生成方法、數(shù)據(jù)庫建立方法及人機對話方法與流程

本發(fā)明涉及人工智能技術(shù)領(lǐng)域,具體涉及一種基于實體分類的短摘要生成方法、一種基于短摘要的數(shù)據(jù)庫建立方法及一種人機對話方法。



背景技術(shù):

在現(xiàn)有的人工智能對話系統(tǒng)中,大部分直接使用百科實體的人工介紹作為答案,但是這種直接從網(wǎng)絡(luò)百科中獲取的答案往往非常冗長,對于機器人特別是語音機器人非常不方便。目前解決的方法有:一,摘取前幾句介紹作為答案,二,使用一些社區(qū)問答上的回復(fù)直接作為答案;第一種方法的弊端是用戶從回答中不能得到足夠有用的信息量,第二種方法的弊端是答案往往顯得不夠權(quán)威。



技術(shù)實現(xiàn)要素:

針對現(xiàn)有技術(shù)中的缺陷,本發(fā)明提供的一種基于實體分類的短摘要生成方法、一種基于短摘要的數(shù)據(jù)庫建立方法及一種人機對話方法,在人機對話過程中,可以提高回答涉及百科知識性問題的簡潔度和概括度。

第一方面,本發(fā)明提供的一種基于實體分類的短摘要生成方法,包括:獲取實體,對所述實體進行分類;根據(jù)所述實體的類別選取合適的摘要內(nèi)容;選用與所述摘要內(nèi)容對應(yīng)的摘要算法,從所述實體的百科頁面中提取摘要信息;拼接所述摘要信息得到短摘要。

本發(fā)明提供的基于實體分類的短摘要生成方法,能夠針對不同的實體類別,生成簡潔概括的短摘要,在人機對話過程中作為針對實體的答案,提高了機器人對話的效率。

優(yōu)選地,所述對所述實體進行分類,包括:獲取所述實體的百科頁面;在所述百科頁面中提取特征值;將所述特征值輸入層次分類器,得到所述實體的類別。

優(yōu)選地,所述在所述百科頁面中提取特征值,包括:在所述百科頁面中提取詞條標(biāo)簽、屬性特征和詞條主要介紹中的詞。

優(yōu)選地,所述選用與所述摘要內(nèi)容對應(yīng)的摘要算法,從所述實體的百科頁面中提取摘要信息,包括:若所述摘要內(nèi)容中包含屬性,則使用HTML解析器在所述實體的百科頁面中提取屬性信息,作為所述屬性對應(yīng)的摘要信息;若所述摘要內(nèi)容中包含主要故事梗概,則在所述實體的百科頁面中檢索故事梗概關(guān)鍵詞,將包含故事梗概關(guān)鍵詞的語句,作為主要故事梗概對應(yīng)的摘要信息;若所述摘要內(nèi)容中包含評論,則在所述實體的百科頁面中檢索評論關(guān)鍵詞,從包含關(guān)鍵詞的段落中抽取評論內(nèi)容,作為評論對應(yīng)的摘要信息;若所述實體的類別為人物,則在所述實體的百科頁面中檢索時間關(guān)鍵詞,若檢索到的時間關(guān)鍵詞為近期的時間,則判定所述人物為熱門人物,檢索所述熱門人物的新聞信息,作為熱門人物對應(yīng)的摘要信息。

優(yōu)選地,所述使用HTML解析器在所述實體的百科頁面中提取屬性信息,包括:使用HTML解析器在所述實體的百科頁面中提取屬性信息,若沒有提取到屬性信息,則選取所述屬性的同義詞,根據(jù)所述同義詞使用HTML解析器在所述實體的百科頁面中提取屬性信息。

優(yōu)選地,所述使用HTML解析器在所述實體的百科頁面中提取屬性信息,包括:使用HTML解析器在所述實體的百科頁面中提取屬性信息,對所述屬性信息進行正則化。

優(yōu)選地,所述在所述實體的百科頁面中檢索評論關(guān)鍵詞,從包含評論關(guān)鍵詞的段落中抽取評論內(nèi)容,包括:在所述實體的百科頁面中檢索評論關(guān)鍵詞,從包含評論關(guān)鍵詞的段落中抽取評論內(nèi)容,所述包含評論關(guān)鍵詞的段落以所述評論關(guān)鍵詞出現(xiàn)一級標(biāo)題為起點,以下一個一級標(biāo)題為結(jié)束。

優(yōu)選地,所述拼接所述摘要信息得到短摘要,包括:對所述摘要信息做預(yù)處理;根據(jù)所述實體的類別,按一定順序拼接預(yù)處理后的摘要信息得到短摘要。

第二方面,本發(fā)明提供的一種基于短摘要的數(shù)據(jù)庫建立方法,包括:在數(shù)據(jù)庫中建立實體的索引;根據(jù)第一方面所述的方法生成所述實體的短摘要;根據(jù)所述實體的索引將所述短摘要作為所述實體的屬性存入所述數(shù)據(jù)庫中。

本發(fā)明提供的基于短摘要的數(shù)據(jù)庫建立方法,將實體分類生成的短摘要存儲到數(shù)據(jù)庫中相應(yīng)的實體中,將該短摘要也作為實體的一個屬性,以便同其它屬性一樣能被檢索和查詢,提高了機器人回答涉及百科知識性問題的簡潔度和概括度。本實施例優(yōu)選使用圖形數(shù)據(jù)庫作為存儲實體屬性和關(guān)系的數(shù)據(jù)庫。

第三方方面,本發(fā)明提供的一種人機對話方法,包括:根據(jù)用戶輸入的文本信息判斷查詢的屬性是否為短摘要;若查詢的屬性是短摘要,則獲取所述文本信息中的實體;從數(shù)據(jù)庫中查找所述實體的短摘要,作為回答,其中,所述數(shù)據(jù)庫通過第二方面所述的方法建立。

本發(fā)明提供的人機對話方法,從數(shù)據(jù)庫中獲取實體的短摘要,作為機器人的回答,提高了機器人回答涉及百科知識性問題的簡潔度和概括度,針對不同的實體類別,采用不同的模式進行回答,提高了聊天機器人回答的靈活性和趣味性。

附圖說明

圖1為本發(fā)明實施例所提供的一種基于實體分類的短摘要生成方法的流程圖;

圖2為本發(fā)明實施例所提供的一種基于短摘要的數(shù)據(jù)庫建立方法的流程圖;

圖3為本發(fā)明實施例提供的一種人機對話方法的流程圖。

具體實施方式

下面將結(jié)合附圖對本發(fā)明技術(shù)方案的實施例進行詳細(xì)的描述。以下實施例僅用于更加清楚地說明本發(fā)明的技術(shù)方案,因此只是作為示例,而不能以此來限制本發(fā)明的保護范圍。

需要注意的是,除非另有說明,本申請使用的技術(shù)術(shù)語或者科學(xué)術(shù)語應(yīng)當(dāng)為本發(fā)明所屬領(lǐng)域技術(shù)人員所理解的通常意義。

如圖1所示,本實施例提供的一種基于實體分類的短摘要生成方法,包括:

步驟S1,獲取實體,對實體進行分類。

其中,實體是指客觀存在的人或物,如:人物、電影、小說、動物、植物、物品等等。根據(jù)實體不同的性質(zhì),實體的類別已經(jīng)預(yù)先做好分類。

步驟S2,根據(jù)實體的類別選取合適的摘要內(nèi)容。

步驟S3,選用與摘要內(nèi)容對應(yīng)的摘要算法,從實體的百科頁面中提取摘要信息。

其中,百科頁面是指將實體作為關(guān)鍵詞,通過百度百科等方式獲取到的解釋實體相關(guān)屬性的網(wǎng)頁。

步驟S4,拼接摘要信息得到短摘要。

本實施例提供的基于實體分類的短摘要生成方法,能夠針對不同的實體類別,生成簡潔概括的短摘要,在人機對話過程中作為針對實體的答案,提高了機器人對話的效率。

步驟S1的具體實現(xiàn)方式包括:

步驟S11,獲取實體的百科頁面。

步驟S12,在百科頁面中提取特征值。

步驟S13,將特征值輸入層次分類器,得到實體的類別。

其中,特征值包括詞條標(biāo)簽、屬性特征和詞條主要介紹中的詞。

在百科頁面中,實體的詞條往往提供了人工給定的詞條標(biāo)簽,比如,知名人物姚明的詞條標(biāo)簽為“運動員,話題人物,籃球運動員,體育人物”。這些詞條標(biāo)簽往往給的比較隨意,導(dǎo)致通過百科頁面獲取的實體存在幾萬個不同的標(biāo)簽。但是其語義往往只有數(shù)百個,比如:姚明的標(biāo)簽中往往只有“體育人物”比較有用,而“籃球人物”比較具體,可能不需要劃分的這么細(xì),然后由“體育人物”我們可以抽象一個“人物”類,這樣該詞條就被很好的組織了起來,其它體育人物就可以在沒有明顯人工標(biāo)簽“體育人物”的基礎(chǔ)上被自動分類到該類別中來。本發(fā)明對后臺用戶常聊的實體進行總結(jié),設(shè)計了20多個大類和100多個小類,來組織實體,比如:體育人物類、娛樂人物類、電影類、電視劇類和小說類等。一個實體的詞條標(biāo)簽很容易獲取,而且與實體類別的相關(guān)性很大,因此,選取詞條標(biāo)簽作為層次分類器的特征值,有助于提高分類器的準(zhǔn)確度。

相同類別往往存在相似的屬性,比如,電視劇和電影都有主演這個屬性,而小說類往往都存在作者這個屬性,人物類基本上都有國籍等屬性。因此,選取屬性特征作為層次分類器的特征值,有助于提高分類器的準(zhǔn)確度。

詞條的主要介紹則包含了豐富的文本信息,根據(jù)相關(guān)研究,長文本分類往往比短詞語文本分類更準(zhǔn)確,主要是長文本往往包含更豐富的語義信息和具有區(qū)分度的特征詞。

因此,本實施例采用詞條標(biāo)簽、屬性特征和詞條主要介紹中的詞這三類特征值訓(xùn)練層次分類器,在目前的超過100萬的百科實體上取得了90%以上的準(zhǔn)確度。

一般的層次分類模型均可以用來實現(xiàn)本實施例中的層次分類器,在特征值抽取合適的情況下各層次分類模型的效果相差不大,因此不對采用的層次分類模型做進一步限定。

步驟S2中,摘要內(nèi)容包括但不限于以下內(nèi)容:屬性、主要故事梗概、評論等。屬性包括但不限于以下內(nèi)容:人物屬性、主演屬性、類型屬性等。不同的類別選取不同的摘要內(nèi)容。比如,實體的類別為體育明星和娛樂明星,則摘要內(nèi)容可以選取人物屬性和人物評論,采取人物屬性中的常問屬性進行基本解答,然后輔之以一兩句經(jīng)典人物評論為潤色,可以達到鮮活明快的對話效果,避免了機械式背書回答;對電影和電視劇類別,主演和類型往往是大眾感興趣的屬性,而一句話的主要故事梗概則往往必不可少,所以就采取這種主演加情節(jié)的方式,對應(yīng)的摘要內(nèi)容可以選取主演屬性、類型屬性、主要故事梗概;對于小說類,除了本身的主要故事梗概吸引人的眼球之外,還需要整理一些主要人物之間的關(guān)系,特別是很糾結(jié)的情感關(guān)系,這樣容易打動讀者,則摘要內(nèi)容可以選取作者屬性、類型屬性、主要故事梗概、小說評價。上述例子只是為了說明摘要內(nèi)容的確定方式,不是對摘要內(nèi)容的具體限定,實際確定摘要內(nèi)容方式為:根據(jù)后臺的搜索量來分析設(shè)計不同類別的摘要內(nèi)容。

本實施例對不同的摘要內(nèi)容設(shè)計了不同的摘要算法,以完成不同摘要信息的提取,以下面幾種算法為例進行說明。

(1)提取屬性的摘要算法

識別百科頁面中涉及摘要內(nèi)容的屬性相對簡單,具體實現(xiàn)步驟為:使用HTML解析器在百科頁面中根據(jù)不同的屬性對應(yīng)的特征詞選取即可,例如:主演,體裁或類型等。

百科頁面中的屬性并不是很規(guī)范,會存在多個相同語義的同義詞作為屬性名,為了解決上述問題,提取屬性的摘要算法中會考慮采用同義詞進行提取,具體實現(xiàn)步驟為:使用HTML解析器在實體的百科頁面中提取屬性信息,若沒有提取到屬性信息,則選取屬性的同義詞,根據(jù)同義詞使用HTML解析器在實體的百科頁面中提取屬性信息。

另外,提取的屬性信息可能存在不規(guī)范的情況,例如,有些屬性后面會包含“[4]”這種超鏈接,需要小心地去除掉。解決上述問題的方法為對提取的屬性信息進行正則化,具體實現(xiàn)步驟為:使用HTML解析器在實體的百科頁面中提取屬性信息,對屬性信息進行正則化。

針對屬性是“主要演員”的情況,如果有超過3個以上的主要演員,需要對其進行抽取前三名的操作,因為用戶往往對排名靠后的非著名影星不感興趣。

其中,HTML解析器的功能是用于解析HTML文本內(nèi)容,可以使用DOM或CSS選擇器來查找、取出、操作數(shù)據(jù);也可以操作HTML元素、屬性、文本。

提取屬性的摘要算法可用來提取百科頁面中的結(jié)構(gòu)化屬性,如人物屬性、主演屬性、類型屬性等。

(2)提取主要故事梗概的摘要算法

識別主要故事梗概的算法稍復(fù)雜一些,因為主要故事梗概含在整個詞條的介紹正文中。但是,比較幸運的是,人們在生成這些內(nèi)容介紹時使用了一些很有歸納性的特征用語,例如:“講述、敘述、描寫、概括、為背景、為脈絡(luò)、為主線”等等,這些都是主要故事梗概出現(xiàn)的標(biāo)識,本實施例一共總結(jié)了58個故事梗概關(guān)鍵詞作為判斷故事梗概的特征,在百科頁面中提取主要故事梗概時,取得了很好的效果。結(jié)果表明,無論主要故事梗概出現(xiàn)在第一段,還是第二段,還是在某段中間,通過歸納得到的故事梗概關(guān)鍵詞都能精準(zhǔn)地定位主要故事梗概,找出來作為摘要信息。因此,提取主要故事梗概的具體實現(xiàn)步驟為:在實體的百科頁面中檢索故事梗概關(guān)鍵詞,將包含故事梗概關(guān)鍵詞的語句,作為主要故事梗概對應(yīng)的摘要信息。

(3)提取評論的摘要算法

識別人物類評論或影視評論也相對簡單,只需要找到其中的評論關(guān)鍵詞,如“評論、點評、述評”等。但是需要注意的是,與評論有關(guān)的內(nèi)容使用HTML解析器是找不到的,因為與評論有關(guān)的內(nèi)容在百科頁面中的組織方式不是層次而是平鋪的,也就是說這些內(nèi)容沒有深度結(jié)構(gòu)關(guān)系,而是需要找到其開始和結(jié)束標(biāo)志。我們在百科中以上述評論的關(guān)鍵詞出現(xiàn)(出現(xiàn)在一級標(biāo)題)為起點,然后以下一個一級標(biāo)題為結(jié)束,來抽取其中的評論內(nèi)容。

提取評論的具體實現(xiàn)方法為:在實體的百科頁面中檢索評論關(guān)鍵詞,從包含關(guān)鍵詞的段落中抽取評論內(nèi)容,作為評論對應(yīng)的摘要信息。

進一步地,提取評論的具體實現(xiàn)方法包括:在實體的百科頁面中檢索評論關(guān)鍵詞,從包含評論關(guān)鍵詞的段落中抽取評論內(nèi)容,包含評論關(guān)鍵詞的段落以評論關(guān)鍵詞出現(xiàn)一級標(biāo)題為起點,以下一個一級標(biāo)題為結(jié)束。

對于熱門人物,人們往往還比較關(guān)心其近期的新聞熱點,因此,步驟S3中還包括識別熱門人物的步驟,并追蹤其新聞事件。識別人物是否是熱門人物主要根據(jù)該人物近期的新聞,如果某人物在最近一個月或數(shù)個月有活動,則認(rèn)為他是熱門人物。這樣也是比較合理的,因為只有當(dāng)該人物的新聞足夠有影響力時,才會被編輯到百科詞條中。因此,步驟S3中的識別熱門人物的步驟具體包括:若實體的類別為人物,則在實體的百科頁面中檢索時間關(guān)鍵詞,若檢索到的時間關(guān)鍵詞為近期的時間,則判定人物為熱門人物,檢索熱門人物的新聞信息,作為熱門人物對應(yīng)的摘要信息。

步驟S4的具體實現(xiàn)方式包括:

步驟S41,對摘要信息做預(yù)處理。

其中,對摘要信息做預(yù)處理包括:刪除摘要信息中的一些內(nèi)容,將代詞轉(zhuǎn)換成相應(yīng)的實體名等。一般人物類介紹在前兩句去除一些不經(jīng)常被問的屬性,如,祖籍和出生日期等,留下來的基本還保持完整。評論的語句中,經(jīng)常有些人稱代詞,需要轉(zhuǎn)換成相應(yīng)的實體名。

步驟S42,根據(jù)實體的類別,按一定順序拼接預(yù)處理后的摘要信息得到短摘要。

在拼接過程中,需保證拼接內(nèi)容通順,且拼接的內(nèi)容不致于太短或太長。保證拼接內(nèi)容通順的做法則是盡量要保證選取完整的句子,并且取段首的句子。有時候,一句完整的句子包含的信息量很大并且很長,則需要看看其中有無分句(根據(jù)分號來判斷),如果有分句取第一個分句內(nèi)容往往比較精煉。最后,這幾部分的摘要信息拼接起來后總長度如果超出一定字?jǐn)?shù),則需要決定需要更換或刪除那部分的內(nèi)容,一般按照先主觀后客觀、先整句后拼接短語的順序,即當(dāng)評論內(nèi)容有時刪除客觀介紹,有客觀介紹時刪除屬性。

基于上述方法生成的短摘要,本實施例還提供了一種基于短摘要的數(shù)據(jù)庫建立方法,如圖2所示,包括:

步驟S101,在數(shù)據(jù)庫中建立實體的索引。

步驟S102,根據(jù)基于實體分類的短摘要生成方法生成實體的短摘要。

步驟S103,根據(jù)實體的索引將短摘要作為實體的屬性存入數(shù)據(jù)庫中。

本實施例提供的基于短摘要的數(shù)據(jù)庫建立方法,將實體分類生成的短摘要存儲到數(shù)據(jù)庫中相應(yīng)的實體中,將該短摘要也作為實體的一個屬性,以便同其它屬性一樣能被檢索和查詢,提高了機器人回答涉及百科知識性問題的簡潔度和概括度。本實施例優(yōu)選使用圖形數(shù)據(jù)庫作為存儲實體屬性和關(guān)系的數(shù)據(jù)庫。

基于上述方法構(gòu)建的數(shù)據(jù)庫,本實施例還提供了一種人機對話方法,如圖3所示,包括:

步驟S201,根據(jù)用戶輸入的文本信息判斷查詢的屬性是否為短摘要。

步驟S202,若查詢的屬性是短摘要,則獲取文本信息中的實體。

步驟S203,從數(shù)據(jù)庫中查找實體的短摘要,作為回答。

在線問答或?qū)υ挄r,一般用戶不會直接問:“姚明的摘要是什么”,而是需要判斷用戶哪些類型的問法會觸及摘要。具體地,可以使用模板匹配或深度學(xué)習(xí)的方法實現(xiàn)步驟S201。

本實施例提供的人機對話方法,從數(shù)據(jù)庫中獲取實體的短摘要,作為機器人的回答,提高了機器人回答涉及百科知識性問題的簡潔度和概括度,針對不同的實體類別,采用不同的模式進行回答,提高了聊天機器人回答的靈活性和趣味性。

最后應(yīng)說明的是:以上各實施例僅用以說明本發(fā)明的技術(shù)方案,而非對其限制;盡管參照前述各實施例對本發(fā)明進行了詳細(xì)的說明,本領(lǐng)域的普通技術(shù)人員應(yīng)當(dāng)理解:其依然可以對前述各實施例所記載的技術(shù)方案進行修改,或者對其中部分或者全部技術(shù)特征進行等同替換;而這些修改或者替換,并不使相應(yīng)技術(shù)方案的本質(zhì)脫離本發(fā)明各實施例技術(shù)方案的范圍,其均應(yīng)涵蓋在本發(fā)明的權(quán)利要求和說明書的范圍當(dāng)中。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1