短摘要生成方法、數(shù)據(jù)庫建立方法及人機對話方法與流程

文檔序號：12465612閱讀：來源：國知局

技術特征：

1.一種基于實體分類的短摘要生成方法，其特征在于，包括：

獲取實體，對所述實體進行分類；

根據(jù)所述實體的類別選取合適的摘要內(nèi)容；

選用與所述摘要內(nèi)容對應的摘要算法，從所述實體的百科頁面中提取摘要信息；

拼接所述摘要信息得到短摘要。

2.根據(jù)權利要求1所述的方法，其特征在于，所述對所述實體進行分類，包括：

獲取所述實體的百科頁面；

在所述百科頁面中提取特征值；

將所述特征值輸入層次分類器，得到所述實體的類別。

3.根據(jù)權利要求2所述的方法，其特征在于，所述在所述百科頁面中提取特征值，包括：在所述百科頁面中提取詞條標簽、屬性特征和詞條主要介紹中的詞。

4.根據(jù)權利要求1所述的方法，其特征在于，所述選用與所述摘要內(nèi)容對應的摘要算法，從所述實體的百科頁面中提取摘要信息，包括：

若所述摘要內(nèi)容中包含屬性，則使用HTML解析器在所述實體的百科頁面中提取屬性信息，作為所述屬性對應的摘要信息；

若所述摘要內(nèi)容中包含主要故事梗概，則在所述實體的百科頁面中檢索故事梗概關鍵詞，將包含故事梗概關鍵詞的語句，作為主要故事梗概對應的摘要信息；

若所述摘要內(nèi)容中包含評論，則在所述實體的百科頁面中檢索評論關鍵詞，從包含關鍵詞的段落中抽取評論內(nèi)容，作為評論對應的摘要信息；

若所述實體的類別為人物，則在所述實體的百科頁面中檢索時間關鍵詞，若檢索到的時間關鍵詞為近期的時間，則判定所述人物為熱門人物，檢索所述熱門人物的新聞信息，作為熱門人物對應的摘要信息。

5.根據(jù)權利要求4所述的方法，其特征在于，所述使用HTML解析器在所述實體的百科頁面中提取屬性信息，包括：使用HTML解析器在所述實體的百科頁面中提取屬性信息，若沒有提取到屬性信息，則選取所述屬性的同義詞，根據(jù)所述同義詞使用HTML解析器在所述實體的百科頁面中提取屬性信息。

6.根據(jù)權利要求4所述的方法，其特征在于，所述使用HTML解析器在所述實體的百科頁面中提取屬性信息，包括：使用HTML解析器在所述實體的百科頁面中提取屬性信息，對所述屬性信息進行正則化。

7.根據(jù)權利要求4所述的方法，其特征在于，所述在所述實體的百科頁面中檢索評論關鍵詞，從包含評論關鍵詞的段落中抽取評論內(nèi)容，包括：在所述實體的百科頁面中檢索評論關鍵詞，從包含評論關鍵詞的段落中抽取評論內(nèi)容，所述包含評論關鍵詞的段落以所述評論關鍵詞出現(xiàn)一級標題為起點，以下一個一級標題為結(jié)束。

8.根據(jù)權利要求1所述的方法，其特征在于，所述拼接所述摘要信息得到短摘要，包括：

對所述摘要信息做預處理；

根據(jù)所述實體的類別，按一定順序拼接預處理后的摘要信息得到短摘要。

9.一種基于短摘要的數(shù)據(jù)庫建立方法，其特征在于，包括：

在數(shù)據(jù)庫中建立實體的索引；

根據(jù)權利要求1～5中任一項所述的方法生成所述實體的短摘要；

根據(jù)所述實體的索引將所述短摘要作為所述實體的屬性存入所述數(shù)據(jù)庫中。

10.一種人機對話方法，其特征在于，包括：

根據(jù)用戶輸入的文本信息判斷查詢的屬性是否為短摘要；

若查詢的屬性是短摘要，則獲取所述文本信息中的實體；

從數(shù)據(jù)庫中查找所述實體的短摘要，作為回答，其中，所述數(shù)據(jù)庫通過權利要求9所述的方法建立。

完整全部詳細技術資料下載

當前第2頁1 2 3

相關技術

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

短摘要生成方法、數(shù)據(jù)庫建立方法及人機對話方法與流程