亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

短摘要生成方法、數(shù)據(jù)庫建立方法及人機對話方法與流程

文檔序號:12465612閱讀:來源:國知局

技術特征:

1.一種基于實體分類的短摘要生成方法,其特征在于,包括:

獲取實體,對所述實體進行分類;

根據(jù)所述實體的類別選取合適的摘要內(nèi)容;

選用與所述摘要內(nèi)容對應的摘要算法,從所述實體的百科頁面中提取摘要信息;

拼接所述摘要信息得到短摘要。

2.根據(jù)權利要求1所述的方法,其特征在于,所述對所述實體進行分類,包括:

獲取所述實體的百科頁面;

在所述百科頁面中提取特征值;

將所述特征值輸入層次分類器,得到所述實體的類別。

3.根據(jù)權利要求2所述的方法,其特征在于,所述在所述百科頁面中提取特征值,包括:在所述百科頁面中提取詞條標簽、屬性特征和詞條主要介紹中的詞。

4.根據(jù)權利要求1所述的方法,其特征在于,所述選用與所述摘要內(nèi)容對應的摘要算法,從所述實體的百科頁面中提取摘要信息,包括:

若所述摘要內(nèi)容中包含屬性,則使用HTML解析器在所述實體的百科頁面中提取屬性信息,作為所述屬性對應的摘要信息;

若所述摘要內(nèi)容中包含主要故事梗概,則在所述實體的百科頁面中檢索故事梗概關鍵詞,將包含故事梗概關鍵詞的語句,作為主要故事梗概對應的摘要信息;

若所述摘要內(nèi)容中包含評論,則在所述實體的百科頁面中檢索評論關鍵詞,從包含關鍵詞的段落中抽取評論內(nèi)容,作為評論對應的摘要信息;

若所述實體的類別為人物,則在所述實體的百科頁面中檢索時間關鍵詞,若檢索到的時間關鍵詞為近期的時間,則判定所述人物為熱門人物,檢索所述熱門人物的新聞信息,作為熱門人物對應的摘要信息。

5.根據(jù)權利要求4所述的方法,其特征在于,所述使用HTML解析器在所述實體的百科頁面中提取屬性信息,包括:使用HTML解析器在所述實體的百科頁面中提取屬性信息,若沒有提取到屬性信息,則選取所述屬性的同義詞,根據(jù)所述同義詞使用HTML解析器在所述實體的百科頁面中提取屬性信息。

6.根據(jù)權利要求4所述的方法,其特征在于,所述使用HTML解析器在所述實體的百科頁面中提取屬性信息,包括:使用HTML解析器在所述實體的百科頁面中提取屬性信息,對所述屬性信息進行正則化。

7.根據(jù)權利要求4所述的方法,其特征在于,所述在所述實體的百科頁面中檢索評論關鍵詞,從包含評論關鍵詞的段落中抽取評論內(nèi)容,包括:在所述實體的百科頁面中檢索評論關鍵詞,從包含評論關鍵詞的段落中抽取評論內(nèi)容,所述包含評論關鍵詞的段落以所述評論關鍵詞出現(xiàn)一級標題為起點,以下一個一級標題為結(jié)束。

8.根據(jù)權利要求1所述的方法,其特征在于,所述拼接所述摘要信息得到短摘要,包括:

對所述摘要信息做預處理;

根據(jù)所述實體的類別,按一定順序拼接預處理后的摘要信息得到短摘要。

9.一種基于短摘要的數(shù)據(jù)庫建立方法,其特征在于,包括:

在數(shù)據(jù)庫中建立實體的索引;

根據(jù)權利要求1~5中任一項所述的方法生成所述實體的短摘要;

根據(jù)所述實體的索引將所述短摘要作為所述實體的屬性存入所述數(shù)據(jù)庫中。

10.一種人機對話方法,其特征在于,包括:

根據(jù)用戶輸入的文本信息判斷查詢的屬性是否為短摘要;

若查詢的屬性是短摘要,則獲取所述文本信息中的實體;

從數(shù)據(jù)庫中查找所述實體的短摘要,作為回答,其中,所述數(shù)據(jù)庫通過權利要求9所述的方法建立。

當前第2頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1