1.一種基于實體分類的短摘要生成方法,其特征在于,包括:
獲取實體,對所述實體進行分類;
根據(jù)所述實體的類別選取合適的摘要內(nèi)容;
選用與所述摘要內(nèi)容對應的摘要算法,從所述實體的百科頁面中提取摘要信息;
拼接所述摘要信息得到短摘要。
2.根據(jù)權利要求1所述的方法,其特征在于,所述對所述實體進行分類,包括:
獲取所述實體的百科頁面;
在所述百科頁面中提取特征值;
將所述特征值輸入層次分類器,得到所述實體的類別。
3.根據(jù)權利要求2所述的方法,其特征在于,所述在所述百科頁面中提取特征值,包括:在所述百科頁面中提取詞條標簽、屬性特征和詞條主要介紹中的詞。
4.根據(jù)權利要求1所述的方法,其特征在于,所述選用與所述摘要內(nèi)容對應的摘要算法,從所述實體的百科頁面中提取摘要信息,包括:
若所述摘要內(nèi)容中包含屬性,則使用HTML解析器在所述實體的百科頁面中提取屬性信息,作為所述屬性對應的摘要信息;
若所述摘要內(nèi)容中包含主要故事梗概,則在所述實體的百科頁面中檢索故事梗概關鍵詞,將包含故事梗概關鍵詞的語句,作為主要故事梗概對應的摘要信息;
若所述摘要內(nèi)容中包含評論,則在所述實體的百科頁面中檢索評論關鍵詞,從包含關鍵詞的段落中抽取評論內(nèi)容,作為評論對應的摘要信息;
若所述實體的類別為人物,則在所述實體的百科頁面中檢索時間關鍵詞,若檢索到的時間關鍵詞為近期的時間,則判定所述人物為熱門人物,檢索所述熱門人物的新聞信息,作為熱門人物對應的摘要信息。
5.根據(jù)權利要求4所述的方法,其特征在于,所述使用HTML解析器在所述實體的百科頁面中提取屬性信息,包括:使用HTML解析器在所述實體的百科頁面中提取屬性信息,若沒有提取到屬性信息,則選取所述屬性的同義詞,根據(jù)所述同義詞使用HTML解析器在所述實體的百科頁面中提取屬性信息。
6.根據(jù)權利要求4所述的方法,其特征在于,所述使用HTML解析器在所述實體的百科頁面中提取屬性信息,包括:使用HTML解析器在所述實體的百科頁面中提取屬性信息,對所述屬性信息進行正則化。
7.根據(jù)權利要求4所述的方法,其特征在于,所述在所述實體的百科頁面中檢索評論關鍵詞,從包含評論關鍵詞的段落中抽取評論內(nèi)容,包括:在所述實體的百科頁面中檢索評論關鍵詞,從包含評論關鍵詞的段落中抽取評論內(nèi)容,所述包含評論關鍵詞的段落以所述評論關鍵詞出現(xiàn)一級標題為起點,以下一個一級標題為結(jié)束。
8.根據(jù)權利要求1所述的方法,其特征在于,所述拼接所述摘要信息得到短摘要,包括:
對所述摘要信息做預處理;
根據(jù)所述實體的類別,按一定順序拼接預處理后的摘要信息得到短摘要。
9.一種基于短摘要的數(shù)據(jù)庫建立方法,其特征在于,包括:
在數(shù)據(jù)庫中建立實體的索引;
根據(jù)權利要求1~5中任一項所述的方法生成所述實體的短摘要;
根據(jù)所述實體的索引將所述短摘要作為所述實體的屬性存入所述數(shù)據(jù)庫中。
10.一種人機對話方法,其特征在于,包括:
根據(jù)用戶輸入的文本信息判斷查詢的屬性是否為短摘要;
若查詢的屬性是短摘要,則獲取所述文本信息中的實體;
從數(shù)據(jù)庫中查找所述實體的短摘要,作為回答,其中,所述數(shù)據(jù)庫通過權利要求9所述的方法建立。