1.一種會話數(shù)據(jù)的處理方法,其特征在于,包括:
獲取多個待處理的會話數(shù)據(jù),每個所述待處理的會話數(shù)據(jù)包含若干個按時間排列的問句;
對每個所述待處理的會話數(shù)據(jù)的第一個問句進行語義聚類處理,得到一個或多個第一分組;分別對屬于同一第一分組的每個所述待處理的會話數(shù)據(jù)的第二個問句進行語義聚類處理,得到一個或多個第二分組;不斷重復(fù)上述語義聚類處理的過程,分別對屬于同一第i分組的每個所述待處理的會話數(shù)據(jù)的第i+1個問句進行語義聚類處理,得到一個或多個第i+1分組,直至獲得滿足預(yù)設(shè)條件的一個或多個葉子分組,其中,i為正整數(shù);
基于語義聚類處理的結(jié)果,根據(jù)每個所述葉子分組及對應(yīng)的所有上級分組按照時間順序排列建立一場景會話序列。
2.如權(quán)利要求1所述的會話數(shù)據(jù)的處理方法,其特征在于,所述待處理的會話數(shù)據(jù)是在日志或/和開放數(shù)據(jù)中爬取到的。
3.如權(quán)利要求2所述的會話數(shù)據(jù)的處理方法,其特征在于,將所爬取的會話數(shù)據(jù)中問句的數(shù)目大于或等于第一閾值的會話數(shù)據(jù)作為所述待處理的會話數(shù)據(jù)。
4.如權(quán)利要求1所述的會話數(shù)據(jù)的處理方法,其特征在于,所述預(yù)設(shè)條件包括:
所述葉子分組及對應(yīng)的所有上級分組中每個分組所包括的問句的數(shù)目大于或等于第二閾值;
所述葉子分組為第j分組,j大于或等于第三閾值。
5.如權(quán)利要求1所述的會話數(shù)據(jù)的處理方法,其特征在于,所述根據(jù)每個所述葉子分組及對應(yīng)的所有上級分組按照時間順序排列建立一場景會話序列,包括:
從所述葉子分組及對應(yīng)的所有上級分組分別選取一問句,將所選取的問句按照時間順序排列作為對應(yīng)的場景會話序列。
6.如權(quán)利要求1所述的會話數(shù)據(jù)的處理方法,其特征在于,所述場景會話序列包括:標準問句及擴展問句;所述根據(jù)每個所述葉子分組及對應(yīng)的所有上級分組按照時間順序排列建立一場景會話序列,包括:
分別將所述葉子分組的語義及所述葉子分組對應(yīng)的所有上級分組的語義按照時間順序排列作為對應(yīng)的場景會話序列的標準問句;
將所述葉子分組及對應(yīng)的所有上級分組中不同于所述語義的問句作為對應(yīng)標準問句的擴展問句。
7.一種知識庫的建立方法,所述知識庫包括多個知識點,每個知識點包括答案和問題,其特征在于,所述方法包括:
從場景會話庫中獲取知識點的問題,所述場景會話庫包括權(quán)利要求1~6任一項所述的會話數(shù)據(jù)的處理方法所獲得的場景會話序列,每個所述知識點至少對應(yīng)所述場景會話序列的一個分組,所述知識點的問題至少包括所對應(yīng)的分組中的問句;
為每個所述知識點提供答案。
8.一種知識庫的優(yōu)化方法,其特征在于,所述知識庫包括多個知識點,每個知識點包括標準問句和擴展問句;所述方法包括:
從場景會話庫中查找與所述知識點對應(yīng)的場景會話序列,所述場景會話庫包含若干個按照權(quán)利要求1~6任一項所述的會話數(shù)據(jù)的處理方法所獲得的場景會話序列,每個場景會話序列包括多個分組,每個分組包括多個問句;
計算所述知識點與對應(yīng)的場景會話序列中每個分組的語義相似度,當所述語義相似度大于第五閾值時,則將位于對應(yīng)分組中但未位于所述知識點的問句作為擴展問句添加到所述知識點中。
9.一種智能問答系統(tǒng)的交互方法,其特征在于,所述智能問答系統(tǒng)包括:知識庫以及場景會話庫,所述場景會話庫包含若干個按照權(quán)利要求1~6任一項所述的會話數(shù)據(jù)的處理方法所獲得的場景會話序列;
所述方法包括:
當接收到用戶問句后,從所述知識庫中獲取與所述用戶問句對應(yīng)的答案,以及從所述場景會話庫中獲取與所述用戶問句關(guān)聯(lián)的全部或部分問句;
輸出與所述用戶問句對應(yīng)的答案及關(guān)聯(lián)的問句。
10.一種智能問答系統(tǒng)的交互方法,其特征在于,所述智能問答系統(tǒng)包括:知識庫以及場景會話庫,所述場景會話庫包含若干個按照權(quán)利要求1~6任一項所述的會話數(shù)據(jù)的處理方法所獲得的場景會話序列;
所述方法包括:
當接收到的用戶問句包含命名實體但未包含所述命名實體的屬性信息時,從所述場景會話庫中獲取所述命名實體對應(yīng)的所有屬性信息,并生成屬性優(yōu)先級;
選取優(yōu)先級別最高的屬性作為所述用戶問句中所述命名實體的屬性信息,從所述知識庫中獲取相應(yīng)的答案并發(fā)送給用戶。
11.一種會話數(shù)據(jù)的處理裝置,其特征在于,包括:
第一獲取單元,適于獲取多個待處理的會話數(shù)據(jù),每個所述待處理的會話數(shù)據(jù)包含若干個按時間排列的問句;
處理單元,適于對每個所述待處理的會話數(shù)據(jù)的第一個問句進行語義聚類處理,得到一個或多個第一分組;分別對屬于同一第一分組的每個所述待處理的會話數(shù)據(jù)的第二個問句進行語義聚類處理,得到一個或多個第二分組;不斷重復(fù)上述語義聚類處理的過程,分別對屬于同一第i分組的每個所述待處理的會話數(shù)據(jù)的第i+1個問句進行語義聚類處理,得到一個或多個第i+1分組,直至獲得滿足預(yù)設(shè)條件的一個或多個葉子分組,其中,i為正整數(shù);
第一建立單元,適于基于語義聚類處理的結(jié)果,根據(jù)每個所述葉子分組及對應(yīng)的所有上級分組按照時間順序排列建立一場景會話序列。
12.如權(quán)利要求11所述的會話數(shù)據(jù)的處理裝置,其特征在于,所述第一獲取單元適于從日志或/和開放數(shù)據(jù)中爬取所述待處理的會話數(shù)據(jù)。
13.如權(quán)利要求12所述的會話數(shù)據(jù)的處理裝置,其特征在于,所述第一獲取單元適于將所爬取的會話數(shù)據(jù)中問句的數(shù)目大于或等于第一閾值的會話數(shù)據(jù)作為所述待處理的會話數(shù)據(jù)。
14.如權(quán)利要求11所述的會話數(shù)據(jù)的處理裝置,其特征在于,所述預(yù)設(shè)條件包括:
所述葉子分組及對應(yīng)的所有上級分組中每個分組所包括的問句的數(shù)目大于或等于第二閾值;
所述葉子分組為第j分組,j大于或等于第三閾值。
15.如權(quán)利要求11所述的會話數(shù)據(jù)的處理裝置,其特征在于,所述第一建立單元包括:第一建立子單元,適于從所述葉子分組及對應(yīng)的所有上級分組分別選取一問句,將所選取的問句按照時間順序排列作為對應(yīng)的場景會話序列。
16.如權(quán)利要求11所述的會話數(shù)據(jù)的處理裝置,其特征在于,所述場景會話序列包括:標準問句及擴展問句;所述第一建立單元包括:
第二建立子單元,適于分別將所述葉子分組的語義及所述葉子分組對應(yīng)的所有上級分組的語義按照時間順序排列作為對應(yīng)的場景會話序列的標準問句;
第三建立子單元,適于將所述葉子分組及對應(yīng)的所有上級分組中不同于所述語義的問句作為所述對應(yīng)的標準問句的擴展問句。
17.一種知識庫的建立裝置,所述知識庫包括多個知識點,每個知識點包括答案和問題,其特征在于,包括:
第二獲取單元,適于從場景會話庫中獲取知識點的問題,所述場景會話庫包括權(quán)利要求11~16任一項所述的會話數(shù)據(jù)的處理裝置所獲得的場景會話序列,每個所述知識點至少對應(yīng)所述場景會話序列的一個分組,所述知識點的問題至少包括所對應(yīng)的分組中的問句;
第二建立單元,適于為每個所述知識點提供答案。
18.一種知識庫的優(yōu)化裝置,所述知識庫包括多個知識點,每個知識點包括標準問和擴展問,其特征在于,包括:
查找單元,適于從場景會話庫中查找與所述知識點對應(yīng)的場景會話序列,所述場景會話庫包含若干個按照權(quán)利要求11~16任一項所述的會話數(shù)據(jù)的處理裝置所獲得的場景會話序列,每個場景會話序列包括多個分組,每個分組包括多個問句;
計算單元,適于計算所述知識點與對應(yīng)的場景會話序列中每個分組的語義相似度;
優(yōu)化單元,適于當所述語義相似度大于第五閾值時,則將位于對應(yīng)分組中但未位于所述知識點的問句作為擴展問句添加到所述知識點中。
19.一種智能問答系統(tǒng)的交互裝置,其特征在于,所述智能問答系統(tǒng)包括:知識庫以及場景會話庫,所述場景會話庫包含若干個按照權(quán)利要求11~16任一項所述的會話數(shù)據(jù)的處理裝置所獲得的場景會話序列;所述裝置包括:
第三獲取單元,適于當接收到用戶問句后,從所述知識庫中獲取與所述用戶問句對應(yīng)的答案,以及從所述場景會話庫中獲取與所述用戶問句關(guān)聯(lián)的問句;
輸出單元,適于輸出與所述用戶問句對應(yīng)的答案及關(guān)聯(lián)的全部或部分問句。
20.一種智能問答系統(tǒng)的交互裝置,其特征在于,所述智能問答系統(tǒng)包括:知識庫以及場景會話庫,所述場景會話庫包含若干個按照權(quán)利要求11~16任一項所述的會話數(shù)據(jù)的處理裝置所獲得的場景會話序列;所述裝置包括:
第四獲取單元,適于當接收到的用戶問句包含命名實體但未包含所述命名實體的屬性信息時,從所述場景會話庫中獲取所述命名實體對應(yīng)的所有屬性信息,并生成屬性優(yōu)先級;
反饋單元,適于選取優(yōu)先級別最高的屬性作為所述用戶問句中所述命名實體的屬性信息,從所述知識庫中獲取相應(yīng)的答案并發(fā)送給用戶。