1.一種主動(dòng)交互實(shí)現(xiàn)裝置,應(yīng)用于智能語音交互設(shè)備,其特征在于,包括:數(shù)據(jù)采集模塊、身份和情緒識(shí)別模塊、以及大數(shù)據(jù)引擎模塊;
所述數(shù)據(jù)采集模塊,用于采集用于用戶身份和情緒識(shí)別的數(shù)據(jù)、環(huán)境數(shù)據(jù)和智能語音交互設(shè)備的工作數(shù)據(jù);
所述身份和情緒識(shí)別模塊,用于根據(jù)所述數(shù)據(jù)采集模塊采集的用于用戶身份和情緒識(shí)別的數(shù)據(jù),對用戶身份和情緒進(jìn)行識(shí)別,得到用戶身份和情緒識(shí)別結(jié)果;
所述大數(shù)據(jù)引擎模塊,用于根據(jù)所述數(shù)據(jù)采集模塊實(shí)時(shí)采集的數(shù)據(jù)以及所述身份和情緒識(shí)別模塊實(shí)時(shí)識(shí)別的所述用戶身份和情緒識(shí)別結(jié)果,得到用戶、智能語音交互設(shè)備及環(huán)境的狀態(tài)信息,并將其輸入到預(yù)先建立的與識(shí)別出的用戶身份匹配的用戶行為習(xí)慣模型中,以對用戶的狀態(tài)和/或行為進(jìn)行預(yù)判,并根據(jù)預(yù)判結(jié)果,主動(dòng)向用戶提供與預(yù)判結(jié)果相匹配的服務(wù)。
2.如權(quán)利要求1所述的裝置,其特征在于,所述大數(shù)據(jù)引擎模塊,具體用于確定與所述預(yù)判結(jié)果相匹配的服務(wù),向用戶發(fā)出是否需要所述服務(wù)的詢問,并在確定出用戶需要時(shí),向用戶提供所述服務(wù)。
3.如權(quán)利要求1或2所述的裝置,其特征在于,向用戶提供的與預(yù)判結(jié)果相匹配的服務(wù),包括:內(nèi)容服務(wù)和/或設(shè)備狀態(tài)控制服務(wù);所述設(shè)備狀態(tài)控制服務(wù)包括:控制所述智能語音交互設(shè)備和/或與所述智能語音交互設(shè)備連接的設(shè)備到目標(biāo)狀態(tài)。
4.如權(quán)利要求3所述的裝置,其特征在于,所述大數(shù)據(jù)引擎模塊,具體用于調(diào)用內(nèi)容服務(wù)接口傳輸控制指令,以實(shí)現(xiàn)對所述內(nèi)容服務(wù)的控制與調(diào)用;和/或,調(diào)用設(shè)備控制接口傳輸控制指令,以實(shí)現(xiàn)將所述智能語音交互設(shè)備和/或與所述智能語音交互設(shè)備連接的設(shè)備控制到目標(biāo)狀態(tài)。
5.如權(quán)利要求1所述的裝置,其特征在于,還包括:
用戶模型模塊,用于根據(jù)所述數(shù)據(jù)采集模塊的歷史采集數(shù)據(jù)、所述用戶身份和情緒識(shí)別結(jié)果以及所述智能語音交互設(shè)備的歷史語音交互數(shù)據(jù),按用戶構(gòu)建用戶行為習(xí)慣模型。
6.如權(quán)利要求5所述的裝置,其特征在于,所述用戶模型模塊,包括:數(shù)據(jù)解析單元和學(xué)習(xí)訓(xùn)練單元:
所述數(shù)據(jù)解析單元,用于在所述歷史采集數(shù)據(jù)、所述用戶身份和情緒識(shí)別結(jié)果以及歷史語音交互數(shù)據(jù)中,解析出用戶的偏好數(shù)據(jù);
所述學(xué)習(xí)訓(xùn)練單元,用于將所述用戶偏好數(shù)據(jù)添加到為該用戶預(yù)先建立的用戶本體模型中,進(jìn)行用戶行為習(xí)慣的學(xué)習(xí)和訓(xùn)練,形成用戶行為習(xí)慣模型。
7.如權(quán)利要求1所述的裝置,其特征在于,所述用于用戶身份和情緒識(shí)別的數(shù)據(jù),包括:用戶的圖像數(shù)據(jù)和/或語音數(shù)據(jù);
所述身份和情緒識(shí)別模塊,具體包括:身份識(shí)別子模塊和情緒識(shí)別子模塊;
所述身份識(shí)別子模塊,用于當(dāng)接收到圖像數(shù)據(jù)或者語音數(shù)據(jù)時(shí),根據(jù)接收到的所述圖像數(shù)據(jù)或者語音數(shù)據(jù),對用戶的身份進(jìn)行識(shí)別;當(dāng)接收到圖像數(shù)據(jù)和語音數(shù)據(jù)時(shí),分別根據(jù)所述圖像數(shù)據(jù)和語音數(shù)據(jù),對用戶的身份進(jìn)行識(shí)別,得到兩種數(shù)據(jù)類型下的兩個(gè)初始的身份識(shí)別結(jié)果,并基于得到的兩個(gè)初始的身份識(shí)別結(jié)果,按照設(shè)定的身份判定策略,進(jìn)行身份判定,得到最終的用戶身份識(shí)別結(jié)果;
所述情緒識(shí)別子模塊,用于當(dāng)接收到圖像數(shù)據(jù)或者語音數(shù)據(jù)時(shí),根據(jù)接收到的所述圖像數(shù)據(jù)或者語音數(shù)據(jù),對用戶的情緒進(jìn)行識(shí)別;當(dāng)接收到圖像數(shù)據(jù)和語音數(shù)據(jù)時(shí),分別根據(jù)所述圖像數(shù)據(jù)和語音數(shù)據(jù),對用戶的情緒進(jìn)行識(shí)別,得到兩種數(shù)據(jù)類型下的兩個(gè)初始的情緒識(shí)別結(jié)果,并基于得到的兩個(gè)初始的情緒識(shí)別結(jié)果,按照設(shè)定的情緒判定策略,進(jìn)行情緒判定,得到最終的用戶情緒識(shí)別結(jié)果。
8.如權(quán)利要求7所述的裝置,其特征在于,
所述身份識(shí)別子模塊,用于在得到兩種數(shù)據(jù)類型下的兩個(gè)初始的身份識(shí)別結(jié)果時(shí),提取出每個(gè)身份識(shí)別結(jié)果中識(shí)別出的用戶及識(shí)別出該用戶的置信度信息,當(dāng)兩個(gè)身份識(shí)別結(jié)果中識(shí)別出的用戶相同且置信度分別大于等于設(shè)定的對應(yīng)數(shù)據(jù)類型的第一身份置信度閾值時(shí),以共同識(shí)別出的用戶作為最終的用戶身份識(shí)別結(jié)果;當(dāng)兩個(gè)身份識(shí)別結(jié)果中有一個(gè)身份識(shí)別結(jié)果中識(shí)別出的用戶的置信度大于等于設(shè)定的對應(yīng)數(shù)據(jù)類型的第二身份置信度閾值時(shí),以用戶的置信度大于等于第二置信度身份閾值對應(yīng)的用戶,作為最終的用戶身份識(shí)別結(jié)果,其中,同一數(shù)據(jù)類型下的第一身份置信度閾值小于第二身份置信度閾值。
9.如權(quán)利要求7所述的裝置,其特征在于,所述情緒識(shí)別子模塊,用于在得到兩種數(shù)據(jù)類型下的兩個(gè)初始的情緒識(shí)別結(jié)果時(shí),提取出每個(gè)情緒識(shí)別結(jié)果中識(shí)別出的情緒類型及識(shí)別出該情緒類型的置信度信息,當(dāng)兩個(gè)情緒識(shí)別結(jié)果中識(shí)別出的情緒類型相同且置信度分別大于等于設(shè)定的對應(yīng)數(shù)據(jù)類型的第一情緒置信度閾值時(shí),以共同識(shí)別出的情緒類型作為最終的情緒識(shí)別結(jié)果;當(dāng)兩個(gè)情緒識(shí)別結(jié)果中有一個(gè)情緒識(shí)別結(jié)果中識(shí)別出的情緒類型的置信度大于設(shè)定的對應(yīng)數(shù)據(jù)類型的第二情緒閾值時(shí),以情緒類型的置信度大于第二情緒閾值的情緒類型,作為最終的情緒識(shí)別結(jié)果;其中,同一數(shù)據(jù)類型下的第一情緒置信度閾值小于第二情緒置信度閾值。
10.如權(quán)利要求9所述的裝置,其特征在于,所述情緒識(shí)別子模塊,還用于確定用戶情緒識(shí)別結(jié)果中情緒類型的置信度,根據(jù)預(yù)設(shè)的情緒類型的置信度與情緒類型級(jí)別的對應(yīng)關(guān)系,得到識(shí)別出的用戶的情緒級(jí)別,并將其輸出到所述大數(shù)據(jù)引擎模塊。
11.一種智能語音交互設(shè)備,其特征在于,包括權(quán)1-10中任一項(xiàng)所述的主動(dòng)交互實(shí)現(xiàn)裝置。
12.一種主動(dòng)交互實(shí)現(xiàn)方法,應(yīng)用于智能語音交互設(shè)備,其特征在于,包括:
采集用于用戶身份和情緒識(shí)別的數(shù)據(jù)、環(huán)境數(shù)據(jù)和智能語音交互設(shè)備的工作數(shù)據(jù);
根據(jù)采集的用于用戶身份和情緒識(shí)別的數(shù)據(jù),對用戶身份和情緒進(jìn)行識(shí)別,得到用戶身份和情緒識(shí)別結(jié)果;
根據(jù)實(shí)時(shí)采集的各數(shù)據(jù)以及實(shí)時(shí)識(shí)別的所述用戶身份和情緒識(shí)別結(jié)果,得到用戶、智能語音交互設(shè)備及環(huán)境的狀態(tài)信息,并將其輸入到預(yù)先建立的與識(shí)別出的用戶身份匹配的用戶行為習(xí)慣模型中,以對用戶的狀態(tài)和/或行為進(jìn)行預(yù)判,并根據(jù)預(yù)判結(jié)果,主動(dòng)向用戶提供與預(yù)判結(jié)果相匹配的服務(wù)。
13.如權(quán)利要求12所述的方法,其特征在于,所述根據(jù)預(yù)判結(jié)果,主動(dòng)向用戶提供與預(yù)判結(jié)果相匹配的服務(wù),具體包括:確定與所述預(yù)判結(jié)果相匹配的服務(wù),向用戶發(fā)出是否需要所述服務(wù)的詢問,并在確定出用戶需要時(shí),向用戶提供所述服務(wù)。
14.如權(quán)利要求12或13所述的方法,其特征在于,向用戶提供的與預(yù)判結(jié)果相匹配的服務(wù),包括:內(nèi)容服務(wù)和/或設(shè)備狀態(tài)控制服務(wù);所述設(shè)備狀態(tài)控制服務(wù)包括:控制所述智能語音交互設(shè)備和/或與所述智能語音交互設(shè)備連接的設(shè)備到目標(biāo)狀態(tài)。
15.如權(quán)利要求14所述的方法,其特征在于,所述主動(dòng)向用戶提供與預(yù)判結(jié)果相匹配的服務(wù),包括:調(diào)用內(nèi)容服務(wù)接口傳輸控制指令,以實(shí)現(xiàn)對所述內(nèi)容服務(wù)的控制與調(diào)用;和/或,調(diào)用設(shè)備控制接口傳輸控制指令,以實(shí)現(xiàn)將所述智能語音交互設(shè)備和/或與所述智能語音交互設(shè)備連接的設(shè)備控制到目標(biāo)狀態(tài)。
16.如權(quán)利要求12所述的方法,其特征在于,還包括:
根據(jù)歷史采集數(shù)據(jù)、用戶身份和情緒識(shí)別結(jié)果以及所述智能語音交互設(shè)備的歷史語音交互數(shù)據(jù),按用戶構(gòu)建用戶行為習(xí)慣模型。
17.如權(quán)利要求16所述的方法,其特征在于,所述根據(jù)歷史采集數(shù)據(jù)、用戶身份和情緒識(shí)別結(jié)果以及所述智能語音交互設(shè)備的歷史語音交互數(shù)據(jù),按用戶構(gòu)建用戶行為習(xí)慣模型,包括:
在所述歷史采集數(shù)據(jù)、所述用戶身份和情緒識(shí)別結(jié)果以及歷史語音交互數(shù)據(jù)中,解析出用戶的偏好數(shù)據(jù);
將所述用戶偏好數(shù)據(jù)添加到為該用戶預(yù)先建立的用戶本體模型中,進(jìn)行用戶行為習(xí)慣的學(xué)習(xí)和訓(xùn)練,形成用戶行為習(xí)慣模型。
18.如權(quán)利要求12所述的方法,其特征在于,所述用于用戶身份和情緒識(shí)別的數(shù)據(jù),包括:用戶的圖像數(shù)據(jù)和/或語音數(shù)據(jù);
根據(jù)采集的用于用戶身份和情緒識(shí)別的數(shù)據(jù),對用戶身份和情緒進(jìn)行識(shí)別,得到用戶身份和情緒識(shí)別結(jié)果,包括:
當(dāng)采集到圖像數(shù)據(jù)或者語音數(shù)據(jù)時(shí),根據(jù)采集的所述圖像數(shù)據(jù)或者語音數(shù)據(jù),對用戶的身份進(jìn)行識(shí)別;當(dāng)采集到圖像數(shù)據(jù)和語音數(shù)據(jù)時(shí),分別根據(jù)所述圖像數(shù)據(jù)和語音數(shù)據(jù),對用戶的身份進(jìn)行識(shí)別,得到兩種數(shù)據(jù)類型下的兩個(gè)初始的身份識(shí)別結(jié)果,并基于得到的兩個(gè)初始的身份識(shí)別結(jié)果,按照設(shè)定的身份判定策略,進(jìn)行身份判定,得到最終的用戶身份識(shí)別結(jié)果;
以及當(dāng)采集到圖像數(shù)據(jù)或者語音數(shù)據(jù)時(shí),根據(jù)采集的所述圖像數(shù)據(jù)或者語音數(shù)據(jù),對用戶的情緒進(jìn)行識(shí)別;當(dāng)采集到圖像數(shù)據(jù)和語音數(shù)據(jù)時(shí),分別根據(jù)所述圖像數(shù)據(jù)和語音數(shù)據(jù),對用戶的情緒進(jìn)行識(shí)別,得到兩種數(shù)據(jù)類型下的兩個(gè)初始的情緒識(shí)別結(jié)果,并基于得到的兩個(gè)初始的情緒識(shí)別結(jié)果,按照設(shè)定的情緒判定策略,進(jìn)行情緒判定,得到最終的用戶情緒識(shí)別結(jié)果。
19.如權(quán)利要求18所述的方法,其特征在于,所述基于得到的兩個(gè)初始的身份識(shí)別結(jié)果,按照設(shè)定的身份判定策略,進(jìn)行身份判定,得到最終的用戶身份識(shí)別結(jié)果,包括:提取出每個(gè)身份識(shí)別結(jié)果中識(shí)別出的用戶及識(shí)別出該用戶的置信度信息,當(dāng)兩個(gè)身份識(shí)別結(jié)果中識(shí)別出的用戶相同且置信度分別大于等于設(shè)定的對應(yīng)數(shù)據(jù)類型的第一身份置信度閾值時(shí),以共同識(shí)別出的用戶作為最終的用戶身份識(shí)別結(jié)果;當(dāng)兩個(gè)身份識(shí)別結(jié)果中有一個(gè)身份識(shí)別結(jié)果中識(shí)別出的用戶的置信度大于等于設(shè)定的對應(yīng)數(shù)據(jù)類型的第二身份置信度閾值時(shí),以用戶的置信度大于等于第二置信度身份閾值對應(yīng)的用戶,作為最終的用戶身份識(shí)別結(jié)果,其中,同一數(shù)據(jù)類型下的第一身份置信度閾值小于第二身份置信度閾值。
20.如權(quán)利要求18所述的方法,其特征在于,所述基于得到的兩個(gè)初始的情緒識(shí)別結(jié)果,按照設(shè)定的情緒判定策略,進(jìn)行情緒判定,得到最終的用戶情緒識(shí)別結(jié)果,包括:提取出每個(gè)情緒識(shí)別結(jié)果中識(shí)別出的情緒類型及識(shí)別出該情緒類型的置信度信息,當(dāng)兩個(gè)情緒識(shí)別結(jié)果中識(shí)別出的情緒類型相同且置信度分別大于等于設(shè)定的對應(yīng)數(shù)據(jù)類型的第一情緒置信度閾值時(shí),以共同識(shí)別出的情緒類型作為最終的情緒識(shí)別結(jié)果;當(dāng)兩個(gè)情緒識(shí)別結(jié)果中有一個(gè)情緒識(shí)別結(jié)果中識(shí)別出的情緒類型的置信度大于設(shè)定的對應(yīng)數(shù)據(jù)類型的第二情緒閾值時(shí),以情緒類型的置信度大于第二情緒閾值的情緒類型,作為最終的情緒識(shí)別結(jié)果;其中,同一數(shù)據(jù)類型下的第一情緒置信度閾值小于第二情緒置信度閾值。
21.如權(quán)利要求20所述的方法,其特征在于,在得到最終的情緒識(shí)別結(jié)果后,還包括:確定用戶情緒識(shí)別結(jié)果中情緒類型的置信度,根據(jù)預(yù)設(shè)的情緒類型的置信度與情緒類型級(jí)別的對應(yīng)關(guān)系,得到識(shí)別出的用戶的情緒級(jí)別;
最終識(shí)別出的所述情緒識(shí)別結(jié)果包括:情緒類型及情緒級(jí)別。