本發(fā)明涉及智能交互技術(shù)領(lǐng)域,尤其涉及一種主動(dòng)交互實(shí)現(xiàn)裝置、方法及智能語音交互設(shè)備。
背景技術(shù):
現(xiàn)階段由于語音技術(shù)的發(fā)展,智能語音交互設(shè)備越來越多,語音交互成為一種非常重要的人機(jī)交互途徑,尤其是近些年語音助手的普及,從手機(jī)到智能家居再到汽車,都可以進(jìn)行語音的交互以及服務(wù)的獲取。但是這些語音的交互以及服務(wù)的獲取是需要人為發(fā)布指令或是用戶主動(dòng)觸發(fā)的。也就是說,現(xiàn)階段的智能語音交互設(shè)備只能被動(dòng)的為用戶提供服務(wù),無法對(duì)用戶的行為進(jìn)行預(yù)判,從而實(shí)現(xiàn)服務(wù)的主動(dòng)推薦。
技術(shù)實(shí)現(xiàn)要素:
本發(fā)明提供一種主動(dòng)交互實(shí)現(xiàn)裝置、方法及智能語音交互設(shè)備,用以解決現(xiàn)有技術(shù)中的智能語音交互設(shè)備無法實(shí)現(xiàn)主動(dòng)推薦服務(wù),影響使用效率的問題。
依據(jù)本發(fā)明的一個(gè)方面,提供一種主動(dòng)交互實(shí)現(xiàn)裝置,應(yīng)用于智能語音交互設(shè)備,所述裝置包括:數(shù)據(jù)采集模塊、身份和情緒識(shí)別模塊、以及大數(shù)據(jù)引擎模塊;
所述數(shù)據(jù)采集模塊,用于采集用于用戶身份和情緒識(shí)別的數(shù)據(jù)、環(huán)境數(shù)據(jù)和智能語音交互設(shè)備的工作數(shù)據(jù);
所述身份和情緒識(shí)別模塊,用于根據(jù)所述數(shù)據(jù)采集模塊采集的用于用戶身份和情緒識(shí)別的數(shù)據(jù),對(duì)用戶身份和情緒進(jìn)行識(shí)別,得到用戶身份和情緒識(shí)別結(jié)果;
所述大數(shù)據(jù)引擎模塊,用于根據(jù)所述數(shù)據(jù)采集模塊實(shí)時(shí)采集的數(shù)據(jù)以及所述身份和情緒識(shí)別模塊實(shí)時(shí)識(shí)別的所述用戶身份和情緒識(shí)別結(jié)果,得到用戶、智能語音交互設(shè)備及環(huán)境的狀態(tài)信息,并將其輸入到預(yù)先建立的與識(shí)別出的用戶身份匹配的用戶行為習(xí)慣模型中,以對(duì)用戶的狀態(tài)和/或行為進(jìn)行預(yù)判,并根據(jù)預(yù)判結(jié)果,主動(dòng)向用戶提供與預(yù)判結(jié)果相匹配的服務(wù)。
可選地,所述大數(shù)據(jù)引擎模塊,具體用于確定與所述預(yù)判結(jié)果相匹配的服務(wù),向用戶發(fā)出是否需要所述服務(wù)的詢問,并在確定出用戶需要時(shí),向用戶提供所述服務(wù)。
可選地,向用戶提供的與預(yù)判結(jié)果相匹配的服務(wù),包括:內(nèi)容服務(wù)和/或設(shè)備狀態(tài)控制服務(wù);所述設(shè)備狀態(tài)控制服務(wù)包括:控制所述智能語音交互設(shè)備和/或與所述智能語音交互設(shè)備連接的設(shè)備到目標(biāo)狀態(tài)。
可選地,所述大數(shù)據(jù)引擎模塊,具體用于調(diào)用內(nèi)容服務(wù)接口傳輸控制指令,以實(shí)現(xiàn)對(duì)所述內(nèi)容服務(wù)的控制與調(diào)用;和/或,調(diào)用設(shè)備控制接口傳輸控制指令,以實(shí)現(xiàn)將所述智能語音交互設(shè)備和/或與所述智能語音交互設(shè)備連接的設(shè)備控制到目標(biāo)狀態(tài)。
可選地,所述裝置還包括:
用戶模型模塊,用于根據(jù)所述數(shù)據(jù)采集模塊的歷史采集數(shù)據(jù)、所述用戶身份和情緒識(shí)別結(jié)果以及所述智能語音交互設(shè)備的歷史語音交互數(shù)據(jù),按用戶構(gòu)建用戶行為習(xí)慣模型。
可選地,所述用戶模型模塊,包括:數(shù)據(jù)解析單元和學(xué)習(xí)訓(xùn)練單元:
所述數(shù)據(jù)解析單元,用于在所述歷史采集數(shù)據(jù)、所述用戶身份和情緒識(shí)別結(jié)果以及歷史語音交互數(shù)據(jù)中,解析出用戶的偏好數(shù)據(jù);
所述學(xué)習(xí)訓(xùn)練單元,用于將所述用戶偏好數(shù)據(jù)添加到為該用戶預(yù)先建立的用戶本體模型中,進(jìn)行用戶行為習(xí)慣的學(xué)習(xí)和訓(xùn)練,形成用戶行為習(xí)慣模型。
可選地,所述用于用戶身份和情緒識(shí)別的數(shù)據(jù),包括:用戶的圖像數(shù)據(jù)和/或語音數(shù)據(jù);
所述身份和情緒識(shí)別模塊,具體包括:身份識(shí)別子模塊和情緒識(shí)別子模塊;
所述身份識(shí)別子模塊,用于當(dāng)接收到圖像數(shù)據(jù)或者語音數(shù)據(jù)時(shí),根據(jù)接收到的所述圖像數(shù)據(jù)或者語音數(shù)據(jù),對(duì)用戶的身份進(jìn)行識(shí)別;當(dāng)接收到圖像數(shù)據(jù)和語音數(shù)據(jù)時(shí),分別根據(jù)所述圖像數(shù)據(jù)和語音數(shù)據(jù),對(duì)用戶的身份進(jìn)行識(shí)別,得到兩種數(shù)據(jù)類型下的兩個(gè)初始的身份識(shí)別結(jié)果,并基于得到的兩個(gè)初始的身份識(shí)別結(jié)果,按照設(shè)定的身份判定策略,進(jìn)行身份判定,得到最終的用戶身份識(shí)別結(jié)果;
所述情緒識(shí)別子模塊,用于當(dāng)接收到圖像數(shù)據(jù)或者語音數(shù)據(jù)時(shí),根據(jù)接收到的所述圖像數(shù)據(jù)或者語音數(shù)據(jù),對(duì)用戶的情緒進(jìn)行識(shí)別;當(dāng)接收到圖像數(shù)據(jù)和語音數(shù)據(jù)時(shí),分別根據(jù)所述圖像數(shù)據(jù)和語音數(shù)據(jù),對(duì)用戶的情緒進(jìn)行識(shí)別,得到兩種數(shù)據(jù)類型下的兩個(gè)初始的情緒識(shí)別結(jié)果,并基于得到的兩個(gè)初始的情緒識(shí)別結(jié)果,按照設(shè)定的情緒判定策略,進(jìn)行情緒判定,得到最終的用戶情緒識(shí)別結(jié)果。
可選地,所述身份識(shí)別子模塊,用于在得到兩種數(shù)據(jù)類型下的兩個(gè)初始的身份識(shí)別結(jié)果時(shí),提取出每個(gè)身份識(shí)別結(jié)果中識(shí)別出的用戶及識(shí)別出該用戶的置信度信息,當(dāng)兩個(gè)身份識(shí)別結(jié)果中識(shí)別出的用戶相同且置信度分別大于等于設(shè)定的對(duì)應(yīng)數(shù)據(jù)類型的第一身份置信度閾值時(shí),以共同識(shí)別出的用戶作為最終的用戶身份識(shí)別結(jié)果;當(dāng)兩個(gè)身份識(shí)別結(jié)果中有一個(gè)身份識(shí)別結(jié)果中識(shí)別出的用戶的置信度大于等于設(shè)定的對(duì)應(yīng)數(shù)據(jù)類型的第二身份置信度閾值時(shí),以用戶的置信度大于等于第二置信度身份閾值對(duì)應(yīng)的用戶,作為最終的用戶身份識(shí)別結(jié)果,其中,同一數(shù)據(jù)類型下的第一身份置信度閾值小于第二身份置信度閾值。
可選地,所述情緒識(shí)別子模塊,用于在得到兩種數(shù)據(jù)類型下的兩個(gè)初始的情緒識(shí)別結(jié)果時(shí),提取出每個(gè)情緒識(shí)別結(jié)果中識(shí)別出的情緒類型及識(shí)別出該情緒類型的置信度信息,當(dāng)兩個(gè)情緒識(shí)別結(jié)果中識(shí)別出的情緒類型相同且置信度分別大于等于設(shè)定的對(duì)應(yīng)數(shù)據(jù)類型的第一情緒置信度閾值時(shí),以共同識(shí)別出的情緒類型作為最終的情緒識(shí)別結(jié)果;當(dāng)兩個(gè)情緒識(shí)別結(jié)果中有一個(gè)情緒識(shí)別結(jié)果中識(shí)別出的情緒類型的置信度大于設(shè)定的對(duì)應(yīng)數(shù)據(jù)類型的第二情緒閾值時(shí),以情緒類型的置信度大于第二情緒閾值的情緒類型,作為最終的情緒識(shí)別結(jié)果;其中,同一數(shù)據(jù)類型下的第一情緒置信度閾值小于第二情緒置信度閾值。
可選地,所述情緒識(shí)別子模塊,還用于確定用戶情緒識(shí)別結(jié)果中情緒類型的置信度,根據(jù)預(yù)設(shè)的情緒類型的置信度與情緒類型級(jí)別的對(duì)應(yīng)關(guān)系,得到識(shí)別出的用戶的情緒級(jí)別,并將其輸出到所述大數(shù)據(jù)引擎模塊;
所述大數(shù)據(jù)引擎模塊,具體用于根據(jù)所述數(shù)據(jù)采集模塊實(shí)時(shí)采集的數(shù)據(jù)、所述身份和情緒識(shí)別模塊實(shí)時(shí)識(shí)別的所述用戶身份和情緒識(shí)別結(jié)果、以及識(shí)別出的情緒級(jí)別,得到用戶、智能語音交互設(shè)備及環(huán)境的狀態(tài)信息。
依據(jù)本發(fā)明的另一個(gè)方面,還提供一種智能語音交互設(shè)備,包括本發(fā)明所述的主動(dòng)交互實(shí)現(xiàn)裝置。
依據(jù)本發(fā)明的第三個(gè)方面,還提供一種主動(dòng)交互實(shí)現(xiàn)方法,應(yīng)用于智能語音交互設(shè)備,所述方法包括:
采集用于用戶身份和情緒識(shí)別的數(shù)據(jù)、環(huán)境數(shù)據(jù)和智能語音交互設(shè)備的工作數(shù)據(jù);
根據(jù)采集的用于用戶身份和情緒識(shí)別的數(shù)據(jù),對(duì)用戶身份和情緒進(jìn)行識(shí)別,得到用戶身份和情緒識(shí)別結(jié)果;
根據(jù)實(shí)時(shí)采集的各數(shù)據(jù)以及實(shí)時(shí)識(shí)別的所述用戶身份和情緒識(shí)別結(jié)果,得到用戶、智能語音交互設(shè)備及環(huán)境的狀態(tài)信息,并將其輸入到預(yù)先建立的與識(shí)別出的用戶身份匹配的用戶行為習(xí)慣模型中,以對(duì)用戶的狀態(tài)和/或行為進(jìn)行預(yù)判,并根據(jù)預(yù)判結(jié)果,主動(dòng)向用戶提供與預(yù)判結(jié)果相匹配的服務(wù)。
可選地,所述根據(jù)預(yù)判結(jié)果,主動(dòng)向用戶提供與預(yù)判結(jié)果相匹配的服務(wù),具體包括:確定與所述預(yù)判結(jié)果相匹配的服務(wù),向用戶發(fā)出是否需要所述服務(wù)的詢問,并在確定出用戶需要時(shí),向用戶提供所述服務(wù)。
可選地,向用戶提供的與預(yù)判結(jié)果相匹配的服務(wù),包括:內(nèi)容服務(wù)和/或設(shè)備狀態(tài)控制服務(wù);所述設(shè)備狀態(tài)控制服務(wù)包括:控制所述智能語音交互設(shè)備和/或與所述智能語音交互設(shè)備連接的設(shè)備到目標(biāo)狀態(tài)。
可選地,所述主動(dòng)向用戶提供與預(yù)判結(jié)果相匹配的服務(wù),包括:調(diào)用內(nèi)容服務(wù)接口傳輸控制指令,以實(shí)現(xiàn)對(duì)所述內(nèi)容服務(wù)的控制與調(diào)用;和/或,調(diào)用設(shè)備控制接口傳輸控制指令,以實(shí)現(xiàn)將所述智能語音交互設(shè)備和/或與所述智能語音交互設(shè)備連接的設(shè)備控制到目標(biāo)狀態(tài)。
可選地,所述方法還包括:
根據(jù)歷史采集數(shù)據(jù)、用戶身份和情緒識(shí)別結(jié)果以及所述智能語音交互設(shè)備的歷史語音交互數(shù)據(jù),按用戶構(gòu)建用戶行為習(xí)慣模型。其中,按用戶構(gòu)建用戶行為習(xí)慣模型,是指以用戶為單位構(gòu)建各用戶的用戶行為習(xí)慣模型。
可選地,所述根據(jù)歷史采集數(shù)據(jù)、用戶身份和情緒識(shí)別結(jié)果以及所述智能語音交互設(shè)備的歷史語音交互數(shù)據(jù),按用戶構(gòu)建用戶行為習(xí)慣模型,包括:
在所述歷史采集數(shù)據(jù)、所述用戶身份和情緒識(shí)別結(jié)果以及歷史語音交互數(shù)據(jù)中,解析出用戶的偏好數(shù)據(jù);
將所述用戶偏好數(shù)據(jù)添加到為該用戶預(yù)先建立的用戶本體模型中,進(jìn)行用戶行為習(xí)慣的學(xué)習(xí)和訓(xùn)練,形成用戶行為習(xí)慣模型。
可選地,所述用于用戶身份和情緒識(shí)別的數(shù)據(jù),包括:用戶的圖像數(shù)據(jù)和/或語音數(shù)據(jù);
根據(jù)采集的用于用戶身份和情緒識(shí)別的數(shù)據(jù),對(duì)用戶身份和情緒進(jìn)行識(shí)別,得到用戶身份和情緒識(shí)別結(jié)果,包括:
當(dāng)采集到圖像數(shù)據(jù)或者語音數(shù)據(jù)時(shí),根據(jù)采集的所述圖像數(shù)據(jù)或者語音數(shù)據(jù),對(duì)用戶的身份進(jìn)行識(shí)別;當(dāng)采集到圖像數(shù)據(jù)和語音數(shù)據(jù)時(shí),分別根據(jù)所述圖像數(shù)據(jù)和語音數(shù)據(jù),對(duì)用戶的身份進(jìn)行識(shí)別,得到兩種數(shù)據(jù)類型下的兩個(gè)初始的身份識(shí)別結(jié)果,并基于得到的兩個(gè)初始的身份識(shí)別結(jié)果,按照設(shè)定的身份判定策略,進(jìn)行身份判定,得到最終的用戶身份識(shí)別結(jié)果;
以及當(dāng)采集到圖像數(shù)據(jù)或者語音數(shù)據(jù)時(shí),根據(jù)采集的所述圖像數(shù)據(jù)或者語音數(shù)據(jù),對(duì)用戶的情緒進(jìn)行識(shí)別;當(dāng)采集到圖像數(shù)據(jù)和語音數(shù)據(jù)時(shí),分別根據(jù)所述圖像數(shù)據(jù)和語音數(shù)據(jù),對(duì)用戶的情緒進(jìn)行識(shí)別,得到兩種數(shù)據(jù)類型下的兩個(gè)初始的情緒識(shí)別結(jié)果,并基于得到的兩個(gè)初始的情緒識(shí)別結(jié)果,按照設(shè)定的情緒判定策略,進(jìn)行情緒判定,得到最終的用戶情緒識(shí)別結(jié)果。
可選地,所述基于得到的兩個(gè)初始的身份識(shí)別結(jié)果,按照設(shè)定的身份判定策略,進(jìn)行身份判定,得到最終的用戶身份識(shí)別結(jié)果,包括:提取出每個(gè)身份識(shí)別結(jié)果中識(shí)別出的用戶及識(shí)別出該用戶的置信度信息,當(dāng)兩個(gè)身份識(shí)別結(jié)果中識(shí)別出的用戶相同且置信度分別大于等于設(shè)定的對(duì)應(yīng)數(shù)據(jù)類型的第一身份置信度閾值時(shí),以共同識(shí)別出的用戶作為最終的用戶身份識(shí)別結(jié)果;當(dāng)兩個(gè)身份識(shí)別結(jié)果中有一個(gè)身份識(shí)別結(jié)果中識(shí)別出的用戶的置信度大于等于設(shè)定的對(duì)應(yīng)數(shù)據(jù)類型的第二身份置信度閾值時(shí),以用戶的置信度大于等于第二置信度身份閾值對(duì)應(yīng)的用戶,作為最終的用戶身份識(shí)別結(jié)果,其中,同一數(shù)據(jù)類型下的第一身份置信度閾值小于第二身份置信度閾值。
可選地,所述基于得到的兩個(gè)初始的情緒識(shí)別結(jié)果,按照設(shè)定的情緒判定策略,進(jìn)行情緒判定,得到最終的用戶情緒識(shí)別結(jié)果,包括:提取出每個(gè)情緒識(shí)別結(jié)果中識(shí)別出的情緒類型及識(shí)別出該情緒類型的置信度信息,當(dāng)兩個(gè)情緒識(shí)別結(jié)果中識(shí)別出的情緒類型相同且置信度分別大于等于設(shè)定的對(duì)應(yīng)數(shù)據(jù)類型的第一情緒置信度閾值時(shí),以共同識(shí)別出的情緒類型作為最終的情緒識(shí)別結(jié)果;當(dāng)兩個(gè)情緒識(shí)別結(jié)果中有一個(gè)情緒識(shí)別結(jié)果中識(shí)別出的情緒類型的置信度大于設(shè)定的對(duì)應(yīng)數(shù)據(jù)類型的第二情緒閾值時(shí),以情緒類型的置信度大于第二情緒閾值的情緒類型,作為最終的情緒識(shí)別結(jié)果;其中,同一數(shù)據(jù)類型下的第一情緒置信度閾值小于第二情緒置信度閾值。
可選地,在得到最終的情緒識(shí)別結(jié)果后,還包括:確定用戶情緒識(shí)別結(jié)果中情緒類型的置信度,根據(jù)預(yù)設(shè)的情緒類型的置信度與情緒類型級(jí)別的對(duì)應(yīng)關(guān)系,得到識(shí)別出的用戶的情緒級(jí)別;
最終識(shí)別出的所述情緒識(shí)別結(jié)果包括:情緒類型及情緒級(jí)別。
本發(fā)明有益效果如下:
本發(fā)明實(shí)施例所述裝置、方法及智能語音交互設(shè)備,可通過當(dāng)前用戶行為習(xí)慣模型,根據(jù)用戶情緒識(shí)別結(jié)果、當(dāng)前的設(shè)備狀態(tài)以及環(huán)境信息等數(shù)據(jù)對(duì)用戶的行為和/或狀態(tài)進(jìn)行預(yù)判,并可根據(jù)預(yù)判結(jié)果,主動(dòng)為用戶提供精準(zhǔn)的內(nèi)容服務(wù)和/或設(shè)備控制服務(wù),使得設(shè)備更加了解用戶的需求,實(shí)現(xiàn)了設(shè)備與用戶交互過程智能化與人性化方面質(zhì)的飛越,極大的提升了用戶的使用效率。
且本發(fā)明實(shí)施例所述裝置和方法將用戶情緒作為用戶狀態(tài)的判定條件之一,在某些場合下,例如開車時(shí),情緒的好壞關(guān)乎著生命財(cái)產(chǎn)安全,而本發(fā)明實(shí)施例可對(duì)用戶的情緒狀態(tài)進(jìn)行實(shí)時(shí)判斷,并可根據(jù)情緒狀態(tài)提供針對(duì)性的服務(wù),例如在用戶為憤怒時(shí),可以通過內(nèi)容服務(wù)進(jìn)行情緒引導(dǎo),避免了惡性事件的發(fā)生,具有較高的社會(huì)意義。
上述說明僅是本發(fā)明技術(shù)方案的概述,為了能夠更清楚了解本發(fā)明的技術(shù)手段,而可依照說明書的內(nèi)容予以實(shí)施,并且為了讓本發(fā)明的上述和其它目的、特征和優(yōu)點(diǎn)能夠更明顯易懂,以下特舉本發(fā)明的具體實(shí)施方式。
附圖說明
通過閱讀下文優(yōu)選實(shí)施方式的詳細(xì)描述,各種其他的優(yōu)點(diǎn)和益處對(duì)于本領(lǐng)域普通技術(shù)人員將變得清楚明了。附圖僅用于示出優(yōu)選實(shí)施方式的目的,而并不認(rèn)為是對(duì)本發(fā)明的限制。而且在整個(gè)附圖中,用相同的參考符號(hào)表示相同的部件。在附圖中:
圖1為本發(fā)明第一實(shí)施例提供的一種主動(dòng)交互實(shí)現(xiàn)裝置的結(jié)構(gòu)框圖;
圖2為本發(fā)明第一實(shí)施例中用戶行為習(xí)慣模型構(gòu)建流程圖;
圖3為本發(fā)明第一實(shí)施例中主動(dòng)交互實(shí)現(xiàn)裝置實(shí)現(xiàn)指令交互的示意圖;
圖4為本發(fā)明第三實(shí)施例提供的一種主動(dòng)交互實(shí)現(xiàn)方法的流程圖。
具體實(shí)施方式
下面將參照附圖更詳細(xì)地描述本公開的示例性實(shí)施例。雖然附圖中顯示了本公開的示例性實(shí)施例,然而應(yīng)當(dāng)理解,可以以各種形式實(shí)現(xiàn)本公開而不應(yīng)被這里闡述的實(shí)施例所限制。相反,提供這些實(shí)施例是為了能夠更透徹地理解本公開,并且能夠?qū)⒈竟_的范圍完整的傳達(dá)給本領(lǐng)域的技術(shù)人員。
為了解決現(xiàn)有技術(shù)中,智能語音交互設(shè)備只能被動(dòng)的為用戶提供服務(wù),無法對(duì)用戶的行為進(jìn)行預(yù)判從而實(shí)現(xiàn)服務(wù)的主動(dòng)推薦問題,本發(fā)明實(shí)施例提供一種主動(dòng)交互實(shí)現(xiàn)裝置、方法及智能語音交互設(shè)備,旨在主動(dòng)且準(zhǔn)確地為用戶提供更加人性化的服務(wù)。下面通過幾個(gè)具體實(shí)施例,對(duì)本發(fā)明的實(shí)施過程進(jìn)行詳細(xì)說明。
在本發(fā)明的第一實(shí)施例中,提供一種主動(dòng)交互實(shí)現(xiàn)裝置,應(yīng)用于智能語音交互設(shè)備,如圖1所示,所述裝置包括:數(shù)據(jù)采集模塊110、身份和情緒識(shí)別模塊120、以及大數(shù)據(jù)引擎模塊130;
數(shù)據(jù)采集模塊110,用于采集用于用戶身份和情緒識(shí)別的數(shù)據(jù)、環(huán)境數(shù)據(jù)和智能語音交互設(shè)備的工作數(shù)據(jù);
身份和情緒識(shí)別模塊120,用于根據(jù)數(shù)據(jù)采集模塊110采集的用于用戶身份和情緒識(shí)別的數(shù)據(jù),對(duì)用戶身份和情緒進(jìn)行識(shí)別,得到用戶身份和情緒識(shí)別結(jié)果;
大數(shù)據(jù)引擎模塊130,用于根據(jù)數(shù)據(jù)采集模塊110實(shí)時(shí)采集的數(shù)據(jù)以及所述身份和情緒識(shí)別模塊120實(shí)時(shí)識(shí)別的所述用戶身份和情緒識(shí)別結(jié)果,得到用戶、智能語音交互設(shè)備及環(huán)境的狀態(tài)信息,并將其輸入到預(yù)先建立的與識(shí)別出的用戶身份匹配的用戶行為習(xí)慣模型中,以對(duì)用戶的狀態(tài)和/或行為進(jìn)行預(yù)判,并根據(jù)預(yù)判結(jié)果,主動(dòng)向用戶提供與預(yù)判結(jié)果相匹配的服務(wù)。
基于上述結(jié)構(gòu)框架及實(shí)施原理,下面給出在上述結(jié)構(gòu)下的幾個(gè)具體及優(yōu)選實(shí)施方式,用以細(xì)化和優(yōu)化本發(fā)明所述裝置的功能,以使本發(fā)明方案的實(shí)施更方便,準(zhǔn)確。具體涉及如下內(nèi)容:
本發(fā)明實(shí)施例中,所述智能語音交互設(shè)備可以但不限于為:汽車、音箱、玩偶、個(gè)人電腦、智能手機(jī)、家具中控、無人機(jī)、電視機(jī)、車載中控、機(jī)器人等設(shè)備。
進(jìn)一步地,本發(fā)明實(shí)施例中,所述的情緒識(shí)別結(jié)果包括:識(shí)別出的情緒類型及識(shí)別出該情緒類型的置信度。所述的身份識(shí)別結(jié)果包括:識(shí)別出的用戶及識(shí)別出該用戶的置信度。其中,情緒類型包括但不限于為:高興、傷心、憤怒、厭煩、疲勞、激動(dòng)和正常等。
進(jìn)一步地,本發(fā)明實(shí)施例中,采集的用于用戶身份和情緒識(shí)別的數(shù)據(jù)類型包括圖像數(shù)據(jù)及語音數(shù)據(jù)。當(dāng)然,本發(fā)明并不僅限于采用這兩種類型的數(shù)據(jù)進(jìn)行身份和情緒識(shí)別,針對(duì)不同的智能語音交互設(shè)備類型,可用于身份識(shí)別的數(shù)據(jù)還可以為指紋數(shù)據(jù)等,可用于情緒識(shí)別的數(shù)據(jù)還可以為車輛的行駛數(shù)據(jù)等(僅針對(duì)智能語音交互設(shè)備為汽車的情況)。
本實(shí)施例中,可以采集單一類型的數(shù)據(jù)進(jìn)行身份和情緒識(shí)別,但更為優(yōu)選地,采用多種類型的數(shù)據(jù)進(jìn)行身份和情緒識(shí)別,從而根據(jù)不同類型數(shù)據(jù)得到的識(shí)別結(jié)果進(jìn)行身份和情緒的綜合判定。本實(shí)施例通過綜合判定方式可以提高識(shí)別準(zhǔn)度度以及環(huán)境適應(yīng)性。
在本發(fā)明的一個(gè)具體實(shí)施例中,采集的用于用戶身份和情緒識(shí)別的數(shù)據(jù)包括:用戶的圖像數(shù)據(jù)和語音數(shù)據(jù)。
具體地,本實(shí)施例中,數(shù)據(jù)采集模塊110通過攝像頭采集駕駛員的圖像數(shù)據(jù)以及通過麥克風(fēng)采集駕駛員的聲音數(shù)據(jù)。在本發(fā)明的一個(gè)具體實(shí)施例中,身份和情緒識(shí)別模塊120,根據(jù)用戶的圖像數(shù)據(jù)對(duì)用戶的身份和情緒進(jìn)行識(shí)別,具體包括:身份和情緒識(shí)別模塊120在先需要進(jìn)行人臉的離線訓(xùn)練,所述離線訓(xùn)練使用人臉的數(shù)據(jù)庫訓(xùn)練人臉的檢測器、同時(shí)在人臉上標(biāo)定標(biāo)記點(diǎn),根據(jù)所述人臉標(biāo)記點(diǎn)訓(xùn)練標(biāo)記點(diǎn)擬合器,并且,通過人臉標(biāo)記點(diǎn)和情緒、身份的關(guān)系訓(xùn)練情緒身份分類器;當(dāng)進(jìn)行人臉的在線運(yùn)行時(shí)(即需要根據(jù)圖像數(shù)據(jù)進(jìn)行情緒和身份識(shí)別時(shí)),通過人臉檢測器在圖像數(shù)據(jù)中檢測人臉,然后通過標(biāo)記點(diǎn)擬合器擬合人臉上的標(biāo)記點(diǎn),情緒身份分類器根據(jù)人臉標(biāo)記點(diǎn)判斷當(dāng)前用戶的身份和情緒,最后給出對(duì)應(yīng)的分類置信度??蛇x地,本發(fā)明實(shí)施例中,還對(duì)所述圖像數(shù)據(jù)進(jìn)行用戶的動(dòng)作識(shí)別,并在根據(jù)人臉標(biāo)記點(diǎn)進(jìn)行情緒識(shí)別時(shí),可以結(jié)合動(dòng)作識(shí)別結(jié)果,進(jìn)行綜合識(shí)別判斷,得到基于圖像數(shù)據(jù)的最終情緒識(shí)別結(jié)果。
本實(shí)施例中,基于圖像的身份識(shí)別的置信度為情緒身份分類器將獲取的面部圖像中的人臉標(biāo)記點(diǎn)與在先訓(xùn)練的已知身份的人臉標(biāo)記點(diǎn)進(jìn)行匹配的匹配度,當(dāng)匹配度(即置信度)達(dá)到一定的閾值,判定為識(shí)別出用戶身份,例如,若匹配度為85%(置信度)以上的檢測結(jié)果為用戶A,則認(rèn)為“此用戶為用戶A”。
本實(shí)施例中,基于圖像的情緒識(shí)別的置信度為情緒身份分類器根據(jù)獲取的面部圖像中的人臉標(biāo)記點(diǎn)而得到的用戶面部表情與在先情緒訓(xùn)練得到的用戶在不同情緒類型下的面部表情模型進(jìn)行匹配的匹配度,當(dāng)匹配度(即置信度)達(dá)到一定的閾值,判定為識(shí)別出用戶的情緒類型,例如,若匹配的結(jié)果為90%(置信度)以上的檢測結(jié)果為“愉悅”,則認(rèn)為“此用戶為愉悅”。
在本發(fā)明的一個(gè)具體實(shí)施例中,身份和情緒識(shí)別模塊120,根據(jù)用戶的聲音數(shù)據(jù)對(duì)用戶的身份和情緒進(jìn)行識(shí)別,具體包括:身份和情緒識(shí)別模塊120在先需要進(jìn)行人聲的離線訓(xùn)練,所述人聲的離線訓(xùn)練,使用語音數(shù)據(jù)庫訓(xùn)練人聲檢測器,同時(shí)訓(xùn)練語音特征向量提取模型用于從人聲中提取特征向量的聲音,采用已標(biāo)定好的語音特征向量與身份、情緒的訓(xùn)練集訓(xùn)練身份和情緒分類器。當(dāng)進(jìn)行人聲的在線運(yùn)行時(shí)(即需要根據(jù)語音數(shù)據(jù)進(jìn)行情緒和身份識(shí)別時(shí)),通過人聲檢測器在輸入的聲音流中檢測人聲數(shù)據(jù),并從人聲數(shù)據(jù)中提取語音特征向量,最后使用情緒和身份分類器從語音特征向量分辨當(dāng)前用戶的身份和情緒,并給出識(shí)別的置信度。可選地,本發(fā)明實(shí)施例中,還對(duì)所述語音數(shù)據(jù)中的語義進(jìn)行識(shí)別。當(dāng)根據(jù)語音特征向量進(jìn)行情緒識(shí)別時(shí),可以結(jié)合語義識(shí)別結(jié)果,進(jìn)行綜合識(shí)別判斷,得到基于語音數(shù)據(jù)的最終識(shí)別結(jié)果。
本實(shí)施例中,基于語音的身份識(shí)別的置信度為身份和情緒分類器將獲取的語音數(shù)據(jù)中的語音特征向量與在先已訓(xùn)練好的已知用戶的語音向量模型進(jìn)行匹配的匹配度,當(dāng)匹配度大于設(shè)定的閾值時(shí),判定出用戶的身份,例如,若匹配的結(jié)果為85%(置信度)以上的檢測結(jié)果為用戶A,則認(rèn)為“此用戶為用戶A”;
本實(shí)施例中,基于語音的情緒識(shí)別的置信度為身份和情緒分類器將獲取的語音數(shù)據(jù)中的語音特征向量與在先已訓(xùn)練好的用戶在不同情緒類型下的語音向量模型進(jìn)行匹配的匹配度,當(dāng)匹配度大于設(shè)定的閾值時(shí),判定出用戶的情緒,例如,若匹配的結(jié)果為80%(置信度)以上的檢測結(jié)果為“愉悅”,則認(rèn)為“此用戶為愉悅”。
進(jìn)一步的,本發(fā)明實(shí)施例中,為了根據(jù)不同數(shù)據(jù)類型得到的識(shí)別結(jié)果進(jìn)行用戶的身份和情緒判定,要預(yù)先按照數(shù)據(jù)類型,進(jìn)行身份置信度閾值和情緒置信度閾值的設(shè)定。具體的,設(shè)定與圖像數(shù)據(jù)類型相對(duì)應(yīng)的第一身份置信度閾值和第一情緒置信度閾值、以及設(shè)定與語音數(shù)據(jù)類型相對(duì)應(yīng)的第一身份置信度閾值和第一情緒置信度閾值。其中,不同數(shù)據(jù)類型下的置信度閾值可以相同,也可以不同,具體值可根據(jù)需求靈活設(shè)定。
對(duì)此,本發(fā)明實(shí)施例中,身份和情緒識(shí)別模塊120在得到兩種數(shù)據(jù)類型下的兩個(gè)初始的身份識(shí)別結(jié)果時(shí),可以根據(jù)兩個(gè)識(shí)別結(jié)果進(jìn)行身份的綜合判定,具體判定方式包括:
提取出每個(gè)身份識(shí)別結(jié)果中識(shí)別出的用戶及識(shí)別出該用戶的置信度信息;
檢測是否兩個(gè)身份識(shí)別結(jié)果中識(shí)別出的用戶相同且置信度分別大于等于設(shè)定的對(duì)應(yīng)數(shù)據(jù)類型的第一身份置信度閾值,并在是的情況下,以共同識(shí)別出的用戶作為最終的用戶身份識(shí)別結(jié)果;
進(jìn)一步地,考慮到有些情況下,基于某種數(shù)據(jù)類型的識(shí)別置信度很高,具有很高的可信性,此時(shí),可以直接利用置信度很高的數(shù)據(jù)類型對(duì)應(yīng)的識(shí)別結(jié)果作為最終的識(shí)別結(jié)果,具體實(shí)現(xiàn)時(shí),檢測兩個(gè)身份識(shí)別結(jié)果中是否有一個(gè)身份識(shí)別結(jié)果中識(shí)別出的用戶的置信度大于等于設(shè)定的對(duì)應(yīng)數(shù)據(jù)類型的第二身份置信度閾值時(shí),以用戶的置信度大于等于第二置信度身份閾值對(duì)應(yīng)的用戶,作為最終的用戶身份識(shí)別結(jié)果。其中,同一數(shù)據(jù)類型下的第一身份置信度閾值小于第二身份置信度閾值。
進(jìn)一步地,本發(fā)明實(shí)施例中,身份和情緒識(shí)別模塊120在得到兩種數(shù)據(jù)類型下的兩個(gè)初始的情緒識(shí)別結(jié)果時(shí),可以根據(jù)兩個(gè)識(shí)別結(jié)果進(jìn)行情緒的綜合判定,具體判定方式包括:
提取出每個(gè)情緒識(shí)別結(jié)果中識(shí)別出的情緒類型及識(shí)別出該情緒類型的置信度信息;
檢測是否兩個(gè)情緒識(shí)別結(jié)果中識(shí)別出的情緒類型相同且置信度分別大于等于設(shè)定的對(duì)應(yīng)數(shù)據(jù)類型的第一情緒置信度閾值,并在是的情況下,以共同識(shí)別出的情緒類型作為最終的情緒識(shí)別結(jié)果。
進(jìn)一步地,考慮到有些情況下,基于某種數(shù)據(jù)類型的識(shí)別置信度很高,具有很高的可信性,此時(shí),可以直接利用置信度很高的數(shù)據(jù)類型對(duì)應(yīng)的識(shí)別結(jié)果作為最終的識(shí)別結(jié)果,具體實(shí)現(xiàn)時(shí),檢測兩個(gè)情緒識(shí)別結(jié)果中是否有一個(gè)情緒識(shí)別結(jié)果中識(shí)別出的情緒類型的置信度大于設(shè)定的對(duì)應(yīng)數(shù)據(jù)類型的第二情緒閾值時(shí),以情緒類型的置信度大于第二情緒閾值的情緒類型,作為最終的情緒識(shí)別結(jié)果。其中,同一數(shù)據(jù)類型下的第一情緒置信度閾值小于第二情緒置信度閾值。
進(jìn)一步地,本發(fā)明實(shí)施例中,身份和情緒識(shí)別模塊120還用于在確定用戶情緒識(shí)別結(jié)果中情緒類型的置信度,根據(jù)預(yù)設(shè)的情緒類型的置信度與情緒類型級(jí)別的對(duì)應(yīng)關(guān)系,得到識(shí)別出的用戶的情緒級(jí)別,并將其輸出到所述大數(shù)據(jù)引擎模塊130;大數(shù)據(jù)引擎模塊130根據(jù)所述數(shù)據(jù)采集模塊實(shí)時(shí)采集的數(shù)據(jù)、所述身份和情緒識(shí)別模塊實(shí)時(shí)識(shí)別的所述用戶身份和情緒識(shí)別結(jié)果、以及識(shí)別出的情緒級(jí)別,得到用戶、智能語音交互設(shè)備及環(huán)境的狀態(tài)信息。
進(jìn)一步地,本發(fā)明實(shí)施例中,大數(shù)據(jù)引擎模塊130在進(jìn)行用戶的行為和/或狀態(tài)預(yù)判時(shí),要利用用戶行為習(xí)慣模型,這里的用戶行為習(xí)慣模型可以由其他設(shè)備提供,也可以由本發(fā)明實(shí)施例所述裝置自己構(gòu)建生成。當(dāng)由本發(fā)明所述裝置構(gòu)建生成時(shí),所述裝置還包括用戶模型模塊140,用于根據(jù)所述數(shù)據(jù)采集模塊110的歷史采集數(shù)據(jù)、所述用戶身份和情緒識(shí)別結(jié)果以及智能語音交互設(shè)備的歷史語音交互數(shù)據(jù),按用戶構(gòu)建用戶行為習(xí)慣模型。所述用戶模型模塊140可以集成在大數(shù)據(jù)引擎模塊130中,也可以獨(dú)立于大數(shù)據(jù)引擎模塊進(jìn)行單獨(dú)部署。其中,按用戶構(gòu)建用戶行為習(xí)慣模型,是指以用戶為單位構(gòu)建各用戶的用戶行為習(xí)慣模型。
在一個(gè)具體實(shí)施例中,用戶模型模塊140,包括:數(shù)據(jù)解析單元和學(xué)習(xí)訓(xùn)練單元,其中:
數(shù)據(jù)解析單元,用于在歷史采集數(shù)據(jù)、所述用戶身份和情緒識(shí)別結(jié)果以及歷史語音交互數(shù)據(jù)中,解析出用戶的偏好數(shù)據(jù);
學(xué)習(xí)訓(xùn)練單元,用于將所述用戶偏好數(shù)據(jù)添加到為該用戶預(yù)先建立的用戶本體模型中,進(jìn)行用戶行為習(xí)慣的學(xué)習(xí)和訓(xùn)練,形成用戶行為習(xí)慣模型。
為了更好的說明用戶行為習(xí)慣模型的建立過程,下面結(jié)合附圖2對(duì)模型建立過程進(jìn)行說明。
本發(fā)明實(shí)施例提供了一種用戶行為習(xí)慣模型構(gòu)建方法,用戶行為習(xí)慣模型的構(gòu)建過程如圖2所示,包括:
首先,用戶模型模塊同步獲取數(shù)據(jù)采集模塊110的歷史采集數(shù)據(jù)、身份和情緒識(shí)別模塊的身份和情緒識(shí)別結(jié)果、以及智能語音交互設(shè)備的語音交互引擎的歷史語音交互數(shù)據(jù)。
其中,數(shù)據(jù)采集模塊110的歷史采集數(shù)據(jù)包括了環(huán)境數(shù)據(jù)和智能語音交互設(shè)備的工作數(shù)據(jù)。智能語音交互設(shè)備的工作數(shù)據(jù)包括但不僅限于:設(shè)備信息、設(shè)備被調(diào)用的時(shí)間段、設(shè)備被調(diào)用時(shí)設(shè)備的狀態(tài)、設(shè)備工作后用戶環(huán)境的物理環(huán)境數(shù)據(jù)、被調(diào)用的服務(wù)的數(shù)據(jù),以及設(shè)備的運(yùn)動(dòng)路徑以及所在位置數(shù)據(jù)等。其中,被調(diào)用的服務(wù)的數(shù)據(jù)包括但不僅限于為服務(wù)被調(diào)用的時(shí)長、時(shí)間段、種類、頻次等。本實(shí)施例中,采集的環(huán)境數(shù)據(jù)包括但不限于:用戶所處環(huán)境中的溫度、濕度、光線強(qiáng)度等,其中環(huán)境有家具中的環(huán)境、汽車中的環(huán)境等。
所述身份和情緒識(shí)別模塊的身份和情緒識(shí)別結(jié)果包括但不僅限于:識(shí)別出的用戶、該用戶的情緒種類、情緒發(fā)生時(shí)的時(shí)間點(diǎn)以及持續(xù)時(shí)間、以及情緒發(fā)生所對(duì)應(yīng)的情緒置信度等。
所述語音交互引擎的歷史語音交互數(shù)據(jù)包括但不僅限于:一定時(shí)間段的語音交戶數(shù)量(頻次)、語音交互的時(shí)長、語音交互的類型、同類型語音交互的頻次、語音交互觸發(fā)以及結(jié)束的時(shí)間點(diǎn)。
其次,用戶模型模塊根據(jù)獲取的各數(shù)據(jù),解析出用戶的偏好數(shù)據(jù);具體的,根據(jù)歷史工作數(shù)據(jù)解析出的用戶偏好數(shù)據(jù)為用戶設(shè)備控制以及服務(wù)調(diào)用的偏好數(shù)據(jù);根據(jù)所述身份和情緒識(shí)別結(jié)果解析出的用戶偏好數(shù)據(jù)為用戶情緒偏好數(shù)據(jù);根據(jù)語音交互引擎的歷史語音交互數(shù)據(jù)解析出的用戶偏好數(shù)據(jù)為語音交互偏好數(shù)據(jù)。
例如,根據(jù)獲取的數(shù)據(jù),得到一定時(shí)間段內(nèi),如6個(gè)月內(nèi),用戶都在什么地點(diǎn)什么時(shí)間點(diǎn)做使用了設(shè)備的什么功能與服務(wù),功能使用的時(shí)長,頻次,從而根據(jù)功能使用時(shí)長,頻次,時(shí)間點(diǎn),歸整出用戶喜歡使用什么功能與服務(wù),使用的頻率、時(shí)長以及時(shí)間點(diǎn),以及歸整出用戶不喜歡使用什么樣的功能與服務(wù);
根據(jù)獲取的用戶各個(gè)情緒狀態(tài)的出現(xiàn)的時(shí)間點(diǎn)、時(shí)長、置信度、出現(xiàn)的情緒種類以及在各種情緒狀態(tài)下對(duì)應(yīng)實(shí)時(shí)的天氣、空氣質(zhì)量、設(shè)備狀態(tài)的數(shù)據(jù),歸整出用戶情緒常態(tài)是什么,什么極端情緒出現(xiàn)最多,什么樣的天氣是什么心情,什么樣的溫度是什么心情,一般什么時(shí)間點(diǎn)容易有什么心情,一周中星期幾容易有什么心情。
根據(jù)獲取的目的地的行程與搜索的記錄以及一年內(nèi)的語音交互記錄,歸整出用戶一個(gè)月內(nèi)、一周內(nèi)以及三個(gè)月內(nèi)的用戶搜索頻次排序目的地與始發(fā)地以及路徑排序,并根據(jù)語音交互數(shù)據(jù)歸整出用戶語音交互的頻次、類型、服務(wù)需求、時(shí)間點(diǎn)、時(shí)間長度等。
第三,用戶模型模塊將所述用戶偏好數(shù)據(jù)添加到預(yù)先建立的用戶本體模型中,形成用戶行為習(xí)慣模型。用戶本體模型為標(biāo)準(zhǔn)化的數(shù)據(jù)模型框架,在實(shí)例化之前,用戶本體模型不具有實(shí)際意義。用戶行為習(xí)慣模型用于記錄用戶對(duì)其所述用戶環(huán)境中服務(wù)與設(shè)備的使用偏好、語音交互的偏好、情緒狀態(tài)的偏好。用戶行為習(xí)慣模型記錄的數(shù)據(jù)都是針對(duì)同一個(gè)用戶的。
進(jìn)一步地,本發(fā)明實(shí)施例中,大數(shù)據(jù)推薦引擎模塊130通過將用戶、智能語音交互設(shè)備及環(huán)境的狀態(tài)信息輸入到與識(shí)別出的用戶身份匹配的用戶行為習(xí)慣模型中,可以對(duì)用戶的狀態(tài)和/或行為進(jìn)行預(yù)判,并確定與所述預(yù)判結(jié)果相匹配的服務(wù),并向智能語音交互設(shè)備的語音交互引擎發(fā)出控制指令,以控制語音交互引擎向用戶發(fā)出是否需要所述服務(wù)的詢問,并在確定出用戶需要時(shí),向用戶提供所述服務(wù)。此處的語音交互可不需要用戶主動(dòng)觸發(fā),而是由大數(shù)據(jù)引擎模塊根據(jù)當(dāng)前的用戶狀態(tài)、環(huán)境狀態(tài)以及設(shè)備狀態(tài)的信息主動(dòng)觸發(fā),由語音交互引擎執(zhí)行。
在本發(fā)明的一個(gè)具體實(shí)施例中,向用戶提供的與預(yù)判結(jié)果相匹配的服務(wù),包括:內(nèi)容服務(wù)和/或設(shè)備狀態(tài)控制服務(wù);所述設(shè)備狀態(tài)控制服務(wù)包括:控制所述智能語音交互設(shè)備和/或與所述智能語音交互設(shè)備連接的設(shè)備到目標(biāo)狀態(tài)。
具體的,如圖3所示,大數(shù)據(jù)引擎模塊130調(diào)用內(nèi)容服務(wù)接口傳輸控制指令,以實(shí)現(xiàn)對(duì)所述內(nèi)容服務(wù)的控制與調(diào)用;和/或,調(diào)用設(shè)備控制接口傳輸控制指令,以實(shí)現(xiàn)將所述智能語音交互設(shè)備和/或與所述智能語音交互設(shè)備連接的設(shè)備控制到目標(biāo)狀態(tài)。即,設(shè)備控制接口用以傳輸上述大數(shù)據(jù)引擎的指令,實(shí)現(xiàn)對(duì)智能語音交互設(shè)備的主動(dòng)控制,以及對(duì)與智能語音交互設(shè)備相連接的設(shè)備的控制。內(nèi)容服務(wù)接口用以傳輸上述大數(shù)據(jù)引擎的指令,實(shí)現(xiàn)對(duì)內(nèi)容服務(wù)的控制與調(diào)用,實(shí)現(xiàn)智能語音交互設(shè)備的內(nèi)容服務(wù)的主動(dòng)提供。
其中,設(shè)備的控制功能包括但不僅限于音量加減、屏幕亮度加減、音樂控制、燈光控制;調(diào)用的內(nèi)容服務(wù)包括但不僅限于:音樂、天氣查詢、網(wǎng)絡(luò)電臺(tái)、故事、新聞、空氣質(zhì)量查詢、餐飲服務(wù)、快遞服務(wù)、導(dǎo)航、視頻節(jié)目、支付服務(wù)社交服務(wù)等。
下面通過幾個(gè)具體應(yīng)用案例對(duì)主動(dòng)提供服務(wù)的過程進(jìn)行說明。
案例一:
用戶偏好數(shù)據(jù)為每天下午18:00-20:30(服務(wù)調(diào)用時(shí)段),喜歡語音指令(語音指令觸發(fā)時(shí)間點(diǎn)與種類)播放廣播(服務(wù)種類),則用戶模型模塊檢測到用戶的偏好數(shù)據(jù)后,記錄下,形成用戶行為習(xí)慣模型。當(dāng)用戶下次在下午18:00-20:30進(jìn)入車內(nèi)時(shí),設(shè)備則會(huì)主動(dòng)播報(bào)語音:“先生,需要為您打開動(dòng)感101廣播嗎?”
案列二:
若智能語音交互設(shè)備為汽車,且用戶每周五上午都會(huì)導(dǎo)航去地點(diǎn)A,則用戶模型模塊檢測到用戶的偏好數(shù)據(jù)后,記錄下,形成用戶行為習(xí)慣模型。在周五上午用戶進(jìn)入汽車后,設(shè)備會(huì)主動(dòng)語音播報(bào):“黃先生,今天是去地點(diǎn)A嗎,需不需要為您導(dǎo)航啊?”進(jìn)入汽車后目的地的主動(dòng)詢問,隨機(jī)觸發(fā),并不是每次都會(huì)有設(shè)備的主動(dòng)詢問。
案例三:
用戶經(jīng)常使用智能語音交互設(shè)備搜索附近的美食,且搜索頻率最高的是四川菜館,判斷出用戶的偏好數(shù)據(jù)是喜歡吃四川菜,用戶模型模塊根據(jù)偏好數(shù)據(jù)構(gòu)建用戶行為習(xí)慣模型,當(dāng)用戶再次搜索附件的餐館時(shí),則主動(dòng)推薦四川菜。若根據(jù)用戶模型模塊構(gòu)建的用戶行為習(xí)慣模型判斷出用戶喜歡吃四川菜也可能對(duì)山東菜感興趣,為做到更人性化,則推薦山東菜系,比如用戶搜索四川菜時(shí),設(shè)備主動(dòng)播報(bào):“黃先生,您已經(jīng)吃了好多次四川菜了,要不嘗試一下山東菜怎么樣”。
案例四:
用戶與智能語音交互設(shè)備的語音對(duì)話可以進(jìn)行一輪或是多輪。具體的,在進(jìn)行每輪對(duì)話中,可以通過對(duì)用戶回答進(jìn)行語音識(shí)別得到文本數(shù)據(jù),再對(duì)文本數(shù)據(jù)進(jìn)行語義識(shí)別且結(jié)合上下文語義,匹配相應(yīng)的語義模板(如擴(kuò)展問)進(jìn)而得到用戶的語義意圖(如對(duì)應(yīng)標(biāo)準(zhǔn)問),再結(jié)合用戶行為習(xí)慣模型,通過大數(shù)據(jù)引擎分析得到的對(duì)應(yīng)的內(nèi)容服務(wù)接口傳輸控制指令,以實(shí)現(xiàn)對(duì)所述內(nèi)容服務(wù)的控制與調(diào)用。其中,標(biāo)準(zhǔn)問為用來表示某個(gè)語義意圖的文字,主要目標(biāo)是表達(dá)清晰,便于維護(hù)。如“彩鈴的資費(fèi)”就是表達(dá)清晰的標(biāo)準(zhǔn)問描述。擴(kuò)展問,用來表示某個(gè)語義意圖的語義表達(dá)式和自然語句集合,語義表達(dá)式主要由詞、詞類以及他們的“或”關(guān)系構(gòu)成,其核心依賴于“詞類”,詞類簡單的理解,即為一組有共性的詞,這些詞在語義上可以相似也可以不相似,這些詞也可以被標(biāo)注為重要或不重要。語義表達(dá)式與用戶問句關(guān)系與傳統(tǒng)的模板匹配有了很大的不同,在傳統(tǒng)模板匹配中,模板和用戶問句只是匹配與未匹配的關(guān)系,而語義表達(dá)式與用戶問句之間關(guān)系是通過量化的值(相似度)來表示,同時(shí)這個(gè)量化的值與相似問句和用戶問句之間的相似度是可以互相比較的。
例如:
若智能語音交互設(shè)備為汽車。比如用戶已經(jīng)一個(gè)月沒有刷過車了,并且最近一直沒有降雨,則汽車會(huì)主動(dòng)詢問用戶:“黃先生,您今天是不是該刷車了?”
用戶:“好的啊,那哪里有洗車的地方”
汽車:“附件10公里有8家洗車店”(屏幕顯示)
用戶:“那你推薦一家吧”
汽車:“您是要什么價(jià)位的呢”
用戶:“50元以內(nèi)都可以的,最好離我公司近點(diǎn)”
汽車“在您公司附件找到一家價(jià)格35元的洗車店,需要為您導(dǎo)航嗎?”
用戶:“好的,導(dǎo)航”
汽車:“導(dǎo)航已開始,目的地……”。
案例五:
大數(shù)據(jù)引擎模塊判斷今天會(huì)下雨,當(dāng)用戶出門的時(shí)候,智能語音交互設(shè)備采集到用戶的狀態(tài)為出門狀態(tài),并根據(jù)采集的環(huán)境信息,為用戶推送相應(yīng)的提醒服務(wù),例如,會(huì)自動(dòng)語音播報(bào):“今天會(huì)下雨哦,您最好帶上傘,以免被淋成落湯雞”。
綜上可知,本發(fā)明實(shí)施例所述裝置,通過歷史大數(shù)據(jù),構(gòu)建用戶行為習(xí)慣模型,并可根據(jù)用戶行為習(xí)慣模型預(yù)判用戶的需求,進(jìn)而可以按需且主動(dòng)地為用戶提供內(nèi)容服務(wù)和/或設(shè)備控制服務(wù),使得設(shè)備與人的交互過程更為智能與人性化,極大的提升了用戶的使用體驗(yàn)。
在本發(fā)明的第二實(shí)施例中提供一種主動(dòng)交互實(shí)現(xiàn)方法,應(yīng)用于智能語音交互設(shè)備,如圖4所示,所述方法包括:
步驟S401,采集用于用戶身份和情緒識(shí)別的數(shù)據(jù)、環(huán)境數(shù)據(jù)和智能語音交互設(shè)備的工作數(shù)據(jù);
步驟S402,根據(jù)采集的用于用戶身份和情緒識(shí)別的數(shù)據(jù),對(duì)用戶身份和情緒進(jìn)行識(shí)別,得到用戶身份和情緒識(shí)別結(jié)果;
步驟S403,根據(jù)實(shí)時(shí)采集的各數(shù)據(jù)以及實(shí)時(shí)識(shí)別的所述用戶身份和情緒識(shí)別結(jié)果,得到用戶、智能語音交互設(shè)備及環(huán)境的狀態(tài)信息,并將其輸入到預(yù)先建立的與識(shí)別出的用戶身份匹配的用戶行為習(xí)慣模型中,以對(duì)用戶的狀態(tài)和/或行為進(jìn)行預(yù)判,并根據(jù)預(yù)判結(jié)果,主動(dòng)向用戶提供與預(yù)判結(jié)果相匹配的服務(wù)。
基于上述原理闡述,下面給出幾個(gè)具體及優(yōu)選實(shí)施方式,用以細(xì)化和優(yōu)化本發(fā)明所述方法的功能,以使本發(fā)明方案的實(shí)施更方便,準(zhǔn)確。需要說明的是,在不沖突的情況下,如下特征可以互相任意組合。
進(jìn)一步地,本發(fā)明實(shí)施例中,所述用于用戶身份和情緒識(shí)別的數(shù)據(jù),包括:用戶的圖像數(shù)據(jù)和/或語音數(shù)據(jù);在該實(shí)施例下,根據(jù)采集的用于用戶身份和情緒識(shí)別的數(shù)據(jù),對(duì)用戶身份和情緒進(jìn)行識(shí)別,得到用戶身份和情緒識(shí)別結(jié)果,包括:
當(dāng)采集到圖像數(shù)據(jù)或者語音數(shù)據(jù)時(shí),根據(jù)采集的所述圖像數(shù)據(jù)或者語音數(shù)據(jù),對(duì)用戶的身份進(jìn)行識(shí)別;當(dāng)采集到圖像數(shù)據(jù)和語音數(shù)據(jù)時(shí),分別根據(jù)所述圖像數(shù)據(jù)和語音數(shù)據(jù),對(duì)用戶的身份進(jìn)行識(shí)別,得到兩種數(shù)據(jù)類型下的兩個(gè)初始的身份識(shí)別結(jié)果,并基于得到的兩個(gè)初始的身份識(shí)別結(jié)果,按照設(shè)定的身份判定策略,進(jìn)行身份判定,得到最終的用戶身份識(shí)別結(jié)果;
以及當(dāng)采集到圖像數(shù)據(jù)或者語音數(shù)據(jù)時(shí),根據(jù)采集的所述圖像數(shù)據(jù)或者語音數(shù)據(jù),對(duì)用戶的情緒進(jìn)行識(shí)別;當(dāng)采集到圖像數(shù)據(jù)和語音數(shù)據(jù)時(shí),分別根據(jù)所述圖像數(shù)據(jù)和語音數(shù)據(jù),對(duì)用戶的情緒進(jìn)行識(shí)別,得到兩種數(shù)據(jù)類型下的兩個(gè)初始的情緒識(shí)別結(jié)果,并基于得到的兩個(gè)初始的情緒識(shí)別結(jié)果,按照設(shè)定的情緒判定策略,進(jìn)行情緒判定,得到最終的用戶情緒識(shí)別結(jié)果。
在本發(fā)明的一個(gè)具體實(shí)施例中,根據(jù)用戶的圖像數(shù)據(jù)對(duì)用戶的身份和情緒進(jìn)行識(shí)別,具體包括:在先需要進(jìn)行人臉的離線訓(xùn)練,所述離線訓(xùn)練使用人臉的數(shù)據(jù)庫訓(xùn)練人臉的檢測器、同時(shí)在人臉上標(biāo)定標(biāo)記點(diǎn),根據(jù)所述人臉標(biāo)記點(diǎn)訓(xùn)練標(biāo)記點(diǎn)擬合器,并且,通過人臉標(biāo)記點(diǎn)和情緒、身份的關(guān)系訓(xùn)練情緒身份分類器;當(dāng)進(jìn)行人臉的在線運(yùn)行時(shí)(即需要根據(jù)圖像數(shù)據(jù)進(jìn)行情緒和身份識(shí)別時(shí)),通過人臉檢測器在圖像數(shù)據(jù)中檢測人臉,然后通過標(biāo)記點(diǎn)擬合器擬合人臉上的標(biāo)記點(diǎn),情緒身份分類器根據(jù)人臉標(biāo)記點(diǎn)判斷當(dāng)前用戶的身份和情緒,最后給出對(duì)應(yīng)的分類置信度??蛇x地,本發(fā)明實(shí)施例中,還對(duì)所述圖像數(shù)據(jù)進(jìn)行用戶的動(dòng)作識(shí)別,并在根據(jù)人臉標(biāo)記點(diǎn)進(jìn)行情緒識(shí)別時(shí),可以結(jié)合動(dòng)作識(shí)別結(jié)果,進(jìn)行綜合識(shí)別判斷,得到基于圖像數(shù)據(jù)的最終情緒識(shí)別結(jié)果。
在本發(fā)明的一個(gè)具體實(shí)施例中,根據(jù)用戶的聲音數(shù)據(jù)對(duì)用戶的身份和情緒進(jìn)行識(shí)別,具體包括:在先需要進(jìn)行人聲的離線訓(xùn)練,所述人聲的離線訓(xùn)練,使用語音數(shù)據(jù)庫訓(xùn)練人聲檢測器,同時(shí)訓(xùn)練語音特征向量提取模型用于從人聲中提取特征向量的聲音,采用已標(biāo)定好的語音特征向量與身份、情緒的訓(xùn)練集訓(xùn)練身份和情緒分類器。當(dāng)進(jìn)行人聲的在線運(yùn)行時(shí)(即需要根據(jù)語音數(shù)據(jù)進(jìn)行情緒和身份識(shí)別時(shí)),通過人聲檢測器在輸入的聲音流中檢測人聲數(shù)據(jù),并從人聲數(shù)據(jù)中提取語音特征向量,最后使用情緒和身份分類器從語音特征向量分辨當(dāng)前用戶的身份和情緒,并給出識(shí)別的置信度??蛇x地,本發(fā)明實(shí)施例中,還對(duì)所述語音數(shù)據(jù)中的語義進(jìn)行識(shí)別。當(dāng)根據(jù)語音特征向量進(jìn)行情緒識(shí)別時(shí),可以結(jié)合語義識(shí)別結(jié)果,進(jìn)行綜合識(shí)別判斷,得到基于語音數(shù)據(jù)的最終識(shí)別結(jié)果。
進(jìn)一步的,本發(fā)明實(shí)施例中,為了根據(jù)不同數(shù)據(jù)類型得到的識(shí)別結(jié)果進(jìn)行用戶的身份和情緒判定,要預(yù)先按照數(shù)據(jù)類型,進(jìn)行身份置信度閾值和情緒置信度閾值的設(shè)定。具體的,設(shè)定與圖像數(shù)據(jù)類型相對(duì)應(yīng)的第一身份置信度閾值和第一情緒置信度閾值、以及設(shè)定與語音數(shù)據(jù)類型相對(duì)應(yīng)的第一身份置信度閾值和第一情緒置信度閾值。其中,不同數(shù)據(jù)類型下的置信度閾值可以相同,也可以不同,具體值可根據(jù)需求靈活設(shè)定。
對(duì)此,本發(fā)明實(shí)施例中,在得到兩種數(shù)據(jù)類型下的兩個(gè)初始的身份識(shí)別結(jié)果時(shí),可以根據(jù)兩個(gè)識(shí)別結(jié)果進(jìn)行身份的綜合判定,具體判定方式包括:
提取出每個(gè)身份識(shí)別結(jié)果中識(shí)別出的用戶及識(shí)別出該用戶的置信度信息,當(dāng)兩個(gè)身份識(shí)別結(jié)果中識(shí)別出的用戶相同且置信度分別大于等于設(shè)定的對(duì)應(yīng)數(shù)據(jù)類型的第一身份置信度閾值時(shí),以共同識(shí)別出的用戶作為最終的用戶身份識(shí)別結(jié)果;
進(jìn)一步地,考慮到有些情況下,基于某種數(shù)據(jù)類型的識(shí)別置信度很高,具有很高的可信性,此時(shí),可以直接利用置信度很高的數(shù)據(jù)類型對(duì)應(yīng)的識(shí)別結(jié)果作為最終的識(shí)別結(jié)果,具體實(shí)現(xiàn)時(shí),檢測兩個(gè)身份識(shí)別結(jié)果中是否有一個(gè)身份識(shí)別結(jié)果中識(shí)別出的用戶的置信度大于等于設(shè)定的對(duì)應(yīng)數(shù)據(jù)類型的第二身份置信度閾值,以用戶的置信度大于等于第二置信度身份閾值對(duì)應(yīng)的用戶,作為最終的用戶身份識(shí)別結(jié)果,其中,同一數(shù)據(jù)類型下的第一身份置信度閾值小于第二身份置信度閾值。
進(jìn)一步地,本發(fā)明實(shí)施例中,基于得到的兩個(gè)初始的情緒識(shí)別結(jié)果,按照設(shè)定的情緒判定策略,進(jìn)行情緒判定,得到最終的用戶情緒識(shí)別結(jié)果,包括:
提取出每個(gè)情緒識(shí)別結(jié)果中識(shí)別出的情緒類型及識(shí)別出該情緒類型的置信度信息,檢測是否兩個(gè)情緒識(shí)別結(jié)果中識(shí)別出的情緒類型相同且置信度分別大于等于設(shè)定的對(duì)應(yīng)數(shù)據(jù)類型的第一情緒置信度閾值,并在是的情況下,以共同識(shí)別出的情緒類型作為最終的情緒識(shí)別結(jié)果。
進(jìn)一步地,考慮到有些情況下,基于某種數(shù)據(jù)類型的識(shí)別置信度很高,具有很高的可信性,此時(shí),可以直接利用置信度很高的數(shù)據(jù)類型對(duì)應(yīng)的識(shí)別結(jié)果作為最終的識(shí)別結(jié)果,具體實(shí)現(xiàn)時(shí),檢測兩個(gè)情緒識(shí)別結(jié)果中是否有一個(gè)情緒識(shí)別結(jié)果中識(shí)別出的情緒類型的置信度大于設(shè)定的對(duì)應(yīng)數(shù)據(jù)類型的第二情緒閾值時(shí),以情緒類型的置信度大于第二情緒閾值的情緒類型,作為最終的情緒識(shí)別結(jié)果;其中,同一數(shù)據(jù)類型下的第一情緒置信度閾值小于第二情緒置信度閾值。
可選地,本發(fā)明實(shí)施例中,在得到最終的情緒識(shí)別結(jié)果后,還包括:確定用戶情緒識(shí)別結(jié)果中情緒類型的置信度,根據(jù)預(yù)設(shè)的情緒類型的置信度與情緒類型級(jí)別的對(duì)應(yīng)關(guān)系,得到識(shí)別出的用戶的情緒級(jí)別。此時(shí),最終識(shí)別出的所述情緒識(shí)別結(jié)果包括:情緒類型及情緒級(jí)別。
進(jìn)一步地,本發(fā)明實(shí)施例中,根據(jù)預(yù)判結(jié)果,主動(dòng)向用戶提供與預(yù)判結(jié)果相匹配的服務(wù),具體包括:確定與所述預(yù)判結(jié)果相匹配的服務(wù),向用戶發(fā)出是否需要所述服務(wù)的詢問,并在確定出用戶需要時(shí),向用戶提供所述服務(wù)。
進(jìn)一步地,本發(fā)明實(shí)施例中,向用戶提供的與預(yù)判結(jié)果相匹配的服務(wù),包括:內(nèi)容服務(wù)和/或設(shè)備狀態(tài)控制服務(wù);所述設(shè)備狀態(tài)控制服務(wù)包括:控制所述智能語音交互設(shè)備和/或與所述智能語音交互設(shè)備連接的設(shè)備到目標(biāo)狀態(tài)。具體的,調(diào)用內(nèi)容服務(wù)接口傳輸控制指令,以實(shí)現(xiàn)對(duì)所述內(nèi)容服務(wù)的控制與調(diào)用;和/或,調(diào)用設(shè)備控制接口傳輸控制指令,以實(shí)現(xiàn)將所述智能語音交互設(shè)備和/或與所述智能語音交互設(shè)備連接的設(shè)備控制到目標(biāo)狀態(tài)。
進(jìn)一步地,本發(fā)明實(shí)施例所述方法還包括:根據(jù)歷史采集數(shù)據(jù)、用戶身份和情緒識(shí)別結(jié)果以及所述智能語音交互設(shè)備的歷史語音交互數(shù)據(jù),按用戶構(gòu)建用戶行為習(xí)慣模型。在一個(gè)具體實(shí)施例中,模型構(gòu)建過程具體包括:在所述歷史采集數(shù)據(jù)、所述用戶身份和情緒識(shí)別結(jié)果以及歷史語音交互數(shù)據(jù)中,解析出用戶的偏好數(shù)據(jù);將所述用戶偏好數(shù)據(jù)添加到為該用戶預(yù)先建立的用戶本體模型中,進(jìn)行用戶行為習(xí)慣的學(xué)習(xí)和訓(xùn)練,形成用戶行為習(xí)慣模型。本發(fā)明實(shí)施例中,模型的具體構(gòu)建過程,可參見圖2部分的描述。
綜上可知,本發(fā)明實(shí)施例所述方法,通過歷史大數(shù)據(jù),構(gòu)建用戶行為習(xí)慣模型,并可根據(jù)用戶行為習(xí)慣模型預(yù)判用戶的需求,進(jìn)而可以按需且主動(dòng)地為用戶提供內(nèi)容服務(wù)和/或設(shè)備控制服務(wù),使得設(shè)備與人的交互過程更為智能與人性化,極大的提升了用戶的使用體驗(yàn)。
在本發(fā)明的第三實(shí)施例中提供一種智能語音交互設(shè)備,該智能語音交互設(shè)備包括第一實(shí)施例所述的主動(dòng)交互實(shí)現(xiàn)裝置。由于在第一實(shí)施例中已經(jīng)對(duì)主動(dòng)交互實(shí)現(xiàn)裝置的結(jié)構(gòu)、功能進(jìn)行了詳細(xì)闡述,在此不再贅述。
由于本實(shí)施例所述智能語音交互設(shè)備包括第一實(shí)施例所述的裝置,所以也能達(dá)到第一實(shí)施例所述裝置所能得到的技術(shù)效果,所以關(guān)于本實(shí)施例所述設(shè)備能夠達(dá)到的技術(shù)效果在此也不再贅述。
本說明書中的各個(gè)實(shí)施例均采用遞進(jìn)的方式描述,各個(gè)實(shí)施例之間相同相似的部分互相參見即可,每個(gè)實(shí)施例重點(diǎn)說明的都是其與其他實(shí)施例的不同之處。尤其對(duì)于方法實(shí)施例而言,由于其基本相似與裝置實(shí)施例,所以,描述的比較簡單,相關(guān)之處參見裝置實(shí)施例的部分說明即可。
本領(lǐng)域普通技術(shù)人員可以理解上述實(shí)施例的各種方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,該程序可以存儲(chǔ)于一計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)中,存儲(chǔ)介質(zhì)可以包括:ROM、RAM、磁盤或光盤等。
總之,以上所述僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。