本發(fā)明屬于系統(tǒng)設(shè)計領(lǐng)域,尤其涉及一種基于人群狀態(tài)檢測的智能播放系統(tǒng)及實現(xiàn)方法。
背景技術(shù):
人臉識別技術(shù)是基于人的臉部特征,對輸入的人臉圖像或者視頻流,首先判斷其是否存在人臉,如果存在人臉,則進一步的給出每個臉的位置、大小和臉上各個主要面部器官的位置信息,并依據(jù)這些信息,進一步提取每個人臉中所蘊涵的身份特征,并將其與已知的人臉進行對比,從而識別每個人臉的身份。
語音識別技術(shù),也被稱為自動語音識別automaticspeechrecognition,(asr)。其目標(biāo)是將人類的語音中的詞匯內(nèi)容轉(zhuǎn)換為計算機可讀的輸入,例如按鍵、二進制編碼或者字符序列。這種技術(shù)與說話人識別及說話人確認(rèn)不同,后者嘗試識別或確認(rèn)發(fā)出語音的說話人而非其中所包含的詞匯內(nèi)容。
目前基于人臉識別技術(shù)的應(yīng)用非常廣泛,例如基于人臉識別技術(shù)的自動登錄系統(tǒng)、智能跑步機和高識別率自動考勤系統(tǒng)等。尤其是基于人臉識別技術(shù)的高識別率自動考勤系統(tǒng),大大節(jié)約了考勤人員的時間,是很不錯的應(yīng)用。基于語音識別技術(shù)的應(yīng)用也比較多,比如一些用戶交機、手機等已經(jīng)包含了語音識別撥號功能,還有語音記事本、語音智能玩具等產(chǎn)品也包含語音識別與語音合成功能。人們可以通過電話網(wǎng)絡(luò)用語音識別口語對話系統(tǒng)查詢有關(guān)的機票、旅游、銀行信息等,并且取得很好的成效。
這兩種技術(shù)的應(yīng)用給生活帶來很大的方便,不過某些應(yīng)用存在一些局限性,像自動考勤裝置,該裝置只能用于統(tǒng)計人員到場情況,然而到場的人員不一定會專心觀看會場中所播放的資料,因此需要尋求一種在觀眾分心的情況下能給予觀眾個性化提示的方法,即可以提高觀眾專注度的方法。這里的觀眾專注度指的是會場中專注觀看屏幕的人數(shù)占總?cè)藬?shù)的比率。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的是提供一種基于人群狀態(tài)檢測的,能夠?qū)崟r根據(jù)人群的狀態(tài)作出反饋的、在大多數(shù)觀眾分心的情況下能給予觀眾個性化提示的智能播放系統(tǒng)及實現(xiàn)方法。
為了實現(xiàn)上述目的,本發(fā)明采用如下技術(shù)方案:一種基于人群狀態(tài)檢測的智能播放系統(tǒng),該系統(tǒng)包括攝像模塊、錄音模塊、人臉識別模塊、語音識別模塊、智能播放模塊、顯示模塊和通信模塊。
攝像模塊與人臉識別模塊連接,錄音模塊與語音識別模塊連接,人臉識別模塊、語音識別模塊分別與智能播放模塊連接,智能播放模塊分別連接有顯示模塊和通信模塊。
所述的攝像模塊的作用是拍攝圖片,為用戶的登錄和人群狀態(tài)的檢測提供圖像數(shù)據(jù)。所述的錄音模塊的作用是錄制聲音,為識別用戶的語音命令和人群狀態(tài)的檢測提供語音數(shù)據(jù)。所述的人臉識別模塊的作用是識別用戶的人臉和檢測人群中正專注觀看屏幕的人臉。所述的語音識別模塊的作用是識別用戶的語音命令和檢測環(huán)境的聲音情況。所述的顯示模塊的作用是實時顯示檢測到的人群狀態(tài)的動態(tài)變化。所述的通信模塊的作用是將系統(tǒng)記錄下的各種結(jié)果發(fā)送給服務(wù)器。所述的智能播放模塊包括判斷模塊、調(diào)節(jié)模塊和提示模塊。智能播放模塊的作用是播放各種文件,并在播放過程中根據(jù)系統(tǒng)檢測到的人群的狀態(tài)來控制系統(tǒng)的音量大小、音色和屏幕亮度,根據(jù)需要使播放停頓,并發(fā)出適當(dāng)?shù)恼Z音提示,以此個性化地提醒觀眾,維持現(xiàn)場的秩序,達到提高觀眾專注度的目的。
利用上述系統(tǒng)進行的一種基于人群狀態(tài)檢測的智能播放實現(xiàn)方法,該實現(xiàn)方法包括以下具體步驟:
s1用戶登錄:啟動系統(tǒng),用戶對準(zhǔn)攝像機拍一張照片,系統(tǒng)自動檢索信息庫并比對照片中的人臉是否已存在,如果存在則登錄系統(tǒng),否則需要注冊新用戶后再登錄。
s2數(shù)據(jù)初始化:用戶登錄后,可以在自己的賬戶下自由添加文件和保存文件,以后再次打開就直接調(diào)用。
s3執(zhí)行用戶的命令:系統(tǒng)根據(jù)用戶的語音識別相應(yīng)的命令,并執(zhí)行該命令。
s4播放文件:按用戶的命令播放各種文件。
s5檢測人群的狀態(tài):系統(tǒng)根據(jù)攝像機拍攝的人群的圖像數(shù)據(jù)和識別到的環(huán)境聲音來檢測當(dāng)前人群的狀態(tài)。
s6系統(tǒng)反饋和調(diào)節(jié):系統(tǒng)根據(jù)實時檢測到的觀眾專注度的強弱調(diào)節(jié)系統(tǒng)的音量大小、音色和屏幕亮度;根據(jù)檢測到的環(huán)境聲音情況來控制播放的停頓,并在必要的時候發(fā)出適當(dāng)語音提示。
s7顯示結(jié)果:在顯示屏上實時顯示當(dāng)前人群狀態(tài)的動態(tài)變化。
s8發(fā)送數(shù)據(jù):播放結(jié)束后系統(tǒng)會把記錄到的各種結(jié)果發(fā)送到服務(wù)器。
s9退出系統(tǒng),按用戶的需求退出系統(tǒng),結(jié)束進程。
與現(xiàn)有技術(shù)相比,本發(fā)明可以獲得以下有益效果:該系統(tǒng)是一款可以實現(xiàn)人群狀態(tài)檢測的智能播放系統(tǒng),該系統(tǒng)在播放文件的時候?qū)崟r檢測人群的狀態(tài),并根據(jù)檢測到的觀眾專注度的強弱調(diào)節(jié)系統(tǒng)的音量大小、音色和屏幕亮度,根據(jù)檢測到的環(huán)境聲音情況來控制播放的停頓,并在必要的時候發(fā)出適當(dāng)語音提示,以此個性化地提示分心的觀眾,激發(fā)觀眾的興趣,從而達到提高觀眾專注度的目的。
附圖說明
圖1為基于人群狀態(tài)檢測的智能播放系統(tǒng)及實現(xiàn)方法的步驟示意圖。
圖2為七個模塊之間的關(guān)系圖。
圖3為智能播放模塊所包含的三個模塊的關(guān)系圖。
圖4是系統(tǒng)內(nèi)部的語音命令的樹狀圖。
具體實施方式
以下將結(jié)合附圖對本發(fā)明作進一步說明。
如圖1為基于人群狀態(tài)檢測的智能播放系統(tǒng)及實現(xiàn)方法步驟示意圖。
步驟1:啟動系統(tǒng)。
步驟2:用戶登錄。需要說明的是用戶對準(zhǔn)攝像機拍攝一張圖片,系統(tǒng)會自動檢索信息庫,比對檢測到的人臉是否已經(jīng)存在,如果是則登錄系統(tǒng),進入步驟3;否則手動注冊新用戶,然后再登錄,進入步驟3。還需要說明的是系統(tǒng)登錄的賬戶是唯一的,只有本人通過人臉識別才能登錄,而且系統(tǒng)只允許一個用戶使用,因此保密性比較高。
步驟3:執(zhí)行用戶的命令并播放文件。需要說明的是系統(tǒng)會識別用戶的語音命令并執(zhí)行該命令,播放相應(yīng)的文件。
步驟4:檢測人群的狀態(tài)。需要說明的是系統(tǒng)檢測的人群狀態(tài)由兩部分構(gòu)成:
第一部分:需要說明的是系統(tǒng)會通過攝像模塊獲取視頻流,定時獲取一幀圖像數(shù)據(jù),通過人工神經(jīng)網(wǎng)絡(luò)檢測圖像中正專心觀看屏幕的人臉,標(biāo)記這些人臉并記錄當(dāng)前檢測到的人臉個數(shù)。
第二部分:需要說明的是系統(tǒng)會通過錄音模塊錄制環(huán)境的聲音,自動檢索信息庫,將環(huán)境的聲音與人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練好的聲音模板比對,識別并記錄當(dāng)前聲音的類別,聲音類別可分為掌聲、笑聲和噪聲。
步驟5:實時顯示人群狀態(tài)的動態(tài)變化。需要說明的是系統(tǒng)在播放過程中會實時顯示當(dāng)前的系統(tǒng)時間;會實時顯示當(dāng)前專注人數(shù)的動態(tài)變化曲線,此曲線是以時間為橫坐標(biāo),以當(dāng)前時刻的專注人數(shù)為縱坐標(biāo)的n-t曲線圖;會實時顯示當(dāng)前環(huán)境的聲音類別分布圖。
步驟6:實時判別。需要說明的是系統(tǒng)實時判別由兩部分構(gòu)成:
第一部分:需要說明的是系統(tǒng)會根據(jù)人群狀態(tài)判斷專注人數(shù)是否連續(xù)n次低于設(shè)定的人數(shù)閾值,是則進入步驟7,否則進入步驟10,其中n是可調(diào)的。
還需要說明的是為了避免因偶然因素影響大家的注意力而導(dǎo)致專注人數(shù)低于設(shè)定的人數(shù)閾值的情況,比如因為窗外有人經(jīng)過或者因某人去上廁所而引起的專注人數(shù)低于設(shè)定的人數(shù)閾值時,系統(tǒng)會認(rèn)為這是正常情況,不必提醒觀眾,只有系統(tǒng)發(fā)現(xiàn)專注人數(shù)連續(xù)n次低于設(shè)定的人數(shù)閾值時,才會進入步驟7,其中n是可調(diào)的。
第二部分:需要說明的是系統(tǒng)會根據(jù)人群狀態(tài)判斷環(huán)境聲音是笑聲、掌聲還是噪聲,如果環(huán)境聲音是笑聲則系統(tǒng)不作任何操作,如果環(huán)境聲音是掌聲則進入步驟8,如果環(huán)境聲音是噪聲則進入步驟9,否則進入步驟10。
步驟7:系統(tǒng)反饋和調(diào)節(jié)。需要說明的是系統(tǒng)會自動調(diào)節(jié)音量的大小、音色和屏幕的亮度。
還需要說明的是系統(tǒng)調(diào)節(jié)包括三種模式:模式一是將系統(tǒng)音量調(diào)高、把音色變低沉并增強屏幕的亮度;模式二是將系統(tǒng)音量調(diào)低、把音色變低沉并增強屏幕的亮度;模式三是將系統(tǒng)聲音屏蔽并增強屏幕的亮度;但無論哪一種模式,系統(tǒng)會在一定時間限制范圍內(nèi)保持,之后又恢復(fù)到系統(tǒng)原來的狀態(tài)。本發(fā)明采用模式一,即把系統(tǒng)音量提高、把音色變低沉并增強屏幕的亮度,一段時間后又自動恢復(fù)到原來的狀態(tài),這樣不僅能夠引起觀眾的注意力,而且能讓觀眾容易接受,更加人性化。
步驟8:停頓播放。需要說明的是智能播放系統(tǒng)在播放演講時,如果判斷出環(huán)境聲音是掌聲,則系統(tǒng)會暫時停頓一下,等待掌聲結(jié)束后再繼續(xù)播放。
步驟9:語音提示。需要說明的是智能播放系統(tǒng)在播放文件時,如果判斷出環(huán)境聲音是噪聲,則系統(tǒng)會自動發(fā)出一段語音,提示觀眾保持安靜。
步驟10:判斷文件是否播放完畢,是則進入步驟11,否則返回步驟4。
步驟11:發(fā)送數(shù)據(jù)。需要說明的是播放完畢后,系統(tǒng)會自動將記錄到的專注人數(shù)動態(tài)變化的數(shù)據(jù)、標(biāo)記好人臉的圖像數(shù)據(jù)和整個過程中環(huán)境的聲音類別變化數(shù)據(jù)發(fā)送到服務(wù)器。
步驟12:判斷是否需要退出系統(tǒng),若是則結(jié)束循環(huán)并退出,否則返回步驟3。
如圖2為七個模塊攝像模塊、錄音模塊、人臉識別模塊、語音識別模塊、智能播放模塊、顯示模塊和通信模塊的關(guān)系圖。
對于攝像模塊,需要說明的是本發(fā)明涉及的系統(tǒng)需要拍攝并保存圖像數(shù)據(jù),還要說明的是系統(tǒng)拍攝有兩類:第一類是在用戶登錄時為用戶拍攝正面照片,第二類是在系統(tǒng)播放文件為現(xiàn)場觀眾錄像。
對于錄音模塊,需要說明的是本發(fā)明涉及的系統(tǒng)會在整個使用過程中錄制并保存用戶的語音和環(huán)境的聲音。
對于人臉識別模塊,需要說明的識別有兩類:第一類是在用戶登錄的時候,系統(tǒng)需要識別人臉特征并自動檢索信息庫,根據(jù)人臉特征查找用戶,這一類需要通過人臉特征識別圖像中的人臉是誰;第二類是在系統(tǒng)播放文件的時候,通過人工神經(jīng)網(wǎng)絡(luò)實時檢測人群中正在專注觀看屏幕的人臉,但是這一類不需要通過人臉特征識別圖像中的人臉是誰,而只需要檢測出人臉即可。
對于語音識別模塊,需要說明的是系統(tǒng)運行過程中需要識別用戶的命令,并在系統(tǒng)播放文件的時候自動檢索信息庫,將環(huán)境聲音與人工神經(jīng)網(wǎng)絡(luò)訓(xùn)練好的聲音模板對比,識別并記錄當(dāng)前聲音是笑聲、掌聲還是噪聲。
對于智能播放模塊,需要說明的是智能播放模塊由三個模塊構(gòu)成。
對于顯示模塊,需要說明的是在系統(tǒng)播放文件時,需要實時顯示當(dāng)前的系統(tǒng)時間;顯示當(dāng)前專注人數(shù)的動態(tài)變化曲線;顯示當(dāng)前環(huán)境的聲音類別分布圖。
對于通信模塊,需要說明的是本發(fā)明采用的通信方式可以是有線網(wǎng)和wi-fi無線網(wǎng)絡(luò)。
如圖3為智能播放模塊的三個模塊判斷模塊、調(diào)節(jié)模塊和提示模塊的關(guān)系圖。
對于判斷模塊,需要說明的是系統(tǒng)有四類判斷:
判斷1:判斷專注人數(shù)是否n次連續(xù)低于設(shè)定的人數(shù)閾值,如果是則進入調(diào)節(jié)模塊,否則進入判斷3,其中n是可調(diào)的。
判斷2:判斷環(huán)境的聲音屬于哪一類,如果環(huán)境聲音是笑聲則系統(tǒng)不作任何操作,如果環(huán)境聲音是噪聲則系統(tǒng)進入語音提示環(huán)節(jié),如果環(huán)境聲音是掌聲則系統(tǒng)進入停頓停播放環(huán)節(jié),否則進入判斷3。
判斷3:判斷播放是否已結(jié)束,如果是則進入通信模塊,否則返回步驟4。
判斷4:判斷是否需要退出系統(tǒng),如果是則退出系統(tǒng),結(jié)束循環(huán),否則返回步驟2。
對于調(diào)節(jié)模塊,需要說明的是如上述步驟7、8、9所述。
如圖4為整個系統(tǒng)的語音命令的樹狀圖。需要說明的是在用戶登錄后會系統(tǒng)顯命令1、2、3、7,用戶用普通話發(fā)出需要執(zhí)行的語音命令,系統(tǒng)識別后立馬執(zhí)行該命令。整個系統(tǒng)包含的14條命令如下:
命令1:切換用戶。需要說明的是系統(tǒng)用戶可自由切換到新用戶xxx,但是系統(tǒng)只容納一個用戶正在使用。還需要說明的是以下所有出現(xiàn)的“xxx”都代表未知的名稱,用戶可以自動命名。
命令2:創(chuàng)建新文件夾xxx。需要說明的是這一步需要用戶自己命名新文件夾,每個文件夾下都會有命令2、3、4、5、6、7。
命令3:進入文件夾xxx。需要說明的是如果已經(jīng)創(chuàng)建好文件夾,可以通過此命令進入該文件夾。
命令4:返回。需要說明的是在不同的步驟中用戶可以返回上一層目錄。
命令5:導(dǎo)入文件。需要說明的是用戶手動導(dǎo)入想要播放的文件,此后再次進入時可以直接調(diào)用。
命令6:播放xxx。需要說明的是命令6彈出的界面包含命令7、8、9、10、11、12、13、14。
命令7:退出系統(tǒng)。需要說明的是用戶任何時候都可以終止當(dāng)前進程并退出系統(tǒng)。
命令8:暫停播放。
命令9:繼續(xù)播放。
命令10:調(diào)高音量。
命令11:調(diào)低音量。
命令12:調(diào)高亮度。
命令13:調(diào)低亮度。
命令14:結(jié)束播放。
還需要說明的是整個系統(tǒng)既可以用語音命令控制,也可以手動操作控制。