本發(fā)明涉及音視頻識(shí)別和分析的技術(shù)領(lǐng)域,尤其涉及一種視頻會(huì)議質(zhì)量的處理方法,以及視頻會(huì)議質(zhì)量的處理系統(tǒng)。
背景技術(shù):
現(xiàn)在會(huì)議太多又效率不高,這是一個(gè)普遍存在的問題,如何評(píng)判并提高會(huì)議效率和會(huì)議質(zhì)量是一個(gè)難題。目前還沒有一款自動(dòng)化的智能的工具對(duì)一個(gè)會(huì)議的質(zhì)量做出測(cè)量和評(píng)判,目前市面上有很多品牌的視頻會(huì)議系統(tǒng),但是這些系統(tǒng)都僅僅只是完成“召開視頻會(huì)議”的功能,可以對(duì)會(huì)議過程提供完善的音視頻和會(huì)議資料服務(wù),但是無一例外的都沒有對(duì)會(huì)議質(zhì)量的測(cè)量和評(píng)判系統(tǒng)。
不過,從管理者的角度出發(fā),非??释幸豢钪悄芑摹⒆詣?dòng)化的工具,對(duì)正在進(jìn)行的會(huì)議和召開過的會(huì)議的質(zhì)量進(jìn)行測(cè)評(píng),并提出會(huì)議存在的問題和給出會(huì)議改進(jìn)建議。
技術(shù)實(shí)現(xiàn)要素:
為克服現(xiàn)有技術(shù)的缺陷,本發(fā)明要解決的技術(shù)問題是提供了一種視頻會(huì)議質(zhì)量的評(píng)判方法,其能夠挖掘出通過常規(guī)技術(shù)手段所不能獲取的會(huì)議質(zhì)量和會(huì)議效率信息,利用這些信息可以使得管理者有效地改進(jìn)會(huì)議,提高會(huì)議質(zhì)量。
本發(fā)明的技術(shù)方案是:這種視頻會(huì)議質(zhì)量的分析方法,該方法包括以下步驟:
(1)建立人臉數(shù)據(jù)庫、一般性神態(tài)數(shù)據(jù)庫和會(huì)議場(chǎng)景定義數(shù)據(jù)庫;
(2)采集視頻會(huì)議的視頻信號(hào)和音頻信號(hào);
(3)圖像智能識(shí)別:從視頻信號(hào)中對(duì)與會(huì)者進(jìn)行人臉識(shí)別,通過表情姿態(tài)分析,得出該與會(huì)者的神情數(shù)據(jù),并將數(shù)據(jù)存入數(shù)據(jù)庫;對(duì)音頻信號(hào)進(jìn)行分析,分離出人物發(fā)言和會(huì)場(chǎng)情景聲音,將人物發(fā)言當(dāng)作加權(quán)系數(shù)去修正該與會(huì)者的神情數(shù)據(jù);在會(huì)議場(chǎng)景定義數(shù)據(jù)庫支撐下對(duì)會(huì)議場(chǎng)景音頻進(jìn)行分析,得出會(huì)議氛圍數(shù)據(jù),并將該數(shù)據(jù)保存于數(shù)據(jù)庫;
(4)會(huì)議質(zhì)量評(píng)判:根據(jù)會(huì)議和與會(huì)者的得分,進(jìn)行智能計(jì)算,得出會(huì)議和與會(huì)者的最終評(píng)分,并給出會(huì)議評(píng)價(jià)和改進(jìn)報(bào)告。
本發(fā)明通過圖像智能識(shí)別對(duì)視頻信號(hào)進(jìn)行智能識(shí)別,識(shí)別出會(huì)議活躍、每個(gè)參會(huì)者的專注度與參與度,與知識(shí)庫進(jìn)行比對(duì),形成會(huì)議質(zhì)量得分,并進(jìn)行知識(shí)庫的自學(xué)習(xí)和知識(shí)累積;通過會(huì)議質(zhì)量評(píng)判,根據(jù)會(huì)議和與會(huì)者的得分并與時(shí)間和其他因素進(jìn)行智能計(jì)算,得出會(huì)議和與會(huì)者的最終評(píng)分,并給出會(huì)議評(píng)價(jià)和改進(jìn)報(bào)告;因此,能夠挖掘出通過常規(guī)技術(shù)手段所不能獲取的會(huì)議質(zhì)量和會(huì)議效率信息,利用這些信息可以使得管理者有效地改進(jìn)會(huì)議,提高會(huì)議質(zhì)量。
還提供了一種視頻會(huì)議質(zhì)量的處理系統(tǒng),該系統(tǒng)包括:
構(gòu)建模塊,其配置來建立人臉數(shù)據(jù)庫、一般性神態(tài)數(shù)據(jù)庫和會(huì)議場(chǎng)景定義數(shù)據(jù)庫;
采集模塊,其配置來采集視頻會(huì)議的視頻信號(hào)和音頻信號(hào);
圖像智能識(shí)別模塊,其配置來從視頻信號(hào)中對(duì)與會(huì)者進(jìn)行人臉識(shí)別、表情姿態(tài)分析,得出該與會(huì)者的神情數(shù)據(jù),并將數(shù)據(jù)存入數(shù)據(jù)庫;對(duì)音頻信號(hào)進(jìn)行分析,并分離出人物發(fā)言和會(huì)場(chǎng)情景聲音,將人物發(fā)言當(dāng)作加權(quán)系數(shù)去修正該與會(huì)者的神情數(shù)據(jù),在會(huì)議場(chǎng)景定義數(shù)據(jù)庫支撐下對(duì)會(huì)議場(chǎng)景音頻進(jìn)行分析,得出會(huì)議氛圍數(shù)據(jù),并將該數(shù)據(jù)保存于數(shù)據(jù)庫;
會(huì)議質(zhì)量評(píng)判模塊,其配置來根據(jù)會(huì)議和與會(huì)者的得分,進(jìn)行智能計(jì)算,得出會(huì)議和與會(huì)者的最終評(píng)分,并給出會(huì)議評(píng)價(jià)和改進(jìn)報(bào)告。
附圖說明
圖1所示為根據(jù)本發(fā)明的視頻會(huì)議質(zhì)量的處理方法的示意圖。
圖2所示為根據(jù)本發(fā)明的人臉識(shí)別的流程圖。
圖3所示為根據(jù)本發(fā)明的表情姿態(tài)分析的流程圖。
圖4所示為根據(jù)本發(fā)明的音頻信號(hào)的處理的流程圖。
圖5所示為根據(jù)本發(fā)明的特定人物神態(tài)知識(shí)庫的一個(gè)學(xué)習(xí)模型。
具體實(shí)施方式
如圖1所示,這種視頻會(huì)議質(zhì)量的處理方法,該方法包括以下步驟:
(1)建立人臉數(shù)據(jù)庫、一般性神態(tài)數(shù)據(jù)庫和會(huì)議場(chǎng)景定義數(shù)據(jù)庫;
(2)采集視頻會(huì)議的視頻信號(hào)和音頻信號(hào);
(3)圖像智能識(shí)別:從視頻信號(hào)中對(duì)與會(huì)者進(jìn)行人臉識(shí)別、表情姿態(tài)分析,得出該與會(huì)者的神情數(shù)據(jù),并將數(shù)據(jù)存入數(shù)據(jù)庫;對(duì)音頻信號(hào)進(jìn)行分析,并分離出人物發(fā)言和會(huì)場(chǎng)情景聲音,將人物發(fā)言當(dāng)作加權(quán)系數(shù)去修正該與會(huì)者的神情數(shù)據(jù),在會(huì)議場(chǎng)景定義數(shù)據(jù)庫支撐下對(duì)會(huì)議場(chǎng)景音頻進(jìn)行分析,得出會(huì)議氛圍數(shù)據(jù),并將該數(shù)據(jù)保存于數(shù)據(jù)庫;
(4)會(huì)議質(zhì)量評(píng)判:根據(jù)會(huì)議和與會(huì)者的得分,進(jìn)行智能計(jì)算,得出會(huì)議和與會(huì)者的最終評(píng)分,并給出會(huì)議評(píng)價(jià)和改進(jìn)報(bào)告。
本發(fā)明通過圖像智能識(shí)別對(duì)視頻信號(hào)進(jìn)行智能識(shí)別,識(shí)別出會(huì)議活躍和專注程度、每個(gè)參會(huì)者的專注度,與知識(shí)庫進(jìn)行比對(duì),形成會(huì)議質(zhì)量得分,并進(jìn)行知識(shí)庫的自學(xué)習(xí)和知識(shí)累積;通過會(huì)議質(zhì)量評(píng)判,根據(jù)會(huì)議和與會(huì)者的得分并與時(shí)間和其他因素進(jìn)行智能計(jì)算,得出會(huì)議和與會(huì)者的最終評(píng)分,并給出會(huì)議評(píng)價(jià)和改進(jìn)報(bào)告;因此,能夠挖掘出會(huì)議質(zhì)量和會(huì)議效率通過常規(guī)技術(shù)手段所不能獲取的信息,利用這些信息可以使得管理者有效地改進(jìn)會(huì)議,提高會(huì)議質(zhì)量。
另外,該方法還包括步驟(5),由會(huì)議管理者對(duì)會(huì)議質(zhì)量報(bào)告進(jìn)行反饋,根據(jù)管理者的反饋信息修正特定人物神態(tài)知識(shí)庫,對(duì)一般性神態(tài)數(shù)據(jù)庫和會(huì)議場(chǎng)景定義數(shù)據(jù)庫進(jìn)行升級(jí)。
該步驟根據(jù)會(huì)議管理者對(duì)會(huì)議視頻采樣點(diǎn)和音頻采樣點(diǎn)給出反饋信息,從而根據(jù)這些反饋信息調(diào)整“特定人物神態(tài)知識(shí)庫”數(shù)據(jù),以及得分計(jì)算公式、各項(xiàng)權(quán)值系數(shù)等參數(shù)。
學(xué)習(xí)的特定人物神態(tài)知識(shí)庫的條目數(shù)細(xì)分越多,其計(jì)算結(jié)果的準(zhǔn)確度越高。例如:如圖5所示,“專注”神態(tài)可以細(xì)分為專注一級(jí)、二級(jí)、三級(jí),并對(duì)每種神態(tài)進(jìn)行表情特征的描述,然后系統(tǒng)對(duì)不同的神態(tài)給予得分。
另外,如圖2所示,所述步驟(3)中,人臉識(shí)別包括以下步驟:
(i)人臉識(shí)別和定位:對(duì)視頻信號(hào)進(jìn)行逐幀分析,判斷是否有人臉存在,如果有則將人臉區(qū)域數(shù)據(jù)裁剪出來,對(duì)于相鄰幀的數(shù)據(jù)做對(duì)比,獲得人臉相似度最好的一幀當(dāng)作所選擇的人臉圖片;
(ii)人臉規(guī)格化:將大小尺寸不同的圖片規(guī)格化為統(tǒng)一的大小,并且將圖片做灰度化處理;
(iii)人臉特征提?。簩⑷四槇D片進(jìn)行特征化處理,得到人臉數(shù)據(jù)的特征空間向量;
(iv)比較和識(shí)別:將人臉特征數(shù)據(jù)與步驟(1)的人臉數(shù)據(jù)庫進(jìn)行比對(duì),識(shí)別出具體的人物。
另外,依據(jù)目前的技術(shù),對(duì)人臉識(shí)別的準(zhǔn)確度較高,算法比較容易識(shí)別人臉與非人臉,以及識(shí)別到具體的某個(gè)人物,特別是給定的人物數(shù)據(jù)庫是確定的時(shí),識(shí)別精度是比較高的。
但是表情姿態(tài)的識(shí)別與分析算法精度較差,主要原因是不同的人的面部特征本身就有差異,這樣一來,不同人物的相同表情更難于區(qū)分。例如:一般判定人物憤怒的關(guān)鍵特征之一是眉毛外側(cè)向上翹起,但有的人是上翹眉,有的人是下耷眉,算法閾值難于設(shè)置一個(gè)合適的值——對(duì)任何人都適合的合適值。
由于本方法的特點(diǎn)是對(duì)有限的人物進(jìn)行表情姿態(tài)識(shí)別,因此本方法采用“一般性神態(tài)數(shù)據(jù)庫”和“特定人物表情知識(shí)庫”相結(jié)合的方法,在一般性神態(tài)數(shù)據(jù)庫中記錄人物表情姿態(tài)的通用數(shù)據(jù),這些數(shù)據(jù)用于判斷通用人物的一般性表情,然后在特定人物表情知識(shí)庫中進(jìn)行精確匹配,得出的表情姿態(tài)數(shù)據(jù)具有如下兩個(gè)特點(diǎn):
●精度高
●識(shí)別種類豐富
通過兩級(jí)數(shù)據(jù)分析可達(dá)到數(shù)據(jù)分析的快速性和準(zhǔn)確性。一般性神態(tài)數(shù)據(jù)庫包含七種基本人物表情:中性、高興、悲傷、驚奇、恐懼、憤怒、厭惡。在特定人物表情知識(shí)庫中,由用戶建設(shè)屬于具體某個(gè)人的若干“表情”,并對(duì)這些“表情”進(jìn)行特征數(shù)據(jù)的表示。
如圖3所示,所述步驟(3)中,表情姿態(tài)分析包括:分析與會(huì)者的表情姿態(tài),與一般性神態(tài)數(shù)據(jù)庫進(jìn)行對(duì)比來做出表情神態(tài)分類識(shí)別,在特定人物表情知識(shí)庫中進(jìn)行精確匹配,得出表情姿態(tài)數(shù)據(jù),并將數(shù)據(jù)歸類和存儲(chǔ)。
另外,如圖4所示,所述步驟(3)中,音頻信號(hào)的處理包括以下步驟:
(a)對(duì)語音類別進(jìn)行識(shí)別,如果是單人發(fā)言則執(zhí)行步驟(b),如果是非單人發(fā)言則執(zhí)行步驟(e);
(b)進(jìn)行語音聲紋分析與人物匹配;
(c)進(jìn)行語言語氣語調(diào)分析;
(d)計(jì)算發(fā)言人參會(huì)質(zhì)量,跳轉(zhuǎn)到步驟(h);
(e)對(duì)背景音進(jìn)行分類;
(f)按照背景音分類進(jìn)行會(huì)議場(chǎng)景識(shí)別;
(g)計(jì)算會(huì)議氛圍得分;
(h)結(jié)束。
常規(guī)的語音識(shí)別技術(shù)方向是大詞匯量連續(xù)語音識(shí)別系統(tǒng),主要應(yīng)用于計(jì)算機(jī)的聽寫、與電話網(wǎng)或者互聯(lián)網(wǎng)相結(jié)合的語音信息查詢服務(wù)系統(tǒng),本發(fā)明的語音識(shí)別的目的不是為了實(shí)現(xiàn)語音的詞匯和語句識(shí)別,而主要是為了識(shí)別語音的語氣與氣氛,從而達(dá)到判斷會(huì)議和與會(huì)者的質(zhì)量信息。
本發(fā)明是將視頻會(huì)議的音頻數(shù)據(jù)流進(jìn)行分析,提取和識(shí)別出人的說話聲、掌聲和笑聲等背景音、其他背景音,并識(shí)別出單人發(fā)言和眾人討論等不同的會(huì)議模式,對(duì)于單人發(fā)言時(shí),還要識(shí)別出發(fā)言人的身份等信息。
識(shí)別出上述信息后,再對(duì)數(shù)據(jù)進(jìn)行分析,得出會(huì)議氛圍數(shù)據(jù)以及與會(huì)者情緒數(shù)據(jù),并計(jì)入會(huì)議質(zhì)量數(shù)據(jù)庫,為一下步的會(huì)議質(zhì)量評(píng)分與分析做數(shù)據(jù)準(zhǔn)備。
另外,所述步驟(4)中,根據(jù)公式(1)計(jì)算與會(huì)者進(jìn)行質(zhì)量打分
其中:n為某與會(huì)者視頻采樣點(diǎn)總數(shù),m為某與會(huì)者音頻采樣點(diǎn)總數(shù),WA為視頻得分權(quán)值,WV為音頻得分權(quán)值,ScoreAi為某個(gè)視頻采樣點(diǎn)得分,ScoreVi為某個(gè)音頻采樣點(diǎn)得分。
本領(lǐng)域普通技術(shù)人員可以理解,實(shí)現(xiàn)上述實(shí)施例方法中的全部或部分步驟是可以通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲(chǔ)于一計(jì)算機(jī)可讀取存儲(chǔ)介質(zhì)中,該程序在執(zhí)行時(shí),包括上述實(shí)施例方法的各步驟,而所述的存儲(chǔ)介質(zhì)可以是:ROM/RAM、磁碟、光盤、存儲(chǔ)卡等。因此,與本發(fā)明的方法相對(duì)應(yīng)的,本發(fā)明還同時(shí)包括一種視頻會(huì)議質(zhì)量的處理系統(tǒng),該系統(tǒng)通常以與方法各步驟相對(duì)應(yīng)的功能模塊的形式表示。使用該方法的系統(tǒng)包括:
構(gòu)建模塊,其配置來建立人臉數(shù)據(jù)庫、一般性神態(tài)數(shù)據(jù)庫和會(huì)議場(chǎng)景定義數(shù)據(jù)庫;
采集模塊,其配置來采集視頻會(huì)議的視頻信號(hào)和音頻信號(hào);
圖像智能識(shí)別模塊,其配置來從視頻信號(hào)中對(duì)與會(huì)者進(jìn)行人臉識(shí)別、表情姿態(tài)分析,得出該與會(huì)者的神情數(shù)據(jù),并將數(shù)據(jù)存入數(shù)據(jù)庫;對(duì)音頻信號(hào)進(jìn)行分析,并分離出人物發(fā)言和會(huì)場(chǎng)情景聲音,將人物發(fā)言當(dāng)作加權(quán)系數(shù)去修正該與會(huì)者的神情數(shù)據(jù),在會(huì)議場(chǎng)景定義數(shù)據(jù)庫支撐下對(duì)會(huì)議場(chǎng)景音頻進(jìn)行分析,得出會(huì)議氛圍數(shù)據(jù),并將該數(shù)據(jù)保存于數(shù)據(jù)庫;
會(huì)議質(zhì)量評(píng)判模塊,其配置來根據(jù)會(huì)議和與會(huì)者的得分,進(jìn)行智能計(jì)算,得出會(huì)議和與會(huì)者的最終評(píng)分,并給出會(huì)議評(píng)價(jià)和改進(jìn)報(bào)告。
另外,該系統(tǒng)還包括自我學(xué)習(xí)模塊,其配置來由會(huì)議管理者對(duì)會(huì)議質(zhì)量報(bào)告進(jìn)行反饋,根據(jù)管理者的反饋信息修正特定人物神態(tài)知識(shí)庫,對(duì)一般性神態(tài)數(shù)據(jù)庫和會(huì)議場(chǎng)景定義數(shù)據(jù)庫進(jìn)行升級(jí)。
本發(fā)明的有益效果如下:
本發(fā)明為用戶提供了一個(gè)對(duì)視頻會(huì)議質(zhì)量進(jìn)行測(cè)量和評(píng)價(jià)的工具,能為給視頻會(huì)議做出較為準(zhǔn)確和客觀的測(cè)量和評(píng)價(jià),以便于用戶的管理者進(jìn)行質(zhì)量改進(jìn),為用戶帶來價(jià)值。
另外,本發(fā)明是利用現(xiàn)有視頻會(huì)議系統(tǒng)采集的音視頻數(shù)據(jù),對(duì)數(shù)據(jù)進(jìn)行深度挖掘和分析,找出對(duì)管理改進(jìn)有用的數(shù)據(jù),對(duì)數(shù)據(jù)的深度挖掘是當(dāng)今信息系統(tǒng)的熱點(diǎn)話題,也是知識(shí)型經(jīng)濟(jì)發(fā)展的重要方向。
本系統(tǒng)從硬件設(shè)備上幾乎不會(huì)增加成本,對(duì)于原有的舊視頻會(huì)議系統(tǒng)也可以很方便的加以改造,便可成功實(shí)施這一會(huì)議質(zhì)量管理系統(tǒng),因此從投入產(chǎn)出和保護(hù)用戶既有投資角度看,對(duì)用戶也是非常合適的。
以上所述,僅是本發(fā)明的較佳實(shí)施例,并非對(duì)本發(fā)明作任何形式上的限制,凡是依據(jù)本發(fā)明的技術(shù)實(shí)質(zhì)對(duì)以上實(shí)施例所作的任何簡(jiǎn)單修改、等同變化與修飾,均仍屬本發(fā)明技術(shù)方案的保護(hù)范圍。