本發(fā)明涉及一種數(shù)據(jù)處理技術(shù),具體涉及一種將音視頻數(shù)據(jù)轉(zhuǎn)化成文字記錄的系統(tǒng)和方法。
背景技術(shù):
在召開音視頻會議時,為了記錄會議內(nèi)容,通常使用攝像頭采集視頻數(shù)據(jù)和麥克風(fēng)采集音頻數(shù)據(jù)或者僅使用麥克風(fēng)采集音頻數(shù)據(jù),將音視頻數(shù)據(jù)或音頻數(shù)據(jù)保存成多媒體文件,存儲到存儲設(shè)備中;通過播放多媒體文件,可以觀看或收聽到會議內(nèi)容?;蛘呖梢杂蓪iT的會議記錄員通過計算機等輸入設(shè)備或者手寫方式進(jìn)行筆錄,記錄下會議內(nèi)容。
采用攝像頭、麥克風(fēng)等設(shè)備記錄音視頻數(shù)據(jù)的方式,需要將音視頻文件存儲到存儲設(shè)備中,因此需要占用較大的存儲空間,成本較高,并且后期是通過播放多媒體文件來查看會議內(nèi)容,不能快速瀏覽和定位到具體的話題上,因此需要花費較多的時間,并且可能會出現(xiàn)內(nèi)容的遺漏,導(dǎo)致效率低下。采用筆錄的方式記錄會議內(nèi)容雖然有助于快速瀏覽和定位具體話題,但對記錄員的要求較高,如果記錄速度遠(yuǎn)低于會議中討論的速度,就容易遺漏和出錯,導(dǎo)致內(nèi)容不夠完整和細(xì)致,并且在后續(xù)查看記錄無法還原當(dāng)時的情景。
現(xiàn)有技術(shù)公開了一種漢語外語有聲影像資料雙向可逆語音轉(zhuǎn)換并加注字幕的方法,通過識別有聲影像資料,將其中的語音識別成文本,并將文本翻譯成指定的外文,以字幕的形式疊加在畫面上,與原來的語音一起存儲或同步輸出,從而使有聲影像資料變成帶有指定外文字幕的有聲影像資料。但該方法只是簡單地將語音識別成文本,并將文本翻譯成指定外文后以字幕的形式在畫面上同步顯示,但沒有根據(jù)說話者的不同而將字幕組織成更加貼近真實情況的內(nèi)容。
技術(shù)實現(xiàn)要素:
為了解決上述記錄的會議內(nèi)容不完整和細(xì)致,并且在后續(xù)查看記錄無法還原當(dāng)時的情景的技術(shù)問題,本發(fā)明提供了一種將音視頻數(shù)據(jù)轉(zhuǎn)化成文字記錄的系統(tǒng)和方法,技術(shù)方案如下。
一種將音視頻數(shù)據(jù)轉(zhuǎn)化成文字記錄的系統(tǒng),包括數(shù)據(jù)收集部分、數(shù)據(jù)識別部分以及數(shù)據(jù)組織部分;
所述數(shù)據(jù)收集部分包括音頻采集模塊和視頻采集模塊;
所述音頻采集模塊用于捕獲當(dāng)前說話者的音頻數(shù)據(jù),并記錄其說話的開始時間;
所述視頻采集模塊用于捕獲當(dāng)前說話者的圖像,并記錄其說話的開始時間;
所述數(shù)據(jù)識別部分包括語音和聲紋識別模塊以及人臉和表情識別模塊;
所述語音和聲紋識別模塊對所述音頻采集模塊捕獲的音頻數(shù)據(jù)進(jìn)行處理,將其轉(zhuǎn)化成文本格式的文字信息,并對所述音頻采集模塊捕獲的音頻數(shù)據(jù)進(jìn)行處理,用以識別當(dāng)前說話者,并對每個說話者賦予一個身份標(biāo)簽;
所述人臉和表情識別模塊利用表情識別技術(shù)對所述視頻采集模塊捕獲的圖像進(jìn)行處理,識別當(dāng)前說話者的表情,獲得該說話者的情緒,并對所述視頻采集模塊捕獲的圖像進(jìn)行處理,用以識別當(dāng)前說話者,并對每個說話者賦予一個身份標(biāo)簽;
所述數(shù)據(jù)組織部分根據(jù)所述文字信息、識別的開始時間、當(dāng)前說話者的身份標(biāo)簽以及當(dāng)前說話者的情緒,生成文字記錄。
進(jìn)一步地,所述文字記錄為對話形式的文字記錄。
進(jìn)一步地,所述系統(tǒng)還包括數(shù)據(jù)補充和修正部分,所述數(shù)據(jù)補充和修正部分用于對所述文字記錄進(jìn)行補充和修正。
進(jìn)一步地,所述音頻采集模塊為麥克風(fēng),和/或,所述視頻采集模塊為攝像頭。
進(jìn)一步地,所述系統(tǒng)還包括存儲模塊,所述存儲模塊存儲有記錄包含說話者的身份標(biāo)簽、聲紋特征數(shù)據(jù)和臉部特征數(shù)據(jù)的數(shù)據(jù)表。
一種將音視頻數(shù)據(jù)轉(zhuǎn)化成文字記錄的方法,包括以下步驟:
步驟S21、數(shù)據(jù)收集:捕獲當(dāng)前說話者的音頻數(shù)據(jù)和當(dāng)前說話者的圖像,并記錄其說話的開始時間;
步驟S22、數(shù)據(jù)識別:對捕獲的音頻數(shù)據(jù)進(jìn)行處理,將其轉(zhuǎn)化成文本格式的文字信息;對捕獲的圖像進(jìn)行處理,識別當(dāng)前說話者的表情,獲得該說話者的情緒;對捕獲的音頻數(shù)據(jù)和/或?qū)Σ东@的圖像進(jìn)行處理,用以識別當(dāng)前說話者,并為每個說話者賦予一個身份標(biāo)簽;
步驟23、數(shù)據(jù)組織:所述數(shù)據(jù)組織部分根據(jù)所述文字信息、識別的開始時間、當(dāng)前說話者的身份標(biāo)簽以及當(dāng)前說話者的情緒,生成文字記錄。
進(jìn)一步地,所述文字記錄為對話形式的文字記錄。
進(jìn)一步地,所述方法還包括步驟S24、數(shù)據(jù)補充和修正:對所述文字記錄進(jìn)行補充和修正。
進(jìn)一步地,所述身份標(biāo)簽與說話者的聲紋特征數(shù)據(jù)和/或臉部特征數(shù)據(jù)相關(guān)聯(lián)地存儲在存儲模塊中,在對每個說話者賦予身份標(biāo)簽前,先查找該存儲模塊中是否已經(jīng)存儲有與該說話者匹配的身份標(biāo)簽,如果沒有查找到,則賦予該說話者一個身份標(biāo)簽。
一種將音視頻數(shù)據(jù)轉(zhuǎn)化成文字記錄的方法,包括以下步驟:
步驟S30、準(zhǔn)備工作:啟動麥克風(fēng)和攝像頭,創(chuàng)建說話者列表,創(chuàng)建保存文本的文件地址,其中說話者列表的項目包括說話者的唯一的身份標(biāo)簽、說話者的聲紋特征數(shù)據(jù)和臉部特征數(shù)據(jù);
步驟S31:捕獲數(shù)據(jù):說話者開始發(fā)言時,麥克風(fēng)捕獲當(dāng)前發(fā)言的說話者的語音輸入獲得當(dāng)前發(fā)言的說話者的音頻數(shù)據(jù),記錄當(dāng)前發(fā)言的與會者音頻數(shù)據(jù)的開始時間;同時攝像頭捕獲當(dāng)前發(fā)言的說話者的圖像獲得當(dāng)前發(fā)言的說話者的視頻數(shù)據(jù),記錄當(dāng)前發(fā)言的與會者視頻數(shù)據(jù)的開始時間;
步驟S32:使用聲紋識別技術(shù)分析和處理麥克風(fēng)獲取的當(dāng)前發(fā)言的說話者的音頻數(shù)據(jù),并進(jìn)行聲紋特征識別;使用人臉識別技術(shù)分析和處理攝像頭獲取的當(dāng)前發(fā)言的說話者的視頻數(shù)據(jù),并進(jìn)行臉部特征識別;
步驟S33:判斷是否成功識別到聲紋特征數(shù)據(jù)以及是否成功識別到臉部特征數(shù)據(jù),如果成功識別到聲紋特征數(shù)據(jù)和/或臉部特征數(shù)據(jù),則進(jìn)入步驟S34;如果未成功識別到聲紋特征數(shù)據(jù)和臉部特征數(shù)據(jù),則進(jìn)入步驟S35;
步驟S34:判斷說話者列表中是否已經(jīng)存在與該聲紋特征數(shù)據(jù)和/或該臉部特征數(shù)據(jù)相匹配的說話者,如果存在,則進(jìn)入步驟S35,同時補充完整該說話者的相關(guān)信息;如果不存在,則在說話者列表中加入新條目,保存新說話者的身份標(biāo)簽、聲紋特征數(shù)據(jù)和臉部特征數(shù)據(jù),同時進(jìn)入步驟S35;
步驟S35:使用語音識別技術(shù)分析處理音頻數(shù)據(jù),進(jìn)行音頻數(shù)據(jù)轉(zhuǎn)化成文字的操作;
步驟S36:判斷音頻數(shù)據(jù)是否成功轉(zhuǎn)化成文字,如果是,則進(jìn)入步驟S37;如果否,則返回步驟S35繼續(xù)進(jìn)行轉(zhuǎn)化操作;
步驟S37:使用表情識別技術(shù)分析處理視頻數(shù)據(jù),獲取當(dāng)前發(fā)言的說話者的情緒;
步驟S38:獲取當(dāng)前的日期和時間;
步驟S39:將日期、時間、匹配聲紋和/或臉部特征數(shù)據(jù)的說話者的身份標(biāo)簽、語音識別的文字、表情識別的情緒組織成對話形式的文字記錄,并保存在創(chuàng)建的文件地址中;
步驟S40:返回步驟S31繼續(xù)執(zhí)行,保存不同說話者發(fā)言的內(nèi)容,直到會話過程結(jié)束。
本發(fā)明的有益效果:
本發(fā)明更加細(xì)致完整地保存整個音視頻數(shù)據(jù)過程,更貼近真實的情況;本發(fā)明將音視頻數(shù)據(jù)轉(zhuǎn)換為文本格式進(jìn)行保存,大大降低了存儲和傳輸?shù)某杀?,也便于后續(xù)查看記錄,可以更加快速地瀏覽和定位會議內(nèi)容。
本發(fā)明利用聲紋識別技術(shù)、人臉識別技術(shù),識別出不同的與會者;并將語音識別技術(shù)和表情識別技術(shù)得到的文本內(nèi)容進(jìn)行整理和組織,形成對話形式的文字記錄。
本發(fā)明提供方便用戶進(jìn)行補充修正記錄的接口,以保證文字記錄的正確性,提高可讀性。
附圖說明
圖1是本發(fā)明提出的將音視頻數(shù)據(jù)轉(zhuǎn)化成文字記錄的系統(tǒng)的結(jié)構(gòu)框圖;
圖2是本發(fā)明提出的將音視頻數(shù)據(jù)轉(zhuǎn)化成文字記錄的系統(tǒng)的結(jié)構(gòu)示意圖;
圖3本發(fā)明提出的將音視頻數(shù)據(jù)轉(zhuǎn)化成文字記錄的方法的第一種流程圖;
圖4本發(fā)明提出的將音視頻數(shù)據(jù)轉(zhuǎn)化成文字記錄的方法的第二種流程圖。
具體實施方式
為使本發(fā)明的目的、技術(shù)方案和優(yōu)點更加清楚明白,以下結(jié)合具體實施例,并參照附圖,對本發(fā)明進(jìn)一步詳細(xì)說明。實施例中以視頻會議錄像為例進(jìn)行說明,但本領(lǐng)域技術(shù)人員知曉,該方法可用在所有視頻影像中,并不局限于附圖和以下實施例。
本發(fā)明需要利用語音識別技術(shù)、聲紋識別技術(shù)、人臉識別技術(shù)、表情識別技術(shù)等公知技術(shù),用于獲取必要的數(shù)據(jù)?,F(xiàn)有的各個識別技術(shù)已經(jīng)相對完善,可以實現(xiàn)“與文本無關(guān)的聲紋識別”、“臉部跟蹤”、“臉部動作識別”、“表情變化識別”等,本發(fā)明不再對這些技術(shù)做詳細(xì)的描述和說明。本發(fā)明提出的將音視頻數(shù)據(jù)轉(zhuǎn)化成文字記錄的系統(tǒng)和方法根據(jù)這些數(shù)據(jù)能夠?qū)⒁粢曨l數(shù)據(jù)組織成完整又形象的對話形式的文字記錄。
實施例1:
如圖1和圖2所示,本發(fā)明提出的將音視頻數(shù)據(jù)轉(zhuǎn)化成文字記錄的系統(tǒng)包括數(shù)據(jù)收集部分、數(shù)據(jù)識別部分、數(shù)據(jù)組織部分以及數(shù)據(jù)補充和修正部分。
數(shù)據(jù)收集部分包括麥克風(fēng)、攝像頭等數(shù)據(jù)采集裝置。
麥克風(fēng)用于捕獲當(dāng)前發(fā)言的與會者的音頻數(shù)據(jù),與會者開始發(fā)言時,麥克風(fēng)采集當(dāng)前發(fā)言的與會者的音頻數(shù)據(jù),根據(jù)采集到的音頻數(shù)據(jù)的強度大小判斷當(dāng)前發(fā)言的與會者正在發(fā)言還是停頓,如果停頓超過一定時間(例如3s)則認(rèn)為該與會者發(fā)言結(jié)束,記錄當(dāng)前發(fā)言的與會者音頻數(shù)據(jù)的開始時間和結(jié)束時間,將當(dāng)前發(fā)言的與會者的音頻數(shù)據(jù)連同開始時間(也可以加上結(jié)束時間)以及麥克風(fēng)的設(shè)備標(biāo)識符一起傳送給數(shù)據(jù)識別部分。其中傳送麥克風(fēng)的設(shè)備標(biāo)識符的作用是為了在多方會議時用以區(qū)分不同的會議方。
攝像頭用于捕獲當(dāng)前發(fā)言的與會者的圖像,與會者開始發(fā)言時,攝像頭采集當(dāng)前發(fā)言的與會者的圖像,根據(jù)采集到的圖像判斷當(dāng)前發(fā)言的與會者正在發(fā)言還是停頓,如果停頓超過一定時間(例如3s)則認(rèn)為該與會者發(fā)言結(jié)束,記錄當(dāng)前發(fā)言的與會者發(fā)言的起始時間和結(jié)束時間,將采集的圖像連同開始時間(也可以加上結(jié)束時間)以及攝像頭的設(shè)備標(biāo)識符一起傳送給數(shù)據(jù)識別部分。其中傳送攝像頭的設(shè)備標(biāo)識符的作用是為了在多方會議時用以區(qū)分不同的會議方。
其中,為了保證麥克風(fēng)和攝像頭記錄的時間一致,麥克風(fēng)和攝像頭采用相同的標(biāo)準(zhǔn)時間。
數(shù)據(jù)識別部分包括語音和聲紋識別模塊以及人臉和表情識別模塊。
語音和聲紋識別模塊接收麥克風(fēng)捕獲的音頻數(shù)據(jù)、開始時間(也可以加上結(jié)束時間)以及麥克風(fēng)的設(shè)備標(biāo)識符;利用語音識別技術(shù)對捕獲的音頻數(shù)據(jù)進(jìn)行處理,將音頻格式的音頻數(shù)據(jù)轉(zhuǎn)化成文本格式的文字信息,并利用聲紋識別技術(shù)對捕獲的音頻數(shù)據(jù)進(jìn)行處理,用以識別當(dāng)前發(fā)言的與會者。
人臉和表情識別模塊接收攝像頭捕獲的圖像、開始時間(也可以加上結(jié)束時間)以及攝像頭的設(shè)備標(biāo)識符,利用表情識別技術(shù)對捕獲的圖像進(jìn)行處理,識別當(dāng)前發(fā)言的與會者的表情,獲得該與會者當(dāng)時的情緒,并利用人臉識別技術(shù)對捕獲的圖像進(jìn)行處理,用以識別當(dāng)前發(fā)言的與會者。
利用聲紋識別技術(shù)可以識別當(dāng)前發(fā)言的與會者的聲紋特征數(shù)據(jù),利用人臉識別技術(shù)可以識別當(dāng)前發(fā)言的與會者的臉部特征數(shù)據(jù),因此,語音和聲紋識別模塊根據(jù)聲紋特征數(shù)據(jù)以及人臉和表情識別模塊根據(jù)臉部特征數(shù)據(jù)可以識別和區(qū)分出不同的與會者。另外,語音和聲紋識別模塊利用麥克風(fēng)的設(shè)備標(biāo)識符以及人臉和表情識別模塊利用攝像頭的設(shè)備標(biāo)識符可以識別和區(qū)分出不同的會議方。
語音和聲紋識別模塊以及人臉和表情識別模塊在處理過程中給每個發(fā)言的與會者賦予唯一的身份標(biāo)簽,例如:一方會議時,可以用“與會者A”、“與會者B”、“與會者C”等作為身份標(biāo)簽賦給與會者;多方會議時,可以用“與會者A1”、“與會者B2”、“與會者C1”等作為身份標(biāo)簽賦給與會者,其中標(biāo)簽中第一位字符“A”、“B”、“C”代表各會議方,第二位字符“1”、“2”代表某會議方中的某位與會者。為了方便數(shù)據(jù)組織部分組織文字記錄,語音和聲紋識別模塊以及人臉和表情識別模塊對同一與會者賦予的身份標(biāo)簽應(yīng)當(dāng)相同,例如,可以根據(jù)接收到的開始時間將語音和聲紋識別模塊以及人臉和表情識別模塊識別出的與會者的身份標(biāo)簽進(jìn)行統(tǒng)一。
為了便于查找和管理,可以建立記錄包含與會者的身份標(biāo)簽、聲紋特征數(shù)據(jù)和臉部特征數(shù)據(jù)的數(shù)據(jù)表,用于記錄發(fā)言的與會者的信息,該數(shù)據(jù)表存儲在存儲模塊(圖中未示出)中。聲紋特征數(shù)據(jù)和臉部特征數(shù)據(jù)通過聲紋識別技術(shù)和人臉識別技術(shù)可以得到,例如通過21點模型定位位置的人臉識別技術(shù),通過這些關(guān)鍵點就可以描述臉部的特征,精確度可達(dá)到96%。
數(shù)據(jù)組織部分根據(jù)數(shù)據(jù)識別部分處理得到的文字信息、開始時間、與會者的身份標(biāo)簽、與會者的情緒等數(shù)據(jù),按照一定的格式將這些數(shù)據(jù)組織起來,生成包含開始時間、與會者的身份標(biāo)簽、與會者的情緒和文字信息的文字記錄并保存。
為了便于查看,不同與會者的內(nèi)容換行記錄。
組織格式例如可以是:
【日期】
【時分秒】【與會者】(【情緒】):“【文本】”
【日期】
【時分秒】【與會者】(【情緒】):“【文本】”
……
上述組織格式中,符號“【】”表示從前述各部分獲得的內(nèi)容;
符號“()”表示是該內(nèi)容為可選內(nèi)容,有數(shù)據(jù)就添加;
符號“:”表示其后為發(fā)言的內(nèi)容。
例如:
2016年11月15日
09:24:12與會者A:“我們先討論問題a”
2016年11月15日
09:24:16與會者B(生氣):“問題a已經(jīng)討論過了,應(yīng)該討論問題b”
……
為了精簡記錄內(nèi)容,可以將同個日期的內(nèi)容進(jìn)行整合,例如前述的記錄可以整合為:
2016年11月15日
09:24:12與會者A:“我們先討論問題a”
09:24:16與會者B(生氣):“問題a已經(jīng)討論過了,應(yīng)該討論問題b”
……
數(shù)據(jù)補充和修正部分用于對數(shù)據(jù)組織部分保存的文字記錄進(jìn)行補充和修正,以提高文字記錄的可讀性,保證文字記錄的正確性。例如提供方便用戶對保存的文字記錄進(jìn)行補充和修正的界面和提示,并將補充和修正者的姓名、補充和修正時間、補充和修正內(nèi)容進(jìn)行記錄,便于查閱。
補充的方式和內(nèi)容例如為:提供輸入框讓用戶輸入會議的主題、問題的摘要、會議結(jié)論等信息,方便他人快速了解會議內(nèi)容;
修正的內(nèi)容例如為文字記錄中的文字錯誤,也可以為替換某些信息,例如:整個會議過程識別到有3個與會者發(fā)言,此時彈出提示框提示用戶是否需要將“與會者A、B、C”的身份標(biāo)簽替換成各自真實的名字。
實施例2:
本發(fā)明還提出了一種將音視頻數(shù)據(jù)轉(zhuǎn)化成文字記錄的方法,該方法流程圖如圖3所示,包括以下步驟:
步驟S21、數(shù)據(jù)收集:
與會者開始發(fā)言時,麥克風(fēng)采集當(dāng)前發(fā)言的與會者的音頻數(shù)據(jù),根據(jù)采集到的音頻數(shù)據(jù)的強度大小判斷當(dāng)前發(fā)言的與會者正在發(fā)言還是停頓,如果停頓超過一定時間(例如3s)則認(rèn)為該與會者發(fā)言結(jié)束,記錄當(dāng)前發(fā)言的與會者音頻數(shù)據(jù)的開始時間和結(jié)束時間,將當(dāng)前發(fā)言的與會者的音頻數(shù)據(jù)連同開始時間(也可以加上結(jié)束時間)以及麥克風(fēng)的設(shè)備標(biāo)識符一起傳送給數(shù)據(jù)識別步驟。其中傳送麥克風(fēng)的設(shè)備標(biāo)識符的作用是為了在多方會議時用以區(qū)分不同的會議方;
攝像頭用于捕獲當(dāng)前發(fā)言的與會者的圖像,與會者開始發(fā)言時,攝像頭采集當(dāng)前發(fā)言的與會者的圖像,根據(jù)采集到的圖像判斷當(dāng)前發(fā)言的與會者正在發(fā)言還是停頓,如果停頓超過一定時間(例如3s)則認(rèn)為該與會者發(fā)言結(jié)束,記錄當(dāng)前發(fā)言的與會者發(fā)言的起始時間和結(jié)束時間,將采集的圖像連同開始時間(也可以加上結(jié)束時間)以及攝像頭的設(shè)備標(biāo)識符一起傳送給數(shù)據(jù)識別步驟。其中傳送攝像頭的設(shè)備標(biāo)識符的作用是為了在多方會議時用以區(qū)分不同的會議方。
其中,為了保證麥克風(fēng)和攝像頭記錄的時間一致,麥克風(fēng)和攝像頭采用相同的標(biāo)準(zhǔn)時間。
步驟S22、數(shù)據(jù)識別:
接收麥克風(fēng)捕獲的音頻數(shù)據(jù)、開始時間(也可以加上結(jié)束時間)以及麥克風(fēng)的設(shè)備標(biāo)識符;利用語音識別技術(shù)對捕獲的音頻數(shù)據(jù)進(jìn)行處理,將音頻格式的音頻數(shù)據(jù)轉(zhuǎn)化成文本格式的文字信息,并利用聲紋識別技術(shù)對捕獲的音頻數(shù)據(jù)進(jìn)行處理,用以識別當(dāng)前發(fā)言的與會者。
接收攝像頭捕獲的圖像、開始時間(也可以加上結(jié)束時間)以及攝像頭的設(shè)備標(biāo)識符,利用表情識別技術(shù)對捕獲的圖像進(jìn)行處理,識別當(dāng)前發(fā)言的與會者的表情,獲得該與會者當(dāng)時的情緒,并利用人臉識別技術(shù)對捕獲的圖像進(jìn)行處理,用以識別當(dāng)前發(fā)言的與會者。
利用聲紋識別技術(shù)可以識別當(dāng)前發(fā)言的與會者的聲紋特征數(shù)據(jù),利用人臉識別技術(shù)可以識別當(dāng)前發(fā)言的與會者的臉部特征數(shù)據(jù),因此,語音和聲紋識別模塊根據(jù)聲紋特征數(shù)據(jù)以及人臉和表情識別模塊根據(jù)臉部特征數(shù)據(jù)可以識別和區(qū)分出不同的與會者。另外,語音和聲紋識別模塊利用麥克風(fēng)的設(shè)備標(biāo)識符以及人臉和表情識別模塊利用攝像頭的設(shè)備標(biāo)識符可以識別和區(qū)分出不同的會議方。
語音和聲紋識別模塊以及人臉和表情識別模塊在處理過程中給每個發(fā)言的與會者賦予唯一的身份標(biāo)簽,例如:一方會議時,可以用“與會者A”、“與會者B”、“與會者C”等作為身份標(biāo)簽賦給與會者;多方會議時,可以用“與會者A1”、“與會者B2”、“與會者C1”等作為身份標(biāo)簽賦給與會者,其中標(biāo)簽中第一位字符“A”、“B”、“C”代表各會議方,第二位字符“1”、“2”代表某會議方中的某位與會者。為了方便組織文字信息,語音和聲紋識別模塊以及人臉和表情識別模塊對同一與會者賦予的身份標(biāo)簽應(yīng)當(dāng)相同,例如,可以根據(jù)接收到的開始時間將語音和聲紋識別模塊以及人臉和表情識別模塊識別出的與會者的身份標(biāo)簽進(jìn)行統(tǒng)一。
為了便于查找和管理,可以建立記錄包含與會者的身份標(biāo)簽、聲紋特征數(shù)據(jù)和臉部特征數(shù)據(jù)的數(shù)據(jù)表,用于記錄發(fā)言的與會者的信息,保證同一與會者的身份標(biāo)簽唯一,并且保證聲紋特征數(shù)據(jù)和臉部特征數(shù)據(jù)與相應(yīng)的與會者的身份標(biāo)簽對應(yīng)一致。聲紋特征數(shù)據(jù)和臉部特征數(shù)據(jù)通過聲紋識別技術(shù)和人臉識別技術(shù)可以得到,例如通過21點模型定位位置的人臉識別技術(shù),通過這些關(guān)鍵點就可以描述臉部的特征,精確度可達(dá)到96%。
步驟S23、數(shù)據(jù)組織:
根據(jù)數(shù)據(jù)識別步驟處理得到的文字信息、開始時間、與會者的身份標(biāo)簽、與會者的情緒等數(shù)據(jù),按照一定的格式將這些數(shù)據(jù)組織起來,生成包含開始時間、與會者的身份標(biāo)簽、與會者的情緒和文字信息的文字記錄并以對話的形式進(jìn)行保存。
為了便于查看,不同與會者的內(nèi)容換行記錄。
組織格式例如可以是:
【日期】
【時分秒】【與會者】(【情緒】):“【文本】”
【時分秒】【與會者】(【情緒】):“【文本】”
……
上述組織格式中,符號“【】”表示從前述各步驟獲得的內(nèi)容;
符號“()”表示是該內(nèi)容為可選內(nèi)容,有數(shù)據(jù)就添加;
符號“:”表示其后為發(fā)言的內(nèi)容。
例如:
2016年11月15日
09:24:12與會者A:“我們先討論問題a”
2016年11月15日
09:24:16與會者B(生氣):“問題a已經(jīng)討論過了,應(yīng)該討論問題b”
……
為了精簡記錄內(nèi)容,節(jié)約存儲空間,可以將同個日期的內(nèi)容進(jìn)行整合,例如前述的記錄可以整合為:
2016年11月15日
09:24:12與會者A:“我們先討論問題a”
09:24:16與會者B(生氣):“問題a已經(jīng)討論過了,應(yīng)該討論問題b”
……
步驟S24、數(shù)據(jù)補充和修正
對數(shù)據(jù)組織步驟保存的文字記錄進(jìn)行補充和修正,以提高文字記錄的可讀性,保證文字記錄的正確性。例如提供方便用戶對保存的文字記錄進(jìn)行補充和修正的界面和提示,并將補充和修正者的姓名、補充和修正時間、補充和修正內(nèi)容進(jìn)行記錄,便于查閱。
補充的方式和內(nèi)容例如為:提供輸入框讓用戶輸入會議的主題、問題的摘要、會議結(jié)論等信息,方便他人快速了解會議內(nèi)容;
修正的內(nèi)容例如為文字記錄中的文字錯誤,也可以為替換某些信息,例如:整個會議過程識別到有3個與會者發(fā)言,此時彈出提示框提示用戶是否需要將“與會者A、B、C”的身份標(biāo)簽替換成各自真實的名字。
實施例3:
本發(fā)明還提出了一種將音視頻數(shù)據(jù)轉(zhuǎn)化成文字記錄的方法,該方法流程圖如圖4所示,包括以下步驟:
步驟S30、準(zhǔn)備工作:
啟動麥克風(fēng)和攝像頭,創(chuàng)建與會者列表,創(chuàng)建保存文本的文件地址,其中與會者列表包括與會者的唯一的身份標(biāo)簽,還包括后續(xù)要采集的與會者的聲紋特征數(shù)據(jù)和臉部特征數(shù)據(jù);
每個與會者被賦予唯一的身份標(biāo)簽,例如:一方會議時,可以用“與會者A”、“與會者B”、“與會者C”等作為身份標(biāo)簽賦給與會者;多方會議時,可以用“與會者A1”、“與會者B2”、“與會者C1”等作為身份標(biāo)簽賦給與會者,其中標(biāo)簽中第一位字符“A”、“B”、“C”代表各會議方,第二位字符“1”、“2”代表某會議方中的某位與會者。
步驟S31:與會者開始發(fā)言時,麥克風(fēng)捕獲當(dāng)前發(fā)言的與會者的語音輸入獲得當(dāng)前發(fā)言的與會者的音頻數(shù)據(jù),記錄當(dāng)前發(fā)言的與會者音頻數(shù)據(jù)的開始時間;同時攝像頭捕獲當(dāng)前發(fā)言的與會者的圖像獲得當(dāng)前發(fā)言的與會者的視頻數(shù)據(jù),記錄當(dāng)前發(fā)言的與會者視頻數(shù)據(jù)的開始時間;
步驟S32:使用聲紋識別技術(shù)分析和處理麥克風(fēng)獲取的當(dāng)前發(fā)言的與會者的音頻數(shù)據(jù),并進(jìn)行聲紋特征識別;使用人臉識別技術(shù)分析和處理攝像頭獲取的當(dāng)前發(fā)言的與會者的視頻數(shù)據(jù),并進(jìn)行臉部特征識別;
步驟S33:判斷是否成功識別到聲紋特征數(shù)據(jù)以及是否成功識別到臉部特征數(shù)據(jù),如果成功識別到聲紋特征數(shù)據(jù)和/或臉部特征數(shù)據(jù),則進(jìn)入步驟S34;如果未成功識別到聲紋特征數(shù)據(jù)和臉部特征數(shù)據(jù),則進(jìn)入步驟S35;
步驟S34:判斷與會者列表中是否已經(jīng)存在與該聲紋特征數(shù)據(jù)和/或該臉部特征數(shù)據(jù)相匹配的與會者,如果存在,則進(jìn)入步驟S35,同時補充完整該與會者的相關(guān)信息(即如果與會者列表中僅存在聲紋特征數(shù)據(jù)而沒有臉部特征數(shù)據(jù),則補充臉部特征數(shù)據(jù);如果與會者列表中僅存在臉部特征數(shù)據(jù)而沒有聲紋特征數(shù)據(jù),則補充聲紋特征數(shù)據(jù));如果不存在,則在與會者列表中加入新條目,保存新與會者的身份標(biāo)簽、聲紋特征數(shù)據(jù)和臉部特征數(shù)據(jù),同時進(jìn)入步驟S35;
步驟S35:使用語音識別技術(shù)分析處理音頻數(shù)據(jù),進(jìn)行音頻數(shù)據(jù)轉(zhuǎn)化成文字的操作;
步驟S36:判斷音頻數(shù)據(jù)是否成功轉(zhuǎn)化成文字,如果是,則進(jìn)入步驟S37;如果否,則返回步驟S35繼續(xù)進(jìn)行轉(zhuǎn)化操作;
步驟S37:使用表情識別技術(shù)分析處理視頻數(shù)據(jù),獲取當(dāng)前發(fā)言的與會者的情緒;
步驟S38:獲取當(dāng)前的日期和時間;
步驟S39:將日期、時間、匹配聲紋和/或臉部特征數(shù)據(jù)的與會者的身份標(biāo)簽、語音識別的文字、表情識別的情緒組織成對話形式的文字記錄,并保存在創(chuàng)建的文件地址中;
所述格式例如可以是:
【日期】
【時分秒】【與會者】(【情緒】):“【文本】”
【時分秒】【與會者】(【情緒】):“【文本】”
……
上述組織格式中,符號“【】”表示從前述各步驟獲得的內(nèi)容;
符號“()”表示是該內(nèi)容為可選內(nèi)容,有數(shù)據(jù)就添加;
符號“:”表示其后為發(fā)言的內(nèi)容。
例如:
2016年11月15日
09:24:12與會者A:“我們先討論問題a”
2016年11月15日
09:24:16與會者B(生氣):“問題a已經(jīng)討論過了,應(yīng)該討論問題b”
……
為了精簡記錄內(nèi)容,節(jié)約存儲空間,可以將同個日期的內(nèi)容進(jìn)行整合,例如前述的記錄可以整合為:
2016年11月15日
09:24:12與會者A:“我們先討論問題a”
09:24:16與會者B(生氣):“問題a已經(jīng)討論過了,應(yīng)該討論問題b”
……
步驟S40:返回步驟S31繼續(xù)執(zhí)行,保存不同與會者發(fā)言的內(nèi)容,直到整個會議結(jié)束。
以上,對本發(fā)明的實施方式進(jìn)行了說明。但是,本發(fā)明不限定于上述實施方式。凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。