1.一種將音視頻數(shù)據(jù)轉化成文字記錄的系統(tǒng),其特征在于,包括數(shù)據(jù)收集部分、數(shù)據(jù)識別部分以及數(shù)據(jù)組織部分;
所述數(shù)據(jù)收集部分包括音頻采集模塊和視頻采集模塊;
所述音頻采集模塊用于捕獲當前說話者的音頻數(shù)據(jù),并記錄其說話的開始時間;
所述視頻采集模塊用于捕獲當前說話者的圖像,并記錄其說話的開始時間;
所述數(shù)據(jù)識別部分包括語音和聲紋識別模塊以及人臉和表情識別模塊;
所述語音和聲紋識別模塊對所述音頻采集模塊捕獲的音頻數(shù)據(jù)進行處理,將其轉化成文本格式的文字信息,并對所述音頻采集模塊捕獲的音頻數(shù)據(jù)進行處理,用以識別當前說話者,并對每個說話者賦予一個身份標簽;
所述人臉和表情識別模塊利用表情識別技術對所述視頻采集模塊捕獲的圖像進行處理,識別當前說話者的表情,獲得該說話者的情緒,并對所述視頻采集模塊捕獲的圖像進行處理,用以識別當前說話者,并對每個說話者賦予一個身份標簽;
所述數(shù)據(jù)組織部分根據(jù)所述文字信息、識別的開始時間、當前說話者的身份標簽以及當前說話者的情緒,生成文字記錄。
2.根據(jù)權利要求1所述的系統(tǒng),其特征在于,所述文字記錄為對話形式的文字記錄。
3.根據(jù)權利要求1或2所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括數(shù)據(jù)補充和修正部分,所述數(shù)據(jù)補充和修正部分用于對所述文字記錄進行補充和修正。
4.根據(jù)權利要求1或2所述的系統(tǒng),其特征在于,所述音頻采集模塊為麥克風,和/或,所述視頻采集模塊為攝像頭。
5.根據(jù)權利要求1或2所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括存儲模塊,所述存儲模塊存儲有記錄包含說話者的身份標簽、聲紋特征數(shù)據(jù)和臉部特征數(shù)據(jù)的數(shù)據(jù)表。
6.一種將音視頻數(shù)據(jù)轉化成文字記錄的方法,其特征在于,包括以下步驟:
步驟S21、數(shù)據(jù)收集:捕獲當前說話者的音頻數(shù)據(jù)和當前說話者的圖像,并記錄其說話的開始時間;
步驟S22、數(shù)據(jù)識別:對捕獲的音頻數(shù)據(jù)進行處理,將其轉化成文本格式的文字信息;對捕獲的圖像進行處理,識別當前說話者的表情,獲得該說話者的情緒;對捕獲的音頻數(shù)據(jù)和/或?qū)Σ东@的圖像進行處理,用以識別當前說話者,并為每個說話者賦予一個身份標簽;
步驟23、數(shù)據(jù)組織:所述數(shù)據(jù)組織部分根據(jù)所述文字信息、識別的開始時間、當前說話者的身份標簽以及當前說話者的情緒,生成文字記錄。
7.根據(jù)權利要求6所述的方法,其特征在于,所述文字記錄為對話形式的文字記錄。
8.根據(jù)權利要求6或7所述的方法,其特征在于,所述方法還包括步驟S24、數(shù)據(jù)補充和修正:對所述文字記錄進行補充和修正。
9.根據(jù)權利要求6或7所述的方法,其特征在于,所述身份標簽與說話者的聲紋特征數(shù)據(jù)和/或臉部特征數(shù)據(jù)相關聯(lián)地存儲在存儲模塊中,在對每個說話者賦予身份標簽前,先查找該存儲模塊中是否已經(jīng)存儲有與該說話者匹配的身份標簽,如果沒有查找到,則賦予該說話者一個身份標簽。
10.一種將音視頻數(shù)據(jù)轉化成文字記錄的方法,其特征在于,包括以下步驟:
步驟S30、準備工作:啟動麥克風和攝像頭,創(chuàng)建說話者列表,創(chuàng)建保存文本的文件地址,其中說話者列表的項目包括說話者的唯一的身份標簽、說話者的聲紋特征數(shù)據(jù)和臉部特征數(shù)據(jù);
步驟S31:捕獲數(shù)據(jù):說話者開始發(fā)言時,麥克風捕獲當前發(fā)言的說話者的語音輸入獲得當前發(fā)言的說話者的音頻數(shù)據(jù),記錄當前發(fā)言的與會者音頻數(shù)據(jù)的開始時間;同時攝像頭捕獲當前發(fā)言的說話者的圖像獲得當前發(fā)言的說話者的視頻數(shù)據(jù),記錄當前發(fā)言的與會者視頻數(shù)據(jù)的開始時間;
步驟S32:使用聲紋識別技術分析和處理麥克風獲取的當前發(fā)言的說話者的音頻數(shù)據(jù),并進行聲紋特征識別;使用人臉識別技術分析和處理攝像頭獲取的當前發(fā)言的說話者的視頻數(shù)據(jù),并進行臉部特征識別;
步驟S33:判斷是否成功識別到聲紋特征數(shù)據(jù)以及是否成功識別到臉部特征數(shù)據(jù),如果成功識別到聲紋特征數(shù)據(jù)和/或臉部特征數(shù)據(jù),則進入步驟S34;如果未成功識別到聲紋特征數(shù)據(jù)和臉部特征數(shù)據(jù),則進入步驟S35;
步驟S34:判斷說話者列表中是否已經(jīng)存在與該聲紋特征數(shù)據(jù)和/或該臉部特征數(shù)據(jù)相匹配的說話者,如果存在,則進入步驟S35,同時補充完整該說話者的相關信息;如果不存在,則在說話者列表中加入新條目,保存新說話者的身份標簽、聲紋特征數(shù)據(jù)和臉部特征數(shù)據(jù),同時進入步驟S35;
步驟S35:使用語音識別技術分析處理音頻數(shù)據(jù),進行音頻數(shù)據(jù)轉化成文字的操作;
步驟S36:判斷音頻數(shù)據(jù)是否成功轉化成文字,如果是,則進入步驟S37;如果否,則返回步驟S35繼續(xù)進行轉化操作;
步驟S37:使用表情識別技術分析處理視頻數(shù)據(jù),獲取當前發(fā)言的說話者的情緒;
步驟S38:獲取當前的日期和時間;
步驟S39:將日期、時間、匹配聲紋和/或臉部特征數(shù)據(jù)的說話者的身份標簽、語音識別的文字、表情識別的情緒組織成對話形式的文字記錄,并保存在創(chuàng)建的文件地址中;
步驟S40:返回步驟S31繼續(xù)執(zhí)行,保存不同說話者發(fā)言的內(nèi)容,直到會話過程結束。