專利名稱:會議紀(jì)要的提取方法和裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及通信領(lǐng)域,具體而言,涉及一種會議紀(jì)要的提取方法和裝置。
背景技術(shù):
在當(dāng)前技術(shù)中,視頻會議本著面向用戶的設(shè)計思路,設(shè)計了友好的用戶界面,用戶在自己的辦公室或公司的會議室里可以非常方便地自主召集會議并進行會議控制。但是, 目前的視頻會議不支持會議記錄和記錄整理的功能,與會者會自帶筆記本和筆,把會議過程的要點記錄,以便會后重溫會議內(nèi)容,這種方式存在很多弊端,一是用戶體驗差,視頻會議的一個發(fā)展趨勢是“面對面”溝通,即與會者之間可以通過神態(tài)、肢體語言等加強溝通,然而只顧埋頭用筆記錄的方式可能會錯過演講者精彩的肢體語言,二是可能會出現(xiàn)會議內(nèi)容的漏記或?qū)h內(nèi)容的誤解,尤其是當(dāng)演講者發(fā)表長篇演說時,會議記錄對速度要求很快, 否則就會遺漏要點,也可能在記錄時來不及理解演講者所要表達的意思,從而造成誤解。目前已有會議紀(jì)要自動生成的專利(比如一種可由人工或系統(tǒng)自動進行會議記錄的實現(xiàn)方法和設(shè)備等),這些專利都是將語音識別成文字并存儲,比如在幾十個與會者參加的長達一兩個小時的會議中,該方式生成的會議記錄篇幅冗長,沒辦法找到會議的重點內(nèi)容,在后續(xù)翻看此次會議的記錄時,不便于用戶的理解,因此很難推廣使用。針對相關(guān)技術(shù)中的自動生成會議紀(jì)要的方式無法得到有針對性的會議記錄的問題,目前尚未提出有效的解決方案。
發(fā)明內(nèi)容
針對相關(guān)技術(shù)中的自動生成會議紀(jì)要的方式無法得到有針對性的會議記錄的問題,本發(fā)明提供了一種會議紀(jì)要的提取方法和裝置,以至少解決上述問題。根據(jù)本發(fā)明的一個方面,提供了一種會議紀(jì)要的提取方法,該方法包括獲取音視頻信號;將該音視頻信號中的語音信號轉(zhuǎn)化成對應(yīng)的文本,并獲取該音視頻信號的發(fā)言者的身份,將上述文本與上述發(fā)言者建立關(guān)聯(lián);根據(jù)設(shè)定的提取規(guī)則從上述文本中提取出會議紀(jì)要,其中,該會議紀(jì)要與上述發(fā)言者相關(guān)聯(lián)。上述獲取音視頻信號的發(fā)言者的身份包括根據(jù)獲取的音視頻信號識別發(fā)言者的身份;其中,音視頻信號來自本端或者遠端的發(fā)言者;或者,如果音視頻信號為遠端發(fā)言者的音視頻信號,接收遠端發(fā)言者提供的身份信息。上述根據(jù)音視頻信號識別發(fā)言者的身份包括根據(jù)音視頻信號提取特征參數(shù),根據(jù)特征參數(shù)確定發(fā)言者標(biāo)識ID。上述根據(jù)特征參數(shù)確定發(fā)言者ID包括使用特征參數(shù)在身份索引表中查找發(fā)言者ID,其中,身份索引表中存儲有預(yù)先注冊的特征參數(shù)與ID的對應(yīng)關(guān)系;如果未查找到發(fā)言者ID,根據(jù)特征參數(shù)生成發(fā)言者ID,并將特征參數(shù)與生成的發(fā)言者ID的對應(yīng)關(guān)系存儲在身份索引表。上述方法還包括對會議紀(jì)要和/或文本進行操作,該操作至少包括以下方式之一將會議紀(jì)要和/或文本以郵件或傳真形式發(fā)送給指定用戶;向指定用戶提供以網(wǎng)頁顯示方式瀏覽會議紀(jì)要和/或文本;將會議紀(jì)要和/或文本與音視頻信號中的圖像組合。上述根據(jù)設(shè)定的提取規(guī)則從文本中提取出會議紀(jì)要包括根據(jù)設(shè)定的關(guān)鍵詞和/ 或語音信號的語調(diào)提取會議紀(jì)要。根據(jù)本發(fā)明的另一方面,提供了一種會議紀(jì)要的提取裝置,該裝置包括音視頻信號獲取模塊,用于獲取音視頻信號;文本轉(zhuǎn)化模塊,用于將音視頻信號獲取模塊獲取的上述音視頻信號中的語音信號轉(zhuǎn)化成對應(yīng)的文本;身份獲取模塊,用于獲取音視頻信號獲取模塊獲取的上述音視頻信號的發(fā)言者的身份;關(guān)聯(lián)建立模塊,用于將文本轉(zhuǎn)化模塊轉(zhuǎn)化的上述文本與身份獲取模塊獲取的上述發(fā)言者建立關(guān)聯(lián);會議紀(jì)要提取模塊,用于根據(jù)設(shè)定的提取規(guī)則從文本轉(zhuǎn)化模塊轉(zhuǎn)化的上述文本中提取出會議紀(jì)要,其中,該會議紀(jì)要與上述發(fā)言者相關(guān)聯(lián)。上述身份獲取模塊包括以下之一身份識別子模塊,用于根據(jù)獲取的音視頻信號識別發(fā)言者的身份;其中,音視頻信號來自本端或者遠端的發(fā)言者;或者,身份接收子模塊,用于在音視頻信號為遠端發(fā)言者的音視頻信號的情況下,接收遠端發(fā)言者提供的身份 fn息ο上述身份識別子模塊包括特征參數(shù)提取單元,用于根據(jù)音視頻信號提取特征參數(shù);標(biāo)識確定單元,用于根據(jù)特征參數(shù)提取單元提取的特征參數(shù)確定發(fā)言者標(biāo)識ID。上述標(biāo)識確定單元包括標(biāo)識查找子單元,用于使用特征參數(shù)在身份索引表中查找發(fā)言者ID,其中,身份索引表中存儲有預(yù)先注冊的特征參數(shù)與ID的對應(yīng)關(guān)系;標(biāo)識生成子單元,用于在標(biāo)識查找子單元未查找到發(fā)言者ID的情況下,根據(jù)特征參數(shù)生成發(fā)言者 ID ;對應(yīng)關(guān)系存儲子單元,用于將特征參數(shù)與生成的發(fā)言者ID的對應(yīng)關(guān)系存儲在身份索引表。上述會議紀(jì)要提取模塊包括第一提取子模塊,用于根據(jù)設(shè)定的關(guān)鍵詞提取會議紀(jì)要;和/或,第二提取子模塊,用于根據(jù)語音信號的語調(diào)提取會議紀(jì)要。通過本發(fā)明,將音視頻信號中的語音信號轉(zhuǎn)化成文本,根據(jù)音視頻信號獲取發(fā)言者的身份,然后將該文本與該發(fā)言者相關(guān)聯(lián),再從該文本中提取出會議紀(jì)要,解決了相關(guān)技術(shù)中基于語音識別方式得到的會議記錄篇幅冗長,發(fā)言內(nèi)容無法對應(yīng)到具體發(fā)言對象的問題,從而可以將會議內(nèi)容與具體發(fā)言對象相對應(yīng),并自動完成會議內(nèi)容的整理,歸納出發(fā)言對象的發(fā)言重點,提高了視頻會議的智能性,提升了用戶體驗。
此處所說明的附圖用來提供對本發(fā)明的進一步理解,構(gòu)成本申請的一部分,本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明,并不構(gòu)成對本發(fā)明的不當(dāng)限定。在附圖中圖1是根據(jù)本發(fā)明實施例的會議紀(jì)要的提取方法的流程圖;圖2是根據(jù)本發(fā)明實施例的會議終端的結(jié)構(gòu)示意圖;圖3是根據(jù)本發(fā)明實施例的會議終端的另一種結(jié)構(gòu)示意圖;圖4是根據(jù)本發(fā)明實施例的根據(jù)發(fā)言者模型識別發(fā)言者身份的示意圖;圖5是根據(jù)本發(fā)明實施例的終端提取會議紀(jì)要的示意圖;圖6是根據(jù)本發(fā)明實施例的終端提取會議紀(jì)要的方法的流程5
圖7是根據(jù)本發(fā)明實施例的視頻會議終端提取會議紀(jì)要的方法的流程圖;圖8是根據(jù)本發(fā)明實施例的視頻會議終端的示意圖;圖9是根據(jù)本實施例的會議紀(jì)要的提取裝置的結(jié)構(gòu)框圖;圖10是根據(jù)本實施例的會議紀(jì)要的提取裝置的具體結(jié)構(gòu)框圖。
具體實施例方式下文中將參考附圖并結(jié)合實施例來詳細說明本發(fā)明。需要說明的是,在不沖突的情況下,本申請中的實施例及實施例中的特征可以相互組合。目前的會議紀(jì)要自動生成技術(shù)只是將語音識別成文字并存儲,在識別語音信號中的言語內(nèi)容時并不考慮發(fā)言者是誰,即沒有根據(jù)發(fā)言者的生物特征對發(fā)言者身份進行識別?;诖?,本發(fā)明實施例提供了一種會議紀(jì)要的提取方法和裝置。下面通過實施例進行詳細說明。本實施例提供了一種會議紀(jì)要的提取方法,如圖1所示的是會議紀(jì)要的提取方法的流程圖,該方法以在會議終端實現(xiàn)為例進行說明,包括以下步驟(步驟S102-步驟 S106)步驟S102,會議終端獲取音視頻信號。步驟S104,會議終端將上述音視頻信號中的語音信號轉(zhuǎn)化成對應(yīng)的文本,并獲取上述音視頻信號的發(fā)言者的身份,將上述文本與上述發(fā)言者建立關(guān)聯(lián)。在獲取音視頻信號的發(fā)言者身份時,可以通過該音視頻信號中的語音信號中的生物特征進行身份識別,也可以通過該音視頻信號中的視頻信號攜帶的生物特征(比如人臉圖像識別信號)進行身份識別。步驟S106,會議終端根據(jù)設(shè)定的提取規(guī)則從上述文本中提取出會議紀(jì)要,其中,該會議紀(jì)要與上述發(fā)言者相關(guān)聯(lián)。通過上述方法,將音視頻信號中的語音信號轉(zhuǎn)化成文本,根據(jù)音視頻信號獲取發(fā)言者的身份,然后將該文本與該發(fā)言者相關(guān)聯(lián),再從該文本中提取出會議紀(jì)要,解決了相關(guān)技術(shù)中基于語音識別方式得到的會議記錄篇幅冗長,發(fā)言內(nèi)容無法對應(yīng)到具體發(fā)言對象的問題,從而可以將會議內(nèi)容與具體發(fā)言對象相對應(yīng),并自動完成會議內(nèi)容的整理,歸納出發(fā)言對象的發(fā)言重點,提高了視頻會議的智能性,提升了用戶體驗。音視頻信號的來源有本地發(fā)言者的音視頻信號和遠端發(fā)言者的音視頻信號,以語音信號為例,對于本端,會議終端可以通過音頻采集工具(比如話筒、麥克風(fēng))檢測是否有語音信號輸入,若有,采集發(fā)言者(即本端發(fā)言者)的音頻輸入源;對于遠端,會議終端接收線路上的音頻包,通過音頻解碼器解碼此音頻包,將解碼后的信息作為音頻輸入源。對應(yīng)于上述本端和遠端的兩種實施方式,本實施例中的會議終端可以有兩種結(jié)構(gòu)。如圖2所示的第一種會議終端的結(jié)構(gòu)示意圖,該會議終端以采集本端語音信號為例進行說明,其可以包括音頻采集模塊、A/D(Analog Digital,模數(shù)轉(zhuǎn)換,也可以寫為A/D)模塊、 語音識別模塊、存儲模塊。其中,音頻采集模塊用于采集音頻信號;A/D模塊用于進行信號的模數(shù)轉(zhuǎn)換;語音識別模塊用于根據(jù)采集到的信號識別發(fā)言者的身份;存儲模塊用于存儲發(fā)言者的身份信息和采集的信號;圖2所示的會議終端工作時,首先音頻采集模塊采集音頻輸入源,如果是模擬音頻輸入源,則需要經(jīng)由A/D模塊進行模數(shù)轉(zhuǎn)換,然后輸入到語音識別模塊進行發(fā)言者身份識別,最后將識別出的發(fā)言者身份信息與輸入的音頻流對應(yīng)存儲在存儲模塊。圖3所示的是會議終端的另一種結(jié)構(gòu)示意圖,該會議終端以采集遠端語音信號為例進行說明,其包括音頻解碼模塊、語音識別模塊和存儲模塊;其中,音頻解碼模塊用于對接收到的音頻網(wǎng)絡(luò)報進行音頻解碼,并將解碼后的音頻流輸入到語音識別模塊;語音視頻模塊用于基于語音識別技術(shù)對該音頻流進行語音識別,識別出發(fā)言者的身份;然后,將識別出的發(fā)言者身份信息與輸入的音頻流對應(yīng)存儲在存儲模塊。在獲取到音視頻信號之后,會議終端獲取上述音視頻信號的發(fā)言者的身份,如果音視頻信號是本端發(fā)言者的音視頻信號,則直接根據(jù)該音視頻信號識別發(fā)言者的身份,如果音視頻信號是遠端發(fā)言者的音視頻信號,則有兩種方式獲取發(fā)言者的身份,一種方式是遠端設(shè)備獲取到音視頻信號后,位于遠端的會議終端在其本地根據(jù)該音視頻信號識別發(fā)言者的身份,再將該身份信息發(fā)送到本端,另一種方式是遠端設(shè)備將獲取到的音視頻信號發(fā)送至本端,然后位于本端的會議終端根據(jù)該音視頻信號識別發(fā)言者的身份。對于上述獲取音視頻信號的發(fā)言者的身份的過程,本實施例提供了一種優(yōu)選實施方式,該方式可以描述為會議終端根據(jù)獲取的音視頻信號識別發(fā)言者的身份;其中,該音視頻信號來自本端或者遠端的發(fā)言者;或者,如果該音視頻信號為遠端發(fā)言者的音視頻信號,接收上述遠端發(fā)言者提供的身份信息。本優(yōu)選實施方式可以更方便的確認本端發(fā)言者的身份,并且對于遠端發(fā)言者而言,會議終端也可以更加方便靈活的確定其身份。會議終端根據(jù)音視頻信號獲取發(fā)言者身份的方式可以根據(jù)該音視頻信號提取特征參數(shù),再根據(jù)該特征參數(shù)確定發(fā)言者的標(biāo)識(identifiy,簡稱為ID),例如,使用特征參數(shù)查找預(yù)先注冊的身份索引表;由此ID即可得知發(fā)言者的身份。對于根據(jù)特征參數(shù)確定發(fā)言者的ID的過程,本實施例提供了一種優(yōu)選實施方式,該方式具體過程是會議終端建立身份索引表,在該身份索引表中存儲了預(yù)先注冊的特征參數(shù)與發(fā)言者的ID的對應(yīng)關(guān)系,在音視頻信號中提取到特征參數(shù)之后,會議終端根據(jù)該特征參數(shù)在身份索引表中查到與其對應(yīng)的ID,如果會議終端在身份索引表中沒有查找到與上述特征參數(shù)對應(yīng)的ID,則根據(jù)該特征參數(shù)生成發(fā)言者ID,并將該特征參數(shù)與該ID的對應(yīng)關(guān)系存儲在身份索引表中。會議終端根據(jù)特征參數(shù)確定發(fā)言者的ID還可以采取另一種優(yōu)選實施方式,即可以根據(jù)特征參數(shù)生成發(fā)言者模型,將該發(fā)言者模型與對應(yīng)的ID存儲在數(shù)據(jù)庫中的身份索引表中。在提取到特征參數(shù)之后,會議終端將該特征參數(shù)與身份索引表中的發(fā)言者模型進行比較,并得到匹配得分。如果匹配得分達到一定分數(shù),則表明索引表中存在該特征參數(shù)對應(yīng)的發(fā)言者模型,由此即可得到發(fā)言者ID,確認發(fā)言者身份。否則,表明索引表中不存在該特征參數(shù)對應(yīng)的發(fā)言者模型,則根據(jù)該特征參數(shù)生成發(fā)言者模型以及對應(yīng)的ID,并存儲在身份索引表中,以便后續(xù)方便查找應(yīng)用。上述特征參數(shù)可以是上述音視頻信號中語音信號攜帶的發(fā)言者語音信號中的語調(diào)、音頻或者是上述音視頻信號中的視頻信號攜帶的面部特征等,在此不再一一列舉。通過該優(yōu)選實施方式,會議終端可以更加清晰形象的根據(jù)特征參數(shù)確定發(fā)言者的身份。對于上述優(yōu)選實施方式,下面對于特征參數(shù)是語音信號中的語調(diào)、音頻的情況進行具體說明,對于特征參數(shù)是音視頻信號中的面部特征等情況時,本實施例對于識別身份的過程不再詳細說明。該實施例中的會議終端可以包括音頻采集模塊、模數(shù)(A/D)轉(zhuǎn)換模塊、特征提取模塊和模式匹配模塊。圖4所示的是根據(jù)發(fā)言者模型識別發(fā)言者身份的示意圖,發(fā)言者的身份識別包括本端發(fā)言者的身份識別和遠端發(fā)言者的身份識別,下面對于本端發(fā)言者的身份識別過程進行詳細介紹。首先注冊語音,即利用音頻采集模塊采集發(fā)言者的語音信號,并通過A/D轉(zhuǎn)換模塊將語音信號轉(zhuǎn)化成數(shù)字語音信號,然后特征提取模塊將該數(shù)字語音信號轉(zhuǎn)化為需要的特征量,以聲學(xué)特征為例,首先將每個語音段(語音段一般橫跨其語音波形的10-30毫秒,即語音幀,相鄰語音幀時間存在一定重疊)映射到一個多維的特征空間,然后轉(zhuǎn)化為一個特征變量,這樣,一句完整的語音被轉(zhuǎn)化成一個特征向量序列,然后通過注冊語音的特征向量生成發(fā)言者模型,并存儲在數(shù)據(jù)庫中。在音頻采集模塊采集到后續(xù)的發(fā)言者的語音信號時,同樣將該語音信號通過A/ D轉(zhuǎn)換模塊轉(zhuǎn)化成數(shù)字語音信號,特征提取模塊將該數(shù)字語音信號轉(zhuǎn)化為需要的特征量序列。然后進入模式匹配的階段,將上述特征向量序列輸入模式匹配模塊,通過模式匹配技術(shù)將該特征向量與發(fā)言者模型進行比較,并得到模式匹配得分,該模式匹配得分衡量了實際發(fā)言者的特征向量序列和數(shù)據(jù)庫中的發(fā)言者模型的相似程度,這樣就到了裁決階段,即如果模式匹配(比如模式匹配得分達到一定分數(shù)),則表明實際發(fā)言者的特征量序列已經(jīng)在數(shù)據(jù)庫中存儲,這樣就可以數(shù)據(jù)庫中的索引表中獲取發(fā)言者ID,如果模式不匹配,則根據(jù)實際發(fā)言者的特征量序列建立發(fā)言者模型,將該發(fā)言者模型存儲在數(shù)據(jù)庫中,并生成對應(yīng)該發(fā)言者的ID號,并將該ID號與對應(yīng)的發(fā)言者模型加入到身份索引表中,方便后續(xù)可以直接根據(jù)匹配的發(fā)言者模型獲取發(fā)言者的ID,從而確認發(fā)言者的身份。上面介紹的是本端發(fā)言者的身份識別過程,對于遠端發(fā)言者的身份識別過程,也可以采取遠端在其本地進行發(fā)言者的身份識別,這種方式,本端僅需要向遠端發(fā)送一個查詢請求,遠端收到該請求后,將其身份ID反饋給該本端?;蛘撸h端也可以采用主動發(fā)送身份ID給該本端,而不需要本端發(fā)送查詢請求。更方便本端獲取遠端的身份ID。在上述步驟S104中,會議終端將上述音視頻信號中的語音信號轉(zhuǎn)化成對應(yīng)的文本,在上述步驟S106中,會議終端根據(jù)設(shè)定的提取規(guī)則從上述文本中提取出會議紀(jì)要,在此之后,會議終端可以對上述會議紀(jì)要和/或上述文本進行操作,比如可以將會議紀(jì)要和/ 或文本以郵件或傳真形式發(fā)送給指定用戶,向指定用戶提供以網(wǎng)頁web顯示方式瀏覽會議紀(jì)要和/或文本,將會議紀(jì)要和/或文本作為字幕與音視頻信號中的圖像組合等等。該優(yōu)選實施方式在會議終端根據(jù)語音信號轉(zhuǎn)化出文本,并提取出會議紀(jì)要之后,對該會議紀(jì)要和/ 或文本進一步應(yīng)用,使會議終端的功能更加完善,提升了用戶體驗。在上述步驟S106中,會議終端根據(jù)設(shè)定的提取規(guī)則從上述文本中提取出會議紀(jì)要,該設(shè)定的提取規(guī)則可以是關(guān)鍵詞或者語音信號的語調(diào)等,即會議終端可以根據(jù)設(shè)定的關(guān)鍵詞和/或語音信號的語調(diào)提取會議紀(jì)要。圖5是根據(jù)本發(fā)明實施例的終端提取會議紀(jì)要的示意圖,該終端可以包括文本轉(zhuǎn)化模塊和生物特征識別模塊,如圖5所示,終端提取會議紀(jì)要的過程如下所示步驟1 終端通過文本轉(zhuǎn)化模塊將音頻輸入信號轉(zhuǎn)化成對應(yīng)的文本;步驟2 終端通過生物特征識別模塊獲得能代表發(fā)言者身份的發(fā)言者ID號;步驟3 將發(fā)言者ID與經(jīng)過語音識別轉(zhuǎn)化后的所示文本建立關(guān)聯(lián);
步驟4 在上述文本中提取出會議紀(jì)要,對上述文本和/或會議紀(jì)要進行操作,該具體操作同上,這里不再描述。圖6是根據(jù)本發(fā)明實施例的終端提取會議紀(jì)要的方法的流程圖,該終端可以包括語音識別模塊和發(fā)言者識別模塊,如圖6所示,該方法包括如下步驟(步驟S602-步驟 S610)步驟S602,終端通過麥克風(fēng)獲取發(fā)言者的音頻流,或者通過音頻解碼器解碼其他會場發(fā)言者的音頻流。步驟S604,終端通過語音識別模塊將音頻流中的語音信號轉(zhuǎn)化成文本文檔,并作為會議記錄進行存儲。步驟S606,終端通過發(fā)言者識別模塊對發(fā)言者身份進行識別,并建立發(fā)言者的ID 號與語音文本的映射關(guān)系。步驟S608,終端根據(jù)特性詞的模式匹配或語音的響度等特征,對發(fā)言者的語音文本進行歸納,并通過總結(jié)性關(guān)鍵詞匹配和發(fā)言者的語調(diào)分析等,歸納出發(fā)言內(nèi)容的重點內(nèi)容,并作為會議紀(jì)要進行存儲。步驟S610,對上述會議記錄和/或會議紀(jì)要實施具體操作,該具體操作同上,這里不再描述。圖7是根據(jù)本發(fā)明實施例的視頻會議終端提取會議紀(jì)要的方法的流程圖,如圖7 所示,該方法包括如下步驟(步驟S702-步驟S7M)步驟S702,視頻會議終端web界面啟動,會議紀(jì)要功能可以默認打開或關(guān)閉,與會者在召開視頻會議前可修改會議紀(jì)要是否開啟;如果開啟,執(zhí)行步驟S704,如果關(guān)閉,執(zhí)行步驟S7M。步驟S704,采集語音信號,語音輸入有兩個來源,對于本端,通過話筒可以檢測到語音信號輸入;對于遠端,接收線路上的音頻包,可以通過音頻解碼器解碼后獲得遠端音頻輸入源。然后執(zhí)行步驟S706或步驟S710,步驟S706和步驟S710沒有時間先后關(guān)系。步驟S706,進行語音識別,將數(shù)字語音信號轉(zhuǎn)化成語音內(nèi)容,并將該語音內(nèi)容存儲在會議紀(jì)要存儲單元臨時緩沖區(qū)。步驟S708,根據(jù)總結(jié)性關(guān)鍵詞匹配,提取發(fā)言者的總結(jié)性發(fā)言,以漢語發(fā)言為例, 其關(guān)鍵詞可以為但不限于“總之”,“首先”,“第一”等等。然后執(zhí)行步驟S720。步驟S710,識別發(fā)言者身份,提取語音信號中的特征量。步驟S712,根據(jù)上述特征量判斷是否存在相匹配的發(fā)言者模型,如果不存在,執(zhí)行步驟S714,如果存在,執(zhí)行步驟S718。步驟S714,根據(jù)上述特征量建立對應(yīng)的發(fā)言者模型。步驟S716,生成上述發(fā)言者模型對應(yīng)的ID,將該ID與該發(fā)言者模型的對應(yīng)關(guān)系存儲在身份索引表中。步驟S718,根據(jù)發(fā)言者模型,在身份索引表中獲取到對應(yīng)的發(fā)言者的ID。步驟S720,將發(fā)言者的ID與發(fā)言者的總結(jié)性發(fā)言和/或語音內(nèi)容按規(guī)則結(jié)合,形成對應(yīng)于發(fā)言者ID的語音文件,對應(yīng)規(guī)則可以但不限于以下兩種方式將發(fā)言者身份ID作為語音文件的文件名,或者,將發(fā)言者的ID或其對應(yīng)的名字加在文字前面以區(qū)分不同發(fā)言者的內(nèi)容。
步驟S722,對上述語音文件進行操作,該具體操作同上,這里不再描述。步驟S7M,視頻會議終端提取會議紀(jì)要的流程結(jié)束。上述實施例僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,比如不只是可以通過語音信號的特征量生成發(fā)言者模型,還可以通過其他生物特征等(比如面部特征等)生成發(fā)言者模型,在此不再贅述。圖8是根據(jù)本發(fā)明實施例的視頻會議終端的示意圖,如圖8所示,假設(shè)有三個用戶參加了一個會議,每個用戶使用一個會議終端。在開會過程中,會議終端提取會議紀(jì)要的過程可以參考上述圖7的流程,在此不再進行詳細說明。對應(yīng)于上述會議紀(jì)要的提取方法,本實施例提供了一種會議紀(jì)要的提取裝置,該裝置用于實現(xiàn)上述實施例。圖9是根據(jù)本實施例的會議紀(jì)要的提取裝置的結(jié)構(gòu)框圖,該裝置可以在會議終端側(cè)實現(xiàn),如圖9所示,該裝置包括音視頻信號獲取模塊90、文本轉(zhuǎn)化模塊92、身份獲取模塊94、關(guān)聯(lián)建立模塊96和會議紀(jì)要提取模塊98。下面對該結(jié)構(gòu)進行說明。音視頻信號獲取模塊90,用于獲取音視頻信號;文本轉(zhuǎn)化模塊92,連接至音視頻信號獲取模塊90,用于將音視頻信號獲取模塊90 獲取的音視頻信號中的語音信號轉(zhuǎn)化成對應(yīng)的文本;身份獲取模塊94,連接至音視頻信號獲取模塊90,用于獲取音視頻信號獲取模塊 90獲取的音視頻信號的發(fā)言者的身份;關(guān)聯(lián)建立模塊96,連接至文本轉(zhuǎn)化模塊92和身份獲取模塊94,用于將文本轉(zhuǎn)化模塊92轉(zhuǎn)化的文本與身份獲取模塊94獲取的發(fā)言者建立關(guān)聯(lián);會議紀(jì)要提取模塊98,連接至關(guān)聯(lián)建立模塊96,用于根據(jù)設(shè)定的提取規(guī)則從文本轉(zhuǎn)化模塊82轉(zhuǎn)化的文本中提取出會議紀(jì)要,其中,該會議紀(jì)要與上述發(fā)言者相關(guān)聯(lián)。通過上述裝置,文本轉(zhuǎn)化模塊92將音視頻信號中的語音信號轉(zhuǎn)化成文本,身份獲取模塊94根據(jù)音視頻信號獲取發(fā)言者的身份,然后關(guān)聯(lián)建立模塊96將該文本與該發(fā)言者相關(guān)聯(lián),會議紀(jì)要提取模塊98再從該文本中提取出會議紀(jì)要,解決了相關(guān)技術(shù)中基于語音識別方式得到的會議記錄篇幅冗長,發(fā)言內(nèi)容無法對應(yīng)到具體發(fā)言對象的問題,從而可以將會議內(nèi)容與具體發(fā)言對象相對應(yīng),并自動完成會議內(nèi)容的整理,歸納出發(fā)言對象的發(fā)言重點,提高了視頻會議的智能性,提升了用戶體驗。本實施例中的身份獲取模塊94獲取音視頻信號的發(fā)言者的身份,該音視頻信號可能是本端發(fā)言者相對應(yīng)的音視頻信號,也可能是遠端發(fā)言者相對應(yīng)的音視頻信號,如果音視頻信號是本端發(fā)言者的音視頻信號,則根據(jù)該音視頻信號識別發(fā)言者的身份,如果音視頻信號是遠端發(fā)言者的音視頻信號,則有兩種方式獲取發(fā)言者的身份,一種方式是遠端設(shè)備獲取到音視頻信號后,位于遠端的會議終端在其本地根據(jù)該音視頻信號識別發(fā)言者的身份,再將該身份信息發(fā)送到本端,另一種方式是遠端設(shè)備將獲取到的音視頻信號發(fā)送至本端,然后位于本端的會議終端根據(jù)該音視頻信號識別發(fā)言者的身份。因此本實施例提供了一種優(yōu)選實施方式,身份獲取模塊94可以包括身份識別子模塊或者身份接收子模塊,身份識別子模塊,用于根據(jù)獲取的音視頻信號識別發(fā)言者的身份;其中,該音視頻信號來自本端或者遠端的發(fā)言者;身份接收子模塊,用于在音視頻信號為遠端發(fā)言者的音視頻信號的情況下,接收該遠端發(fā)言者提供的身份信息。本優(yōu)選實施方
10式可以更方便的確認本端發(fā)言者的身份,并且對于遠端發(fā)言者而言,會議終端也可以更加方便靈活的確定其身份。身份識別子模塊根據(jù)音視頻信號獲取發(fā)言者身份,該方式可以是根據(jù)該音視頻信號提取特征參數(shù),再根據(jù)該特征參數(shù)確定發(fā)言者的ID,由此ID即可得知發(fā)言者的身份。因此,身份識別子模塊可以包括特征參數(shù)提取單元,用于根據(jù)上述音視頻信號提取特征參數(shù);標(biāo)識確定單元,用于根據(jù)特征參數(shù)提取單元提取的上述特征參數(shù)確定發(fā)言者標(biāo)識ID。 該特征參數(shù)可以是上述音視頻信號中語音信號攜帶的發(fā)言者的語調(diào)、音頻等特征,或者是上述音視頻信號中的視頻信號攜帶的面部特征等,在此不再一一列舉。對于根據(jù)特征參數(shù)確定發(fā)言者的ID的過程,本實施例提供了一種優(yōu)選實施方式, 該方式具體過程是上述裝置建立身份索引表,在該身份索引表中存儲了預(yù)先注冊的特征參數(shù)與發(fā)言者的ID的對應(yīng)關(guān)系,在音視頻信號中提取到特征參數(shù)之后,上述裝置根據(jù)該特征參數(shù)在身份索引表中查到與其對應(yīng)的ID,如果在身份索引表中沒有查找到與上述特征參數(shù)對應(yīng)的ID,則根據(jù)該特征參數(shù)生成發(fā)言者ID,并將該特征參數(shù)與該ID的對應(yīng)關(guān)系存儲在身份索引表中。對于上述根據(jù)特征參數(shù)確定發(fā)言者的ID的過程,本實施例提供了一種優(yōu)選實施方式,如圖10所示,該裝置除了包括圖9所示的各個模塊之外,身份獲取模塊94中的標(biāo)識確定單元10可以包括標(biāo)識查找子單元100、標(biāo)識生成子單元102和對應(yīng)關(guān)系存儲子單元 104。下面對該結(jié)構(gòu)進行說明。標(biāo)識查找子單元100,用于使用上述特征參數(shù)在身份索引表中查找發(fā)言者ID,其中,該身份索引表中存儲有預(yù)先注冊的特征參數(shù)與ID的對應(yīng)關(guān)系;標(biāo)識生成子單元102,連接至標(biāo)識查找子單元100,用于在標(biāo)識查找子單元100未查找到發(fā)言者ID的情況下,根據(jù)上述特征參數(shù)生成發(fā)言者ID ;對應(yīng)關(guān)系存儲子單元104,連接至標(biāo)識生成子單元102,用于將上述特征參數(shù)與生成的上述發(fā)言者ID的對應(yīng)關(guān)系存儲在上述身份索引表。標(biāo)識確定單元10根據(jù)特征參數(shù)確定發(fā)言者的ID還可以采取另一種優(yōu)選實施方式,即可以根據(jù)特征參數(shù)生成發(fā)言者模型,這樣可以更加清晰形象的根據(jù)特征參數(shù)確定發(fā)言者的身份,該優(yōu)選實施方式在前面已經(jīng)進行了詳細介紹,在此不再贅述。文本轉(zhuǎn)化模塊92將上述音視頻信號中的語音信號轉(zhuǎn)化成對應(yīng)的文本,會議紀(jì)要提取模塊98根據(jù)設(shè)定的提取規(guī)則從上述文本中提取出會議紀(jì)要,在此之后,上述裝置還可以對上述會議紀(jì)要和/或上述文本進行操作,因此,在本實施例的一個優(yōu)選實施方式中,上述裝置還可以包括操作模塊,用于對會議紀(jì)要提取模塊98提取的會議紀(jì)要和/或文本轉(zhuǎn)化模塊92轉(zhuǎn)化的文本進行操作。更優(yōu)選地,上述操作模塊可以包括第一操作子模塊,用于將會議紀(jì)要和/或文本以郵件形式發(fā)送給指定用戶;和/或,第二操作子模塊,用于向指定用戶提供以web顯示方式瀏覽會議紀(jì)要和/或文本;和/或,第三操作子模塊,用于將會議紀(jì)要和/或文本與音視頻信號中的圖像組合。該優(yōu)選實施方式在文本轉(zhuǎn)化模塊92根據(jù)語音信號轉(zhuǎn)化出文本,并且會議紀(jì)要提取模塊98提取出會議紀(jì)要之后,操作模塊對該會議紀(jì)要和/或文本進一步應(yīng)用,使上述裝置的功能更加完善,提升了用戶體驗。會議紀(jì)要提取模塊98根據(jù)設(shè)定的提取規(guī)則從上述文本中提取出會議紀(jì)要,該設(shè)定的提取規(guī)則可以是關(guān)鍵詞或者語音信號的語調(diào)等,因此會議紀(jì)要提取模塊98還可以包括第一提取子模塊,用于根據(jù)設(shè)定的關(guān)鍵詞提取會議紀(jì)要;和/或,第二提取子模塊,用于根據(jù)語音信號的語調(diào)提取會議紀(jì)要。從以上的描述中可以看出,本發(fā)明既能生成整場會議下來與每位發(fā)言者對應(yīng)的會議記錄,又能整理出每位發(fā)言者表達的要點,提高了視頻會議的智能性,并且可以減少會議記錄的篇幅,方便發(fā)言者后續(xù)對會議內(nèi)容的回顧,提升了用戶體驗。顯然,本領(lǐng)域的技術(shù)人員應(yīng)該明白,上述的本發(fā)明的各模塊或各步驟可以用通用的計算裝置來實現(xiàn),它們可以集中在單個的計算裝置上,或者分布在多個計算裝置所組成的網(wǎng)絡(luò)上,可選地,它們可以用計算裝置可執(zhí)行的程序代碼來實現(xiàn),從而,可以將它們存儲在存儲裝置中由計算裝置來執(zhí)行,并且在某些情況下,可以以不同于此處的順序執(zhí)行所示出或描述的步驟,或者將它們分別制作成各個集成電路模塊,或者將它們中的多個模塊或步驟制作成單個集成電路模塊來實現(xiàn)。這樣,本發(fā)明不限制于任何特定的硬件和軟件結(jié)合。以上所述僅為本發(fā)明的優(yōu)選實施例而已,并不用于限制本發(fā)明,對于本領(lǐng)域的技術(shù)人員來說,本發(fā)明可以有各種更改和變化。凡在本發(fā)明的精神和原則之內(nèi),所作的任何修改、等同替換、改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
權(quán)利要求
1.一種會議紀(jì)要的提取方法,其特征在于包括 獲取音視頻信號;將所述音視頻信號中的語音信號轉(zhuǎn)化成對應(yīng)的文本,并獲取所述音視頻信號的發(fā)言者的身份,將所述文本與所述發(fā)言者建立關(guān)聯(lián);根據(jù)設(shè)定的提取規(guī)則從所述文本中提取出會議紀(jì)要,其中,所述會議紀(jì)要與所述發(fā)言者相關(guān)聯(lián)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,獲取所述音視頻信號的發(fā)言者的身份包括根據(jù)獲取的所述音視頻信號識別發(fā)言者的身份;其中,所述音視頻信號來自本端或者遠端的發(fā)言者;或者,如果所述音視頻信號為遠端發(fā)言者的音視頻信號,接收所述遠端發(fā)言者提供的身份信肩、ο
3.根據(jù)權(quán)利要求2所述的方法,其特征在于,根據(jù)所述音視頻信號識別發(fā)言者的身份包括根據(jù)所述音視頻信號提取特征參數(shù),根據(jù)所述特征參數(shù)確定發(fā)言者標(biāo)識ID。
4.根據(jù)權(quán)利要求3所述的方法,其特征在于,根據(jù)所述特征參數(shù)確定發(fā)言者ID包括 使用所述特征參數(shù)在身份索引表中查找發(fā)言者ID,其中,所述身份索引表中存儲有預(yù)先注冊的特征參數(shù)與ID的對應(yīng)關(guān)系;如果未查找到發(fā)言者ID,根據(jù)所述特征參數(shù)生成發(fā)言者ID,并將所述特征參數(shù)與生成的所述發(fā)言者ID的對應(yīng)關(guān)系存儲在所述身份索引表。
5.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述方法還包括對所述會議紀(jì)要和/或所述文本進行操作,所述操作至少包括以下方式之一將所述會議紀(jì)要和/或所述文本以郵件或傳真形式發(fā)送給指定用戶; 向指定用戶提供以網(wǎng)頁顯示方式瀏覽所述會議紀(jì)要和/或所述文本; 將所述會議紀(jì)要和/或所述文本與所述音視頻信號中的圖像組合。
6.根據(jù)權(quán)利要求1所述的方法,其特征在于,根據(jù)設(shè)定的提取規(guī)則從所述文本中提取出所述會議紀(jì)要包括根據(jù)設(shè)定的關(guān)鍵詞和/或所述語音信號的語調(diào)提取所述會議紀(jì)要。
7.—種會議紀(jì)要的提取裝置,其特征在于包括 音視頻信號獲取模塊,用于獲取音視頻信號;文本轉(zhuǎn)化模塊,用于將所述音視頻信號獲取模塊獲取的所述音視頻信號中的語音信號轉(zhuǎn)化成對應(yīng)的文本;身份獲取模塊,用于獲取所述音視頻信號獲取模塊獲取的所述音視頻信號的發(fā)言者的身份;關(guān)聯(lián)建立模塊,用于將所述文本轉(zhuǎn)化模塊轉(zhuǎn)化的所述文本與所述身份獲取模塊獲取的所述發(fā)言者建立關(guān)聯(lián);會議紀(jì)要提取模塊,用于根據(jù)設(shè)定的提取規(guī)則從所述文本轉(zhuǎn)化模塊轉(zhuǎn)化的所述文本中提取出會議紀(jì)要,其中,所述會議紀(jì)要與所述發(fā)言者相關(guān)聯(lián)。
8.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述身份獲取模塊包括以下之一身份識別子模塊,用于根據(jù)獲取的所述音視頻信號識別發(fā)言者的身份;其中,所述音視頻信號來自本端或者遠端的發(fā)言者;或者,身份接收子模塊,用于在所述音視頻信號為遠端發(fā)言者的音視頻信號的情況下,接收所述遠端發(fā)言者提供的身份信息。
9.根據(jù)權(quán)利要求8所述的裝置,其特征在于,所述身份識別子模塊包括 特征參數(shù)提取單元,用于根據(jù)所述音視頻信號提取特征參數(shù);標(biāo)識確定單元,用于根據(jù)所述特征參數(shù)提取單元提取的所述特征參數(shù)確定發(fā)言者標(biāo)識ID。
10.根據(jù)權(quán)利要求9所述的裝置,其特征在于,所述標(biāo)識確定單元包括標(biāo)識查找子單元,用于使用所述特征參數(shù)在身份索引表中查找發(fā)言者ID,其中,所述身份索引表中存儲有預(yù)先注冊的特征參數(shù)與ID的對應(yīng)關(guān)系;標(biāo)識生成子單元,用于在所述標(biāo)識查找子單元未查找到發(fā)言者ID的情況下,根據(jù)所述特征參數(shù)生成發(fā)言者ID ;對應(yīng)關(guān)系存儲子單元,用于將所述特征參數(shù)與生成的所述發(fā)言者ID的對應(yīng)關(guān)系存儲在所述身份索引表。
11.根據(jù)權(quán)利要求7所述的裝置,其特征在于,所述會議紀(jì)要提取模塊包括 第一提取子模塊,用于根據(jù)設(shè)定的關(guān)鍵詞提取所述會議紀(jì)要;和/或, 第二提取子模塊,用于根據(jù)所述語音信號的語調(diào)提取所述會議紀(jì)要。
全文摘要
本發(fā)明公開了一種會議紀(jì)要的提取方法和裝置。其中,該方法包括獲取音視頻信號;將該音視頻信號中的語音信號轉(zhuǎn)化成對應(yīng)的文本,并獲取該音視頻信號的發(fā)言者的身份,將上述文本與上述發(fā)言者建立關(guān)聯(lián);根據(jù)設(shè)定的提取規(guī)則從上述文本中提取出會議紀(jì)要,其中,該會議紀(jì)要與上述發(fā)言者相關(guān)聯(lián)。通過本發(fā)明,解決了相關(guān)技術(shù)中基于語音識別方式得到的會議記錄篇幅冗長,發(fā)言內(nèi)容無法對應(yīng)到具體發(fā)言對象的問題,從而可以將會議內(nèi)容與具體發(fā)言對象相對應(yīng),并自動完成會議內(nèi)容的整理,歸納出發(fā)言對象的發(fā)言重點,提高了視頻會議的智能性,提升了用戶體驗。
文檔編號H04N7/15GK102572372SQ201110448509
公開日2012年7月11日 申請日期2011年12月28日 優(yōu)先權(quán)日2011年12月28日
發(fā)明者付賢會, 修巖, 李霞 申請人:中興通訊股份有限公司