本發(fā)明涉及通信領域中的語音信息識別技術,尤其涉及一種語音信息識別方法和設備。
背景技術:
隨著智能電子設備的不斷更新,語音識別的應用越來與廣泛;但是,日常應用場景中經(jīng)常會出現(xiàn)電子設備會同時接收到多個用戶發(fā)送的語音信息的問題,此時,電子設備無法匹配語音信息至對應的說話者,進而不知道究竟應該執(zhí)行哪一個語音信息對應的操作。
現(xiàn)有技術中的可以根據(jù)不同語音的屬性將語音信息與用戶進行匹配,但是,用于描述語音信息的屬性較多,如果需要識別的語音信息較長且包括的用戶數(shù)較多,計算量比較大,實際操作起來比較復雜而且難度較大,導致用戶體驗較差。
技術實現(xiàn)要素:
為解決上述技術問題,本發(fā)明實施例期望提供一種語音信息識別方法和設備,解決了現(xiàn)有技術中的語音信息識別方案的計算量較大且操作復雜難度較大的問題,降低了語音信息識別的難度,減少了計算量;同時,提高了用戶的體驗效果。
本發(fā)明的技術方案是這樣實現(xiàn)的:
一種語音信息識別方法,所述方法包括:
獲取待識別語音流信息;
對所述待識別語音流信息進行分析,提取所述待識別語音流信息對應的第一向量;
將所述第一向量進行分段整理,得到第二向量;
按照預設分類原則對所述第一向量進行分類得到第三向量;
根據(jù)每一分段的所述第二向量與每一類別所述第三向量之間的關系,將所述待識別語音流信息與用戶進行匹配。
可選的,所述將所述第一向量進行分段整理,得到第二向量,包括:
根據(jù)所述待識別語音流信息的播放時間,按照所述預設時間間隔將所述第一向量進行分段整理,得到所述第二向量。
可選的,所述按照預設分類原則對所述第一向量進行分類得到第三向量,包括:
對所述第一向量進行主成分分析,得到第四向量;
根據(jù)所述第四向量對所述第一向量進行分類整理,得到所述第三向量。
可選的,所述根據(jù)所述第四向量對所述第一向量進行分類整理,得到所述第三向量,包括:
根據(jù)所述第四向量對所述第一向量進行變分貝葉斯高斯混合模型聚類,得到所述第三向量。
可選的,所述根據(jù)每一分段的所述第二向量與每一類別所述第三向量之間的關系,將所述待識別語音流信息與用戶身份信息進行匹配,包括:
將每一分段中的每一所述第二向量與每一類別中的每一所述第三向量進行匹配;
若每一分段中的每一所述第二向量與每一類別中的每一所述第三向量完全匹配,則分別對每一分段中的所述第二向量對應的待識別語音流信息進行聲紋信息識別,得到所述待識別語音流信息對應的用戶的身份信息。
可選的,所述方法還包括:
若每一分段中的每一所述第二向量與每一類別中的每一所述第三向量不完全匹配,則對所述第二向量中的分段進行重新分段處理同時采用維特彼算法對所述第三向量進行重新分類,直到重新分段之后的每一段中的所述第二向量與重新分類之后的每一所述第三向量完全匹配;
分別對每一分段中的所述第二向量對應的待識別語音流信息進行聲紋信息識別,得到所述待識別語音流信息對應的用戶的身份信息。
一種語音信息識別設備,所述設備包括:第一獲取單元、第二獲取單元、第三獲取單元和處理單元,其中:
所述第一獲取單元,用于獲取待識別語音流信息;
所述第一獲取單元,還用于對所述待識別語音流信息進行分析,提取所述待識別語音流信息對應的第一向量;
所述第二獲取單元,用于將所述第一向量進行分段整理,得到第二向量;
所述第三獲取單元,用于按照預設分類原則對所述第一向量進行分類得到第三向量;
所述處理單元,用于根據(jù)每一分段的所述第二向量與每一類別所述第三向量之間的關系,將所述待識別語音流信息與用戶進行匹配。
可選的,所述第二獲取單元具體用于:
根據(jù)所述待識別語音流信息的播放時間,按照所述預設時間間隔將所述第一向量進行分段整理,得到所述第二向量。
可選的,所述第三獲取單元包括:分析模塊和第一處理模塊,其中:
所述分析模塊,用于對所述第一向量進行主成分分析,得到第四向量;
所述第一處理模塊,用于根據(jù)所述第四向量對所述第一向量進行分類整理,得到所述第三向量。
可選的,所述第一處理模塊具體用于:
根據(jù)所述第四向量對所述第一向量進行變分貝葉斯高斯混合模型聚類,得到所述第三向量。
可選的,所述處理單元包括:匹配模塊和第二處理模塊,其中:
所述匹配模塊,用于將每一分段中的每一所述第二向量與每一類別中的每一所述第三向量進行匹配;
所述第二處理模塊,用于若每一分段中的每一所述第二向量與每一類別中的每一所述第三向量完全匹配,則分別對每一分段中的所述第二向量對應的待識別語音流信息進行聲紋信息識別,得到所述待識別語音流信息對應的用戶的身份信息。
可選的,所述處理單元還包括:第三處理模塊和第四處理模塊,其中:
所述第三處理模塊,用于若每一分段中的每一所述第二向量與每一類別中的每一所述第三向量不完全匹配,則對所述第二向量中的分段進行重新分段處理同時采用維特彼算法對所述第三向量進行重新分類,直到重新分段之后的每一段中的所述第二向量與重新分類之后的每一所述第三向量完全匹配;
所述第四處理模塊,用于分別對每一分段中的所述第二向量對應的待識別語音流信息進行聲紋信息識別,得到所述待識別語音流信息對應的用戶的身份信息。
本發(fā)明的實施例所提供的語音信息識別方法和設備,可以獲取待識別語音流信息,并對待識別語音流信息進行分析,提取待識別語音流信息對應的第一向量,然后將第一向量進行分段整理,得到第二向量,同時按照預設分類原則對第一向量進行分類得到第三向量,最后,根據(jù)每一分段的第二向量與每一類別第三向量之間的關系,將待識別語音流信息與用戶進行匹配,這樣,可以根據(jù)待識別語音流信息對應的向量來得到與待識別語音流信息匹配的用戶,解決了現(xiàn)有技術中的語音信息識別方案的計算量較大且操作復雜難度較大的問題,降低了語音信息識別的難度,減少了計算量;同時,提高了用戶的體驗效果。
附圖說明
圖1為本發(fā)明的實施例提供的一種語音信息識別方法的流程示意圖;
圖2為本發(fā)明的實施例提供的另一種語音信息識別方法的流程示意圖;
圖3為本發(fā)明的實施例提供的又一種語音信息識別方法的流程示意圖;
圖4為本發(fā)明的實施例提供的一種語音信息識別設備的結構示意圖;
圖5為本發(fā)明的實施例提供的另一種語音信息識別設備的結構示意圖;
圖6為本發(fā)明的實施例提供的又一種語音信息識別設備的結構示意圖;
圖7為本發(fā)明的另一實施例提供的一種語音信息識別設備的結構示意圖。
具體實施方式
下面將結合本發(fā)明實施例中的附圖,對本發(fā)明實施例中的技術方案進行清楚、完整地描述。
本發(fā)明的實施例提供一種語音信息識別方法,參照圖1所示,該方法包括以下步驟:
步驟101、獲取待識別語音流信息。
具體的,步驟101獲取待識別語音流信息可以是由語音信息識別設備來實現(xiàn)的。待識別語音流信息可以是用戶輸入至電子設備的需要進行語音識別的語音信息,需要識別的語音信息可以是通過電子設備的語音采集器例如話筒等獲取得到的。
步驟102、對待識別語音流信息進行分析,提取待識別語音流信息對應的第一向量。
具體的,步驟102對待識別語音流信息進行分析,提取待識別語音流信息對應的第一向量可以是由語音信息識別設備來實現(xiàn)的;可以將需要識別的語音流信息在初始分段條件下進行提取向量并標準化來得到第一向量。
步驟103、將第一向量進行分段整理,得到第二向量。
具體的,步驟103將第一向量進行分段整理,得到第二向量可以是由語音信息識別設備來實現(xiàn)的。其中,第一向量的分段可以是按照預先設置好的時間段進行均勻的分段,也可以是根據(jù)具體的需求進行非均勻的分段。
步驟104、按照預設分類原則對第一向量進行分類得到第三向量。
具體的,步驟104按照預設分類原則對第一向量進行分類得到第三向量可以是由語音信息識別設備來實現(xiàn)的。
步驟105、根據(jù)每一分段的第二向量與每一類別第三向量之間的關系,將待識別語音流信息與用戶進行匹配。
具體的,步驟105根據(jù)每一分段的第二向量與每一類別第三向量之間的關系,將待識別語音流信息與用戶進行匹配可以是由語音信息識別設備來實現(xiàn)的;可以比較分段之后得到的每一段中的第二向量與分類之后每一類中的第三向量之間的匹配關系,并根據(jù)比較結果獲取需要識別的語音信息對應的用戶的信息,實現(xiàn)待識別語音流信息與用戶的匹配。
本發(fā)明的實施例所提供的語音信息識別方法,可以獲取待識別語音流信息,并對待識別語音流信息進行分析,提取待識別語音流信息對應的第一向量,然后將第一向量進行分段整理,得到第二向量,同時按照預設分類原則對第一向量進行分類得到第三向量,最后,根據(jù)每一分段的第二向量與每一類別第三向量之間的關系,將待識別語音流信息與用戶進行匹配,這樣,可以根據(jù)待識別語音流信息對應的向量來得到與待識別語音流信息匹配的用戶,解決了現(xiàn)有技術中的語音信息識別方案的計算量較大且操作復雜難度較大的問題,降低了語音信息識別的難度,減少了計算量;同時,提高了用戶的體驗效果。
本發(fā)明的實施例提供一種語音信息識別方法,參照圖2所示,該方法包括以下步驟:
步驟201、語音信息識別設備獲取待識別語音流信息。
步驟202、語音信息識別設備對待識別語音流信息進行分析,提取待識別語音流信息對應的第一向量。
具體的,第一向量可以是在初始分段條件下對需要識別的語音流信息進行i向量的提取并標準化得到的;例如可以按照需要識別的語音信息播放的時間,并以每1秒為單位進行初始分段得到需要識別的語音信息對應的第一向量。
步驟203、語音信息識別設備根據(jù)待識別語音流信息的播放時間,按照預設時間間隔將第一向量進行分段整理,得到第二向量。
其中,該預設時間間隔可以是用戶根據(jù)具體應用場景中需要識別的語音信息的播放時長、需要識別的語音信息中對應的用戶的數(shù)量、識別成功的比率等因素預先設定的一個時間間隔,例如可以是以一分鐘或者五分鐘等時間間隔為單元,按照需要識別的語音信息實際的播放時間和順序,每一分鐘或者每五分鐘時長內(nèi)的語音信息為一段,分段之后每一段需要識別的語音信息其對應的向量組成的向量集合即為第二向量。
需要說明的是,本實施例中說的是可以根據(jù)預設時間間隔對第一向量進行分段整理得到第二向量,同樣可以按照不同的時間間隔對第一向量進行分段整理來得到第二向量,具體的分段方案可以根據(jù)實際的應用場景來確定。
步驟204、語音信息識別設備對第一向量進行主成分分析,得到第四向量。
具體的,對第一向量進行主成分分析可以是基于一定的因素分析第一向量,具體的主成分分析的實現(xiàn)過程可以參照現(xiàn)有技術中關于主成分分析的相關技術方案。
步驟205、語音信息識別設備根據(jù)第四向量對第一向量進行分類整理,得到第三向量。
具體的,對第一向量進行分類的可以是以第四向量為基準,將第一向量映射到每一第四向量中,之后根據(jù)實際的映射結果分類得到第三向量。
步驟206、根據(jù)每一分段的第二向量與每一類別第三向量之間的關系,將待識別語音流信息與用戶進行匹配。
需要說明的是,本實施例中與其它實施例中相同步驟或概念的解釋,可以參照其它實施例中的描述,此處不再贅述。
本發(fā)明的實施例所提供的語音信息識別方法,可以獲取待識別語音流信息,并對待識別語音流信息進行分析,提取待識別語音流信息對應的第一向量,然后將第一向量進行分段整理,得到第二向量,同時按照預設分類原則對第一向量進行分類得到第三向量,最后,根據(jù)每一分段的第二向量與每一類別第三向量之間的關系,將待識別語音流信息與用戶進行匹配,這樣,可以根據(jù)待識別語音流信息對應的向量來得到與待識別語音流信息匹配的用戶,解決了現(xiàn)有技術中的語音信息識別方案的計算量較大且操作復雜難度較大的問題,降低了語音信息識別的難度,減少了計算量;同時,提高了用戶的體驗效果。
本發(fā)明的實施例提供一種語音信息識別方法,參照圖3所示,該方法包括以下步驟:
步驟301、語音信息識別設備獲取待識別語音流信息。
步驟302、語音信息識別設備對待識別語音流信息進行分析,提取待識別語音流信息對應的第一向量。
步驟303、語音信息識別設備根據(jù)待識別語音流信息的播放時間,按照預設時間間隔將第一向量進行分段整理,得到第二向量。
步驟304、語音信息識別設備對第一向量進行主成分分析,得到第四向量。
步驟305、語音信息識別設備根據(jù)第四向量對第一向量進行變分貝葉斯高斯混合模型聚類,得到第三向量。
具體的,語音信息識別設備可以是以第四向量為基準形成一個坐標系,將每一個第一向量映射到第四向量形成的坐標系中,之后采用變分貝葉斯高斯混合模型聚類對映射后的第一向量進行分類,得到第三向量。
步驟306、語音信息識別設備將每一分段中的每一第二向量與每一類別中的每一第三向量進行匹配。
具體的,可以將分段得到的每一個第二向量中的所有的向量與分類得到的每一個第三向量中的所有向量進行匹配度的判斷,其中,一個第二向量對應一個第三向量。
需要說明的是,步驟306將每一分段中的每一第二向量與每一類別中的每一第三向量進行匹配之后可以根據(jù)匹配結果選擇執(zhí)行步驟307或者步驟308~309,如果每一分段中的每一第二向量與每一類別中的每一第三向量完全匹配則執(zhí)行步驟307,如果每一分段中的每一第二向量與每一類別中的每一第三向量不完全匹配則執(zhí)行步驟308~309;
步驟307、若每一分段中的每一第二向量與每一類別中的每一第三向量完全匹配,則語音信息識別設備分別對每一分段中的第二向量對應的待識別語音流信息進行聲紋信息識別,得到待識別語音流信息對應的用戶的身份信息。
具體的,如果每一分段中的第二向量中的所有向量均與對應的第三向量中的所有向量都匹配,說明每一分段中的每一第二向量與每一類別中的每一第三向量完全匹配,此時可以認為對第一向量的分段是比較準確的,可以認為一個分段中的第二向量對應的需要識別的語音信息對應的是一個用戶的語音信息,可以直接根據(jù)每一用戶自身的聲紋特征信息等將第二向量對應的待識別語音流信息與用戶的信息進行匹配,得到其對應的用戶的身份信息。其中,聲紋特征信息可以包括用戶的音色、聲調(diào)、音質(zhì)、音量等能夠唯一識別用戶的特征信息。
步驟308、若每一分段中的每一第二向量與每一類別中的每一第三向量不完全匹配,則語音信息識別設備對第二向量中的分段進行重新分段處理同時采用維特彼算法對第三向量進行重新分類,直到重新分段之后的每一段中的第二向量與重新分類之后的每一第三向量完全匹配。
具體的,如果每一分段中的第二向量中的向量存在與對應的第三向量中的向量不匹配的向量,說明每一分段中的每一第二向量與每一類別中的每一第三向量并不是完全匹配的,此時需要對分段結果進行重新分段,同時需要對分類結果采用維特比算法進行重新分類,然后比較重新分段之后的第二向量與重新分類之后的第三向量是否完全匹配,如果仍然存在不匹配的向量,則繼續(xù)對重新分段之后的第二向量進行分段,同時對重新分類之后的第三向量采用維特比算法進行重新分類直至重新分段之后的每一段中的第二向量與重新分類之后的每一第三向量完全匹配;重新分段之后的每一段中的第二向量與重新分類之后的每一第三向量完全匹配后,可以認為對第一向量進行重新分段的分段結果是比較準確的,可以認為一個分段中的第二向量對應的需要識別的語音信息對應的是一個用戶的語音信息,可以根據(jù)每一用戶自身的聲紋特征信息等將第二向量對應的待識別語音流信息與用戶的信息進行匹配,得到其對應的用戶的身份信息。
步驟309、語音信息識別設備分別對每一分段中的第二向量對應的待識別語音流信息進行聲紋信息識別,得到待識別語音流信息對應的用戶的身份信息。
需要說明的是,本實施例中與其它實施例中相同步驟或概念的解釋,可以參照其它實施例中的描述,此處不再贅述。
本發(fā)明的實施例提供的語音信息識別方法,可以獲取待識別語音流信息,并對待識別語音流信息進行分析,提取待識別語音流信息對應的第一向量,然后將第一向量進行分段整理,得到第二向量,同時按照預設分類原則對第一向量進行分類得到第三向量,最后,根據(jù)每一分段的第二向量與每一類別第三向量之間的關系,將待識別語音流信息與用戶進行匹配,這樣,可以根據(jù)待識別語音流信息對應的向量來得到與待識別語音流信息匹配的用戶,解決了現(xiàn)有技術中的語音信息識別方案的計算量較大且操作復雜難度較大的問題,降低了語音信息識別的難度,減少了計算量;同時,提高了用戶的體驗效果。
本發(fā)明的實施例提供一種語音信息識別設備4,該語音信息識別設備可以應用于圖1~3對應的實施例提供的一種語音信息識別方法中,參照圖4所示,該設備可以包括:第一獲取單元41、第二獲取單元42、第三獲取單元43和處理單元44,其中:
第一獲取單元41,用于獲取待識別語音流信息。
第一獲取單元41,還用于對待識別語音流信息進行分析,提取待識別語音流信息對應的第一向量。
第二獲取單元42,用于將第一向量進行分段整理,得到第二向量。
第三獲取單元43,用于按照預設分類原則對第一向量進行分類得到第三向量。
處理單元44,用于根據(jù)每一分段的第二向量與每一類別第三向量之間的關系,將待識別語音流信息與用戶進行匹配。
本發(fā)明的實施例提供的語音信息識別設備,可以獲取待識別語音流信息,并對待識別語音流信息進行分析,提取待識別語音流信息對應的第一向量,然后將第一向量進行分段整理,得到第二向量,同時按照預設分類原則對第一向量進行分類得到第三向量,最后,根據(jù)每一分段的第二向量與每一類別第三向量之間的關系,將待識別語音流信息與用戶進行匹配,這樣,可以根據(jù)待識別語音流信息對應的向量來得到與待識別語音流信息匹配的用戶,解決了現(xiàn)有技術中的語音信息識別方案的計算量較大且操作復雜難度較大的問題,降低了語音信息識別的難度,減少了計算量;同時,提高了用戶的體驗效果。
具體的,第二獲取單元42具體用于執(zhí)行以下步驟:
根據(jù)待識別語音流信息的播放時間,按照預設時間間隔將第一向量進行分段整理,得到第二向量。
進一步,參照圖5所示,第三獲取單元43包括:分析模塊431和第一處理模塊432,其中:
分析模塊431,用于對第一向量進行主成分分析,得到第四向量。
第一處理模塊432,用于根據(jù)第四向量對第一向量進行分類整理,得到第三向量。
具體的,第一處理模塊432還用于執(zhí)行以下步驟:
根據(jù)第四向量對第一向量進行變分貝葉斯高斯混合模型聚類,得到第三向量。
進一步,參照圖6所示,處理單元44包括:匹配模塊441和第二處理模塊442,其中:
匹配模塊441,用于將每一分段中的每一第二向量與每一類別中的每一第三向量進行匹配。
第二處理模塊442,用于若每一分段中的每一第二向量與每一類別中的每一第三向量完全匹配,則分別對每一分段中的第二向量對應的待識別語音流信息進行聲紋信息識別,得到待識別語音流信息對應的用戶的身份信息。
進一步,參照圖7所示,處理單元44還包括:第三處理模塊443和第四處理模塊444,其中:
第三處理模塊443,用于若每一分段中的每一第二向量與每一類別中的每一第三向量不完全匹配,則對第二向量中的分段進行重新分段處理同時采用維特彼算法對第三向量進行重新分類,直到重新分段之后的每一段中的第二向量與重新分類之后的每一第三向量完全匹配。
第四處理模塊444,用于分別對每一分段中的第二向量對應的待識別語音流信息進行聲紋信息識別,得到待識別語音流信息對應的用戶的身份信息。
需要說明的是,本發(fā)明實施例中各個單元和模塊之間的交互過程,可以參照圖1~3對應的實施例提供的一種語音信息識別方法中的交互過程,此處不再贅述。
本發(fā)明的實施例提供的語音信息識別設備,可以獲取待識別語音流信息,并對待識別語音流信息進行分析,提取待識別語音流信息對應的第一向量,然后將第一向量進行分段整理,得到第二向量,同時按照預設分類原則對第一向量進行分類得到第三向量,最后,根據(jù)每一分段的第二向量與每一類別第三向量之間的關系,將待識別語音流信息與用戶進行匹配,這樣,可以根據(jù)待識別語音流信息對應的向量來得到與待識別語音流信息匹配的用戶,解決了現(xiàn)有技術中的語音信息識別方案的計算量較大且操作復雜難度較大的問題,降低了語音信息識別的難度,減少了計算量;同時,提高了用戶的體驗效果。
在實際應用中,所述第一獲取單元41、第二獲取單元42、第三獲取單元43、處理單元44、分析模塊431、第一處理模塊432、匹配模塊441、第二處理模塊442、第三處理模塊443和第四處理模塊444均可由位于無線數(shù)據(jù)發(fā)送設備中的中央處理器(Central Processing Unit,CPU)、微處理器(Micro Processor Unit,MPU)、數(shù)字信號處理器(Digital Signal Processor,DSP)或現(xiàn)場可編程門陣列(Field Programmable Gate Array,F(xiàn)PGA)等實現(xiàn)。
本領域內(nèi)的技術人員應明白,本發(fā)明的實施例可提供為方法、系統(tǒng)、或計算機程序產(chǎn)品。因此,本發(fā)明可采用硬件實施例、軟件實施例、或結合軟件和硬件方面的實施例的形式。而且,本發(fā)明可采用在一個或多個其中包含有計算機可用程序代碼的計算機可用存儲介質(zhì)(包括但不限于磁盤存儲器和光學存儲器等)上實施的計算機程序產(chǎn)品的形式。
本發(fā)明是參照根據(jù)本發(fā)明實施例的方法、設備(系統(tǒng))、和計算機程序產(chǎn)品的流程圖和/或方框圖來描述的。應理解可由計算機程序指令實現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結合??商峁┻@些計算機程序指令到通用計算機、專用計算機、嵌入式處理機或其他可編程數(shù)據(jù)處理設備的處理器以產(chǎn)生一個機器,使得通過計算機或其他可編程數(shù)據(jù)處理設備的處理器執(zhí)行的指令產(chǎn)生用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的裝置。
這些計算機程序指令也可存儲在能引導計算機或其他可編程數(shù)據(jù)處理設備以特定方式工作的計算機可讀存儲器中,使得存儲在該計算機可讀存儲器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能。
這些計算機程序指令也可裝載到計算機或其他可編程數(shù)據(jù)處理設備上,使得在計算機或其他可編程設備上執(zhí)行一系列操作步驟以產(chǎn)生計算機實現(xiàn)的處理,從而在計算機或其他可編程設備上執(zhí)行的指令提供用于實現(xiàn)在流程圖一個流程或多個流程和/或方框圖一個方框或多個方框中指定的功能的步驟。
以上所述,僅為本發(fā)明的較佳實施例而已,并非用于限定本發(fā)明的保護范圍。