亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于人工智能的聲學模型訓練方法、裝置及存儲介質(zhì)與流程

文檔序號:11434058閱讀:312來源:國知局
基于人工智能的聲學模型訓練方法、裝置及存儲介質(zhì)與流程

【技術(shù)領域】

本發(fā)明涉及計算機應用技術(shù),特別涉及基于人工智能的聲學模型訓練方法、裝置及存儲介質(zhì)。



背景技術(shù):

人工智能(artificialintelligence),英文縮寫為ai。它是研究、開發(fā)用于模擬、延伸和擴展人的智能的理論、方法、技術(shù)及應用系統(tǒng)的一門新的技術(shù)科學。人工智能是計算機科學的一個分支,它企圖了解智能的實質(zhì),并生產(chǎn)出一種新的能以人類智能相似的方式做出反應的智能機器,該領域的研究包括機器人、語言識別、圖像識別、自然語言處理和專家系統(tǒng)等。

聲學模型是語音識別系統(tǒng)中最為重要的部分之一,訓練聲學模型需要大量的語音數(shù)據(jù),數(shù)據(jù)越多,訓練出來的聲學模型的準確率越高,相應地,語音識別結(jié)果的準確性也會越高。

現(xiàn)有技術(shù)中,通常采用人工標注的語音數(shù)據(jù)來訓練聲學模型。

但是,人工標注大量的語音數(shù)據(jù),需要耗費非常大的人力成本,并降低了聲學模型的訓練效率。



技術(shù)實現(xiàn)要素:

有鑒于此,本發(fā)明提供了基于人工智能的聲學模型訓練方法、裝置及存儲介質(zhì),能夠節(jié)省人力成本,并提升訓練效率。

具體技術(shù)方案如下:

一種基于人工智能的聲學模型訓練方法,包括:

獲取人工標注的語音數(shù)據(jù);

根據(jù)所述人工標注的語音數(shù)據(jù)訓練得到第一聲學模型;

獲取未標注的語音數(shù)據(jù);

根據(jù)所述未標注的語音數(shù)據(jù)以及所述第一聲學模型訓練得到所需的第二聲學模型。

根據(jù)本發(fā)明一優(yōu)選實施例,所述第一聲學模型和所述第二聲學模型的類型包括:采用卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡混合結(jié)構(gòu)的聲學模型。

根據(jù)本發(fā)明一優(yōu)選實施例,所述根據(jù)所述人工標注的語音數(shù)據(jù)訓練得到第一聲學模型包括:

根據(jù)所述人工標注的語音數(shù)據(jù),確定出每個語音幀與人工標注的音節(jié)狀態(tài)的對齊關系;

將所述對齊關系作為訓練目標,基于第一準則對所述第一聲學模型進行訓練,得到初始狀態(tài)的第一聲學模型;

將所述對齊關系作為訓練目標,基于第二準則對所述初始狀態(tài)的第一聲學模型進行進一步訓練,得到所述第一聲學模型。

根據(jù)本發(fā)明一優(yōu)選實施例,所述根據(jù)所述未標注的語音數(shù)據(jù)以及所述第一聲學模型訓練得到所需的第二聲學模型包括:

將所述未標注的語音數(shù)據(jù)輸入給所述第一聲學模型,得到所述第一聲學模型輸出的每個語音幀與對應的音節(jié)狀態(tài)的對齊關系;

將所述對齊關系作為訓練目標,基于第一準則對所述第二聲學模型進行訓練,得到初始狀態(tài)的第二聲學模型;

將所述對齊關系作為訓練目標,基于第二準則對所述初始狀態(tài)的第二聲學模型進行進一步訓練,得到所述第二聲學模型。

根據(jù)本發(fā)明一優(yōu)選實施例,所述第一準則包括:交叉熵ce準則;

所述第二準則包括:聯(lián)結(jié)時間分類ctc準則。

根據(jù)本發(fā)明一優(yōu)選實施例,

所述根據(jù)所述人工標注的語音數(shù)據(jù)訓練得到第一聲學模型之前,進一步包括:從所述人工標注的語音數(shù)據(jù)中提取出聲學特征;

所述根據(jù)所述人工標注的語音數(shù)據(jù)訓練得到第一聲學模型包括:根據(jù)從所述人工標注的語音數(shù)據(jù)中提取出的聲學特征訓練得到所述第一聲學模型;

所述根據(jù)所述未標注的語音數(shù)據(jù)以及所述第一聲學模型訓練得到所需的第二聲學模型之前,進一步包括:從所述未標注的語音數(shù)據(jù)中提取出聲學特征;

所述根據(jù)所述未標注的語音數(shù)據(jù)以及所述第一聲學模型訓練得到所需的第二聲學模型包括:根據(jù)從所述未標注的語音數(shù)據(jù)中提取出的聲學特征以及所述第一聲學模型訓練得到所述第二聲學模型。

根據(jù)本發(fā)明一優(yōu)選實施例,從語音數(shù)據(jù)中提取出聲學特征包括:

以預先設定的第一時長為幀長,以預先設定的第二時長為幀移,對所述語音數(shù)據(jù)進行快速傅里葉變換fft;

根據(jù)fft變換結(jié)果,提取梅爾標度濾波器組fbank聲學特征。

一種基于人工智能的聲學模型訓練裝置,包括:第一獲取單元、第一訓練單元、第二獲取單元以及第二訓練單元;

所述第一獲取單元,用于獲取人工標注的語音數(shù)據(jù),并發(fā)送給所述第一訓練單元;

所述第一訓練單元,用于根據(jù)所述人工標注的語音數(shù)據(jù)訓練得到第一聲學模型,并將所述第一聲學模型發(fā)送給所述第二訓練單元;

所述第二獲取單元,用于獲取未標注的語音數(shù)據(jù),并發(fā)送給所述第二訓練單元;

所述第二訓練單元,用于根據(jù)所述未標注的語音數(shù)據(jù)以及所述第一聲學模型訓練得到所需的第二聲學模型。

根據(jù)本發(fā)明一優(yōu)選實施例,所述第一聲學模型和所述第二聲學模型的類型包括:采用卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡混合結(jié)構(gòu)的聲學模型。

根據(jù)本發(fā)明一優(yōu)選實施例,

所述第一訓練單元根據(jù)所述人工標注的語音數(shù)據(jù),確定出每個語音幀與人工標注的音節(jié)狀態(tài)的對齊關系;

將所述對齊關系作為訓練目標,基于第一準則對所述第一聲學模型進行訓練,得到初始狀態(tài)的第一聲學模型;

將所述對齊關系作為訓練目標,基于第二準則對所述初始狀態(tài)的第一聲學模型進行進一步訓練,得到所述第一聲學模型。

根據(jù)本發(fā)明一優(yōu)選實施例,

所述第二訓練單元將所述未標注的語音數(shù)據(jù)輸入給所述第一聲學模型,得到所述第一聲學模型輸出的每個語音幀與對應的音節(jié)狀態(tài)的對齊關系;

將所述對齊關系作為訓練目標,基于第一準則對所述第二聲學模型進行訓練,得到初始狀態(tài)的第二聲學模型;

將所述對齊關系作為訓練目標,基于第二準則對所述初始狀態(tài)的第二聲學模型進行進一步訓練,得到所述第二聲學模型。

根據(jù)本發(fā)明一優(yōu)選實施例,所述第一準則包括:交叉熵ce準則;

所述第二準則包括:聯(lián)結(jié)時間分類ctc準則。

根據(jù)本發(fā)明一優(yōu)選實施例,

所述第一訓練單元進一步用于,

從所述人工標注的語音數(shù)據(jù)中提取出聲學特征;

根據(jù)從所述人工標注的語音數(shù)據(jù)中提取出的聲學特征訓練得到所述第一聲學模型;

所述第二訓練單元進一步用于,

從所述未標注的語音數(shù)據(jù)中提取出聲學特征;

根據(jù)從所述未標注的語音數(shù)據(jù)中提取出的聲學特征以及所述第一聲學模型訓練得到所述第二聲學模型。

根據(jù)本發(fā)明一優(yōu)選實施例,

所述第一訓練單元以預先設定的第一時長為幀長,以預先設定的第二時長為幀移,對所述人工標注的語音數(shù)據(jù)進行快速傅里葉變換fft,根據(jù)fft變換結(jié)果,提取梅爾標度濾波器組fbank聲學特征;

所述第二訓練單元以所述第一時長為幀長,以所述第二時長為幀移,對所述未標注的語音數(shù)據(jù)進行fft變換,根據(jù)fft變換結(jié)果,提取fbank聲學特征。

一種計算機設備,包括存儲器、處理器及存儲在所述存儲器上并可在所述處理器上運行的計算機程序,所述處理器執(zhí)行所述程序時實現(xiàn)如以上所述的方法。

一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,所述程序被處理器執(zhí)行時實現(xiàn)如以上所述的方法。

基于上述介紹可以看出,采用本發(fā)明所述方案,可首先獲取人工標注的語音數(shù)據(jù),并根據(jù)人工標注的語音數(shù)據(jù)訓練得到第一聲學模型,之后,可獲取未標注的語音數(shù)據(jù),并根據(jù)未標注的語音數(shù)據(jù)以及訓練得到的第一聲學模型進一步訓練得到所需的第二聲學模型,相比于現(xiàn)有技術(shù),本發(fā)明所述方案中只需要使用相對很少的人工標注的語音數(shù)據(jù)即可,從而節(jié)省了人力成本,并提升了訓練效率。

【附圖說明】

圖1為本發(fā)明所述基于人工智能的聲學模型訓練方法實施例的流程圖。

圖2為本發(fā)明所述基于人工智能的聲學模型訓練方法的實現(xiàn)過程示意圖。

圖3為本發(fā)明所述基于人工智能的聲學模型訓練裝置實施例的組成結(jié)構(gòu)示意圖。

圖4示出了適于用來實現(xiàn)本發(fā)明實施方式的示例性計算機系統(tǒng)/服務器12的框圖。

【具體實施方式】

針對現(xiàn)有技術(shù)中存在的問題,本發(fā)明中提出一種基于人工智能的聲學模型訓練方案,利用深度學習的方法,通過已標注的語音數(shù)據(jù),訓練出一個高識別率的第一聲學模型作為參考模型,然后通過訓練出來的參考模型,結(jié)合大量的無標注的語音數(shù)據(jù),訓練出可用于線上產(chǎn)品的第二聲學模型。

為了使本發(fā)明的技術(shù)方案更加清楚、明白,以下參照附圖并舉實施例,對本發(fā)明所述方案進行進一步說明。

顯然,所描述的實施例是本發(fā)明一部分實施例,而不是全部的實施例?;诒景l(fā)明中的實施例,本領域技術(shù)人員在沒有作出創(chuàng)造性勞動前提下所獲得的所有其它實施例,都屬于本發(fā)明保護的范圍。

圖1為本發(fā)明所述基于人工智能的聲學模型訓練方法實施例的流程圖,如圖1所示,包括以下具體實現(xiàn)方式。

在101中,獲取人工標注的語音數(shù)據(jù)。

相比于現(xiàn)有技術(shù),本實施例中僅需獲取相對很少的人工標注的語音數(shù)據(jù)即可。

具體獲取方式不限,比如,可以針對未標注的語音數(shù)據(jù),人工進行標注,或者,從第三方數(shù)據(jù)標注公司購買其用人工標注的語音數(shù)據(jù)等。

在獲取到人工標注的語音數(shù)據(jù)之后,還可進一步對其進行預處理。

所述預處理可包括:從人工標注的語音數(shù)據(jù)中提取出聲學特征。

提取聲學特征的方式可為:以預先設定的第一時長為幀長,以預先設定的第二時長為幀移,對人工標注的語音數(shù)據(jù)進行快速傅里葉變換(fft,fastfouriertransformation),根據(jù)fft變換結(jié)果,提取梅爾標度濾波器組(fbank)聲學特征,即以mel頻率窗提取fbank聲學特征。

第一時長和第二時長的具體取值均可根據(jù)實際需要而定,比如,第一時長可為20ms,第二時長可為10ms。

另外,除了從人工標注的語音數(shù)據(jù)中提取出聲學特征之外,所述預處理還可包括:根據(jù)實際需求,截取用于語音識別的有效音頻的長度,如300幀,即可對獲取到的人工標注的語音數(shù)據(jù)進行篩選,篩選掉長度不符合要求的語音數(shù)據(jù),針對剩下的語音數(shù)據(jù),分別對其進行聲學特征提取。

在102中,根據(jù)人工標注的語音數(shù)據(jù)訓練得到第一聲學模型。

第一聲學模型的類型可為卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡混合結(jié)構(gòu)的聲學模型。

在訓練第一聲學模型之前,可首先根據(jù)人工標注的語音數(shù)據(jù),確定出每個語音幀與人工標注的音節(jié)狀態(tài)的對齊關系。

比如,可通過現(xiàn)有的標注詞典擴展和維特比強制對齊等技術(shù),確定出每個語音幀與其人工標注的音節(jié)狀態(tài)的對齊關系,具體地,可以是指每個語音幀的聲學特征與人工標注的音節(jié)狀態(tài)的對齊關系。

之后,即可根據(jù)上述對齊關系進一步訓練得到第一聲學模型。

在進行訓練時,可首先將上述對齊關系作為訓練目標,基于第一準則對第一聲學模型進行訓練,從而得到初始狀態(tài)的第一聲學模型,之后,可將上述對齊關系作為訓練目標,基于第二準則對初始狀態(tài)的第一聲學模型進行進一步訓練,從而得到最終所需的第一聲學模型。

第一準則可為交叉熵(ce,crossentropy)準則,即可將上述對齊關系作為訓練目標,進行基于ce準則的預訓練,從而得到初始狀態(tài)的第一聲學模型。

第二準則可為聯(lián)結(jié)時間分類(ctc,connectionisttemporalclassification)準則,即可將上述對齊關系作為訓練目標,基于ctc準則對初始狀態(tài)的第一聲學模型進行進一步訓練,從而得到第一聲學模型。

可以看出,在基于不同的準則進行第一聲學模型的訓練時,所用的對齊關系是一樣的,基于ctc準則的訓練是在基于ce準則的訓練的基礎上繼續(xù)進行的,即在基于ce準則訓練得到的第一聲學模型的基礎上,基于ctc準則對第一聲學模型進行進一步訓練,從而得到最終所需的第一聲學模型。

要使得第一聲學模型能夠預測語音幀與phone的對應關系,則需要先讓第一聲學模型從已有的對齊關系中進行學習,ce準則和ctc準則即對應兩種不同的學習方式。

如何基于ce準則和ctc準則進行第一聲學模型的訓練為現(xiàn)有技術(shù)。

上述訓練第一聲學模型的過程可稱為有監(jiān)督訓練階段,得到的第一聲學模型可稱為參考模型,訓練完成后,參考模型的參數(shù)即固定下來,后續(xù)將不再使用人工標注的語音數(shù)據(jù)。

在103中,獲取未標注的語音數(shù)據(jù)。

比如,可獲取線上語音產(chǎn)品的無標注的語音數(shù)據(jù)。

同樣地,在獲取到無標注的語音數(shù)據(jù)之后,可進一步對其進行預處理。

所述預處理可包括:從未標注的語音數(shù)據(jù)中提取出聲學特征。

提取聲學特征的方式可為:以預先設定的第一時長為幀長,以預先設定的第二時長為幀移,對未標注的語音數(shù)據(jù)進行fft變換,根據(jù)fft變換結(jié)果,提取fbank聲學特征。

第一時長和第二時長的具體取值均可根據(jù)實際需要而定,比如,第一時長可為20ms,第二時長可為10ms。

另外,除了從未標注的語音數(shù)據(jù)中提取出聲學特征之外,所述預處理還可包括:根據(jù)實際需求,截取用于語音識別的有效音頻的長度,如300幀。

在104中,根據(jù)未標注的語音數(shù)據(jù)以及第一聲學模型訓練得到所需的第二聲學模型。

第二聲學模型的類型可為卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡混合結(jié)構(gòu)的聲學模型。

在訓練時,由于所使用的是未標注的語音數(shù)據(jù),因此無法按照102中所述方式得到對齊關系,但之前已經(jīng)訓練得到了第一聲學模型,那么可將未標注的語音數(shù)據(jù)輸入給第一聲學模型,從而得到第一聲學模型輸出的每個語音幀與對應的音節(jié)狀態(tài)的對齊關系。

比如,可將從未標注的語音數(shù)據(jù)中提取出的聲學特征輸入給第一聲學模型,從而得到第一聲學模型輸出的每個語音幀與對應的音節(jié)狀態(tài)的對齊關系。

之后,可將得到的對齊關系作為訓練目標,基于第一準則對第二聲學模型進行訓練,從而得到初始狀態(tài)的第二聲學模型,之后,可將得到的對齊關系作為訓練目標,基于第二準則對初始狀態(tài)的第二聲學模型進行進一步訓練,從而得到最終所需的第二聲學模型。

具體地,第一準則可為ce準則,即可將上述對齊關系作為訓練目標,進行基于ce準則的預訓練,從而得到初始狀態(tài)的第二聲學模型。

第二準則可為ctc準則,即可將上述對齊關系作為訓練目標,基于ctc準則對初始狀態(tài)的第二聲學模型進行進一步訓練,從而得到第二聲學模型。

上述訓練第二聲學模型的過程可稱為無監(jiān)督訓練階段。

基于上述介紹,圖2為本發(fā)明所述基于人工智能的聲學模型訓練方法的實現(xiàn)過程示意圖,如圖2所示,首先,可根據(jù)獲取到的人工標注的語音數(shù)據(jù),確定出作為訓練目標的對齊關系等,之后,可依次進行基于ce準則的預訓練以及基于ctc準則的訓練,從而得到第一聲學模型,這一過程可稱為有監(jiān)督訓練階段,之后,可針對獲取到的大量的未標注的語音數(shù)據(jù),根據(jù)第一聲學模型確定出作為訓練目標的對齊關系等,并依次進行基于ce準則的預訓練以及基于ctc準則的訓練,從而得到第二聲學模型,這一過程可稱為無監(jiān)督訓練階段。

在得到第二聲學模型之后,即可利用第二聲學模型來進行實際的語音識別。

本實施例所述方案中,利用深度學習的方法,通過已標注的語音數(shù)據(jù),訓練出一個第一聲學模型作為參考模型,然后通過訓練出來的參考模型,結(jié)合大量的無標注的語音數(shù)據(jù),訓練出可用于線上產(chǎn)品的第二聲學模型,相比于現(xiàn)有技術(shù),本實施例所述方案中極大地減少了需要人工標注的語音數(shù)據(jù)的數(shù)量,從而節(jié)省了人力成本,并提升了模型的訓練效率,另外,可采用大量的無標注的語音數(shù)據(jù)來訓練得到第二聲學模型,從而提高了第二聲學模型的準確率,進而提高了后續(xù)的語音識別結(jié)果的準確性。

以上是關于方法實施例的介紹,以下通過裝置實施例,對本發(fā)明所述方案進行進一步說明。

圖3為本發(fā)明所述基于人工智能的聲學模型訓練裝置實施例的組成結(jié)構(gòu)示意圖,如圖3所示,包括:第一獲取單元301、第一訓練單元302、第二獲取單元303以及第二訓練單元304。

第一獲取單元301,用于獲取人工標注的語音數(shù)據(jù),并發(fā)送給第一訓練單元302。

第一訓練單元302,用于根據(jù)人工標注的語音數(shù)據(jù)訓練得到第一聲學模型,并將第一聲學模型發(fā)送給第二訓練單元304。

第二獲取單元303,用于獲取未標注的語音數(shù)據(jù),并發(fā)送給第二訓練單元304。

第二訓練單元304,用于根據(jù)未標注的語音數(shù)據(jù)以及第一聲學模型訓練得到所需的第二聲學模型。

其中,第一聲學模型和第二聲學模型的類型均可為:采用卷積神經(jīng)網(wǎng)絡和循環(huán)神經(jīng)網(wǎng)絡混合結(jié)構(gòu)的聲學模型。

第一獲取單元301將獲取到的人工標注的語音數(shù)據(jù)發(fā)送給第一訓練單元302之后,第一訓練單元302可首先對獲取到的人工標注的語音數(shù)據(jù)進行預處理,如從人工標注的語音數(shù)據(jù)中提取出聲學特征等。

相應地,第一訓練單元302可根據(jù)從人工標注的語音數(shù)據(jù)中提取出的聲學特征訓練得到第一聲學模型。

其中,從人工標注的語音數(shù)據(jù)中提取出聲學特征的方式可為:第一訓練單元302以預先設定的第一時長為幀長,以預先設定的第二時長為幀移,對人工標注的語音數(shù)據(jù)進行fft變換,根據(jù)fft變換結(jié)果,提取fbank聲學特征。

第一時長和第二時長的具體取值均可根據(jù)實際需要而定,比如,第一時長可為20ms,第二時長可為10ms。

另外,第一訓練單元302還可根據(jù)人工標注的語音數(shù)據(jù),確定出每個語音幀與人工標注的音節(jié)狀態(tài)的對齊關系,具體地,可以是指每個語音幀的聲學特征與人工標注的音節(jié)狀態(tài)的對齊關系。

之后,第一訓練單元302即可根據(jù)上述對齊關系,訓練得到第一聲學模型。

在進行訓練時,第一訓練單元302可首先將上述對齊關系作為訓練目標,基于第一準則對第一聲學模型進行訓練,從而得到初始狀態(tài)的第一聲學模型,之后,可將上述對齊關系作為訓練目標,基于第二準則對初始狀態(tài)的第一聲學模型進行進一步訓練,從而得到最終所需的第一聲學模型。

第一準則可為ce準則,即第一訓練單元302可將上述對齊關系作為訓練目標,進行基于ce準則的預訓練,從而得到初始狀態(tài)的第一聲學模型。

第二準則可為ctc準則,即第一訓練單元302可將上述對齊關系作為訓練目標,基于ctc準則對初始狀態(tài)的第一聲學模型進行進一步訓練,從而得到第一聲學模型。

第二獲取單元303獲取未標注的語音數(shù)據(jù),并發(fā)送給第二訓練單元304。

第二訓練單元304可首先對獲取到的未標注的語音數(shù)據(jù)進行預處理,如從未標注的語音數(shù)據(jù)中提取出聲學特征。

相應地,后續(xù)第二訓練單元304可根據(jù)從未標注的語音數(shù)據(jù)中提取出的聲學特征以及第一聲學模型訓練得到第二聲學模型。

其中,從未標注的語音數(shù)據(jù)中提取出聲學特征的方式可為:第二訓練單元304以第一時長為幀長,以第二時長為幀移,對未標注的語音數(shù)據(jù)進行fft變換,根據(jù)fft變換結(jié)果,提取fbank聲學特征。

第一時長和第二時長的具體取值均可根據(jù)實際需要而定,比如,第一時長可為20ms,第二時長可為10ms。

之后,第二訓練單元304可將未標注的語音數(shù)據(jù)輸入給第一聲學模型,從而得到第一聲學模型輸出的每個語音幀與對應的音節(jié)狀態(tài)的對齊關系。

比如,第二訓練單元304可將從未標注的語音數(shù)據(jù)中提取出的聲學特征輸入給第一聲學模型,從而得到第一聲學模型輸出的每個語音幀與對應的音節(jié)狀態(tài)的對齊關系。

之后,第二訓練單元304可將上述對齊關系作為訓練目標,基于第一準則對第二聲學模型進行訓練,從而得到初始狀態(tài)的第二聲學模型,進一步地,將上述對齊關系作為訓練目標,基于第二準則對初始狀態(tài)的第二聲學模型進行進一步訓練,從而得到最終所需的第二聲學模型。

第一準則可為ce準則,第二準則可為ctc準則。

在得到第二聲學模型之后,即可利用第二聲學模型來進行實際的語音識別。

圖3所示裝置實施例的具體工作流程請參照前述方法實施例中的相應說明,不再贅述。

本實施例所述方案中,利用深度學習的方法,通過已標注的語音數(shù)據(jù),訓練出一個第一聲學模型作為參考模型,然后通過訓練出來的參考模型,結(jié)合大量的無標注的語音數(shù)據(jù),訓練出可用于線上產(chǎn)品的第二聲學模型,相比于現(xiàn)有技術(shù),本實施例所述方案中極大地減少了需要人工標注的語音數(shù)據(jù)的數(shù)量,從而節(jié)省了人力成本,并提升了模型的訓練效率,另外,可采用大量的無標注的語音數(shù)據(jù)來訓練得到第二聲學模型,從而提高了第二聲學模型的準確率,進而提高了后續(xù)的語音識別結(jié)果的準確性。

圖4示出了適于用來實現(xiàn)本發(fā)明實施方式的示例性計算機系統(tǒng)/服務器12的框圖。圖4顯示的計算機系統(tǒng)/服務器12僅僅是一個示例,不應對本發(fā)明實施例的功能和使用范圍帶來任何限制。

如圖4所示,計算機系統(tǒng)/服務器12以通用計算設備的形式表現(xiàn)。計算機系統(tǒng)/服務器12的組件可以包括但不限于:一個或者多個處理器(處理單元)16,存儲器28,連接不同系統(tǒng)組件(包括存儲器28和處理器16)的總線18。

總線18表示幾類總線結(jié)構(gòu)中的一種或多種,包括存儲器總線或者存儲器控制器,外圍總線,圖形加速端口,處理器或者使用多種總線結(jié)構(gòu)中的任意總線結(jié)構(gòu)的局域總線。舉例來說,這些體系結(jié)構(gòu)包括但不限于工業(yè)標準體系結(jié)構(gòu)(isa)總線,微通道體系結(jié)構(gòu)(mac)總線,增強型isa總線、視頻電子標準協(xié)會(vesa)局域總線以及外圍組件互連(pci)總線。

計算機系統(tǒng)/服務器12典型地包括多種計算機系統(tǒng)可讀介質(zhì)。這些介質(zhì)可以是任何能夠被計算機系統(tǒng)/服務器12訪問的可用介質(zhì),包括易失性和非易失性介質(zhì),可移動的和不可移動的介質(zhì)。

存儲器28可以包括易失性存儲器形式的計算機系統(tǒng)可讀介質(zhì),例如隨機存取存儲器(ram)30和/或高速緩存存儲器32。計算機系統(tǒng)/服務器12可以進一步包括其它可移動/不可移動的、易失性/非易失性計算機系統(tǒng)存儲介質(zhì)。僅作為舉例,存儲系統(tǒng)34可以用于讀寫不可移動的、非易失性磁介質(zhì)(圖4未顯示,通常稱為“硬盤驅(qū)動器”)。盡管圖4中未示出,可以提供用于對可移動非易失性磁盤(例如“軟盤”)讀寫的磁盤驅(qū)動器,以及對可移動非易失性光盤(例如cd-rom,dvd-rom或者其它光介質(zhì))讀寫的光盤驅(qū)動器。在這些情況下,每個驅(qū)動器可以通過一個或者多個數(shù)據(jù)介質(zhì)接口與總線18相連。存儲器28可以包括至少一個程序產(chǎn)品,該程序產(chǎn)品具有一組(例如至少一個)程序模塊,這些程序模塊被配置以執(zhí)行本發(fā)明各實施例的功能。

具有一組(至少一個)程序模塊42的程序/實用工具40,可以存儲在例如存儲器28中,這樣的程序模塊42包括——但不限于——操作系統(tǒng)、一個或者多個應用程序、其它程序模塊以及程序數(shù)據(jù),這些示例中的每一個或某種組合中可能包括網(wǎng)絡環(huán)境的實現(xiàn)。程序模塊42通常執(zhí)行本發(fā)明所描述的實施例中的功能和/或方法。

計算機系統(tǒng)/服務器12也可以與一個或多個外部設備14(例如鍵盤、指向設備、顯示器24等)通信,還可與一個或者多個使得用戶能與該計算機系統(tǒng)/服務器12交互的設備通信,和/或與使得該計算機系統(tǒng)/服務器12能與一個或多個其它計算設備進行通信的任何設備(例如網(wǎng)卡,調(diào)制解調(diào)器等等)通信。這種通信可以通過輸入/輸出(i/o)接口22進行。并且,計算機系統(tǒng)/服務器12還可以通過網(wǎng)絡適配器20與一個或者多個網(wǎng)絡(例如局域網(wǎng)(lan),廣域網(wǎng)(wan)和/或公共網(wǎng)絡,例如因特網(wǎng))通信。如圖4所示,網(wǎng)絡適配器20通過總線18與計算機系統(tǒng)/服務器12的其它模塊通信。應當明白,盡管圖中未示出,可以結(jié)合計算機系統(tǒng)/服務器12使用其它硬件和/或軟件模塊,包括但不限于:微代碼、設備驅(qū)動器、冗余處理單元、外部磁盤驅(qū)動陣列、raid系統(tǒng)、磁帶驅(qū)動器以及數(shù)據(jù)備份存儲系統(tǒng)等。

處理器16通過運行存儲在存儲器28中的程序,從而執(zhí)行各種功能應用以及數(shù)據(jù)處理,例如實現(xiàn)圖1所示實施例中的方法,即獲取人工標注的語音數(shù)據(jù),根據(jù)人工標注的語音數(shù)據(jù)訓練得到第一聲學模型,獲取未標注的語音數(shù)據(jù),根據(jù)未標注的語音數(shù)據(jù)以及第一聲學模型訓練得到所需的第二聲學模型。

具體實現(xiàn)請參照前述各實施例中的相應說明,不再贅述。

本發(fā)明同時公開了一種計算機可讀存儲介質(zhì),其上存儲有計算機程序,該程序被處理器執(zhí)行時將實現(xiàn)如圖1所示實施例中的方法。

可以采用一個或多個計算機可讀的介質(zhì)的任意組合。計算機可讀介質(zhì)可以是計算機可讀信號介質(zhì)或者計算機可讀存儲介質(zhì)。計算機可讀存儲介質(zhì)例如可以是——但不限于——電、磁、光、電磁、紅外線、或半導體的系統(tǒng)、裝置或器件,或者任意以上的組合。計算機可讀存儲介質(zhì)的更具體的例子(非窮舉的列表)包括:具有一個或多個導線的電連接、便攜式計算機磁盤、硬盤、隨機存取存儲器(ram)、只讀存儲器(rom)、可擦式可編程只讀存儲器(eprom或閃存)、光纖、便攜式緊湊磁盤只讀存儲器(cd-rom)、光存儲器件、磁存儲器件、或者上述的任意合適的組合。在本文件中,計算機可讀存儲介質(zhì)可以是任何包含或存儲程序的有形介質(zhì),該程序可以被指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用。

計算機可讀的信號介質(zhì)可以包括在基帶中或者作為載波一部分傳播的數(shù)據(jù)信號,其中承載了計算機可讀的程序代碼。這種傳播的數(shù)據(jù)信號可以采用多種形式,包括——但不限于——電磁信號、光信號或上述的任意合適的組合。計算機可讀的信號介質(zhì)還可以是計算機可讀存儲介質(zhì)以外的任何計算機可讀介質(zhì),該計算機可讀介質(zhì)可以發(fā)送、傳播或者傳輸用于由指令執(zhí)行系統(tǒng)、裝置或者器件使用或者與其結(jié)合使用的程序。

計算機可讀介質(zhì)上包含的程序代碼可以用任何適當?shù)慕橘|(zhì)傳輸,包括——但不限于——無線、電線、光纜、rf等等,或者上述的任意合適的組合。

可以以一種或多種程序設計語言或其組合來編寫用于執(zhí)行本發(fā)明操作的計算機程序代碼,所述程序設計語言包括面向?qū)ο蟮某绦蛟O計語言—諸如java、

smalltalk、c++,還包括常規(guī)的過程式程序設計語言—諸如”c”語言或類似的程序設計語言。程序代碼可以完全地在用戶計算機上執(zhí)行、部分地在用戶計算機上執(zhí)行、作為一個獨立的軟件包執(zhí)行、部分在用戶計算機上部分在遠程計算機上執(zhí)行、或者完全在遠程計算機或服務器上執(zhí)行。在涉及遠程計算機的情形中,遠程計算機可以通過任意種類的網(wǎng)絡——包括局域網(wǎng)(lan)或廣域網(wǎng)(wan)—連接到用戶計算機,或者,可以連接到外部計算機(例如利用因特網(wǎng)服務提供商來通過因特網(wǎng)連接)。

在本發(fā)明所提供的幾個實施例中,應該理解到,所揭露的裝置和方法等,可以通過其它的方式實現(xiàn)。例如,以上所描述的裝置實施例僅僅是示意性的,例如,所述單元的劃分,僅僅為一種邏輯功能劃分,實際實現(xiàn)時可以有另外的劃分方式。

所述作為分離部件說明的單元可以是或者也可以不是物理上分開的,作為單元顯示的部件可以是或者也可以不是物理單元,即可以位于一個地方,或者也可以分布到多個網(wǎng)絡單元上??梢愿鶕?jù)實際的需要選擇其中的部分或者全部單元來實現(xiàn)本實施例方案的目的。

另外,在本發(fā)明各個實施例中的各功能單元可以集成在一個處理單元中,也可以是各個單元單獨物理存在,也可以兩個或兩個以上單元集成在一個單元中。上述集成的單元既可以采用硬件的形式實現(xiàn),也可以采用硬件加軟件功能單元的形式實現(xiàn)。

上述以軟件功能單元的形式實現(xiàn)的集成的單元,可以存儲在一個計算機可讀取存儲介質(zhì)中。上述軟件功能單元存儲在一個存儲介質(zhì)中,包括若干指令用以使得一臺計算機設備(可以是個人計算機,服務器,或者網(wǎng)絡設備等)或處理器(processor)執(zhí)行本發(fā)明各個實施例所述方法的部分步驟。而前述的存儲介質(zhì)包括:u盤、移動硬盤、只讀存儲器(rom,read-onlymemory)、隨機存取存儲器(ram,randomaccessmemory)、磁碟或者光盤等各種可以存儲程序代碼的介質(zhì)。

以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內(nèi),所做的任何修改、等同替換、改進等,均應包含在本發(fā)明保護的范圍之內(nèi)。

當前第1頁1 2 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1