本發(fā)明涉及農(nóng)產(chǎn)品信息采集技術(shù)領(lǐng)域,更具體地說,特別涉及一種基于語音識別的農(nóng)產(chǎn)品信息采集方法和系統(tǒng)。
背景技術(shù):
隨著我國農(nóng)產(chǎn)品質(zhì)量安全體系的建立和各項制度的不斷完善,農(nóng)產(chǎn)品質(zhì)量安全信息的采集成為重要環(huán)節(jié);但信息采集具有實時性強、覆蓋面廣、傳統(tǒng)設(shè)備操作性差等特點。如何提高工作效率、減少人工重復(fù)勞動,是實現(xiàn)農(nóng)產(chǎn)品質(zhì)量安全生產(chǎn)與追溯、農(nóng)產(chǎn)品市場監(jiān)控及預(yù)警過程中亟待解決的問題。語言是人類溝通的最自然形式,其中蘊含大量的信息,語言交流也是農(nóng)業(yè)生產(chǎn)中重要的通信手段。隨著語音識別技術(shù)的迅速發(fā)展,將語音信息轉(zhuǎn)化為便于計算機的處理文本信息,使得語音信息應(yīng)用于農(nóng)業(yè)生產(chǎn)成為可能。
語音識別(Speech Recognition),也稱自動語音識別或機器語音識別,是通過計算機將人類語音信號轉(zhuǎn)換為文本序列的過程。它涉及到人工智能與模式識別、數(shù)字信號處理、統(tǒng)計與概率、認(rèn)知心理學(xué)、語音學(xué)、語言學(xué)等學(xué)科領(lǐng)域,是一門非常復(fù)雜的交叉學(xué)科。
語音識別的研究已經(jīng)吸引了60年的極大關(guān)注。20世紀(jì)80年代中期,隱馬爾科夫模型(HiddenMarkovModel,HMM)作為語音信號的一種統(tǒng)計模型,在語音信號處理的各個領(lǐng)域得到廣泛應(yīng)用,進而成為一個公認(rèn)的研究熱點,也是目前語音識別的主流研究途徑。20世紀(jì)90年代,語音識別已從實驗室走向?qū)嵱没缯Z音導(dǎo)航、語音聽寫、電話網(wǎng)絡(luò)自動呼叫處理及票務(wù)查詢等。近年來,魯棒的語音識別、基于語音段的建模方法、隱馬爾科夫模型和人工神經(jīng)網(wǎng)絡(luò)的結(jié)合成為研究的熱點;另一方面,為了語音識別實用化的需要,語者自適應(yīng)、聽覺模型以及進一步的語言模型的課題倍受關(guān)注。
語音識別在農(nóng)業(yè)領(lǐng)域的應(yīng)用研究較薄弱。由于語音識別的學(xué)科綜合性較強,加之手持式設(shè)備處理能力的限制,農(nóng)業(yè)領(lǐng)域人員開發(fā)語音處理系統(tǒng)存在困難;而信息技術(shù)領(lǐng)域研究人員多注重通用、大詞匯量、連續(xù)語音識別方法的研究。雖然目前有不少語音識別方面的研究成果產(chǎn)品,但仍缺乏基于手持設(shè)備的農(nóng)業(yè)語音采集技術(shù)、方法或二次開發(fā)工具,在移動設(shè)備農(nóng)業(yè)語音信息采集方法研究方面,目前仍處于空白。
農(nóng)產(chǎn)品信息采集作為質(zhì)量追溯、信息發(fā)布的關(guān)鍵和基礎(chǔ),采集技術(shù)和作業(yè)場景復(fù)雜多樣。從技術(shù)上看,采集方式可分為兩類:①原始信息采集。如生產(chǎn)記錄、生長環(huán)境、農(nóng)產(chǎn)品等級和價格等數(shù)據(jù),需人工采集。嵌入式手持設(shè)備是此類任務(wù)的主流硬件平臺。②數(shù)字化自動采集。通過傳感器自動采集環(huán)境信息(溫度、濕度等),通過條形碼、RFID等技術(shù)自動采集原料信息(產(chǎn)地、時間等)。對于已完成數(shù)字化處理的數(shù)據(jù),現(xiàn)有技術(shù)設(shè)備已經(jīng)能夠很好地解決其采集的問題,而對于只能通過人工干預(yù)進行采集的信息,由于大部分需要在進行農(nóng)產(chǎn)品生產(chǎn)、管理工作的同時完成信息采集,而現(xiàn)有的設(shè)備和系統(tǒng)主要采用基于視覺/手動方式來完成采集,采集信息的同時必然導(dǎo)致工作效率降低。
技術(shù)實現(xiàn)要素:
本發(fā)明的目的在于提供一種農(nóng)業(yè)語音信息識別的方法,該方法包括模型訓(xùn)練階段和識別階段。模型訓(xùn)練階段包括聲學(xué)模型訓(xùn)練和語言模型訓(xùn)練兩部分。聲學(xué)模型的建模單元為上下文三音子。聲學(xué)模型訓(xùn)練的步驟是:第一步,對聲音信號進行預(yù)處理;第二步,提取穩(wěn)定的聲學(xué)特征;第三步,通過人工采集大量的語音樣本建立語音語料庫;最后一步,采用向前向后算法進行模型的訓(xùn)練,得到穩(wěn)定的聲學(xué)模型。語言模型的訓(xùn)練的步驟是:第一步,對特定的應(yīng)用場景用文本提取工具提取大量的文本,第二步,建立語料庫,并對其語義分析和語法結(jié)構(gòu)進行推斷,進而形成語言模型。識別階段的步驟是:第一步,在前端對輸入語音信號進行特征提取,得到的特征向量與聲學(xué)模型進行聲學(xué)對比;第二步,從發(fā)音詞典中選出概率分布最為接近的候選詞,再利用語言模型進一步進行約束,得到最終的農(nóng)業(yè)信息文本。
一種基于語音識別的農(nóng)產(chǎn)品信息采集系統(tǒng),包括移動終端、移動互聯(lián)網(wǎng)、語音云計算平臺;語音云計算平臺包括語音服務(wù)器、業(yè)務(wù)服務(wù)器、授權(quán)服務(wù)器;語音服務(wù)器提供自動語音識別服務(wù)和語音合成服務(wù)。
與現(xiàn)有技術(shù)相比,系統(tǒng)在云計算平臺搭建識別引擎,并訓(xùn)練出穩(wěn)定的聲學(xué)模型,通過手持式移動終端采集語音信號,通過互聯(lián)網(wǎng)發(fā)送到服務(wù)器端進行識別,詞識別率達到95%以上,滿足了農(nóng)產(chǎn)品語音信息采集的需要,工作效率高。
附圖說明
為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案,下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領(lǐng)域普通技術(shù)人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明所述系統(tǒng)總體結(jié)構(gòu)圖。
圖2是本發(fā)明所述系統(tǒng)通信原理圖。
具體實施方式
下面結(jié)合附圖對本發(fā)明的優(yōu)選實施例進行詳細闡述,以使本發(fā)明的優(yōu)點和特征能更易于被本領(lǐng)域技術(shù)人員理解,從而對本發(fā)明的保護范圍做出更為清楚明確的界定。
參閱圖2所示,本發(fā)明提供一種農(nóng)業(yè)語音信息識別的方法,該方法包括模型訓(xùn)練階段和識別階段。模型訓(xùn)練階段包括聲學(xué)模型訓(xùn)練和語言模型訓(xùn)練兩部分。聲學(xué)模型的建模單元為上下文三音子。聲學(xué)模型訓(xùn)練的步驟是:第一步,對聲音信號進行預(yù)處理;第二步,提取穩(wěn)定的聲學(xué)特征;第三步,通過人工采集大量的語音樣本建立語音語料庫;最后一步,采用向前向后算法進行模型的訓(xùn)練,得到穩(wěn)定的聲學(xué)模型。語言模型的訓(xùn)練的步驟是:第一步,對特定的應(yīng)用場景用文本提取工具提取大量的文本,第二步,建立語料庫,并對其語義分析和語法結(jié)構(gòu)進行推斷,進而形成語言模型。識別階段的步驟是:第一步,在前端對輸入語音信號進行特征提取,得到的特征向量與聲學(xué)模型進行聲學(xué)對比;第二步,從發(fā)音詞典中選出概率分布最為接近的候選詞,再利用語言模型進一步進行約束,得到最終的農(nóng)業(yè)信息文本。
語音識別的主要過程分為模型訓(xùn)練階段和識別階段,其過程如圖1所示。模型訓(xùn)練包括聲學(xué)模型的訓(xùn)練和語言模型訓(xùn)練兩部分。聲學(xué)模型當(dāng)前主要采用上下文三音子為建模單元,通過人工采集大量的語音樣本建立語音語料庫,采用向前向后算法進行模型的訓(xùn)練,得到穩(wěn)定的聲學(xué)模型。在聲學(xué)訓(xùn)練之前,需要對聲音信號進行預(yù)處理、提取穩(wěn)定的聲學(xué)特征,當(dāng)前主流的特征為MEL頻率倒譜系數(shù)(Mel-FrequencyCepstralCoefficients,MFCC)或感知線性預(yù)測系數(shù)(PerceptualLinearPrediction,PLP)等,較好地解決了特征提取問題。語言模型的訓(xùn)練主要是文本信息的處理,首先對特定的應(yīng)用場景用文本提取工具提取大量的文本,建立語料庫,并對其語義分析和語法結(jié)構(gòu)進行推斷,進而形成一系列的語法規(guī)則,即語言模型。
識別過程是對語音信號進行解碼(decoding)的過程,基于隱馬爾科夫模型的解碼過程可采用Viterbi算法。首先,在前端對輸入語音信號進行特征提取,得到的特征向量與聲學(xué)模型進行聲學(xué)對比;然后,從發(fā)音詞典中選出概率分布最為接近的候選詞,再利用語言模型進一步進行約束,得到最終的識別結(jié)果。
本發(fā)明還在一種農(nóng)業(yè)語音信息識別的方法的基礎(chǔ)上,提供了一種基于語音識別的農(nóng)產(chǎn)品信息采集系統(tǒng),系統(tǒng)基于移動互聯(lián)網(wǎng)和云計算平臺,構(gòu)建應(yīng)用系統(tǒng),如圖2所示。利用手機平臺作為移動終端,采集語音信息和實現(xiàn)人機交互,通過移動GPRS/3G/4G通信網(wǎng)絡(luò)和HTTP協(xié)議,將采集到的語音信號發(fā)送到語音服務(wù)器進行識別,語音服務(wù)器依靠強大的云計算資源提供自動語音識別(ASR)服務(wù),可根據(jù)業(yè)務(wù)需求提供語音合成服務(wù)(TTS)。Web服務(wù)器為語音服務(wù)、業(yè)務(wù)服務(wù)、授權(quán)服務(wù)提供訪問支持,通過http協(xié)議實現(xiàn)可靠的通信任務(wù)。業(yè)務(wù)服務(wù)器實現(xiàn)各種信息查詢、決策支持、預(yù)警信息發(fā)布等具體業(yè)務(wù)。互聯(lián)網(wǎng)用戶通過Internet實現(xiàn)業(yè)務(wù)信息的訪問,同時也可以完成語音識別的功能,但顯然不適合在作業(yè)現(xiàn)場完成。
經(jīng)測試,使用本發(fā)明的方法和系統(tǒng)詞識別率(WRR)達到95%以上,基本滿足了農(nóng)產(chǎn)品語音信息采集的需要。
雖然結(jié)合附圖描述了本發(fā)明的實施方式,但是專利所有者可以在所附權(quán)利要求的范圍之內(nèi)做出各種變形或修改,只要不超過本發(fā)明的權(quán)利要求所描述的保護范圍,都應(yīng)當(dāng)在本發(fā)明的保護范圍之內(nèi)。