一種基于語音識別的農(nóng)產(chǎn)品信息采集方法和系統(tǒng)與流程

文檔序號：12749347閱讀：373來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種基于語音識別的農(nóng)產(chǎn)品信息采集方法和系統(tǒng)與流程

本發(fā)明涉及農(nóng)產(chǎn)品信息采集技術(shù)領(lǐng)域，更具體地說，特別涉及一種基于語音識別的農(nóng)產(chǎn)品信息采集方法和系統(tǒng)。

背景技術(shù)：

隨著我國農(nóng)產(chǎn)品質(zhì)量安全體系的建立和各項制度的不斷完善，農(nóng)產(chǎn)品質(zhì)量安全信息的采集成為重要環(huán)節(jié)；但信息采集具有實時性強、覆蓋面廣、傳統(tǒng)設(shè)備操作性差等特點。如何提高工作效率、減少人工重復(fù)勞動，是實現(xiàn)農(nóng)產(chǎn)品質(zhì)量安全生產(chǎn)與追溯、農(nóng)產(chǎn)品市場監(jiān)控及預(yù)警過程中亟待解決的問題。語言是人類溝通的最自然形式，其中蘊含大量的信息，語言交流也是農(nóng)業(yè)生產(chǎn)中重要的通信手段。隨著語音識別技術(shù)的迅速發(fā)展，將語音信息轉(zhuǎn)化為便于計算機的處理文本信息，使得語音信息應(yīng)用于農(nóng)業(yè)生產(chǎn)成為可能。

語音識別（Speech Recognition），也稱自動語音識別或機器語音識別，是通過計算機將人類語音信號轉(zhuǎn)換為文本序列的過程。它涉及到人工智能與模式識別、數(shù)字信號處理、統(tǒng)計與概率、認(rèn)知心理學(xué)、語音學(xué)、語言學(xué)等學(xué)科領(lǐng)域，是一門非常復(fù)雜的交叉學(xué)科。

語音識別的研究已經(jīng)吸引了60年的極大關(guān)注。20世紀(jì)80年代中期，隱馬爾科夫模型（HiddenMarkovModel，HMM）作為語音信號的一種統(tǒng)計模型，在語音信號處理的各個領(lǐng)域得到廣泛應(yīng)用，進而成為一個公認(rèn)的研究熱點，也是目前語音識別的主流研究途徑。20世紀(jì)90年代，語音識別已從實驗室走向?qū)嵱没缯Z音導(dǎo)航、語音聽寫、電話網(wǎng)絡(luò)自動呼叫處理及票務(wù)查詢等。近年來，魯棒的語音識別、基于語音段的建模方法、隱馬爾科夫模型和人工神經(jīng)網(wǎng)絡(luò)的結(jié)合成為研究的熱點；另一方面，為了語音識別實用化的需要，語者自適應(yīng)、聽覺模型以及進一步的語言模型的課題倍受關(guān)注。

語音識別在農(nóng)業(yè)領(lǐng)域的應(yīng)用研究較薄弱。由于語音識別的學(xué)科綜合性較強，加之手持式設(shè)備處理能力的限制，農(nóng)業(yè)領(lǐng)域人員開發(fā)語音處理系統(tǒng)存在困難；而信息技術(shù)領(lǐng)域研究人員多注重通用、大詞匯量、連續(xù)語音識別方法的研究。雖然目前有不少語音識別方面的研究成果產(chǎn)品，但仍缺乏基于手持設(shè)備的農(nóng)業(yè)語音采集技術(shù)、方法或二次開發(fā)工具，在移動設(shè)備農(nóng)業(yè)語音信息采集方法研究方面，目前仍處于空白。

農(nóng)產(chǎn)品信息采集作為質(zhì)量追溯、信息發(fā)布的關(guān)鍵和基礎(chǔ)，采集技術(shù)和作業(yè)場景復(fù)雜多樣。從技術(shù)上看，采集方式可分為兩類：①原始信息采集。如生產(chǎn)記錄、生長環(huán)境、農(nóng)產(chǎn)品等級和價格等數(shù)據(jù)，需人工采集。嵌入式手持設(shè)備是此類任務(wù)的主流硬件平臺。②數(shù)字化自動采集。通過傳感器自動采集環(huán)境信息（溫度、濕度等），通過條形碼、RFID等技術(shù)自動采集原料信息（產(chǎn)地、時間等）。對于已完成數(shù)字化處理的數(shù)據(jù)，現(xiàn)有技術(shù)設(shè)備已經(jīng)能夠很好地解決其采集的問題，而對于只能通過人工干預(yù)進行采集的信息，由于大部分需要在進行農(nóng)產(chǎn)品生產(chǎn)、管理工作的同時完成信息采集，而現(xiàn)有的設(shè)備和系統(tǒng)主要采用基于視覺/手動方式來完成采集，采集信息的同時必然導(dǎo)致工作效率降低。

技術(shù)實現(xiàn)要素：

本發(fā)明的目的在于提供一種農(nóng)業(yè)語音信息識別的方法，該方法包括模型訓(xùn)練階段和識別階段。模型訓(xùn)練階段包括聲學(xué)模型訓(xùn)練和語言模型訓(xùn)練兩部分。聲學(xué)模型的建模單元為上下文三音子。聲學(xué)模型訓(xùn)練的步驟是：第一步，對聲音信號進行預(yù)處理；第二步，提取穩(wěn)定的聲學(xué)特征；第三步，通過人工采集大量的語音樣本建立語音語料庫；最后一步，采用向前向后算法進行模型的訓(xùn)練，得到穩(wěn)定的聲學(xué)模型。語言模型的訓(xùn)練的步驟是：第一步，對特定的應(yīng)用場景用文本提取工具提取大量的文本，第二步，建立語料庫，并對其語義分析和語法結(jié)構(gòu)進行推斷，進而形成語言模型。識別階段的步驟是：第一步，在前端對輸入語音信號進行特征提取，得到的特征向量與聲學(xué)模型進行聲學(xué)對比；第二步，從發(fā)音詞典中選出概率分布最為接近的候選詞，再利用語言模型進一步進行約束，得到最終的農(nóng)業(yè)信息文本。

一種基于語音識別的農(nóng)產(chǎn)品信息采集系統(tǒng),包括移動終端、移動互聯(lián)網(wǎng)、語音云計算平臺；語音云計算平臺包括語音服務(wù)器、業(yè)務(wù)服務(wù)器、授權(quán)服務(wù)器；語音服務(wù)器提供自動語音識別服務(wù)和語音合成服務(wù)。

與現(xiàn)有技術(shù)相比，系統(tǒng)在云計算平臺搭建識別引擎，并訓(xùn)練出穩(wěn)定的聲學(xué)模型，通過手持式移動終端采集語音信號，通過互聯(lián)網(wǎng)發(fā)送到服務(wù)器端進行識別，詞識別率達到95%以上，滿足了農(nóng)產(chǎn)品語音信息采集的需要，工作效率高。

附圖說明

為了更清楚地說明本發(fā)明實施例或現(xiàn)有技術(shù)中的技術(shù)方案，下面將對實施例或現(xiàn)有技術(shù)描述中所需要使用的附圖作簡單地介紹，顯而易見地，下面描述中的附圖僅僅是本發(fā)明的一些實施例，對于本領(lǐng)域普通技術(shù)人員來講，在不付出創(chuàng)造性勞動的前提下，還可以根據(jù)這些附圖獲得其他的附圖。

圖1是本發(fā)明所述系統(tǒng)總體結(jié)構(gòu)圖。

圖2是本發(fā)明所述系統(tǒng)通信原理圖。

具體實施方式

下面結(jié)合附圖對本發(fā)明的優(yōu)選實施例進行詳細闡述，以使本發(fā)明的優(yōu)點和特征能更易于被本領(lǐng)域技術(shù)人員理解，從而對本發(fā)明的保護范圍做出更為清楚明確的界定。

參閱圖2所示，本發(fā)明提供一種農(nóng)業(yè)語音信息識別的方法，該方法包括模型訓(xùn)練階段和識別階段。模型訓(xùn)練階段包括聲學(xué)模型訓(xùn)練和語言模型訓(xùn)練兩部分。聲學(xué)模型的建模單元為上下文三音子。聲學(xué)模型訓(xùn)練的步驟是：第一步，對聲音信號進行預(yù)處理；第二步，提取穩(wěn)定的聲學(xué)特征；第三步，通過人工采集大量的語音樣本建立語音語料庫；最后一步，采用向前向后算法進行模型的訓(xùn)練，得到穩(wěn)定的聲學(xué)模型。語言模型的訓(xùn)練的步驟是：第一步，對特定的應(yīng)用場景用文本提取工具提取大量的文本，第二步，建立語料庫，并對其語義分析和語法結(jié)構(gòu)進行推斷，進而形成語言模型。識別階段的步驟是：第一步，在前端對輸入語音信號進行特征提取，得到的特征向量與聲學(xué)模型進行聲學(xué)對比；第二步，從發(fā)音詞典中選出概率分布最為接近的候選詞，再利用語言模型進一步進行約束，得到最終的農(nóng)業(yè)信息文本。

語音識別的主要過程分為模型訓(xùn)練階段和識別階段，其過程如圖1所示。模型訓(xùn)練包括聲學(xué)模型的訓(xùn)練和語言模型訓(xùn)練兩部分。聲學(xué)模型當(dāng)前主要采用上下文三音子為建模單元，通過人工采集大量的語音樣本建立語音語料庫，采用向前向后算法進行模型的訓(xùn)練，得到穩(wěn)定的聲學(xué)模型。在聲學(xué)訓(xùn)練之前，需要對聲音信號進行預(yù)處理、提取穩(wěn)定的聲學(xué)特征，當(dāng)前主流的特征為MEL頻率倒譜系數(shù)（Mel－FrequencyCepstralCoefficients，MFCC）或感知線性預(yù)測系數(shù)（PerceptualLinearPrediction，PLP）等，較好地解決了特征提取問題。語言模型的訓(xùn)練主要是文本信息的處理，首先對特定的應(yīng)用場景用文本提取工具提取大量的文本，建立語料庫，并對其語義分析和語法結(jié)構(gòu)進行推斷，進而形成一系列的語法規(guī)則，即語言模型。

識別過程是對語音信號進行解碼（decoding）的過程，基于隱馬爾科夫模型的解碼過程可采用Viterbi算法。首先，在前端對輸入語音信號進行特征提取，得到的特征向量與聲學(xué)模型進行聲學(xué)對比；然后，從發(fā)音詞典中選出概率分布最為接近的候選詞，再利用語言模型進一步進行約束，得到最終的識別結(jié)果。

本發(fā)明還在一種農(nóng)業(yè)語音信息識別的方法的基礎(chǔ)上，提供了一種基于語音識別的農(nóng)產(chǎn)品信息采集系統(tǒng)，系統(tǒng)基于移動互聯(lián)網(wǎng)和云計算平臺，構(gòu)建應(yīng)用系統(tǒng)，如圖2所示。利用手機平臺作為移動終端，采集語音信息和實現(xiàn)人機交互，通過移動GPRS/3G/4G通信網(wǎng)絡(luò)和HTTP協(xié)議，將采集到的語音信號發(fā)送到語音服務(wù)器進行識別，語音服務(wù)器依靠強大的云計算資源提供自動語音識別（ASR）服務(wù)，可根據(jù)業(yè)務(wù)需求提供語音合成服務(wù)（TTS）。Web服務(wù)器為語音服務(wù)、業(yè)務(wù)服務(wù)、授權(quán)服務(wù)提供訪問支持，通過http協(xié)議實現(xiàn)可靠的通信任務(wù)。業(yè)務(wù)服務(wù)器實現(xiàn)各種信息查詢、決策支持、預(yù)警信息發(fā)布等具體業(yè)務(wù)。互聯(lián)網(wǎng)用戶通過Internet實現(xiàn)業(yè)務(wù)信息的訪問，同時也可以完成語音識別的功能，但顯然不適合在作業(yè)現(xiàn)場完成。

經(jīng)測試，使用本發(fā)明的方法和系統(tǒng)詞識別率（WRR）達到95%以上，基本滿足了農(nóng)產(chǎn)品語音信息采集的需要。

雖然結(jié)合附圖描述了本發(fā)明的實施方式，但是專利所有者可以在所附權(quán)利要求的范圍之內(nèi)做出各種變形或修改，只要不超過本發(fā)明的權(quán)利要求所描述的保護范圍，都應(yīng)當(dāng)在本發(fā)明的保護范圍之內(nèi)。

完整全部詳細技術(shù)資料下載

當(dāng)前第1頁1 2 3