智能虛擬斷句實現協同聽打錄入的方法

文檔序號：6562165閱讀：320來源：國知局

專利名稱：智能虛擬斷句實現協同聽打錄入的方法
技術領域：
本發(fā)明公開了一種在網絡環(huán)境下進行多人協同完成從語音到文字轉換的聽打錄入的方法。
背景技術：
目前已有的計算機記錄語音的聽打方式主要有三種一種是傳統的一個人一邊聽一邊打，獨立完成全部聽打任務；一種是將音頻文件錄制下來，然后通過程序或者手工分成以分鐘設置小時計算的大片段，然后交給不同的錄入人員進行聽打，最后通過人工把各大片段文稿拼合到一起完成錄入工作，原理上和第一種是一樣的；第三種是通過將采集音頻實時地分成連續(xù)地以秒為單位的小文件，然后將這些小文件傳給不同的人進行錄入，然后通過服務器整合出來完整的文稿。
前兩種方式并不能完成實時的協同工作，而最后一種方式能夠達到，但在大規(guī)模應用中，其基于服務器進行文件中轉的方式，會導致服務器傳輸壓力大，帶寬需求高，運營成本高；而且由于因為每個錄入端只有自己錄入的小文件的語音信息，在需要上下文的時候，無法及時調用前后的語音文件進行輔助處理。

發(fā)明內容
本發(fā)明的目的是提供一種智能虛擬斷句實現協同聽打錄入的方法。
本發(fā)明技術方案包括-步驟l)通過計算機采集語音信號；
步驟2)將語音文件同步傳輸給服務器及各錄入端；
步驟3)通過服務器指派網絡上參與這一錄入任務的任意一臺或
多臺計算機進行斷句點運算；步驟4)接收到斷句計算任務的計算機根據語音間歇的特征計算
出斷句點，并將斷句點時碼信息發(fā)送給服務器；步驟5)服務器根據錄入端的請求，組織分配給錄入端錄入任務，
并將分配任務的斷句時碼信息作為控制命令發(fā)送給相應
的錄入端；
步驟6)錄入端根據分配任務的時碼起點和終點錄入指定部分語
音對應的文字，并回傳給服務器；步驟7)服務器將各錄入端的文本根據任務分配計劃的時碼順序
拼合出完整的文字內容，完成將語音轉化成文字的聽打錄
入工作。
根據上面敘述的流程，所述智能虛擬斷句實現協同聽打錄入的方法，其特征在于所屬步驟2)、步驟3)、步驟4)，即傳輸機制、分布
式運算機制和斷句點計算方法。
本方法中步驟2)采用點對點(P2P)的傳輸機制，即負責語音采
集的計算機作為信息源，向服務器和錄入端計算機傳輸所采集的語音文件；而參與該聽打錄入任務的服務器和錄入端計算機既是文件的接收端，同時也是己經接受部分文件的服務端，向其它沒有得到該部分文件的計算機傳輸該部分文件。這樣就可以將采集的音頻文件實時傳輸給服務器和參與該項工作的每個錄入端計算機。
本方法的步驟3)中服務器將根據各錄入端啟動登錄時運行的一個小測試程序發(fā)給服務器的系統綜合性能參數，來指定其中一臺或多
臺計算機來完成斷句點的計算任務，參與計算斷句點的計算機不僅包括各錄入端計算機，也包括服務器本身。
本方法中步驟4)計算斷句點的方法的典型步驟如下-步驟IO)取語音文件的前10秒讀入緩沖區(qū)；
步驟20)根據這10秒音頻文件的波形數據，找到波形峰值中
最高的前10個；
步驟30)如果這10個峰值中有5個以上等于0，判斷為靜音
片段，以這段音頻文件的終點為斷句點；步驟40)記錄下這個斷句點；
步驟50)從語音文件斷句點之后再取10秒讀入緩沖區(qū)；
步驟60)如果未處理的語音文件還大于10秒，重復執(zhí)行步驟
20);如果已經不足10秒，跳轉到步驟70)。步驟70)直接以終點為斷句點，流程結束步驟80) 如果該10個峰值中有5個以上不等于0，以這10個
峰值的算數平均值的10%做為降噪基值，對這10秒音頻文
件進行強制降噪處理；步驟90)判斷降噪后是否出現值等于O的區(qū)域，即靜音片段; 步驟IOO)如果沒有靜音片段，返回步驟60)再次進行強制降
噪處理。
步驟IIO)計算降噪后的波形文件中每個靜音片段間的間隔，如果間隔小于0. 1秒，即將間隔的波形替換為等長的靜音，將兩個靜音片段合并成一個靜音片段；
步驟120)計算步驟110)處理后的波形文件中時間值在三秒以
后的每個靜音片段的長度；
步驟130)判斷這些靜音片是否有超過0.5秒的；
步驟140)如果出現超過0. 5秒的靜音片段，取其中最長的一個
靜音片段的終點做為斷句點，并跳轉到步驟40); 步驟150)如果沒有超過0.5秒的靜音片段，跳轉到步驟80);

附圖1為本發(fā)明智能虛擬斷句實現協同聽打錄入的方法的流程圖
附圖2為計算斷句點的流程圖
附圖3為10秒鐘語音文件的原始波形圖
附圖4為第一次強制降噪后的10秒鐘波形
附圖5為第二次強制降噪后的10秒鐘波形
具體實施例方式
下面結合附圖進一步說明本發(fā)明的具體實施方式
。
附圖1為整個實現協同聽打錄入的方法的流程圖
步驟l)通過計算機采集語音信號；
步驟2)將語音文件同步傳輸給服務器及各錄入端；
步驟3)通過服務器指派網絡上參與這一錄入任務的任意一臺或
多臺計算機進行斷句點運算；步驟4)接收到斷句計算任務的計算機根據語音間歇的特征計算
出斷句點，并將斷句點時碼信息發(fā)送給服務器；步驟5)服務器根據錄入端的請求，組織分配給錄入端錄入任務，
并將分配任務的斷句時碼信息作為控制命令發(fā)送給相應的
錄入端；
步驟6)錄入端根據分配任務的時碼起點和終點錄入指定部分語音對應的文字，并回傳給服務器；
步驟7)服務器將各錄入端的文本根據任務分配計劃的時碼順序
拼合出完整的文字內容，完成將語音轉化成文字的聽打錄入工作。
附圖2是上面步驟4)中指定計算機根據語音間歇的特征計算斷句點的流程圖-.
步驟IO)取語音文件的前10秒讀入緩沖區(qū)；
步驟20)根據這10秒音頻文件的波形數據，如附圖3-10秒鐘
語音文件的原始波形圖，找到波形峰值中最高的前10個；
步驟30)如果這10個峰值中有5個以上等于0，判斷為靜音片段，以這段音頻文件的終點為斷句點。靜音片的特征很明顯，波形為一條直線，如果其中出現人聲，根據人聲發(fā)音的特征，那怕是半秒鐘的音頻也一定會大大超過5個以上的峰值；另一種10秒鐘中出現低于5個峰值的情況是出現在延續(xù)時間長而且有規(guī)律的音頻中，如示波器出現的正弦波形，根據人聲發(fā)音的特征，正常的語音發(fā)音也是不可能發(fā)出這樣的聲音的，所以對聽打錄入沒有實際意義，故也被視同為靜音片。
步驟40)記錄下這個斷句點；
步驟50)從語音文件斷句點之后再取10秒讀入緩沖區(qū)；步驟60)如果未處理的語音文件還大于10秒，重復執(zhí)行步驟
20);如果已經不足10秒，跳轉到步驟70)。步驟70)直接以終點為斷句點，流程結束步驟80)如果該10個峰值中有5個以上不等于0，以這10個
峰值的算數平均值的10%做為降噪基值，對這10秒音頻文
件進行強制降噪處理；步驟90)判斷降噪后是否出現值等于O的區(qū)域，即靜音片段;
步驟IOO)如果處理后如附圖4-第一次強制降噪后的IO秒鐘波形，沒有靜音片段，返回步驟60)再次進行強制降噪處理，直到得到如附圖5-第二次強制降噪后的IO秒鐘波形所示的有靜音片段的波形。
步驟IIO)計算降噪后的波形文件中每個靜音片段間的間隔，如果間隔小于O. 1秒，即將間隔的波形替換為等長的靜音，將兩個靜音片段合并成一個靜音片段；
步驟120)計算步驟110)處理后的波形文件中時間值在三秒以
后的每個靜音片段的長度；步驟130)判斷這些靜音片是否有超過0.5秒的；步驟140)如果出現超過0. 5秒的靜音片段，取其中最長的一個
靜音片段的終點做為斷句點，并跳轉到步驟40); 步驟150)如果沒有超過0.5秒的靜音片段，跳轉到步驟80); 綜上所述，通過這樣的方法就可以由多人協同完成從語音到文字轉換的聽打錄入的工作，并且具備多項優(yōu)點通過P2P架構分發(fā)語音文件，能夠有效利用網絡帶寬，降低了大規(guī)模應用中對服務器帶寬的要求；每個錄入端都有完整的語音信息，所以參與這項任務的每臺計算機都可以參與斷句點的計算；并且當發(fā)生錄入端斷線或者退出等情況時，服務器調整分配的任務，只需要將任務控制信息傳給其他的錄入端，而不需要再次傳輸語音文件；通過服務器分派任務，實現多人協作完成聽打錄入工作，每個人只負責其中的一部分，大幅度降低了對單個錄入人員錄入速度的要求，同時也提高了錄入文稿的完整性。
權利要求
1.一種智能虛擬斷句實現協同聽打錄入的方法，其特征在于，包括步驟1)通過計算機采集語音信號；步驟2)將語音文件同步傳輸給服務器及各錄入端；步驟3)通過服務器指派網絡上參與這一錄入任務的任意一臺或多臺計算機進行斷句點運算；步驟4)接收到斷句計算任務的計算機根據語音間歇的特征計算出斷句點，并將斷句點時碼信息發(fā)送給服務器；步驟5)服務器根據錄入端的請求，組織分配給錄入端錄入任務，并將分配任務的斷句時碼信息作為控制命令發(fā)送給相應的錄入端；步驟6)錄入端根據分配任務的時碼起點和終點錄入指定部分語音對應的文字，并回傳給服務器；步驟7) 服務器將各錄入端的文本根據任務分配計劃的時碼順序拼合出完整的文字內容，完成將語音轉化成文字的聽打錄入工作。
2. 根據權利要求1所述的智能虛擬斷句實現協同聽打錄入的方法，其特征在于，所屬步驟2)、步驟3)、步驟4)，即傳輸機制、分布式運算機制和斷句點計算方法。
3. 根據權利要求2所述的智能虛擬斷句實現協同聽打錄入的方法，其特征在于，步驟2)采用點對點(P2P)的傳輸機制，即負責語音釆集的計算機作為信息源，向服務器和錄入端計算機傳輸所采集的語音文件；而參與該聽打錄入任務的服務器和錄入端計算機既是文件的接收端，同時也是已經接受部分文件的服務端，向其它沒有得到該部分文件的計算機傳輸該部分文件；這樣就可以將采集的音頻文件實時傳輸給服務器和參與該項工作的每個錄入端計算機。
4. 根據權利要求2所述的智能虛擬斷句實現協同聽打錄入的方法，其特征在于，步驟3)中服務器將根據各錄入端啟動登錄時運行的一個小測試程序發(fā)給服務器的系統綜合性能參數，來指定其中一臺或多臺計算機來完成斷句點的計算任務，參與計算斷句點的計算機不僅包括各錄入端計算機，也包括服務器本身。
5. 根據權利要求2所述的智能虛擬斷句實現協同聽打錄入的方法，其特征在于，步驟4)計算斷句點的方法如下步驟步驟IO)取語音文件的前10秒讀入緩沖區(qū)；步驟20)通過自動增益將音量調整到適合人耳聽覺合適的范圍中；步驟30)根據這10秒音頻文件的波形數據，找到波形最低點和次最低點，如果波形只有最低點而沒有次最低點，判斷為靜音片段，以這段音頻文件的終點為斷句點；步驟40) 記錄下這個斷句點；步驟50)從語音文件斷句點之后再取10秒讀入緩沖區(qū)，重復執(zhí)行步驟20);步驟60)如果該10秒波形有次最低點，以次最低點的波形數值做為降噪基值，對這IO秒音頻文件進行強制降噪處理；步驟70)計算降噪后的波形文件中每個靜音片段間的間隔，如果間隔小于O.l秒，即將間隔的波形替換為等長的靜音，將兩個靜音片段合并成一個靜音片段；步驟80)計算步驟70)處理后的波形文件中時間值在三秒以后的每個靜音片段的長度，如果出現超過0.5秒的靜音片段，取其中最長的一個靜音片段的終點做為斷句點；步驟90) 記錄下這個斷句點；步驟IOO)從語音文件斷句點之后再取10秒讀入緩沖區(qū)，重復執(zhí)行步驟20)，直到語音文件結束；步驟IIO)如果沒有找到斷句點，則根據步驟30)降噪處理后的波形文件，在此找到波形次最低點，以這個點的數字做為降噪基值，對這10秒音頻文件進行再次強制降噪處理；步驟12Q)重復步驟60)繼續(xù)處理。
全文摘要
本發(fā)明為智能虛擬斷句實現協同聽打錄入的方法。本發(fā)明公開了一種在網絡環(huán)境下進行多人協同聽打錄入的方法，包括步驟有通過計算機采集語音；將語音文件同步傳輸給服務器及各錄入端；由其中一臺或多臺計算機，根據語音間歇計算出斷句點，并將時碼信息發(fā)送給服務器；服務器根據錄入端的請求，組織分配給錄入端任務，并將分配任務的斷句時碼信息作為控制命令發(fā)送給錄入端；錄入端根據分配任務的時碼起點和終點錄入指定部分語音對應的文字，并傳回服務器；服務器將片段文本根據時碼順序拼合出完整的文稿。采用本發(fā)明方法的技術方案，能夠使多人協同完成一個聽打錄入的任務，降低了對單個錄入人員錄入速度的要求，并提高錄入文稿的質量。
文檔編號G06Q10/10GK101178790SQ20061013839
公開日2008年5月14日申請日期2006年11月10日優(yōu)先權日2006年11月10日
發(fā)明者鵬胡申請人:鵬胡

完整全部詳細技術資料下載

該技術已申請專利。僅供學習研究，如用于商業(yè)用途，請聯系技術所有人。
技術研發(fā)人員：胡鵬
技術所有人：胡鵬
我是此專利的發(fā)明人

上一篇：多鍵并擊式數字輸入的方法及鍵盤的制作方法
上一篇：網絡搜索方法、網絡搜索設備和用戶終端的制作方法

該領域下的技術專家
如您需求助技術專家，請點此查看客服電話進行咨詢。
1、李老師：1.計算力學 2.無損檢測
2、畢老師：機構動力學與控制
3、袁老師：1.計算機視覺 2.無線網絡及物聯網
4、王老師：1.計算機網絡安全 2.計算機仿真技術
5、王老師：1.網絡安全；物聯網安全、大數據安全 2.安全態(tài)勢感知、輿情分析和控制 3.區(qū)塊鏈及應用
如您是高校老師，可以點此聯系我們加入專家?guī)臁?/a>

相關技術

網友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

多智能體協同控制相關技術

智能車路協同系統相關技術

智能發(fā)電協同創(chuàng)新中心相關技術

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

智能虛擬斷句實現協同聽打錄入的方法