一種基于語音識別的文本定位和選擇方法

文檔序號：6442479閱讀：182來源：國知局

專利名稱：一種基于語音識別的文本定位和選擇方法
技術領域：
本發(fā)明涉及系統(tǒng)軟件，語音識別技術領域，更具體地說，涉及一種基于語音識別的文本定位和選擇方法。
背景技術：
傳統(tǒng)的文本選擇方式在各個終端上都需要用戶進行手工的各種操作，包含電腦上的鼠標拖拉選擇，鍵盤操作，智能終端上通過觸摸屏觸摸進行選擇，在某些特定的場景下存在困難，如觸摸屏的靈敏度，用戶手指的靈活度，都會影響在屏幕上的選擇操作，尤其是在屏幕較小的智能終端上，用戶精確定位文本并選擇經常存在各種問題，需要反復進行定位和選擇。而語音識別已經成為各種智能終端和系統(tǒng)的普遍的能力的情況下，通過語音識別獲取用戶的意圖，可以精確選取對應的用戶需要選擇和定位的文本，方便了用戶的操作，為用戶在不同環(huán)境下的操作提供一個選擇。

發(fā)明內容
通過用戶口述部分內容，終端或系統(tǒng)進行語音的識別，將用戶口述的語音片段轉換為文本內容，并以該部分文字內容為關鍵詞搜索當前的終端上的活動窗口上顯示的文本，并基于搜索結果識別文本進行定位，定位成功后選取對應的內容，從而幫助用戶快速選取對應的內容以進行進一步的操作，為用戶提供了使用簡單快捷的一種基于語音識別的文本定位和選擇方法。進一步的，通過所提供的一種基于語音識別的文本定位和選擇方法為用戶使用各種終端的應用的發(fā)展提供有力保障，滿足各方要求，提升用戶友好體驗。為實現(xiàn)上述目的，本發(fā)明的一個方面提供了一種基于語音識別的文本定位和選擇方法，該方法包括:
在終端上通過用戶口述需要選取的內容，在終端或系統(tǒng)進行語音識別，轉換為文字并以識別結果為關鍵詞發(fā)起當前活動窗口的文本內容的搜索，獲取識別文本的定位并基于位置選擇對應的文本內容。終端包含了傳統(tǒng)電腦，手機，平板電腦等支持語音獲取和網絡功能的各種終端設備。本發(fā)明提供的一種基于語音識別的文本定位和選擇方法的一個實施例中，該方法還包括:
用戶口述的內容片段，終端通過麥克風獲取和記錄用戶語音數(shù)據(jù)，轉換為語音識別要求的語音格式，根據(jù)終端設備軟硬件識別能力選擇在終端進行語音識別，或通過以服務方式開放的系統(tǒng)端語音識別接口請求系統(tǒng)進行語音識別，獲取語音對應的文本。根據(jù)終端軟硬件環(huán)境和能力，終端可以加載語音識別模塊，也可以通過發(fā)送獲取的音頻內容到系統(tǒng)在線語音識別服務進行內容的識別，并在識別后發(fā)起當前活動窗口的文本的搜索和定位。本發(fā)明提供的一種基于語音識別的文本定位和選擇方法的一個實施例中，該方法還包括:
終端在獲取對應語音的文本內容后，在當前的活動窗口搜索對應的文本，搜索到文本后定位文本的位置，并按照當前終端系統(tǒng)的選擇方式對文本進行加亮等操作，用戶隨后可以呼出對應菜單進行進一步的操作。本發(fā)明提供的一種基于語音識別的文本定位和選擇方法的一個實施例中，該方法還包括:
定位到對應的文本內容后，用戶可以通過按鍵等方式呼出對應的選擇菜單，菜單包含各種操作選擇項，包含常見的復制，剪切，分享等各種操作。
具體來說具有以下優(yōu)點:
使用方式簡單:
用戶簡單地口述部分語句即可獲取對應內容文本后進行定位和選擇以及進一步的各種操作，系統(tǒng)自動進行語句的識別，解析和識別，實現(xiàn)方式簡單便捷。云模式識別:
滿足不同能力的終端，可以在終端進行語音的識別，也可以通過系統(tǒng)端的語音識別服務進行語音識別，滿足了不同硬件層次能力的終端。定位準確:
通過系統(tǒng)自動進行文本的選擇和定位，無需用戶手動進行選擇，避免了各種終端的硬件缺陷以及用戶操作靈活度的問題，提高了定位和選擇的精度。

此處所說明的附圖用來提供對本發(fā)明的進一步理解，構成本申請的一部分，本發(fā)明的示意性實施例及其說明用于解釋本發(fā)明，并不構成對本發(fā)明的不當限定。在附圖中:
圖1為本發(fā)明系統(tǒng)模塊結構的示意圖。圖2為本發(fā)明業(yè)務流程示意圖。圖3為本發(fā)明語音識別流程示意圖。
具體實施例方式下面參照附圖對本發(fā)明進行更全面的描述，其中說明本發(fā)明的示例性實施例。為實現(xiàn)上述目的，提出了一種基于語音識別的文本定位和選擇方法。以下通過結合附圖，對本發(fā)明的實施方式進行描述
實現(xiàn)一種基于語音識別的文本定位和選擇方法的關鍵點如下:
語音獲取:
用戶通過終端麥克風錄下用戶選取和口述的部分內容片段內容并編碼壓縮成語音識別接受的語音格式。
語音識別:
用戶口述文字啟動語音識別，識別模塊在終端或系統(tǒng)端，根據(jù)終端能力在終端安裝語音識別庫進行語音識別，或系統(tǒng)端提供語音識別能力并以服務形式進行開放，終端請求系統(tǒng)端的語音識別服務，提交記錄的語音數(shù)據(jù)，系統(tǒng)進行語音識別。內容搜索和定位:
在終端獲取對應的語音文本后，終端側基于文本進行內容的搜索和定位，自動將搜索到的內容進行選擇，以反色等常規(guī)選取表現(xiàn)方式將文本進行選擇，用戶隨即可以基于這些選擇的文本呼出操作菜單，包含復制，剪切，分享等各種操作。
主要功能模塊如圖1所示:
移動終端側:
終端是指具備移動互聯(lián)網網功能和相機的各種智能終端設備，包含智能手機，帶移動數(shù)據(jù)功能的平板電腦等設備；
用戶終端100:
用戶終端是指各種具備操作系統(tǒng)的設備，包含電腦，平板，智能手機等各種智能設備并具備網絡功能。業(yè)務邏輯101:
終端業(yè)務邏輯，控制和調用各個業(yè)務的邏輯功能以及業(yè)務流程，并與周邊的各個功能模塊進行數(shù)據(jù)的傳遞和功能的調用。語音獲取模塊102:
調用終端音頻功能和麥克風記錄用戶語音，并轉換為識別服務模塊要求的語音格式，提供給識別模塊進行內容的識別。內容操作模塊103:
在對文本進行定位后，提供對應文本的操作選項，用戶基于內容操作可以對內容進行進一步的各種操作，如復制，剪切等。配置管理模塊104:
終端側用戶進行各種用戶參數(shù)和業(yè)務參數(shù)的配置，包含用戶數(shù)據(jù)配置，業(yè)務參數(shù)配置
坐寸ο內容搜索定位模塊105:
在獲取到語音識別的結果文本后，終端應用將結果文本作為關鍵詞進行搜索當前窗口的內容，并基于搜索的結果進行光標的定位和內容的選擇。語音識別模塊106:
終端側可選模塊，在終端具備語音識別能力的情況下識別用戶口述的語音內容，并將其轉換為文字提供給搜索等其他功能模塊。服務請求模塊107:
請求系統(tǒng)遠程語音識別等遠程服務的功能模塊，終端通過服務請求模塊生成各種服務請求，請求遠程系統(tǒng)提供各種服務功能，包含識別服務等。接口模塊 108:
終端與系統(tǒng)之間的數(shù)據(jù)接口，通過接口發(fā)送和接收系統(tǒng)端的服務響應消息的各種數(shù)據(jù)。傳輸通道109:
包含移動網和互聯(lián)網，承載數(shù)據(jù)傳輸通道和各種業(yè)務，傳輸終端和系統(tǒng)之間的各種數(shù)據(jù)。
系統(tǒng)側:系統(tǒng)端為不具備本地語音識別的終端提供服務，是可選的部分。服務接口模塊110:
定義系統(tǒng)端提供的服務訪問的方式和參數(shù)，負責與終端通過數(shù)據(jù)網進行通信，獲取移動終端提交的請求和消息交互的各種數(shù)據(jù)。業(yè)務邏輯模塊111:
根據(jù)用戶提交的各種請求以及請求數(shù)據(jù)執(zhí)行各個對應的業(yè)務邏輯并負責控制和調用周邊的功能模塊進行通信并交換各種數(shù)據(jù)已完成各種業(yè)務邏輯功能。安全模塊112:
負責系統(tǒng)對用戶及業(yè)務請求的安全管理，對用戶和終端進行鑒權認證，以及保障數(shù)據(jù)傳輸?shù)陌踩?，包含?shù)據(jù)的加密解密等涉及業(yè)務安全的各種功能。語音識別模塊113:
系統(tǒng)負責識別終端側發(fā)送的原始數(shù)據(jù)內容，通過接口服務，終端遠程調用系統(tǒng)識別模塊的識別服務，并將識別結果提交給其他功能模塊以繼續(xù)下一步流程。系統(tǒng)管理模塊114:
對整個系統(tǒng)進行管理和配置，包含用戶管理，日志記錄和管理，業(yè)務邏輯的管理等等。
圖3示出本發(fā)明語音識別流程示意圖，步驟如下。I)用戶打開應用；
2)用戶口述需要定位和選擇的文本；
3)終端獲取用戶的語音數(shù)據(jù)；
4)根據(jù)識別方式，選擇在終端本地或系統(tǒng)進行識別；
5)獲取識別結果后，應用以識別結果發(fā)起文本的搜索和定位；
6)對定位的文本,應用選取對應的文本并進行加亮；
7)用戶隨即可以采取呼出菜單進行進一步操作。
下面舉一個例子來說明本發(fā)明系統(tǒng)的移動終端通過語音方式觸發(fā)業(yè)務的流程，如圖2所示，該實施例中，業(yè)務包括以下步驟:
步驟1:用戶打開終端應用，口述物部分內容；
步驟2:終端通過麥克風記錄用戶語音，轉換成音頻格式數(shù)據(jù)，根據(jù)識別方式提交終端或系統(tǒng)進行語音的識別；
步驟3:終端或系統(tǒng)進行語音識別，獲取語音對應的文本內容；
步驟4.終端應用將獲取的句子作為搜索參數(shù)發(fā)起搜索和定位；
步驟5.終端應用檢索到包含語音識別結果的內容后，定位該內容并選擇對應的文本并加亮顯示；步驟6.用戶可以采取呼出菜單方式進行進一步操作，包含復制，剪切等。
本發(fā)明的描述是為了示例和說明起見而給出的，而并不是無遺漏的或者將本發(fā)明限于所公開的形式。很多修改和變化對于本領域的普通技術人員而言是顯然的。選擇和描述實施例是為了更好說明本發(fā)明的原理和實際應用，并且使本領域的普通技術人員能夠理解本發(fā)明從而設計適于特定用途的帶有各種修改的各種實施例。
權利要求
1.一種基于語音識別的文本定位和選擇方法，其特征在于，在終端上通過用戶口述需要選取的內容，在終端或系統(tǒng)進行語音識別，轉換為文字并以識別結果為關鍵詞發(fā)起當前活動窗口的文本內容的搜索，獲取識別文本的定位并基于位置選擇對應的文本內容。
2.如權利要求1所述，終端是包含各種固定或便攜的終端設備，其特征在于，終端包含了傳統(tǒng)電腦，手機，平板電腦等支持語音獲取和網絡功能的各種終端設備。
3.如權利要求1所述，用戶口述部分內容片段，終端記錄該語音并進行識別，其特征在于，用戶口述的內容片段，終端通過麥克風獲取和記錄用戶語音數(shù)據(jù)，轉換為語音識別要求的語音格式，根據(jù)終端設備軟硬件識別能力選擇在終端進行語音識別，或通過以服務方式開放的系統(tǒng)端語音識別接口請求系統(tǒng)進行語音識別，獲取語音對應的文本。
4.如權利要求3所述，終端獲取語音內容后在終端本地或系統(tǒng)進行識別，其特征在于，根據(jù)終端軟硬件環(huán)境和能力，終端可以加載語音識別模塊，也可以通過發(fā)送獲取的音頻內容到系統(tǒng)在線語音識別服務進行內容的識別，并在識別后發(fā)起當前活動窗口的文本的搜索和定位。
5.如權利要求4所述，終端獲取語音對應的文本內容后發(fā)起內容文本的搜索和定位，其特征在于，終端在獲取對應語音的文本內容后，在當前的活動窗口搜索對應的文本，搜索到文本后定位文本的位置，并按照當前終端系統(tǒng)的選擇方式對文本進行加亮等操作，用戶隨后可以呼出對應菜單進行進一步的操作。
6.如權利要求5所述，終端按照當前終端系統(tǒng)的選擇方式對文本進行加亮等操作，用戶隨后可以呼出對應菜單進行進一步的操作，其特征在于，定位到對應的文本內容后，用戶可以通過按鍵等方式呼出對應的選擇菜單，菜單包含各種操作選擇項，包含常見的復制，剪切，分享等各種操作。
全文摘要
本發(fā)明揭示了一種基于語音識別的文本定位和選擇方法，包含語音識別模塊，文本選擇模塊、業(yè)務邏輯模塊等。本發(fā)明通過用戶口述部分內容，終端或系統(tǒng)進行語音的識別，將用戶口述的語音片段轉換為文本內容，并以該部分文字內容為關鍵詞搜索當前的終端上的活動窗口上顯示的文本，并基于搜索結果識別文本進行定位，定位成功后選取對應的內容，從而幫助用戶快速選取對應的內容以進行進一步的操作。本發(fā)明通過用戶口述內容進行識別并搜索當前活動窗口的文本內容并進行定位和選取，為用戶提供了一種文本選擇的方法。
文檔編號G06F3/01GK103176591SQ20111043282
公開日2013年6月26日申請日期2011年12月21日優(yōu)先權日2011年12月21日
發(fā)明者顧健申請人:上海博路信息技術有限公司

完整全部詳細技術資料下載