一種基于語音的文件生成方法及裝置的制造方法

文檔序號：9434113閱讀：483來源：國知局

導(dǎo)航： X技術(shù)> 最新專利>樂器;聲學(xué)設(shè)備的制造及制作,分析技術(shù)

一種基于語音的文件生成方法及裝置的制造方法
【技術(shù)領(lǐng)域】
[0001]本發(fā)明實施例涉及語音識別技術(shù)領(lǐng)域，尤其涉及一種基于語音的文件生成方法及
目.0
【背景技術(shù)】
[0002]文字撰寫對于大部分人來說都是不可避免的，在日常的工作生活中每個人都難免有寫博客、寫讀書心得、寫報告，甚至是寫文案、公文等的需要。在進(jìn)行大量文字工作時，需要長時間坐在書桌或電腦前進(jìn)行文字的錄入工作，長期的伏案作業(yè)會對人的身體健康帶來一定損害。而且在勞動或者健身等碎片的業(yè)余時間中產(chǎn)生的想法難以記錄下來，很多時候轉(zhuǎn)眼即忘。
[0003]目前通過語音識別技術(shù)錄入文字信息時，需要先將錄入的文字信息存儲到剪貼板上，再轉(zhuǎn)到其它軟件或者網(wǎng)站上進(jìn)行編輯，即，現(xiàn)有的基于語音的文字錄入、編輯過程較繁瑣，用戶體驗較差。

【發(fā)明內(nèi)容】

[0004]本發(fā)明提供一種基于語音的文件生成方法及裝置，以簡化基于語音的文字錄入、編輯過程。
[0005]第一方面，本發(fā)明實施例提供了一種基于語音的文件生成方法，該方法包括:
[0006]將用戶的語音信息轉(zhuǎn)換為文字信息；
[0007]采用通用文件格式存儲得到的文字信息；
[0008]獲取用戶的語音口令，并對通用文件格式的文字信息執(zhí)行所述語音口令對應(yīng)的編輯操作。
[0009]第二方面，本發(fā)明實施例還提供了一種基于語音的文件生成，該裝置包括:
[0010]轉(zhuǎn)換模塊，用于將用戶的語音信息轉(zhuǎn)換為文字信息；
[0011]存儲模塊，用于采用通用文件格式存儲得到的文字信息；
[0012]語音口令獲取模塊，用于獲取用戶的語音口令，并對通用文件格式的文字信息執(zhí)行所述語音口令對應(yīng)的編輯操作。
[0013]本發(fā)明實施例提供的技術(shù)方案，通過將用戶錄入的語音信息轉(zhuǎn)換為文字信息，并且對所述文字信息采用通過文件格式進(jìn)行保存，進(jìn)而根據(jù)用戶的語音口令，對通用文件格式的文字信息執(zhí)行所述語音口令對應(yīng)的編輯操作，簡化了基于語音的文字錄入、編輯過程，提升了用戶體驗。
【附圖說明】
[0014]圖1是本發(fā)明實施例一中的一種基于語音的文件生成方法的流程圖；
[0015]圖2是本發(fā)明實施例二中的一種基于語音的文件生成方法的流程圖；
[0016]圖3是本發(fā)明實施例三中的一種基于語音的文件生成方法的流程圖；
[0017]圖4是本發(fā)明實施例四中的一種基于語音的文件生成裝置的結(jié)構(gòu)框圖。
【具體實施方式】
[0018]下面結(jié)合附圖和實施例對本發(fā)明作進(jìn)一步的詳細(xì)說明。可以理解的是，此處所描述的具體實施例僅僅用于解釋本發(fā)明，而非對本發(fā)明的限定。另外還需要說明的是，為了便于描述，附圖中僅示出了與本發(fā)明相關(guān)的部分而非全部結(jié)構(gòu)。
[0019]實施例一
[0020]圖1為本發(fā)明實施例一提供的一種基于語音的文件生成方法的流程圖。本實施例可適用于用戶通過語音進(jìn)行文字錄入、編輯的情況。該方法可以由基于語音的文件生成裝置來執(zhí)行。參見圖1，本實施例提供的基于語音的文件生成方法具體包括如下:
[0021 ] SI 10、將用戶的語音信息轉(zhuǎn)換為文字信息。
[0022]示例性的，將用戶的語音信息轉(zhuǎn)換為文字信息可以包括:依據(jù)設(shè)定的語音信息與候選文字信息之間的映射關(guān)系，將用戶的語音信息轉(zhuǎn)換為文字信息。
[0023]例如，用戶錄入的語音信息為“l(fā)i xiang”，采用語音識別技術(shù)獲得匹配的“理想”、“立項”、“李想”以及“李翔”等等。用戶根據(jù)自己的需要選擇某一匹配的文字信息，如選擇的是“理想”，那么系統(tǒng)會建立并存儲“l(fā)i xiang”與“理想”之間的映射關(guān)系，從而當(dāng)用戶再次錄入“l(fā)i xiang”的時候，系統(tǒng)就會自動識別為“理想”，而不再將其識別為“立項”、“李想”或“李翔”等其它候選詞匯。
[0024]在語音轉(zhuǎn)換之間，很顯然需要接收用戶錄入的語音信息，用戶可以通過客戶端內(nèi)設(shè)置的語音輸入設(shè)備錄入，例如，手機內(nèi)快速工具中的“語音文檔”中的麥克風(fēng)。
[0025]示例性的，在監(jiān)測到用戶中斷錄入語音的時間小于設(shè)定的停頓時間值時，實時獲取用戶的語音信息。所述停頓時間值可以是系統(tǒng)自動設(shè)置，也可以是用戶根據(jù)自己的實際情況自行設(shè)置，例如，可以是30秒、I分鐘或者2分鐘，此停頓時間可以供用戶用來思考，在停頓時間內(nèi)系統(tǒng)將自動進(jìn)入等待狀態(tài)，等到用戶再次說話時，系統(tǒng)再繼續(xù)錄音。在現(xiàn)有的語音錄入過程中，一旦監(jiān)測到用戶中斷錄入語音，錄音就會停止，需要用戶再次啟動錄音功能才能繼續(xù)錄音，即，用戶錄一段文字時需要多次啟動錄音功能，本實施例相比于現(xiàn)有技術(shù)提高了用戶操作的便捷性。
[0026]S120、采用通用文件格式存儲得到的文字信息。
[0027]示例性的，采用通用文件格式存儲得到的文字信息可以包括:通過注冊自定義(URL Scheme)的方式調(diào)用文字應(yīng)用程序；控制所述文字應(yīng)用程序存儲轉(zhuǎn)換得到的文字信息。其中，所述文字應(yīng)用程序可以包括word、pages Swps等。
[0028]S130、獲取用戶的語音口令，并對通用文件格式的文字信息執(zhí)行所述語音口令對應(yīng)的編輯操作。
[0029]當(dāng)用戶錄入的語音信息被以通用文件格式保存完成后，用戶可能會有對所述通用文件格式的文字信息進(jìn)行編輯操作的需求，此時，用戶可以通過錄入語音口令的方式，對所述通用文件格式的文字信息進(jìn)行編輯操作，相比于現(xiàn)有的用戶人工地編輯文字，操作方便、快捷。
[0030]其中，所述編輯操作包括但不限于刪除、高亮、縮進(jìn)、行間距、字號或批注操作，還可以是設(shè)置字體、藝術(shù)字或者填充其它藝術(shù)效果的操作。
[0031]本實施例的技術(shù)方案，通過將用戶錄入的語音信息轉(zhuǎn)換為文字信息，并且對所述文字信息采用通過文件格式進(jìn)行保存，進(jìn)而根據(jù)用戶的語音口令，對通用文件格式的文字信息執(zhí)行所述語音口令對應(yīng)的編輯操作，簡化了基于語音的文字錄入、編輯過程，提升了用戶體驗。
[0032]實施例二
[0033]圖2為實施例二提供的一種基于語音的文件生成方法的流程圖，在上述實施例的基礎(chǔ)上，本實施例中對SllO進(jìn)行優(yōu)化。這樣優(yōu)化的好處在于能夠提高語音轉(zhuǎn)換為文字的轉(zhuǎn)換速度以及精度。參見圖2，本實施例提供的基于語音的文件生成方法具體可以包括如下:
[0034]S210、將用戶的語音信息轉(zhuǎn)換為文字信息。
[0035]示例性的，將用戶的語音信息轉(zhuǎn)換為文字信息可以包括:依據(jù)設(shè)定的語音信息與候選文字信息之間的映射關(guān)系，將用戶的語音信息轉(zhuǎn)換為文字信息。
[0036]示例性的，將用戶的語音信息轉(zhuǎn)換為文字信息之后，還可以包括S211和S212:
[0037]S211、依據(jù)用戶設(shè)定的模糊文字轉(zhuǎn)換規(guī)則，將用戶的語音信息轉(zhuǎn)換為模糊文字信息。
[0038]S212、依據(jù)語料庫，從得到的文字信息和模糊文字信息中確定所述用戶的語音信息的文字轉(zhuǎn)換結(jié)果。
[0039]例如，可以在系統(tǒng)的個性化設(shè)置中設(shè)定用戶的模糊文字轉(zhuǎn)換規(guī)則，主要是針對一些邊音/鼻音不分、前鼻音/后鼻音不分或者h(yuǎn)/f不分的用戶。有這部分問題的用戶，可以設(shè)置模糊邊音/鼻音，前鼻音/后鼻音文字轉(zhuǎn)換規(guī)則。例如當(dāng)用戶輸入“l(fā)ie rong zhenjiang jun”的時候，系統(tǒng)會同時轉(zhuǎn)換為列榮臻將軍和聶榮臻將軍，進(jìn)而將正確結(jié)果“聶榮臻將軍”呈現(xiàn)給用戶。而如果用同時設(shè)置了模糊邊音/鼻音和模糊h/f時，當(dāng)用戶輸入“woshi fu Ian ren”的時候，系統(tǒng)就會遍歷fu/hu和nan/lan的排列組合，從而將正確的結(jié)果“我是湖南人”返回給用戶。當(dāng)然，對于沒有這類問題的用戶，系統(tǒng)則不會進(jìn)行此類模糊匹配，從而提高語音轉(zhuǎn)換的效率和準(zhǔn)確性。
[0040]進(jìn)一步的，將用戶的語音信息轉(zhuǎn)換為文字信息之后，可能所述文字信息不是用戶想要的，此時，用戶需要對所述文字信息進(jìn)行校正，具體可以包括S213和S214:
[0041]S213、在監(jiān)測到校正觸發(fā)事件時，獲取用戶選擇的文字信息，作為目標(biāo)文字信息。
[0042]S214、獲取用戶輸入的所述目標(biāo)文字信息的校正文字信息，并建立所述校正文字信息與所述目標(biāo)文字信息對應(yīng)的語音信息之間的映射關(guān)系。
[0043]用戶可以通過在需要校正的文字上滑動來觸發(fā)校正事件，并對需要校正的文字進(jìn)行選擇。例如，用戶在文字信息“王麗文”上滑動，這三個字上面就會出現(xiàn)輸入框，在輸入框中輸入校正后的文字“王麗雯”，系統(tǒng)就會記住這個映射關(guān)系，下次用戶再輸入“wang Iiwen”的時候就，系統(tǒng)會自動轉(zhuǎn)換成校正后的文字“王麗雯”。
[0044]S215、將得到的文字信息轉(zhuǎn)換為回讀語音信息，并播放轉(zhuǎn)換得到的回讀語音信息。
[0045]為了方便用戶對文字進(jìn)行初步校正，閉上眼睛也能校正，系統(tǒng)設(shè)置了回讀模式，將用戶的語音信息轉(zhuǎn)換為文字信息之后，系統(tǒng)會將所述文字信息再轉(zhuǎn)換為回讀語音信息并以語音形式讀出來，如果用戶聽到不正確的地方可以停下來進(jìn)行修改。
[0046]S220、采用通用文件格式存儲得到的文字信息。
[0047]S230、獲取用戶的語音口令，并對通用文件格式的文字信息執(zhí)行所述語音口令對應(yīng)的編輯操作。
[0048]本實施例的技術(shù)方案，通過將用戶錄入的語音信息依據(jù)用戶設(shè)定的模糊文字轉(zhuǎn)換規(guī)則轉(zhuǎn)換為文字信息，并且在對所述文字信息進(jìn)行校正的過程中記憶所述校正文字信息與所述語音信息之間的映射關(guān)系，并且以回讀模式將轉(zhuǎn)換后的文字信息以語音形式讀出來，供用戶再次校正，提高了文字轉(zhuǎn)換速度及準(zhǔn)確度，并提升了用戶體驗。
[0049]實施例三
[0050]圖3為實施例三提供的一種基于語音的文件生成方法的流程圖，在上述實施例的基礎(chǔ)上，本實施例中對S130進(jìn)行優(yōu)化。這樣優(yōu)化的好處在于能夠方便用戶對文字信息進(jìn)行排版，簡化用戶的排版操作。參見圖3，本實施例提供的基于語音的文件生成方法具體可以包括如下:
[0051]S310、將用戶的語音信息轉(zhuǎn)換為文字信息。
[0052]S320、采用通用文件格式存儲得到的文字信息。
[0053]S330、獲取用戶的語音口令，并對通用文件格式的文字信息執(zhí)行所述語音口令對應(yīng)的編輯操作。
[0054]優(yōu)選的，用戶可以預(yù)設(shè)一系列語音口令，如:新建文件、新建文件夾、打開文件、設(shè)置文件標(biāo)題、重命名文件以及插入圖片等；還可以預(yù)設(shè)一系列語音口令和手勢相結(jié)合的操作，如選中文本，再輸入語音□令，如“刪除”、“高亮”以及“縮進(jìn)”等，系統(tǒng)執(zhí)行相應(yīng)的操作，如果選中文本后輸入“添加批注”的語音口令，即可輸入批注框，并在批注框中輸入批注內(nèi)容。
[005

完整全部詳細(xì)技術(shù)資料下載

當(dāng)前第1頁1 2

該技術(shù)已申請專利。僅供學(xué)習(xí)研究，如用于商業(yè)用途，請聯(lián)系技術(shù)所有人。
技術(shù)研發(fā)人員：王敏;
技術(shù)所有人：百度在線網(wǎng)絡(luò)技術(shù)（北京）有限公司;
我是此專利的發(fā)明人

上一篇：聲控方法、聲控系統(tǒng)及能夠進(jìn)行聲控的空調(diào)的制作方法
上一篇：小型語音識別裝置的制造方法

相關(guān)技術(shù)

網(wǎng)友詢問留言已有0條留言

還沒有人留言評論。精彩留言會獲得點贊！

精彩留言，會給你點贊！

亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種基于語音的文件生成方法及裝置的制造方法