亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

分詞方法和裝置的制造方法

文檔序號:8905213閱讀:275來源:國知局
分詞方法和裝置的制造方法
【技術領域】
[0001]本發(fā)明涉及互聯(lián)網(wǎng)技術領域,尤其涉及一種分詞方法和裝置。
【背景技術】
[0002]語音合成,又稱文語轉換(Text to Speech)技術,能將任意文字信息實時轉化為標準流暢的語音朗讀出來,相當于給機器裝上了人工嘴巴。對于語音合成系統(tǒng),首先需要對輸入的文本進行處理,包括文本預處理、分詞、詞性標注、注音和韻律層級預測等,然后再通過聲學模型,預測各個單元對應的聲學特征,最后利用聲學參數(shù)直接通過聲碼器合成聲音,或者從錄音語料庫中挑選單元進行拼接。
[0003]在語音合成系統(tǒng)中,分詞是整個系統(tǒng)的基礎。分詞性能的好壞,直接影響后續(xù)處理模塊及最終的輸出語音效果?,F(xiàn)有的分詞算法主要有兩種,一種是基于詞典匹配的分詞方法,另一種是基于機器學習的分詞方法。
[0004]但是,基于詞典匹配的分詞方法,由于詞典的規(guī)模有限,而且詞頻信息受到所用的統(tǒng)計語料規(guī)模的限制和影響,可能覆蓋不夠全面,或者語料不夠均衡,在處理文本的時候,還是有很多不準確的情況,尤其是面對一些在海量語料統(tǒng)計中不常見的詞語時,比如人名、地名、專屬名等,往往導致投入了很多精力,結果卻不盡理想。
[0005]而基于機器學習的分詞方法,需要非常大量的標注數(shù)據(jù),標注數(shù)據(jù)的數(shù)量、精度,也會對模型有很大影響。而且,由于不需要分詞的詞典,往往會出現(xiàn)一些非常不可接受的分詞錯誤,造成分詞結果不夠穩(wěn)定,用戶體驗較差。
[0006]綜上所述,現(xiàn)有的分詞方法在分詞過程中,并不考慮當前文本的整體情況,只是逐句進行處理,所以難以利用更多的待處理文本信息,使得分詞結果不準確,或者造成同一個詞語(如人名、地名或專屬名等)在不同的句子中切分差異很大。體現(xiàn)在語音合成系統(tǒng)中,往往讓聽者產(chǎn)生理解困難,舒適度嚴重下降,用戶體驗也較差。

【發(fā)明內(nèi)容】

[0007]本發(fā)明的目的旨在至少在一定程度上解決相關技術中的技術問題之一。
[0008]為此,本發(fā)明的第一個目的在于提出一種分詞方法。該方法,首先利用待合成文本進行搜索,獲取更加匹配的分詞詞典或者模型,從而可以改善分詞效果,進而可以改善合成語音的質量。
[0009]本發(fā)明的第二個目的在于提出一種分詞裝置。
[0010]為了實現(xiàn)上述目的,本發(fā)明第一方面實施例的分詞方法,包括:將待合成文本發(fā)送給搜索引擎,以及對所述待合成文本進行文本預處理;獲得搜索引擎根據(jù)所述待合成文本搜索獲得的搜索結果,并獲得所述搜索結果對應的詞典或模型;根據(jù)所述搜索結果對應的詞典或模型對進行文本預處理后的文本進行分詞。
[0011]本發(fā)明實施例的分詞方法,將待合成文本發(fā)送給搜索引擎,獲得待合成文本對應的搜索結果,然后獲得上述搜索結果對應的詞典或模型,從而可以動態(tài)更新語音合成系統(tǒng)所需的詞典或者模型,可以提升語音合成效果。并且由于待合成文本中包含了上述待合成文本所屬領域的部分信息,通過搜索引擎的搜索功能,進一步得到了關于上述待合成文本的更全面的領域信息和資源,從而可以從大量的相關信息中獲得了更大的信息量,遠遠超過只用很少的待合成文本自身所獲得的信息量,因此獲得的詞典或者模型的準確度更高,分詞效果更好。并且利用搜索引擎的搜索能力,使得分詞所需的分詞詞典或者模型,可以及時動態(tài)更新,大大改善了詞典或者模型的時效性,對于處理新的詞語、熱點人物或事件等,有非常好的效果。
[0012]為了實現(xiàn)上述目的,本發(fā)明第二方面實施例的分詞裝置,包括:發(fā)送模塊,用于將待合成文本發(fā)送給搜索引擎;文本預處理模塊,用于對所述待合成文本進行文本預處理;獲得模塊,用于獲得搜索引擎根據(jù)所述待合成文本搜索獲得的搜索結果,并獲得所述搜索結果對應的詞典或模型;分詞模塊,用于根據(jù)所述獲得模塊獲得的所述搜索結果對應的詞典或模型對所述文本預處理模塊進行文本預處理后的文本進行分詞。
[0013]本發(fā)明實施例的分詞裝置,發(fā)送模塊將待合成文本發(fā)送給搜索引擎,獲得模塊獲得待合成文本對應的搜索結果,然后獲得上述搜索結果對應的詞典或模型,從而可以動態(tài)更新語音合成系統(tǒng)所需的詞典或者模型,可以提升語音合成效果。并且由于待合成文本中包含了上述待合成文本所屬領域的部分信息,通過搜索引擎的搜索功能,進一步得到了關于上述待合成文本的更全面的領域信息和資源,從而可以從大量的相關信息中獲得了更大的信息量,遠遠超過只用很少的待合成文本自身所獲得的信息量,因此獲得的詞典或者模型的準確度更高,分詞效果更好。并且利用搜索引擎的搜索能力,使得分詞所需的分詞詞典或者模型,可以及時動態(tài)更新,大大改善了詞典或者模型的時效性,對于處理新的詞語、熱點人物或事件等,有非常好的效果。
[0014]本發(fā)明附加的方面和優(yōu)點將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實踐了解到。
【附圖說明】
[0015]本發(fā)明上述的和/或附加的方面和優(yōu)點從下面結合附圖對實施例的描述中將變得明顯和容易理解,其中:
[0016]圖1為現(xiàn)有技術語音合成系統(tǒng)的處理流程示意圖;
[0017]圖2為本發(fā)明分詞方法一個實施例的流程圖;
[0018]圖3為本發(fā)明語音合成系統(tǒng)的處理流程一個實施例的示意圖;
[0019]圖4為本發(fā)明語音合成系統(tǒng)的處理流程另一個實施例的示意圖;
[0020]圖5為本發(fā)明語音合成系統(tǒng)的處理流程再一個實施例的示意圖;
[0021]圖6為本發(fā)明分詞裝置一個實施例的結構示意圖;
[0022]圖7為本發(fā)明分詞裝置另一個實施例的結構示意圖。
【具體實施方式】
[0023]下面詳細描述本發(fā)明的實施例,所述實施例的示例在附圖中示出,其中自始至終相同或類似的標號表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實施例是示例性的,僅用于解釋本發(fā)明,而不能理解為對本發(fā)明的限制。相反,本發(fā)明的實施例包括落入所附加權利要求書的精神和內(nèi)涵范圍內(nèi)的所有變化、修改和等同物。
[0024]圖1為現(xiàn)有技術語音合成系統(tǒng)的處理流程示意圖,輸入文本通過文本處理、韻律預測、聲學參數(shù)生成和波形生成后,輸出合成的語音。文本處理的過程,又可以細分為文本預處理、分詞、詞性標注和注音等。文本預處理,是將輸入文本中的數(shù)字、符號等進行轉換,分詞是將連續(xù)的字符分割成詞,詞性標注是為每個詞生成詞性信息,注音是為每個字符生成發(fā)音序列。
[0025]對于語音合成系統(tǒng)來說,可能遇到很多不同領域的數(shù)據(jù)。其中,包括屬于不同領域的各類新聞、各種題材的小說,這些文本由于覆蓋的題材廣泛,而且涉及到很多人名、地名、專屬詞等情況,往往導致分詞錯誤,造成理解困難。如果為每個閱讀題材,人工準備分詞詞典,或者標注新的標注語料更新模型,都會造成實施困難,語音合成效果難以保證。
[0026]為了解決上述問題,本發(fā)明提出一種分詞方法,圖2為本發(fā)明分詞方法一個實施例的流程圖,如圖2所示,該分詞方法可以包括:
[0027]步驟201,將待合成文本發(fā)送給搜索引擎,以及對上述待合成文本進行文本預處理。
[0028]步驟202,獲得搜索引擎根據(jù)上述待合成文本搜索獲得的搜索結果,并獲得上述搜索結果對應的詞典或模型。
[0029]步驟203,根據(jù)上述搜索結果對應的詞典或模型對進行文本預處理后的文本進行分詞。
[0030]本實施例中,在具體實現(xiàn)時,在對進行文本預處理后的文本進行分詞時,可以僅根據(jù)上述搜索結果對應的詞典或模型來進行分詞,也可以既根據(jù)上述搜索結果對應的詞典或模型,又結合通用的詞典或模型來進行分詞;本實施例對此不作限定。
[0031]本實施例的一種實現(xiàn)方式中,獲得上述搜索結果對應的詞典或模型之前,
當前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點贊!
1