關(guān)鍵詞列表形成裝置及方法以及電子設備的制作方法
【專利摘要】本公開提供一種關(guān)鍵詞列表形成裝置和方法以及電子設備。該關(guān)鍵詞列表形成裝置包括:初始關(guān)鍵詞形成單元,針對每個多音字,計算多音字的上下文詞語對于多音字的區(qū)分度,以將區(qū)分度高于第一預定閾值的上下文詞語作為初始關(guān)鍵詞;關(guān)鍵詞劃分單元,根據(jù)初始關(guān)鍵詞與該多音字的位置關(guān)系,將其劃分為多個關(guān)鍵詞組;和冗余關(guān)鍵詞去除單元,針對包括至少兩個初始關(guān)鍵詞的每個關(guān)鍵詞組,基于關(guān)鍵詞組中的初始關(guān)鍵詞共同出現(xiàn)的次數(shù)以及每個初始關(guān)鍵詞的區(qū)分度來確定并刪除冗余的初始關(guān)鍵詞,從而形成關(guān)鍵詞列表。本公開可獲得如下效果之一:提高在以關(guān)鍵詞確定多音字發(fā)音時的計算速度;降低多音字確定時的出錯概率;提高語音合成處理的效率。
【專利說明】關(guān)鍵詞列表形成裝置及方法以及電子設備
【技術(shù)領(lǐng)域】
[0001]本公開涉及語音合成領(lǐng)域,尤其關(guān)鍵詞列表形成裝置及方法以及包括該關(guān)鍵詞列表形成裝置的電子設備。
【背景技術(shù)】
[0002]在語音合成處理中,實現(xiàn)從文本至語音的轉(zhuǎn)換是至關(guān)重要的,即對于任意輸入的文本,需要將其轉(zhuǎn)換為對應的發(fā)音。然而由于中文中存在大量的多音字,因此如何確定多音字的發(fā)音就成為針對中文文本的語音合成領(lǐng)域中需要重點解決的問題。目前常用的用于解決中文文本中多音字發(fā)音問題的方法包括:通過選取包括用于確定多音字的關(guān)鍵詞等的特征作為基本特征為每個多音字建立的概率模型,從而基于該模型確定該多音字的發(fā)音。然而當前選取關(guān)鍵詞的方法主要是基于多音字的上下文所包含的字或詞對多音字的區(qū)分能力選取區(qū)分能力高的關(guān)鍵詞。但是通過這種方法選取的關(guān)鍵詞可能存在冗余,其導致計算的復雜度增加,從而判斷多音字發(fā)音出錯的概率增大。
[0003]因此,當前亟需一種能夠去除冗余關(guān)鍵詞的關(guān)鍵詞列表形成裝置和方法。
【發(fā)明內(nèi)容】
[0004]在下文中給出了關(guān)于本公開的簡要概述,以便提供關(guān)于本公開的某些方面的基本理解。應當理解,這個概述并不是關(guān)于本公開的窮舉性概述。它并不意圖確定本公開的關(guān)鍵或重要部分,也不意圖限定本公開的范圍。其目的僅僅是以簡化的形式給出某些概念,以此作為稍后論述的更詳細描述的前序。
[0005]鑒于現(xiàn)有技術(shù)的上述缺陷,本公開的目的之一是提供一種關(guān)鍵詞列表形成裝置及方法以及信息處理設備,以至少克服現(xiàn)有技術(shù)中的關(guān)鍵詞選取方法所選取的關(guān)鍵詞存在冗余的問題。
[0006]根據(jù)本公開的一個方面,提供了一種用于形成關(guān)鍵詞列表的關(guān)鍵詞列表形成裝置,該關(guān)鍵詞列表由用于確定多音字的發(fā)音的關(guān)鍵詞構(gòu)成,該關(guān)鍵詞列表形成裝置包括:初始關(guān)鍵詞形成單元,用于針對每個多音字,計算該多音字的上下文詞語對于該多音字的區(qū)分度,以將區(qū)分度高于第一預定閾值的上下文詞語作為用于確定該多音字的發(fā)音的初始關(guān)鍵詞;關(guān)鍵詞劃分單元,用于根據(jù)初始關(guān)鍵詞與該多音字的位置關(guān)系,將初始關(guān)鍵詞劃分為多個關(guān)鍵詞組;以及冗余關(guān)鍵詞去除單元,用于針對包括至少兩個初始關(guān)鍵詞的每個關(guān)鍵詞組,基于該關(guān)鍵詞組中的初始關(guān)鍵詞共同出現(xiàn)的次數(shù)以及每個初始關(guān)鍵詞對于該多音字的區(qū)分度來確定并刪除該關(guān)鍵詞組中的冗余的初始關(guān)鍵詞,從而形成所述關(guān)鍵詞列表。
[0007]根據(jù)本公開的又一個方面,還提供一種用于形成關(guān)鍵詞列表的方法,該關(guān)鍵詞列表由用于確定多音字的發(fā)音的關(guān)鍵詞構(gòu)成,該方法包括:初始關(guān)鍵詞形成步驟,針對每個多音字,計算該多音字的上下文詞語對于該多音字的區(qū)分度,以將區(qū)分度高于第一預定閾值的上下文詞語作為用于確定該多音字的發(fā)音的初始關(guān)鍵詞;關(guān)鍵詞劃分步驟,根據(jù)初始關(guān)鍵詞與該多音字的位置關(guān)系,將初始關(guān)鍵詞劃分為多個關(guān)鍵詞組;以及冗余關(guān)鍵詞去除步驟,針對包括至少兩個初始關(guān)鍵詞的每個關(guān)鍵詞組,基于該關(guān)鍵詞組中的初始關(guān)鍵詞共同出現(xiàn)的次數(shù)以及每個初始關(guān)鍵詞對于該多音字的區(qū)分度來確定并刪除該關(guān)鍵詞組中的冗余的初始關(guān)鍵詞,從而形成所述關(guān)鍵詞列表。
[0008]根據(jù)本公開的另一個方面,還提供了一種電子設備,該電子設備包括如上所述的關(guān)鍵詞列表形成裝置。
[0009]依據(jù)本公開的其它方面,還提供了一種使得計算機用作如上所述的關(guān)鍵詞列表形成裝置的程序。
[0010]依據(jù)本公開的又一方面,還提供了相應的計算機可讀存儲介質(zhì),該計算機可讀存儲介質(zhì)上存儲有能夠由計算設備執(zhí)行的計算機程序,所述程序在執(zhí)行時能夠使所述計算設備執(zhí)行上述關(guān)鍵詞列表形成方法。
[0011]上述根據(jù)本公開實施例的關(guān)鍵詞列表形成裝置和方法以及電子設備,至少能夠獲得以下益處之一:能夠提高在以關(guān)鍵詞確定多音字發(fā)音時的計算速度;降低多音字確定時的出錯概率;提高語音合成處理的效率。
[0012]通過以下結(jié)合附圖對本公開的最佳實施例的詳細說明,本公開的這些以及其他優(yōu)點將更加明顯。
【專利附圖】
【附圖說明】
[0013]本公開可以通過參考下文中結(jié)合附圖所給出的描述而得到更好的理解,其中在所有附圖中使用了相同或相似的附圖標記來表示相同或者相似的部件。所述附圖連同下面的詳細說明一起包含在本說明書中并且形成本說明書的一部分,而且用來進一步舉例說明本公開的優(yōu)選實施例和解釋本公開的原理和優(yōu)點。其中:
[0014]圖1是示意性地示出根據(jù)本公開實施例的關(guān)鍵詞列表形成裝置的一種示例結(jié)構(gòu)的框圖。
[0015]圖2是示意性地示出如圖1所示的初始關(guān)鍵詞形成單元的一種可能的示例結(jié)構(gòu)的框圖。
[0016]圖3是示意性地示出如圖1所示的冗余關(guān)鍵詞去除單元的一種可能的示例結(jié)構(gòu)的框圖。
[0017]圖4是根據(jù)本公開實施例的用于形成關(guān)鍵詞列表的方法的一種示例性處理的流程圖。
[0018]圖5示出了可用來實現(xiàn)根據(jù)本公開實施例的關(guān)鍵詞列表形成裝置和方法的一種可能的信息處理設備的硬件配置的結(jié)構(gòu)簡圖。
[0019]本領(lǐng)域技術(shù)人員應當理解,附圖中的元件僅僅是為了簡單和清楚起見而示出的,而且不一定是按比例繪制的。例如,附圖中某些元件的尺寸可能相對于其他元件放大了,以便有助于提高對本公開實施例的理解。
【具體實施方式】
[0020]在下文中將結(jié)合附圖對本公開的示范性實施例進行描述。為了清楚和簡明起見,在說明書中并未描述實際實施方式的所有特征。然而,應該了解,在開發(fā)任何這種實際實施例的過程中必須做出很多特定于實施方式的決定,以便實現(xiàn)開發(fā)人員的具體目標,例如,符合與系統(tǒng)及業(yè)務相關(guān)的那些限制條件,并且這些限制條件可能會隨著實施方式的不同而有所改變。此外,還應該了解,雖然開發(fā)工作有可能是非常復雜和費時的,但對得益于本公開內(nèi)容的本領(lǐng)域技術(shù)人員來說,這種開發(fā)工作僅僅是例行的任務。
[0021]在此,還需要說明的一點是,為了避免因不必要的細節(jié)而模糊了本公開,在附圖中僅僅示出了與根據(jù)本公開的方案密切相關(guān)的裝置結(jié)構(gòu)和/或處理步驟,而省略了與本公開關(guān)系不大的其他細節(jié)。
[0022]圖1是示意性地示出根據(jù)本公開實施例的關(guān)鍵詞列表形成裝置的一種示例結(jié)構(gòu)的框圖。
[0023]如圖1所示,根據(jù)本公開實施例的用于形成關(guān)鍵詞列表的關(guān)鍵詞列表形成裝置I包括:初始關(guān)鍵詞形成單元10,用于針對每個多音字,計算該多音字的上下文詞語對于該多音字的區(qū)分度,以將區(qū)分度高于第一預定閾值的上下文詞語作為用于確定該多音字的發(fā)音的初始關(guān)鍵詞;關(guān)鍵詞劃分單元20,用于根據(jù)初始關(guān)鍵詞與該多音字的位置關(guān)系,將初始關(guān)鍵詞劃分為多個關(guān)鍵詞組;以及冗余關(guān)鍵詞去除單元30,用于針對包括至少兩個初始關(guān)鍵詞的每個關(guān)鍵詞組,基于該關(guān)鍵詞組中的初始關(guān)鍵詞共同出現(xiàn)的次數(shù)以及每個初始關(guān)鍵詞對于該多音字的區(qū)分度來確定并刪除該關(guān)鍵詞組中的冗余的初始關(guān)鍵詞,從而形成關(guān)鍵詞列表。
[0024]具體地,作為圖1示出的關(guān)鍵詞列表形成裝置I的一種具體實現(xiàn)方式,根據(jù)本公開的一個實施例,初始關(guān)鍵詞形成單元10首先對收集到的作為訓練語料的大量語句進行包括為多音字標注發(fā)音的預處理,以獲取多音字的上下文詞語。
[0025]除了為多音字標注發(fā)音之外,初始關(guān)鍵詞形成單元10對于多音字語句的預處理還包括例如刪除不包括多音字的語句,針對只處理高頻多音字的情況下根據(jù)字頻確定需要處理的多音字,將包括需要處理的多音字的語句截為短句,對需要處理的語句進行分詞和詞性標注等等。由于這些預處理是本領(lǐng)域公知的,在此省略對它們的描述。
[0026]例如,針對多音字“為”,其具有兩個發(fā)音“wei 二聲”和“wei四聲”,在收集到包括多音字“為”的大量語句時,為每個語句中的該多音字“為”標注發(fā)音。例如針對收集到的語句I “許多的學生已成為了全國很有影響的畫家”,將其中的多音字“為”標注為“wei 二聲”的發(fā)音;針對收集到的語句2 “為人民服務”,將多音字“為”標注為“wei四聲”的發(fā)音。例如針對語句1,在經(jīng)預處理之后得到的上下文詞語例如可以是“許多”、“學生”、“已”、“成”、“全國”、“很”、“有” “影響”和“畫家”。
[0027]在此需要說明,在以下對本公開的描述中術(shù)語“關(guān)鍵詞”、“上下文詞語”不僅包括例如“學生””、“全國”等由多個字組成的詞語,也包括例如“已”、“成”等單個字組成的詞語,在本公開的描述中不對它們進行區(qū)分。
[0028]在得到了用于確定關(guān)鍵詞的上下文詞語之后,初始關(guān)鍵詞形成單元10針對每個上下文詞語計算其對于該多音字的區(qū)分度,并且將區(qū)分度高于第一預定閾值的上下文詞語作為用于確定該多音字的發(fā)音的初始關(guān)鍵詞。在此,可以使用例如互信息,信息增益,交叉熵等的方法來計算上下文詞語對于多音字的區(qū)分度。針對這些方法的具體描述例如可以參見97年機器學習國際會議(ICML97)第412-420頁的名稱為“A comparative study onfeature selection in text categorization,,的文章。
[0029]根據(jù)本公開的一個實施例,優(yōu)選采用似然比來判斷上下文詞語對于確定該多音字發(fā)音的區(qū)分度,其中似然比越大,表示該上下文詞語對于多音字的區(qū)分度越強。圖2示出了如圖1所示的關(guān)鍵詞列表形成裝置I的初始關(guān)鍵詞形成單元10的一種示例結(jié)構(gòu)的框圖。如圖1所示,初始關(guān)鍵詞形成單元10包括概率計算子單元101、似然比計算子單元102以及初始關(guān)鍵詞確定子單元103。
[0030]概率計算子單元101用于針對每個多音字,計算該多音字在每個發(fā)音時上下文詞語的出現(xiàn)概率P=P(YiIw)。其中,Yi表示多音字的第i個發(fā)音,W為某個上下文詞語。P表示該上下文詞語W出現(xiàn)時多音字為第i個發(fā)音的出現(xiàn)概率,即該上下文詞語W出現(xiàn)時多音字為第i個發(fā)音的語句相對于包括該多音字的語句的概率(或者也可以是相對于包括該多音字和該上下文詞語的語句的概率)。
[0031]在此,以多音字“為”和上下文詞語“成”為例對出現(xiàn)概率的計算進行了描述。由于多音字為具有兩個發(fā)音,即在上述語句I中多音字“為”是第一發(fā)音(即,Wei 二聲),在語句3 “為把我們國家建設成富強的國家”中時多音字“為”是第二發(fā)音(即,wei四聲),因此針對多音字“為”的第一發(fā)音和第二發(fā)音中的每個發(fā)音,分別計算其與上下文詞語“成”的似然比。例如,在包括多音字“為”的6000句訓練語句中,上下文詞語“成”總共出現(xiàn)了5491次,其中“為”是第一發(fā)音的句子出現(xiàn)了 5358次,“為”是第二發(fā)音的句子出現(xiàn)了 133次。因此針對“為”的第一發(fā)音,概率計算單元101計算上下文詞語“成”的出現(xiàn)概率為P1=5358/5491=0.9758;針對“為”的第二發(fā)音,概率計算單元101計算上下文詞語“成”的出現(xiàn)概率為 Ρ2=133/5491=0.0242。
[0032]在概率計算子單元101針對多音字的每個發(fā)音計算了上下文詞語的出現(xiàn)概率之后,基于計算的出現(xiàn)概率,似然比計算子單元102計算每個上下文詞語對于多音字的多個發(fā)音的似然比。 [0033]根據(jù)本公開的一個實施例,對于具有兩個發(fā)音的多音字,可以采用如下公式計算似然比R:
[0034]R= I In (P1ZP2)公式(I);
[0035]對于具有多個發(fā)音的多音字,可以采用如下公式計算似然比:
[0036]神公式⑵
【權(quán)利要求】
1.一種用于形成關(guān)鍵詞列表的關(guān)鍵詞列表形成裝置,所述關(guān)鍵詞列表由用于確定多音字的發(fā)音的關(guān)鍵詞構(gòu)成,所述關(guān)鍵詞列表形成裝置包括: 初始關(guān)鍵詞形成單元,用于針對每個多音字,計算該多音字的上下文詞語對于該多音字的區(qū)分度,以將區(qū)分度高于第一預定閾值的上下文詞語作為用于確定該多音字的發(fā)音的初始關(guān)鍵詞; 關(guān)鍵詞劃分單元,用于根據(jù)初始關(guān)鍵詞與該多音字的位置關(guān)系,將初始關(guān)鍵詞劃分為多個關(guān)鍵詞組;以及 冗余關(guān)鍵詞去除單元,用于針對包括至少兩個初始關(guān)鍵詞的每個關(guān)鍵詞組,基于該關(guān)鍵詞組中的初始關(guān)鍵詞共同出現(xiàn)的次數(shù)以及每個初始關(guān)鍵詞對于該多音字的區(qū)分度來確定并刪除該關(guān)鍵詞組中的冗余的初始關(guān)鍵詞,從而形成所述關(guān)鍵詞列表。
2.根據(jù)權(quán)利要求1所述的關(guān)鍵詞列表形成裝置,其中所述冗余關(guān)鍵詞去除單元包括: 共生概率判斷子單元,用于針對包括至少兩個初始關(guān)鍵詞的每個關(guān)鍵詞組,計算該關(guān)鍵詞組中初始關(guān)鍵詞的共生概率,并判斷該共生概率是否超過第二預定閾值;以及 冗余關(guān)鍵詞去除子單元,用于在共生概率判斷子單元判定該共生概率超過第二預定閾值時,將所述至少兩個初始關(guān)鍵詞中對于所述多音字的區(qū)分度較小的初始關(guān)鍵詞刪除,從而保留區(qū)分度較大的初始關(guān)鍵詞用于形成所述關(guān)鍵詞列表。
3.根據(jù)權(quán)利要求1或2所述的關(guān)鍵詞列表形成裝置,其中,所述關(guān)鍵詞劃分單元被配置為根據(jù)初始關(guān)鍵詞相對于多音字的位置的第一位置信息,將初始關(guān)鍵詞分為四個關(guān)鍵詞組:左近關(guān)鍵詞組、左遠關(guān)鍵詞組、右近關(guān)鍵詞組、右遠關(guān)鍵詞組。
4.根據(jù)權(quán)利要求1或2所述的關(guān)鍵詞列表形成裝置,其中所述初始關(guān)鍵詞形成單元被配置為根據(jù)上下文詞語相對于多音字的位置的第二位置信息來計算上下文詞語對于多音字的區(qū)分度。
5.一種用于形成關(guān)鍵詞列表的方法,所述關(guān)鍵詞列表由用于確定多音字的發(fā)音的關(guān)鍵詞構(gòu)成,所述方法包括: 初始關(guān)鍵詞形成步驟,針對每個多音字,計算該多音字的上下文詞語對于該多音字的區(qū)分度,以將區(qū)分度高于第一預定閾值的上下文詞語作為用于確定該多音字的發(fā)音的初始關(guān)鍵詞; 關(guān)鍵詞劃分步驟,根據(jù)初始關(guān)鍵詞與該多音字的位置關(guān)系,將初始關(guān)鍵詞劃分為多個關(guān)鍵詞組;以及 冗余關(guān)鍵詞去除步驟,針對包括至少兩個初始關(guān)鍵詞的每個關(guān)鍵詞組,基于該關(guān)鍵詞組中的初始關(guān)鍵詞共同出現(xiàn)的次數(shù)以及每個初始關(guān)鍵詞對于該多音字的區(qū)分度來確定并刪除該關(guān)鍵詞組中的冗余的初始關(guān)鍵詞,從而形成所述關(guān)鍵詞列表。
6.根據(jù)權(quán)利要求5所述的方法,其中所述冗余關(guān)鍵詞去除步驟包括: 針對包括至少兩個初始關(guān)鍵詞的每個關(guān)鍵詞組,計算該關(guān)鍵詞組中初始關(guān)鍵詞的共生概率,并判斷該共生概率是否超過第二預定閾值;以及 在共生概率判斷子單元判定該共生概率超過第二預定閾值時,將所述至少兩個初始關(guān)鍵詞中對于所述多音字的區(qū)分度較小的初始關(guān)鍵詞刪除,從而保留區(qū)分度較大的初始關(guān)鍵詞用于形成所述關(guān)鍵詞列表。
7.根據(jù)權(quán)利要求5或6所述的方法,其中,所述關(guān)鍵詞劃分步驟用于根據(jù)初始關(guān)鍵詞相對于多音字的位置的第一位置信息,將初始關(guān)鍵詞分為四個關(guān)鍵詞組:左近關(guān)鍵詞組、左遠關(guān)鍵詞組、右近關(guān)鍵詞組、右遠關(guān)鍵詞組。
8.根據(jù)權(quán)利要求5或6所述的方法,其中所述初始關(guān)鍵詞形成步驟包括根據(jù)上下文詞語相對于多音字的位置的第二位置信息來計算上下文詞語對于多音字的區(qū)分度。
9.一種電子設備,包括根據(jù)權(quán)利要求1-4中任一項所述的關(guān)鍵詞列表形成裝置。
10.根據(jù)權(quán)利要求9所述的電子設備,其中所述電子設備是手機、計算機、平板電腦、或個人數(shù)字助理。
【文檔編號】G06F17/30GK103902600SQ201210581696
【公開日】2014年7月2日 申請日期:2012年12月27日 優(yōu)先權(quán)日:2012年12月27日
【發(fā)明者】吳宇, 劉汝杰, 巖見田均 申請人:富士通株式會社