專利名稱:一種基于用戶語言背景的文本轉(zhuǎn)換裝置的制作方法
技術(shù)領(lǐng)域:
本發(fā)明涉及語言文本的處理技術(shù),特別是涉及一種基于用戶語言背景的文本轉(zhuǎn)換
直O(jiān)
背景技術(shù):
在日常應(yīng)用中存在著大量的非規(guī)范型文本(非正常文字文本),例如日期、時間、 電話號碼、外文等,還包括一些由各種符號等混合形態(tài)組成的非規(guī)范型文本。非規(guī)范型文本 非常便于人們理解與輸入,但其對于計算機類電子處理裝置來說卻難于進行處理,像電子 詞典、PDA (個人數(shù)字助理)、語言學(xué)習(xí)機等電子處理裝置在遇到此類的文本時,通常先將非 規(guī)范型文本轉(zhuǎn)化為規(guī)范文本,然后再按照正常的文本進行處理。同時對于語音合成發(fā)音系 統(tǒng)來說,由于非規(guī)范文本無法直接發(fā)音,也必須首先轉(zhuǎn)換成規(guī)范型文本。但在實際應(yīng)用中,這種轉(zhuǎn)換不具有一一對應(yīng)特性。一種非規(guī)范文本可能對應(yīng)多種 規(guī)范文本。在很多情況下,根據(jù)人們的語言背景、個人習(xí)慣等非規(guī)范文本可以具有不同的轉(zhuǎn) 換形式。在這種一對多的情況下,用戶希望計算機可以根據(jù)自身的語言特點自動找到最正 確的轉(zhuǎn)換。在另外一些情況下,對于很多非母語的語言學(xué)習(xí)用戶,在語言學(xué)習(xí)過程中用戶希 望能夠獲得最佳的規(guī)范型文本轉(zhuǎn)換,以便達到學(xué)習(xí)的目的。在實際應(yīng)用中,存在很多單一的 轉(zhuǎn)換答案,雖然通過類似電子詞典的裝置可以獲得正確的轉(zhuǎn)換形式,但是卻很難給讀者帶 來非常深刻的記憶。除此之外,在一句話中可能存在多種可以轉(zhuǎn)換的形式,但是在這些轉(zhuǎn)換 形式中某些形式容易出錯,而有一些卻相對不容易出錯。在這種情況下,用戶希望能夠根據(jù) 易轉(zhuǎn)換錯誤的程度得到提醒。同時由于不同國家的用戶的轉(zhuǎn)換習(xí)慣不同,在一個國家中很容易正確的轉(zhuǎn)換形式 對另一個國家的用戶來說可能是非常困難的。這種情況常發(fā)生在母語背景不同的用戶身 上。同樣的現(xiàn)象也常常出現(xiàn)在同一個國家的不同地區(qū),由于一個國家內(nèi)具有不同的方言,一 個地區(qū)很容易正確轉(zhuǎn)換形式對另一個地區(qū)的用戶來說也可能是非常困難的。在這些情況下 就需要針對不同國家、不同地區(qū)的用戶給予必要的提醒信息。在現(xiàn)有的非規(guī)范文本轉(zhuǎn)換技術(shù)中,存在著“使用上下文無關(guān)文法的文本規(guī)范化方 法”,其對通過語音識別器輸出的文本進行規(guī)范化,使用上下文無關(guān)文法對文本進行語法分 析,并使規(guī)范化簡單易行。雖然上述方法涉及到文本規(guī)范化的方法,但是僅僅是將非規(guī)范型 的文本轉(zhuǎn)化為規(guī)范型文本,并不能根據(jù)用戶的語言特點進行自動選擇,更不能給用戶提供 相應(yīng)的提醒內(nèi)容。綜上所述,需要有一種方法及裝置根據(jù)用戶的語言背景進行非規(guī)范文本與規(guī)范文 本之間的轉(zhuǎn)換,同時提醒用戶易轉(zhuǎn)換錯的內(nèi)容。
發(fā)明內(nèi)容
本發(fā)明實施例的目的是提供一種基于用戶語言背景的文本轉(zhuǎn)換裝置,能根據(jù)用戶的語言特點選擇出最佳的轉(zhuǎn)換結(jié)果。為了實現(xiàn)上述目的,一方面,提供了一種基于用戶語言背景的文本轉(zhuǎn)換裝置,包 括用于獲取輸入文本和用戶語言背景的輸入單元;存儲字典和多個轉(zhuǎn)換語料庫的存儲單元;利用所述字典對所述輸入文本進行分詞并找到分詞結(jié)果中的非規(guī)范文本的分析 單元;根據(jù)所述輸入單元獲取的用戶語言背景從所述多個轉(zhuǎn)換語料庫中取得對應(yīng)所述 用戶語言背景的適用語料庫的選擇單元;根據(jù)所述適用語料庫將所述非規(guī)范文本轉(zhuǎn)換為規(guī)范文本的轉(zhuǎn)換單元;輸出所述規(guī)范文本的輸出單元。優(yōu)選地,上述的文本轉(zhuǎn)換裝置中,所述多個轉(zhuǎn)換語料庫包括通用轉(zhuǎn)換語料庫和母 語習(xí)慣轉(zhuǎn)換語料庫。優(yōu)選地,上述的文本轉(zhuǎn)換裝置中,所述存儲單元中還存儲有多個易轉(zhuǎn)換錯語料庫;所述選擇單元,還用于根據(jù)用戶 的選擇從所述多個易轉(zhuǎn)換錯語料庫中取得適用用戶語言背景的適用易轉(zhuǎn)換錯語料庫;并且,所述文本轉(zhuǎn)換裝置還包括強調(diào)分析單元,用于根據(jù)所述分詞字典對輸入的非規(guī)范文本進行分析,得到強調(diào) 分析結(jié)果;強調(diào)結(jié)果單元,用于根據(jù)所述適用易轉(zhuǎn)換錯語料庫和所述強調(diào)分析結(jié)果,對所述 非規(guī)范文本進行轉(zhuǎn)換,得到強調(diào)結(jié)果;所述輸出單元,還用于輸出所述強調(diào)結(jié)果。優(yōu)選地,上述的文本轉(zhuǎn)換裝置中,所述多個轉(zhuǎn)換語料庫還包括用戶個人習(xí)慣轉(zhuǎn)換語料庫;所述多個易轉(zhuǎn)換錯語料庫包括通用易轉(zhuǎn)換錯語料庫、用戶個人習(xí)慣易轉(zhuǎn)換錯語 料庫和/或母語習(xí)慣易轉(zhuǎn)換錯語料庫;所述規(guī)范文本為多個,并且所述輸出單元對所述多個規(guī)范文本進行排序輸出;所述強調(diào)結(jié)果為多個,并且所述輸出單元對所述多個強調(diào)結(jié)果進行排序輸出。優(yōu)選地,上述的文本轉(zhuǎn)換裝置中,所述輸出單元包括揚聲器,所述揚聲器用于對 所述規(guī)范文本進行正常聲調(diào)的輸出,對所述強調(diào)結(jié)果進行異常聲調(diào)的輸出,所述異常聲調(diào) 包括加重和減慢。優(yōu)選地,上述的文本轉(zhuǎn)換裝置中,所述輸出單元包括顯示器,所述顯示器用于顯示 所述規(guī)范文本和所述強調(diào)結(jié)果。優(yōu)選地,上述的文本轉(zhuǎn)換裝置中,所述存儲單元能夠在不改變主系統(tǒng)的條件下加載或卸載所述多個轉(zhuǎn)換語料庫和 所述多個易轉(zhuǎn)換錯語料庫。優(yōu)選地,上述的文本轉(zhuǎn)換裝置中,所述通用轉(zhuǎn)換語料庫具有從通用語言背景中提取的規(guī)則或統(tǒng)計信息;所述用戶個人習(xí)慣轉(zhuǎn)換語料庫具有從用戶個人習(xí)慣中提取的規(guī)則或統(tǒng)計信息;
所述母語習(xí)慣轉(zhuǎn)換語料庫具有從母語習(xí)慣背景中提取的規(guī)則或統(tǒng)計信息。本發(fā)明實施例至少存在以下技術(shù)效果1)本發(fā)明可以根據(jù)用戶的語言背景將非規(guī)范化文本轉(zhuǎn)換為最適合的規(guī)范化文本。2)本發(fā)明根據(jù)用戶的語言背景提供給用戶關(guān)于將非規(guī)范化文本轉(zhuǎn)換為規(guī)范化文 本時易轉(zhuǎn)換錯的強調(diào)輸出結(jié)果。3)對于從非規(guī)范文本向規(guī)范文本的轉(zhuǎn)換,非規(guī)范文本由手工輸入或掃描或通過其 他方式輸入,本發(fā)明正確的轉(zhuǎn)換結(jié)果將從揚聲器中讀出,其中容易轉(zhuǎn)換錯的地方將加重或 減慢或其它強調(diào)方式讀出。4)對于從非規(guī)范文本向規(guī)范文本的轉(zhuǎn)換,非規(guī)范文本由手工輸入或掃描或通過其 他方式輸入,本發(fā)明正確的轉(zhuǎn)換結(jié)果將從顯示器上顯示,其中容易轉(zhuǎn)換錯的錯誤結(jié)果也將 單獨顯示。5)本發(fā)明存在多種語言或方言信息的存儲單元,可以根據(jù)用戶的需求進行加載或 卸載。6)本發(fā)明可以根據(jù)用戶的需求指定某種語言或方言也可以同時選擇多種語言或 方言來獲得多種強調(diào)結(jié)果。7)在多個強調(diào)結(jié)果輸出的情況下,本發(fā)明可以根據(jù)用戶的母語習(xí)慣、用戶的個人 習(xí)慣、通常的強調(diào)信息來對多個輸出結(jié)果進行自動排序。
圖1是本發(fā)明基于用戶語言背景的文本轉(zhuǎn)換裝置的硬件結(jié)構(gòu)圖;圖2是圖1中數(shù)據(jù)處理單元102的內(nèi)部結(jié)構(gòu)圖;圖3是圖1中存儲單元103的內(nèi)部結(jié)構(gòu)圖;圖4a是圖3中通用NT- > T轉(zhuǎn)換語料庫的內(nèi)部結(jié)構(gòu)圖;圖4b是圖3中用戶個人習(xí)慣NT- > T轉(zhuǎn)換語料庫的內(nèi)部結(jié)構(gòu)圖;圖4c是圖3中母語習(xí)慣NT- > T轉(zhuǎn)換語料庫的內(nèi)部結(jié)構(gòu)圖;圖5a是圖3中通用NT- > T易轉(zhuǎn)換錯語料庫的內(nèi)部結(jié)構(gòu)圖;圖5b是圖3中用戶個人習(xí)慣NT- > T易轉(zhuǎn)換錯語料庫的內(nèi)部結(jié)構(gòu)圖;圖5c是圖3中母語習(xí)慣NT- > T易轉(zhuǎn)換錯語料庫的內(nèi)部結(jié)構(gòu)圖;圖6所示是本發(fā)明的流程圖;圖7是圖6中步驟602的詳細描述;圖8是圖6中步驟603的詳細描述;圖9是圖2中轉(zhuǎn)換結(jié)果產(chǎn)生單元202所執(zhí)行流程的詳細描述;圖10是圖6中步驟606的詳細描述;圖11是非規(guī)范文本易轉(zhuǎn)換錯強調(diào)式學(xué)習(xí)過程示意圖;圖12是非規(guī)范文本易轉(zhuǎn)換錯強調(diào)式學(xué)習(xí)過程另一示意圖;圖13,為圖4,圖5中確定非規(guī)范文本類別的統(tǒng)計信息圖。
具體實施例方式為使本發(fā)明實施例的目的、技術(shù)方案和優(yōu)點更加清楚,下面將結(jié)合附圖對具體實施例進行詳細描述。本發(fā)明的基于用戶語言背景的文本轉(zhuǎn)換裝置,包括用于獲取輸入文本和用戶語言背景的輸入單元;存儲字典和多個轉(zhuǎn)換語料庫的存儲單元;利用所述字典對所述輸入文本進行分詞并找到分詞結(jié)果中的非規(guī)范文本的分析 單元;根據(jù)所述輸入單元獲取的用戶語言背景從所述多個轉(zhuǎn)換語料庫中取得對應(yīng)所述 用戶語言背景的適用語料庫的選擇單元;根據(jù)所述適用語料庫將所述非規(guī)范文本轉(zhuǎn)換為規(guī)范文本的轉(zhuǎn)換單元;輸出所述規(guī)范文本的輸出單元。圖1示出了本發(fā)明一個實施例的基于用戶語言背景的文本轉(zhuǎn)換裝置的示意圖。如 圖ι所示,本實施例的文本轉(zhuǎn)換裝置10包括輸入單元101、存儲單元102、處理單元103、 顯示單元104和聲音單元105。其中,輸入單元101接收用戶輸入的非規(guī)范文本、規(guī)范文本、用戶的語言背景的語 言種類信息、用戶標(biāo)識信息和功能選擇信息。其中,非規(guī)范文本可以包括相對于規(guī)范文本而 言的數(shù)字、符號、外文以及其組合形式。規(guī)范文本可以包括一個或多個詞語,一個或多個句 子,在這里,詞語和句子都屬于語言信息,但語言信息并不局限于詞語和句子。用戶的語言 背景可以是用戶的母語和/或用戶所熟悉的除了母語之外的其它語言,例如,外國語或方口寸。存儲單元102存儲非規(guī)范文本轉(zhuǎn)化為規(guī)范文本的轉(zhuǎn)換信息以及轉(zhuǎn)換被錯識的信 肩、ο在本實施例中,存儲單元102所存儲的非規(guī)范文本轉(zhuǎn)化為規(guī)范文本的要素的信息 及被錯識信息是在大量的各種語言背景的人群的基礎(chǔ)上通過統(tǒng)計得到的。要素信息及被錯 識信息所對應(yīng)的頻率信息就指人們出現(xiàn)語言信息的要素信息及被錯識信息的頻率。此外,存儲單元102還可以存儲包含用于對規(guī)范文本進行分詞用的字典。處理單元103 (其功能相當(dāng)于于分析單元、選擇單元和轉(zhuǎn)換單元),根據(jù)存儲單元 102所存儲的非規(guī)范文本轉(zhuǎn)換信息及被錯識信息和字典,產(chǎn)生針對用戶的語言背景的所接 收的文本的強調(diào)信息和所接收的文本中的語言信息的要素正確信息。顯示單元104和聲音單元105形成裝置的輸出單元,以向用戶輸出所接收的文本 的強調(diào)信息和正確信息。其中,顯示單元104顯示可視信息,例如,非規(guī)范文本的正確轉(zhuǎn)換 信息,非規(guī)范文本的易轉(zhuǎn)換錯信息等。聲音單元105輸出聲音信息,例如,非規(guī)范文本的轉(zhuǎn) 換信息的錯誤讀音和詞語的正確讀音。圖2是圖1中處理單元103單元的內(nèi)部結(jié)構(gòu)圖。其中,文本分析單元201,對輸入文本進行相應(yīng)的文本處理;轉(zhuǎn)換結(jié)果產(chǎn)生單元202。對文本分析后的非規(guī)范文本進行處理得到規(guī)范文本的轉(zhuǎn) 換形式。強調(diào)結(jié)果產(chǎn)生單元203,對分析后的文本進行處理得到需要強調(diào)的結(jié)果序列。輸出文本處理單元204。對結(jié)果序列進行相應(yīng)的文本處理以適應(yīng)裝置的輸出。圖3是圖1中存儲單元102的內(nèi)部結(jié)構(gòu)圖。存儲單元102為數(shù)據(jù)存儲器,包含三
6個大的組成單元(三個虛線框部分所示)非規(guī)范文本(NT)至規(guī)范文本(T)轉(zhuǎn)換語料庫, 非規(guī)范文本至規(guī)范文本易轉(zhuǎn)換錯語料庫,以及字典。其中非規(guī)范文本(NT)至規(guī)范文本⑴轉(zhuǎn)換語料庫由三個子單元構(gòu)成,包括通用 非規(guī)范文本轉(zhuǎn)換語料庫301,存儲著對某非規(guī)范文本在通常情況下進行轉(zhuǎn)換的信息;用戶 個人習(xí)慣非規(guī)范文本轉(zhuǎn)換語料庫302,存儲著對某個人用戶在使用裝置過程中進行轉(zhuǎn)換的 信息;母語習(xí)慣非規(guī)范文本轉(zhuǎn)換語料庫303。存儲著某特定母語背景下某非規(guī)范文本進行 轉(zhuǎn)換的信息。易轉(zhuǎn)換錯語料庫由三個子單元構(gòu)成,包括通用易轉(zhuǎn)換錯語料庫304,存儲著對某 非規(guī)范文本在通常情況下容易轉(zhuǎn)換錯的信息;用戶個人習(xí)慣易轉(zhuǎn)換錯語料庫305,存儲著 對某個人用戶在使用裝置過程中易轉(zhuǎn)換錯信息;母語習(xí)慣易轉(zhuǎn)換錯語料庫306。存儲著在 某特定母語背景下對某非規(guī)范文本容易轉(zhuǎn)換錯的信息。此外,分詞字典307中存儲著詞語及拼音信息。圖4a是圖3中通用非規(guī)范文本轉(zhuǎn)換語料庫301的內(nèi)部結(jié)構(gòu)。其中包含非規(guī)范文 本模板,類別,內(nèi)容,正確的轉(zhuǎn)換結(jié)果以及每種可能轉(zhuǎn)換形式的頻率。其中的數(shù)據(jù)是從一定 數(shù)量的不同背景的人群中進行統(tǒng)計得到的結(jié)果。在圖4a實例中是對使用非規(guī)范文本的不 同母語背景人群(有日本人,美國人,法國人,德國人,中國不同地區(qū)人等)進行綜合的統(tǒng) 計,每一種母語背景的人群都應(yīng)保證一定的數(shù)量,使用該語料庫處理相對的通用性,反應(yīng)的 是對非規(guī)范文本在綜合層面上進行轉(zhuǎn)換的信息。圖4b是圖3中用戶個人習(xí)慣非規(guī)范文本轉(zhuǎn)換語料庫302的內(nèi)部結(jié)構(gòu)。其中包含 用戶標(biāo)識、非規(guī)范文本模板、類別、內(nèi)容、正確轉(zhuǎn)換結(jié)果以及每種可能轉(zhuǎn)換形式的頻率。其中 的數(shù)據(jù)是使用該裝置的個人在使用過程中統(tǒng)計得到的結(jié)果。在圖4b實例中是對進行非規(guī) 范文本進行轉(zhuǎn)換的某個用戶進行使用信息的記錄,反應(yīng)的是對非規(guī)范文本在特定用戶層面 上進行轉(zhuǎn)換的信息。圖4c是圖3中母語習(xí)慣非規(guī)范文本轉(zhuǎn)換語料庫303的內(nèi)部結(jié)構(gòu)。其中包含語言 種類、非規(guī)范文本模板、類別、內(nèi)容、正確轉(zhuǎn)換結(jié)果以及每種可能轉(zhuǎn)換形式的頻率。其中的數(shù) 據(jù)是從一定數(shù)量的特定語言背景的人群中進行統(tǒng)計得到的結(jié)果。該語料庫反應(yīng)的是對非規(guī) 范文本在特定背景用戶群進行轉(zhuǎn)換的信息。圖5a是圖3中通用易轉(zhuǎn)換錯語料庫304的內(nèi)部結(jié)構(gòu)。其中包含非規(guī)范文本模板, 類別,內(nèi)容,正確的轉(zhuǎn)換結(jié)果,易轉(zhuǎn)換錯的結(jié)果以及易轉(zhuǎn)換錯的頻率。其中的數(shù)據(jù)是從一定 數(shù)量的不同背景的人群中進行統(tǒng)計得到的結(jié)果。圖5b是圖3中用戶個人習(xí)慣易轉(zhuǎn)換錯語料庫305的內(nèi)部結(jié)構(gòu)。其中包含用戶標(biāo) 識、非規(guī)范文本模板,類別,內(nèi)容,正確的轉(zhuǎn)換結(jié)果,易轉(zhuǎn)換錯的結(jié)果以及易轉(zhuǎn)換錯的頻率。 其中的數(shù)據(jù)是使用該裝置的個人在使用過程中統(tǒng)計得到的結(jié)果。在圖5b實例中是對學(xué)習(xí) 漢語非規(guī)范文本的某個用戶進行使用信息的記錄,反應(yīng)的是對非規(guī)范文本特定用戶層面上 容易轉(zhuǎn)換錯的信息。圖5c是圖3中母語習(xí)慣易轉(zhuǎn)換錯語料庫306的內(nèi)部結(jié)構(gòu)。其中包含語言種類、非 規(guī)范文本模板,類別,內(nèi)容,正確的轉(zhuǎn)換結(jié)果,易轉(zhuǎn)換錯的結(jié)果以及易轉(zhuǎn)換錯的頻率。該語料 庫反應(yīng)的是對非規(guī)范文本在特定背景用戶群容易轉(zhuǎn)換錯的信息。圖6所示是本發(fā)明的流程圖。包括
步驟601,用戶輸入要學(xué)習(xí)的單詞或句子;步驟602,一旦輸入初始文本,用戶根據(jù)他們的語言習(xí)慣選擇需要的一種或多種功 能;步驟603,對輸入文本進行分析;步驟604,對分析結(jié)果中容易轉(zhuǎn)換錯的部分產(chǎn)生強調(diào)輸出結(jié)果(生成強調(diào)文本);步驟605,對分析結(jié)果中生成最可能的轉(zhuǎn)換文本;步驟606,根據(jù)用戶命令或系統(tǒng)要求進行相應(yīng)的文本輸出(輸出文本處理);步驟607,將會通過顯示器與揚聲器將最終的結(jié)果提供給用戶(輸出)。圖7是圖6中步驟602的詳細描述。步驟701是提供用戶進行選擇的界面。步驟702,根據(jù)用戶需求進行選擇;共有三個功能分支供用戶進行選擇步驟703,是語言背景選擇,用戶可以選擇其母語作為背景語言,如果用戶熟悉多 種語言,還可以進行多種語言的選擇。另外,由于對在一種語言中還存在著多種方言,用戶 在選擇一種語言之后,還可以再選擇一種或數(shù)種方言作為背景語言;步驟704,是非規(guī)范文本與規(guī)范文本的轉(zhuǎn)換功能選擇。步驟705,是非規(guī)范文本與規(guī)范文本的易轉(zhuǎn)換錯功能選擇,用戶可以得到對易轉(zhuǎn)換 錯文本的強調(diào)結(jié)果。步驟706,根據(jù)用戶需求選擇相應(yīng)功能;步驟707,功能輸出,系統(tǒng)將在這些對應(yīng)的功能的基礎(chǔ)上進行運行。圖8是圖6中步驟603的詳細描述,包括步驟801,輸入文本;步驟802,首先確定在整個文本中的非規(guī)范文本部分,并得到其非規(guī)范文本的形式 "NT Template”;步驟803,對規(guī)范部分進行分詞;步驟804,提取非規(guī)范文本上下文關(guān)鍵詞信息;步驟805,根據(jù)提取的上下文信息及非規(guī)范文本的形式確定非規(guī)范文本的類別。圖9是圖2中轉(zhuǎn)換結(jié)果產(chǎn)生單元202所執(zhí)行流程的詳細描述,是找到輸入文本中 非規(guī)范文本易轉(zhuǎn)換錯的正確及錯誤形式的流程;包括步驟901,獲取正確的輸入文本;步驟902,根據(jù)非規(guī)范文本提取順序提取非規(guī)范文本。如果該非規(guī)范文本在易轉(zhuǎn)換 錯語料庫中存在,將會根據(jù)通用易轉(zhuǎn)換錯語料庫304,用戶個人習(xí)慣易轉(zhuǎn)換錯語料庫305與 母語習(xí)慣易轉(zhuǎn)換錯語料庫306計算該非規(guī)范文本易轉(zhuǎn)換錯的程度。步驟903,如果一個非規(guī)范文本有多種易轉(zhuǎn)換結(jié)果,將對所有易轉(zhuǎn)換結(jié)果進行排 序;步驟904,如果不存在用戶個人習(xí)慣選擇將直接輸出易轉(zhuǎn)換的序列,如果還存在用 戶個人習(xí)慣選擇,則將根據(jù)用戶選擇順序更新個人習(xí)慣易讀錯語料庫;步驟905,輸出一個非規(guī)范文本的正確轉(zhuǎn)換形式;步驟906,輸出易轉(zhuǎn)換錯的強調(diào)結(jié)果的排序序列。圖10是圖6中步驟606的詳細描述,包括
步驟1001,獲得正確的轉(zhuǎn)換形式及其強調(diào)序列;步驟1002,判斷用戶對非規(guī)范文本進行選擇了嗎?是執(zhí)行步驟1003,否則執(zhí)行步 驟 1004 ;步驟1003,判斷所選擇的非規(guī)范文本是需要強調(diào)嗎?是執(zhí)行步驟1005,否則執(zhí)行 步驟1006 ;步驟1004,只有一個強調(diào)結(jié)果?是執(zhí)行步驟1008,否則執(zhí)行步驟1005 ;步驟1005,對不同的結(jié)果進行排序,轉(zhuǎn)步驟1009 ;步驟1006,提示沒有強調(diào)結(jié)果,結(jié)束。步驟1007,根據(jù)用戶需求提取強調(diào)結(jié)果,結(jié)束。步驟1008,輸出強調(diào)結(jié)果,結(jié)束。步驟1009,根據(jù)排序輸出強調(diào)結(jié)果,結(jié)束。以如圖11為例,輸出強調(diào)易轉(zhuǎn)換錯結(jié)果為“二”與“貳”,此時如果對于用戶個人來 說“二”更容易轉(zhuǎn)換錯,則將這種對于用戶個人來說更容易轉(zhuǎn)換錯結(jié)果的順序記錄下來并更 新個人習(xí)慣易讀錯語料庫。圖13,為圖4,圖5中確定非規(guī)范文本類別的統(tǒng)計信息。對于圖11,在非規(guī)范文本轉(zhuǎn)換裝置中存在一顯示器用來顯示輸出結(jié)果。存在一揚 聲器用來輸出強調(diào)聲音。在實施例中,輸入文本1101 (現(xiàn)在是2月份),用戶通過按鍵選擇 語言背景1104,這里背景語言是日語。同樣用戶可以同時還可以選擇背景方言。當(dāng)選擇了 上述功能后,系統(tǒng)進行對文本進行后續(xù)分析。如顯示1102,其中非規(guī)范文本“2”的最優(yōu)的轉(zhuǎn) 換形式為“二”顯示于輸入文本的下方,其它轉(zhuǎn)換結(jié)果1103顯示于輸入文本的下方。在這 個例子中,顯示了兩個轉(zhuǎn)換錯強調(diào)的結(jié)果,分別為“二”,“兩”并按順序進行輸出。圖11輸入文本為1101 (現(xiàn)在是2月份),根據(jù)圖8的步驟802首先確定2為整句 話中的非規(guī)范文本,并且其“NT Template”是“NUM”。由步驟803對整句話進行分詞得到 “現(xiàn)在/是/2/月份”,由步驟804提取其上下文信息“現(xiàn)在”,“月份”(其中“是”由于是高 頻詞,可列入停用表中不予提取。)由于對于同一個非規(guī)范文本形式“NUM”可能存在多個類 別,為此需要進行類別確認。如圖13,不妨假設(shè)NUM對應(yīng)僅有兩個類別,“日期”與“數(shù)字”。 “日期”類別中,“現(xiàn)在”的概率為(232)/(232+851+31+132) = 0. 19,“月份”的概率為(851)/ (232+851+31+132) = 0.68。在“數(shù)字”類別中,“現(xiàn)在”的概率為(13) / (1124+13+73+2234) =0. 004,“月份”的概率為(73)/(1124+13+73+2234) = 0.021。由于 0. 19*0. 68 大于 0. 004*0. 021所以認為非規(guī)范文本2的類別為“日期”。由于所接收到的功能選擇信息是“非規(guī)范文本與規(guī)范文本的轉(zhuǎn)換功能”,所以裝置 的處理單元103中的轉(zhuǎn)換結(jié)果產(chǎn)生單元202根據(jù)所接收到的用戶的語言背景所對應(yīng)的語言 種類信息是日語,在得到“日期”類別后,從存儲單元102的通用轉(zhuǎn)換語料庫301中提取到 非規(guī)范文本“2”的轉(zhuǎn)換內(nèi)容“二”及其對應(yīng)的頻率信息“851”,根據(jù)接收到的用戶標(biāo)識信息 “山田”從存儲單元102的用戶個人習(xí)慣轉(zhuǎn)換語料庫302中提取到非規(guī)范文本“2”的轉(zhuǎn)換內(nèi) 容“二”及其對應(yīng)的頻率信息“ 101”,以及,根據(jù)所接收到的用戶的語言背景所對應(yīng)的語言種 類信息是日語,從存儲單元102的母語習(xí)慣轉(zhuǎn)換語料庫303中提取到非規(guī)范文本“2”的轉(zhuǎn) 換信息“二”及其對應(yīng)的頻率信息“164”。然后轉(zhuǎn)換結(jié)果產(chǎn)生單元202計算非規(guī)范文本“2” 的轉(zhuǎn)換概率信息(851+101+164) / (100+851+73+101+12+32+101+164+333) = 1116/1767 = 90. 63,同樣對應(yīng)“兩”的轉(zhuǎn)換概率信息也可以得到(73+12+333)/(100+851+73+101+12+32+1 01+164+333) = 418/1767 = 0. 24。接結(jié)轉(zhuǎn)換結(jié)果產(chǎn)生單元按照非規(guī)范文本“2”的轉(zhuǎn)換結(jié) 果所計算的概率信息從大到小的順序,“2”的轉(zhuǎn)換結(jié)果進行排序,即規(guī)范文本“二”。所以把 非規(guī)范文本“2”的轉(zhuǎn)換信息“二”放在首位,而轉(zhuǎn)換信息“兩”放在第二位。對于圖12,在非規(guī)范文本轉(zhuǎn)換裝置中存在一顯示器用來顯示輸出結(jié)果。存在一揚 聲器用來輸出強調(diào)聲音。在實施例中,輸入文本1201 (這項工作一共花了 2個月時間),用 戶通過按鍵選擇語言背景1204,這里背景語言是日語。同樣用戶可以同時還可以選擇背景 方言。當(dāng)選擇了上述功能后,系統(tǒng)進行對文本進行后續(xù)分析。如顯示1202,其中非規(guī)范文本 “2”的正確轉(zhuǎn)換形式為“兩”顯示于輸入文本的下方,易轉(zhuǎn)換錯強調(diào)輸出結(jié)果1203顯示于輸 入文本的下方。在這個例子中,顯示了兩個易轉(zhuǎn)換錯強調(diào)的結(jié)果,分別為“二”,“貳”并按順 序進行輸出。由于所接收到的功能選擇信息是“非規(guī)范文本與規(guī)范文本的易轉(zhuǎn)換錯功能”,所以 處理單元103中的強調(diào)結(jié)果產(chǎn)生單元203根據(jù)所接收到的用戶的語言背景所對應(yīng)的語言種 類信息是日語,從存儲單元102的通用易轉(zhuǎn)換錯語料庫304中提取到非規(guī)范文本“2”的易轉(zhuǎn) 換錯內(nèi)容“二”及其對應(yīng)的頻率信息“536”,根據(jù)接收到的用戶標(biāo)識信息“山田”從存儲單元 102的用戶個人習(xí)慣易轉(zhuǎn)換錯語料庫305中提取到非規(guī)范文本“2”的易轉(zhuǎn)換錯內(nèi)容“二”及 其對應(yīng)的頻率信息“67”,以及,根據(jù)所接收到的用戶的語言背景所對應(yīng)的語言種類信息是 日語,從存儲單元102的母語習(xí)慣易轉(zhuǎn)換錯語料庫306中提取到非規(guī)范文本“2”的易轉(zhuǎn)換錯 信息“二”及其對應(yīng)的頻率信息“332”。然后易轉(zhuǎn)換錯結(jié)果產(chǎn)生單元202計算非規(guī)范文本“2” 的轉(zhuǎn)換概率信息(536+67+332)/(536+23+67+132+332+43) = 953/1133 = 0. 84,同樣對應(yīng)另 一個易轉(zhuǎn)換錯“兩”的轉(zhuǎn)換概率信息也可以得到(23+132+43)/(536+23+67+132+332+43)= 198/1133 = 0. 16。轉(zhuǎn)換結(jié)果產(chǎn)生單元按照非規(guī)范文本“2”的易轉(zhuǎn)換錯結(jié)果所計算的概率 信息從大到小的順序,“2”的易轉(zhuǎn)換錯結(jié)果進行排序,把非規(guī)范文本“2”的易轉(zhuǎn)換信息“二” 放在首位,而易轉(zhuǎn)換錯信息“貳”放在第二位。正確的結(jié)果“兩”放在輸入文本下方。可見,本發(fā)明并不僅僅是從非規(guī)范型的文本轉(zhuǎn)化為規(guī)范型文本。在本發(fā)明中,文本 轉(zhuǎn)換裝置將根據(jù)用戶的語言背景自動計算最佳的轉(zhuǎn)換結(jié)果。除此之外,在本發(fā)明中,文本轉(zhuǎn) 換裝置還將根據(jù)用戶的母語習(xí)慣、個人習(xí)慣等對不同的轉(zhuǎn)換結(jié)果自動的進行排序,并對易 轉(zhuǎn)換錯的內(nèi)容給出提醒,告訴用戶哪個地方最容易轉(zhuǎn)換錯而不是僅僅排列出一大堆轉(zhuǎn)換的 提示。由上可知,本發(fā)明實施例具有以下優(yōu)勢1)本發(fā)明可以根據(jù)用戶的語言背景將非規(guī)范化文本轉(zhuǎn)換為最適合的規(guī)范化文本。2)本發(fā)明根據(jù)用戶的語言背景提供給用戶關(guān)于將非規(guī)范化文本轉(zhuǎn)換為規(guī)范化文 本時易轉(zhuǎn)換錯的強調(diào)輸出結(jié)果。3)對于從非規(guī)范文本向規(guī)范文本的轉(zhuǎn)換,非規(guī)范文本由手工輸入或掃描或通過其 他方式輸入,本發(fā)明正確的轉(zhuǎn)換結(jié)果將從揚聲器中讀出,其中容易轉(zhuǎn)換錯的地方將加重或 減慢或其它強調(diào)方式讀出。4)對于從非規(guī)范文本向規(guī)范文本的轉(zhuǎn)換,非規(guī)范文本由手工輸入或掃描或通過其 他方式輸入,本發(fā)明正確的轉(zhuǎn)換結(jié)果將從顯示器上顯示,其中容易轉(zhuǎn)換錯的錯誤結(jié)果也將 單獨顯示。
5)本發(fā)明存在多種語言或方言信息的存儲單元,可以根據(jù)用戶的需求進行加載或 卸載。6)本發(fā)明可以根據(jù)用戶的需求指定某種語言或方言也可以同時選擇多種語言或 方言來獲得多種強調(diào)結(jié)果。7)在多個強調(diào)結(jié)果輸出的情況下,本發(fā)明可以根據(jù)用戶的母語習(xí)慣、用戶的個人 習(xí)慣、通常的強調(diào)信息來對多個輸出結(jié)果進行自動排序。以上所述僅是本發(fā)明的優(yōu)選實施方式,應(yīng)當(dāng)指出,對于本技術(shù)領(lǐng)域的普通技術(shù)人 員來說,在不脫離本發(fā)明原理的前提下,還可以做出若干改進和潤飾,這些改進和潤飾也應(yīng) 視為本發(fā)明的保護范圍。
權(quán)利要求
一種基于用戶語言背景的文本轉(zhuǎn)換裝置,其特征在于,包括用于獲取輸入文本和用戶語言背景的輸入單元;存儲字典和多個轉(zhuǎn)換語料庫的存儲單元;利用所述字典對所述輸入文本進行分詞并找到分詞結(jié)果中的非規(guī)范文本的分析單元;根據(jù)所述輸入單元獲取的用戶語言背景從所述多個轉(zhuǎn)換語料庫中取得對應(yīng)所述用戶語言背景的適用語料庫的選擇單元;根據(jù)所述適用語料庫將所述非規(guī)范文本轉(zhuǎn)換為規(guī)范文本的轉(zhuǎn)換單元;輸出所述規(guī)范文本的輸出單元。
2.根據(jù)權(quán)利要求1所述的文本轉(zhuǎn)換裝置,其特征在于,所述多個轉(zhuǎn)換語料庫包括通用 轉(zhuǎn)換語料庫和母語習(xí)慣轉(zhuǎn)換語料庫。
3.根據(jù)權(quán)利要求2所述的文本轉(zhuǎn)換裝置,其特征在于, 所述存儲單元中還存儲有多個易轉(zhuǎn)換錯語料庫;所述選擇單元,還用于根據(jù)用戶的選擇從所述多個易轉(zhuǎn)換錯語料庫中取得適用用戶語 言背景的適用易轉(zhuǎn)換錯語料庫;并且,所述文本轉(zhuǎn)換裝置還包括強調(diào)分析單元,用于根據(jù)所述分詞字典對輸入的非規(guī)范文本進行分析,得到強調(diào)分析結(jié)果;強調(diào)結(jié)果單元,用于根據(jù)所述適用易轉(zhuǎn)換錯語料庫和所述強調(diào)分析結(jié)果,對所述非規(guī) 范文本進行轉(zhuǎn)換,得到強調(diào)結(jié)果;所述輸出單元,還用于輸出所述強調(diào)結(jié)果。
4.根據(jù)權(quán)利要求3所述的文本轉(zhuǎn)換裝置,其特征在于, 所述多個轉(zhuǎn)換語料庫還包括用戶個人習(xí)慣轉(zhuǎn)換語料庫;所述多個易轉(zhuǎn)換錯語料庫包括通用易轉(zhuǎn)換錯語料庫、用戶個人習(xí)慣易轉(zhuǎn)換錯語料庫 和/或母語習(xí)慣易轉(zhuǎn)換錯語料庫;所述規(guī)范文本為多個,并且所述輸出單元對所述多個規(guī)范文本進行排序輸出; 所述強調(diào)結(jié)果為多個,并且所述輸出單元對所述多個強調(diào)結(jié)果進行排序輸出。
5.根據(jù)權(quán)利要求4所述的文本轉(zhuǎn)換裝置,其特征在于,所述輸出單元包括揚聲器,所述 揚聲器用于對所述規(guī)范文本進行正常聲調(diào)的輸出,對所述強調(diào)結(jié)果進行異常聲調(diào)的輸出, 所述異常聲調(diào)包括加重和減慢。
6.根據(jù)權(quán)利要求4所述的文本轉(zhuǎn)換裝置,其特征在于,所述輸出單元包括顯示器,所述 顯示器用于顯示所述規(guī)范文本和所述強調(diào)結(jié)果。
7.根據(jù)權(quán)利要求4所述的文本轉(zhuǎn)換裝置,其特征在于,所述存儲單元能夠在不改變主系統(tǒng)的條件下加載或卸載所述多個轉(zhuǎn)換語料庫和所述 多個易轉(zhuǎn)換錯語料庫。
8.根據(jù)權(quán)利要求4所述的文本轉(zhuǎn)換裝置,其特征在于,所述通用轉(zhuǎn)換語料庫具有從通用語言背景中提取的規(guī)則或統(tǒng)計信息; 所述用戶個人習(xí)慣轉(zhuǎn)換語料庫具有從用戶個人習(xí)慣中提取的規(guī)則或統(tǒng)計信息; 所述母語習(xí)慣轉(zhuǎn)換語料庫具有從母語習(xí)慣背景中提取的規(guī)則或統(tǒng)計信息。
全文摘要
本發(fā)明提供一種基于用戶語言背景的文本轉(zhuǎn)換裝置,包括用于獲取輸入文本和用戶語言背景的輸入單元;存儲字典和多個轉(zhuǎn)換語料庫的存儲單元;利用所述字典對所述輸入文本進行分詞并找到分詞結(jié)果中的非規(guī)范文本的分析單元;根據(jù)所述輸入單元獲取的用戶語言背景從所述多個轉(zhuǎn)換語料庫中取得對應(yīng)所述用戶語言背景的適用語料庫的選擇單元;根據(jù)所述適用語料庫將所述非規(guī)范文本轉(zhuǎn)換為規(guī)范文本的轉(zhuǎn)換單元;輸出所述規(guī)范文本的輸出單元。本發(fā)明能根據(jù)用戶的語言特點選擇出最佳的轉(zhuǎn)換結(jié)果。
文檔編號G06F17/28GK101930429SQ20091014889
公開日2010年12月29日 申請日期2009年6月19日 優(yōu)先權(quán)日2009年6月19日
發(fā)明者劉宏建, 周泉, 國德峰, 永松健司 申請人:株式會社日立制作所