本發(fā)明實施例涉及語言處理領域,特別涉及一種韓文音譯方法及裝置。
背景技術:
音譯(英文:transliteration)技術,用于將一種語言中的詞匯翻譯為另一種語言中與之發(fā)音相近的詞匯或注音。目前使用較為廣泛的韓文音譯技術是基于詞組庫的音譯技術。
基于詞組庫的韓文音譯技術的核心思想是:人工預先采集韓文中的常用詞組及每個常用詞組對應的注音片段序列,建立詞組庫;服務器對于待音譯的韓文信息,進行拆分得到若干組韓文詞組,對于每組韓文詞組從詞組庫中選擇出匹配度高于閾值的注音片段序列,將選擇出的若干組注音片段按照韓文詞組對應的順序進行拼接,得到與輸入的韓文信息對應的注音信息。
由上述方法可知,詞組庫中存儲的為韓文中的常用詞組,且這些常用詞組是人工進行采集的,因此該詞組庫并不能夠涵蓋韓文中所有的詞組,當待音譯的韓文詞組在詞組庫中不存在時,根據(jù)匹配度選擇出的注音片段序列并不是該韓文詞組的準確注音,從而出現(xiàn)音譯結果準確率低的問題。
技術實現(xiàn)要素:
為了解決目前的韓文音譯技術的音譯結果準確率低的問題,本發(fā)明實施例提供了一種韓文音譯方法及裝置。所述技術方案如下:
第一方面,提供了一種韓文音譯方法,該方法包括:
將韓文信息進行拆分,得到若干個韓文文字;
從字庫中查詢與韓文文字對應的注音片段,字庫存儲有韓文文字和注音片段的對應關系;
將查詢到的注音片段按照韓文文字在韓文信息中的順序進行拼接,得到與韓文信息對應的注音信息。
可選地,將韓文信息進行拆分,得到若干個韓文文字,包括:
檢測韓文信息中相鄰的兩個韓文文字之間是否存在待變音的韓文文字;
若存在待變音的韓文文字,則將待變音的韓文文字替換為變音后的韓文文字;
根據(jù)變音后的韓文文字得到與韓文信息對應的若干個韓文文字。
可選地,檢測韓文信息中相鄰的兩個韓文文字之間是否存在待變音的韓文文字,包括:
以預定標識作為拆分位置,將韓文信息拆分為若干組韓文詞組;預定標識包括空格符號和標點符號中的至少一種;
檢測韓文詞組中相連的兩個韓文文字之間是否存在待變音的韓文文字。
可選地,檢測韓文詞組中相連的兩個韓文文字之間是否存在待變音的韓文文字,包括:
獲取第一韓文文字的第一單音節(jié)序列和第二韓文文字的第二單音節(jié)序列,第一韓文文字和第二韓文文字是韓文詞組中相鄰的兩個韓文文字;
提取第一單音節(jié)序列的尾部音節(jié)和第二單音節(jié)序列的首部音節(jié);
檢測尾部音節(jié)和首部音節(jié)是否屬于變音音節(jié)組合;
若尾部音節(jié)和首部音節(jié)屬于變音音節(jié)組合,則確定存在待變音的韓文文字。
可選地,將待變音的韓文文字替換為變音后的韓文文字,包括:
當?shù)谝豁n文文字是待變音的韓文文字時,對第一單音節(jié)序列的尾部音節(jié)進行變音,根據(jù)變音后的第一單音節(jié)序列重新組合出第三韓文文字,使用第三韓文文字替換第一韓文文字;和/或,
當?shù)诙n文文字是待變音的韓文文字時,對第二單音節(jié)序列的首部音節(jié)進行變音,根據(jù)變音后的第二單音節(jié)序列重新組合出第四韓文文字,使用第四韓文文字替換第二韓文文字。
第二方面,提供了一種韓文音譯裝置,該裝置包括:
拆分模塊,用于將韓文信息進行拆分,得到若干個韓文文字;
查詢模塊,用于從字庫中查詢與韓文文字對應的注音片段,字庫存儲有韓文文字和注音片段的對應關系;
拼接模塊,用于將查詢到的注音片段按照韓文文字在韓文信息中的順序進行拼接,得到與韓文信息對應的注音信息。
可選地,拆分模塊,包括:
檢測單元、替換單元和得到單元;
檢測單元,用于檢測韓文信息中相鄰的兩個韓文文字之間是否存在待變音的韓文文字;
替換單元,用于若存在待變音的韓文文字,則將待變音的韓文文字替換為變音后的韓文文字;
得到單元,用于根據(jù)變音后的韓文文字得到與韓文信息對應的若干個韓文文字。
可選地,檢測單元,包括:
拆分子單元和檢測子單元;
拆分子單元,用于以預定標識作為拆分位置,將韓文信息拆分為若干組韓文詞組;預定標識包括空格符號和標點符號中的至少一種;
檢測子單元,用于檢測韓文詞組中相連的兩個韓文文字之間是否存在待變音的韓文文字。
可選地,檢測子單元,還用于獲取第一韓文文字的第一單音節(jié)序列和第二韓文文字的第二單音節(jié)序列,第一韓文文字和第二韓文文字是韓文詞組中相鄰的兩個韓文文字;提取第一單音節(jié)序列的尾部音節(jié)和第二單音節(jié)序列的首部音節(jié);檢測尾部音節(jié)和首部音節(jié)是否屬于變音音節(jié)組合;若尾部音節(jié)和首部音節(jié)屬于變音音節(jié)組合,則確定存在待變音的韓文文字。
可選地,替換單元,包括:
第一替換子單元和/或第二替換子單元;
第一替換子單元,用于當?shù)谝豁n文文字是待變音的韓文文字時,對第一單音節(jié)序列的尾部音節(jié)進行變音,根據(jù)變音后的第一單音節(jié)序列重新組合出第三韓文文字,使用第三韓文文字替換第一韓文文字;
第二替換子單元,用于當?shù)诙n文文字是待變音的韓文文字時,對第二單音節(jié)序列的首部音節(jié)進行變音,根據(jù)變音后的第二單音節(jié)序列重新組合出第四韓文文字,使用第四韓文文字替換第二韓文文字。
本發(fā)明實施例提供的技術方案帶來的有益效果是:
由于字庫中預先存儲有韓文文字和注音片段的對應關系,通過將韓文信息進行拆分,得到若干個韓文文字,從字庫中查詢與韓文文字對應的注音片段,將查詢到的注音片段按照韓文文字在韓文信息中的順序進行拼接,得到與韓文信息對應的注音信息;使得當待音譯的韓文信息中包括冷僻詞組或網(wǎng)絡流行新詞組或自造詞組時,仍能查詢到該韓文信息中每個韓文文字對應的注音片段,從而進行準確的注音,提高了音譯結果的準確率。
附圖說明
為了更清楚地說明本發(fā)明實施例中的技術方案,下面將對實施例描述中所需要使用的附圖作簡單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實施例,對于本領域普通技術人員來講,在不付出創(chuàng)造性勞動的前提下,還可以根據(jù)這些附圖獲得其他的附圖。
圖1是本發(fā)明一個實施例提供的韓文音譯方法的流程圖;
圖2是本發(fā)明另一個實施例提供的韓文音譯方法的流程圖;
圖3是本發(fā)明另一個實施例提供的韓文音譯方法的原理示意圖;
圖4是本發(fā)明另一個實施例提供的韓文音譯方法的流程圖;
圖5是本發(fā)明一個實施例提供的韓文音譯裝置的結構圖;
圖6是本發(fā)明另一個實施例提供的韓文音譯裝置的結構圖;
圖7是本發(fā)明一個實施例提供的終端的框圖;
圖8是本發(fā)明一個實施例提供的服務器的結構框架圖。
具體實施方式
為使本發(fā)明的目的、技術方案和優(yōu)點更加清楚,下面將結合附圖對本發(fā)明實施方式作進一步地詳細描述。
請參考圖1,其示出了本發(fā)明一個實施例提供的韓文音譯方法的流程圖。該韓文音譯方法可由具有韓文處理能力的服務器或終端來執(zhí)行,在以下實施例中均以韓文音譯方法的執(zhí)行主體為服務器進行說明。該韓文音譯方法,包括:
步驟101,將韓文信息進行拆分,得到若干個韓文文字。
可選地,服務器獲取待音譯的韓文信息,將韓文信息進行拆分,得到若干個韓文文字;其中,韓文信息為文字類型是韓文的信息,該信息為一個詞組或一句話或一段文字或一篇文章,本實施例對此不加以限定。
比如,待音譯的韓文信息為為服務器將韓文信息進行拆分,分別得到四個韓文文字和
步驟102,從字庫中查詢與韓文文字對應的注音片段,字庫存儲有韓文文字和注音片段的對應關系。
可選地,由于韓文文字一共有11172個,服務器預先根據(jù)預定編碼規(guī)則,將每個韓文文字解構為對應的單音節(jié)序列,該單音節(jié)序列包括構成該韓文文字的至少一個單音節(jié),也稱單音節(jié)符號或單音節(jié)筆畫;對于每個韓文文字,服務器根據(jù)該韓文文字對應的單音節(jié)序列,生成與該韓文文字對應的注音片段;示意性的,預定編碼規(guī)則為基于unicode(中文:統(tǒng)一碼)字符集的編碼規(guī)則,韓文文字在unicode字符集中的編碼區(qū)間為AC00至D7AF,構成韓文文字的單音節(jié)的unicode編碼區(qū)間為1100-11FF。
其中,預定編碼規(guī)則還可以基于GB18030字符集或UCS字符集(Universal Character Set,通用字符集)或其它支持韓文文字的字符集,本實施例對預定編碼規(guī)則的類型和韓文文字在預定編碼規(guī)則中的編碼范圍不加以限定。
可選地,服務器預先根據(jù)所有的韓文文字、與每個韓文文字對應的單音節(jié)序列和對應的注音片段,建立字庫;示意性的,注音片段的注音類型為羅馬音注音類型和/或漢字注音類型。本實施例對注音片段的注音類型不加以限定。
結合參考表一,服務器建立的字庫中存儲有韓文文字、單音節(jié)序列、羅馬音注音和漢字注音的對應關系。
比如,當韓文文字為時,該韓文文字對應的單音節(jié)序列為對應的羅馬音注音為“bek”,對應的漢字注音為“背”;當韓文文字為時,該韓文文字對應的單音節(jié)序列為對應的羅馬音注音為“ba”,對應的漢字注音為“巴”;當韓文文字為時,該韓文文字對應的單音節(jié)序列為對應的羅馬音注音為“da”,對應的漢字注音為“答”。
表一
比如,當服務器得到的韓文文字分別為和時,服務器從字庫中查詢到與韓文文字對應的注音片段為“go”,與韓文文字對應的注音片段為“ma”,與韓文文字對應的注音片段為“wa”,與韓文文字對應的注音片段為“yo”。
又比如,當服務器得到的韓文文字分別為和時,服務器從字庫中查詢到與韓文文字對應的注音片段為“溝”,與韓文文字對應的注音片段為“嗎”,與韓文文字對應的注音片段為“哇”,與韓文文字對應的注音片段為“喲”。
步驟103,將查詢到的注音片段按照韓文文字在韓文信息中的順序進行拼接,得到與韓文信息對應的注音信息。
可選地,服務器將查詢到的注音片段按照韓文文字在韓文信息中的順序進行拼接,得到與韓文信息對應的注音信息。
比如,服務器根據(jù)韓文文字和在韓文信息的順序,將與這四個韓文文字對應的注音片段“go”、“ma”、“wa”和“yo”進行拼接,得到與韓文信息對應的注音信息“go ma wa yo”。
又比如,服務器根據(jù)韓文文字和在韓文信息的順序,將與這四個韓文文字對應的注音片段“溝”、“嗎”、“哇”和“喲”進行拼接,得到與韓文信息對應的注音信息“溝嗎哇喲”。
綜上所述,本實施例通過將韓文信息進行拆分,得到若干個韓文文字,從字庫中查詢與韓文文字對應的注音片段,將查詢到的注音片段按照韓文文字在韓文信息中的順序進行拼接,得到與韓文信息對應的注音信息;由于字庫中預先存儲有韓文文字和注音片段的對應關系,使得當待音譯的韓文信息中包括冷僻詞組或網(wǎng)絡流行新詞組或自造詞組時,仍能查詢到該韓文信息中每個韓文文字對應的注音片段,從而進行準確的注音,提高了音譯結果的準確率。
韓文的發(fā)音規(guī)則中存在變音規(guī)則,比如,在一個韓文詞組中,若前一個韓文文字對應的尾部音節(jié),與相鄰的后一個文字對應的首部音節(jié)屬于變音音節(jié)組合,則兩個韓文文字之間存在待變音的韓文文字,該待變音的韓文文字的實際發(fā)音不再是自身對應的注音片段,而是變音后的韓文文字對應的注音片段。
比如,韓文信息中第一個韓文文字對應的尾部音節(jié)為第二個韓文文字對應的首部音節(jié)為尾部音節(jié)和首部音節(jié)屬于變音音節(jié)組合則根據(jù)韓文的變音規(guī)則,將待變音的韓文文字的尾部音節(jié)替換為得到變音后的韓文文字即在中的實際發(fā)音不再是對應的注音片段“bad”,而是變音后的韓文文字對應的注音片段“ban”。為此,本發(fā)明還提供有如下實施例。
請參考圖2,其示出了本發(fā)明另一個實施例提供的韓文音譯方法的流程圖。該韓文音譯方法可由具有韓文處理能力的服務器或終端來執(zhí)行,該韓文音譯方法,包括:
步驟201,檢測韓文信息中相鄰的兩個韓文文字之間是否存在待變音的韓文文字。
可選地,服務器檢測韓文信息中相鄰的兩個韓文文字之間是否存在待變音的韓文文字。
在一種可能的實現(xiàn)方式中,該檢測步驟可實現(xiàn)成為如下幾個步驟:
1、服務器獲取第一韓文文字的第一單音節(jié)序列和第二韓文文字的第二單音節(jié)序列,第一韓文文字和第二韓文文字是韓文信息中相鄰的兩個韓文文字。
其中,第一單音節(jié)序列包括構成第一韓文文字的至少一個單音節(jié),第二單音節(jié)序列包括構成第二韓文文字的至少一個單音節(jié)。
如表一所示,服務器預先建立字庫,該字庫中存儲有韓文文字和單音節(jié)序列的對應關系,當服務器獲取待音譯的韓文信息時,從字庫中查詢與韓文信息中每個韓文文字對應的單音節(jié)序列。
示意性的,服務器獲取第一韓文文字的第一單音節(jié)序列和第二韓文文字的第二單音節(jié)序列
2、服務器提取第一單音節(jié)序列的尾部音節(jié)和第二單音節(jié)序列的首部音節(jié)。
示意性的,服務器提取第一單音節(jié)序列的尾部音節(jié)和第二單音節(jié)序列的首部音節(jié)
3、服務器檢測尾部音節(jié)和首部音節(jié)是否屬于變音音節(jié)組合。
可選地,如表二所示,服務器中預先存儲有根據(jù)韓文的變音規(guī)則建立的變音音節(jié)組合庫,該變音音節(jié)組合庫中存儲有變音音節(jié)組合和變音后的音節(jié)組合的對應關系。比如,當變音音節(jié)組合為對應的變音后的音節(jié)組合為當變音音節(jié)組合為對應的變音后的音節(jié)組合為當變音音節(jié)組合為對應的變音后的音節(jié)組合為
表二
示意性的,服務器根據(jù)尾部音節(jié)和首部音節(jié)在變音音節(jié)組合庫中查詢是否存在該組合若存在,則檢測出該組合屬于變音音節(jié)組合。
4、若尾部音節(jié)和首部音節(jié)屬于變音音節(jié)組合,則服務器確定存在待變音的韓文文字。
當尾部音節(jié)和首部音節(jié)屬于變音音節(jié)組合時,可能是尾部音節(jié)需要變音,即第一韓文文字為待變音的韓文文字,也可能是首部音節(jié)需要變音,即第二韓文文字為待變音的韓文文字,還可能是尾部音節(jié)和首部音節(jié)都需要變音,即第一韓文文字和第二韓文文字均為待變音的韓文文字。
示意性的,若尾部音節(jié)和首部音節(jié)屬于變音音節(jié)組合,則服務器確定第一韓文文字和第二韓文文字中存在待變音的韓文文字。
步驟202,若存在待變音的韓文文字,則將待變音的韓文文字替換為變音后的韓文文字。
可選地,服務器根據(jù)查詢到的變音后的音節(jié)組合,將變音音節(jié)組合替換為變音后的音節(jié)組合,根據(jù)變音后的音節(jié)組合將第一韓文文字和第二韓文文字進行替換。
可選地,服務器根據(jù)查詢到的變音后的音節(jié)組合,判斷變音音節(jié)組合中的尾部音節(jié)與變音后的音節(jié)組合中的尾部音節(jié)是否相同,若相同,則確定第一韓文文字不是待變音的韓文文字;若不同,則確定第一韓文文字是待變音的韓文文字,對第一單音節(jié)序列的尾部音節(jié)進行變音,根據(jù)變音后的第一單音節(jié)序列重新組合出第三韓文文字,使用第三韓文文字替換第一韓文文字。
可選地,服務器根據(jù)查詢到的變音后的音節(jié)組合,判斷變音音節(jié)組合中的首部音節(jié)與變音后的音節(jié)組合中的首部音節(jié)是否相同,若相同,則確定第二韓文文字不是待變音的韓文文字;若不同,則確定第二韓文文字是待變音的韓文文字,對第二單音節(jié)序列的首部音節(jié)進行變音,根據(jù)變音后的第二單音節(jié)序列重新組合出第四韓文文字,使用第四韓文文字替換第二韓文文字。
比如,第一韓文文字為第二韓文文字為變音音節(jié)組合為與查詢到的變音后的音節(jié)組合為相比,服務器判斷出尾部音節(jié)不同,而首部音節(jié)相同,則確定第一韓文文字是待變音的韓文文字,第二韓文文字不是待變音的韓文文字。對第一單音節(jié)序列的尾部音節(jié)進行變音,根據(jù)變音后的第一單音節(jié)序列重新組合出第三韓文文字使用第三韓文文字替換第一韓文文字
步驟203,根據(jù)變音后的韓文文字得到與韓文信息對應的若干個韓文文字。
可選地,服務器根據(jù)變音后的韓文文字得到與韓文信息對應的若干個韓文文字;示意性的,服務器根據(jù)第三韓文文字得到與韓文信息對應的若干個韓文文字,分別為和
步驟204,從字庫中查詢與韓文文字對應的注音片段,字庫存儲有韓文文字和注音片段的對應關系。
可選地,服務器從字庫中查詢與韓文文字對應的注音片段,字庫存儲有韓文文字和注音片段的對應關系;該注音片段的注音類型包括羅馬音注音類型和漢字注音類型中的至少一種,還可以包括其它非韓文文字注音類型,本實施例對此不加以限定。
步驟205,將查詢到的注音片段按照韓文文字在韓文信息中的順序進行拼接,得到與韓文信息對應的注音信息。
可選地,服務器將查詢到的注音片段按照韓文文字在韓文信息中的順序進行拼接,得到與韓文信息對應的注音信息。
可選地,服務器在得到與韓文信息對應的注音信息之后,將該注音信息發(fā)送至終端;對應的,終端接收到該注音信息,自動確定注音類型或接收用戶選擇的注音類型,根據(jù)該注音類型將與韓文信息對應的注音信息進行輸出。
綜上所述,本實施例通過將韓文信息進行拆分,得到若干個韓文文字,從字庫中查詢與韓文文字對應的注音片段,將查詢到的注音片段按照韓文文字在韓文信息中的順序進行拼接,得到與韓文信息對應的注音信息;由于字庫中預先存儲有韓文文字和注音片段的對應關系,使得當待音譯的韓文信息中包括冷僻詞組或網(wǎng)絡流行新詞組或自造詞組時,仍能查詢到該韓文信息中每個韓文文字對應的注音片段,從而進行準確的注音,提高了音譯結果的準確率。
本實施例還通過檢測韓文信息中相鄰的兩個韓文文字之間是否存在待變音的韓文文字,若存在待變音的韓文文字,則將待變音的韓文文字替換為變音后的韓文文字,根據(jù)變音后的韓文文字得到與韓文信息對應的若干個韓文文字;使得當韓文信息中存在需要變音的韓文文字時,也能將該待變音的韓文文字替換為變音后的韓文文字,從字庫中查詢與變音后的韓文文字對應的注音片段,從而準確標注該待變音的韓文文字的實際發(fā)音。
本實施例還通過注音類型包括羅馬音注音類型和漢字注音類型中的至少一種,終端接收到該注音信息,自動確定注音類型或接收用戶選擇的注音類型,根據(jù)該注音類型將與韓文信息對應的注音信息進行輸出;使得終端能夠根據(jù)確定的注音類型,選擇性的輸出注音信息,增加了注音方式的靈活性。
在一個具體的例子中,如圖3所示,服務器獲取韓文信息根據(jù)字庫將該韓文信息進行解構,得到韓文文字的單音節(jié)序列韓文文字的單音節(jié)序列和韓文文字的單音節(jié)序列然后,服務器提取單音節(jié)序列的尾部音節(jié)和單音節(jié)序列的首部音節(jié)根據(jù)變音音節(jié)組合庫檢測出屬于變音音節(jié)組合,查詢到對應的變音后的音節(jié)組合為服務器再提取單音節(jié)序列的尾部音節(jié)和單音節(jié)序列的首部音節(jié)根據(jù)變音音節(jié)組合庫中檢測出不屬于變音音節(jié)組合,即不需要變音;接著,服務器對韓文文字對應的尾部音節(jié)進行變音,根據(jù)變音后的單音節(jié)序列重新組合出韓文文字使用韓文文字替換韓文文字得到與韓文信息對應的用于注音的若干個韓文文字,分別為和最后,服務器在字庫中查詢到與韓文文字的注音片段為“ban”、韓文文字的注音片段為“nen”和韓文文字的注音片段為“da”,將查詢到的注音片段“ban”、“nen”和“da”按照順序進行拼接,得到與該韓文信息對應的注音信息“ban nen da”。
在一些可能的情況下,在待音譯的韓文信息中,當兩個韓文文字之間包括非韓文文字的標識時,比如該標識為空格符號或標點符號,服務器不執(zhí)行檢測這兩個韓文文字之間是否存在待變音的韓文文字的步驟,即便這兩個韓文文字對應的第一單音節(jié)序列的尾部音節(jié)和第二單音節(jié)序列的首部音節(jié)屬于變音音節(jié)組合,也不需要替換。
請參考圖4,其示出了本發(fā)明另一個實施例提供的韓文音譯方法的流程圖。該韓文音譯方法可由具有韓文處理能力的服務器或終端來執(zhí)行,該韓文音譯方法,包括:
步驟401,以預定標識作為拆分位置,將韓文信息拆分為若干組韓文詞組。預定標識包括空格符號和標點符號中的至少一種。
可選地,服務器預先設置預定標識,當服務器獲取到待音譯的韓文信息時,根據(jù)預定編碼規(guī)則,以預定標識作為拆分位置,將韓文信息拆分為若干組韓文詞組;示意性的,預定編碼規(guī)則為基于unicode字符集的編碼規(guī)則,空格符號和標點符號在unicode字符集中的編碼區(qū)間為4000至403F。本實施例對預定編碼規(guī)則的類型和空格符號和標點符號在預定編碼規(guī)則中的編碼范圍不加以限定。
可選地,該預定標識還包括其它國家文字、圖形符號、數(shù)學符號、控制符號中的至少一種。
比如,待音譯的韓文信息為服務器檢測出該韓文信息中的標點符號“,”,則以標點符號“,”為拆分位置,將該韓文信息拆分為兩組韓文詞組,分別為和
又比如,待音譯的韓文信息為服務器檢測出該韓文信息中的空格符號,則以空格符號為拆分位置,將該韓文信息拆分為兩組韓文詞組,分別為和
可選地,在服務器將韓文信息拆分為若干組韓文詞組之后,對于每組韓文詞組執(zhí)行步驟402至步驟406,具體細節(jié)可參考圖2所提供的實施例。
步驟402,檢測韓文詞組中相連的兩個韓文文字之間是否存在待變音的韓文文字。
可選地,該檢測步驟可實現(xiàn)成為如下幾個步驟:
1、服務器獲取第一韓文文字的第一單音節(jié)序列和第二韓文文字的第二單音節(jié)序列,第一韓文文字和第二韓文文字是韓文詞組中相鄰的兩個韓文文字。
2、服務器提取第一單音節(jié)序列的尾部音節(jié)和第二單音節(jié)序列的首部音節(jié)。
3、服務器檢測尾部音節(jié)和首部音節(jié)是否屬于變音音節(jié)組合。
4、若尾部音節(jié)和首部音節(jié)屬于變音音節(jié)組合,則服務器確定存在待變音的韓文文字。
步驟403,將待變音的韓文文字替換為變音后的韓文文字。
可選地,當?shù)谝豁n文文字是待變音的韓文文字時,服務器對第一單音節(jié)序列的尾部音節(jié)進行變音,根據(jù)變音后的第一單音節(jié)序列重新組合出第三韓文文字,使用第三韓文文字替換第一韓文文字。
可選地,當?shù)诙n文文字是待變音的韓文文字時,服務器對第二單音節(jié)序列的首部音節(jié)進行變音,根據(jù)變音后的第二單音節(jié)序列重新組合出第四韓文文字,使用第四韓文文字替換第二韓文文字。
步驟404,根據(jù)變音后的韓文文字得到與韓文信息對應的若干個韓文文字。
可選地,服務器根據(jù)變音后的韓文文字得到與韓文信息對應的若干個韓文文字。
步驟405,從字庫中查詢與韓文文字對應的注音片段,字庫存儲有韓文文字和注音片段的對應關系。
可選地,服務器從字庫中查詢與韓文文字對應的注音片段,字庫存儲有韓文文字和注音片段的對應關系。
步驟406,將查詢到的注音片段按照韓文文字在韓文信息中的順序進行拼接,得到與韓文信息對應的注音信息。
可選地,服務器將每組韓文詞組中查詢到的注音片段按照韓文文字在該韓文詞組中的順序進行拼接,再將拼接好的韓文詞組按照該韓文詞組在韓文信息中的順序進行拼接,得到與韓文信息對應的注音信息。
綜上所述,本實施例通過將韓文信息進行拆分,得到若干個韓文文字,從字庫中查詢與韓文文字對應的注音片段,將查詢到的注音片段按照韓文文字在韓文信息中的順序進行拼接,得到與韓文信息對應的注音信息;由于字庫中預先存儲有韓文文字和注音片段的對應關系,使得當待音譯的韓文信息中包括冷僻詞組或網(wǎng)絡流行新詞組或自造詞組時,仍能查詢到該韓文信息中每個韓文文字對應的注音片段,從而進行準確的注音,提高了音譯結果的準確率。
本實施例還通過以預定標識作為拆分位置,將韓文信息拆分為若干組韓文詞組,檢測韓文詞組中相連的兩個韓文文字之間是否存在待變音的韓文文字;使得當韓文信息中包含有預設標識時,能夠根據(jù)該預設標識對韓文信息進行拆分,避免將兩個相鄰的韓文詞組中由預定標識分隔的兩個韓文文字進行變音的情況,從而保證得到的注音信息更加準確。
下述為本發(fā)明裝置實施例,可以用于執(zhí)行本發(fā)明方法實施例。對于本發(fā)明裝置實施例中未披露的細節(jié),請參照本發(fā)明方法實施例。
請參考圖5,其示出了本發(fā)明一個實施例提供的韓文音譯裝置的結構示意圖。該韓文音譯裝置包括:
拆分模塊520,用于將韓文信息進行拆分,得到若干個韓文文字;
查詢模塊540,用于從字庫中查詢與韓文文字對應的注音片段,字庫存儲有韓文文字和注音片段的對應關系;
拼接模塊560,用于將查詢到的注音片段按照韓文文字在韓文信息中的順序進行拼接,得到與韓文信息對應的注音信息。
綜上所述,本實施例通過將韓文信息進行拆分,得到若干個韓文文字,從字庫中查詢與韓文文字對應的注音片段,將查詢到的注音片段按照韓文文字在韓文信息中的順序進行拼接,得到與韓文信息對應的注音信息;由于字庫中預先存儲有韓文文字和注音片段的對應關系,使得當待音譯的韓文信息中包括冷僻詞組或網(wǎng)絡流行新詞組或自造詞組時,仍能查詢到該韓文信息中每個韓文文字對應的注音片段,從而進行準確的注音,提高了音譯結果的準確率。
請參考圖6,其示出了本發(fā)明另一個實施例提供的韓文音譯裝置的結構示意圖。該韓文音譯裝置包括:
拆分模塊520,包括:
檢測單元521、替換單元522和得到單元523;
檢測單元521,用于檢測韓文信息中相鄰的兩個韓文文字之間是否存在待變音的韓文文字;
替換單元522,用于若存在待變音的韓文文字,則將待變音的韓文文字替換為變音后的韓文文字;
得到單元523,用于根據(jù)變音后的韓文文字得到與韓文信息對應的若干個韓文文字。
檢測單元521,包括:
拆分子單元521a和檢測子單元521b;
拆分子單元521a,用于以預定標識作為拆分位置,將韓文信息拆分為若干組韓文詞組;預定標識包括空格符號和標點符號中的至少一種;
檢測子單元521b,用于檢測韓文詞組中相連的兩個韓文文字之間是否存在待變音的韓文文字。
檢測子單元521a,還用于獲取第一韓文文字的第一單音節(jié)序列和第二韓文文字的第二單音節(jié)序列,第一韓文文字和第二韓文文字是韓文詞組中相鄰的兩個韓文文字;提取第一單音節(jié)序列的尾部音節(jié)和第二單音節(jié)序列的首部音節(jié);檢測尾部音節(jié)和首部音節(jié)是否屬于變音音節(jié)組合;若尾部音節(jié)和首部音節(jié)屬于變音音節(jié)組合,則確定存在待變音的韓文文字。
替換單元522,包括:
第一替換子單元522a和/或第二替換子單元522b;
第一替換子單元522a,用于當?shù)谝豁n文文字是待變音的韓文文字時,對第一單音節(jié)序列的尾部音節(jié)進行變音,根據(jù)變音后的第一單音節(jié)序列重新組合出第三韓文文字,使用第三韓文文字替換第一韓文文字;
第二替換子單元522b,用于當?shù)诙n文文字是待變音的韓文文字時,對第二單音節(jié)序列的首部音節(jié)進行變音,根據(jù)變音后的第二單音節(jié)序列重新組合出第四韓文文字,使用第四韓文文字替換第二韓文文字。
綜上所述,本實施例通過將韓文信息進行拆分,得到若干個韓文文字,從字庫中查詢與韓文文字對應的注音片段,將查詢到的注音片段按照韓文文字在韓文信息中的順序進行拼接,得到與韓文信息對應的注音信息;由于字庫中預先存儲有韓文文字和注音片段的對應關系,使得當待音譯的韓文信息中包括冷僻詞組或網(wǎng)絡流行新詞組或自造詞組時,仍能查詢到該韓文信息中每個韓文文字對應的注音片段,從而進行準確的注音,提高了音譯結果的準確率。
請參考圖7,其示出了本發(fā)明一個實施例提供的終端700的框圖。具體來講:設備700可以包括RF(Radio Frequency,射頻)電路710、包括有一個或一個以上計算機可讀存儲介質的存儲器720、輸入單元730、顯示單元740、傳感器750、音頻電路760、WiFi(wireless fidelity,無線保真)模塊770、包括有一個或者一個以上處理核心的處理器780、以及電源790等部件。本領域技術人員可以理解,圖7中示出的設備結構并不構成對設備的限定,可以包括比圖示更多或更少的部件,或者組合某些部件,或者不同的部件布置。其中:
RF電路710可用于收發(fā)信息或通話過程中,信號的接收和發(fā)送,特別地,將基站的下行信息接收后,交由一個或者一個以上處理器780處理;另外,將涉及上行的數(shù)據(jù)發(fā)送給基站。通常,RF電路710包括但不限于天線、至少一個放大器、調諧器、一個或多個振蕩器、用戶身份模塊(SIM)卡、收發(fā)信機、耦合器、LNA(Low Noise Amplifier,低噪聲放大器)、雙工器等。此外,RF電路710還可以通過無線通信與網(wǎng)絡和其他設備通信。無線通信可以使用任一通信標準或協(xié)議,包括但不限于GSM(Global System of Mobile communication,全球移動通訊系統(tǒng))、GPRS(General Packet Radio Service,通用分組無線服務)、CDMA(Code Division Multiple Access,碼分多址)、WCDMA(Wideband Code Division Multiple Access,寬帶碼分多址)、LTE(Long Term Evolution,長期演進)、電子郵件、SMS(Short Messaging Service,短消息服務)等。存儲器720可用于存儲軟件程序以及模塊。處理器780通過運行存儲在存儲器720的軟件程序以及模塊,從而執(zhí)行各種功能應用以及數(shù)據(jù)處理。存儲器720可主要包括存儲程序區(qū)和存儲數(shù)據(jù)區(qū),其中,存儲程序區(qū)可存儲操作系統(tǒng)、至少一個功能所需的應用程序(比如聲音播放功能、圖像播放功能等)等;存儲數(shù)據(jù)區(qū)可存儲根據(jù)設備700的使用所創(chuàng)建的數(shù)據(jù)(比如音頻數(shù)據(jù)、電話本等)等。此外,存儲器720可以包括高速隨機存取存儲器,還可以包括非易失性存儲器,例如至少一個磁盤存儲器件、閃存器件、或其他易失性固態(tài)存儲器件。相應地,存儲器720還可以包括存儲器控制器,以提供處理器780和輸入單元730對存儲器720的訪問。
輸入單元730可用于接收輸入的數(shù)字或字符信息,以及產生與用戶設置以及功能控制有關的鍵盤、鼠標、操作桿、光學或者軌跡球信號輸入。具體地,輸入單元730可包括觸敏表面731以及其他輸入設備732。觸敏表面731,也稱為觸摸顯示屏或者觸控板,可收集用戶在其上或附近的觸摸操作(比如用戶使用手指、觸筆等任何適合的物體或附件在觸敏表面731上或在觸敏表面731附近的操作),并根據(jù)預先設定的程式驅動相應的連接裝置??蛇x地,觸敏表面731可包括觸摸檢測裝置和觸摸控制器兩個部分。其中,觸摸檢測裝置檢測用戶的觸摸方位,并檢測觸摸操作帶來的信號,將信號傳送給觸摸控制器;觸摸控制器從觸摸檢測裝置上接收觸摸信息,并將它轉換成觸點坐標,再送給處理器780,并能接收處理器780發(fā)來的命令并加以執(zhí)行。此外,可以采用電阻式、電容式、紅外線以及表面聲波等多種類型實現(xiàn)觸敏表面731。除了觸敏表面731,輸入單元730還可以包括其他輸入設備732。具體地,其他輸入設備732可以包括但不限于物理鍵盤、功能鍵(比如音量控制按鍵、開關按鍵等)、軌跡球、鼠標、操作桿等中的一種或多種。
顯示單元740可用于顯示由用戶輸入的信息或提供給用戶的信息以及設備70的各種圖形用戶接口,這些圖形用戶接口可以由圖形、文本、圖標、視頻和其任意組合來構成。顯示單元740可包括顯示面板741,可選地,可以采用LCD(Liquid Crystal Display,液晶顯示器)、OLED(Organic Light-Emitting Diode,有機發(fā)光二極管)等形式來配置顯示面板741。進一步的,觸敏表面731可覆蓋在顯示面板741之上,當觸敏表面731檢測到在其上或附近的觸摸操作后,傳送給處理器780以確定觸摸事件的類型,隨后處理器780根據(jù)觸摸事件的類型在顯示面板741上提供相應的視覺輸出。雖然在圖7中,觸敏表面731與顯示面板741是作為兩個獨立的部件來實現(xiàn)輸入和輸入功能,但是在某些實施例中,可以將觸敏表面731與顯示面板741集成而實現(xiàn)輸入和輸出功能。
設備700還可包括至少一種傳感器750,比如光傳感器、運動傳感器以及其它傳感器。具體地,光傳感器可包括環(huán)境光傳感器及接近傳感器,其中,環(huán)境光傳感器可根據(jù)環(huán)境光線的明暗來調節(jié)顯示面板741的亮度,接近傳感器可在設備700移動到耳邊時,關閉顯示面板741和/或背光。作為運動傳感器的一種,重力加速度傳感器可檢測各個方向上(一般為三軸)加速度的大小,靜止時可檢測出重力的大小及方向,可用于識別手機姿態(tài)的應用(比如橫豎屏切換、相關游戲、磁力計姿態(tài)校準)、振動識別相關功能(比如計步器、敲擊)等;至于設備700還可配置的陀螺儀、氣壓計、濕度計、溫度計、紅外線傳感器等其它傳感器,在此不再贅述。
音頻電路760、揚聲器721,傳聲器722可提供用戶與設備700之間的音頻接口。音頻電路760可將接收到的音頻數(shù)據(jù)轉換后的電信號,傳輸?shù)綋P聲器721,由揚聲器721轉換為聲音信號輸出;另一方面,傳聲器722將收集的聲音信號轉換為電信號,由音頻電路760接收后轉換為音頻數(shù)據(jù),再將音頻數(shù)據(jù)輸出處理器780處理后,經(jīng)RF電路710以發(fā)送給另一設備,或者將音頻數(shù)據(jù)輸出至存儲器720以便進一步處理。音頻電路760還可能包括耳塞插孔,以提供外設耳機與設備700的通信。
WiFi屬于短距離無線傳輸技術,設備700通過WiFi模塊770可以幫助用戶收發(fā)電子郵件、瀏覽網(wǎng)頁和訪問流式媒體等,它為用戶提供了無線的寬帶互聯(lián)網(wǎng)訪問。雖然圖7示出了WiFi模塊770,但是可以理解的是,其并不屬于設備700的必須構成,完全可以根據(jù)需要在不改變發(fā)明的本質的范圍內而省略。
處理器780是設備700的控制中心,利用各種接口和線路連接整個設備的各個部分,通過運行或執(zhí)行存儲在存儲器720內的軟件程序和/或模塊,以及調用存儲在存儲器720內的數(shù)據(jù),執(zhí)行設備700的各種功能和處理數(shù)據(jù),從而對設備進行整體監(jiān)控。可選地,處理器780可包括一個或多個處理核心;可選地,處理器780可集成應用處理器和調制解調處理器,其中,應用處理器主要處理操作系統(tǒng)、用戶界面和應用程序等,調制解調處理器主要處理無線通信??梢岳斫獾氖?,上述調制解調處理器也可以不集成到處理器780中。
設備700還包括給各個部件供電的電源790(比如電池),優(yōu)選的,電源可以通過電源管理系統(tǒng)與處理器780邏輯相連,從而通過電源管理系統(tǒng)實現(xiàn)管理充電、放電、以及功耗管理等功能。電源790還可以包括一個或一個以上的直流或交流電源、再充電系統(tǒng)、電源故障檢測電路、電源轉換器或者逆變器、電源狀態(tài)指示器等任意組件。
盡管未示出,設備700還可以包括攝像頭、藍牙模塊等,在此不再贅述。
設備700還包括有存儲器,以及一個或者一個以上的程序,其中一個或者一個以上程序存儲于存儲器中,且經(jīng)配置以由一個或者一個以上處理器執(zhí)行,使得裝置700能夠執(zhí)行上述由終端執(zhí)行的韓文音譯方法。
請參考圖8,其示出了本發(fā)明一個實施例提供的服務器的結構框架圖。具體來講:所述服務器800包括中央處理單元(CPU)801、包括隨機存取存儲器(RAM)802和只讀存儲器(ROM)803的系統(tǒng)存儲器804,以及連接系統(tǒng)存儲器804和中央處理單元801的系統(tǒng)總線805。所述服務器800還包括幫助計算機內的各個器件之間傳輸信息的基本輸入/輸出系統(tǒng)(I/O系統(tǒng))806,和用于存儲操作系統(tǒng)813、應用程序814和其他程序模塊815的大容量存儲設備807。
所述基本輸入/輸出系統(tǒng)806包括有用于顯示信息的顯示器808和用于用戶輸入信息的諸如鼠標、鍵盤之類的輸入設備809。其中所述顯示器808和輸入設備809都通過連接到系統(tǒng)總線805的輸入輸出控制器810連接到中央處理單元801。所述基本輸入/輸出系統(tǒng)806還可以包括輸入輸出控制器810以用于接收和處理來自鍵盤、鼠標、或電子觸控筆等多個其他設備的輸入。類似地,輸入輸出控制器810還提供輸出到顯示屏、打印機或其他類型的輸出設備。
所述大容量存儲設備807通過連接到系統(tǒng)總線805的大容量存儲控制器(未示出)連接到中央處理單元801。所述大容量存儲設備807及其相關聯(lián)的計算機可讀介質為服務器800提供非易失性存儲。也就是說,所述大容量存儲設備807可以包括諸如硬盤或者CD-ROI驅動器之類的計算機可讀介質(未示出)。
不失一般性,所述計算機可讀介質可以包括計算機存儲介質和通信介質。計算機存儲介質包括以用于存儲諸如計算機可讀指令、數(shù)據(jù)結構、程序模塊或其他數(shù)據(jù)等信息的任何方法或技術實現(xiàn)的易失性和非易失性、可移動和不可移動介質。計算機存儲介質包括RAM、ROM、EPROM、EEPROM、閃存或其他固態(tài)存儲其技術,CD-ROM、DVD或其他光學存儲、磁帶盒、磁帶、磁盤存儲或其他磁性存儲設備。當然,本領域技術人員可知所述計算機存儲介質不局限于上述幾種。上述的系統(tǒng)存儲器804和大容量存儲設備807可以統(tǒng)稱為存儲器。
根據(jù)本發(fā)明的各種實施例,所述服務器800還可以通過諸如因特網(wǎng)等網(wǎng)絡連接到網(wǎng)絡上的遠程計算機運行。也即服務器800可以通過連接在所述系統(tǒng)總線805上的網(wǎng)絡接口單元811連接到網(wǎng)絡812,或者說,也可以使用網(wǎng)絡接口單元811來連接到其他類型的網(wǎng)絡或遠程計算機系統(tǒng)(未示出)。
所述存儲器還包括一個或者一個以上的程序,所述一個或者一個以上程序存儲于存儲器中,所述一個或者一個以上程序包含用于進行本發(fā)明實施例提供的韓文音譯方法中由服務器集群所執(zhí)行的步驟。
上述本發(fā)明實施例序號僅僅為了描述,不代表實施例的優(yōu)劣。
本領域普通技術人員可以理解實現(xiàn)上述實施例的全部或部分步驟可以通過硬件來完成,也可以通過程序來指令相關的硬件完成,所述的程序可以存儲于一種計算機可讀存儲介質中,上述提到的存儲介質可以是只讀存儲器,磁盤或光盤等。
以上所述僅為本發(fā)明的較佳實施例,并不用以限制本發(fā)明,凡在本發(fā)明的精神和原則之內,所作的任何修改、等同替換、改進等,均應包含在本發(fā)明的保護范圍之內。