專利名稱:一種語(yǔ)句生成方法及裝置的制作方法
技術(shù)領(lǐng)域:
本申請(qǐng)涉及漢字輸入技術(shù)領(lǐng)域,尤其涉及一種語(yǔ)句生成方法及裝置。
背景技術(shù):
輸入法(Input Method Editor, IME)是利用鍵盤,根據(jù)一定的編碼規(guī)則,實(shí)現(xiàn)漢字輸入的一種方法,而拼音輸入法則是利用鍵盤輸入拼音,從而實(shí)現(xiàn)漢字輸入的方法。在通過拼音輸入法進(jìn)行漢字輸入的過程中,針對(duì)用戶輸入的拼音流,需要將該拼音流進(jìn)行切分,切分為多個(gè)合法的拼音音節(jié)序列,并將切分后的每個(gè)拼音音節(jié)轉(zhuǎn)換為對(duì)應(yīng)的漢字,從而實(shí)現(xiàn)語(yǔ)句的輸出。當(dāng)把用戶輸入的漢字切分為拼音音節(jié)序列時(shí),由于每個(gè)拼音音節(jié)對(duì)應(yīng)的候選詞方案很多,因此根據(jù)用戶輸入的拼音流可能得到很多的語(yǔ)句。在現(xiàn)有技術(shù)中一般采用最大概率法從眾多的語(yǔ)句中選擇一個(gè)輸出,即在多個(gè)候選詞的組合中確定概率最大的一個(gè)組合方法,作為最后的語(yǔ)句輸出結(jié)果。如圖1所示根據(jù)拼音流確定的多個(gè)候選詞組合方案,當(dāng)輸入拼音流 “dongtianhaoleng”并將拼音流切分為多個(gè)拼音音節(jié)序列時(shí),每個(gè)音頻音節(jié)對(duì)應(yīng)不同的候選詞,如圖1所示,對(duì)于拼音音節(jié)“dong”其對(duì)應(yīng)的候選詞包括動(dòng)、懂……東等,對(duì)于拼音音節(jié)“tian”其對(duì)應(yīng)的候選詞包括添、填……天等,對(duì)于拼音音節(jié)“hao”其對(duì)應(yīng)的候選詞包括豪、號(hào)……好等,對(duì)于拼音音節(jié)“l(fā)eng”其對(duì)應(yīng)的候選詞包括棱、楞……冷等,并且對(duì)于兩個(gè)拼音音節(jié)“冬天”其本身也對(duì)應(yīng)很多候選詞例如冬天、洞天……動(dòng)天等。因此在根據(jù)最大概率法確定輸出的語(yǔ)句時(shí),一般選擇概率較大的候選詞組合,如圖1虛線所示即為選擇的概率最大的候選詞組合“冬天好冷”。由于在采用最大概率法進(jìn)行語(yǔ)句輸出時(shí),選擇概率最大的候選詞組合,但是即使每個(gè)候選詞的權(quán)重都很大,多個(gè)權(quán)重很大的候選詞組合成的語(yǔ)句也可能并不是用戶所需的語(yǔ)句,從而導(dǎo)致語(yǔ)句的生成結(jié)果準(zhǔn)確性較低。
發(fā)明內(nèi)容
有鑒于此,本申請(qǐng)實(shí)施例提供一種語(yǔ)句生成方法及裝置,用以解決現(xiàn)有技術(shù)中拼音輸入法生成的語(yǔ)句準(zhǔn)確性低的問題。本申請(qǐng)實(shí)施例提供的一種語(yǔ)句生成方法,包括將用戶輸入的拼音流切分后獲取的拼音音節(jié)序列中的各拼音音節(jié)子序列,與詞典中保存的各詞條的拼音進(jìn)行匹配,將匹配成功的拼音對(duì)應(yīng)的每個(gè)詞條作為該拼音音節(jié)子序列的每個(gè)候選詞;將每個(gè)拼音音節(jié)子序列的每個(gè)候選詞組成對(duì)應(yīng)的語(yǔ)句,針對(duì)每個(gè)語(yǔ)句的每個(gè)候選詞,根據(jù)該候選詞與該候選詞之前的候選詞組成的詞組,及所述詞典中每個(gè)詞組對(duì)應(yīng)的權(quán)重,確定該候選詞對(duì)應(yīng)的分?jǐn)?shù);根據(jù)所述每個(gè)語(yǔ)句中每個(gè)候選詞的分?jǐn)?shù),確定所述每個(gè)語(yǔ)句的總分?jǐn)?shù),并根據(jù)確定的總分?jǐn)?shù),將總分?jǐn)?shù)最大的語(yǔ)句作為生成的語(yǔ)句。本申請(qǐng)實(shí)施例提供的一種語(yǔ)句生成裝置,包括匹配模塊,用于將用戶輸入的拼音流切分后獲取的拼音音節(jié)序列中的各拼音音節(jié)子序列,與詞典中保存的各詞條的拼音進(jìn)行匹配,將匹配成功的拼音對(duì)應(yīng)的每個(gè)詞條作為該拼音音節(jié)子序列的每個(gè)候選詞;分?jǐn)?shù)確定模塊,用于將每個(gè)拼音音節(jié)子序列的每個(gè)候選詞組成對(duì)應(yīng)的語(yǔ)句,針對(duì)每個(gè)語(yǔ)句的每個(gè)候選詞,根據(jù)該候選詞與該候選詞之前的候選詞組成的詞組,及所述詞典中每個(gè)詞組對(duì)應(yīng)的權(quán)重,確定該候選詞對(duì)應(yīng)的分?jǐn)?shù);語(yǔ)句生成模塊,用于根據(jù)所述每個(gè)語(yǔ)句中每個(gè)候選詞的分?jǐn)?shù),確定所述每個(gè)語(yǔ)句的總分?jǐn)?shù),并根據(jù)確定的總分?jǐn)?shù),將總分?jǐn)?shù)最大的語(yǔ)句作為生成的語(yǔ)句。本申請(qǐng)實(shí)施例提供的一種語(yǔ)句生成方法,包括將用戶輸入的拼音流切分后獲取的拼音音節(jié)序列中的各拼音音節(jié)子序列,與詞典中保存的各詞條的拼音進(jìn)行匹配,將匹配成功的拼音對(duì)應(yīng)的每個(gè)詞條作為該拼音音節(jié)子序列的每個(gè)候選詞;將每個(gè)拼音音節(jié)子序列的每個(gè)候選詞組成對(duì)應(yīng)的語(yǔ)句,針對(duì)每個(gè)語(yǔ)句的每個(gè)候選詞,根據(jù)該候選詞與該候選詞之后的候選詞組成的詞組,及所述詞典中每個(gè)詞組對(duì)應(yīng)的權(quán)重,確定該候選詞對(duì)應(yīng)的分?jǐn)?shù);根據(jù)所述每個(gè)語(yǔ)句中每個(gè)候選詞的分?jǐn)?shù),確定所述每個(gè)語(yǔ)句的總分?jǐn)?shù),并根據(jù)確定的總分?jǐn)?shù),將總分?jǐn)?shù)最大的語(yǔ)句作為生成的語(yǔ)句。本申請(qǐng)實(shí)施例提供的一種語(yǔ)句生成裝置,包括匹配模塊,用于將用戶輸入的拼音流切分后獲取的拼音音節(jié)序列中的各拼音音節(jié)子序列,與詞典中保存的各詞條的拼音進(jìn)行匹配,將匹配成功的拼音對(duì)應(yīng)的每個(gè)詞條作為該拼音音節(jié)子序列的每個(gè)候選詞;分?jǐn)?shù)確定模塊,用于將每個(gè)拼音音節(jié)子序列的每個(gè)候選詞組成對(duì)應(yīng)的語(yǔ)句,針對(duì)每個(gè)語(yǔ)句的每個(gè)候選詞,根據(jù)該候選詞與該候選詞之后的候選詞組成的詞組,及所述詞典中每個(gè)詞組對(duì)應(yīng)的權(quán)重,確定該候選詞對(duì)應(yīng)的分?jǐn)?shù);語(yǔ)句生成模塊,用于根據(jù)所述每個(gè)語(yǔ)句中每個(gè)候選詞的分?jǐn)?shù),確定所述每個(gè)語(yǔ)句的總分?jǐn)?shù),并根據(jù)確定的總分?jǐn)?shù),將總分?jǐn)?shù)最大的語(yǔ)句作為生成的語(yǔ)句。本申請(qǐng)實(shí)施例提供了一種語(yǔ)句生成方法及裝置,該方法包括將拼音流切分后的拼音音節(jié)序列中的各拼音音節(jié)子序列,與詞典中保存的各詞條的拼音進(jìn)行匹配,將匹配成功的拼音對(duì)應(yīng)的每個(gè)詞條作為該拼音音節(jié)子序列的每個(gè)候選詞,將每個(gè)候選詞組成對(duì)應(yīng)的語(yǔ)句,針對(duì)每個(gè)語(yǔ)句的每個(gè)候選詞與該候選詞之前或之后的候選詞組成的詞組,及詞典中每個(gè)詞組對(duì)應(yīng)的權(quán)重,確定該候選詞對(duì)應(yīng)的分?jǐn)?shù),根據(jù)所述每個(gè)語(yǔ)句中每個(gè)候選詞的分?jǐn)?shù), 確定所述每個(gè)語(yǔ)句的總分?jǐn)?shù),并根據(jù)確定的總分?jǐn)?shù),將總分?jǐn)?shù)最大的語(yǔ)句作為生成的語(yǔ)句。 由于只有經(jīng)常出現(xiàn)的詞組對(duì)應(yīng)的權(quán)重才會(huì)比較高,即經(jīng)常出現(xiàn)的詞組一定是用戶經(jīng)常使用,或滿足語(yǔ)言規(guī)則的詞組,因此采用該方法可以使生成的語(yǔ)句更加的準(zhǔn)確。
圖1為現(xiàn)有技術(shù)中根據(jù)拼音流確定的多個(gè)候選詞組合方案;
圖2為本申請(qǐng)實(shí)施例提供的語(yǔ)句生成的過程;圖3為本申請(qǐng)實(shí)施例提供的語(yǔ)句生成的詳細(xì)過程;圖4為本申請(qǐng)實(shí)施例提供的語(yǔ)句生成的另一詳細(xì)過程;圖5為本申請(qǐng)實(shí)施例提供的語(yǔ)句生成的裝置結(jié)構(gòu)示意圖;圖6為本申請(qǐng)實(shí)施例提供的另一語(yǔ)句生成的裝置結(jié)構(gòu)示意圖。
具體實(shí)施例方式本申請(qǐng)實(shí)施例為了有效的提高語(yǔ)句輸出的準(zhǔn)確性,提供了一種語(yǔ)句生成的方法, 在該方法中充分考慮了構(gòu)成語(yǔ)句的每?jī)蓚€(gè)候選詞組成的詞組出現(xiàn)的權(quán)重,確定相應(yīng)的分?jǐn)?shù),并進(jìn)而確定語(yǔ)句的總分?jǐn)?shù),根據(jù)確定的語(yǔ)句的總分?jǐn)?shù),選擇總分?jǐn)?shù)最大的語(yǔ)句作為生成的語(yǔ)句輸出。因?yàn)橹挥薪?jīng)常出現(xiàn)的詞組對(duì)應(yīng)的權(quán)重才會(huì)比較高,即經(jīng)常出現(xiàn)的詞組一定是用戶經(jīng)常使用,或滿足語(yǔ)言規(guī)則的詞組,因此采用該方法可以使生成的語(yǔ)句更加的準(zhǔn)確。本申請(qǐng)實(shí)施例中的語(yǔ)句生成方法可以適用于生成一個(gè)完整的句子,也可以適用于生成一個(gè)完整句子的組成部分,且該語(yǔ)句可以是長(zhǎng)句也可以是短句,本申請(qǐng)對(duì)此并不做限定。下面結(jié)合說明書附圖,對(duì)本申請(qǐng)實(shí)施例進(jìn)行詳細(xì)說明。圖2為本申請(qǐng)實(shí)施例提供的語(yǔ)句生成的過程,該過程包括以下步驟S201 對(duì)用戶輸入的拼音流進(jìn)行切分,切分為包括至少兩個(gè)拼音音節(jié)子序列的拼音音節(jié)序列,其中每個(gè)拼音子序列中包括至少一個(gè)拼音音節(jié)。對(duì)用戶輸入的拼音流進(jìn)行切分,將其切分為合法的拼音音節(jié)序列,其中在該切分后獲得的合法的拼音音節(jié)序列中包括至少兩個(gè)拼音音節(jié)子序列。S202:將拼音音節(jié)序列中的各拼音音節(jié)子序列與數(shù)據(jù)庫(kù)中字典保存的各詞條的拼音進(jìn)行匹配,將匹配成功的拼音對(duì)應(yīng)的每個(gè)詞條作為該拼音音節(jié)子序列的每個(gè)候選詞。在本申請(qǐng)實(shí)施例中為了便于查詢每個(gè)候選詞,在數(shù)據(jù)庫(kù)中保存有一元詞典,該一元詞典中保存有多個(gè)詞條,每個(gè)詞條對(duì)應(yīng)的拼音,以及每個(gè)詞條對(duì)應(yīng)的權(quán)重。S203 將每個(gè)拼音音節(jié)子序列對(duì)應(yīng)的每個(gè)候選詞組成對(duì)應(yīng)的語(yǔ)句。根據(jù)拼音音節(jié)序列中每個(gè)拼音音節(jié)子序列對(duì)應(yīng)的每個(gè)候選詞,組成對(duì)應(yīng)的每個(gè)語(yǔ)句,在本申請(qǐng)實(shí)施例中由于每個(gè)拼音音節(jié)子序列對(duì)應(yīng)多個(gè)候選詞,因此也會(huì)組成多個(gè)語(yǔ)句。例如拼音音節(jié)序列中包括拼音音節(jié)子序列L2J,其中拼音音節(jié)子序列!對(duì)應(yīng)的候選詞分別為A,拼音音節(jié)子序列2對(duì)應(yīng)的候選詞為D、E,拼音音節(jié)子序列3對(duì)應(yīng)的候選詞為F、G,則該拼音音節(jié)序列123組成的對(duì)應(yīng)語(yǔ)句包括ADF,ADG, AEF, AEG0S204:針對(duì)每個(gè)語(yǔ)句的每個(gè)候選詞,根據(jù)該候選詞與該候選詞之前的候選詞組成的詞組,及數(shù)據(jù)庫(kù)保存的詞典中每個(gè)詞組對(duì)應(yīng)的權(quán)重,確定該候選詞對(duì)應(yīng)的分?jǐn)?shù)。在本申請(qǐng)實(shí)施例中為了充分考慮不同詞條之間的共同出現(xiàn)的關(guān)系,在數(shù)據(jù)庫(kù)中保存了二元詞典,在二元詞典中保存有多個(gè)詞組,并且保存有每個(gè)詞組對(duì)應(yīng)的權(quán)重,其中每個(gè)詞組包括兩個(gè)詞條。同時(shí)由于每個(gè)語(yǔ)句由對(duì)應(yīng)的候選詞構(gòu)成,針對(duì)每個(gè)語(yǔ)句中的每個(gè)候選詞,由于每個(gè)候選詞對(duì)應(yīng)的分?jǐn)?shù)的確定過程相同,因此針對(duì)語(yǔ)句中的每個(gè)候選詞,在確定該候選詞的分?jǐn)?shù)時(shí),根據(jù)該候選詞與該候選詞之前的候選詞組成的詞組,確定該候選詞的對(duì)應(yīng)的分?jǐn)?shù)。S205:根據(jù)所述每個(gè)語(yǔ)句中每個(gè)候選詞的分?jǐn)?shù),確定所述每個(gè)語(yǔ)句的總分?jǐn)?shù),并根據(jù)確定的總分?jǐn)?shù),將總分?jǐn)?shù)最大的語(yǔ)句作為生成的語(yǔ)句。由于在本申請(qǐng)實(shí)施例中考慮了詞組出現(xiàn)的權(quán)重,在確定分?jǐn)?shù)時(shí),根據(jù)每個(gè)詞組出現(xiàn)的權(quán)重,以及設(shè)置的權(quán)重系數(shù),確定每個(gè)候選詞的分?jǐn)?shù)。本申請(qǐng)實(shí)施例的詞典中包括一元詞典和二元詞典,其中一元詞典中保存有多個(gè)詞條,每個(gè)詞條對(duì)應(yīng)的拼音,并且保存有每個(gè)詞條對(duì)應(yīng)的權(quán)重,表1為本申請(qǐng)實(shí)施例中一元詞典的存儲(chǔ)結(jié)構(gòu)示意。
權(quán)利要求
1.一種語(yǔ)句生成方法,其特征在于,包括將用戶輸入的拼音流切分后獲取的拼音音節(jié)序列中的各拼音音節(jié)子序列,與詞典中保存的各詞條的拼音進(jìn)行匹配,將匹配成功的拼音對(duì)應(yīng)的每個(gè)詞條作為該拼音音節(jié)子序列的每個(gè)候選詞;將每個(gè)拼音音節(jié)子序列的每個(gè)候選詞組成對(duì)應(yīng)的語(yǔ)句,針對(duì)每個(gè)語(yǔ)句的每個(gè)候選詞, 根據(jù)該候選詞與該候選詞之前的候選詞組成的詞組,及所述詞典中每個(gè)詞組對(duì)應(yīng)的權(quán)重, 確定該候選詞對(duì)應(yīng)的分?jǐn)?shù);根據(jù)所述每個(gè)語(yǔ)句中每個(gè)候選詞的分?jǐn)?shù),確定所述每個(gè)語(yǔ)句的總分?jǐn)?shù),并根據(jù)確定的總分?jǐn)?shù),將總分?jǐn)?shù)最大的語(yǔ)句作為生成的語(yǔ)句。
2.如權(quán)利要求1所述的方法,其特征在于,所述詞典包括一元詞典和二元詞典,其中所述一元詞典中保存多個(gè)詞條,每個(gè)詞條對(duì)應(yīng)的拼音,以及每個(gè)詞條對(duì)應(yīng)的權(quán)重,所述二元詞典中保存詞組,以及每個(gè)詞組的權(quán)重。
3.如權(quán)利要求2所述的方法,其特征在于,確定該候選詞對(duì)應(yīng)的分?jǐn)?shù)包括判斷所述候選詞是否為所述語(yǔ)句的第一個(gè)候選詞;當(dāng)所述候選詞為第一個(gè)候選詞時(shí),在一元詞典中查找與所述候選詞匹配的詞條對(duì)應(yīng)的權(quán)重,根據(jù)所述權(quán)重及保存的第二權(quán)重系數(shù),確定所述候選詞對(duì)應(yīng)的分?jǐn)?shù);否則,判斷所述候選詞與所述候選詞之前的候選詞組成的詞組是否在二元詞典中存在,當(dāng)判斷存在時(shí),根據(jù)二元詞典中與所述詞組匹配的詞組對(duì)應(yīng)的權(quán)重,及保存的第一權(quán)重系數(shù)確定所述候選詞對(duì)應(yīng)的分?jǐn)?shù),當(dāng)判斷不存在時(shí),在一元詞典中查找與所述候選詞匹配的詞條對(duì)應(yīng)的權(quán)重,根據(jù)所述權(quán)重及保存的第二權(quán)重系數(shù),確定所述候選詞對(duì)應(yīng)的分?jǐn)?shù)。
4.如權(quán)利要求3所述的方法,其特征在于,確定每個(gè)語(yǔ)句的總分?jǐn)?shù)之前所述方法進(jìn)一步包括根據(jù)每個(gè)語(yǔ)句中已確定分?jǐn)?shù)的候選詞,及該已確定分?jǐn)?shù)的候選詞對(duì)應(yīng)的分?jǐn)?shù),確定每個(gè)語(yǔ)句的子分?jǐn)?shù);根據(jù)所述每個(gè)語(yǔ)句的子分?jǐn)?shù),按照子分?jǐn)?shù)由大到小的順序選擇設(shè)定數(shù)量的語(yǔ)句作為準(zhǔn)備確定總分?jǐn)?shù)的語(yǔ)句。
5.如權(quán)利要求1所述的方法,其特征在于,確定所述每個(gè)語(yǔ)句的總分?jǐn)?shù)包括根據(jù)所述每個(gè)語(yǔ)句中每個(gè)候選詞的分?jǐn)?shù),將所述每個(gè)候選詞的分?jǐn)?shù)進(jìn)行乘積或累加運(yùn)算,將每個(gè)候選詞的分?jǐn)?shù)進(jìn)行乘積或累加運(yùn)算得到的分?jǐn)?shù),作為該語(yǔ)句的總分?jǐn)?shù)。
6.一種語(yǔ)句生成裝置,其特征在于,包括匹配模塊,用于將用戶輸入的拼音流切分后獲取的拼音音節(jié)序列中的各拼音音節(jié)子序列,與詞典中保存的各詞條的拼音進(jìn)行匹配,將匹配成功的拼音對(duì)應(yīng)的每個(gè)詞條作為該拼音音節(jié)子序列的每個(gè)候選詞;分?jǐn)?shù)確定模塊,用于將每個(gè)拼音音節(jié)子序列的每個(gè)候選詞組成對(duì)應(yīng)的語(yǔ)句,針對(duì)每個(gè)語(yǔ)句的每個(gè)候選詞,根據(jù)該候選詞與該候選詞之前的候選詞組成的詞組,及所述詞典中每個(gè)詞組對(duì)應(yīng)的權(quán)重,確定該候選詞對(duì)應(yīng)的分?jǐn)?shù);語(yǔ)句生成模塊,用于根據(jù)所述每個(gè)語(yǔ)句中每個(gè)候選詞的分?jǐn)?shù),確定所述每個(gè)語(yǔ)句的總分?jǐn)?shù),并根據(jù)確定的總分?jǐn)?shù),將總分?jǐn)?shù)最大的語(yǔ)句作為生成的語(yǔ)句。
7.如權(quán)利要求6所述的裝置,其特征在于,所述裝置還包括存儲(chǔ)模塊,用于保存一元詞典及二元詞典,其中所述一元詞典中保存詞條,每個(gè)詞條對(duì)應(yīng)的拼音,以及每個(gè)詞條對(duì)應(yīng)的權(quán)重,所述二元詞典中保存詞組,以及每個(gè)詞組的權(quán)重。
8.如權(quán)利要求7所述的裝置,其特征在于,所述分?jǐn)?shù)確定模塊包括判斷單元,用于判斷所述候選詞是否為所述語(yǔ)句的第一個(gè)候選詞;第一分?jǐn)?shù)確定單元,用于確定所述候選詞為所述語(yǔ)句的第一個(gè)候選詞時(shí),在一元詞典中查找與所述候選詞匹配的詞條對(duì)應(yīng)的權(quán)重,根據(jù)所述權(quán)重及保存的第二權(quán)重系數(shù),確定所述候選詞對(duì)應(yīng)的分?jǐn)?shù);第二分?jǐn)?shù)確定單元,用于確定所述候選詞非所述語(yǔ)句中第一個(gè)候選詞時(shí),判斷所述候選詞與所述候選詞之前的候選詞組成的詞組是否在二元詞典中存在,當(dāng)判斷存在時(shí),根據(jù)二元詞典中與所述詞組匹配的詞組對(duì)應(yīng)的權(quán)重,及保存的第一權(quán)重系數(shù)確定所述候選詞對(duì)應(yīng)的分?jǐn)?shù),當(dāng)判斷不存在時(shí),在一元詞典中查找與所述候選詞匹配的詞條對(duì)應(yīng)的權(quán)重,根據(jù)所述權(quán)重及保存的第二權(quán)重系數(shù),確定所述候選詞對(duì)應(yīng)的分?jǐn)?shù)。
9.如權(quán)利要求6所述的裝置,其特征在于,所述語(yǔ)句生成模塊還用于,根據(jù)每個(gè)語(yǔ)句中已確定分?jǐn)?shù)的候選詞,及該已確定分?jǐn)?shù)的候選詞對(duì)應(yīng)的分?jǐn)?shù),確定每個(gè)語(yǔ)句對(duì)應(yīng)的子分?jǐn)?shù),按照子分?jǐn)?shù)由大到小的順序選擇選擇設(shè)定數(shù)量的語(yǔ)句作為準(zhǔn)備確定總分?jǐn)?shù)的語(yǔ)句。
10.如權(quán)利要求6所述的裝置,其特征在于,所述語(yǔ)句生成模塊在確定每個(gè)語(yǔ)句的總分?jǐn)?shù)時(shí)具體用于,根據(jù)所述每個(gè)語(yǔ)句中每個(gè)候選詞的分?jǐn)?shù),將所述每個(gè)候選詞的分?jǐn)?shù)進(jìn)行乘積或累加運(yùn)算,將每個(gè)候選詞的分?jǐn)?shù)進(jìn)行乘積或累加運(yùn)算得到的分?jǐn)?shù),作為該語(yǔ)句的總分?jǐn)?shù)。
11.一種語(yǔ)句生成方法,其特征在于,所述方法包括將用戶輸入的拼音流切分后獲取的拼音音節(jié)序列中的各拼音音節(jié)子序列,與詞典中保存的各詞條的拼音進(jìn)行匹配,將匹配成功的拼音對(duì)應(yīng)的每個(gè)詞條作為該拼音音節(jié)子序列的每個(gè)候選詞;將每個(gè)拼音音節(jié)子序列的每個(gè)候選詞組成對(duì)應(yīng)的語(yǔ)句,針對(duì)每個(gè)語(yǔ)句的每個(gè)候選詞, 根據(jù)該候選詞與該候選詞之后的候選詞組成的詞組,及所述詞典中每個(gè)詞組對(duì)應(yīng)的權(quán)重, 確定該候選詞對(duì)應(yīng)的分?jǐn)?shù);根據(jù)所述每個(gè)語(yǔ)句中每個(gè)候選詞的分?jǐn)?shù),確定所述每個(gè)語(yǔ)句的總分?jǐn)?shù),并根據(jù)確定的總分?jǐn)?shù),將總分?jǐn)?shù)最大的語(yǔ)句作為生成的語(yǔ)句。
12.如權(quán)利要求11所述的方法,其特征在于,確定該候選詞對(duì)應(yīng)的分?jǐn)?shù)包括判斷所述候選詞是否為所述語(yǔ)句的最后一個(gè)候選詞;當(dāng)所述候選詞為最后一個(gè)候選詞時(shí),在所述詞典的一元詞典中查找與所述候選詞匹配的詞條對(duì)應(yīng)的權(quán)重,根據(jù)所述權(quán)重及保存的第二權(quán)重系數(shù),確定所述候選詞對(duì)應(yīng)的分?jǐn)?shù);否則,判斷所述候選詞與所述候選詞之后的候選詞組成的詞組是否在所述詞典的二元詞典中存在,當(dāng)判斷存在時(shí),根據(jù)二元詞典中與所述詞組匹配的詞組對(duì)應(yīng)的權(quán)重,及保存的第一權(quán)重系數(shù)確定所述候選詞對(duì)應(yīng)的分?jǐn)?shù),當(dāng)判斷不存在時(shí),在一元詞典中查找與所述候選詞匹配的詞條對(duì)應(yīng)的權(quán)重,根據(jù)所述權(quán)重及保存的第二權(quán)重系數(shù),確定所述候選詞對(duì)應(yīng)的分?jǐn)?shù)。
13.一種語(yǔ)句生成裝置,其特征在于,所述裝置包括匹配模塊,用于將用戶輸入的拼音流切分后獲取的拼音音節(jié)序列中的各拼音音節(jié)子序列,與詞典中保存的各詞條的拼音進(jìn)行匹配,將匹配成功的拼音對(duì)應(yīng)的每個(gè)詞條作為該拼音音節(jié)子序列的每個(gè)候選詞;分?jǐn)?shù)確定模塊,用于將每個(gè)拼音音節(jié)子序列的每個(gè)候選詞組成對(duì)應(yīng)的語(yǔ)句,針對(duì)每個(gè)語(yǔ)句的每個(gè)候選詞,根據(jù)該候選詞與該候選詞之后的候選詞組成的詞組,及所述詞典中每個(gè)詞組對(duì)應(yīng)的權(quán)重,確定該候選詞對(duì)應(yīng)的分?jǐn)?shù);語(yǔ)句生成模塊,用于根據(jù)所述每個(gè)語(yǔ)句中每個(gè)候選詞的分?jǐn)?shù),確定所述每個(gè)語(yǔ)句的總分?jǐn)?shù),并根據(jù)確定的總分?jǐn)?shù),將總分?jǐn)?shù)最大的語(yǔ)句作為生成的語(yǔ)句。
14.如權(quán)利要求13所述的裝置,其特征在于,所述分?jǐn)?shù)確定模塊包括 判斷單元,用于判斷所述候選詞是否為所述語(yǔ)句的最后一個(gè)候選詞; 第一分?jǐn)?shù)確定單元,用于確定所述候選詞為最后一個(gè)候選詞時(shí),在所述詞典的一元詞典中查找與所述候選詞匹配的詞條對(duì)應(yīng)的權(quán)重,根據(jù)所述權(quán)重及保存的第二權(quán)重系數(shù),確定所述候選詞對(duì)應(yīng)的分?jǐn)?shù);第二分?jǐn)?shù)確定單元,用于確定所述候選詞非最后一個(gè)候選詞時(shí),判斷所述候選詞與所述候選詞之后的候選詞組成的詞組是否在所述詞典的二元詞典中存在,當(dāng)判斷存在時(shí),根據(jù)二元詞典中與所述詞組匹配的詞組對(duì)應(yīng)的權(quán)重,及保存的第一權(quán)重系數(shù)確定所述候選詞對(duì)應(yīng)的分?jǐn)?shù),當(dāng)判斷不存在時(shí),在一元詞典中查找與所述候選詞匹配的詞條對(duì)應(yīng)的權(quán)重,根據(jù)所述權(quán)重及保存的第二權(quán)重系數(shù),確定所述候選詞對(duì)應(yīng)的分?jǐn)?shù)。
全文摘要
本申請(qǐng)公開了一種語(yǔ)句生成方法及裝置,用以解決現(xiàn)有技術(shù)中拼音輸入法生成的語(yǔ)句準(zhǔn)確性低的問題。該方法將拼音流切分后的拼音音節(jié)序列中的各拼音音節(jié)子序列,與詞典中保存的各詞條的拼音進(jìn)行匹配,確定該拼音音節(jié)子序列的每個(gè)候選詞,將每個(gè)候選詞組成對(duì)應(yīng)的語(yǔ)句,針對(duì)每個(gè)語(yǔ)句的候選詞與該候選詞之前或之后的候選詞組成的詞組,及詞典中每個(gè)詞組對(duì)應(yīng)的權(quán)重,確定該候選詞對(duì)應(yīng)的分?jǐn)?shù),根據(jù)所述每個(gè)語(yǔ)句中每個(gè)候選詞的分?jǐn)?shù),確定每個(gè)語(yǔ)句的總分?jǐn)?shù),將總分?jǐn)?shù)最大的語(yǔ)句作為生成的語(yǔ)句。由于只有經(jīng)常出現(xiàn)的詞組對(duì)應(yīng)的權(quán)重才會(huì)比較高,即經(jīng)常出現(xiàn)的詞組一定是用戶經(jīng)常使用,或滿足語(yǔ)言規(guī)則的詞組,因此采用該方法可以使生成的語(yǔ)句更加的準(zhǔn)確。
文檔編號(hào)G06F3/023GK102193639SQ20101012004
公開日2011年9月21日 申請(qǐng)日期2010年3月4日 優(yōu)先權(quán)日2010年3月4日
發(fā)明者侯磊, 秦吉?jiǎng)? 薛永剛, 陳培軍 申請(qǐng)人:阿里巴巴集團(tuán)控股有限公司