本公開涉及計(jì)算機(jī)輸入法領(lǐng)域,特別是涉及一種輸入法詞庫生成方法、文本輸入方法、相關(guān)裝置及介質(zhì)。
背景技術(shù):
1、目前的輸入法一般采用通用詞庫。在生成通用詞庫時(shí),將輸入法所有對(duì)象的輸入詞進(jìn)行詞頻統(tǒng)計(jì),統(tǒng)計(jì)每個(gè)輸入詞被輸入法所有對(duì)象輸入的次數(shù),將輸入次數(shù)達(dá)到前若干名的輸入詞選出,作為通用詞庫。在對(duì)象利用輸入法輸入時(shí),根據(jù)對(duì)象輸入的編碼串(拼音等),在通用詞庫中檢索,顯示在通用詞庫中檢索到的編碼串所對(duì)應(yīng)的目標(biāo)文本,供對(duì)象選擇。
2、當(dāng)今社會(huì)發(fā)展迅速,對(duì)象往往有不同的文本輸入訴求。當(dāng)對(duì)象輸入的詞在全域上出現(xiàn)頻率較低,但卻是某一領(lǐng)域或范圍中的對(duì)象經(jīng)常使用的詞時(shí),可能在通用詞庫難以找到該詞。在這種情況下,對(duì)象就需要在輸入法界面進(jìn)行逐個(gè)字的查找及組合,導(dǎo)致輸入效率較低。
技術(shù)實(shí)現(xiàn)思路
1、本公開實(shí)施例提供了一種輸入法詞庫生成方法、文本輸入方法、相關(guān)裝置及介質(zhì),它能提高輸入法的文本輸入效率。
2、根據(jù)本公開的一方面,提供了一種輸入法詞庫生成方法,包括:
3、獲取目標(biāo)群組的對(duì)象特征基準(zhǔn);
4、獲取使用所述輸入法的對(duì)象集中每個(gè)對(duì)象的對(duì)象特征;
5、在所述對(duì)象集中,獲取所述對(duì)象特征與所述對(duì)象特征基準(zhǔn)匹配的對(duì)象,以組成所述目標(biāo)群組;
6、基于所述目標(biāo)群組中各個(gè)所述對(duì)象的詞輸入歷史記錄,生成所述目標(biāo)群組的群組詞庫,用于所述輸入法。
7、根據(jù)本公開的一方面,提供了一種文本輸入方法,包括:
8、在輸入法界面中,接收目標(biāo)對(duì)象輸入的對(duì)應(yīng)于目標(biāo)文本的第一編碼串,所述輸入法具有通用詞庫;
9、顯示與所述第一編碼串匹配的群組詞庫控件,其中,所述群組詞庫控件對(duì)應(yīng)于目標(biāo)對(duì)象所屬的所述目標(biāo)群組;
10、響應(yīng)于對(duì)所述群組詞庫控件的觸發(fā),獲取群組詞庫,以便根據(jù)所述通用詞庫和所述群組詞庫將所述目標(biāo)對(duì)象輸入的第二編碼串轉(zhuǎn)換成所述目標(biāo)文本;其中,所述群組詞庫由本公開其一方面所述的輸入法詞庫生成方法生成;
11、顯示所述目標(biāo)文本。
12、根據(jù)本公開的一方面,提供了一種輸入法詞庫生成裝置,包括:
13、第一獲取單元,用于獲取目標(biāo)群組的對(duì)象特征基準(zhǔn);
14、第二獲取單元,用于獲取使用所述輸入法的對(duì)象集中每個(gè)對(duì)象的對(duì)象特征;
15、第三獲取單元,用于在所述對(duì)象集中,獲取所述對(duì)象特征與所述對(duì)象特征基準(zhǔn)匹配的對(duì)象,以組成所述目標(biāo)群組;
16、第一生成單元,用于基于所述目標(biāo)群組中各個(gè)所述對(duì)象的詞輸入歷史記錄,生成所述目標(biāo)群組的群組詞庫,用于所述輸入法。
17、根據(jù)本公開的一方面,提供了一種文本輸入裝置,包括:
18、第一接收單元,用于在輸入法界面中,接收目標(biāo)對(duì)象輸入的對(duì)應(yīng)于目標(biāo)文本的第一編碼串,所述輸入法具有通用詞庫;
19、第一顯示單元,用于顯示與所述第一編碼串匹配的群組詞庫控件,其中,所述群組詞庫控件對(duì)應(yīng)于目標(biāo)對(duì)象所屬的所述目標(biāo)群組;
20、第四獲取單元,用于響應(yīng)于對(duì)所述群組詞庫控件的觸發(fā),獲取群組詞庫,以便根據(jù)所述通用詞庫和所述群組詞庫將所述目標(biāo)對(duì)象輸入的第二編碼串轉(zhuǎn)換成所述目標(biāo)文本;其中,所述群組詞庫由本公開其一方面所述的輸入法詞庫生成方法生成;
21、第二顯示單元,用于顯示所述目標(biāo)文本。
22、可選的,所述對(duì)象特征基準(zhǔn)包括對(duì)象終端應(yīng)用基準(zhǔn)、種子詞基準(zhǔn)和定位信息基準(zhǔn);所述對(duì)象特征包括所述對(duì)象的對(duì)象終端所安裝的應(yīng)用、所述對(duì)象的詞輸入歷史記錄、所述對(duì)象的定位信息;
23、所述第三獲取單元具體用于:
24、針對(duì)所述對(duì)象集中的所述對(duì)象,確定所述對(duì)象的對(duì)象終端所安裝的應(yīng)用符合所述對(duì)象終端應(yīng)用基準(zhǔn);
25、確定所述對(duì)象的詞輸入歷史記錄符合所述種子詞基準(zhǔn);
26、確定所述對(duì)象的定位信息與所述定位信息基準(zhǔn)匹配;
27、將所述對(duì)象加入所述目標(biāo)群組。
28、可選的,所述種子詞基準(zhǔn)包括種子詞、和與所述種子詞對(duì)應(yīng)的第一區(qū)分度分?jǐn)?shù);
29、所述第三獲取單元具體用于:
30、設(shè)置計(jì)數(shù)器,所述計(jì)數(shù)器初始化為0;
31、遍歷所述對(duì)象的詞輸入歷史記錄,如果一項(xiàng)所述詞輸入歷史記錄對(duì)應(yīng)于一個(gè)所述種子詞,將所述種子詞對(duì)應(yīng)的所述第一區(qū)分度分?jǐn)?shù)累加到所述計(jì)數(shù)器;
32、當(dāng)遍歷完所述對(duì)象的詞輸入歷史記錄后,基于所述計(jì)數(shù)器的值,確定所述對(duì)象的詞輸入歷史記錄符合所述種子詞基準(zhǔn)。
33、可選的,所述第一獲取單元具體用于獲取所述種子詞,所述種子詞通過以下過程獲取:
34、獲取第一種子群組和第二種子群組,所述第一種子群組包含事先確定的屬于所述目標(biāo)群組的多個(gè)第一對(duì)象,所述第二種子群組包含事先確定的不屬于所述目標(biāo)群組的多個(gè)第二對(duì)象;
35、獲取第一語料集,所述第一語料集包含多個(gè)所述第一對(duì)象的第一樣本語料;
36、獲取第二語料集,所述第二語料集包含多個(gè)所述第二對(duì)象的第二樣本語料;
37、將所述第一語料集中的每個(gè)第一樣本語料分詞,得到候選詞;
38、針對(duì)每個(gè)所述候選詞,確定所述候選詞在所述第一語料集中出現(xiàn)的第一次數(shù)、和所述候選詞在所述第二語料集中出現(xiàn)的第二次數(shù);
39、基于所述第一次數(shù)和所述第二次數(shù),從所述候選詞中確定所述種子詞。
40、可選的,所述第一獲取單元具體用于獲取所述第一區(qū)分度分?jǐn)?shù),所述第一區(qū)分度分?jǐn)?shù)通過以下過程獲取:
41、獲取第三語料集,所述第三語料集包含第一數(shù)目個(gè)第三對(duì)象的樣本語料;
42、獲取所述種子詞在所述第三語料集中出現(xiàn)的第三次數(shù);
43、獲取第二數(shù)目,其中,在所述第三語料集中,所述第二數(shù)目個(gè)對(duì)象的樣本語料包含所述種子詞,所述第二數(shù)目不大于所述第一數(shù)目;
44、基于所述第三次數(shù)和所述第二數(shù)目,確定所述第一區(qū)分度分?jǐn)?shù)。
45、可選的,所述第一獲取單元具體用于:
46、獲取第一常數(shù);
47、基于所述第三次數(shù)的對(duì)數(shù)、所述第一常數(shù)、以及所述第二數(shù)目的對(duì)數(shù),確定所述第一區(qū)分度分?jǐn)?shù)。
48、可選的,所述對(duì)象特征基準(zhǔn)包括對(duì)象終端應(yīng)用基準(zhǔn)、種子詞基準(zhǔn)和定位信息基準(zhǔn);所述對(duì)象特征包括所述對(duì)象的對(duì)象終端所安裝的應(yīng)用、所述對(duì)象的詞輸入歷史記錄、所述對(duì)象的定位信息;
49、所述第三獲取單元具體用于:
50、針對(duì)所述對(duì)象集中的所述對(duì)象,確定與所述對(duì)象的對(duì)象終端所安裝的應(yīng)用與所述對(duì)象終端應(yīng)用基準(zhǔn)的第一匹配度;
51、確定所述對(duì)象的詞輸入歷史記錄與所述種子詞基準(zhǔn)的第二匹配度;
52、確定所述對(duì)象的定位信息與所述定位信息基準(zhǔn)的第三匹配度;
53、基于所述第一匹配度、所述第二匹配度和所述第三匹配度,確定所述對(duì)象特征與所述對(duì)象特征基準(zhǔn)的匹配度;
54、基于所述匹配度,獲取所述對(duì)象特征與所述對(duì)象特征基準(zhǔn)匹配的對(duì)象。
55、可選的,所述種子詞基準(zhǔn)包括種子詞、和與所述種子詞對(duì)應(yīng)的第一區(qū)分度分?jǐn)?shù);
56、所述第三獲取單元具體用于:
57、設(shè)置計(jì)數(shù)器,所述計(jì)數(shù)器初始化為0;
58、遍歷所述對(duì)象的詞輸入歷史記錄,如果一項(xiàng)所述詞輸入歷史記錄對(duì)應(yīng)于一個(gè)所述種子詞,將所述種子詞對(duì)應(yīng)的所述第一區(qū)分度分?jǐn)?shù)累加到所述計(jì)數(shù)器;
59、當(dāng)遍歷完所述對(duì)象的詞輸入歷史記錄后,基于所述計(jì)數(shù)器的值與第二閾值的比,確定所述第二匹配度。
60、可選的,所述對(duì)象特征基準(zhǔn)包括對(duì)象終端應(yīng)用基準(zhǔn)、種子詞基準(zhǔn)和定位信息基準(zhǔn);
61、所述第三獲取單元具體用于:
62、針對(duì)所述對(duì)象終端應(yīng)用基準(zhǔn)、所述種子詞基準(zhǔn)和所述定位信息基準(zhǔn)中的單個(gè)對(duì)象特征基準(zhǔn),獲取所述對(duì)象特征與所述單個(gè)對(duì)象特征基準(zhǔn)匹配的對(duì)象,以組成與所述單個(gè)對(duì)象特征基準(zhǔn)對(duì)應(yīng)的第一群組;
63、如果一個(gè)所述第一群組的準(zhǔn)確度大于第三閾值,將所述第一群組作為所述目標(biāo)群組;
64、如果各個(gè)所述第一群組的所述準(zhǔn)確度都不大于第三閾值,從所述對(duì)象終端應(yīng)用基準(zhǔn)、所述種子詞基準(zhǔn)和所述定位信息基準(zhǔn)中任選兩個(gè)對(duì)象特征基準(zhǔn),形成對(duì)象特征基準(zhǔn)組合,針對(duì)所述對(duì)象特征基準(zhǔn)組合,獲取所述對(duì)象特征與所述對(duì)象特征基準(zhǔn)組合匹配的對(duì)象,以組成與所述對(duì)象特征基準(zhǔn)組合對(duì)應(yīng)的第二群組;
65、如果一個(gè)所述第二群組的所述準(zhǔn)確度大于所述第三閾值,將所述第二群組作為所述目標(biāo)群組;
66、如果各個(gè)所述第二群組的所述準(zhǔn)確度都不大于所述第三閾值,獲取所述對(duì)象特征與所述對(duì)象終端應(yīng)用基準(zhǔn)、所述種子詞基準(zhǔn)和所述定位信息基準(zhǔn)匹配的對(duì)象,以組成所述目標(biāo)群組。
67、可選的,所述第三獲取單元具體用于:
68、如果多個(gè)所述第一群組的準(zhǔn)確度大于第三閾值,將所述準(zhǔn)確度最大的所述第一群組作為所述目標(biāo)群組;
69、如果多個(gè)所述第二群組的所述準(zhǔn)確度大于所述第三閾值,將所述準(zhǔn)確度最大的所述第二群組作為所述目標(biāo)群組。
70、可選的,所述第三獲取單元具體用于確定所述第一群組或所述第二群組的所述準(zhǔn)確度,所述第一群組或所述第二群組的所述準(zhǔn)確度通過以下方式確定:
71、獲取評(píng)測(cè)對(duì)象集,所述評(píng)測(cè)對(duì)象集具有多個(gè)樣本對(duì)象,每個(gè)所述樣本對(duì)象具有所屬的群組標(biāo)簽;
72、獲取所述第一群組或所述第二群組中的所述對(duì)象中屬于多個(gè)所述樣本對(duì)象的第四對(duì)象;
73、確定所述第四對(duì)象對(duì)應(yīng)的所述群組標(biāo)簽與所述第一群組或所述第二群組相符的第五對(duì)象;
74、將所述第五對(duì)象數(shù)目與所述第四對(duì)象數(shù)目的比,作為所述準(zhǔn)確度。
75、可選的,所述第一生成單元具體用于:
76、針對(duì)所述詞輸入歷史記錄中每個(gè)詞,確定所述詞的第二區(qū)分度分?jǐn)?shù);
77、基于所述第二區(qū)分度分?jǐn)?shù),從所述詞輸入歷史記錄的所述詞中確定目標(biāo)詞,加入所述群組詞庫。
78、可選的,所述第一生成單元具體用于:
79、針對(duì)所述詞輸入歷史記錄中每個(gè)詞,確定所述詞在所述詞輸入歷史記錄中出現(xiàn)的第四次數(shù);
80、獲取第三數(shù)目,其中,在各個(gè)所述對(duì)象的詞輸入歷史記錄中,有所述第三數(shù)目個(gè)對(duì)象的詞輸入歷史記錄包含所述詞;
81、基于所述第四次數(shù)和所述第三數(shù)目,確定所述詞的第二區(qū)分度分?jǐn)?shù)。
82、可選的,所述第一生成單元具體用于:
83、針對(duì)所述詞輸入歷史記錄中每個(gè)詞,進(jìn)行詞清洗;
84、針對(duì)詞清洗后剩余的每個(gè)所述詞,確定所述詞的第二區(qū)分度分?jǐn)?shù)。
85、可選的,所述第一生成單元具體用于:
86、識(shí)別所述詞中的繁體字,并刪除帶有所述繁體字的所述詞;
87、將所述詞與排除詞庫進(jìn)行比對(duì),如果與所述排除詞庫中的一個(gè)排除詞相同,刪除所述詞;
88、將所述詞與標(biāo)準(zhǔn)詞庫進(jìn)行比對(duì),如果所述詞在所述標(biāo)準(zhǔn)詞庫中,保留所述詞。
89、可選的,在基于所述目標(biāo)群組中各個(gè)所述對(duì)象的詞輸入歷史記錄,生成所述目標(biāo)群組的群組詞庫之后,所述輸入法詞庫生成裝置還包括:
90、第五獲取單元,用于獲取所述目標(biāo)群組的群組名;
91、第二生成單元,基于所述群組名,基于預(yù)定規(guī)則,生成所述群組詞庫的群組詞庫名。
92、可選的,所述第四獲取單元具體用于:
93、響應(yīng)于對(duì)所述群組詞庫控件的觸發(fā),顯示所述群組詞庫的詳情展示頁面,所述詳情展示頁面包括下載所述群組詞庫的鏈接;
94、響應(yīng)于對(duì)所述鏈接的觸發(fā),下載所述群組詞庫。
95、可選的,所述第一顯示單元具體用于:
96、從群組詞庫集合中獲取包含編碼與所述第一編碼串相同的詞的篩選后群組詞庫;
97、確定所述目標(biāo)對(duì)象的對(duì)象終端含有第一應(yīng)用,其中,所述第一應(yīng)用符合所述篩選后群組詞庫對(duì)應(yīng)的目標(biāo)群組的對(duì)象終端應(yīng)用基準(zhǔn);
98、確定所述目標(biāo)對(duì)象的定位信息與所述篩選后群組詞庫對(duì)應(yīng)的目標(biāo)群組的定位信息基準(zhǔn)匹配;
99、將所述篩選后群組詞庫作為所述目標(biāo)群組的群組詞庫,并顯示所述群組詞庫的群組詞庫控件。
100、根據(jù)本公開的一方面,提供了一種電子設(shè)備,包括存儲(chǔ)器和處理器,所述存儲(chǔ)器存儲(chǔ)有計(jì)算機(jī)程序,所述處理器執(zhí)行所述計(jì)算機(jī)程序時(shí)實(shí)現(xiàn)如上所述的輸入法詞庫生成方法,或者,如上所述的文本輸入方法。
101、根據(jù)本公開的一方面,提供了一種計(jì)算機(jī)可讀存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)存儲(chǔ)有計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被處理器執(zhí)行時(shí)實(shí)現(xiàn)如上所述的輸入法詞庫生成方法,或者,如上所述的文本輸入方法。
102、根據(jù)本公開的一方面,提供了一種計(jì)算機(jī)程序產(chǎn)品,該計(jì)算機(jī)程序產(chǎn)品包括計(jì)算機(jī)程序,所述計(jì)算機(jī)程序被計(jì)算機(jī)設(shè)備的處理器讀取并執(zhí)行,使得該計(jì)算機(jī)設(shè)備執(zhí)行如上所述的輸入法詞庫生成方法。
103、本公開實(shí)施例中,針對(duì)目標(biāo)群組,獲取該目標(biāo)群組的對(duì)象特征基準(zhǔn)。針對(duì)輸入法對(duì)象集的每個(gè)對(duì)象,將該對(duì)象的對(duì)象特征與目標(biāo)群組的對(duì)象特征基準(zhǔn)比較,確定該對(duì)象的對(duì)象特征是否與目標(biāo)群組的對(duì)象特征基準(zhǔn)匹配,用匹配的對(duì)象組成目標(biāo)群組。然后,再根據(jù)目標(biāo)群組中各個(gè)所述對(duì)象的詞輸入歷史記錄,構(gòu)建目標(biāo)群組的群組詞庫。這樣,就建立了一個(gè)個(gè)特定群組中的對(duì)象經(jīng)常使用的詞的群組詞庫。當(dāng)對(duì)象在輸入法中要輸入的詞在全域上出現(xiàn)頻率較低,但卻是某一領(lǐng)域或范圍中的對(duì)象經(jīng)常使用的詞時(shí),就會(huì)落到某個(gè)群組的群組詞庫中。結(jié)合通用詞庫和群組詞庫,就增大了找到對(duì)象想要輸入的詞的概率,提高了輸入法輸入效率。
104、本公開的其他特征和優(yōu)點(diǎn)將在隨后的說明書中闡述,并且,部分地從說明書中變得顯而易見,或者通過實(shí)施本公開而了解。本公開的目的和其他優(yōu)點(diǎn)可通過在說明書、權(quán)利要求書以及附圖中所特別指出的結(jié)構(gòu)來實(shí)現(xiàn)和獲得。