詞庫(kù)生成方法及其系統(tǒng)、輸入法及輸入系統(tǒng)的制作方法
【專(zhuān)利摘要】本發(fā)明提出了詞庫(kù)生成方法及其系統(tǒng)、輸入法及輸入系統(tǒng)。詞庫(kù)生成方法,包括:a)獲取第一詞匯集,第一詞匯集具有至少一個(gè)常用詞匯;b)獲取第二詞匯集,第二詞匯集具有至少一個(gè)網(wǎng)絡(luò)熱詞;c)將第二詞匯集中的網(wǎng)絡(luò)熱詞與第一詞匯集中的常用詞匯進(jìn)行共現(xiàn)分析;以及d)根據(jù)共現(xiàn)分析結(jié)果將網(wǎng)絡(luò)熱詞歸類(lèi)于相應(yīng)的常用詞匯中以生成第三詞匯集。本發(fā)明所提出的詞庫(kù)生成方法及其系統(tǒng)、輸入法及輸入系統(tǒng),可以提供輸入網(wǎng)絡(luò)熱詞的體驗(yàn),從而增加了個(gè)性化。
【專(zhuān)利說(shuō)明】詞庫(kù)生成方法及其系統(tǒng)、輸入法及輸入系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及文字輸入領(lǐng)域,特別是涉及詞庫(kù)生成方法及其系統(tǒng)、輸入法及輸入系統(tǒng)。
【背景技術(shù)】
[0002]當(dāng)前,為了體現(xiàn)輸入法(如拼音輸入法)的個(gè)性化,某些輸入法中通過(guò)輸入拼音,會(huì)對(duì)應(yīng)顯示相關(guān)的聯(lián)想詞匯或者符號(hào),比如,通過(guò)搜狗拼音輸入法輸入“hehe”,會(huì)出現(xiàn)“呵呵”、“喝喝”、“赫赫”與“O( η _ η )0-”,目前所出現(xiàn)的聯(lián)想詞匯通常是同音的詞匯,如“呵呵”、“喝喝”、“赫赫”,或者符號(hào),如“ο( η _ η )ο~,,。
[0003]熱詞,即熱門(mén)詞匯,一種詞匯現(xiàn)象,反映了一個(gè)國(guó)家、一個(gè)地區(qū)在一個(gè)時(shí)期人們普遍關(guān)注的問(wèn)題和事物,并具有時(shí)代特征,反映一個(gè)時(shí)期的熱點(diǎn)話題及民生問(wèn)題。而網(wǎng)絡(luò)熱詞就是指網(wǎng)絡(luò)上一個(gè)時(shí)期人們普遍關(guān)注的問(wèn)題和事物形成的詞匯,如“給力”、“杯具”、“我爸是李剛”等,伴隨著互聯(lián)網(wǎng)的發(fā)展,網(wǎng)絡(luò)熱詞越來(lái)越流行,尤其受到當(dāng)前的青年一代的喜好。
[0004]但是,目前的輸入法,還未出現(xiàn)輸入網(wǎng)絡(luò)熱詞的相關(guān)體驗(yàn)。
【發(fā)明內(nèi)容】
[0005]鑒于上述,有必要針對(duì)現(xiàn)有的未出現(xiàn)輸入網(wǎng)絡(luò)熱詞的相關(guān)體驗(yàn)的問(wèn)題提出一種詞庫(kù)生成方法及其系統(tǒng)、輸入法及輸入系統(tǒng)。
[0006]本發(fā)明的一方面提出了一種詞庫(kù)生成方法,包括:
a)獲取第一詞匯集,所述第一詞匯集具有至少一個(gè)常用詞匯;
b)獲取第二詞匯集,所述第二詞匯集具有至少一個(gè)網(wǎng)絡(luò)熱詞;
c)將所述第二詞匯集中的網(wǎng)絡(luò)熱詞與所述第一詞匯集中的常用詞匯進(jìn)行共現(xiàn)分析;以
及
d)根據(jù)共現(xiàn)分析結(jié)果將所述網(wǎng)絡(luò)熱詞歸類(lèi)于相應(yīng)的所述常用詞匯中以生成第三詞匯集。
[0007]在其中一個(gè)實(shí)施方式中,步驟a)包括: al)按照第一預(yù)設(shè)周期搜集用戶所使用的詞匯;
a2)利用停用詞表除去停用詞匯以得到所述常用詞匯;以及 a3)對(duì)所述常用詞匯進(jìn)行分類(lèi)以形成所述第一詞匯集。
[0008]在其中一個(gè)實(shí)施方式中,在步驟a2 )后包括:
利用情感詞匯表對(duì)所述常用詞匯進(jìn)行篩選以獲取情感詞匯;
判斷所述情感詞匯使用頻率是否大于第一使用頻率;
當(dāng)所述情感詞匯的使用頻率大于第一使用頻率時(shí),則所述情感詞匯為常用情感詞匯;
以及
對(duì)所述情感詞匯進(jìn)行分類(lèi)。
[0009]在其中一個(gè)實(shí)施方式中,所述步驟b)包括: bl)按照第二預(yù)設(shè)周期從用戶生成內(nèi)容(UGC)網(wǎng)站搜集文本; b2)利用分詞工具對(duì)所述文本進(jìn)行分詞; b3)利用停用詞表除去停用詞匯以得到網(wǎng)絡(luò)詞匯; b4)判斷所述網(wǎng)絡(luò)詞匯使用頻率是否大于第二使用頻率;以及 b5)當(dāng)所述網(wǎng)絡(luò)詞匯的使用頻率大于第二使用頻率時(shí),則所述網(wǎng)絡(luò)詞匯為網(wǎng)絡(luò)熱詞,并 形成所述第二詞匯集。
[0010]在其中一個(gè)實(shí)施方式中,所述步驟c)包括:
通過(guò)確定所述網(wǎng)絡(luò)熱詞與所述常用詞匯的共現(xiàn)指數(shù)來(lái)實(shí)現(xiàn)對(duì)所述網(wǎng)絡(luò)熱詞與所述常用詞匯的共現(xiàn)分析。
[0011 ] 在其中一個(gè)實(shí)施方式中,所述步驟d)包括:
根據(jù)所述共現(xiàn)指數(shù)將所述網(wǎng)絡(luò)熱詞歸類(lèi)于所述常用詞匯中,并建立語(yǔ)義對(duì)應(yīng)關(guān)系。
[0012]在其中一個(gè)實(shí)施方式中,所述步驟d)還包括:
將歸類(lèi)于同一常用詞匯的所述網(wǎng)絡(luò)熱詞按照所述共現(xiàn)指數(shù)高低進(jìn)行排序。
[0013]在其中一個(gè)實(shí)施方式中,所述詞庫(kù)生成方法還包括步驟e):
實(shí)時(shí)擴(kuò)展網(wǎng)絡(luò)熱詞,以生成第四詞匯集,所述第四詞匯集具有至少一個(gè)實(shí)時(shí)網(wǎng)絡(luò)熱詞,并將所述實(shí)時(shí)網(wǎng)絡(luò)熱詞歸類(lèi)于所述第三詞匯集中。
[0014]在其中一個(gè)實(shí)施方式中,所述步驟e)包括: el)按照第三預(yù)設(shè)周期搜集網(wǎng)絡(luò)文本語(yǔ)料;
e2)從所述網(wǎng)絡(luò)文本語(yǔ)料里隨機(jī)抽取語(yǔ)料作為訓(xùn)練語(yǔ)料; e3)對(duì)所述訓(xùn)練語(yǔ)料進(jìn)行模型訓(xùn)練; e4)生成模型文件;
e5)通過(guò)所述模型文件自動(dòng)識(shí)別所述網(wǎng)絡(luò)文本語(yǔ)料里除所述訓(xùn)練語(yǔ)料外的語(yǔ)料并生成所述第四詞匯集;以及
e6)根據(jù)所述語(yǔ)義對(duì)應(yīng)關(guān)系將所述第四詞匯集中的實(shí)時(shí)網(wǎng)絡(luò)熱詞歸類(lèi)于所述第三詞匯集中。
[0015]在其中一個(gè)實(shí)施方式中,其中,所述模型訓(xùn)練的特征集包括所述語(yǔ)義對(duì)應(yīng)關(guān)系、詞性。
[0016]本發(fā)明的另一方面提出了一種詞庫(kù)生成系統(tǒng),包括:
第一詞匯集,具有至少一個(gè)常用詞匯;
第二詞匯集,具有至少一個(gè)網(wǎng)絡(luò)熱詞;
詞庫(kù)生成模塊,包括第三詞匯集;
其中,所述詞庫(kù)生成模塊,用以對(duì)所述網(wǎng)絡(luò)熱詞與所述常用詞匯進(jìn)行共現(xiàn)分析,并根據(jù)共現(xiàn)分析結(jié)果將所述網(wǎng)絡(luò)熱詞歸類(lèi)于相應(yīng)的所述常用詞匯中以生成第三詞匯集。
[0017]在其中一個(gè)實(shí)施方式中,還包括實(shí)時(shí)網(wǎng)絡(luò)熱詞擴(kuò)展模塊,用以實(shí)時(shí)擴(kuò)展網(wǎng)絡(luò)熱詞,包括:
訓(xùn)練模型,對(duì)從網(wǎng)絡(luò)文本語(yǔ)料里隨機(jī)抽取的訓(xùn)練語(yǔ)料進(jìn)行訓(xùn)以生成模型文件;
第四詞匯集,通過(guò)所述模型文件自動(dòng)識(shí)別所述網(wǎng)絡(luò)文本語(yǔ)料里除所述訓(xùn)練語(yǔ)料外的語(yǔ)料并生成所述第四詞匯集。
[0018]在其中一個(gè)實(shí)施方式中,所述詞庫(kù)生成系統(tǒng)還包括: 詞匯推送模塊,用以對(duì)所述第三詞匯集中的詞匯進(jìn)行推送。
[0019]本發(fā)明的又一方面提出了一種輸入法,包括:
用戶輸入常用詞匯;
根據(jù)用戶所輸入的常用詞匯搜索相應(yīng)的網(wǎng)絡(luò)熱詞;
對(duì)所搜索到的網(wǎng)絡(luò)熱詞按照與所輸入的常用詞匯的共現(xiàn)指數(shù)進(jìn)行排序顯示;以及 選擇所需網(wǎng)絡(luò)熱詞。
[0020]本發(fā)明的再一方面提出了一種輸入系統(tǒng),包括:
輸入模塊,用以用戶輸入常用詞匯;
搜索模塊,用以根據(jù)用戶所輸入的常用詞匯搜索相應(yīng)的網(wǎng)絡(luò)熱詞;
交互模塊,用以對(duì)所搜索到的網(wǎng)絡(luò)熱詞按照與所輸入的常用詞匯的共現(xiàn)指數(shù)進(jìn)行排序顯示,并接收用戶指令選擇所需網(wǎng)絡(luò)熱詞。
[0021]由上可知,本發(fā)明所提出的詞庫(kù)生成方法及其系統(tǒng)、輸入法及輸入系統(tǒng),可以提供輸入網(wǎng)絡(luò)熱詞的體驗(yàn),從而增加了個(gè)性化。
【專(zhuān)利附圖】
【附圖說(shuō)明】
[0022]圖1繪示了本發(fā)明一實(shí)施方式的詞庫(kù)生成系統(tǒng)的框圖;
圖2繪示了本發(fā)明的另一實(shí)施方式的詞庫(kù)生成方法的示意圖;
圖3繪示了共現(xiàn)指數(shù)示意圖;
圖4繪示了本發(fā)明的又一實(shí)施方式的輸入系統(tǒng)的框圖;
圖5繪示了本發(fā)明的再一實(shí)施方式的輸入法的流程圖。
[0023]
【具體實(shí)施方式】
[0024]為了使本領(lǐng)域相關(guān)技術(shù)人員更好地理解本發(fā)明的技術(shù)方案,下面將結(jié)合本發(fā)明實(shí)施方式的附圖,對(duì)本發(fā)明實(shí)施方式中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施方式僅僅是本發(fā)明一部分實(shí)施方式,而不是全部的實(shí)施方式。
[0025]參照?qǐng)D1,圖1繪示了本發(fā)明一實(shí)施方式的詞庫(kù)生成系統(tǒng)的框圖。
[0026]如圖1所示,詞庫(kù)生成系統(tǒng)100包括第一詞匯集110、第二詞匯集120、詞庫(kù)生成模塊130、實(shí)時(shí)網(wǎng)絡(luò)熱詞擴(kuò)展模塊140、詞匯推送模塊150。
[0027]第一詞匯集110,具有至少一個(gè)常用詞匯,這里的常用詞匯可以是直接來(lái)源于詞典,也可以來(lái)源于用戶之前所使用的詞匯。
[0028]第二詞匯集120,具有至少一個(gè)網(wǎng)絡(luò)熱詞。
[0029]詞庫(kù)生成模塊130,包括第三詞匯集132,其中,詞庫(kù)生成模塊130,用以對(duì)網(wǎng)絡(luò)熱詞與常用詞匯進(jìn)行共現(xiàn)分析,并根據(jù)共現(xiàn)分析結(jié)果將網(wǎng)絡(luò)熱詞歸類(lèi)于相應(yīng)的常用詞匯中以生成第三詞匯集132。
[0030]實(shí)時(shí)網(wǎng)絡(luò)熱詞擴(kuò)展模塊140,用以實(shí)時(shí)擴(kuò)展網(wǎng)絡(luò)熱詞,包括訓(xùn)練模型142、第四詞匯集144。
[0031]訓(xùn)練模型142,對(duì)從網(wǎng)絡(luò)文本語(yǔ)料里隨機(jī)抽取的訓(xùn)練語(yǔ)料進(jìn)行訓(xùn)以生成模型文件;第四詞匯集144,通過(guò)模型文件自動(dòng)識(shí)別網(wǎng)絡(luò)文本語(yǔ)料里除訓(xùn)練語(yǔ)料外的語(yǔ)料并生成第四詞匯集144,并且,可以將第四詞匯集144中的實(shí)時(shí)網(wǎng)絡(luò)熱詞加載在第三詞匯集132中。
[0032]詞匯推送模塊150,用以對(duì)第三詞匯集132中的詞匯進(jìn)行推送,比如,推送至用戶編輯文字的窗口。
[0033]參照?qǐng)D2,圖2繪示了本發(fā)明的另一實(shí)施方式的詞庫(kù)生成方法的示意圖。
[0034]下面結(jié)合圖1、圖2來(lái)對(duì)詞庫(kù)生成過(guò)程進(jìn)行詳細(xì)描述。
[0035]首先,獲取第一詞匯集110,第一詞匯集110具有至少一個(gè)常用詞匯,即獲取用戶的常用詞匯,此常用詞匯可以是直接來(lái)源于詞典,也可以是來(lái)源于用戶之前所使用的詞匯記錄里,并且可以對(duì)常用詞匯進(jìn)行分類(lèi)。具體而言,按照第一預(yù)設(shè)周期,如一個(gè)月,搜集用戶所使用的詞匯;利用停用詞表除去停用詞匯以得到常用詞匯;以及對(duì)常用詞匯進(jìn)行分類(lèi),比如按照感情色彩分類(lèi),從而形成第一詞匯集110。
[0036]進(jìn)一步地,當(dāng)?shù)谝辉~匯集110包括的詞匯是常用情感詞匯時(shí),則可以利用情感詞匯表對(duì)常用詞匯進(jìn)行篩選以獲取情感詞匯(如高興、帶勁、激動(dòng)、媲美、出眾、郁悶、悲傷、差強(qiáng)人意等);判斷情感詞匯使用頻率是否大于第一使用頻率;當(dāng)情感詞匯的使用頻率大于第一使用頻率時(shí),則情感詞匯為常用情感詞匯;以及對(duì)情感詞匯進(jìn)行分類(lèi),從而可以獲得用戶常用情感詞匯分類(lèi)集Mij {i=l, 2,......,n ;j=l, 2,......,η)。
[0037]然后,獲取第二詞匯集120,第二詞匯集120具有至少一個(gè)網(wǎng)絡(luò)熱詞。
[0038]具體而言,按照第二預(yù)設(shè)周期,如一個(gè)月或一周,從用戶生成內(nèi)容(UserGenerated Content, UGC)網(wǎng)站搜集文本,如圖2中的種子網(wǎng)絡(luò)UGC,這里的種子網(wǎng)絡(luò)UGC可以選擇微博、論壇等;利用分詞工具對(duì)文本進(jìn)行分詞;利用停用詞表除去停用詞匯以得到網(wǎng)絡(luò)詞匯;判斷網(wǎng)絡(luò)詞匯使用頻率是否大于第二使用頻率;以及當(dāng)網(wǎng)絡(luò)詞匯的使用頻率大于第二使用頻率時(shí),則網(wǎng)絡(luò)詞匯為網(wǎng)絡(luò)熱詞(如歐克、給力、白富美、高富帥、杯具、傷不起等),并形成網(wǎng)絡(luò)熱詞集Nk(?,名……,η)`。
[0039]之后,將第二詞匯集120中的網(wǎng)絡(luò)熱詞與第一詞匯集110中的常用詞匯進(jìn)行共現(xiàn)分析,通過(guò)確定網(wǎng)絡(luò)熱詞與常用詞匯的共現(xiàn)指數(shù)來(lái)實(shí)現(xiàn)對(duì)網(wǎng)絡(luò)熱詞與常用詞匯的共現(xiàn)分析。
[0040]如圖3所示,網(wǎng)絡(luò)熱詞N1,與常用詞匯Wn、W12, W13-Wln的共現(xiàn)指數(shù)分別為Pp P2>P^Pn、關(guān)于共現(xiàn)指數(shù)的獲取途徑可參考下午中的例I。
[0041]繼而,根據(jù)共現(xiàn)分析結(jié)果將網(wǎng)絡(luò)熱詞歸類(lèi)于相應(yīng)的常用詞匯中以生成第三詞匯集132,并建立語(yǔ)義對(duì)應(yīng)關(guān)系,具體可參考下述。
[0042]微博,如新浪微博,作為時(shí)下最盛行最能夠表達(dá)網(wǎng)友關(guān)注內(nèi)容網(wǎng)絡(luò)風(fēng)向標(biāo)媒體,其上發(fā)表的熱點(diǎn)話題熱點(diǎn)詞匯等直接影響了人們對(duì)日常事物的抽象表達(dá)。因此,下面將以微博中的搜索為載體,將網(wǎng)絡(luò)熱詞與用戶常用情感詞進(jìn)行組合在微博中進(jìn)行搜索,目的在于分析兩個(gè)詞匯出現(xiàn)在同一文本中的概率,將搜索得到的返回結(jié)果數(shù)作為兩個(gè)詞匯的共現(xiàn)指數(shù),表示兩個(gè)出現(xiàn)在同一文本中的文本數(shù)。
[0043]例1:
在微博中搜索后,網(wǎng)絡(luò)熱詞“給力”、“杯具”、“傷不起”與用戶常用詞匯“高興”、“郁悶”、“悲傷”的共現(xiàn)指數(shù)見(jiàn)下表:
I高興 I郁悶 I悲傷
給力 2,170, 367 I, 362, 388 I, 710, 898
1? |255,631 \412,267 |l34,032
【權(quán)利要求】
1.一種詞庫(kù)生成方法,其特征在于,包括: a)獲取第一詞匯集,所述第一詞匯集具有至少一個(gè)常用詞匯; b)獲取第二詞匯集,所述第二詞匯集具有至少一個(gè)網(wǎng)絡(luò)熱詞; c)將所述第二詞匯集中的網(wǎng)絡(luò)熱詞與所述第一詞匯集中的常用詞匯進(jìn)行共現(xiàn)分析;以及 d)根據(jù)共現(xiàn)分析結(jié)果將所述網(wǎng)絡(luò)熱詞歸類(lèi)于相應(yīng)的所述常用詞匯中以生成第三詞匯集。
2.根據(jù)權(quán)利要求1所述的詞庫(kù)生成方法,其特征在于,步驟a)包括: al)按照第一預(yù)設(shè)周期搜集用戶所使用的詞匯; a2)利用停用詞表除去停用詞匯以得到所述常用詞匯;以及 a3)對(duì)所述常用詞匯進(jìn)行分類(lèi)以形成所述第一詞匯集。
3.根據(jù)權(quán)利要求2所述的詞庫(kù)生成方法,其特征在于,在步驟a2)后包括: 利用情感詞匯表對(duì)所述常用詞匯進(jìn)行篩選以獲取情感詞匯; 判斷所述情感詞匯使用頻率是否大于第一使用頻率; 當(dāng)所述情感詞匯的使用頻率大于第一使用頻率時(shí),則所述情感詞匯為常用情感詞匯;·以及 對(duì)所述情感詞匯進(jìn)行分類(lèi)。
4.根據(jù)權(quán)利要求1所述的詞庫(kù)生成方法,其特征在于,所述步驟b)包括: bl)按照第二預(yù)設(shè)周期從用戶生成內(nèi)容(UGC)網(wǎng)站搜集文本; b2)利用分詞工具對(duì)所述文本進(jìn)行分詞;b3)利用停用詞表除去停用詞匯以得到網(wǎng)絡(luò)詞匯;b4)判斷所述網(wǎng)絡(luò)詞匯使用頻率是否大于第二使用頻率;以及b5)當(dāng)所述網(wǎng)絡(luò)詞匯的使用頻率大于第二使用頻率時(shí),則所述網(wǎng)絡(luò)詞匯為網(wǎng)絡(luò)熱詞,并形成所述第二詞匯集。
5.根據(jù)權(quán)利要求1所述的詞庫(kù)生成方法,其特征在于,所述步驟c)包括: 通過(guò)確定所述網(wǎng)絡(luò)熱詞與所述常用詞匯的共現(xiàn)指數(shù)來(lái)實(shí)現(xiàn)對(duì)所述網(wǎng)絡(luò)熱詞與所述常用詞匯的共現(xiàn)分析。
6.根據(jù)權(quán)利要求5所述的詞庫(kù)生成方法,其特征在于,所述步驟d)包括: 根據(jù)所述共現(xiàn)指數(shù)將所述網(wǎng)絡(luò)熱詞歸類(lèi)于所述常用詞匯中,并建立語(yǔ)義對(duì)應(yīng)關(guān)系。
7.根據(jù)權(quán)利要求6所述的詞庫(kù)生成方法,其特征在于,所述步驟d)還包括: 將歸類(lèi)于同一常用詞匯的所述網(wǎng)絡(luò)熱詞按照所述共現(xiàn)指數(shù)高低進(jìn)行排序。
8.根據(jù)權(quán)利要求6所述的詞庫(kù)生成方法,其特征在于,還包括步驟e): 實(shí)時(shí)擴(kuò)展網(wǎng)絡(luò)熱詞,以生成第四詞匯集,所述第四詞匯集具有至少一個(gè)實(shí)時(shí)網(wǎng)絡(luò)熱詞,并將所述實(shí)時(shí)網(wǎng)絡(luò)熱詞歸類(lèi)于所述第三詞匯集中。
9.根據(jù)權(quán)利要求8所述的詞庫(kù)生成方法,其特征在于,所述步驟e)包括: el)按照第三預(yù)設(shè)周期搜集網(wǎng)絡(luò)文本語(yǔ)料; e2)從所述網(wǎng)絡(luò)文本語(yǔ)料里隨機(jī)抽取語(yǔ)料作為訓(xùn)練語(yǔ)料; e3)對(duì)所述訓(xùn)練語(yǔ)料進(jìn)行模型訓(xùn)練; e4)生成模型文件; e5)通過(guò)所述模型文件自動(dòng)識(shí)別所述網(wǎng)絡(luò)文本語(yǔ)料里除所述訓(xùn)練語(yǔ)料外的語(yǔ)料并生成所述第四詞匯集;以及 e6)根據(jù)所述語(yǔ)義對(duì)應(yīng)關(guān)系將所述第四詞匯集中的實(shí)時(shí)網(wǎng)絡(luò)熱詞歸類(lèi)于所述第三詞匯集中。
10.根據(jù)權(quán)利要求9所述的詞庫(kù)生成方法,其特征在于,其中,所述模型訓(xùn)練的特征集包括所述語(yǔ)義對(duì)應(yīng)關(guān)系、詞性。
11.一種詞庫(kù)生成系統(tǒng),其特征在于,包括: 第一詞匯集,具有至少一個(gè)常用詞匯; 第二詞匯集,具有至少一個(gè)網(wǎng)絡(luò)熱詞; 詞庫(kù)生成模塊,包括第三詞匯集; 其中,所述詞庫(kù)生成模塊,用以對(duì)所述網(wǎng)絡(luò)熱詞與所述常用詞匯進(jìn)行共現(xiàn)分析,并根據(jù)共現(xiàn)分析結(jié)果將所述 網(wǎng)絡(luò)熱詞歸類(lèi)于相應(yīng)的所述常用詞匯中以生成第三詞匯集。
12.根據(jù)權(quán)利要求11所述的詞庫(kù)生成系統(tǒng),其特征在于,還包括實(shí)時(shí)網(wǎng)絡(luò)熱詞擴(kuò)展模塊,用以實(shí)時(shí)擴(kuò)展網(wǎng)絡(luò)熱詞,包括: 訓(xùn)練模型,對(duì)從網(wǎng)絡(luò)文本語(yǔ)料里隨機(jī)抽取的訓(xùn)練語(yǔ)料進(jìn)行訓(xùn)以生成模型文件; 第四詞匯集,通過(guò)所述模型文件自動(dòng)識(shí)別所述網(wǎng)絡(luò)文本語(yǔ)料里除所述訓(xùn)練語(yǔ)料外的語(yǔ)料并生成所述第四詞匯集。
13.根據(jù)權(quán)利要求11所述的詞庫(kù)生成系統(tǒng),其特征在于,還包括: 詞匯推送模塊,用以對(duì)所述第三詞匯集中的詞匯進(jìn)行推送。
14.一種輸入法,其特征在于,包括: 用戶輸入常用詞匯; 根據(jù)用戶所輸入的常用詞匯搜索相應(yīng)的網(wǎng)絡(luò)熱詞; 對(duì)所搜索到的網(wǎng)絡(luò)熱詞按照與所輸入的常用詞匯的共現(xiàn)指數(shù)進(jìn)行排序顯示;以及 選擇所需網(wǎng)絡(luò)熱詞。
15.—種輸入系統(tǒng),其特征在于,包括: 輸入模塊,用以用戶輸入常用詞匯;搜索模塊,用以根據(jù)用戶所輸入的常用詞匯搜索相應(yīng)的網(wǎng)絡(luò)熱詞; 交互模塊,用以對(duì)所搜索到的網(wǎng)絡(luò)熱詞按照與所輸入的常用詞匯的共現(xiàn)指數(shù)進(jìn)行排序顯示,并接收用戶指令選擇·所需網(wǎng)絡(luò)熱詞。
【文檔編號(hào)】G06F17/30GK103853746SQ201210503507
【公開(kāi)日】2014年6月11日 申請(qǐng)日期:2012年12月1日 優(yōu)先權(quán)日:2012年12月1日
【發(fā)明者】文能 申請(qǐng)人:上海斐訊數(shù)據(jù)通信技術(shù)有限公司