基于組合詞的詞典挖掘方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明提出一種基于組合詞的詞典挖掘方法及系統(tǒng)。其中,方法包括以下步驟:服務(wù)器獲取多個(gè)語料并將多個(gè)語料中每一個(gè)句子分詞為多個(gè)文節(jié);服務(wù)器從多個(gè)文節(jié)中挖掘特殊文節(jié);服務(wù)器對(duì)特殊文節(jié)進(jìn)行過濾和篩選以獲得特殊文節(jié)中的組合詞;服務(wù)器通過特殊文節(jié)中的組合詞的出現(xiàn)頻次生成組合詞詞典;服務(wù)器通過組合詞詞典更新輸入法模型。根據(jù)本發(fā)明實(shí)施例的方法,通過從大規(guī)模語料庫中挖掘出特殊文節(jié)的組合詞并建立組合詞詞典,使得用戶輸入特殊文節(jié)的組合詞的一部分內(nèi)容時(shí),服務(wù)器將特殊文節(jié)的組合詞中的另一部分內(nèi)容或全部內(nèi)容顯示在輸入界面中,從而提高了用戶的錄入速度,方便用戶使用。
【專利說明】基于組合詞的詞典挖掘方法及系統(tǒng)
【技術(shù)領(lǐng)域】
[0001]本發(fā)明涉及輸入法【技術(shù)領(lǐng)域】,特別涉及一種基于組合詞的詞典挖掘方法及系統(tǒng)。
【背景技術(shù)】
[0002]網(wǎng)絡(luò)中存在大規(guī)模地日文組合詞,例如,兩個(gè)名詞組成的新的復(fù)合詞、搭配詞,具體地如,動(dòng)詞和賓語搭配等。這些復(fù)合詞和搭配詞對(duì)輸入法的變換精度和預(yù)測精度有重要的影響。
[0003]目前,輸入法是根據(jù)用戶輸入的假名來對(duì)應(yīng)顯示相應(yīng)的內(nèi)容或漢字,并且顯示的漢字或假名是按照日常使用情況進(jìn)行排序的。
[0004]現(xiàn)有的輸入法不能根據(jù)前后的組合或搭配關(guān)系動(dòng)態(tài)地調(diào)整后續(xù)輸入內(nèi)容的顯示位置,需要用戶手動(dòng)的翻頁來查找需要輸入的內(nèi)容,或者是一一點(diǎn)擊組合需要輸入的內(nèi)容,從而影響了用戶的處理效率,特別是在一些新詞的輸入過程中需要用戶進(jìn)行更多的操作,影響了用戶的輸入速度,用戶體驗(yàn)度較差。
【發(fā)明內(nèi)容】
[0005]本發(fā)明的目的旨在至少解決上述的技術(shù)缺陷之一。
[0006]為此,本發(fā)明的一個(gè)目的在于提出一種基于組合詞的詞典挖掘方法。
[0007]本發(fā)明的另一目的在于提出一種基于組合詞的詞典挖掘系統(tǒng)。
[0008]為達(dá)到上述目的,本發(fā)明一方面的實(shí)施例提出一種基于組合詞的詞典挖掘方法,包括以下步驟:服務(wù)器獲取多個(gè)語料并將所述多個(gè)語料中每一個(gè)句子分詞為多個(gè)文節(jié);所述服務(wù)器從所述多個(gè)文節(jié)中挖掘特殊文節(jié);所述服務(wù)器對(duì)所述特殊文節(jié)進(jìn)行過濾和篩選以獲得特殊文節(jié)中的組合詞;所述服務(wù)器通過所述特殊文節(jié)中的組合詞的出現(xiàn)頻次生成所述組合詞詞典;以及所述服務(wù)器通過所述組合詞詞典更新輸入法模型。
[0009]根據(jù)本發(fā)明實(shí)施例的方法,通過從大規(guī)模語料庫中挖掘出特殊文節(jié)的組合詞并建立組合詞詞典,使得用戶輸入特殊文節(jié)的組合詞的一部分內(nèi)容時(shí),服務(wù)器會(huì)將特殊文節(jié)的組合詞中的另一部分內(nèi)容或全部內(nèi)容顯示在輸入界面中,從而提高了用戶的錄入速度,方便用戶使用,提高了用戶的滿意度和體驗(yàn)度。
[0010]在本發(fā)明的一個(gè)實(shí)施例中,當(dāng)用戶輸入特殊文節(jié)的所述組合詞的一部分內(nèi)容時(shí),所述服務(wù)器將特殊文節(jié)的所述組合詞中的另一部分內(nèi)容或全部內(nèi)容顯示在輸入界面中。
[0011]在本發(fā)明的一個(gè)實(shí)施例中,方法還包括:所述服務(wù)器根據(jù)所述特殊文節(jié)中搭配詞的出現(xiàn)頻次生成所述搭配詞詞典,并通過所述搭配詞詞典更新輸入法模型。
[0012]在本發(fā)明的一個(gè)實(shí)施例中,當(dāng)用戶輸入特殊文節(jié)的所述搭配詞的全部或一部分內(nèi)容時(shí),所述服務(wù)器將特殊文節(jié)的所述搭配詞中的另一部分內(nèi)容或全部內(nèi)容顯示在輸入界面中。
[0013]在本發(fā)明的一個(gè)實(shí)施例中,方法還包括:所述服務(wù)器在預(yù)設(shè)周期內(nèi)對(duì)互聯(lián)網(wǎng)中新增網(wǎng)頁進(jìn)行抓取;所述服務(wù)器對(duì)所述新增網(wǎng)頁進(jìn)行組合詞和搭配詞挖掘,以獲得從所述新增網(wǎng)頁中挖掘出的組合詞和挖掘詞;如果所述挖掘出的組合詞或搭配詞的出現(xiàn)頻率超過預(yù)設(shè)值,則將所述挖掘出的組合詞或搭配詞的添加到所述組合詞詞典或搭配詞詞典中。
[0014]在本發(fā)明的一個(gè)實(shí)施例中,對(duì)所述特殊文節(jié)進(jìn)行過濾和篩選包括:去除所述特殊文節(jié)的前后非自立詞和標(biāo)點(diǎn)符號(hào)以保留所述特殊文節(jié)的中心詞。
[0015]在本發(fā)明的一個(gè)實(shí)施例中,所述特殊文節(jié)包括單文節(jié)、多文節(jié)和非連續(xù)文節(jié)中的一種或多種。
[0016]在本發(fā)明的一個(gè)實(shí)施例中,所述輸入法模型為日文輸入法模型、英文輸入法模型或中文輸入法模型。
[0017]本發(fā)明另一方面的實(shí)施例提出了一種基于組合詞的詞典挖掘系統(tǒng),包括:分詞模塊,用于服務(wù)器獲取多個(gè)語料并將所述多個(gè)語料中每一個(gè)句子分詞為多個(gè)文節(jié);挖掘模塊,用于所述服務(wù)器從所述多個(gè)文節(jié)中挖掘特殊文節(jié);過濾模塊,用于所述服務(wù)器對(duì)所述特殊文節(jié)進(jìn)行過濾和篩選以獲得特殊文節(jié)中的組合詞;第一詞典模塊,用于所述服務(wù)器通過所述特殊文節(jié)中的組合詞的出現(xiàn)頻次生成所述組合詞詞典;以及更新模塊,用于所述服務(wù)器通過所述組合詞詞典更新輸入法模型。
[0018]根據(jù)本發(fā)明實(shí)施例的系統(tǒng),通過從大規(guī)模語料庫中挖掘出特殊文節(jié)的組合詞并建立組合詞詞典,使得用戶輸入特殊文節(jié)的組合詞的一部分內(nèi)容時(shí),服務(wù)器會(huì)將特殊文節(jié)的組合詞中的另一部分內(nèi)容或全部內(nèi)容顯示在輸入界面中,從而提高了用戶的錄入速度,方便用戶使用,提高了用戶的滿意度和體驗(yàn)度。
[0019]在本發(fā)明的一個(gè)實(shí)施例中,系統(tǒng)還包括:第二詞典模塊,用于根據(jù)所述特殊文節(jié)中搭配詞的出現(xiàn)頻次生成所述搭配詞詞典,并通過所述搭配詞詞典更新輸入法模型。
[0020]在本發(fā)明的一個(gè)實(shí)施例中,所述輸入法控制模塊在用戶輸入特殊文節(jié)的所述搭配詞的全部或一部分內(nèi)容時(shí),將特殊文節(jié)的所述搭配詞中的另一部分內(nèi)容或全部內(nèi)容顯示在輸入界面中。
[0021]在本發(fā)明的一個(gè)實(shí)施例中,系統(tǒng)還包括:更新模塊,用于在預(yù)設(shè)周期內(nèi)對(duì)互聯(lián)網(wǎng)中新增網(wǎng)頁進(jìn)行抓取,并對(duì)所述新增網(wǎng)頁進(jìn)行組合詞和搭配詞挖掘,以獲得從所述新增網(wǎng)頁中挖掘出的組合詞和挖掘詞,以及在所述挖掘出的組合詞或搭配詞的出現(xiàn)頻率超過預(yù)設(shè)值時(shí),將所述挖掘出的組合詞或搭配詞的添加到所述組合詞詞典或搭配詞詞典中。
[0022]在本發(fā)明的一個(gè)實(shí)施例中,所述過濾模塊去除所述特殊文節(jié)的前后非自立詞和標(biāo)點(diǎn)符號(hào)以保留所述特殊文節(jié)的中心詞。
[0023]在本發(fā)明的一個(gè)實(shí)施例中,所述特殊文節(jié)包括單文節(jié)、多文節(jié)和非連續(xù)文節(jié)中的一種或多種。
[0024]在本發(fā)明的一個(gè)實(shí)施例中,所述輸入法模型為日文輸入法模型、英文輸入法模型或中文輸入法模型。
[0025]本發(fā)明附加的方面和優(yōu)點(diǎn)將在下面的描述中部分給出,部分將從下面的描述中變得明顯,或通過本發(fā)明的實(shí)踐了解到。
【專利附圖】
【附圖說明】
[0026]本發(fā)明上述的和/或附加的方面和優(yōu)點(diǎn)從下面結(jié)合附圖對(duì)實(shí)施例的描述中將變得明顯和容易理解,其中:
[0027]圖1為根據(jù)本發(fā)明一個(gè)實(shí)施例的基于組合詞的詞典挖掘方法的流程圖;
[0028]圖2和圖3為根據(jù)本發(fā)明一個(gè)實(shí)施例的各個(gè)文節(jié)之間的語義依存關(guān)系示意圖;
[0029]圖4為根據(jù)本發(fā)明一個(gè)實(shí)施例的基于組合詞的詞典挖掘系統(tǒng)的框架圖;
[0030]圖5為根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于組合詞的詞典挖掘系統(tǒng)的框架圖。
【具體實(shí)施方式】
[0031]下面詳細(xì)描述本發(fā)明的實(shí)施例,實(shí)施例的示例在附圖中示出,其中自始至終相同或類似的標(biāo)號(hào)表示相同或類似的元件或具有相同或類似功能的元件。下面通過參考附圖描述的實(shí)施例是示例性的,僅用于解釋本發(fā)明,而不能解釋為對(duì)本發(fā)明的限制。
[0032]在本發(fā)明的描述中,需要理解的是,術(shù)語“第一”、“第二”、“第三”僅用于描述目的,而不能理解為指示或暗示相對(duì)重要性或者隱含指明所指示的技術(shù)特征的數(shù)量。由此,限定有“第一”、“第二”、“第三”的特征可以明示或者隱含地包括一個(gè)或者更多個(gè)該特征。在本發(fā)明的描述中,“多個(gè)”的含義是兩個(gè)或兩個(gè)以上,除非另有明確具體的限定。
[0033]圖1為本發(fā)明實(shí)施例的基于組合詞的詞典挖掘方法的流程圖。如圖1所示,根據(jù)本發(fā)明實(shí)施例的基于組合詞的詞典挖掘方法,包括以下步驟:
[0034]步驟S101,服務(wù)器獲取多個(gè)語料并將多個(gè)語料中每一個(gè)句子分詞為多個(gè)文節(jié)。
[0035]具體地,通過服務(wù)器獲取網(wǎng)頁語料,例如可采用教師指導(dǎo)的學(xué)習(xí)方法,將大量的網(wǎng)頁語料中每一個(gè)句子分詞為多個(gè)文節(jié)。在本發(fā)明的一個(gè)實(shí)施例中,可采用教師指導(dǎo)的學(xué)習(xí)方法,確定分詞后生成的多個(gè)文節(jié)之間的語義依存關(guān)系。教師指導(dǎo)學(xué)習(xí)方法為本領(lǐng)域中已知的學(xué)習(xí)方法,在此不再贅述。
[0036]在本發(fā)明的一個(gè)實(shí)施例中,文節(jié)由一個(gè)中心詞后接O個(gè)到多個(gè)附屬詞。例如,對(duì)如下語句“情報(bào)検索U私O専攻分野T +?!焙汀半x乳食? Zu食X ? B P i頭&痛的石?!苯?jīng)過分詞后生成對(duì)應(yīng)的多個(gè)文節(jié)“情報(bào)検索ti 11私O 11専攻分野C +?!焙汀半x乳食f Il h ? Iv I I食B P i I I頭全I(xiàn) I痛*石?!保瑫r(shí)其依存關(guān)系如圖2和圖3所示。
[0037]步驟S102,服務(wù)器從多個(gè)文節(jié)中挖掘特殊文節(jié)。特殊文節(jié)包括單文節(jié)、多文節(jié)和非連續(xù)文節(jié)中的一種或多種。
[0038]在本發(fā)明的一個(gè)實(shí)施例中,所挖掘的特殊文節(jié)分別為“情報(bào)検索ii”、“私O ”、“専攻分野T十。,,和“亡< ^ Iv I I食P i,,、“頭奩I I痛*石?!?br>
[0039]步驟S103,服務(wù)器對(duì)特殊文節(jié)進(jìn)行過濾和篩選以獲得特殊文節(jié)中的組合詞。
[0040]在本發(fā)明的一個(gè)實(shí)施例中,對(duì)特殊文節(jié)進(jìn)行過濾和篩選包括:去除特殊文節(jié)的前后非自立詞和標(biāo)點(diǎn)符號(hào)以保留特殊文節(jié)的中心詞。對(duì)上述所獲得的“情報(bào)検索ti ”、“私O ”、“専攻分野T +?!焙汀巴?lt; ^ ^ I I食X ? B P i ”、“頭* I I痛* 3?!边M(jìn)行過濾和篩選之后獲得單文節(jié)組合詞為“情報(bào)検索”和“専攻分野”,雙文節(jié)組合詞為^ ^ 11食?
P”和“頭f I I痛*石,,。
[0041]步驟S104,服務(wù)器通過特殊文節(jié)中的組合詞的出現(xiàn)頻次生成組合詞詞典。
[0042]具體地,通過特殊文節(jié)中組合詞的出現(xiàn)頻次決定是否將其組合詞作為組合詞詞典的一個(gè)元素。例如,對(duì)于上述兩個(gè)單文節(jié)組合詞和兩個(gè)雙文節(jié)組合詞而言,“情報(bào)検索”和“専攻分野”為復(fù)合名詞,而“亡< ^ L I I食B P”為一般的組合關(guān)系,其中將“情報(bào)検索”和“専攻分野”作為組合詞詞典的元素。
[0043]在本發(fā)明的一個(gè)實(shí)施例中,服務(wù)器根據(jù)特殊文節(jié)中搭配詞的出現(xiàn)頻次生成搭配詞詞典。例如,搭配詞“頭& 11痛A 3 ”屬于固定的搭配詞語并且其出現(xiàn)頻次較高,因此將其添加到搭配詞詞典中。
[0044]在本發(fā)明的一個(gè)實(shí)施例中,特殊文節(jié)包括單文節(jié),語義依存關(guān)系自給自足的多文節(jié)和存在非局部語義依存關(guān)系的非連續(xù)的多個(gè)文節(jié)。單文節(jié),雙文節(jié)等,都是分別獨(dú)立挖掘的,分別生成不同的組合詞詞典,再統(tǒng)一使用。
[0045]在本發(fā)明的一個(gè)實(shí)施例中,“預(yù)測”和“漢字候選”界面中會(huì)顯示“〈複合語〉,〈hot〉,〈new〉”等標(biāo)簽。這里“複合語”對(duì)應(yīng)中文的“復(fù)合詞”(代表“組合詞”和“搭配詞”),“hot”對(duì)應(yīng)“熱詞”,“new”對(duì)應(yīng)“新詞”。這里,“〈複合語 >”是必須顯示的,而“〈hot〉”和“〈new〉”不能同時(shí)使用,即一個(gè)復(fù)合詞不能同時(shí)是新詞和熱詞。
[0046]在本發(fā)明的一個(gè)實(shí)施例中,服務(wù)器在預(yù)設(shè)周期內(nèi),例如,時(shí)隔一周或每個(gè)月兩次對(duì)互聯(lián)網(wǎng)中新增網(wǎng)頁進(jìn)行抓取,其抓取內(nèi)容為新增網(wǎng)頁中的組合詞和搭配詞,從而獲得新增網(wǎng)頁中挖掘出的組合詞和挖掘詞。如果挖掘出的組合詞或搭配詞的出現(xiàn)頻率超過預(yù)設(shè)值,例如從原有的出現(xiàn)頻次1000上升到1000000,則將挖掘出的組合詞或搭配詞的添加到組合詞詞典或搭配詞詞典中。例如,新詞“部屋O中O雲(yún)”(屋子里的云),是日本的一個(gè)最新的發(fā)明。這個(gè)詞,在一個(gè)月前,詞頻非常低,不過這一個(gè)月,廣泛出現(xiàn)于各個(gè)網(wǎng)頁,頻次急速上升。當(dāng)用戶輸入到“~(部屋)的時(shí)候,輸入法會(huì)在“預(yù)測”界面里面顯示“~讀音開頭的詞條,也包括復(fù)合詞“部屋O中O雲(yún)”,方便用戶或吸引用戶的眼球去baidu搜索url查找進(jìn)一步的相關(guān)網(wǎng)頁信息等。
[0047]步驟S105,服務(wù)器通過組合詞詞典更新輸入法模型。其中,輸入法模型為日文輸入法模型、英文輸入法模型或中文輸入法模型。
[0048]具體地,當(dāng)用戶輸入特殊文節(jié)的組合詞的一部分內(nèi)容時(shí),服務(wù)器將特殊文節(jié)的組合詞中的另一部分內(nèi)容或全部內(nèi)容顯示在輸入界面中。例如,當(dāng)用戶輸入&二 V’的時(shí)候輸入界面除了出現(xiàn)“専攻”意外還會(huì)出現(xiàn)“専攻分野”這個(gè)復(fù)合詞使用戶可以快速的查找減少錄入時(shí)間。
[0049]在本發(fā)明的一個(gè)實(shí)施例中,當(dāng)用戶輸入特殊文節(jié)的搭配詞的全部或一部分內(nèi)容時(shí),會(huì)將特殊文節(jié)的搭配詞中的另一部分內(nèi)容或相符合的全部內(nèi)容顯示在輸入界面中。例如,當(dāng)用戶輸入“ h h t夂V h辦h,,的時(shí)候選擇同音動(dòng)詞“ P t的石-痛的石/炒的石,,中的哪個(gè)。顯然,如果給用戶推送“頭&炒A 3 ”(炒頭)的話,就會(huì)出現(xiàn)問題,因此服務(wù)器會(huì)將搭配關(guān)系“痛A 3 ”顯示在“炒A 3 ”之前供用戶選擇。再例如,對(duì)于搭配詞
6…分?P”而言,當(dāng)用戶輸入“?的時(shí)候服務(wù)器直接在輸入界面顯示
“ i亡 6 ” “ ? \y tz h ^ Λ 夂 P ” “ ? \y tz h ^ L.Λ t 姑九”等。
[0050]在本發(fā)明的一個(gè)實(shí)施例中,為了避免過多復(fù)合詞的新詞和熱詞引起用戶的眼花繚舌L服務(wù)器控制新詞和熱詞的整體數(shù)量。例如,分別不超過1000個(gè),按照出現(xiàn)頻次從高到低對(duì)“新詞” “熱詞”分別排序,然后分別取兩者沒有交集的前1000個(gè),作為“新詞”和“熱詞”
口 O
[0051]根據(jù)本發(fā)明實(shí)施例的方法,通過從大規(guī)模語料庫中挖掘出特殊文節(jié)的組合詞并建立組合詞詞典,使得用戶輸入特殊文節(jié)的組合詞的一部分內(nèi)容時(shí),服務(wù)器將特殊文節(jié)的組合詞中的另一部分內(nèi)容或全部內(nèi)容顯示在輸入界面中,從而提高了用戶的錄入速度,方便用戶使用,提高了用戶的滿意度和體驗(yàn)度。
[0052]圖4為根據(jù)本發(fā)明一個(gè)實(shí)施例的基于組合詞的詞典挖掘系統(tǒng)的框架圖。如圖4所示,根據(jù)本發(fā)明實(shí)施例的基于組合詞的詞典挖掘系統(tǒng)包括:分詞模塊100、挖掘模塊200、過濾模塊300、第一詞典模塊400和更新模塊500。
[0053]分詞模塊100用于獲取多個(gè)語料并將多個(gè)語料中每一個(gè)句子分詞為多個(gè)文節(jié)。
[0054]具體地,通過獲取網(wǎng)頁語料,采用教師指導(dǎo)的學(xué)習(xí)方法,將大量的網(wǎng)頁語料中每一個(gè)句子分詞為多個(gè)文節(jié)。采用教師指導(dǎo)的學(xué)習(xí)方法,確定分詞后生成的多個(gè)文節(jié)之間的語義依存關(guān)系。
[0055]在本發(fā)明的一個(gè)實(shí)施例中,文節(jié)由一個(gè)中心詞后接O個(gè)到多個(gè)附屬詞。例如,對(duì)如下語句“情報(bào)検索U私O専攻分野T +?!焙汀半x乳食? Zu食X ? B P i頭&痛的石。”經(jīng)過分詞后生成對(duì)應(yīng)的多個(gè)文節(jié)“情報(bào)検索ti 11私O 11専攻分野C +?!焙汀半x乳食f Il h ? Iv I I食B P i I I頭全I(xiàn) I痛*石?!?,同時(shí)其依存關(guān)系如圖2和圖3所
/Jn ο
[0056]挖掘模塊200用于從多個(gè)文節(jié)中挖掘特殊文節(jié)。特殊文節(jié)包括單文節(jié)、多文節(jié)和非連續(xù)文節(jié)中的一種或多種。
[0057]在本發(fā)明的一個(gè)實(shí)施例中,所挖掘的特殊文節(jié)分別為“情報(bào)検索ii”、“私O ”、“専攻分野T十。,,和“亡< ^ Iv I I食(? P i,,、“頭奩I I痛*石?!?br>
[0058]過濾模塊300用于對(duì)特殊文節(jié)進(jìn)行過濾和篩選以獲得特殊文節(jié)中的組合詞。
[0059]在本發(fā)明的一個(gè)實(shí)施例中,過濾模塊300去除特殊文節(jié)的前后非自立詞和標(biāo)點(diǎn)符號(hào)以保留特殊文節(jié)的中心詞。對(duì)上述所獲得的“情報(bào)検索ti”、“私O ”、“専攻分野T +?!焙蛈tz < ^ L I I食B L.P i”、“頭* I I痛* 3。”進(jìn)行過濾和篩選之后獲得單文節(jié)組合詞為“情報(bào)検索”和“専攻分野”,雙文節(jié)組合詞為“亡< ^ ^ I I食B P”和“頭* I I痛辦 6,,。
[0060]第一詞典模塊400用于過特殊文節(jié)中的組合詞的出現(xiàn)頻次生成組合詞詞典。
[0061]具體地,第一詞典模塊400通過特殊文節(jié)中組合詞的出現(xiàn)頻次決定是否將其組合詞作為組合詞詞典的一個(gè)元素。例如,對(duì)于上述兩個(gè)單文節(jié)組合詞和兩個(gè)雙文節(jié)組合詞而言,“情報(bào)検索”和“専攻分野”為復(fù)合名詞,而“亡< ^ ^ I I食B P”為一般的組合關(guān)系,其中將“情報(bào)検索”和“専攻分野”作為組合詞詞典的元素。
[0062]在本發(fā)明的一個(gè)實(shí)施例中,“預(yù)測”和“漢字候選”界面中會(huì)顯示“〈複合語〉,〈hot〉,〈new〉”等標(biāo)簽。這里“複合語”對(duì)應(yīng)中文的“復(fù)合詞”(代表“組合詞”和“搭配詞”),“hot”對(duì)應(yīng)“熱詞”,“new”對(duì)應(yīng)“新詞”。這里,“〈複合語 >”是必須顯示的,而“〈hot〉”和“〈new〉”不能同時(shí)使用,即一個(gè)復(fù)合詞不能同時(shí)是新詞和熱詞。
[0063]在本發(fā)明的一個(gè)實(shí)施例中,特殊文節(jié)包括單文節(jié),語義依存關(guān)系自給自足的多文節(jié)和存在非局部語義依存關(guān)系的非連續(xù)的多個(gè)文節(jié)。單文節(jié),雙文節(jié)等,都是分別獨(dú)立挖掘的,分別生成不同的組合詞詞典,再統(tǒng)一使用。
[0064]更新模塊500用于通過組合詞詞典更新輸入法模型。其中,輸入法模型為日文輸入法模型、英文輸入法模型或中文輸入法模型。
[0065]在本發(fā)明的一個(gè)實(shí)施例中,更新模塊500在預(yù)設(shè)周期內(nèi),例如,時(shí)隔一周或每個(gè)月兩次對(duì)互聯(lián)網(wǎng)中新增網(wǎng)頁進(jìn)行抓取,并對(duì)抓取內(nèi)容為新增網(wǎng)頁組合詞,從而獲得新增網(wǎng)頁中挖掘出的組合詞。如果挖掘出的組合詞的出現(xiàn)頻率超過預(yù)設(shè)值時(shí),例如從原有的出現(xiàn)頻次1000上升到1000000,將挖掘出的組合詞添加到組合詞詞典中。例如,新詞“部屋O中O雲(yún)”(屋子里的云),是日本的一個(gè)最新的發(fā)明。這個(gè)詞,在一個(gè)月前,詞頻非常低,不過這一個(gè)月,廣泛出現(xiàn)于各個(gè)網(wǎng)頁,頻次急速上升。當(dāng)用戶輸入到“~(部屋)的時(shí)候,輸入法會(huì)在“預(yù)測”界面里面顯示“~力”讀音開頭的詞條,也包括復(fù)合詞“部屋O中O雲(yún)”,方便用戶或吸引用戶的眼球去baidu搜索url查找進(jìn)一步的相關(guān)網(wǎng)頁信息等。
[0066]圖5為根據(jù)本發(fā)明另一個(gè)實(shí)施例的基于組合詞的詞典挖掘系統(tǒng)的框架圖。如圖5所示,根據(jù)本發(fā)明實(shí)施例的基于組合詞的詞典挖掘系統(tǒng)還包括輸入法控制模塊600和第二詞典模塊700。
[0067]輸入法控制模塊600用于當(dāng)用戶輸入特殊文節(jié)的所述組合詞的一部分內(nèi)容時(shí),將特殊文節(jié)的所述組合詞中的另一部分內(nèi)容或全部內(nèi)容顯示在輸入界面中。
[0068]第二詞典模塊700用于根據(jù)所述特殊文節(jié)中搭配詞的出現(xiàn)頻次生成所述搭配詞詞典,并通過所述搭配詞詞典更新輸入法模型。
[0069]在本發(fā)明的一個(gè)實(shí)施例中,第二詞典模塊700根據(jù)特殊文節(jié)中搭配詞的出現(xiàn)頻次生成搭配詞詞典。例如,搭配詞“頭& 11痛A 3 ”屬于固定的搭配詞語并且其出現(xiàn)頻次較高,因此將其添加到搭配詞詞典中。
[0070]在本發(fā)明的一個(gè)實(shí)施例中,更新模塊500在預(yù)設(shè)周期內(nèi),例如,時(shí)隔一周或每個(gè)月兩次對(duì)互聯(lián)網(wǎng)中新增網(wǎng)頁進(jìn)行抓取,并對(duì)抓取內(nèi)容為新增網(wǎng)頁搭配詞,從而獲得新增網(wǎng)頁中挖掘出的搭配詞。如果挖掘出的搭配詞的出現(xiàn)頻率超過預(yù)設(shè)值時(shí),將挖掘出的搭配詞添加到搭配詞詞典中。
[0071 ] 在本發(fā)明的一個(gè)實(shí)施例中,當(dāng)用戶輸入特殊文節(jié)的組合詞的一部分內(nèi)容時(shí),輸入法控制模塊600將特殊文節(jié)的組合詞中的另一部分內(nèi)容或全部內(nèi)容顯示在輸入界面中。例如,當(dāng)用戶輸入& 二 ) ”的時(shí)候輸入界面除了出現(xiàn)“専攻”意外還會(huì)出現(xiàn)“専攻分野”這個(gè)復(fù)合詞使用戶可以快速的查找減少錄入時(shí)間。
[0072]在本發(fā)明的一個(gè)實(shí)施例中,當(dāng)用戶輸入特殊文節(jié)的搭配詞的全部或一部分內(nèi)容時(shí),輸入法控制模塊600將特殊文節(jié)的搭配詞中的另一部分內(nèi)容或相符合的全部內(nèi)容顯示在輸入界面中。例如,當(dāng)用戶輸入^ ^全?辦石”的時(shí)候選擇同音動(dòng)詞“ 亡的石-痛辦石/炒6? ”中的哪個(gè)。顯然,如果給用戶推送“頭&炒A 3 ”(炒頭)的話,就會(huì)出現(xiàn)問題,因此輸入法控制模塊將搭配關(guān)系“痛A ^ ”顯示在“炒A ^ ”之前供用戶選擇。再例如,對(duì)于搭配詞“毛力、盧:b…力、i \y Xl tS- V ”而言,當(dāng)用戶輸入“毛\y ^ \y tz h ν的時(shí)候服務(wù)器直接在輸入界面顯示“七力、亡6 ” “ ? \y -A- \y tz h -A' ij 札夂P ” “ ? V V tz h^ I Λ ?姑九”等。
[0073]在本發(fā)明的一個(gè)實(shí)施例中,為了避免過多復(fù)合詞的新詞和熱詞引起用戶的眼花繚舌L輸入法控制模塊600控制“新詞”和“熱詞”的整體數(shù)量。例如,分別不超過1000個(gè),按照出現(xiàn)頻次從高到低對(duì)“新詞” “熱詞”分別排序,然后分別取兩者沒有交集的前1000個(gè),作為“新詞”和“熱詞”集合。
[0074]根據(jù)本發(fā)明實(shí)施例的系統(tǒng),通過從大規(guī)模語料庫中挖掘出特殊文節(jié)的組合詞并建立組合詞詞典,使得用戶輸入特殊文節(jié)的組合詞的一部分內(nèi)容時(shí),輸入法控制模塊將特殊文節(jié)的組合詞或搭配詞中的另一部分內(nèi)容或全部內(nèi)容顯示在輸入界面中,從而提高了用戶的錄入速度,方便用戶使用,提高了用戶的滿意度和體驗(yàn)度。
[0075]應(yīng)當(dāng)理解,本發(fā)明的系統(tǒng)實(shí)施例中的各個(gè)模塊和單元的具體操作過程可與方法實(shí)施例中的描述相同,此處不再詳細(xì)描述。
[0076]在本發(fā)明的一個(gè)實(shí)施例中,特殊文節(jié)包括所有單文節(jié),語義依存關(guān)系自給自足的多文節(jié)和存在非局部語義依存關(guān)系的非連續(xù)的多個(gè)文節(jié)。單文節(jié),雙文節(jié)等,都是分別獨(dú)立挖掘的,分別生成不同的組合詞詞典,最后再統(tǒng)一使用。
[0077]盡管上面已經(jīng)示出和描述了本發(fā)明的實(shí)施例,可以理解的是,上述實(shí)施例是示例性的,不能理解為對(duì)本發(fā)明的限制,本領(lǐng)域的普通技術(shù)人員在不脫離本發(fā)明的原理和宗旨的情況下在本發(fā)明的范圍內(nèi)可以對(duì)上述實(shí)施例進(jìn)行變化、修改、替換和變型。
【權(quán)利要求】
1.一種基于組合詞的詞典挖掘方法,其特征在于,包括以下步驟: 服務(wù)器獲取多個(gè)語料并將所述多個(gè)語料中每一個(gè)句子分詞為多個(gè)文節(jié); 所述服務(wù)器從所述多個(gè)文節(jié)中挖掘特殊文節(jié); 所述服務(wù)器對(duì)所述特殊文節(jié)進(jìn)行過濾和篩選以獲得特殊文節(jié)中的組合詞; 所述服務(wù)器通過所述特殊文節(jié)中的組合詞的出現(xiàn)頻次生成所述組合詞詞典; 所述服務(wù)器通過所述組合詞詞典更新輸入法模型。
2.根據(jù)權(quán)利要求1所述的基于組合詞的詞典挖掘方法,其特征在于,當(dāng)用戶輸入特殊文節(jié)的所述組合詞的一部分內(nèi)容時(shí),所述服務(wù)器將特殊文節(jié)的所述組合詞中的另一部分內(nèi)容或全部內(nèi)容顯示在輸入界面中。
3.根據(jù)權(quán)利要求1或2所述的基于組合詞的詞典挖掘方法,其特征在于,還包括: 所述服務(wù)器根據(jù)所述特殊文節(jié)中搭配詞的出現(xiàn)頻次生成所述搭配詞詞典,并通過所述搭配詞詞典更新輸入法模型。
4.根據(jù)權(quán)利要求3所述的基于組合詞的詞典挖掘方法,其特征在于,當(dāng)用戶輸入特殊文節(jié)的所述搭配詞的全部或一部分內(nèi)容時(shí),所述服務(wù)器將特殊文節(jié)的所述搭配詞中的另一部分內(nèi)容或全部內(nèi)容顯示在輸入界面中。
5.根據(jù)權(quán)利要求4所述的基于組合詞的詞典挖掘方法,其特征在于,還包括: 所述服務(wù)器在預(yù)設(shè)周期內(nèi)對(duì)互聯(lián)網(wǎng)中新增網(wǎng)頁進(jìn)行抓取; 所述服務(wù)器對(duì)所述新增網(wǎng)頁進(jìn)行組合詞和搭配詞挖掘,以獲得從所述新增網(wǎng)頁中挖掘出的組合詞和挖掘詞; 如果所述挖掘出的組合詞或搭配詞的出現(xiàn)頻率超過預(yù)設(shè)值,則將所述挖掘出的組合詞或搭配詞的添加到所述組合詞詞典或搭配詞詞典中。
6.根據(jù)權(quán)利要求1所述的基于組合詞的詞典挖掘方法,其特征在于,對(duì)所述特殊文節(jié)進(jìn)行過濾和篩選包括: 去除所述特殊文節(jié)的前后非自立詞和標(biāo)點(diǎn)符號(hào)以保留所述特殊文節(jié)的中心詞。
7.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的基于組合詞的詞典挖掘方法,其特征在于,所述特殊文節(jié)包括單文節(jié)、多文節(jié)和非連續(xù)文節(jié)中的一種或多種。
8.根據(jù)權(quán)利要求1-6任一項(xiàng)所述的基于組合詞的詞典挖掘方法,其特征在于,所述輸入法模型為日文輸入法模型、英文輸入法模型或中文輸入法模型。
9.一種基于組合詞的詞典挖掘系統(tǒng),其特征在于,包括: 分詞模塊,用于獲取多個(gè)語料并將所述多個(gè)語料中每一個(gè)句子分詞為多個(gè)文節(jié); 挖掘模塊,用于從所述多個(gè)文節(jié)中挖掘特殊文節(jié); 過濾模塊,用于對(duì)所述特殊文節(jié)進(jìn)行過濾和篩選以獲得特殊文節(jié)中的組合詞; 第一詞典模塊,用于通過所述特殊文節(jié)中的組合詞的出現(xiàn)頻次生成所述組合詞詞典;以及 更新模塊,用于通過所述組合詞詞典更新輸入法模型。
10.根據(jù)權(quán)利要求9所述的基于組合詞的詞典挖掘系統(tǒng),其特征在于,還包括: 輸入法控制模塊,用于當(dāng)用戶輸入特殊文節(jié)的所述組合詞的一部分內(nèi)容時(shí),將特殊文節(jié)的所述組合詞中的另一部分內(nèi)容或全部內(nèi)容顯示在輸入界面中。
11.根據(jù)權(quán)利要求9或10所述的基于組合詞的詞典挖掘系統(tǒng),其特征在于,還包括:第二詞典模塊,用于根據(jù)所述特殊文節(jié)中搭配詞的出現(xiàn)頻次生成所述搭配詞詞典,并通過所述搭配詞詞典更新輸入法模型。
12.根據(jù)權(quán)利要求11所述的基于組合詞的詞典挖掘系統(tǒng),其特征在于,所述輸入法控制模塊在用戶輸入特殊文節(jié)的所述搭配詞的全部或一部分內(nèi)容時(shí),將特殊文節(jié)的所述搭配詞中的另一部分內(nèi)容或全部內(nèi)容顯示在輸入界面中。
13.根據(jù)權(quán)利要求12所述的基于組合詞的詞典挖掘系統(tǒng),其特征在于,還包括: 更新模塊,用于在預(yù)設(shè)周期內(nèi)對(duì)互聯(lián)網(wǎng)中新增網(wǎng)頁進(jìn)行抓取,并對(duì)所述新增網(wǎng)頁進(jìn)行組合詞和搭配詞挖掘,以獲得從所述新增網(wǎng)頁中挖掘出的組合詞和挖掘詞,以及在所述挖掘出的組合詞或搭配詞的出現(xiàn)頻率超過預(yù)設(shè)值時(shí),將所述挖掘出的組合詞或搭配詞的添加到所述組合詞詞典或搭配詞 詞典中。
14.根據(jù)權(quán)利要求9所述的基于組合詞的詞典挖掘系統(tǒng),其特征在于,所述過濾模塊去除所述特殊文節(jié)的前后非自立詞和標(biāo)點(diǎn)符號(hào)以保留所述特殊文節(jié)的中心詞。
15.根據(jù)權(quán)利要求9-14所述的基于組合詞的詞典挖掘系統(tǒng),其特征在于,所述特殊文節(jié)包括單文節(jié)、多文節(jié)和非連續(xù)文節(jié)中的一種或多種。
16.根據(jù)權(quán)利要求9-14所述的基于組合詞的詞典挖掘系統(tǒng),其特征在于,所述輸入法模型為日文輸入法模型、英文輸入法模型或中文輸入法模型。
【文檔編號(hào)】G06F17/27GK104077298SQ201310102769
【公開日】2014年10月1日 申請(qǐng)日期:2013年3月27日 優(yōu)先權(quán)日:2013年3月27日
【發(fā)明者】吳先超, 何徑舟, 龔天雪 申請(qǐng)人:百度國際科技(深圳)有限公司