本發(fā)明涉及計算機輸入法領域,特別是涉及根據(jù)中文語言模型自動生成的輸入法詞庫。
背景技術:
在中文輸入法領域,漢字編碼技術和詞庫技術是兩大核心技術。經(jīng)過上世紀80年代以來30多年的發(fā)展,漢字編碼技術已經(jīng)趨于成熟和穩(wěn)定,目前輸入法創(chuàng)新發(fā)展的空間和潛力已集中到輸入法詞庫技術上,但就目前輸入法詞庫技術發(fā)展現(xiàn)狀看,無論是面向臺式電腦標準鍵盤開發(fā)的輸入法,還是面向移動終端如手機觸摸屏開發(fā)的輸入法,以及面向語音識別領域開發(fā)的輸入法,其詞庫均存在五個方面的問題:
一是詞庫“小而不全”。詞庫詞語主要來源于各類詞典中的通用詞語,以及日常人工積累的各類詞語,其詞庫規(guī)模通常在幾萬條至十幾萬條之間,由于規(guī)模小,且絕大部分是規(guī)范的、“詞典”類的靜態(tài)詞語,因而滿足不了漢語言靈活多樣的動態(tài)交流需求,錄入者無法以字詞組合式整體錄入,導致錄入體驗差、效率低。這類“小而不全”的代表性的輸入法有以王碼五筆輸入法為代表的各類形碼輸入法,以及拼音輸入法領域的全拼輸入法、智能abc拼音輸入法、紫光拼音輸入法、拼音加加輸入法等等;
二是詞庫“大而不全”。代表性的輸入法有搜狗拼音輸入法、百度輸入法等,這類輸入法詞庫通常是基于“詞典類通用詞語+搜索引擎發(fā)現(xiàn)新詞熱詞”構建的,詞典類通用詞語來源于各類辭書及日常積累,“搜索引擎發(fā)現(xiàn)新詞熱詞”是通過已有專利如《一種獲取新詞的方法、裝置以及一種輸入法系統(tǒng)》(公開號:cn1924858b)、《互聯(lián)網(wǎng)熱詞挖掘方法及裝置》(公開號:cn104679738a)、《提供新詞或熱詞的方法及系統(tǒng)》(公開號:cn102163198a)、《詞庫生成方法及其系統(tǒng)、輸入法及輸入系統(tǒng)》(公開號:cn103853746a)等專利技術實現(xiàn)的,其基本原理是通過搜索引擎收集網(wǎng)頁上的用戶輸入框中的內(nèi)容,然后經(jīng)過分詞技術處理,并與后臺語料庫比較并達到某頻率閾值后,確定為熱詞、新詞,最終收錄進輸入法詞庫。隨著新詞、熱詞的不斷積累,詞庫規(guī)模通常在幾十萬條至近百萬條之間,如果再加上“云”詞語,能供用戶檢索的詞庫能夠達到幾百萬條甚至近千萬條之巨,雖然規(guī)??涨皵U張,但由于采用的是從用戶輸入框中的海選技術,而用戶在輸入框中搜索的往往是一些熱門的人名、地名、新聞事件,以及網(wǎng)絡流行語等,很少有人在輸入法框中搜索“在此基礎上、難道是、不是說、越說越快、吃過飯后、說都說不清、飛了、跑了、一輛接一輛、反咬一口”這樣的詞語,因此,通過搜索引擎技術很難收集到這些最接近漢語言本質核心、最具普遍性應用的“大塊頭”、高質量的輸入法詞語。再看所謂的新詞、熱詞,其實它們在使用上存在很大的局限性,其一是生命周期非常短,當時比較熱門的詞語,有可能沒過多久就被無情地淘汰了,如“我的爸爸是李剛、中國式過馬路、apec藍、元芳體……”等等;其二是使用范圍非常窄,在人們?nèi)粘]斎胛臋n及對話交流中,遇到所謂新詞、熱詞的幾率非常小,因此靠新詞、熱詞來提高輸入效率和輸入體驗效果是非常有限的;其三是熱衷于使用新詞熱詞的人群規(guī)模也有限?!墩Z言文字報》2016年1月6日第2版(總第953期)刊文《小學高段學生使用年度新詞語情況調(diào)查》(劉海平、楊傳鑫)顯示,“在使用年度新詞語的態(tài)度上,明確表示‘喜歡’的占28.76%,而‘無所謂’和‘說不清’態(tài)度分別占45.15%和19.40%;持‘不喜歡’態(tài)度的為6.69%”,“在使用年度新詞語的頻率上,17.57%的學生‘經(jīng)常使用’年度新詞語,55.85%的學生‘偶爾使用’,而‘幾乎不用’‘從未使用’的比例分別為16.72%和10.37%”。綜上所述,搜索引擎發(fā)現(xiàn)新詞熱詞方法并不適合于構建輸入法核心詞庫,只適合于作為一種補充,單純地利用 這種技術構建輸入法詞庫,會導致許多真正有價值的輸入法詞語并沒有真正挖掘出來,甚全混進了大量的無用的“垃圾”詞語,出現(xiàn)“大而不全”的現(xiàn)象;
三是詞庫內(nèi)容難以記憶。無論對于“小而不全”詞庫,還是對于“大而不全”的詞庫,都需要人為地記憶詞庫里面包含了哪些詞語,沒包含哪些詞語,這樣,在使用輸入法時才能按照詞語方式進行錄入??擅鎸斎敕ㄔ~庫里小到幾萬、十幾萬,大到近百萬甚至上千萬而又沒有任何語言規(guī)律和特征的詞語,用戶很難記憶,因而為高效使用詞庫造成了極大障礙;
四是詞庫詞語“收而難管”。目前的輸入法詞庫,基本上是漢語語料的簡單堆砌,詞語上面沒有附帶任何語言信息和詞庫管理信息,因而無法對詞庫中的詞語進行分類、挑選、增刪、排序等必要的管理,導致輸入法詞庫升級改造難、定向定制功能差、重復維護工作量大,不利于輸入法詞庫發(fā)展;
五是輸入體驗差、效率低。由于現(xiàn)有的輸入法詞庫或是照抄照搬辭書詞語、或是一味追求網(wǎng)絡新詞熱詞,沒有從漢語言交流本質上研究字詞組合規(guī)律,因而很難做到按照語言交流時的語音停頓規(guī)律和語義完整性要求進行輸入,直接導致了文字錄入和語言交流相脫節(jié)、錄入效率低下的問題。
技術實現(xiàn)要素:
本發(fā)明的目的是為了解決上述輸入法詞庫內(nèi)容“小而不全、大而不全、難以記憶、詞庫內(nèi)容難以管理、錄入者輸入體驗差、效率低”等問題,
為實現(xiàn)以上目的,本發(fā)明是通過以下技術方案來實現(xiàn)的:
一種根據(jù)中文語言模型構建輸入法詞庫的方法,由中文語言模型模塊和造詞模塊組成,
所述的中文語言模型模塊,用于為造詞模塊批量生成詞語時提供構詞信息以及為最終生成的詞庫提供詞庫管理信息;所述造詞模塊用于根據(jù)中文語言模型模塊提供的構詞信息自動批量生成詞語。
所述的中文語言模型模塊由模型標識子模塊和模型構詞信息子模塊組成,模型標識子模塊收錄中文語言模型,中文語言模型由代表造詞主體的字符串標識、前綴、插入成分和后綴組成,附加在造詞主體前面的為前綴,附加在造詞主體后面的為后綴,插入造詞主體中間的為插入成分,前綴、插入成分和后綴可以只出現(xiàn)其一,也可以共現(xiàn),另外,插入成分可以包含一個或多個;所述的造詞主體指的是造詞模塊中的造詞主體子模塊所收錄的用于造詞用的基礎詞語;模型構詞信息子模塊主要由按照口語、書面語、專業(yè)用語等進行分類的語言性質信息數(shù)據(jù)表,及按照主謂、動賓、定心等進行分類的詞語結構類型信息數(shù)據(jù)表,及按照表時間、空間、數(shù)量、程度等進行分類的語義范疇信息數(shù)據(jù)表,及按照疑問、陳述、祈使、感嘆進行分類的語氣類型信息數(shù)據(jù)表,及按照主動、被動、使動等進行分類的語態(tài)類型信息數(shù)據(jù)表,以及修飾層級、排序權重信息數(shù)據(jù)表等組成;所述的中文語言模型模塊中的中文語言模型根據(jù)中文語音停頓特點和語義完整性要求進行開發(fā)。
所述的造詞模塊由造詞主體子模塊、詞類標注子模塊和詞語結構標注子模塊組成,造詞主體子模塊收錄供造詞用的基礎詞語,這些基礎詞語稱為造詞主體;詞類標注子模塊將造詞主體子模塊中的基礎詞語進行詞類標注,劃分為名詞、動詞、形容詞、代詞、副詞、數(shù)詞、量詞、介詞、連詞、助詞、嘆詞、擬聲詞等具體數(shù)據(jù)表;詞語結構標注子模塊將造詞主體子模塊中的基礎詞語進行詞語結構標注,劃分為主謂、述賓、述補、定心、狀心、量心、數(shù)量、并列、反序、重疊、順遞、復指、雜糅、介詞短語以及同義詞、反義詞、平行詞等具體數(shù)據(jù)表。所述的造詞模塊中的詞類標注子模塊和詞語結構標注子模塊中的數(shù)據(jù)表均為造詞主體設置斷點信息,用于造詞時對造詞主體執(zhí)行插入操作以及對造詞主體前后兩部分分別加以處理。
為了實現(xiàn)本發(fā)明的目的,本發(fā)明提供了一種根據(jù)中文語言模型批量生成輸入法詞庫詞語的方法,包括以下三個步驟:
步驟1:提煉中文語言模型,并以此為基礎構建模型標識子模塊和模型構詞信息子模塊;
步驟2:通過《現(xiàn)代漢語詞典》等工具書及人工收集方式,選取基礎性、通用性的造詞素材,并以此為基礎構建造詞主體子模塊、詞類標注子模塊和詞語結構標注子模塊;
步驟3:利用數(shù)據(jù)庫處理軟件,將中文語言模型模塊中的模型構詞信息子模塊和造詞模塊中相應數(shù)據(jù)表的信息相關聯(lián),利用數(shù)據(jù)庫查詢語句批量生成輸入法詞庫詞語。
為了實現(xiàn)本發(fā)明的目的,進一步將本發(fā)明拓展到各專業(yè)輸入領域,本發(fā)明還提供了一種根據(jù)中文語言模型構建專業(yè)詞庫的方法,包括以下四個步驟:
步驟1:提煉中文語言模型,并以此為基礎構建模型標識子模塊和模型構詞信息子模塊;
步驟2:建立專業(yè)詞語造詞素材庫;
步驟3:以上述專業(yè)詞語造詞素材庫為基礎,構建造詞主體子模塊、詞類標注子模塊和詞語結構標注子模塊;
步驟4:利用數(shù)據(jù)庫處理軟件,將中文語言模型模塊中的模型構詞信息子模塊和造詞模塊中相應數(shù)據(jù)表的信息相關聯(lián),利用數(shù)據(jù)庫查詢語句批量生成輸入法專業(yè)詞語。
為了實現(xiàn)本發(fā)明的目的,本發(fā)明還提供了一種基于中文語言模型對詞庫內(nèi)容實施有效管理的方法,由語料模塊和詞庫信息模塊組成,其中,語料模塊收錄中文語言模型模塊中的造詞模塊生成的全部詞語;詞庫信息模塊的構成與中文語言模型模塊中的模型構詞信息子模塊完全相同,并由其傳遞數(shù)據(jù)信息。
為了實現(xiàn)本發(fā)明的目的,本發(fā)明還提供了一種在輸入法提示框中提示模型詞語的方法,包括以下三個步驟:
步驟1:在輸入法碼表中,增加中文語言模型信息,使碼表中的每條詞語和中文語言模型形成一一對應關系;
步驟2:在輸入法引擎中增加搜索碼表時,按照中文語言模型查找所對應的詞語的功能;
步驟3:在輸入法提示框中增加查看模型詞語的圖標或按鈕,或其他類似的提示性標志,當正在輸入的編碼對應的是一組模型詞語時,激活該標志,當把鼠標光標移動到該標志上面時,顯示中文語言模型,當用鼠標單擊或按下預先定義的鍵盤按鍵時,顯示該中文語言模型對應的全部詞語。
有益效果
通過本發(fā)明構建的輸入法詞庫,充分反映了漢語言句法和詞法特點,特別是語言交流中的字詞組合規(guī)律,使錄入者可以采用接近自然語言交流中的語音停頓方式和語義完整性進行輸入,創(chuàng)造了一種仿真的自然語言交流環(huán)境,提高了錄入體驗;
通過本發(fā)明構建的輸入法詞庫,實現(xiàn)了以中文語言模型為統(tǒng)領,對語言交流中各種字詞組合規(guī)律進行全面系統(tǒng)概括,從而建立起了統(tǒng)一規(guī)范的輸入法詞庫收詞標準,保證所構建的詞庫詞語應心盡收,解決了以往輸入法詞庫收集詞語不全面、不系統(tǒng)、無標準的問題,杜絕了用戶對詞庫內(nèi)容無從把握、錄入中因缺少詞語而打空碼進而回刪現(xiàn)象的發(fā)生;
通過本發(fā)明構建的輸入法詞庫,是以漢語言內(nèi)在規(guī)律為根本,以本求源,有目標、有重點地“主動”生成詞語的過程,與通過搜索引擎“海撈”新詞熱詞方向截然相反,并有著本質的區(qū)別,其準確性、普適性、實用性全面提高,并能有效阻斷“垃圾”詞語進入,因而在詞庫使用過程中節(jié)省了計算機資源,提高了檢索效率,杜絕了垃圾詞語對錄入者的影響;
通過本發(fā)明構建的輸入法詞庫,錄入中使?jié)h語言字詞組合率大幅提升,單字錄入現(xiàn)象趨近于零,錄入者在輸入過程中避免了以往“擠牙膏”式單字錄入方式,實現(xiàn)了“大塊頭”整體錄入,錄入效率可以提高30%以上,創(chuàng)造了可觀的工作效率和社會效率與效益;
通過本發(fā)明構建的輸入法詞庫,由于里面的絕大部分詞語都是基于中文語言模型生成的,錄入時用戶只要記住其中的一條詞語,那么就可斷定與之具有相同特征的所有詞語都被收錄 了,比如,嘗試將“吃完飯后”整體錄入成功了,那么與此相似的“洗完澡后、交完錢后、吵完架后、買完菜后……”等等都可以作為一個詞語放心大膽地整體錄入了,這種特征使用戶從記憶輸入法詞庫中數(shù)量繁多的詞語向記憶數(shù)量有限的中文語言模型的轉變,記憶量大幅減少,如果再配合輸入法提示框中的中文語言模型提示功能,就能更加方便地掌握詞庫中收錄的詞語,進一步增強錄入體驗和效率;
通過本發(fā)明構建的輸入法詞庫,通過在中文語言模型上附加完整的語言信息和詞庫管理信息,并利用數(shù)據(jù)庫技術,實現(xiàn)了以模型造詞、以模型管理詞庫的目標,較好地解決了詞庫無法精細管理的問題,使詞庫的日常維護、精細挑選、面向特定領域定制,以及升級改造變得異常簡單,使以往輸入法詞庫“收而難管”的問題得到的有效解決;
另外,由于采用本發(fā)明開發(fā)的輸入法詞庫,是通過挖掘中文語言模型構建的,本質上體現(xiàn)了中文語言的特點和規(guī)律,因此,除了能夠應用到傳統(tǒng)鍵盤和觸摸屏等輸入法領域外,還可應用于涉及中文信息處理的其它多個領域,如語音識別輸入法、機器人對人類語言識別等,并且使其識別效率和準確率得到大幅度提升。
具體實施方式
本發(fā)明的基本思想是利用中文語言模型構建輸入法詞庫并對其實施有效管理。根據(jù)這一基本思想,下面對本發(fā)明內(nèi)容中的相應模塊做進一步說明并結合實施例詳細闡述如下:
1、提煉中文語言模型
中文語言模型主要從三個維度進行提煉。
一是根據(jù)語言交流時的語義完整性和語音停頓規(guī)律進行提煉。先說語義完整性,是指語句中具有完整意義的字詞組合體。例如,如果將“吃飯、干活、唱歌、交錢、做作業(yè)”分別作為一個語義單位,那么,“吃完飯后、干完活后、唱完歌后、交完錢后、做完作業(yè)后”都應視作與之對應的完整的語義單位,按照這個思想,分析“吃完飯后、干完活后、唱完歌后、交完錢后、做完作業(yè)后”,實質上是由動賓結構的詞語“吃飯、干活、唱歌、交錢、做作業(yè)”中間插入“完”,再加后綴“后”形成的,由此,可提煉出“動詞+完+賓語+后”的字詞組合模型,用verb代表動詞,obj代表賓語,那么中文語言模型就可表示為:“verb完obj后”,以此代表“吃完飯后、干完活后、唱完歌后、交完錢后、做完作業(yè)后……”等一大批詞語;再說語言交流時的語音停頓規(guī)律,以“千年古剎座落在黃山腳下”一句為例,按照說話人正常的語音停頓習慣,應該如“千年/古剎/座落在/黃山腳下”所示,這樣,以其中的“座落在”為提煉要素,就可歸納出“動詞+在”的字詞組合,用“verb”表示動詞,那么這個中文語言模型就可表示為“verb在”,它就代表了“座落在、消失在、丟在、寫在、掛在……”等一大批詞語;
二是按照漢語詞類和詞語結構生成短語的規(guī)律進行提煉。結合現(xiàn)代漢語語法知識,所說的漢語詞類主要指名詞、動詞、形容詞、代詞、副詞、介詞、連詞、助詞、嘆詞、數(shù)詞、量詞、擬聲詞等,所說的詞語結構主要指述賓結構、主謂結構、定心結構、狀心結構、述補結構、量心結構、并列結構、反序結構、重疊結構、雜糅結構、介詞結構等。不同的漢語詞類具有不同的生成短語規(guī)律,以形容詞為例,可與“很”、“非?!薄ⅰ皹O了”等緊密結合,用adj表示形容詞,由此可提煉出“很adj”、“非常adj”、“adj極了”等中文語言模型,分別代表“很冷、很困難、很大方……”、“非常好、非常漂亮、非常緊張……”、“冷極了、快極了、貴極了……”等各自一大批詞語;不同的詞語結構同樣具有不同的生成短語規(guī)律,以動賓結構為例,詞語中間可插入“著、了、過”,后面可加后綴“前、后”等,若以verb代表動詞,obj代表賓語,可提煉出“verb著obj、verb了obj、verb過obj、verb過obj后、verbobj前”等相關模型,以此分別代表“唱著歌、吃著飯、上著網(wǎng)、喝著茶……”、“丟了錢、曠了工、停了課……”、“洗過澡、賣過菜、唱過戲……”、“交過錢后、刷過牙后、買過菜后……”以及“吃飯前、睡覺前、上網(wǎng)前……”等等各自一大批詞語。
三是按照漢語句式的構形規(guī)律來提煉。所說的句式主要指疑問、陳述、祈使、感嘆四大句式。每種句式都有不同的構形特點,據(jù)此可提煉出不同的中文語言模型。比如疑問句式,在構形上,常見的有“……嗎、……吧、難道不……嗎”,以verb代表動詞,adj代表形容詞,據(jù)此,可提煉出“verb嗎、adj吧、難道不verb嗎”等等中文語言模型,以此分別代表“交嗎、學嗎、吃嗎……”、“冷吧、難吧、漂亮吧……”、“難道不交嗎、難道不學嗎、難道不寫嗎……”等各自一大批詞語;再如祈使句式,其構形特點是,經(jīng)常要求某人做什么或不做什么,以verb代表動詞,據(jù)此可提煉出“快verb、別verb、一定verb”等中文語言模型,以此分別代表“快說、快走、快去……”、“別動、別說、別走……”、“一定來、一定說、一定交……”等等各自一大批詞語。同樣,根據(jù)陳述句式和感嘆句式也可以提煉出一大批中文語言模型。
提煉出中文語言模型后,還要在其上面要附有必要的語言信息和詞庫管理信息。包括:語言性質,主要指是否口語、書面語、專業(yè)用語等信息;結構類型,主要指是否動賓結構、主謂結構、定心結構、狀心結構、述補結構、量心結構、并列結構、反序結構、重疊結構、雜糅結構、介詞結構等信息;語義范疇,主要指是否表時間、空間、數(shù)量、程度、歸屬、判斷、結果等信息;語氣類型,主要指是否表疑問、陳述、祈使、感嘆語氣信息;語態(tài)類型,主要指是否表主動、被動、使動語態(tài)信息。另外還要附有修飾層級和排序權重等信息。上述附著信息的方法為:在數(shù)據(jù)庫數(shù)據(jù)表中設置相應字段來實現(xiàn)。
2、構建造詞模塊。造詞模塊是自動批量生成詞庫詞語的基礎平臺,其中各數(shù)據(jù)表中的詞語即中文語言模型中所指的造詞主體。在造詞模塊中,無論是構成詞類標注子模塊的數(shù)據(jù)表,還是構成詞語結構標注子模塊的數(shù)據(jù)表,都應進一步附加詳細的子分類信息,以適應造詞時精準選擇造詞主體的需要。例如,以noun代表名詞,“noun人”這個中文語言模型代表的是“中國人、美國人、加拿大人、北京人、上海人、鞍山人、東北人……”等一大批詞語,造詞時,需要用詞類標注子模塊中的名詞表作為造詞主體進行造詞,但通過觀察發(fā)現(xiàn),“noun”僅限于表示國家、地區(qū)、城市等地點的名詞,而不是名詞表中的全部,這樣,就需要名詞表能夠細分出地點名詞,才能實現(xiàn)精準造詞。下面將造詞模塊中的主要數(shù)據(jù)表細分情況分列如下:
詞類標注子模塊中,名詞細分為:物質名詞、抽象名詞、生命名詞、可數(shù)名詞、方位名詞、時間名詞、地點名詞、稱謂名詞;代詞細分為:人稱代詞、指示代詞、疑問代詞、特殊代詞;動詞細分為:行為動詞、狀態(tài)動詞、及物動詞、趨向動詞、情態(tài)動詞;形容詞細分為:性質形容詞、狀態(tài)形容詞;量詞細分為:個體量詞、集合量詞、度量詞、不定量詞、準量詞、復合量詞、動量詞、借用量詞、宏觀量詞;副詞細分為:時間副詞、地點副詞、程度副詞、范圍副詞、頻率副詞、語氣副詞。詞類標注子模塊中的其他數(shù)據(jù)表細分情況不再繁述。
詞語結構標注子模塊中,主謂結構細分為:名-動型、名-形型、代-動型、代-形型;述賓結構細分為:動-名型、動-代型;述補結構細分為:動-形型、動-數(shù)-量型、動-趨型;定心結構細分為:形-名型、名-名型、動-名型、數(shù)-量-名型。詞語結構標注子模塊中的其他數(shù)據(jù)表細分情況不再繁述。
除了為造詞模塊中各數(shù)據(jù)表附加詳細的子分類信息外,還要為各數(shù)表中的詞語(也就是造詞主體)設置斷點,用于造詞時執(zhí)行插入操作以及對造詞主體前后兩部分分別進行處理。對于詞語結構標注子模塊中各數(shù)據(jù)表詞語,其斷點位置與該結構的分界點相同,以動賓結構數(shù)據(jù)表為例,如里面的詞語為“吃飯、趕火車、擠兌人、上班、唱歌……”,其動賓分界點可表示為“吃-飯、趕-火車、擠兌-人、上-班、唱-歌”,那么,為它們標注的斷點也落在該處,這一點不難理解。這里著重說明一下詞類標注子模塊中各數(shù)據(jù)表詞語的斷點設置原則,詞類標注子模塊數(shù)據(jù)表中的詞語大多是單純結構,中間很難斷開,這時,只需在其中間位置設置斷點即可,以形容詞表為例,如里面的詞語為“大方、紅火、慌張、漂亮……”,則設置斷點后的形式為“大-方、紅-火、慌-張、漂-亮……”,有了斷點,就可以分別根據(jù)中文語言模型 adjleftadjleftadjrightadjright、adjleftadjrightadjright、adjleftadjleftadjrightadjright地”(adjleft和adjright分別代表形容詞斷點左右兩個部分)批量生成“大大方方、紅紅火火、慌慌張張、漂漂亮亮……”、“大方方、紅火火、慌張張、漂亮亮……”,以及“大大方方地、紅紅火火地、慌慌張張地、漂漂亮亮地……”等各自一大批詞語了。
3、根據(jù)中文語言模型批量生成詞庫詞語的實施例。
分為三個步驟:
步驟1:提煉中文語言模型
假設提煉出了“verb不com、verb也verb不com、adj是adj點、adj歸adj、adj極了”六個中文語言模型(其中verbcom表示動補結構,verb和com分別為動補結構“動詞”部分和“補語”部分,adj代表形容詞),以此為基礎,定制中文語言模型模塊;
步驟2:在造詞模塊中的詞類標注子模塊和詞語結構標注子模塊中分別定制形容詞表和動補結構詞語表,假定形容詞表中的內(nèi)容為“難、緊張、貴、遠、長、大、艱苦……”等計3000條詞語;動補結構詞語表中的內(nèi)容為“看清、洗凈、走快、吃完……”等計5000條詞語,每條詞語中間均設斷點;
步驟3:利用sql數(shù)據(jù)庫查詢語言,根據(jù)中文語言模型模塊提供的構詞信息,對上述形容詞表和動補結構詞語表中的詞語整體或斷點左右兩個部分進行組合拼接,生成所需的詞語。例如對于形容詞表,當用“adj是adj點、adj歸adj、adj極了”造詞時,利用形容詞表中的詞語整體,通過拼接方式,各自生成了“難是難點、緊張是緊張點、貴是貴點、遠是遠點、長是長點、大是大點、艱苦是艱苦點……”、“難歸難、緊張歸緊張、貴歸貴、遠歸遠、長歸長、大歸大、艱苦歸艱苦……”,以及“難極了、緊張極了、貴極了、遠極了、長極了、大極了、艱苦極了……”3000條詞語。與此類似,對于動補結構詞語表,當用“verb不com”生成詞語時,要拼接成“動補詞語左部+不+動補詞語右部”的形式,一次性生成了“看不清、洗不凈、走不快、吃不完……”計5000條詞語;當用“verb也verb不com”生成詞語時,要拼接成“動補詞語左部+也+動補詞語左部+不+動補詞語右部”的形式,一次性生成了“看也看不清、洗也洗不凈、走也走不快、吃也吃不完……”計5000條詞語。
4、利用中文語言模型建立詞庫管理系統(tǒng)實現(xiàn)對詞庫內(nèi)容進行有效管理的實施例。
分為三個步驟:
步驟1、構建語料模塊,該模塊用于收錄本發(fā)明中的造詞模塊生成的全部詞語,每條詞語均對應生成它的中文語言模型;
步驟2、構建詞庫信息模塊,該模塊與本發(fā)明中的中文語言模型模塊中的模型構詞信息子模塊完全包容,并由其傳遞數(shù)據(jù)信息。另外附加了存留時限信息,用來衡量詞語生命周期長短,具體設定為長、一般、短三種等級,以便用于及時從詞庫中刪除過時的詞語;附加了語塊類別信息,具體分為語義性詞語和語音停頓性詞語。另外,對排序權重規(guī)定了規(guī)范性、書面性、通用性、形似性、結合性、特殊因子六個單維度權重和綜合權重,以滿足重碼詞語排序及定制特定詞庫的需要。
步驟3、上述兩個模塊建立后,就可以利用數(shù)據(jù)庫平臺進行有效管理了。比如說,出于降低重碼率或考慮用戶接受習慣,對于詞庫中“難極了、緊張極了、貴極了、遠極了、長極了、大極了、艱苦極了……”等一大批詞語,只想保留“難極了、貴極了、遠極了、長極了、大極了……”等“單字形容詞+極了”構成的詞語,而要刪除“緊張極了、艱苦極了……”等“兩字及以上形容詞+極了”構成的詞語,只需利用數(shù)據(jù)庫查詢語言從語料模塊中查找來源于“adj極了”模型、且長度大于3的詞條,并從詞庫中刪除即可;再如,如果要挑選不同修飾層級的詞庫詞語,以便合理控制詞庫容量,可在查詢時通過合理設置修飾層級值來實現(xiàn),這里假定將修飾層級值設置為1,那么,從“很好、太美了、真不錯、飛了、走嗎……”里面查詢時,含有兩級修飾的“太美了、真不錯……”便被過濾掉了,只剩下“很好、飛了、走嗎……”等一級修飾詞語了。
5、利用中文語言模型對批量生成的詞語自動完成拼音編碼的實施例。
大家都知道,在開發(fā)拼音輸入法制作碼表過程中,為詞語添加拼音編碼是一件浩繁的工程,雖然可以利用程序軟件自動注音,但由于漢語中大量多音字的存在,必然需要經(jīng)過人工校驗,而利用中文語言模型模塊和造詞模塊相互配合,可以輕松的解決這個難題。方法是首先定制一個注音信息表,對中文語言模型中的“前綴、插入、后綴”等成分單獨進行注音,另外再對造詞模塊各數(shù)據(jù)表中的造詞主體進行注音,這兩項工作完成后,利用數(shù)據(jù)庫查詢語言進行詞語和編碼拼接,自動批量生成的所有新詞語就自動完成了注音,大大減少了工作量,且正確率100%,免去了人工校對之苦。