亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種詞庫(kù)生成方法及裝置與流程

文檔序號(hào):12464670閱讀:199來(lái)源:國(guó)知局
一種詞庫(kù)生成方法及裝置與流程

本發(fā)明涉及計(jì)算機(jī)領(lǐng)域,尤其涉及一種詞庫(kù)生成方法及裝置。



背景技術(shù):

隨著計(jì)算機(jī)技術(shù)的不斷發(fā)展,分詞技術(shù)已經(jīng)廣泛應(yīng)用于搜索引擎、機(jī)器翻譯、語(yǔ)音合成、自動(dòng)摘要等領(lǐng)域。其中,分詞技術(shù)是指將一句或者一段中文文字切分成一個(gè)一個(gè)中文詞語(yǔ)的技術(shù),而最常用的分詞方法是使用詞典進(jìn)行分詞,因此詞庫(kù)質(zhì)量的好壞直接影響了分詞的質(zhì)量。

目前,詞庫(kù)的生成是由人工進(jìn)行維護(hù)的,當(dāng)發(fā)現(xiàn)一個(gè)新詞的時(shí)候,人工將新詞加入詞庫(kù)中;當(dāng)發(fā)現(xiàn)詞庫(kù)中的第一詞語(yǔ)不準(zhǔn)確時(shí),人工對(duì)不準(zhǔn)確的第一詞語(yǔ)進(jìn)行修正。

然而,由人工維護(hù)詞庫(kù),會(huì)導(dǎo)致維護(hù)詞庫(kù)的工作量大、詞庫(kù)準(zhǔn)確性降低。



技術(shù)實(shí)現(xiàn)要素:

為解決上述技術(shù)問(wèn)題,本發(fā)明實(shí)施例期望提供一種詞庫(kù)生成方法及裝置,能夠降低維護(hù)詞庫(kù)的工作量,提高詞庫(kù)的準(zhǔn)確性。

本發(fā)明的技術(shù)方案是這樣實(shí)現(xiàn)的:

本發(fā)明實(shí)施例提供一種詞庫(kù)生成方法,該方法包括:

當(dāng)預(yù)設(shè)時(shí)間段到達(dá)時(shí),獲取至少一個(gè)待分詞文檔;

按照第一預(yù)設(shè)劃分策略,將所述至少一個(gè)待分詞文檔劃分成至少一個(gè)第一字符串集合,其中,一個(gè)待分詞文檔對(duì)應(yīng)一個(gè)第一字符串集合;

根據(jù)預(yù)設(shè)內(nèi)聚模型和預(yù)設(shè)比較策略,確定與所述至少一個(gè)第一字符串集合中每個(gè)第一字符串集合對(duì)應(yīng)的第一詞語(yǔ)集合,得到至少一個(gè)第一詞語(yǔ)集合;

根據(jù)所述至少一個(gè)第一詞語(yǔ)集合,確定第一詞庫(kù)。

在上述方法中,根據(jù)所述預(yù)設(shè)內(nèi)聚模型和所述預(yù)設(shè)比較策略,確定與一個(gè)第一字符串集合對(duì)應(yīng)的所述第一詞語(yǔ)集合的方法包括:

根據(jù)所述預(yù)設(shè)內(nèi)聚模型,計(jì)算第一字符串的第一內(nèi)聚度,所述第一字符串為所述一個(gè)第一字符串集合中的任意一個(gè)字符串;

根據(jù)所述第一內(nèi)聚度和所述預(yù)設(shè)比較策略,判斷所述第一字符串中是否存在第一詞語(yǔ);

當(dāng)判斷出所述第一字符串中存在所述第一詞語(yǔ)時(shí),將所述第一字符串存儲(chǔ)至第一詞語(yǔ)集合中,直至判斷完所述一個(gè)第一字符串集合中的所有字符串,得到所述第一詞語(yǔ)集合。

在上述方法中,所述計(jì)算第一字符串的第一內(nèi)聚度,包括:

統(tǒng)計(jì)所述一個(gè)第一字符串集合的第一數(shù)量和所述第一字符串在第一待分詞文檔中出現(xiàn)的第二數(shù)量,所述第一待分詞文檔為所述至少一個(gè)待分詞文檔中所述一個(gè)第一字符串集合對(duì)應(yīng)的待分詞文檔;

按照所述預(yù)設(shè)內(nèi)聚模型將所述第一字符串劃分成左部分和右部分;

在所述第一待分詞文檔中分別統(tǒng)計(jì)所述左部分的第三數(shù)量和所述右部分的第四數(shù)量;

根據(jù)所述第一數(shù)量、所述第二數(shù)量、所述第三數(shù)量和所述第四數(shù)量計(jì)算所述第一內(nèi)聚度。

在上述方法中,所述根據(jù)所述第一內(nèi)聚度和所述預(yù)設(shè)比較策略,判斷所述第一字符串中是否存在第一詞語(yǔ),包括:

獲取預(yù)設(shè)內(nèi)聚度閾值;

將所述第一內(nèi)聚度與所述預(yù)設(shè)內(nèi)聚度閾值進(jìn)行比較;

當(dāng)所述第一內(nèi)聚度大于所述預(yù)設(shè)內(nèi)聚度閾值時(shí),判斷所述第一字符串中存在所述第一詞語(yǔ);

當(dāng)所述第一內(nèi)聚度小于所述預(yù)設(shè)內(nèi)聚度閾值時(shí),判斷所述第一字符串中不存在所述第一詞語(yǔ)。

在上述方法中,所述獲取預(yù)設(shè)內(nèi)聚度閾值,包括:

選取N個(gè)無(wú)歧義基本詞;

在所述至少一個(gè)待分詞文檔中計(jì)算所述N個(gè)無(wú)歧義基本詞分別對(duì)應(yīng)的第三內(nèi)聚度集合;

將所述第三內(nèi)聚度集合劃分成至少一個(gè)區(qū)域,在所述至少一個(gè)區(qū)域中確定第四數(shù)量最多的第一區(qū)域,所述第四數(shù)量為所述第三內(nèi)聚度集合中所述第一區(qū)域內(nèi)的第三內(nèi)聚度的個(gè)數(shù);

根據(jù)所述第四數(shù)量和所述第三內(nèi)聚度計(jì)算所述第一區(qū)域中的內(nèi)聚度平均值,并將所述內(nèi)聚度平均值確定為所述預(yù)設(shè)內(nèi)聚度閾值。

在上述方法中,所述根據(jù)所述至少一個(gè)第一詞語(yǔ)集合,確定第一詞庫(kù),包括:

根據(jù)所述至少一個(gè)第一詞語(yǔ)集合確定第一詞語(yǔ)庫(kù);

判斷是否存在第二詞庫(kù),所述第二詞庫(kù)為已經(jīng)存在的詞庫(kù);

當(dāng)存在所述第二詞庫(kù)時(shí),將所述第一詞語(yǔ)庫(kù)中的第二詞語(yǔ)與所述第二詞庫(kù)的第三詞語(yǔ)進(jìn)行匹配;

當(dāng)所述第二詞語(yǔ)與所述第三詞語(yǔ)匹配失敗時(shí),將所述第二詞語(yǔ)添加至所述第二詞庫(kù)中;

當(dāng)不存在所述第二詞庫(kù)時(shí),將所述第一詞語(yǔ)庫(kù)確定為所述第一詞庫(kù)。

本發(fā)明實(shí)施例提供一種詞庫(kù)生成裝置,所述裝置包括:

獲取單元,用于當(dāng)預(yù)設(shè)時(shí)間段到達(dá)時(shí),獲取至少一個(gè)待分詞文檔;

劃分單元,用于按照第一預(yù)設(shè)劃分策略,將所述至少一個(gè)待分詞文檔劃分成至少一個(gè)第一字符串集合,其中,一個(gè)待分詞文檔對(duì)應(yīng)一個(gè)第一字符串集合;

確定單元,用于根據(jù)預(yù)設(shè)內(nèi)聚模型和預(yù)設(shè)比較策略,確定與所述至少一個(gè)第一字符串集合中每個(gè)第一字符串集合對(duì)應(yīng)的第一詞語(yǔ)集合,得到至少一個(gè)第一詞語(yǔ)集合;根據(jù)所述至少一個(gè)第一詞語(yǔ)集合,確定第一詞庫(kù)。

在上述裝置中,所述裝置還包括:計(jì)算單元、判斷單元和存儲(chǔ)單元;

所述計(jì)算單元,用于根據(jù)所述預(yù)設(shè)內(nèi)聚模型,計(jì)算第一字符串的第一內(nèi)聚度,所述第一字符串為所述一個(gè)第一字符串集合中的任意一個(gè)字符串;

所述判斷單元,用于根據(jù)所述第一內(nèi)聚度和所述預(yù)設(shè)比較策略,判斷所述第一字符串中是否存在第一詞語(yǔ);

所述存儲(chǔ)單元,用于當(dāng)判斷出所述第一字符串中存在所述第一詞語(yǔ)時(shí),將所述第一字符串存儲(chǔ)至第一詞語(yǔ)集合中,直至判斷完所述一個(gè)第一字符串集合中的所有字符串,得到所述第一詞語(yǔ)集合。

在上述裝置中,所述裝置還包括:統(tǒng)計(jì)單元和劃分單元;

所述統(tǒng)計(jì)單元,用于統(tǒng)計(jì)所述一個(gè)第一字符串集合的第一數(shù)量和所述第一字符串在第一待分詞文檔中出現(xiàn)的第二數(shù)量,所述第一待分詞文檔為所述至少一個(gè)待分詞文檔中所述一個(gè)第一字符串集合對(duì)應(yīng)的待分詞文檔;

所述劃分單元,用于按照所述預(yù)設(shè)內(nèi)聚模型將所述第一字符串劃分成左部分和右部分;

所述統(tǒng)計(jì)單元,還用于在所述第一待分詞文檔中分別統(tǒng)計(jì)所述左部分的第三數(shù)量和所述右部分的第四數(shù)量;

所述計(jì)算單元,具體用于根據(jù)所述第一數(shù)量、所述第二數(shù)量、所述第三數(shù)量和所述第四數(shù)量計(jì)算所述第一內(nèi)聚度。

在上述裝置中,所述裝置還包括:匹配單元和添加單元;

所述確定單元,還用于根據(jù)所述至少一個(gè)第一詞語(yǔ)集合確定第一詞語(yǔ)庫(kù);

所述判斷單元,還用于判斷是否存在第二詞庫(kù),所述第二詞庫(kù)為已經(jīng)存在的詞庫(kù);

所述匹配單元,還用于當(dāng)存在所述第二詞庫(kù)時(shí),將所述第一詞語(yǔ)庫(kù)中的第二詞語(yǔ)與所述第二詞庫(kù)的第三詞語(yǔ)進(jìn)行匹配;

所述添加單元,用于當(dāng)所述第二詞語(yǔ)與所述第三詞語(yǔ)匹配失敗時(shí),將所述第二詞語(yǔ)添加至所述第二詞庫(kù)中;

所述確定單元,還用于當(dāng)不存在所述第二詞庫(kù)時(shí),將所述第一詞語(yǔ)庫(kù)確定為所述第一詞庫(kù)。

本發(fā)明實(shí)施例提供了一種詞庫(kù)生成方法及裝置,通過(guò)當(dāng)預(yù)設(shè)時(shí)間段到達(dá)時(shí),獲取至少一個(gè)待分詞文檔;按照第一預(yù)設(shè)劃分策略,將至少一個(gè)待分詞文檔劃分成至少一個(gè)第一字符串集合,其中,一個(gè)待分詞文檔對(duì)應(yīng)一個(gè)第一字符串集合;根據(jù)預(yù)設(shè)內(nèi)聚模型和預(yù)設(shè)比較策略,確定與至少一個(gè)第一字符串集合中每個(gè)第一字符串集合對(duì)應(yīng)的第一詞語(yǔ)集合,得到至少一個(gè)第一詞語(yǔ)集合;根據(jù)至少一個(gè)第一詞語(yǔ)集合,確定第一詞庫(kù)。采用上述技術(shù)實(shí)現(xiàn)方案,詞庫(kù)生成裝置獲取至少一個(gè)待分詞文檔,并從至少一個(gè)待分詞文檔中確定至少一個(gè)第一詞語(yǔ)集合,根據(jù)至少一個(gè)第一詞語(yǔ)集合確定第一詞庫(kù),可以降低維護(hù)詞庫(kù)的工作量,提高詞庫(kù)的準(zhǔn)確性。

附圖說(shuō)明

圖1為實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例的一種可選的移動(dòng)終端的硬件結(jié)構(gòu)示意;

圖2為本發(fā)明的移動(dòng)終端能夠操作的通信系統(tǒng);

圖3為本發(fā)明實(shí)施例提供的一種詞庫(kù)生成方法的流程圖一;

圖4為本發(fā)明實(shí)施例提供的一種詞庫(kù)生成方法的流程圖二;

圖5為本發(fā)明實(shí)施例提供的一種詞庫(kù)生成方法的流程圖三;

圖6為本發(fā)明實(shí)施例提供的一種示例性的詞庫(kù)生成方法的流程圖;

圖7為本發(fā)明實(shí)施例提供的一種裝置1的結(jié)構(gòu)示意圖一;

圖8為本發(fā)明實(shí)施例提供的一種裝置1的結(jié)構(gòu)示意圖二;

圖9為本發(fā)明實(shí)施例提供的一種裝置1的結(jié)構(gòu)示意圖三

圖10為本發(fā)明實(shí)施例提供的一種裝置1的結(jié)構(gòu)示意圖四;

圖11為本發(fā)明實(shí)施例提供的一種裝置1的結(jié)構(gòu)示意圖五。

具體實(shí)施方式

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述。

應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限定本發(fā)明。

現(xiàn)在將參考附圖描述實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例的移動(dòng)終端。在后續(xù)的描述中,使用用于表示元件的諸如“模塊”、“部件”或“單元”的后綴僅為了有利于本發(fā)明的說(shuō)明,其本身并沒(méi)有特定的意義。因此,"模塊"與"部件"可以混合地使用。

移動(dòng)終端可以以各種形式來(lái)實(shí)施。例如,本發(fā)明實(shí)施例中描述的終端可以包括諸如移動(dòng)電話、智能電話、筆記本電腦、數(shù)字廣播接收器、個(gè)人數(shù)字助理(PDA)、平板電腦(PAD)、便攜式多媒體播放器(PMP)、導(dǎo)航裝置等等的移動(dòng)終端以及諸如數(shù)字TV、臺(tái)式計(jì)算機(jī)等等的固定終端。下面,假設(shè)終端是移動(dòng)終端。然而,本領(lǐng)域技術(shù)人員將理解的是,除了特別用于移動(dòng)目的的元件之外,根據(jù)本發(fā)明的實(shí)施方式的構(gòu)造也能夠應(yīng)用于固定類型的終端。

圖1為實(shí)現(xiàn)本發(fā)明各個(gè)實(shí)施例一個(gè)可選的移動(dòng)終端的硬件結(jié)構(gòu)示意圖。

移動(dòng)終端100可以包括用戶輸入單元130、存儲(chǔ)器160、控制器180和電源單元190等等。圖1示出了具有各種組件的移動(dòng)終端,但是應(yīng)理解的是,并不要求實(shí)施所有示出的組件??梢蕴娲貙?shí)施更多或更少的組件。將在下面詳細(xì)描述移動(dòng)終端的元件。

用戶輸入單元130可以根據(jù)用戶輸入的命令生成鍵輸入數(shù)據(jù)以控制移動(dòng)終端的各種操作。用戶輸入單元130允許用戶輸入各種類型的信息,并且可以包括鍵盤、鍋?zhàn)衅⒂|摸板(例如,檢測(cè)由于被接觸而導(dǎo)致的電阻、壓力、電容等變化的觸敏組件)、滾輪、搖桿等等。

存儲(chǔ)器160可以存儲(chǔ)由控制器180執(zhí)行的處理和控制操作的軟件程序等等,或者可以暫時(shí)地存儲(chǔ)已經(jīng)輸出或?qū)⒁敵龅臄?shù)據(jù)(例如,電話簿、消息、靜態(tài)圖像、視頻等等)。而且,存儲(chǔ)器160可以存儲(chǔ)關(guān)于當(dāng)觸摸施加到觸摸屏?xí)r輸出的各種方式的振動(dòng)和音頻信號(hào)的數(shù)據(jù)。

存儲(chǔ)器160可以包括至少一種類型的存儲(chǔ)介質(zhì),所述存儲(chǔ)介質(zhì)包括閃存、硬盤、多媒體卡、卡型存儲(chǔ)器(例如,SD或DX存儲(chǔ)器等等)、隨機(jī)訪問(wèn)存儲(chǔ)器(RAM)、靜態(tài)隨機(jī)訪問(wèn)存儲(chǔ)器(SRAM)、只讀存儲(chǔ)器(ROM)、電可擦除可編程只讀存儲(chǔ)器(EEPROM)、可編程只讀存儲(chǔ)器(PROM)、磁性存儲(chǔ)器、磁盤、光盤等等。而且,移動(dòng)終端100可以與通過(guò)網(wǎng)絡(luò)連接執(zhí)行存儲(chǔ)器160的存儲(chǔ)功能的網(wǎng)絡(luò)存儲(chǔ)裝置協(xié)作。

控制器180通常控制移動(dòng)終端的總體操作。例如,控制器180執(zhí)行與語(yǔ)音通話、數(shù)據(jù)通信、視頻通話等等相關(guān)的控制和處理。另外,控制器180可以包括用于再現(xiàn)(或回放)多媒體數(shù)據(jù)的多媒體模塊181,多媒體模塊181可以構(gòu)造在控制器180內(nèi),或者可以構(gòu)造為與控制器180分離??刂破?80可以執(zhí)行模式識(shí)別處理,以將在觸摸屏上執(zhí)行的手寫輸入或者圖片繪制輸入識(shí)別為字符或圖像。

電源單元190在控制器180的控制下接收外部電力或內(nèi)部電力并且提供操作各元件和組件所需的適當(dāng)?shù)碾娏Α?/p>

這里描述的各種實(shí)施方式可以以使用例如計(jì)算機(jī)軟件、硬件或其任何組合的計(jì)算機(jī)可讀介質(zhì)來(lái)實(shí)施。對(duì)于硬件實(shí)施,這里描述的實(shí)施方式可以通過(guò)使用特定用途集成電路(ASIC)、數(shù)字信號(hào)處理器(DSP)、數(shù)字信號(hào)處理裝置(DSPD)、可編程邏輯裝置(PLD)、現(xiàn)場(chǎng)可編程門陣列(FPGA)、處理器、控制器、微控制器、微處理器、被設(shè)計(jì)為執(zhí)行這里描述的功能的電子單元中的至少一種來(lái)實(shí)施,在一些情況下,這樣的實(shí)施方式可以在控制器180中實(shí)施。對(duì)于軟件實(shí)施,諸如過(guò)程或功能的實(shí)施方式可以與允許執(zhí)行至少一種功能或操作的單獨(dú)的軟件模塊來(lái)實(shí)施。軟件代碼可以由以任何適當(dāng)?shù)木幊陶Z(yǔ)言編寫的軟件應(yīng)用程序(或程序)來(lái)實(shí)施,軟件代碼可以存儲(chǔ)在存儲(chǔ)器160中并且由控制器180執(zhí)行。

至此,已經(jīng)按照其功能描述了移動(dòng)終端。下面,為了簡(jiǎn)要起見(jiàn),將描述諸如折疊型、直板型、擺動(dòng)型、滑動(dòng)型移動(dòng)終端等等的各種類型的移動(dòng)終端中的滑動(dòng)型移動(dòng)終端作為示例。因此,本發(fā)明能夠應(yīng)用于任何類型的移動(dòng)終端,并且不限于滑動(dòng)型移動(dòng)終端。

如圖1中所示的移動(dòng)終端100可以被構(gòu)造為利用經(jīng)由幀或分組發(fā)送數(shù)據(jù)的諸如有線和無(wú)線通信系統(tǒng)以及基于衛(wèi)星的通信系統(tǒng)來(lái)操作。

現(xiàn)在將參考圖2描述其中根據(jù)本發(fā)明的移動(dòng)終端能夠操作的通信系統(tǒng)。

這樣的通信系統(tǒng)可以使用不同的空中接口和/或物理層。例如,由通信系統(tǒng)使用的空中接口包括例如頻分多址(FDMA)、時(shí)分多址(TDMA)、碼分多址(CDMA)和通用移動(dòng)通信系統(tǒng)(UMTS)(特別地,長(zhǎng)期演進(jìn)(LTE))、全球移動(dòng)通信系統(tǒng)(GSM)等等。作為非限制性示例,下面的描述涉及CDMA通信系統(tǒng),但是這樣的教導(dǎo)同樣適用于其它類型的系統(tǒng)。

參考圖2,CDMA無(wú)線通信系統(tǒng)可以包括多個(gè)移動(dòng)終端100、多個(gè)基站(BS)270、基站控制器(BSC)275和移動(dòng)交換中心(MSC)280。MSC280被構(gòu)造為與公共電話交換網(wǎng)絡(luò)(PSTN)290形成接口。MSC280還被構(gòu)造為與可以經(jīng)由回程線路耦接到基站270的BSC275形成接口。回程線路可以根據(jù)若干已知的接口中的任一種來(lái)構(gòu)造,所述接口包括例如E1/T1、ATM,IP、PPP、幀中繼、HDSL、ADSL或xDSL。將理解的是,如圖2中所示的系統(tǒng)可以包括多個(gè)BSC275。

每個(gè)BS270可以服務(wù)一個(gè)或多個(gè)分區(qū)(或區(qū)域),由多向天線或指向特定方向的天線覆蓋的每個(gè)分區(qū)放射狀地遠(yuǎn)離BS270?;蛘?,每個(gè)分區(qū)可以由用于分集接收的兩個(gè)或更多天線覆蓋。每個(gè)BS270可以被構(gòu)造為支持多個(gè)頻率分配,并且每個(gè)頻率分配具有特定頻譜(例如,1.25MHz,5MHz等等)。

分區(qū)與頻率分配的交叉可以被稱為CDMA信道。BS270也可以被稱為基站收發(fā)器子系統(tǒng)(BTS)或者其它等效術(shù)語(yǔ)。在這樣的情況下,術(shù)語(yǔ)“基站”可以用于籠統(tǒng)地表示單個(gè)BSC275和至少一個(gè)BS270。基站也可以被稱為“蜂窩站”?;蛘撸囟˙S270的各分區(qū)可以被稱為多個(gè)蜂窩站。

如圖2中所示,廣播發(fā)射器(BT)295將廣播信號(hào)發(fā)送給在系統(tǒng)內(nèi)操作的移動(dòng)終端100。如圖1中所示的廣播接收模塊111被設(shè)置在移動(dòng)終端100處以接收由BT295發(fā)送的廣播信號(hào)。在圖2中,示出了幾個(gè)全球定位系統(tǒng)(GPS)衛(wèi)星300。衛(wèi)星300幫助定位多個(gè)移動(dòng)終端100中的至少一個(gè)。

在圖2中,描繪了多個(gè)衛(wèi)星300,但是理解的是,可以利用任何數(shù)目的衛(wèi)星獲得有用的定位信息。如圖1中所示的GPS模塊115通常被構(gòu)造為與衛(wèi)星300配合以獲得想要的定位信息。替代GPS跟蹤技術(shù)或者在GPS跟蹤技術(shù)之外,可以使用可以跟蹤移動(dòng)終端的位置的其它技術(shù)。另外,至少一個(gè)GPS衛(wèi)星300可以選擇性地或者額外地處理衛(wèi)星DMB傳輸。

作為無(wú)線通信系統(tǒng)的一個(gè)典型操作,BS270接收來(lái)自各種移動(dòng)終端100的反向鏈路信號(hào)。移動(dòng)終端100通常參與通話、消息收發(fā)和其它類型的通信。特定基站270接收的每個(gè)反向鏈路信號(hào)被在特定BS270內(nèi)進(jìn)行處理。獲得的數(shù)據(jù)被轉(zhuǎn)發(fā)給相關(guān)的BSC275。BSC提供通話資源分配和包括BS270之間的軟切換過(guò)程的協(xié)調(diào)的移動(dòng)管理功能。BSC275還將接收到的數(shù)據(jù)路由到MSC280,其提供用于與PSTN290形成接口的額外的路由服務(wù)。類似地,PSTN290與MSC280形成接口,MSC與BSC275形成接口,并且BSC275相應(yīng)地控制BS270以將正向鏈路信號(hào)發(fā)送到移動(dòng)終端100。

實(shí)施例一

本發(fā)明實(shí)施例提供一種詞庫(kù)生成方法,如圖3所示,該方法可以包括:

S101、當(dāng)預(yù)設(shè)時(shí)間段到達(dá)時(shí),獲取至少一個(gè)待分詞文檔。

本發(fā)明實(shí)施例提供的一種詞庫(kù)生成方法適用于使用詞庫(kù)生成裝置生成詞庫(kù)的場(chǎng)景下。

本發(fā)明實(shí)施例中,詞庫(kù)生成裝置內(nèi)部預(yù)設(shè)時(shí)間段,當(dāng)預(yù)設(shè)時(shí)間段到達(dá)時(shí),詞庫(kù)生成裝置檢測(cè)是否存在至少一個(gè)待分詞文檔,當(dāng)檢測(cè)到存在至少一個(gè)待分析文檔時(shí),詞庫(kù)生成裝置獲取至少一個(gè)待分詞文檔。

可選的,本發(fā)明實(shí)施例中獲取至少一個(gè)待分詞文檔的方式,可以是用戶手動(dòng)輸入至少一個(gè)待分詞文檔,也可以是當(dāng)用戶發(fā)送文檔時(shí),詞庫(kù)生成裝置自動(dòng)獲取的,具體的根據(jù)實(shí)際情況進(jìn)行選擇,本發(fā)明實(shí)施例不做具體限定。

S102、按照第一預(yù)設(shè)劃分策略,將至少一個(gè)待分詞文檔劃分成至少一個(gè)第一字符串集合,其中,一個(gè)待分詞文檔對(duì)應(yīng)一個(gè)第一字符串集合。

當(dāng)詞庫(kù)生成裝置獲取待至少一個(gè)待分詞文檔之后,詞庫(kù)生成裝置將至少一個(gè)待分詞文檔劃分成長(zhǎng)度為N的至少一個(gè)第一字符串集合的形式,N大于等于2。

本發(fā)明實(shí)施例中,詞庫(kù)生成裝置并行的將至少一個(gè)待分詞文檔中的每一個(gè)待分詞文檔劃分成長(zhǎng)度為N的一個(gè)第一字符串集合,生成至少一個(gè)第一字符串集合,N大于等于2,這樣,就可以縮減詞庫(kù)生成的時(shí)間。

示例性的,文檔一的內(nèi)容是“下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述。”將文檔一劃分成長(zhǎng)度為5的字符串集合的形式為“下面將結(jié)合”、“本發(fā)明實(shí)施例”、“中的附圖對(duì)”“本發(fā)明實(shí)施例”、“中的技術(shù)方”、“案進(jìn)行清楚”、“完整地描述”這些字符串集合的形式。

S103、根據(jù)預(yù)設(shè)內(nèi)聚模型和預(yù)設(shè)比較策略,確定與至少一個(gè)第一字符串集合中每個(gè)第一字符串集合對(duì)應(yīng)的第一詞語(yǔ)集合,得到至少一個(gè)第一詞語(yǔ)集合。

當(dāng)詞庫(kù)生成裝置得到至少一個(gè)第一字符串集合之后,詞庫(kù)生成裝置就要確定與至少一個(gè)第一字符串集合對(duì)應(yīng)的至少一個(gè)第一詞語(yǔ)集合了。

本發(fā)明實(shí)施例中,詞庫(kù)生成裝置先從至少一個(gè)第一字符串集合中分別選取至少一個(gè)待分詞文檔對(duì)應(yīng)的至少一個(gè)第一字符串,然后根據(jù)預(yù)設(shè)內(nèi)聚模型,計(jì)算至少一個(gè)第一字符串的至少一個(gè)第一內(nèi)聚度,然后分別將至少一個(gè)第一內(nèi)聚度與預(yù)設(shè)內(nèi)聚度閾值進(jìn)行比較,當(dāng)至少一個(gè)第一內(nèi)聚度中有第一內(nèi)聚度大于預(yù)設(shè)內(nèi)聚度閾值時(shí),則將第一內(nèi)聚度對(duì)應(yīng)的第一字符串存儲(chǔ)至第一待分詞文檔對(duì)應(yīng)的第一詞語(yǔ)集合中,當(dāng)判斷完至少一個(gè)第一字符串集合中的所有字符串之后,詞庫(kù)生成裝置就獲得了至少一個(gè)第一詞語(yǔ)集合。

本發(fā)明實(shí)施例中,詞庫(kù)生成裝置利用公式(1)和公式(2)計(jì)算至少一個(gè)第一字符串的至少一個(gè)第一內(nèi)聚度。

將公式(1)帶入公式(2)中,得到計(jì)算至少一個(gè)第一內(nèi)聚度的公式(3)

本發(fā)明實(shí)施例中,詞庫(kù)生成裝置將獲得的至少一個(gè)字符串集合中的每個(gè)字符串根據(jù)nagao算法分成左部分和右部分兩個(gè)部分,再分別統(tǒng)計(jì)該字符串、左部分和右部分分別在所屬待分詞文檔中出現(xiàn)的第二數(shù)量、第三數(shù)量和第四數(shù)量,即為tf、tf(letfPart)和tf(rightPart),然后統(tǒng)計(jì)所述待分詞文檔中所有字符串的第一數(shù)量,即為N,此時(shí)就可以獲得至少一個(gè)第一內(nèi)聚度了。

本發(fā)明實(shí)施例中,nagao算法將至少一個(gè)第一字符串劃分為左右兩個(gè)部分的所有劃分可能都列舉出來(lái),并分別統(tǒng)計(jì)各種可能中左部分和右部分在第一待分詞文檔中出現(xiàn)的第三數(shù)量和第四數(shù)量。

示例性的,,字符串集合中第一字符串的長(zhǎng)度為5,第一字符串的內(nèi)容為“縣城里有米”,那么根據(jù)nagao算法可以將第一字符串劃分為“縣”和“城里有米”左右兩個(gè)部分、“縣城”和“里有米”左右兩個(gè)部分、“縣城里”和“有米”左右兩個(gè)部分以及“縣城里有”和“米”左右兩個(gè)部分這4中劃分方式,nagao算法分別統(tǒng)計(jì)這4中劃分情況下左右兩個(gè)部分在全文中出現(xiàn)的次數(shù)。

本發(fā)明實(shí)施例中,詞庫(kù)生成裝置計(jì)算出預(yù)設(shè)內(nèi)聚度閾值,并將預(yù)設(shè)內(nèi)聚度閾值存儲(chǔ)至詞庫(kù)生成裝置中,以供與至少一個(gè)第一內(nèi)聚度進(jìn)行比較,詞庫(kù)生成裝置首先選取N個(gè)無(wú)歧義基本詞,然后在至少一個(gè)待分詞文檔中計(jì)算N個(gè)無(wú)歧義基本詞對(duì)應(yīng)的第三內(nèi)聚度集合,之后,詞庫(kù)生成裝置將第三內(nèi)聚度集合劃分成多個(gè)區(qū)域,并尋找第三內(nèi)聚度數(shù)量最多的第一區(qū)域,最后,詞庫(kù)生成裝置用第一區(qū)域內(nèi)第三內(nèi)聚度的和除以第一區(qū)域內(nèi)第三內(nèi)聚度的個(gè)數(shù)得到第一區(qū)域內(nèi)第三內(nèi)聚度的平均值,則這個(gè)值就為預(yù)設(shè)內(nèi)聚度閾值。

S104、根據(jù)至少一個(gè)第一詞語(yǔ)集合,確定第一詞庫(kù)。

當(dāng)詞庫(kù)生成裝置確定至少一個(gè)第一詞語(yǔ)集合之后,詞庫(kù)生成裝置就要根據(jù)至少一個(gè)第一詞語(yǔ)集合確定第一詞庫(kù)了。

本發(fā)明實(shí)施例中,當(dāng)詞庫(kù)生成裝置確定了至少一個(gè)第一詞語(yǔ)集合之后,詞庫(kù)生成裝置找出至少一個(gè)第一詞語(yǔ)集合中的交集,從而將交集中存在的詞語(yǔ)確定為第一詞語(yǔ)庫(kù),然后,詞庫(kù)生成裝置判斷是否已經(jīng)存在第二詞庫(kù),如果存在第二詞庫(kù)時(shí),詞庫(kù)生成裝置將第一詞語(yǔ)庫(kù)中的第二詞庫(kù)中不存在的詞語(yǔ)添加至第二詞庫(kù)中;如果不存在第二詞庫(kù)時(shí),詞庫(kù)生成裝置將第一詞語(yǔ)庫(kù)確定為第一詞庫(kù)。

本發(fā)明實(shí)施例中,詞庫(kù)生成裝置將第一詞語(yǔ)庫(kù)中的第二詞語(yǔ)依次與第二詞庫(kù)中的第三詞語(yǔ)進(jìn)行匹配操作,當(dāng)?shù)诙~語(yǔ)與第三詞語(yǔ)匹配成功時(shí),表征第二詞庫(kù)中存在第二詞語(yǔ);當(dāng)?shù)诙~語(yǔ)與第三詞語(yǔ)匹配失敗時(shí),表征第二詞庫(kù)中不存在第二詞語(yǔ),此時(shí),將第二詞語(yǔ)添加至第二詞庫(kù)中。

可以理解的是,將第一詞語(yǔ)庫(kù)中的第二詞庫(kù)中不存在的第二詞語(yǔ)添加至第二詞庫(kù)中,可以完成第二詞庫(kù)的自動(dòng)定期更新。

可以理解的是,詞庫(kù)生成裝置獲取至少一個(gè)待分詞文檔,并從至少一個(gè)待分詞文檔中確定至少一個(gè)第一詞語(yǔ)集合,根據(jù)至少一個(gè)第一詞語(yǔ)集合確定第一詞庫(kù),可以將第維護(hù)詞庫(kù)的工作量,提高詞庫(kù)的準(zhǔn)確性。

具體的,如圖4所示,根據(jù)預(yù)設(shè)內(nèi)聚模型和預(yù)設(shè)比較策略,確定與一個(gè)第一字符串集合對(duì)應(yīng)的第一詞語(yǔ)集合的方法,包括:

S201、詞庫(kù)生成裝置統(tǒng)計(jì)一個(gè)第一字符串集合的第一數(shù)量和第一字符串在第一待分詞文檔中出現(xiàn)的第二數(shù)量,第一待分詞文檔為至少一個(gè)待分詞文檔中一個(gè)第一字符串集合對(duì)應(yīng)的待分詞文檔。

本發(fā)明實(shí)施例中,詞庫(kù)生成裝置獲取到第一待分詞文檔及其一個(gè)第一字符串集合之后,詞庫(kù)生成裝置統(tǒng)計(jì)一個(gè)第一字符串集合的第一數(shù)量和第一字符串在第一待分詞文檔中出現(xiàn)的第二數(shù)量。

S202、詞庫(kù)生成裝置按照預(yù)設(shè)內(nèi)聚模型將第一字符串劃分成左部分和右部分。

在詞庫(kù)生成裝置獲取待一個(gè)第一字符串中的第一字符串之后,詞庫(kù)生成裝置首先按照預(yù)設(shè)內(nèi)聚模型將第一字符串劃分成左部分和右部分兩個(gè)部分。

本發(fā)明實(shí)施例中,詞庫(kù)生成裝置可以利用nagao算法將第一字符串劃分成左部分和右部分兩個(gè)部分,具體的,nagao算法將第一字符串劃分為左右兩個(gè)部分的所有劃分可能都列舉出來(lái)。

示例性的,字符串集合中第一字符串的長(zhǎng)度為5,第一字符串的內(nèi)容為“縣城里有米”,那么根據(jù)nagao算法可以將第一字符串劃分為“縣”和“城里有米”左右兩個(gè)部分、“縣城”和“里有米”左右兩個(gè)部分、“縣城里”和“有米”左右兩個(gè)部分以及“縣城里有”和“米”左右兩個(gè)部分這4中劃分方式。

S203、詞庫(kù)生成裝置在第一待分詞文檔中分別統(tǒng)計(jì)左部分的第三數(shù)量和右部分的第四數(shù)量。

在詞庫(kù)生成裝置獲取到第一字符串劃分為左部分和右部分兩個(gè)部分的所有劃分可能之后,詞庫(kù)生成裝置就要在第一待分詞文檔中將所有劃分可能下的左部分和右部分出現(xiàn)的第三數(shù)量和第四數(shù)量進(jìn)行統(tǒng)計(jì)了。

本發(fā)明實(shí)施例中,詞庫(kù)生成裝置在第一待分詞文檔中分別統(tǒng)計(jì)各種劃分可能下的左部分和右部分出現(xiàn)的第三數(shù)量和第四數(shù)量。

S204、詞庫(kù)生成裝置根據(jù)第一數(shù)量、第二數(shù)量、第三數(shù)量和第四數(shù)量計(jì)算第一內(nèi)聚度。

在詞庫(kù)生成裝置獲取到第一數(shù)量、第二數(shù)量、第三數(shù)量和第四數(shù)量之后,詞庫(kù)生成裝置就要根據(jù)獲取到的以上數(shù)量來(lái)計(jì)算第一內(nèi)聚度了。

本發(fā)明實(shí)施例中,詞庫(kù)生成裝置計(jì)算各種劃分可能下的第二內(nèi)聚度,然后在從第二內(nèi)聚度中選取最小值對(duì)應(yīng)的內(nèi)聚度作為第一內(nèi)聚度。

本發(fā)明實(shí)施例中,根據(jù)公式(1)計(jì)算第一字符串以及左部分和右部分的詞頻。

copro(word)=tf/N (1)

其中,tf為字符串在第一待分詞文檔中出現(xiàn)的次數(shù),N為一個(gè)第一字符串集合的第一數(shù)量。

本發(fā)明實(shí)施例中,根據(jù)公式(2)計(jì)算第一字符串中每種劃分情況下的第二內(nèi)聚度。

根據(jù)公式(1)和公式(2),可以得到計(jì)算內(nèi)聚度的公式(3)

本發(fā)明實(shí)施例中,根據(jù)S201得到的第一數(shù)量和第二數(shù)量分別對(duì)應(yīng)公式(3)中的N和tf、根據(jù)S203得到的第三數(shù)量和第四數(shù)量對(duì)應(yīng)公式(3)中的tf(letfPart)和tf(rightPart),因此,詞庫(kù)生成裝置計(jì)算出了第二內(nèi)聚度。

S205、詞庫(kù)生成裝置獲取預(yù)設(shè)內(nèi)聚度閾值。

在詞庫(kù)生成裝置計(jì)算出第一內(nèi)聚度之后,詞庫(kù)生成裝置就要獲取預(yù)設(shè)內(nèi)聚度閾值來(lái)作為判斷第一字符串是否存在第一詞語(yǔ)的標(biāo)準(zhǔn)了。

本發(fā)明實(shí)施例中,詞庫(kù)生成裝置計(jì)算出預(yù)設(shè)內(nèi)聚度閾值,并將預(yù)設(shè)內(nèi)聚度閾值存儲(chǔ)至詞庫(kù)生成裝置中,以供與至少一個(gè)第一內(nèi)聚度進(jìn)行比較,詞庫(kù)生成裝置首先選取N個(gè)無(wú)歧義基本詞,然后在至少一個(gè)待分詞文檔中計(jì)算N個(gè)無(wú)歧義基本詞對(duì)應(yīng)的第三內(nèi)聚度集合,之后,詞庫(kù)生成裝置將第三內(nèi)聚度集合劃分成至少一個(gè)區(qū)域,并尋找第三內(nèi)聚度數(shù)量最多的第一區(qū)域,最后,詞庫(kù)生成裝置用第一區(qū)域內(nèi)第三內(nèi)聚度的和除以第一區(qū)域內(nèi)第三內(nèi)聚度的個(gè)數(shù)得到第一區(qū)域內(nèi)第三內(nèi)聚度的平均值,則這個(gè)值就為預(yù)設(shè)內(nèi)聚度閾值。

示例性的,詞庫(kù)生成裝置計(jì)算出的內(nèi)聚度集合為0.1、0.7、0.6、0.6、0.5、0.9,詞庫(kù)生成裝置將內(nèi)聚度集合劃分為[0.1,05),[0.5,0.8),[0.8,1]這三個(gè)區(qū)域,在[0.1,05)區(qū)域中有一個(gè)內(nèi)聚度,在[0.5,0.8)區(qū)域中有四個(gè)內(nèi)聚度,在[0.8,1]區(qū)域中有一個(gè)內(nèi)聚度,此時(shí),計(jì)算[0.5,0.8)區(qū)域中的內(nèi)聚度平均值為0.6,則詞庫(kù)生成裝置的預(yù)設(shè)內(nèi)聚度域值為0.6。

S206、詞庫(kù)生成裝置將第一內(nèi)聚度與預(yù)設(shè)內(nèi)聚度閾值進(jìn)行比較。

在詞庫(kù)生成裝置獲取到預(yù)設(shè)內(nèi)聚度閾值之后,詞庫(kù)生成裝置就要將第一內(nèi)聚度與預(yù)設(shè)內(nèi)聚度閾值進(jìn)行比較,從而判斷第一字符串中是否存在第一詞語(yǔ)。

本發(fā)明實(shí)施例中,詞庫(kù)生成裝置將第一內(nèi)聚度與預(yù)設(shè)內(nèi)聚度閾值進(jìn)行比較。

S207、當(dāng)?shù)谝粌?nèi)聚度小于預(yù)設(shè)內(nèi)聚度閾值時(shí),詞庫(kù)生成裝置判斷第一字符串中不存在第一詞語(yǔ)。

在詞庫(kù)生成裝置獲取到預(yù)設(shè)內(nèi)聚度閾值之后,詞庫(kù)生成裝置就要將第一內(nèi)聚度與預(yù)設(shè)內(nèi)聚度閾值進(jìn)行比較,從而判斷第一字符串中是否存在第一詞語(yǔ)。

本發(fā)明實(shí)施例中,當(dāng)?shù)谝粌?nèi)聚度小于預(yù)設(shè)內(nèi)聚度閾值時(shí),表征第一字符串中不存在第一詞語(yǔ)。

S208、當(dāng)?shù)谝粌?nèi)聚度大于預(yù)設(shè)內(nèi)聚度閾值時(shí),詞庫(kù)生成裝置判斷第一字符串中存在第一詞語(yǔ)。

在詞庫(kù)生成裝置獲取到預(yù)設(shè)內(nèi)聚度閾值之后,詞庫(kù)生成裝置就要將第一內(nèi)聚度與預(yù)設(shè)內(nèi)聚度閾值進(jìn)行比較,從而判斷第一字符串中是否存在第一詞語(yǔ)。

本發(fā)明實(shí)施例中,當(dāng)?shù)谝粌?nèi)聚度大于預(yù)設(shè)內(nèi)聚度閾值時(shí),表征第一字符串中存在第一詞語(yǔ)。

S209、當(dāng)詞庫(kù)生成裝置判斷出第一字符串中存在第一詞語(yǔ)時(shí),詞庫(kù)生成裝置將第一字符串存儲(chǔ)至第一詞語(yǔ)集合中,直至詞庫(kù)生成裝置判斷完一個(gè)第一字符串集合中的所有字符串,得到第一詞語(yǔ)集合。

當(dāng)詞庫(kù)生成裝置判斷出第一字符串中存在第一詞語(yǔ)時(shí),詞庫(kù)生成裝置將第一字符串存儲(chǔ)至第一詞語(yǔ)集合中。

本發(fā)明實(shí)施例中,第一詞語(yǔ)集合為第一待分詞文檔對(duì)應(yīng)的詞語(yǔ)集合。

本發(fā)明實(shí)施例中,當(dāng)詞庫(kù)生成裝置判斷出第一字符串中存在第一詞語(yǔ)時(shí),詞庫(kù)生成裝置將第一字符串存儲(chǔ)至第一詞語(yǔ)集合中。

本發(fā)明實(shí)施例中,詞庫(kù)生成裝置將一個(gè)第一字符串集合中的所有字符串都進(jìn)行判斷,得到了第一詞語(yǔ)集合。

步驟S207和步驟S208-步驟S209為步驟S206之后的兩個(gè)并列的步驟,具體的根據(jù)實(shí)際情況進(jìn)行判定,本發(fā)明實(shí)施例不做具體限定。

因此,對(duì)至少一個(gè)第一字符串集合中的每個(gè)一個(gè)第一字符串集合執(zhí)行步驟S201-步驟S209的操作,就可以得到步驟S103中的根據(jù)預(yù)設(shè)內(nèi)聚模型和預(yù)設(shè)比較策略,確定與至少一個(gè)第一字符串集合中每個(gè)第一字符串集合對(duì)應(yīng)的第一詞語(yǔ)集合的過(guò)程。

實(shí)施例二

本發(fā)明實(shí)施例提供一種詞庫(kù)生成方法,如圖5所示,該方法可以包括:

S301、當(dāng)預(yù)設(shè)時(shí)間段到達(dá)時(shí),詞庫(kù)生成裝置獲取至少一個(gè)待分詞文檔。

該步驟與步驟S101的實(shí)現(xiàn)過(guò)程相同,具體可參照步驟S101,在此不做贅述。

S302、詞庫(kù)生成裝置按照第一預(yù)設(shè)劃分策略,將至少一個(gè)待分詞文檔劃分成至少一個(gè)第一字符串集合,其中,一個(gè)待分詞文檔對(duì)應(yīng)一個(gè)第一字符串集合。

該步驟與步驟S102的實(shí)現(xiàn)過(guò)程相同,具體可參照步驟S102,在此不做贅述。

S303、詞庫(kù)生成裝置根據(jù)預(yù)設(shè)內(nèi)聚模型和預(yù)設(shè)比較策略,確定與至少一個(gè)第一字符串集合中每個(gè)第一字符串集合對(duì)應(yīng)的第一詞語(yǔ)集合,得到至少一個(gè)第一詞語(yǔ)集合。

該步驟與步驟S103的實(shí)現(xiàn)過(guò)程相同,具體可參照步驟S103,在此不做贅述。

S304、詞庫(kù)生成裝置根據(jù)至少一個(gè)第一詞語(yǔ)集合確定第一詞語(yǔ)庫(kù)。

在詞庫(kù)生成裝置得到至少一個(gè)第一詞語(yǔ)集合之后,詞庫(kù)生成裝置就要根據(jù)至少一個(gè)第一詞語(yǔ)集合來(lái)確定第一詞語(yǔ)庫(kù)了。

本發(fā)明實(shí)施例中,當(dāng)詞庫(kù)生成裝置確定了至少一個(gè)第一詞語(yǔ)集合之后,詞庫(kù)生成裝置找出至少一個(gè)第一詞語(yǔ)集合中的交集,從而將交集中存在的詞語(yǔ)確定為第一詞語(yǔ)庫(kù)。

S305、詞庫(kù)生成裝置判斷是否存在第二詞庫(kù),第二詞庫(kù)為已經(jīng)存在的詞庫(kù)。

當(dāng)詞庫(kù)生成裝置確定了第一詞語(yǔ)庫(kù)之后,詞庫(kù)生成裝置就要判斷是否已經(jīng)存在第二詞庫(kù)了。

本發(fā)明實(shí)施例中,詞庫(kù)生成裝置檢測(cè)是否已經(jīng)存在第二詞庫(kù)。

S306、當(dāng)存在第二詞庫(kù)時(shí),詞庫(kù)生成裝置將第一詞語(yǔ)庫(kù)中的第二詞語(yǔ)與第二詞庫(kù)的第三詞語(yǔ)進(jìn)行匹配。

當(dāng)詞庫(kù)生成裝置檢測(cè)到存在第二詞庫(kù)時(shí),詞庫(kù)生成裝置將獲取到的第二次欲哭中的第二詞語(yǔ)依次與第二詞庫(kù)中的第三詞語(yǔ)進(jìn)行匹配操作。

S307、當(dāng)?shù)诙~語(yǔ)與第三詞語(yǔ)匹配失敗時(shí),詞庫(kù)生成裝置將第二詞語(yǔ)添加至第二詞庫(kù)中。

當(dāng)?shù)诙~語(yǔ)與第三詞語(yǔ)匹配失敗時(shí),表征第二詞庫(kù)中沒(méi)有第二詞語(yǔ),此時(shí)詞庫(kù)生成裝置將第二詞庫(kù)添加至第二詞庫(kù)中。

S308、當(dāng)不存在第二詞庫(kù)時(shí),詞庫(kù)生成裝置將第一詞語(yǔ)庫(kù)確定為第一詞庫(kù)。

當(dāng)詞庫(kù)生成裝置檢測(cè)到不存在第二詞庫(kù)至,詞庫(kù)生成裝置直接將第一詞語(yǔ)庫(kù)作為第二詞庫(kù)。

步驟S306-步驟S307和步驟S308為步驟S305之后兩個(gè)并列的步驟,具體的根據(jù)實(shí)際情況進(jìn)行選擇,本發(fā)明實(shí)施例不做具體的限定。

可以理解的是,將第一詞語(yǔ)庫(kù)中的第二詞庫(kù)中不存在的第二詞語(yǔ)添加至第二詞庫(kù)中,可以完成第二詞庫(kù)的自動(dòng)定期更新。

示例性的,詞庫(kù)生成裝置獲取第一待分詞文檔,并將第一待分詞文檔中的第一詞語(yǔ)添加至第一詞語(yǔ)庫(kù)的過(guò)程如圖6所示,詞庫(kù)生成裝置首先獲取第一待分詞文檔,然后將第一待分詞文檔劃分為一個(gè)第一字符串集合,依次將一個(gè)第一字符串集合中的第一字符串按照nagao算法劃分成左部分和右部分,分別統(tǒng)計(jì)左部分的數(shù)量、右部分的數(shù)量、第一字符串在第一待分詞文檔中出現(xiàn)的數(shù)量以及一個(gè)第一字符串集合中字符串的數(shù)量,然后再根據(jù)左部分的數(shù)量、右部分的數(shù)量、第一字符串在第一待分詞文檔中出現(xiàn)的數(shù)量以及一個(gè)第一字符串集合中字符串的數(shù)量計(jì)算第一字符串的第二內(nèi)聚度,詞庫(kù)生成裝置從第二內(nèi)聚度中確定內(nèi)聚度值最小的內(nèi)聚度作為第一字符串的第一內(nèi)聚度,比較第一內(nèi)聚度與預(yù)設(shè)內(nèi)聚度閾值,當(dāng)?shù)谝粌?nèi)聚度大于預(yù)設(shè)內(nèi)聚度閾值時(shí),將第一字符串添加至第一詞語(yǔ)庫(kù)中,當(dāng)將第一字符串添加至第一詞語(yǔ)庫(kù)之后和當(dāng)?shù)谝粌?nèi)聚度小于預(yù)設(shè)內(nèi)聚度閾值時(shí),判斷是否是一個(gè)第一字符串集合中的最后一個(gè)字符串,如果否,則進(jìn)行下一個(gè)字符串的判斷流程,如果是,則結(jié)束流程。

可以理解的是,詞庫(kù)生成裝置獲取至少一個(gè)待分詞文檔,并從至少一個(gè)待分詞文檔中確定至少一個(gè)第一詞語(yǔ)集合,根據(jù)至少一個(gè)第一詞語(yǔ)集合確定第一詞庫(kù),可以降低維護(hù)詞庫(kù)的工作量,提高詞庫(kù)的準(zhǔn)確性。

實(shí)施例三

本發(fā)明實(shí)施例提供一種詞庫(kù)生成裝置2,如圖7所示,該詞庫(kù)生成裝置2包括:

獲取單元10,用于當(dāng)預(yù)設(shè)時(shí)間段到達(dá)時(shí),獲取至少一個(gè)待分詞文檔.

劃分單元11,用于按照第一預(yù)設(shè)劃分策略,將所述至少一個(gè)待分詞文檔劃分成至少一個(gè)第一字符串集合,其中,一個(gè)待分詞文檔對(duì)應(yīng)一個(gè)第一字符串集合。

確定單元12,用于根據(jù)預(yù)設(shè)內(nèi)聚模型和預(yù)設(shè)比較策略,確定與所述至少一個(gè)第一字符串集合中每個(gè)第一字符串集合對(duì)應(yīng)的第一詞語(yǔ)集合,得到至少一個(gè)第一詞語(yǔ)集合;根據(jù)所述至少一個(gè)第一詞語(yǔ)集合,確定第一詞庫(kù)。

可選的,基于圖7如圖8所示,所述詞庫(kù)生成裝置2還包括:計(jì)算單元13、判斷單元14和存儲(chǔ)單元15。

所述計(jì)算單元13,用于根據(jù)所述預(yù)設(shè)內(nèi)聚模型,計(jì)算第一字符串的第一內(nèi)聚度,所述第一字符串為所述一個(gè)第一字符串集合中的任意一個(gè)字符串;

所述判斷單元14,用于根據(jù)所述第一內(nèi)聚度和所述預(yù)設(shè)比較策略,判斷所述第一字符串中是否存在第一詞語(yǔ)。

所述存儲(chǔ)單元15,用于當(dāng)判斷出所述第一字符串中存在所述第一詞語(yǔ)時(shí),將所述第一字符串存儲(chǔ)至第一詞語(yǔ)集合中,直至判斷完所述一個(gè)第一字符串集合中的所有字符串,得到所述第一詞語(yǔ)集合。

可選的,基于圖8如圖9所示,所述詞庫(kù)生成裝置2還包括:統(tǒng)計(jì)單元16。

所述統(tǒng)計(jì)單元16,用于統(tǒng)計(jì)所述一個(gè)第一字符串集合的第一數(shù)量和所述第一字符串在第一待分詞文檔中出現(xiàn)的第二數(shù)量,所述第一待分詞文檔為所述至少一個(gè)待分詞文檔中所述一個(gè)第一字符串集合對(duì)應(yīng)的待分詞文檔。

所述劃分單元11,具體用于按照所述預(yù)設(shè)內(nèi)聚模型將所述第一字符串劃分成左部分和右部分。

所述統(tǒng)計(jì)單元16,還用于在所述第一待分詞文檔中分別統(tǒng)計(jì)所述左部分的第三數(shù)量和所述右部分的第四數(shù)量。

所述計(jì)算單元13,具體用于根據(jù)所述第一數(shù)量、所述第二數(shù)量、所述第三數(shù)量和所述第四數(shù)量計(jì)算所述第一內(nèi)聚度。

可選的,基于圖7如圖10所示,所述詞庫(kù)生成裝置2還包括:匹配單元17和添加單元18。

所述確定單元12,還用于根據(jù)所述至少一個(gè)第一詞語(yǔ)集合確定第一詞語(yǔ)庫(kù)。

所述判斷單元14,還用于判斷是否存在第二詞庫(kù),所述第二詞庫(kù)為已經(jīng)存在的詞庫(kù)。

所述匹配單元17,還用于當(dāng)存在所述第二詞庫(kù)時(shí),將所述第一詞語(yǔ)庫(kù)中的第二詞語(yǔ)與所述第二詞庫(kù)的第三詞語(yǔ)進(jìn)行匹配。

所述添加單元18,用于當(dāng)所述第二詞語(yǔ)與所述第三詞語(yǔ)匹配失敗時(shí),將所述第二詞語(yǔ)添加至所述第二詞庫(kù)中。

所述確定單元12,還用于當(dāng)不存在所述第二詞庫(kù)時(shí),將所述第一詞語(yǔ)庫(kù)確定為所述第一詞庫(kù)。

可選的,該詞庫(kù)生成裝置2可以由終端1實(shí)現(xiàn),具體的,終端1可以包括手機(jī)、iPad等可以進(jìn)行文檔輸入的終端,具體的根據(jù)實(shí)際情況進(jìn)行選擇,本發(fā)明實(shí)施例不做具體的限定。

如圖11所示,在實(shí)際應(yīng)用中,上述獲取單元10、劃分單元11、確定單元12、計(jì)算單元13、判斷單元14、存儲(chǔ)單元15、統(tǒng)計(jì)單元16、匹配單元17和添加單元18可由位于終端1上的處理器19實(shí)現(xiàn),具體為中央處理器(CPU)、微處理器(MPU)、數(shù)字信號(hào)處理器(DSP)或現(xiàn)場(chǎng)可編程門陣列(FPGA)等實(shí)現(xiàn),該終端1還可以包括存儲(chǔ)器110,該存儲(chǔ)器110可以與處理器19連接,其中,存儲(chǔ)器110用于存儲(chǔ)可執(zhí)行程序代碼,該程序代碼包括計(jì)算機(jī)操作指令,存儲(chǔ)器110可能包含高速RAM存儲(chǔ)器,也可能還包括非易失性存儲(chǔ)器,例如,至少一個(gè)磁盤存儲(chǔ)器。

本領(lǐng)域內(nèi)的技術(shù)人員應(yīng)明白,本發(fā)明的實(shí)施例可提供為方法、系統(tǒng)、或計(jì)算機(jī)程序產(chǎn)品。因此,本發(fā)明可采用硬件實(shí)施例、軟件實(shí)施例、或結(jié)合軟件和硬件方面的實(shí)施例的形式。而且,本發(fā)明可采用在一個(gè)或多個(gè)其中包含有計(jì)算機(jī)可用程序代碼的計(jì)算機(jī)可用存儲(chǔ)介質(zhì)(包括但不限于磁盤存儲(chǔ)器和光學(xué)存儲(chǔ)器等)上實(shí)施的計(jì)算機(jī)程序產(chǎn)品的形式。

本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來(lái)描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合。可提供這些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過(guò)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。

這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。

這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。

以上所述,僅為本發(fā)明的較佳實(shí)施例而已,并非用于限定本發(fā)明的保護(hù)范圍。

當(dāng)前第1頁(yè)1 2 3 
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1