亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種分詞方法及裝置、檢索方法及裝置與流程

文檔序號(hào):12596107閱讀:232來源:國知局
一種分詞方法及裝置、檢索方法及裝置與流程

本發(fā)明涉及液晶顯示技術(shù)領(lǐng)域,尤其涉及一種分詞方法及裝置、檢索方法及裝置。



背景技術(shù):

隨著互聯(lián)網(wǎng)技術(shù)的飛速發(fā)展,網(wǎng)絡(luò)中多媒體資源的數(shù)目與日俱增,越來越多的網(wǎng)站開始向互聯(lián)網(wǎng)用戶提供各種多媒體資源。目前,用戶使用搜索引擎檢索自身需要的多媒體資源時(shí),通常使用索引字段(即檢索關(guān)鍵字)來精準(zhǔn)地提取出相應(yīng)的多媒體信息;而現(xiàn)有的搜索引擎在根據(jù)索引字段檢索多媒體資源時(shí),先使用工具網(wǎng)頁對(duì)互聯(lián)網(wǎng)的網(wǎng)頁進(jìn)行抓取,再將網(wǎng)頁特征信息(如,網(wǎng)頁內(nèi)容描述信息、網(wǎng)頁標(biāo)題等等)與索引字段進(jìn)行關(guān)鍵詞匹配,接著,將匹配后的各網(wǎng)頁進(jìn)行索引對(duì)應(yīng)并排序,最后,將檢索結(jié)果呈現(xiàn)給用戶。

目前主要的分詞方法包括,二分法分詞,基于字典的正向最大、逆向最大、最少切分、雙向最大等,還包括各種基于自然統(tǒng)計(jì)的分詞方法,如HMM分詞,構(gòu)詞法分詞等等。這些分詞算法,在字典足夠全面、概率字典訓(xùn)練足夠成熟的條件下,基于對(duì)語句進(jìn)行正確分詞的要求下,其工作的很好。

在地址資源檢索中,通過分詞系統(tǒng),對(duì)地址資源名稱和地址進(jìn)行分詞,是必不可少的步驟。但是由于地址資源大多數(shù)屬于未登錄詞、基于普通的文章訓(xùn)練的字典概率不符合地址資源特征、地址資源常常有歧義等因素,在作為倒序索引構(gòu)建時(shí)使用的分詞算法,這些算法存在切分不能滿足檢索要求的弊端;且考慮資源大小的限制以及快速響應(yīng)的要求,不可能無限擴(kuò)充合成系統(tǒng)的通用詞典中的詞條量。



技術(shù)實(shí)現(xiàn)要素:

本發(fā)明實(shí)施例提供了一種分詞方法及裝置、檢索方法及裝置,用于提高文本分詞的準(zhǔn)確性,提高搜索命中概率。

本發(fā)明實(shí)施例提供了一種分詞方法,所述方法包括:

將待分詞文本進(jìn)行分詞,并和預(yù)測詞典中的詞進(jìn)行匹配,得到第一次分詞結(jié)果和未登錄字;

以所述未登錄字為基礎(chǔ),向前或向后截取一段文本作為與所述未登錄字對(duì)應(yīng)的未登錄詞;

判斷所述未登錄詞是否已存在于所述第一次分詞結(jié)果中,當(dāng)所述第一次分詞結(jié)果中沒有所述未登錄詞時(shí),將所述未登錄詞添加到第一次分詞結(jié)果中,得到作為最終分詞結(jié)果的第二次分詞結(jié)果,以使得根據(jù)所述第二次分詞結(jié)果和用戶輸入的關(guān)鍵字找到多個(gè)與所述關(guān)鍵字相關(guān)的分詞。

本發(fā)明實(shí)施例提供的分詞方法中,首先將待分詞文本進(jìn)行分詞,并將得到的分詞與預(yù)測詞典中的詞進(jìn)行匹配,得到第一次分詞結(jié)果和未登錄字;然后以所述未登錄字為基礎(chǔ),向前或向后截取一段文本作為與所述未登錄字對(duì)應(yīng)的未登錄詞,并判斷所述未登錄詞是否已存在于所述第一次分詞結(jié)果中,當(dāng)所述第一次分詞結(jié)果中沒有所述未登錄詞時(shí),將所述未登錄詞添加到所述第一次分詞結(jié)果中,得到作為最終分詞結(jié)果的第二次分詞結(jié)果,以使得根據(jù)所述第二次分詞結(jié)果和用戶輸入的關(guān)鍵字找到多個(gè)與所述關(guān)鍵字相關(guān)的分詞。該分詞方法中對(duì)未登錄詞進(jìn)行分詞并添加到分詞列表中,提高了分詞的準(zhǔn)確性,使得利用該分詞列表構(gòu)建的索引具有全面性、抗未登錄詞的特征,減少了對(duì)預(yù)測詞典全面性的要求,且能夠提高搜索命中概率。

較佳的,在將待分詞文本進(jìn)行分詞之前,所述方法還包括:

收集基本單詞和常用詞,構(gòu)建文本詞典;

對(duì)所述文本詞典進(jìn)行算法構(gòu)建,形成帶預(yù)測特征的預(yù)測詞典;其中,所述預(yù)測詞典中包括詞、詞前綴以及詞|詞前綴。

較佳的,所述方法還包括:將所述作為最終分詞結(jié)果的第二次分詞結(jié)果中的分詞放入到分詞列表中,并根據(jù)所述分詞列表中的分詞,構(gòu)建倒序索引。

通過根據(jù)所述分詞列表中的分詞構(gòu)建倒序索引,可有效的實(shí)現(xiàn)對(duì)倒序索引進(jìn)行管理,有利于降低檢索過程中所需的緩存,提高系統(tǒng)響應(yīng)。

基于同一發(fā)明構(gòu)思,本發(fā)明實(shí)施例還提供了一種檢索方法,所述檢索方法包括:

將待分詞文本進(jìn)行分詞,并和預(yù)測詞典中的詞進(jìn)行匹配,得到第一次分詞結(jié)果和未登錄字;

以所述未登錄字為基礎(chǔ),向前或向后截取一段文本作為與所述未登錄字對(duì)應(yīng)的未登錄詞;

判斷所述未登錄詞是否已存在于所述第一次分詞結(jié)果中,當(dāng)所述第一次分詞結(jié)果中沒有所述未登錄詞時(shí),將所述未登錄詞添加到第一次分詞結(jié)果中,得到作為最終分詞結(jié)果的第二次分詞結(jié)果,以使得根據(jù)所述第二次分詞結(jié)果和用戶輸入的關(guān)鍵字找到多個(gè)用于搜索的分詞;

將所述作為最終分詞結(jié)果的第二次分詞結(jié)果中的分詞放入到分詞列表中,并根據(jù)所述分詞列表中的分詞構(gòu)建倒序索引;

根據(jù)用于檢索的關(guān)鍵詞查詢出與所述關(guān)鍵詞對(duì)應(yīng)的倒序索引,并取得對(duì)應(yīng)的檢索結(jié)果。

所述檢索方法中,首先將待分詞文本進(jìn)行分詞,得到第一次分詞結(jié)果和未登錄字,然后以所述未登錄字為基礎(chǔ),向前或向后截取一段文本作為與所述未登錄字對(duì)應(yīng)的未登錄詞,當(dāng)所述第一次分詞結(jié)果中沒有所述未登錄詞時(shí),將所述未登錄詞添加到所述第一次分詞結(jié)果中,從而得到包括未登錄詞的第二次分詞結(jié)果;然后將所述第二次分詞結(jié)果中的分詞放入到分詞列表中,再根據(jù)所述分詞列表構(gòu)建倒序索引,并根據(jù)用于檢索的關(guān)鍵詞查詢出與所述關(guān)鍵詞對(duì)應(yīng)的倒序索引,并取得對(duì)應(yīng)的檢索結(jié)果。由于該檢索方法中通過對(duì)未登錄詞進(jìn)行分詞并添加到分詞列表中,提高了分詞的準(zhǔn)確性,使得利用該分詞列表構(gòu)建的倒 序索引具有全面性、抗未登錄詞的特征,減少了對(duì)預(yù)測詞典全面性的要求,且能夠提高搜索命中概率。

較佳的,所述根據(jù)用于檢索的關(guān)鍵詞查詢出與所述關(guān)鍵詞對(duì)應(yīng)的倒序索引,并取得對(duì)應(yīng)的檢索結(jié)果,包括:

根據(jù)所述關(guān)鍵詞和倒序索引,得到多個(gè)與該關(guān)鍵詞對(duì)應(yīng)的分詞結(jié)果匹配的作為檢索結(jié)果的倒序索引;

對(duì)命中所述分詞結(jié)果的所有倒序索引進(jìn)行相關(guān)度計(jì)算,根據(jù)計(jì)算得到相關(guān)度的高低順序,來選出作為檢索結(jié)果的倒序索引,并根據(jù)所述作為檢索結(jié)果的倒序索引取得對(duì)應(yīng)的檢索結(jié)果。

基于同一發(fā)明構(gòu)思,本發(fā)明實(shí)施例還提供了一種分詞裝置,所述分詞裝置包括:

劃分單元,用于將待分詞文本進(jìn)行分詞,并和預(yù)測詞典中的詞進(jìn)行匹配,得到第一次分詞結(jié)果和未登錄字;

組詞單元,用于以所述未登錄字為基礎(chǔ),向前或向后截取一段文本作為與所述未登錄字對(duì)應(yīng)的未登錄詞;

判斷單元,判斷所述未登錄詞是否已存在于所述第一次分詞結(jié)果中,當(dāng)所述第一次分詞結(jié)果中沒有所述未登錄詞時(shí),將所述未登錄詞添加到第一次分詞結(jié)果中,得到作為最終分詞結(jié)果的第二次分詞結(jié)果,以使得根據(jù)所述第二次分詞結(jié)果和用戶輸入的關(guān)鍵字找到多個(gè)與所述關(guān)鍵字相關(guān)的分詞。

本發(fā)明實(shí)施例提供的分詞裝置中,通過劃分單元將待分詞文本進(jìn)行分詞,并將得到的分詞和預(yù)測詞典中的詞進(jìn)行匹配,得到第一次分詞結(jié)果和未登錄字;然后通過組詞單元以所述未登錄字為基礎(chǔ),向前或向后截取一段文本作為與所述未登錄字對(duì)應(yīng)的未登錄詞,最后通過判斷單元判斷所述未登錄詞是否已存在于所述第一次分詞結(jié)果中,當(dāng)所述第一次分詞結(jié)果中沒有所述未登錄詞時(shí),將所述未登錄詞添加到所述第一次分詞結(jié)果中,得到作為最終分詞結(jié)果的第二次分詞結(jié)果,以使得根據(jù)所述第二次分詞結(jié)果和用戶輸入的關(guān)鍵字找到多 個(gè)與所述關(guān)鍵字相關(guān)的分詞,提高了分詞的準(zhǔn)確性,使得利用所述第二次分詞結(jié)果構(gòu)建的索引具有全面性、抗未登錄詞的特征,減少了對(duì)預(yù)測詞典全面性的要求,且能夠提高搜索命中概率。

較佳的,所述分詞裝置還包括預(yù)測詞典構(gòu)建單元,用于收集基本單詞和常用詞,構(gòu)建文本詞典;并對(duì)所述文本詞典進(jìn)行算法構(gòu)建,形成帶預(yù)測特征的預(yù)測詞典;其中,所述預(yù)測詞典中包括詞、詞前綴以及詞|詞前綴。

通過所述預(yù)測詞典構(gòu)建單元構(gòu)建帶預(yù)測特征的預(yù)測詞典,以減少在所述預(yù)測詞典中查詢?cè)摲衷~位置信息的工作量,進(jìn)而提高工作效率。

較佳的,所述分詞裝置還包括排序單元,用于將所述作為最終分詞結(jié)果的第二次分詞結(jié)果中的分詞放入到分詞列表中,并根據(jù)所述分詞列表中的分詞構(gòu)建倒序索引。

通過所述排序單元將第二次分詞結(jié)果中的分詞放入到分詞列表中,并根據(jù)所述分詞列表中的分詞構(gòu)建倒序索引,可有效的實(shí)現(xiàn)對(duì)倒序索引進(jìn)行管理,有利于降低檢索過程中所需的緩存,提高系統(tǒng)響應(yīng)。

基于同一發(fā)明構(gòu)思,本發(fā)明實(shí)施例還提供了一種檢索裝置,所述檢索裝置包括:

劃分單元,用于將待分詞文本進(jìn)行分詞,并和預(yù)測詞典中的詞進(jìn)行匹配,得到第一次分詞結(jié)果和未登錄字;

組詞單元,用于以所述未登錄字為基礎(chǔ),向前或向后截取一段文本作為與所述未登錄字對(duì)應(yīng)的未登錄詞;

判斷單元,判斷所述未登錄詞是否已存在于所述第一次分詞結(jié)果中,當(dāng)所述第一次分詞結(jié)果中沒有所述未登錄詞時(shí),將所述未登錄詞添加到第一次分詞結(jié)果中,得到作為最終分詞結(jié)果的第二次分詞結(jié)果,以使得根據(jù)所述第二次分詞結(jié)果和用戶輸入的關(guān)鍵字找到多個(gè)與所述關(guān)鍵字相關(guān)的分詞;

排序單元,用于將所述作為最終分詞結(jié)果的第二次分詞結(jié)果中的分詞放入到分詞列表中,并根據(jù)所述分詞列表中的分詞,構(gòu)建倒序索引;

生成單元,根據(jù)用于檢索的關(guān)鍵詞查詢出與所述關(guān)鍵詞對(duì)應(yīng)的倒序索引,并取得對(duì)應(yīng)的檢索結(jié)果。

本發(fā)明實(shí)施例提供的檢索裝置中,通過劃分單元將待分詞文本進(jìn)行分詞,并將得到的分詞和預(yù)測詞典中的詞進(jìn)行匹配,得到第一次分詞結(jié)果和未登錄字;然后通過組詞單元以所述未登錄字為基礎(chǔ),向前或向后截取一段文本作為與所述未登錄字對(duì)應(yīng)的未登錄詞,最后通過判斷單元判斷所述未登錄詞是否已存在于所述第一次分詞結(jié)果中,當(dāng)所述第一次分詞結(jié)果中沒有所述未登錄詞時(shí),將所述未登錄詞添加到所述第一次分詞結(jié)果中,得到作為最終分詞結(jié)果的第二次分詞結(jié)果,以使得根據(jù)所述第二次分詞結(jié)果和用戶輸入的關(guān)鍵字找到多個(gè)與所述關(guān)鍵字相關(guān)的分詞,提高了分詞的準(zhǔn)確性,使得利用所述第二次分詞結(jié)果中分詞構(gòu)建的索引具有全面性、抗未登錄詞的特征,減少了對(duì)預(yù)測詞典全面性的要求,因此當(dāng)利用所述分詞形成的倒序索引進(jìn)行檢索時(shí),可提高搜索命中概率和檢索效率。

較佳的,所述生成單元具體用于:

根據(jù)述關(guān)鍵詞和倒序索引,得到多個(gè)與該關(guān)鍵詞對(duì)應(yīng)的分詞結(jié)果匹配的作為檢索結(jié)果的倒序索引;

對(duì)命中所述分詞結(jié)果的所有倒序索引進(jìn)行相關(guān)度計(jì)算,根據(jù)計(jì)算得到相關(guān)度的高低順序,來選出作為檢索結(jié)果的倒序索引,并根據(jù)所述作為檢索結(jié)果的倒序索引取得對(duì)應(yīng)的檢索結(jié)果。

通過利用命中結(jié)果的相關(guān)度來生成與所述關(guān)鍵詞對(duì)應(yīng)的檢索結(jié)果,可增大檢索的準(zhǔn)確性。

附圖說明

圖1為本發(fā)明實(shí)施例提供的一種分詞方法的流程示意圖;

圖2為本發(fā)明實(shí)施例提供的一種分詞方法的詳細(xì)步驟示意圖;

圖3為本發(fā)明實(shí)施例提供的一種分詞裝置的功能結(jié)構(gòu)示意圖;

圖4為本發(fā)明實(shí)施例提供的一種檢索方法的流程示意圖;

圖5為本發(fā)明實(shí)施例提供的一種檢索裝置的功能結(jié)構(gòu)示意圖。

具體實(shí)施方式

本發(fā)明實(shí)施例提供了一種分詞方法及裝置、檢索方法及裝置,用于提高文本分詞的準(zhǔn)確性,提高搜索命中概率。

下面將結(jié)合本發(fā)明實(shí)施例中的附圖,對(duì)本發(fā)明實(shí)施例中的技術(shù)方案進(jìn)行清楚、完整地描述,顯然,所描述的實(shí)施例僅僅是本發(fā)明一部分實(shí)施例,而不是全部的實(shí)施例?;诒景l(fā)明中的實(shí)施例,本領(lǐng)域普通技術(shù)人員在沒有做出創(chuàng)造性勞動(dòng)前提下所獲得的所有其他實(shí)施例,都屬于本發(fā)明保護(hù)的范圍。

參見圖1,本發(fā)明實(shí)施例一提供了一種分詞方法,所述方法包括:

步驟101,將待分詞文本進(jìn)行分詞,并和預(yù)測詞典中的詞進(jìn)行匹配,得到第一次分詞結(jié)果和未登錄字;

步驟102,以所述未登錄字為基礎(chǔ),向前或向后截取一段文本作為與所述未登錄字對(duì)應(yīng)的未登錄詞;

步驟103,判斷所述未登錄詞是否已存在于所述第一次分詞結(jié)果中,當(dāng)所述第一次分詞結(jié)果中沒有所述未登錄詞時(shí),將所述未登錄詞添加到第一次分詞結(jié)果中,得到作為最終分詞結(jié)果的第二次分詞結(jié)果,以使得根據(jù)所述第二次分詞結(jié)果和用戶輸入的關(guān)鍵字找到多個(gè)與所述關(guān)鍵字相關(guān)的分詞。

本發(fā)明實(shí)施例提供的方法中,首先將待分詞文本進(jìn)行分詞,并間將得到的分詞和預(yù)測詞典中的詞進(jìn)行匹配,得到第一次分詞結(jié)果和未登錄字,然后以所述未登錄字為基礎(chǔ),向前或向后截取一段文本作為與所述未登錄字對(duì)應(yīng)的未登錄詞,并判斷所述未登錄詞是否已存在于所述第一次分詞結(jié)果中,當(dāng)所述第一次分詞結(jié)果中沒有所述未登錄詞時(shí),將所述未登錄詞添加到所述第一次分詞結(jié)果中,得到作為最終分詞結(jié)果的第二次分詞結(jié)果,以使得根據(jù)所述第二次分詞結(jié)果和用戶輸入的關(guān)鍵字找到多個(gè)與所述關(guān)鍵字相關(guān)的分詞。該分詞方法中對(duì) 未登錄詞進(jìn)行分詞并添加到分詞列表中,提高了分詞的準(zhǔn)確性,使得利用所述第二次分詞結(jié)果中的分詞構(gòu)建的索引具有全面性、抗未登錄詞的特征,減少了對(duì)預(yù)測詞典全面性的要求,且能夠提高搜索命中概率。

具體的,步驟102中所述以所述未登錄字為基礎(chǔ),向前或向后截取一段文本作為與所述未登錄字對(duì)應(yīng)的未登錄詞,包括:

以所述未登錄字為基礎(chǔ),向前取一個(gè)或多個(gè)字與所述未登錄字組成未登錄詞,和/或

向后取一個(gè)或多個(gè)字與所述未登錄字組成未登錄詞。

在具體的執(zhí)行過程中,未登錄詞截取的長度還應(yīng)根據(jù)實(shí)際需要進(jìn)行設(shè)定,例如,可以將包括該未登錄字的且總長度小于某一設(shè)定值的字符串視為與該未登錄字對(duì)應(yīng)的未登錄詞。通過從文本中劃分出與該未登錄字連接的字符作為未登錄詞添加到分詞列表中,從而使分詞列表更加準(zhǔn)確,提高了文本分詞的準(zhǔn)確性。

進(jìn)一步的,在將待分詞文本進(jìn)行分詞之前,所述方法還包括:

收集基本單詞和常用詞,構(gòu)建文本詞典;

對(duì)所述文本詞典進(jìn)行算法構(gòu)建,形成帶預(yù)測特征的預(yù)測詞典;其中,所述預(yù)測詞典中包括詞、詞前綴以及詞|詞前綴。

本發(fā)明中通過對(duì)所述文本詞典進(jìn)行算法構(gòu)建,形成帶預(yù)測特征的預(yù)測詞典;其中,所述預(yù)測詞典中包括詞、詞前綴以及詞|詞前綴。

進(jìn)一步的,所述方法還包括:將所述作為最終分詞結(jié)果的第二次分詞結(jié)果中的分詞放入到分詞列表中,并根據(jù)所述分詞列表中的分詞構(gòu)建倒序索引。

通過根據(jù)所述分詞列表中的分詞構(gòu)建倒序索引,可有效的實(shí)現(xiàn)對(duì)倒序索引進(jìn)行管理,有利于降低檢索過程中所需的緩存,提高系統(tǒng)響應(yīng)。

為了更加詳細(xì)具體的體現(xiàn)本發(fā)明的構(gòu)思,參見圖2,下面結(jié)合具體實(shí)施例具體詳細(xì)的介紹本發(fā)明的提供的分詞方法:

步驟201,從各地名大辭典、辭海中收集中文基本單詞、常用詞,構(gòu)建文 本詞典。

步驟202,對(duì)文本詞典進(jìn)行算法構(gòu)建,形成帶預(yù)測特性的預(yù)測詞典。

該步驟包括:對(duì)字典內(nèi)每個(gè)單詞,將單詞包含的詞前綴,從長度為1到長度為單詞本身的前綴逐個(gè)取出,放入預(yù)測字典,具體的:

當(dāng)前綴為小于單詞本身長度時(shí),如果預(yù)測字典已經(jīng)包含此條目,在此條目的特征上,追加“詞前綴”標(biāo)注。

如果預(yù)測字典未包含此條目,則追加此條目,追加“詞前綴”標(biāo)注。

當(dāng)前綴為單詞本身長度時(shí),如果預(yù)測字典已經(jīng)包含此條目,在此條目的特征上,追加“詞”標(biāo)注;如果預(yù)測字典未包含此條目,則追加此條目,追加“詞”標(biāo)注。

例如:對(duì)于北京、北京市、北京市政府3個(gè)詞,形成的帶有預(yù)測特性的詞典如下:

單詞列,詞特征列;

北,詞前綴;

北京,詞;

北京市,詞|詞前綴;

北京市政,詞前綴;

北京市政府,詞。

通過構(gòu)建帶有預(yù)測特性的詞典,以減少在所述預(yù)測詞典中查詢?cè)摲衷~位置信息的工作量,進(jìn)而提高工作效率;并且所述預(yù)測詞典中對(duì)每一單詞的詞特征進(jìn)行了標(biāo)注,因此可以根據(jù)標(biāo)注出的詞特征準(zhǔn)確快速的找出相關(guān)聯(lián)的分詞,進(jìn)一步提高了文本分詞的效率和準(zhǔn)確性。

步驟203,將待分詞文本進(jìn)行分詞,并和預(yù)測詞典中的詞進(jìn)行匹配,得到第一次分詞結(jié)果和未登錄字。

該步驟包括:從待分詞的文本信息中,從第一個(gè)字符位置開始,截取其后1到文本長度-1的文本,查看預(yù)測字典中,是否含有此項(xiàng)紀(jì)錄:

如果含有此紀(jì)錄,標(biāo)注為“詞”,則將此文本放入分詞列表里。

如果含有此紀(jì)錄,標(biāo)注為“詞前綴”,繼續(xù)增加文本長度。

如果含有此紀(jì)錄,標(biāo)注為“詞|詞前綴”,則將此文本放入分詞列表里,繼續(xù)增加文本長度。直到最后倒數(shù)第二個(gè)字符位置為開始位置時(shí),結(jié)束該分詞過程。

例如,利用所述規(guī)則以及步驟202中形成的詞典,對(duì)“北京A政府”這一文本進(jìn)行分詞:

首先,以“北”開始,提取到的單詞為“北京”、“北京市”;然后,再以“京”開始,沒有發(fā)現(xiàn)提取詞;依次類推,最后以“政”開始,提取到單詞“政府”。因此,分詞后可到多個(gè)分詞以及不在任何單詞中的字“A”。

步驟204,將步驟203中的不在任何單詞中的字“A”作為未登錄字,以該字為基礎(chǔ),將包含該未登錄字的小于或等于預(yù)設(shè)長度的字符串視為與該未登錄字對(duì)應(yīng)的未登錄詞;并查看所述未登錄詞是否已存在于第一次分詞結(jié)果中。如果所述未登錄詞已存在與所述第一次分詞結(jié)果中,則不重復(fù)添加;如果所述第一次分詞結(jié)果中沒有所述未登錄詞,則將該未登錄詞添加到第一次分詞結(jié)果中,得到作為最終分詞結(jié)果的第二次分詞結(jié)果,以使得根據(jù)所述第二次分詞結(jié)果和用戶輸入的關(guān)鍵字找到多個(gè)與所述關(guān)鍵字相關(guān)的分詞。

步驟205,將所述第二次分詞結(jié)果放入到分詞列表中,利用所述分詞列表中的分詞構(gòu)建倒序索引,使得可根據(jù)所述倒序索引進(jìn)行檢索。

基于同一發(fā)明構(gòu)思,本發(fā)明實(shí)施例還提供了一種分詞裝置,參見圖3;從圖3中可以看出,所述分詞裝置包括:

劃分單元301,用于將待分詞文本進(jìn)行分詞,并和預(yù)測詞典中的詞進(jìn)行匹配,得到第一次分詞結(jié)果和未登錄字;

組詞單元302,用于以所述未登錄字為基礎(chǔ),向前或向后截取一段文本作為與所述未登錄字對(duì)應(yīng)的未登錄詞;

判斷單元303,判斷所述未登錄詞是否已存在于所述第一次分詞結(jié)果中, 當(dāng)所述第一次分詞結(jié)果中沒有所述未登錄詞時(shí),將所述未登錄詞添加到第一次分詞結(jié)果中,得到作為最終分詞結(jié)果的第二次分詞結(jié)果,以使得根據(jù)所述第二次分詞結(jié)果和用戶輸入的關(guān)鍵字找到多個(gè)與所述關(guān)鍵字相關(guān)的分詞。

本發(fā)明實(shí)施例提供的分詞裝置中,通過劃分單元將待分詞文本進(jìn)行分詞,并將得到的分詞和預(yù)測詞典中的詞進(jìn)行匹配,得到第一次分詞結(jié)果和未登錄字;然后通過組詞單元以所述未登錄字為基礎(chǔ),向前或向后截取一段文本作為與所述未登錄字對(duì)應(yīng)的未登錄詞,最后通過判斷單元判斷所述未登錄詞是否已存在于所述第一次分詞結(jié)果中,當(dāng)所述第一次分詞結(jié)果中沒有所述未登錄詞時(shí),將所述未登錄詞添加到所述第一次分詞結(jié)果中,得到作為最終分詞結(jié)果的第二次分詞結(jié)果,以使得根據(jù)所述第二次分詞結(jié)果和用戶輸入的關(guān)鍵字找到多個(gè)與所述關(guān)鍵字相關(guān)的分詞,提高了分詞的準(zhǔn)確性,使得利用所述第二次分詞結(jié)果構(gòu)建的索引具有全面性、抗未登錄詞的特征,減少了對(duì)預(yù)測詞典全面性的要求,且能夠提高搜索命中概率。

進(jìn)一步的,所述組詞單元302具體用于:

以所述未登錄字為基礎(chǔ),向前取一個(gè)或多個(gè)字與所述未登錄字組成未登錄詞,和/或

向后取一個(gè)或多個(gè)字與所述未登錄字組成未登錄詞。

通過所述組詞單元從文本中劃分出與該未登錄字連接的字符作為未登錄詞添加到分詞列表中,從而使分詞列表更加準(zhǔn)確,提高了文本分詞的準(zhǔn)確性。

進(jìn)一步的,所述分詞裝置還包括預(yù)測詞典構(gòu)建單元304,用于收集基本單詞和常用詞,構(gòu)建文本詞典;并對(duì)所述文本詞典進(jìn)行算法構(gòu)建,形成帶預(yù)測特征的預(yù)測詞典;其中,所述預(yù)測詞典中包括詞、詞前綴以及詞|詞前綴。

通過所述預(yù)測詞典構(gòu)建單元304構(gòu)建帶預(yù)測特征的預(yù)測詞典,以減少在所述預(yù)測詞典中查詢?cè)摲衷~位置信息的工作量,進(jìn)而提高工作效率;并且所述預(yù)測詞典中對(duì)每一單詞的詞特征進(jìn)行了標(biāo)注,因此可以根據(jù)標(biāo)注出的詞特征準(zhǔn)確快速的找出相關(guān)聯(lián)的分詞,進(jìn)一步提高了文本分詞的效率和準(zhǔn)確性。

進(jìn)一步的,所述分詞裝置還包括排序單元305,用于將所述作為最終分詞結(jié)果的第二次分詞結(jié)果中的分詞放入到分詞列表中,并根據(jù)所述分詞列表中的分詞構(gòu)建倒序索引。

通過所述排序單元305對(duì)所述分詞列表中的分詞構(gòu)建倒序索引,可有效的實(shí)現(xiàn)對(duì)倒序索引進(jìn)行管理,有利于降低檢索過程中所需的緩存,提高系統(tǒng)響應(yīng)。

基于同一發(fā)明構(gòu)思,本發(fā)明實(shí)施例還提供了一種檢索方法,參見圖4;從圖4中可以看出,所述檢索方法包括:

步驟401,將待分詞文本進(jìn)行分詞,并和預(yù)測詞典中的詞進(jìn)行匹配,得到分詞結(jié)果和未登錄字;

步驟402,以所述未登錄字為基礎(chǔ),向前或向后截取一段文本作為與所述未登錄字對(duì)應(yīng)的未登錄詞;

步驟403,判斷所述未登錄詞是否已存在于所述第一次分詞結(jié)果中,當(dāng)所述第一次分詞結(jié)果中沒有所述未登錄詞時(shí),將所述未登錄詞添加到第一次分詞結(jié)果中,得到作為最終分詞結(jié)果的第二次分詞結(jié)果,以使得根據(jù)所述第二次分詞結(jié)果和用戶輸入的關(guān)鍵字找到多個(gè)用于搜索的分詞;

步驟404,將所述作為最終分詞結(jié)果的第二次分詞結(jié)果中的分詞放入到分詞列表中,并根據(jù)所述分詞列表中的分詞構(gòu)建倒序索引;

步驟405,根據(jù)用于檢索的關(guān)鍵詞查詢出與所述關(guān)鍵詞對(duì)應(yīng)的倒序索引,并取得對(duì)應(yīng)的檢索結(jié)果。

所述檢索方法中,首先將待分詞文本進(jìn)行分詞,得到第一次分詞結(jié)果和未登錄字,然后以所述未登錄字為基礎(chǔ),向前或向后截取一段文本作為與所述未登錄字對(duì)應(yīng)的未登錄詞,當(dāng)所述第一次分詞結(jié)果中沒有所述未登錄詞時(shí),將所述未登錄詞添加到所述第一次分詞結(jié)果中,從而得到包括未登錄詞的第二次分詞結(jié)果;然后將所述第二次分詞結(jié)果中的分詞放入到分詞列表中,再根據(jù)所述分詞列表構(gòu)建倒序索引,并根據(jù)用于檢索的關(guān)鍵詞查詢出與所述關(guān)鍵詞對(duì)應(yīng)的倒序索引,并取得對(duì)應(yīng)的檢索結(jié)果。由于該檢索方法中通過對(duì)未登錄詞進(jìn)行分 詞并添加到分詞列表中,提高了分詞的準(zhǔn)確性,使得利用該分詞列表構(gòu)建的倒序索引具有全面性、抗未登錄詞的特征,減少了對(duì)預(yù)測詞典全面性的要求,且能夠提高搜索命中概率。

進(jìn)一步的,所述根據(jù)用于檢索的關(guān)鍵詞查詢出與所述關(guān)鍵詞對(duì)應(yīng)的倒序索引,并取得對(duì)應(yīng)的檢索結(jié)果,包括:

根據(jù)所述關(guān)鍵詞和倒序索引,得到多個(gè)與該關(guān)鍵詞對(duì)應(yīng)的分詞結(jié)果匹配的作為檢索結(jié)果的倒序索引;

對(duì)命中所述分詞結(jié)果的所有倒序索引進(jìn)行相關(guān)度計(jì)算,根據(jù)計(jì)算得到相關(guān)度的高低順序,來選出作為檢索結(jié)果的倒序索引,并根據(jù)所述作為檢索結(jié)果的倒序索引取得對(duì)應(yīng)的檢索結(jié)果。

需特別指出的是,該檢索方法中有關(guān)分詞的步驟以在上文中進(jìn)行了詳細(xì)的論述,因此在此部分不再贅述。

基于同一發(fā)明構(gòu)思,本發(fā)明實(shí)施例還提供了一種檢索裝置,參見圖5;從圖5中可以看出,所述檢索裝置包括:

劃分單元301,用于將待分詞文本進(jìn)行分詞,并和預(yù)測詞典中的詞進(jìn)行匹配,得到第一次分詞結(jié)果和未登錄字;

組詞單元302,用于以所述未登錄字為基礎(chǔ),向前或向后截取一段文本作為與所述未登錄字對(duì)應(yīng)的未登錄詞;

判斷單元303,用于判斷所述未登錄詞是否已存在于所述第一次分詞結(jié)果中,當(dāng)所述第一次分詞結(jié)果中沒有所述未登錄詞時(shí),將所述未登錄詞添加到第一次分詞結(jié)果中,得到作為最終分詞結(jié)果的第二次分詞結(jié)果,以使得根據(jù)所述第二次分詞結(jié)果和用戶輸入的關(guān)鍵字找到多個(gè)用于搜索的分詞;

排序單元305,用于將所述作為最終分詞結(jié)果的第二次分詞結(jié)果中的分詞放入到分詞列表中,并根據(jù)所述分詞列表中的分詞構(gòu)建倒序索引;

生成單元306,根據(jù)用于檢索的關(guān)鍵詞查詢出與所述關(guān)鍵詞對(duì)應(yīng)的倒序索引,并取得對(duì)應(yīng)的檢索結(jié)果。

本發(fā)明實(shí)施例提供的檢索裝置中,通過劃分單元將待分詞文本進(jìn)行分詞,并將得到的分詞和預(yù)測詞典中的詞進(jìn)行匹配,得到第一次分詞結(jié)果和未登錄字;然后通過組詞單元以所述未登錄字為基礎(chǔ),向前或向后截取一段文本作為與所述未登錄字對(duì)應(yīng)的未登錄詞,最后通過判斷單元判斷所述未登錄詞是否已存在于所述第一次分詞結(jié)果中,當(dāng)所述第一次分詞結(jié)果中沒有所述未登錄詞時(shí),將所述未登錄詞添加到所述第一次分詞結(jié)果中,得到作為最終分詞結(jié)果的第二次分詞結(jié)果,以使得根據(jù)所述第二次分詞結(jié)果和用戶輸入的關(guān)鍵字找到多個(gè)與所述關(guān)鍵字相關(guān)的分詞,提高了分詞的準(zhǔn)確性,使得利用所述第二次分詞結(jié)果中分詞構(gòu)建的索引具有全面性、抗未登錄詞的特征,減少了對(duì)預(yù)測詞典全面性的要求,因此當(dāng)利用所述分詞形成的倒序索引進(jìn)行檢索時(shí),可提高搜索命中概率和檢索效率。

進(jìn)一步的,所述生成單元306具體用于:

根據(jù)述關(guān)鍵詞和倒序索引,得到多個(gè)與該關(guān)鍵字對(duì)應(yīng)的分詞結(jié)果匹配的作為檢索結(jié)果的倒序索引;

對(duì)命中所述分詞結(jié)果的所有倒序索引進(jìn)行相關(guān)度計(jì)算,根據(jù)計(jì)算得到相關(guān)度的高低順序,來選出作為檢索結(jié)果的倒序索引,并根據(jù)所述作為檢索結(jié)果的倒序索引取得對(duì)應(yīng)的檢索結(jié)果。

通過利用命中結(jié)果的相關(guān)度來生成與所述關(guān)鍵詞對(duì)應(yīng)的檢索結(jié)果,可增大檢索的準(zhǔn)確性。

進(jìn)一步的,所述檢索裝置還包括預(yù)測詞典構(gòu)建單元304,用于收集基本單詞和常用詞,構(gòu)建文本詞典;并對(duì)所述文本詞典進(jìn)行算法構(gòu)建,形成帶預(yù)測特征的預(yù)測詞典;其中,所述預(yù)測詞典中包括詞、詞前綴以及詞|詞前綴。

通過所述預(yù)測詞典構(gòu)建單元304構(gòu)建帶預(yù)測特征的預(yù)測詞典,以減少在所述預(yù)測詞典中查詢?cè)摲衷~位置信息的工作量,進(jìn)而提高工作效率;并且所述預(yù)測詞典中對(duì)每一單詞的詞特征進(jìn)行了標(biāo)注,因此可以根據(jù)標(biāo)注出的詞特征準(zhǔn)確快速的找出相關(guān)聯(lián)的分詞,進(jìn)一步提高了文本分詞的效率和準(zhǔn)確性。

綜上,本發(fā)明實(shí)施提供了一種分詞方法及裝置、檢索方法及裝置。其中,所述分詞分詞中,首先將待分詞文本進(jìn)行分詞,并和與之對(duì)應(yīng)的預(yù)測詞典中的詞進(jìn)行匹配,得到分詞結(jié)果和未登錄字,并將分詞結(jié)果和未登錄字放入到分詞列表中,然后以所述未登錄字為基礎(chǔ),向前或向后截取一段文本作為與所述未登錄字對(duì)應(yīng)的未登錄詞,并判斷所述未登錄詞是否已存在于所述分詞列表中,當(dāng)所述分詞列表中沒有所述未登錄詞時(shí),將所述未登錄詞添加到所述分詞列表中。該分詞方法中對(duì)未登錄詞進(jìn)行分詞并添加到分詞列表中,提高了分詞的準(zhǔn)確性,使得利用該分詞列表構(gòu)建的索引具有全面性、抗未登錄詞的特征,減少了對(duì)預(yù)測詞典全面性的要求,且能夠提高搜索命中概率。

本發(fā)明是參照根據(jù)本發(fā)明實(shí)施例的方法、設(shè)備(系統(tǒng))、和計(jì)算機(jī)程序產(chǎn)品的流程圖和/或方框圖來描述的。應(yīng)理解可由計(jì)算機(jī)程序指令實(shí)現(xiàn)流程圖和/或方框圖中的每一流程和/或方框、以及流程圖和/或方框圖中的流程和/或方框的結(jié)合??商峁┻@些計(jì)算機(jī)程序指令到通用計(jì)算機(jī)、專用計(jì)算機(jī)、嵌入式處理機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器以產(chǎn)生一個(gè)機(jī)器,使得通過計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備的處理器執(zhí)行的指令產(chǎn)生用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的裝置。

這些計(jì)算機(jī)程序指令也可存儲(chǔ)在能引導(dǎo)計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備以特定方式工作的計(jì)算機(jī)可讀存儲(chǔ)器中,使得存儲(chǔ)在該計(jì)算機(jī)可讀存儲(chǔ)器中的指令產(chǎn)生包括指令裝置的制造品,該指令裝置實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能。

這些計(jì)算機(jī)程序指令也可裝載到計(jì)算機(jī)或其他可編程數(shù)據(jù)處理設(shè)備上,使得在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行一系列操作步驟以產(chǎn)生計(jì)算機(jī)實(shí)現(xiàn)的處理,從而在計(jì)算機(jī)或其他可編程設(shè)備上執(zhí)行的指令提供用于實(shí)現(xiàn)在流程圖一個(gè)流程或多個(gè)流程和/或方框圖一個(gè)方框或多個(gè)方框中指定的功能的步驟。

盡管已描述了本發(fā)明的優(yōu)選實(shí)施例,但本領(lǐng)域內(nèi)的技術(shù)人員一旦得知了基本創(chuàng)造性概念,則可對(duì)這些實(shí)施例作出另外的變更和修改。所以,所附權(quán)利要 求意欲解釋為包括優(yōu)選實(shí)施例以及落入本發(fā)明范圍的所有變更和修改。

顯然,本領(lǐng)域的技術(shù)人員可以對(duì)本發(fā)明進(jìn)行各種改動(dòng)和變型而不脫離本發(fā)明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動(dòng)和變型在內(nèi)。

當(dāng)前第1頁1 2 3 
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1