亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種無詞邊界標(biāo)記語言文本的分詞序列選擇方法及系統(tǒng)的制作方法

文檔序號:6469129閱讀:194來源:國知局
專利名稱:一種無詞邊界標(biāo)記語言文本的分詞序列選擇方法及系統(tǒng)的制作方法
技術(shù)領(lǐng)域
本發(fā)明屬于文字信息處理領(lǐng)域,特別涉及一種無詞邊界標(biāo)記語言文本的分 詞序列選擇方法及系統(tǒng)。
背景技術(shù)
世界范圍的語言文字一種是有詞邊界標(biāo)記語言,如英文、德文等, 一般單 詞之間采用空格作為詞邊界標(biāo)記來劃界。另一種是無詞邊界標(biāo)記語言,如中文、 曰文以及韓文,在一個句子中的單詞彼此之間沒有定界符。隨著計算機(jī)技術(shù)的 發(fā)展,在搜索引擎、文字檢索、計算機(jī)翻譯等應(yīng)用中都涉及到文本處理得問題, 如何對文本分詞,將一個句子分詞成單詞成為首要步驟。
為了方便描述,下以中文為例進(jìn)行說明,但并不限于中文。中文分詞的技
術(shù)已經(jīng)有幾十年的歷史了,早在20世紀(jì)80年代,就有人開始研究如何用計算 機(jī)來自動進(jìn)行中文分詞。所謂分詞就是把構(gòu)成句子的每一個有意義的詞劃分出 來,這個處理過程就是分詞。
中文分詞的具體操作就是進(jìn)行詞語匹配,從輸入的中文文本的字串中找出 與字典(或詞庫)中的詞匹配的詞,遇到中文文本中匹配不上的字串就分割成
單字詞,于是簡單的分詞就完成了。分詞之后生成分詞序列。
對于句子"中國航天官員應(yīng)邀到美國與太空總署官員開會",采用"查字 典"的方法完全能夠處理,上面的句子會被切分為"中國-航天-官員-應(yīng)邀-到 -美國_與_太空_總署_官員_開會"。但如果碰到有二義性的情況時就無能為力了 ,
比如"發(fā)展中國家,,會被錯誤切分為"發(fā)展沖國-家",正確的應(yīng)該是"發(fā)展-中一國家,,;再比如"上海大學(xué)城書店",會被錯誤切分為"上海大學(xué)-城-書店",正確的應(yīng)該是"上海-大學(xué)城-書店"。
為了解決二義性的問題,需要考慮所有可能的分詞序列,比如上面的"發(fā) 展中國家",存在"發(fā)展-中國-家"和"發(fā)展-中-國家"這兩種分詞序列,需要 通過一些最優(yōu)分詞序列選擇規(guī)則將后 一種最優(yōu)分詞序列挑選出來。
如何選擇最優(yōu)的分詞序列,簡單的有MMSEG方法,它通過句子中詞的最 大匹配、最大平均詞長等幾種規(guī)則來選擇最優(yōu)分詞序列。另一種比較先進(jìn)的方 法就是卯年代前后,清華大學(xué)的郭進(jìn)博士提出的統(tǒng)計語言才莫型。
統(tǒng)計模型計算出每種分詞后句子出現(xiàn)的概率,并找出其中概率最大的作為 最優(yōu)分詞序列。句子出現(xiàn)的概率,簡單來說,就是'每個詞,在'前面的詞, 出現(xiàn)情況下的概率之積。比如上面的例子的第一種分詞序列,它的概率就是 "'發(fā)展,開頭的概率"乘以"'中國,在'發(fā)展,之后的概率"再乘以"'家, 在'發(fā)展,和'中國,之后的概率"。這種選擇最優(yōu)分詞序列的方法被證明是 準(zhǔn)確有效的。
但這個簡單有效的分詞手段有個比較嚴(yán)重的問題。當(dāng)句子很長時,分詞序 列也會比較多,如果窮舉所有可能的分詞方法并計算出每種可能性下句子的概 率,那么計算量會相當(dāng)大。不光是統(tǒng)計模型會遇到這個問題,其它最優(yōu)分詞序 列選擇的方法也會碰到計算量過大的問題。

發(fā)明內(nèi)容
為了解決現(xiàn)有技術(shù)中分詞序列較多時,最優(yōu)分詞序列選擇時計算量過大的 問題,本發(fā)明實(shí)施例提供了一種用計算機(jī)執(zhí)行的無詞邊界標(biāo)記語言文本的分詞 序列選擇方法,包括
對所述文本的一個片段進(jìn)行分詞處理,得到多個不同的分詞序列,各分詞 序列分別包括至少一個分詞單元與其它分詞序列包括的分詞單元不同;
對一個分詞序列中的一個分詞單元之后的詞邊界位置和其它分詞序列中 的一個分詞單元之后的詞邊界位置是否相同進(jìn)行判斷,確定位置相同的詞邊界為各分詞序列共同的詞邊界;
對各分詞序列共同的詞邊界之前的部分進(jìn)行最優(yōu)分詞序列選擇,所述各分 詞序列共同的詞邊界之前的部分,分別包括至少一個分詞單元與其它分詞序列 共同的詞邊界之前的部分包括的分詞單元不同。
同時本發(fā)明實(shí)施例還提供一種用計算機(jī)執(zhí)行的無詞邊界標(biāo)記語言文本的 分詞序列選擇系統(tǒng),包括
分詞處理裝置用于對所述文本的一個片段進(jìn)行分詞處理,得到多個不同 的分詞序列,各分詞序列分別包括至少一個分詞單元與其它分詞序列包括的分 詞單元不同;
詞邊界確定裝置用于對一個分詞序列中的一個分詞單元之后的詞邊^(qū) 置和其它分詞序列中的一個分詞單元之后的詞邊界位置是否相同進(jìn)行判斷,確
定4立置相同的詞邊界為各分詞序列共同的詞邊界;
分詞序列選擇裝置用于對各分詞序列共同的詞邊界之前的部分進(jìn)行最優(yōu) 分詞序列選擇,所述各分詞序列共同的詞邊界之前的部分,分別包括至少一個 分詞單元與其它分詞序列共同的詞邊界t前的部分包括的分詞單元不同。
由上述本發(fā)明提供的具體實(shí)施方案可以看出,正是由于詞邊界很容易產(chǎn)生 在標(biāo)點(diǎn)分割的句子之間,這樣就可能獲得更短的獨(dú)立單元,對于二義性較多的 句子(如因有3個二義性,同時產(chǎn)生3個共同詞邊界的句子),分詞計算量將 可能更少;如果字典中的詞語包含標(biāo)點(diǎn),那么詞邊界也不會在標(biāo)點(diǎn)上產(chǎn)生,不 會產(chǎn)生誤切分的情況;更容易產(chǎn)生的合并條件,只要存在分詞單元右邊界相同 的情況,就可以合并分詞序列;更準(zhǔn)確的合并條件,由于詞邊界分割出的最小 單元是獨(dú)立的,在最小單元內(nèi)對所有序列進(jìn)行合并,不僅合理而且可行,不會 摒棄任何可能正確的分詞情況。


圖1為本發(fā)明提供的第一實(shí)施例方法流程圖;圖2為本發(fā)明提供的第二實(shí)施例系統(tǒng)結(jié)構(gòu)圖。
具體實(shí)施例方式
為了便于本領(lǐng)域技術(shù)人員的理解和實(shí)施,現(xiàn)結(jié)合本發(fā)明提供的實(shí)施例進(jìn)行 方案說明。首先對本發(fā)明實(shí)施例中涉及的一些名詞進(jìn)行說明,句子中相鄰的字 之間、沒有被詞跨過的地方就是詞邊界,包括開頭和結(jié)尾。比如句子"中國 航天官員應(yīng)邀到美國與太空總署官員開會",進(jìn)行詞語匹配,被切分為中國-航天-官員-應(yīng)邀-到-美國-與-太空-總署-官員-開會,將"中國-航天-官員-應(yīng)邀-到-美國-與-太空-總署-官員-開會"稱為一個分詞序列,其中"中國"、"航天" 等匹配上的詞稱為一個分詞單元,若遇到中文文本中匹配不上的字串就分割成 單字詞,也稱為一個分詞單元。將匹配詞語后得到的分詞單元,逐個添加到分 詞序列中。上面的句子的所有的減號,都是句子中的詞邊界。當(dāng)然本實(shí)施例采 用減號對詞邊界進(jìn)行說明,但不限于此。
隨著詞語二義性出現(xiàn)的多種分詞序列,句子中也會出現(xiàn)多種詞邊界。比如 "上海大學(xué)城書店,,的兩種分詞序列"上海大學(xué)-城-書店,,和"上海-大學(xué)城-書店",兩種分詞序列中的詞邊界也不同。分詞序列合并操作基于共同的詞邊 界概念,在這個例子的兩種分詞序列里,詞語'書店,前就是一個共同的詞邊 界。
顯而易見,如果句子中存在不會組成詞的標(biāo)點(diǎn)符號,比如逗號,那么在所 有的分詞序列中,這個逗號的左邊和右邊一定存在詞邊界。同樣,在沒有二義 性的地方,共同的詞邊界也一定存在。
下面以"上海大學(xué)城書店"這個句子為例來說明共同的詞邊界,在分詞序 列合并中的作用。這個句子有兩條分詞序列,更準(zhǔn)確的講,是在共同的詞邊界 前(也就是詞語'書店,前)有兩條分詞序列。由于"書店"前的詞邊界是這 兩條分詞序列共同的詞邊界,意味著這各詞邊界前面部分和后面部分是相互獨(dú) 立的,那樣就可以在這個詞邊界前選擇最優(yōu)的分詞序列。4艮明顯,在'書店,前選擇最優(yōu)的分詞序列和包含'書店,后再選擇最優(yōu)的分詞序列,其結(jié)果是完 全一樣的。
這樣定義利用共同的詞邊界進(jìn)行分詞序列合并的操作在分詞的過程中, 如果有一條共同的詞邊界出現(xiàn),則在這個詞邊界前對所有的分詞序列進(jìn)行合 并,選擇最優(yōu)的分詞序列,再在這個詞邊界之后繼續(xù)進(jìn)行分詞操作。
本發(fā)明提供的第 一 實(shí)施例是一種用計算機(jī)執(zhí)行的無詞邊界標(biāo)記語言文本 的分詞序列選擇方法,方法流程如圖l所示,包括
步驟101:輸入文本T的一個片段。
步驟102:詞語匹配,確定輸入文本T匹配上的詞和未匹配上的詞,得到 分詞單元。
步驟103:將匹配詞語后得到的分詞單元,添加到分詞序列中。
步驟104:在存在二義性的地方對分詞序列進(jìn)行擴(kuò)展,得到不同的分詞序列。
步驟105:利用共同的詞邊界來合并各分詞序列,選取最優(yōu)分詞序列。 下面以搜索引擎為例對各步驟進(jìn)行說明,對于文字檢索、計算機(jī)翻譯等應(yīng) 用也同樣適用。
步驟101中,在搜索引擎進(jìn)行搜索前,通過其接口接收一個輸入的文本T, 文本T的一個片段包括S^2S3S4SsS6S7。 SrS7分別表示一個單字。
步驟102中,搜索引擎的分詞處理裝置首先從文本T的片段左向右掃描一 遍(此處從左向右掃描是基于一般的文本是從左向右表達(dá)文字的含義的,若有 文本從右向左表達(dá)文字的含義,則此處從右向左進(jìn)行掃描),和預(yù)存有海量詞 組的詞庫中的詞組進(jìn)行比較,遇到詞庫中有的詞組就進(jìn)行匹配詞語操作,例如 分詞處理裝置通過匹配詞語操作得到"S^2"是未匹配上詞,"S3S4S5S6"是匹 配上的詞,"S3S4"和"S5S6"是匹配上的詞,"S7,,是未匹配上詞,這里的匹 配原則是從上一次匹配詞語,得到的匹配上的詞的第一個字之后開始,或從上 一次匹配詞語,得到的匹配不上的字之后開始,進(jìn)行下一次匹配詞語。如第一次匹配詞語后(第一次匹配詞語從文本T的片^a第一個單字"sr開始)得到 分詞單元是匹配上的詞"s!s2",應(yīng)當(dāng)從"sr,之后繼續(xù)開始新的詞語匹配,或 者第一次匹配詞語后得到分詞單元是單字"s!"之后繼續(xù)開始新的詞語匹配。
如果文本T的"Si"之后也能匹配到一個詞如"S2S3,,,那么在后續(xù)步驟中就會 有第三條分詞序列。
詞語匹配過程總結(jié)如下
1. 分詞處理裝置逐字在詞庫(字典)中查找匹配的詞。
2. 如果分詞處理置找到匹配上的詞,從匹配上的詞的第一個字后開始下一 次詞語匹配,若分詞處理裝置沒有找到匹配上的詞,從得到的單字后開始下一 次詞i吾匹酉己。
3. 分詞處理裝置反復(fù)執(zhí)行以上1、 2條,從句子開始匹配,到句子結(jié)束為止。
通過上述的查字典的方法進(jìn)行分詞處理得到不同的分詞單元僅是本實(shí)施 例的一個優(yōu)選的方案,但不限于此,比如還可以通過互聯(lián)網(wǎng)的搜索引擎對輸入 文本T片段進(jìn)行搜索,得到不同的分詞單元。
步驟103中,先要通過分詞處理裝置建立一個用于添加分詞單元的初始分 詞序列集合,初始分詞序列集合是一個空集,里面沒有分詞單元,通過步驟102 后,分詞處理裝置將分詞處理裝置得到的分詞單元添加到初始分詞序列集合中 得到分詞序列。
在添加過程中,如果分詞處理裝置找到匹配上的詞的位置在一條分詞序列 所有匹配的詞之后,分詞處理裝置就將新匹配的詞添加到這條分詞序列中,如 果分詞處理置找到的新匹配的詞沒有出現(xiàn)在任一個分詞序列中所有詞之后,那 么分詞處理裝置建立一條新的分詞序列,如分詞處理裝置首先向初始分詞序列 集合添加分詞單元"SiS2",得到分詞序列"SiS2",因?yàn)榉衷~單元"S3S4S5S6" 在分詞單元"SiS2"之后,將"S3S4S5S6"添加到該分詞序列,得到分詞序列為
"S^-S^SW,同時對于分詞單元"S3S4,,在分詞單元"SW之后,可以添加到分詞序列"S,S2",但分詞單元"S3S4,,不在分詞單元"S3S4S5S6"之后,
無法添加到分詞序列"SiSrSsS^sSe"之后,那么分詞處理裝置建立一條新的
分詞序列"S^2-S3S4"。 分詞單元添加的規(guī)則
1. 如果分詞處理裝置發(fā)現(xiàn)新分詞單元出現(xiàn)在一條分詞序列上所有分詞單 元之后,那么這個分詞單元就可以添加到這條分詞序列上。
2. 如果分詞處理裝置發(fā)現(xiàn)新分詞單元沒有出現(xiàn)在任一個現(xiàn)有分詞序列上 所有分詞單元的后面,那么就用這個分詞單元,增加一條新的分詞序列。
再看一個例子在多個分詞序列下添加分詞單元,例如分詞處理裝置得到
兩個分詞序列"StS2-S3S4S5S6"和"SiS2-S3S4"后,分詞處理裝置將新分詞單
元"S5S6,,添加到分詞序列"S^-SW中,得到分詞序列"S,S2-S3S4-SsS6"。 步驟104分詞序列擴(kuò)展步驟中,除了上面因?yàn)榉衷~處理裝置無法將新分詞
單元添加到原有分詞序列時會導(dǎo)致分詞序列的增加,還有個情況就是同一個位
置產(chǎn)生多個新分詞單元,這個時候分詞序列就會產(chǎn)生分支。
如上面的例子,分詞序列"StS2"是原來的分詞序列,分詞單元"S3S4"
和分詞單元"S3S4S5S6"是在同一位置上產(chǎn)生的新的分詞單元,這2個新的分
詞單元分別對原先的分詞序列"SiS2"進(jìn)行分支擴(kuò)展,結(jié)果為分詞序列
"S!S2-S3S4SsS6"和"StS2-S3S4"。之后分詞處理裝置根據(jù)得到的分詞單元"S5S6" 可添加到"S!SrS3S4"中得到分詞序列"SiS2-S3S4-SsS6"。
實(shí)際上,上述的步驟就是分詞處理裝置將新的分詞單元添加到原來分詞序 列的過程,只不過當(dāng)同時有多個分詞單元添加時,分詞處理裝置將原來的分詞 序列復(fù)制成多個。
同樣,如果有一個新分詞單元沒有添加到任一個已有的分詞序列中,分詞 處理裝置也會給這個分詞單元新增加一條分詞序列。
步驟105分詞序列合并步驟,詞邊界確定裝置根據(jù)查找以上的每條分詞序
列的"-"來確定分詞序列中的詞邊界,并且詞邊界確定裝置根據(jù)查找到的"-"之前的單字在整個文本中的位置,確定該"-"的位置,如詞邊界確定裝置根
據(jù)"SiS/后面的"-,,在整個文本的第2個單字"S2,,的后面,則確定該"-" 的位置為2,當(dāng)然詞邊界確定裝置也可以根據(jù)該"-"在第3個單字"S3"的前 面,確定該"-"的位置為3。下面介紹利用共同的詞邊界來進(jìn)行分詞序列合并 的規(guī)則。
詞邊界確定裝置只要發(fā)現(xiàn)在幾條分詞序列中,同一個位置上出現(xiàn)共同的詞 邊界,就會通知分詞序列選擇裝置在該詞邊界的前面部分合并分詞序列。具體 而言,詞邊界確定裝置會根據(jù)一個分詞序列中的一個分詞單元之后的詞邊界的 位置和其它分詞序列中的一個分詞單元之后的詞邊界位置相同,確定該詞邊界
為各分詞序列共同的詞邊界,比如分詞序列"S,S2-S3S4-SsS6-S7"和分詞序列 "SiSrSsS^sSs-S ", "S^2"后面的"-"就是這兩個分詞序列共同的詞邊界(位 置均為2) , "S5S6"和"S3S4S5S6,,后面的"誦,,也是這兩個分詞序列共同的 詞邊界(位置均為6)。
在實(shí)際操作時,如果詞邊界確定裝置發(fā)現(xiàn)進(jìn)行分詞序列擴(kuò)展時得到的幾條 分詞序列中,最后得到的一個分詞單元的之后的詞邊界位置相同,那么詞邊界 確定裝置就會通知分詞序列選擇裝置這幾條分詞序列就可以合并,如步驟104 分詞序列擴(kuò)展步驟中,分詞序列"StS2"是原來的分詞序列,分詞單元"S5S6" 和分詞單元"S3S4S5S6"是分別是兩條路徑最后一個匹配上的詞,它們之后的 詞邊界位置相同,詞邊界確定裝置就會通知分詞序列選擇裝置這兩條分詞序列 可以合并成一條,收到通知之后,分詞序列選擇裝置會根據(jù)選擇算法從分詞序 列"SA-S^-SsSW和分詞序列"S^-S^SsSW中選擇分詞序列 "S^2-S3S4S5S6-S7"。具體選取哪一條分詞序列作為最優(yōu)分詞序列,取決于分詞 序列選擇裝置采用的選擇算法。如果是統(tǒng)計模型,那么選取各分詞路徑中出現(xiàn) 概率最大的那條;如果是MMSEG分詞算法,那么首先選擇最大字詞匹配,如 果還有多個,再選擇平均最長。當(dāng)然,有可能最后還會是多條分詞序列。
根據(jù)前面的方法選擇的最優(yōu)分詞序列選擇分詞序列為"S,S2-S3S4SsS6-S7",搜索引擎進(jìn)行關(guān)鍵字搜索處理。
上面以文本T片段僅有1個二義性的地方對本方案進(jìn)行原理說明,下面以
文本T片#殳S^sSsSaSsSsS^sS^a有2個二義性的i也方"S^sSsS^s"和
"S6S7S8S9Sa"為例對本方案進(jìn)行說明,其中"SiS^S^s"可4皮分詞為"S^Sr S4S5"和"S,S2-S3S4S5" , "S6S7S8S9Sa"可被分詞為"S6S7-S8S9Sa"和"S6S7S8-S9Sa"。
搜索引擎接口接收輸入文本T的一個片段S,S2S3S4SsS6S7SsS9Sa。
分詞處理裝置首先從文本T的片段左向右掃描一遍,和預(yù)存有海量詞組的
詞庫中的詞組進(jìn)行比較,首先將匹配上的分詞單元"S^2"和"S!S2S3"添加 到預(yù)先存儲在內(nèi)存中的2個初始分詞序列集合,分別得到分詞序列"S!S2"和
"SiS2S3",并存儲在內(nèi)存的2個不同的存儲區(qū)。之后分詞處理裝置將分詞單元 "S3S4S5"添加到分詞序列"SiS2"中得到"StSrS^Ss",將分詞單元"S4S5,,
添加到分詞序列"S,S2S3"中得到分詞序列"S^SrS^s",詞邊界確定裝置根
據(jù)新添加的分詞單元"S3S4S5"和"S4S5"的最后一個字均為文本T的片段中 的第5個單字"s5,,,確定分詞序列"S^-S3S4S5,,和分詞序列"S^-S4S5"
具有共同詞邊界的分詞序列,詞邊界確定裝置就會通知分詞序列選擇裝置對分
詞序列"S,S2-S3S4Ss"和分詞序列"S,S2S3-S4Ss"進(jìn)行合并,分詞序列選擇裝
置采用的MMSEG分詞算法(也可以采用統(tǒng)計模型)從分詞序列"S^2-S3S4S5"
和分詞序列"S^2S3-S4Ss"中選擇分詞序列"SiS2-S3S4Ss"。同時清空存儲分詞 序列"SiS2S3-S4S5"的內(nèi)存空間。分詞處理裝置匹配上分詞單元"S6S7"和"S6S7S8"
后,將分詞序列"StS2-S3S4Ss"進(jìn)行拷貝處理,2個相同的分詞序列"StSz-S^Ss" 分別存在內(nèi)存的2個不同的存儲區(qū),將分詞單元"S6S7"和"S6S7S8"分別添 加在2個相同的分詞序列"S!S2-S3S4Ss"之后,得到分詞序列"S^rSsS^s- S6S7" 和"StSrS^^s- S6S7S8"。分詞處理裝置匹配上分詞單元"S8S9Sa",將分詞單 元"S8S9Sa"添加到分詞序列"S^-S^Ss-SsS ,,中得到分詞序列
"S,S2-S3S4S5-S6S7-SsS9Sa"。之后分詞處理裝置匹配上分詞單元"S9Sa",將分
詞單元"S9Sa,,添加到分詞序列"S^-S^Ss-S^Ss"中得到分詞序列"SiS2-S3S4S5-S6S7S8-S9Sa,,。 詞邊界確定裝置根據(jù)新添加的分詞單元"S8S9Sa,,
和"S9Sa"的最后一個字均為文本T的片段中的第IO個單字"Sa",確定分詞
序列"SiSrS^^s-SeSrSsSsSa"和分詞序列"SiSrS^ASs-SGS^s-S^a"具有共 同詞邊界的分詞序列,詞邊界確定裝置就會通知分詞序列選擇裝置對分詞序列 "SiSrSsS^s-SsSrSsSgSa"和分詞序列"S^rS^^s-SsS^s-S^a"進(jìn)4亍合并,
分詞序列選擇裝置采用的MMSEG分詞算法(也可以釆用統(tǒng)計模型)從分詞序
列"SiSrSsS^s-SsSrSsS^a"和分詞序列"SiSrS^^s-SsSvSs-S^a"中選擇分 詞序列 "S!S2-S3S4S5-S6S7-SsS9Sa "。
同時清空存儲分詞序列
"S^-S^SrS^Ss-SA"的內(nèi)存空間。
若一個文本T中存在多個二義性的地方,則反復(fù)執(zhí)行類似對文本T的片段 執(zhí)行的操作步驟。如文本T中存在3個二義性的地方,每個二義性的地方會產(chǎn) 生2個不同的分詞單元,則需反復(fù)執(zhí)行類似對文本T的片段執(zhí)行的操作步驟3 次。此時如果按現(xiàn)有技術(shù)則在出現(xiàn)的8個分詞序列中進(jìn)行最優(yōu)分詞序列選擇, 而按本實(shí)施例中的方法則只對2個分詞序列進(jìn)行3次最優(yōu)分詞序列選擇,計算 量將減少。另若字庫中包括"比爾.蓋茨"這樣的詞,此時因?qū)餐脑~邊R 前的分詞序列進(jìn)行合并,而詞邊界不會產(chǎn)生在"比爾.蓋茨"中間的標(biāo)點(diǎn)上,不 會產(chǎn)生誤切分的情況。
在實(shí)際操作時,在得到的幾條分詞序列中,最后得到的一個分詞單元的最 后一個字的位置相同時,并不立即合并這幾條分詞序列,如分詞序列
"SiSrSsS^rS^rSsS^a"和 "S^rS^^s-S^-s-SgSa",并不是得到分詞序 列"SiS2-S3S4Ss"和"S,S2-S3S4Ss"后,對這兩個分詞序列進(jìn)行分詞序列合并, 而是得到分詞序列"SiSrS^^s-SsSrSsSgSa"和"SiSrS^^s-SeS^rS^a"后,
對這兩個分詞序列進(jìn)行分詞序列合并。
在實(shí)際操作時,在得到幾條分詞序列后,出現(xiàn)共同的詞邊界時,可以合并
該共同的詞邊界之后的幾條分詞序列。以分詞序列"S,S2-S3S4S5-S6S7-SsS9Sa" 和"S^2-S3S4S5-S6S7S8-S9Sa,,為例進(jìn)行說明,在得到分詞序列"S^rSsS^s"和"SiS2-S3S4S5"后,得到共同的詞邊界,在該共同的詞邊界后得到分詞序列
"S6S7-S8S9Sa,,和"S6S7S8-S9Sa",對該共同的詞邊界后的這兩個分詞序列進(jìn)4亍
分詞序列合并。
這里重新看一看使用共同的詞邊界進(jìn)行分詞序列合并的優(yōu)點(diǎn)由于詞邊界 很容易產(chǎn)生在標(biāo)點(diǎn)分割的句子之間,這樣就可能獲得更短的獨(dú)立單元,分詞計 算量將可能更少;如果字典中的詞語包含標(biāo)點(diǎn),那么詞邊界也不會在標(biāo)點(diǎn)上產(chǎn) 生,不會產(chǎn)生誤切分的情況;更容易產(chǎn)生的合并條件,只要存在分詞單元右邊 界相同的情況,就可以合并分詞序列;更準(zhǔn)確的合并條件,由于詞邊界分割出 的最小單元是獨(dú)立的,在最小單元內(nèi)對所有序列進(jìn)行合并,不僅合理而且可行, 不會摒棄任何可能正確的分詞情況。
本發(fā)明提供的第二實(shí)施例是一種用計算機(jī)執(zhí)行的無詞邊界標(biāo)記語言文本 的分詞序列選擇系統(tǒng),其結(jié)構(gòu)如圖2所示,包括
分詞處理裝置201:用于對所述文本的一個片段進(jìn)行分詞處理,得到多個 不同的分詞序列,各分詞序列分別包括至少一個分詞單元與其它分詞序列包括 的分詞單元不同;
詞邊界確定裝置202:用于對一個分詞序列中的一個分詞單元之后的詞邊 界位置和其它分詞序列中的 一個分詞單元之后的詞邊界位置是否相同進(jìn)行判 斷,確定位置相同的詞邊界為各分詞序列共同的詞邊界;
分詞序列選擇裝置203:用于對各分詞序列共同的詞邊界之前的部分進(jìn)行
最優(yōu)分詞序列選擇,所述各分詞序列共同的詞邊界之前的部分,分別包括至少 一個分詞單元與其它分詞序列共同的詞邊界之前的部分包括的分詞單元不同。
進(jìn)一步,分詞序列選擇裝置203:還用于對各分詞序列的一個共同的詞邊 界之前的部分進(jìn)行最優(yōu)分詞序列選擇后,若該共同的詞邊界之后沒有共同的詞 邊界則不再進(jìn)行最優(yōu)分詞序列選擇,否則繼續(xù)進(jìn)行最優(yōu)分詞序列選擇,
進(jìn)一步,分詞處理裝置201:還用于將所述文本的一個片段的字串與字典 中的詞匹配得到分詞單元,將得到的分詞單元添加到分詞序列中,若因片段的字串存在二義性,同時需要添加多個分詞單元,則對分詞序列進(jìn)行分支擴(kuò)展4尋 到多個不同的分詞序列。
進(jìn)一步,分詞處理裝置201:還用于逐字在字典中查找匹配的詞,若查找 到匹配的詞,則從匹配上的詞的第二個字開始下一次匹配查找,否則從未匹配 上的字后的第一個字開始下一次匹配查找。
進(jìn)一步,分詞處理裝置201:還用于才艮據(jù)新分詞單元出現(xiàn)在一條分詞序列 上所有分詞單元之后,將這個分詞單元添加到這條分詞序列上;
根據(jù)新分詞單元沒有出現(xiàn)在任一個現(xiàn)有分詞序列上所有分詞單元的后面, 對現(xiàn)有分詞序列進(jìn)行分支擴(kuò)展,增加一條新的分詞序列,將新的分詞單元添加 到新的分詞序列。
進(jìn)一步,詞邊界確定裝置202:還用于在對分詞序列進(jìn)行分支擴(kuò)展得到的 多個不同的分詞序列中,才艮據(jù)最新得到的一個分詞單元的最后一個字的詞邊界 位置相同,確定該詞邊界為各分詞序列共同的詞邊界。
進(jìn)一步,分詞序列選擇裝置203:還用于進(jìn)行最優(yōu)分詞序列選擇后保留一 個或多個分詞序列。
進(jìn)一步,該系統(tǒng)還包括
搜索引擎模塊204:用于根據(jù)選擇的最優(yōu)分詞序列進(jìn)行搜索操作。 為了描述的方便,以上所述系統(tǒng)的各部分以功能分為各種裝置分別描述。 當(dāng)然,在實(shí)施本發(fā)明時可以把各裝置的功能在同 一個或多個軟件或硬件中實(shí)現(xiàn)。
通過以上的實(shí)施方式的描述,本領(lǐng)域的技術(shù)人員可以清楚地了解到本發(fā)明 可借助軟件加必需的通用硬件平臺的方式來實(shí)現(xiàn),當(dāng)然也可以通過硬件,但很 多情況下前者是更佳的實(shí)施方式?;谶@樣的理解,本發(fā)明的技術(shù)方案本質(zhì)上 或者說對現(xiàn)有技術(shù)做出貢獻(xiàn)的部分可以以軟件產(chǎn)品的形式體現(xiàn)出來,該計算機(jī) 軟件產(chǎn)品可以存儲在存儲介質(zhì)中,如ROM/RAM、磁碟、光盤等,包括若干指 令用以使得一臺計算機(jī)設(shè)備(可以是個人計算機(jī),服務(wù)器,或者網(wǎng)絡(luò)設(shè)備等)執(zhí)行本發(fā)明各個實(shí)施例或者實(shí)施例的某些部分所述的方法。
顯然,本領(lǐng)域的技術(shù)人員可以對本發(fā)明進(jìn)行各種改動和變型而不脫離本發(fā) 明的精神和范圍。這樣,倘若本發(fā)明的這些修改和變型屬于本發(fā)明權(quán)利要求及 其等同技術(shù)的范圍之內(nèi),則本發(fā)明也意圖包含這些改動和變型在內(nèi)。
權(quán)利要求
1、一種用計算機(jī)執(zhí)行的無詞邊界標(biāo)記語言文本的分詞序列選擇方法,其特征在于,包括對所述文本的一個片段進(jìn)行分詞處理,得到多個不同的分詞序列,各分詞序列分別包括至少一個分詞單元與其它分詞序列包括的分詞單元不同;對一個分詞序列中的一個分詞單元之后的詞邊界位置和其它分詞序列中的一個分詞單元之后的詞邊界位置是否相同進(jìn)行判斷,確定位置相同的詞邊界為各分詞序列共同的詞邊界;對各分詞序列共同的詞邊界之前的部分進(jìn)行最優(yōu)分詞序列選擇,所述各分詞序列共同的詞邊界之前的部分,分別包括至少一個分詞單元與其它分詞序列共同的詞邊界之前的部分包括的分詞單元不同。
2、 如權(quán)利要求1所述的方法,其特征在于,所述對各分詞序列共同的詞 邊界之前的部分進(jìn)行最優(yōu)分詞序列選擇具體為對各分詞序列的一個共同的詞邊界之前的部分進(jìn)行最優(yōu)分詞序列選擇后, 若該共同的詞邊R后沒有共同的詞邊界則不再進(jìn)行最優(yōu)分詞序列選擇,否則 繼續(xù)進(jìn)行最優(yōu)分詞序列選擇。
3、 如權(quán)利要求1或2所述的方法,其特征在于,對所述文本的一個片段 進(jìn)行分詞處理,得到多個不同的分詞序列具體為將所述文本的一個片段的字串與字典中的詞匹配得到分詞單元,將得到的 分詞單元添加到分詞序列中,若因片段的字串存在二義性,同時需要添加多個 分詞單元,則對分詞序列進(jìn)行分支擴(kuò)展得到多個不同的分詞序列。
4、 如權(quán)利要求3所述的方法,其特征在于,將所述文本的一個片段的字串與字典中的詞匹配具體為逐字在字典中查找匹配的詞,若查找到匹配的詞,則從匹配上的詞的第二個字開始下一次匹配查找,否則從未匹配上的字后的第一個字開始下一次匹配查找。
5、 如權(quán)利要求3所述的方法,其特征在于,將得到的分詞單元添加到分 詞序列中具體為根據(jù)新分詞單元出現(xiàn)在一條分詞序列上所有分詞單元之后,將這個分詞單 元添加到這條分詞序列上;根據(jù)新分詞單元沒有出現(xiàn)在任一個現(xiàn)有分詞序列上所有分詞單元的后面, 對現(xiàn)有分詞序列進(jìn)行分支擴(kuò)展,增加一條新的分詞序列,將新的分詞單元添加 到新的分詞序列。
6、 如權(quán)利要求3所述的方法,其特征在于,確定共同的詞邊界的步驟具 體為在對分詞序列進(jìn)行分支擴(kuò)展得到的多個不同的分詞序列中,根據(jù)最新得到 的一個分詞單元的最后一個字的詞邊界位置相同,確定該詞邊界為各分詞序列 共同的詞邊界。
7、 如權(quán)利要求1或2所述的方法,其特征在于,進(jìn)行最優(yōu)分詞序列選擇 后保留 一個或多個分詞序列。
8、 如權(quán)利要求1所述的方法,其特征在于,對各分詞序列共同的詞邊界 之前的部分進(jìn)行最優(yōu)分詞序列選擇后還包括根據(jù)選擇的最優(yōu)分詞序列搜索引擎進(jìn)行搜索操作。
9、 一種用計算機(jī)執(zhí)行的無詞邊界標(biāo)記語言文本的分詞序列選擇系統(tǒng),其 特征在于,包括分詞處理裝置用于對所述文本的一個片段進(jìn)行分詞處理,得到多個不同 的分詞序列,各分詞序列分別包括至少一個分詞單元與其它分詞序列包括的分 詞單元不同;詞邊界確定裝置用于對一個分詞序列中的 一個分詞單元之后的詞邊M^ 置和其它分詞序列中的一個分詞單元之后的詞邊界位置是否相同進(jìn)行判斷,確 定位置相同的詞邊界為各分詞序列共同的詞邊界;分詞序列選擇裝置用于對各分詞序列共同的詞邊界之前的部分進(jìn)行最優(yōu) 分詞序列選擇,所述各分詞序列共同的詞邊界之前的部分,分別包括至少一個
10、 如權(quán)利要求9所述的系統(tǒng),其特征在于,分詞序列選擇裝置還用于 對各分詞序列的一個共同的詞邊界之前的部分進(jìn)行最優(yōu)分詞序列選擇后,若該 共同的詞邊界之后沒有共同的詞邊界則不再進(jìn)行最優(yōu)分詞序列選擇,否則繼續(xù) 進(jìn)行最優(yōu)分詞序列選擇。
11、 如權(quán)利要求9或10所述的系統(tǒng),其特征在于,分詞處理裝置還用 于將所述文本的一個片段的字串與字典中的詞匹配得到分詞單元,將得到的分 詞單元添加到分詞序列中,若因片段的字串存在二義性,同時需要添加多個分 詞單元,則對分詞序列進(jìn)行分支擴(kuò)展得到多個不同的分詞序列。
12、 如權(quán)利要求11所述的系統(tǒng),其特征在于,分詞處理裝置還用于逐 字在字典中查找匹配的詞,若查找到匹配的詞,則從匹配上的詞的第二個字開 始下一次匹配查找,否則從未匹配上的字后的第一個字開始下一次匹配查找。
13、 如權(quán)利要求11所述的系統(tǒng),其特征在于,分詞處理裝置還用于根 據(jù)新分詞單元出現(xiàn)在一條分詞序列上所有分詞單元之后,將這個分詞單元添加 到這條分詞序列上;根據(jù)新分詞單元沒有出現(xiàn)在任一個現(xiàn)有分詞序列上所有分詞單元的后面, 對現(xiàn)有分詞序列進(jìn)行分支擴(kuò)展,增加一條新的分詞序列,將新的分詞單元添加 到新的分詞序列。
14、 如權(quán)利要求11所述的系統(tǒng),其特征在于,詞邊界確定裝置還用于 在對分詞序列進(jìn)行分支擴(kuò)展得到的多個不同的分詞序列中,根據(jù)最新得到的一 個分詞單元的最后一個字的詞邊界位置相同,確定該詞邊界為各分詞序列共同 的詞邊界。
15、 如權(quán)利要求9所述的系統(tǒng),其特征在于,分詞序列選擇裝置還用于
16、如權(quán)利要求9所述的系統(tǒng),其特征在于,還包括搜索引擎模塊用于根據(jù)選擇的最優(yōu)分詞序列進(jìn)行搜索操作。
全文摘要
本發(fā)明公開了一種無詞邊界標(biāo)記語言文本的分詞序列選擇方法及裝置,為了解決現(xiàn)有技術(shù)中現(xiàn)有最優(yōu)分詞序列選擇時計算量過大的問題,本發(fā)明公開的方法包括對所述文本的一個片段進(jìn)行分詞處理,得到多個不同的分詞序列;確定各分詞序列共同的詞邊界;對各分詞序列共同的詞邊界之前的部分進(jìn)行最優(yōu)分詞序列選擇。由于對各分詞序列共同的詞邊界之前的部分進(jìn)行最優(yōu)分詞序列選擇,這樣就可以獲得更短的獨(dú)立單元,因此分詞計算量將更少。
文檔編號G06F17/30GK101430680SQ20081019293
公開日2009年5月13日 申請日期2008年12月31日 優(yōu)先權(quán)日2008年12月31日
發(fā)明者能 戴 申請人:阿里巴巴集團(tuán)控股有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1