亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

一種分詞方法和分詞裝置的制作方法

文檔序號:6576658閱讀:306來源:國知局
專利名稱:一種分詞方法和分詞裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及分詞技術(shù),更具體地說,涉及一種文字輸入方法和文字輸入裝置。
背景技術(shù)
作為自然語言分析等前沿技術(shù)的關(guān)鍵組成部分,分詞技術(shù)在近年來受到了人們的
廣泛關(guān)注。所謂分詞,就是將文字序列切分成一個一個單獨(dú)的詞。以中文分詞技術(shù)為例,分
詞技術(shù)的目標(biāo)就是將例如但不限于一句話切分為一個一個單獨(dú)的中文詞語。而將文字序列
切分為單獨(dú)的詞,是實(shí)現(xiàn)機(jī)器識別人類語言的第一步,因此分詞技術(shù)至關(guān)重要。 經(jīng)過多年的發(fā)展,研究人員已先后開發(fā)出多種分詞方法,包括例如但不限于基于
字符串匹配的分詞方法、基于理解的分詞方法和基于統(tǒng)計的分詞方法等等。 基于字符串匹配的分詞方法又稱為機(jī)械分詞方法。這種方法依照特定的策略將待
分析的文字序列與一個機(jī)器詞典中的詞條進(jìn)行匹配,若在詞典中找到某個詞,則匹配成功
(識別出一個詞)。按照掃描方向的不同,字符串匹配方法可以分為正向匹配和逆向匹配;
按照不同長度優(yōu)先匹配的標(biāo)準(zhǔn),字符串匹配方法可以分為最大(最長)匹配和最小(最短)
匹配;按照是否與詞性標(biāo)注過程相結(jié)合的標(biāo)準(zhǔn),又可以分為單純分詞方法和分詞與標(biāo)注相
結(jié)合的一體化方法?;诶斫獾姆衷~方法是通過讓計算機(jī)模擬人對句子的理解,達(dá)到識別
詞的效果。這種方法的基本思想就是在分詞的同時進(jìn)行句法、語義分析,利用句法信息和語
義信息來處理歧義現(xiàn)象。基于這種分詞方法開發(fā)的分詞系統(tǒng)通常包括三個部分分詞子系
統(tǒng)、句法語義子系統(tǒng)、總控部分。在總控部分的協(xié)調(diào)下,分詞子系統(tǒng)可以獲得有關(guān)詞、句子等
的句法和語義信息來對分詞歧義進(jìn)行判斷,通過模擬人對句子的理解來達(dá)到分詞的目標(biāo)。 第三種分詞方法是基于統(tǒng)計的分詞方法。從形式上看,詞是穩(wěn)定的字的組合,因此
在上下文中,相鄰的字同時出現(xiàn)的次數(shù)越多,就越有可能構(gòu)成一個詞。因此字與字相鄰共現(xiàn)
的頻率或概率能夠較好的反映成詞的可信度??梢詫φZ料中相鄰共現(xiàn)的各個字的組合的頻
度進(jìn)行統(tǒng)計,計算它們的互現(xiàn)信息。定義兩個字的互現(xiàn)信息,計算例如兩個漢字的相鄰共現(xiàn)
概率?;ガF(xiàn)信息體現(xiàn)了漢字之間結(jié)合關(guān)系的緊密程度。當(dāng)緊密程度高于某一個閾值時,便
可認(rèn)為此字組可能構(gòu)成了一個詞。這種方法只需對語料中的字組頻度進(jìn)行統(tǒng)計,不需要切
分詞典,因而又叫做無詞典分詞法或統(tǒng)計取詞方法。 盡管可以達(dá)到很好的效果,但上述分詞方法的計算量通常很大,因此往往需要專 門的高性能計算設(shè)備來完成分詞操作。此外,對于文字序列之中存在的歧義詞,上述分詞方 法的辨識精確度較低。 因此,需要一種分詞方案,能夠克服現(xiàn)有技術(shù)之中存在的計算量較大的缺陷。

發(fā)明內(nèi)容
本發(fā)明要解決的技術(shù)問題在于,針對現(xiàn)有分詞方法存在的計算量較大以及對歧義
詞的辨識精確度較低的缺陷,提供一種分詞方法和分詞裝置。 本發(fā)明解決其技術(shù)問題所采用的技術(shù)方案是
構(gòu)造一種文字輸入方法,包括 匹配步驟,包括接收輸入的構(gòu)字元素序列,查找并顯示與該構(gòu)字元素序列相匹配 的至少一個文字串;
所述方法還包括 封裝步驟,包括接收輸入的文字串選擇命令,基于所顯示至少一個文字串之中的 所選文字串生成對應(yīng)的分詞封裝并輸出。 在本發(fā)明提供的文字輸入方法中,每一文字串包括至少一個文字字符。 在本發(fā)明提供的文字輸入方法中,所述分詞封裝內(nèi)順序包含分詞起始符、所選文
字串和分詞截止符。 在本發(fā)明提供的文字輸入方法中,在所述分詞封裝中,所述分詞起始符和所述分 詞截止符的顯示屬性均為不可見。 在本發(fā)明提供的文字輸入方法中,在所述分詞封裝中,所選文字串的顯示屬性為 可見。
本發(fā)明還提供了一種文字輸入裝置,包括 匹配模塊,用于接收輸入的構(gòu)字元素序列,查找并顯示與該構(gòu)字元素序列相匹配 的至少一個文字串;
所述裝置還包括 封裝單元,用于接收輸入的文字串選擇命令,基于所顯示至少一個文字串之中的 所選文字串生成對應(yīng)的分詞封裝并輸出。
在本發(fā)明提供的文字輸入裝置中,每一文字串包括至少一個文字字符。 在本發(fā)明提供的文字輸入裝置中,所述分詞封裝內(nèi)順序包含分詞起始符、所選文
字串和分詞截止符。 在本發(fā)明提供的文字輸入裝置中,在所述分詞封裝中,所述分詞起始符和所述分 詞截止符的顯示屬性均為不可見。 在本發(fā)明提供的文字輸入裝置中,在所述分詞封裝中,所選文字串的顯示屬性為 可見。 本發(fā)明還提供了一種分詞方法,包括 分詞封裝提取步驟,包括接收輸入的文字序列,提取其中包含的至少一個分詞封 裝; 文字串提取步驟,包括對于提取的每一分詞封裝,提取該分詞封裝之中包含的文 字串并輸出。 在本發(fā)明提供的分詞方法中,每一分詞封裝內(nèi)順序包含分詞起始符、文字串和分 詞截止符。 在本發(fā)明提供的分詞方法中,每一文字串包括至少一個文字字符。 在本發(fā)明提供的分詞方法中,在每一分詞封裝中,分詞起始符和分詞截止符的顯
示屬性均為不可見。 在本發(fā)明提供的分詞方法中,在每一分詞封裝中,文字串的顯示屬性為可見。
本發(fā)明還提供了一種分詞裝置,包括 分詞封裝提取模塊,用于接收輸入的文字序列,提取其中包含的至少一個分詞封裝; 文字串提取模塊,用于對于提取的每一分詞封裝,提取該分詞封裝之中包含的文 字串并輸出。 在本發(fā)明提供的分詞裝置中,每一分詞封裝內(nèi)順序包含分詞起始符、文字串和分 詞截止符。 在本發(fā)明提供的分詞裝置中,每一文字串包括至少一個文字字符。 在本發(fā)明提供的分詞裝置中,在每一分詞封裝中,分詞起始符和分詞截止符的顯
示屬性均為不可見。 在本發(fā)明提供的分詞裝置中,在每一分詞封裝中,文字串的顯示屬性為可見。 實(shí)施本發(fā)明的技術(shù)方案,具有以下有益效果借助現(xiàn)有文字輸入方法之中的聯(lián)想
詞輸入方案,本發(fā)明提供的文字輸入方法和文字輸入系統(tǒng)將用戶輸入的每一聯(lián)想詞封裝成
對應(yīng)的分詞封裝。如此一來便可得到由分詞封裝組成的文字序列,在輸入過程中即自動完
成了對文字序列的切分。接下來,在依據(jù)本發(fā)明提供的分詞方法和分詞裝置對這種形式的
文字序列進(jìn)行分詞處理時,通過識別其中的每一分詞封裝便可完成對文字序列的切分,因
此本發(fā)明提供的技術(shù)方案將大大降低現(xiàn)有分詞操作的計算量,提高分詞效率。此外,分詞封
裝是基于用戶輸入的聯(lián)想詞而生成的,因此依據(jù)分詞封裝對文字序列的切分可精確的反映
用戶的真實(shí)切分意圖,這樣一來便可有效避免對歧義詞的錯誤識別,大大提高文字序列的
分詞準(zhǔn)確度。


下面將結(jié)合附圖及實(shí)施例對本發(fā)明作進(jìn)一步說明,附圖中 圖1是依據(jù)本發(fā)明一較佳實(shí)施例的文字輸入方法的流程圖; 圖2是依據(jù)本發(fā)明一較佳實(shí)施例的文字輸入系統(tǒng)的邏輯結(jié)構(gòu)示意圖; 圖3是依據(jù)本發(fā)明一較佳實(shí)施例的分詞方法的流程圖 圖4是依據(jù)本發(fā)明一較佳實(shí)施例的分詞裝置的邏輯結(jié)構(gòu)示意圖。
具體實(shí)施例方式
為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖及實(shí)施例,對 本發(fā)明進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。 本發(fā)明提高了一種文字輸入方法和文字輸入裝置,借助現(xiàn)有文字輸入方法之中的 聯(lián)想詞輸入方案,將用戶輸入的每一聯(lián)想詞封裝成對應(yīng)的分詞封裝。如此一來便可得到由 分詞封裝組成的文字序列,在輸入過程中即自動完成了對文字序列的切分。接下來,在通過 本發(fā)明提供的分詞方法和分詞裝置對這種形式的文字序列進(jìn)行分詞處理時,通過識別其中 的每一分詞封裝便可完成對文字序列的切分,因此本發(fā)明提供的技術(shù)方案將大大降低現(xiàn)有 分詞操作的計算量,提高分詞效率。此外,分詞封裝是基于用戶輸入的聯(lián)想詞而生成的,因 此依據(jù)分詞封裝對文字序列的切分可精確的反映用戶的真實(shí)切分意圖,這樣一來便可有效 避免對歧義詞的錯誤識別,大大提高文字序列的分詞準(zhǔn)確度。下面便結(jié)合附圖和具體實(shí)施 例來對本發(fā)明提供的技術(shù)方案進(jìn)行詳細(xì)描述。
圖1是依據(jù)本發(fā)明一較佳實(shí)施例的文字輸入方法100的流程圖。如圖1所示,方 法100開始于步驟102。 隨后,在下一步驟104,接收輸入的構(gòu)字元素序列。以中文為例,可實(shí)現(xiàn)中文輸入的 輸入法包括例如但不限于拼音輸入法、筆劃輸入法、五筆字型輸入法等,其對應(yīng)的構(gòu)字元素 分別為拼音字母、筆劃、字根等,因此對應(yīng)的構(gòu)字元素序列分別為拼音字母序列、筆劃序列、 字根序列等。 隨后,在下一步驟106,查找并顯示與該構(gòu)字元素序列相匹配的至少一個文字串。
隨著聯(lián)想輸入功能的出現(xiàn),文字輸入法一般都可實(shí)現(xiàn)聯(lián)想詞的輸入(例如但不限 于紫光拼音輸入法、搜狗輸入法、谷歌輸入法、QQ輸入法等)。例如輸入包含若干構(gòu)字元素 的構(gòu)字元素序列,將顯示與該構(gòu)字元素序列相對應(yīng)的至少一個聯(lián)想詞或者文字以供用戶選 擇。例如,在添加了聯(lián)想輸入功能的拼音輸入法中,輸入"py"可同時聯(lián)想得到"拼音"、"評 語"等多個聯(lián)想詞以供用戶選擇。此外,也可通過完整的輸入"pinyin"來得到"拼音"一 詞,而通過添加聯(lián)想功能,輸入"pinyin"將直接顯示"拼音"一詞,而無需分別顯示"pin"和 "yin"所對應(yīng)的漢字。有關(guān)聯(lián)想輸入的具體技術(shù)內(nèi)容已經(jīng)在現(xiàn)有技術(shù)中做了清楚的描述,因 此本文不再贅述。 在本發(fā)明提供的技術(shù)方案中,在本步驟中顯示的文字串既可包括聯(lián)想詞,也可包 括單個文字,即該文字串包含至少一個文字。 由于在具體應(yīng)用過程中,聯(lián)想輸入的方式可大大提高輸入效率,因此聯(lián)想輸入已 成為文字輸入的首選。而聯(lián)想輸入的最大特點(diǎn)在于,輸出是的詞而非單個文字。因此,隨著 聯(lián)想式輸入方法的出現(xiàn),用戶輸入文字時,一般以詞為單位進(jìn)行輸入,而非以往的以字為單 位進(jìn)行輸入,即用戶輸入的構(gòu)字元素序列往往對應(yīng)于一個詞。如此一來,在輸入文字序列 時,用戶實(shí)際上是以詞為單位進(jìn)行輸入的,也就是說,在輸入文字序列中,用戶并非以每個 文字為單位進(jìn)行輸入,而是盡量以組成詞語的方式進(jìn)行輸入。而分詞操作的目標(biāo)往往就是 在文字序列之中找出這種詞語。 基于現(xiàn)有的聯(lián)想式輸入法,在收到用戶輸入的構(gòu)字元素序列后,輸入法將在自身 字詞庫中查找該構(gòu)字元素序列所對應(yīng)的至少一個文字串,作為候選文字串,顯示給用戶。
應(yīng)注意,雖然本發(fā)明是以中文為例進(jìn)行描述的,但本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)明白,本 發(fā)明的技術(shù)方案同樣適用于文字構(gòu)成及輸入習(xí)慣上與中文類似的其他文字,例如但不限于 日文、韓文、滿文等。 在具體實(shí)現(xiàn)過程中,步驟104和步驟106可統(tǒng)稱為匹配步驟。有關(guān)匹配步驟的具 體內(nèi)容已經(jīng)在現(xiàn)有技術(shù)之中進(jìn)行了清楚的描述,因此本文不再贅述。
隨后,在下一步驟108,接收用戶輸入的文字串選擇命令。 隨后,在下一步驟IIO,基于所顯示至少一個文字串之中的所選文字串生成對應(yīng)的 分詞封裝并輸出。 在本發(fā)明的一個具體實(shí)施例中,生成的分詞封裝內(nèi)可順序包含分詞起始符、所選 文字串和分詞截止符。為了不影響用戶輸入,在輸出的分詞封裝中,分詞起始符和分詞截止 符的顯示屬性均可設(shè)置為不可見,而僅將所選文字串的顯示屬性設(shè)置為可見。如此一來,在 輸入文字序列的過程中,在輸出的文字序列中,用戶將不會看到分詞起始符和分詞截止符。
例如,可將分詞起始符設(shè)置為',將分詞截止符設(shè)置為廠,此時分詞封裝將采用下列結(jié)構(gòu) ~文字串/' 此時,依照本發(fā)明文字輸入方法100輸入的文字序列將采用下列結(jié)構(gòu)
~文字串1廠~文字串2廠~文字串3廠... 為避免產(chǎn)生錯誤識別,可將分詞起始符和分詞截止符設(shè)置為使用率極低的字符或 者若干字符的組合。 由上文所述可知,依據(jù)本發(fā)明提供的文字輸入方法100輸入的文字序列將主要由 一個個的分詞封裝組成。由于這種分詞封裝是基于用戶本人輸入的詞語而生成的,因此這 種分詞封裝真實(shí)準(zhǔn)確的反映了用戶的切分意圖,而不會產(chǎn)生歧義詞。
在具體實(shí)現(xiàn)過程中,步驟108和步驟110可通稱為封裝步驟。 本發(fā)明還提供了一種與上述文字輸入方法相對應(yīng)的文字輸入系統(tǒng),下面就結(jié)合圖 2對其進(jìn)行詳細(xì)描述。 圖2是依據(jù)本發(fā)明一較佳實(shí)施例的文字輸入系統(tǒng)200的邏輯結(jié)構(gòu)示意圖。如圖2 所示,文字輸入系統(tǒng)200包括匹配模塊202和封裝模塊204。匹配模塊202進(jìn)一步包括查找 模塊2022和字詞庫2024。 匹配模塊202用于接收輸入的構(gòu)字元素序列。在具體實(shí)現(xiàn)過程中,在匹配模塊202 收到構(gòu)字元素序列后,其查找模塊2022便在字詞庫2024中查找與該構(gòu)字元素序列相匹配 的至少一個文字串并顯示。 封裝單元與匹配模塊202通信連接,用于接收輸入的文字串選擇命令,基于所顯 示至少一個文字串之中的所選文字串生成對應(yīng)的分詞封裝并輸出。有關(guān)分詞封裝的具體內(nèi) 容已經(jīng)在前文結(jié)合圖1做了清楚的描述,因此此處不再贅述。 本發(fā)明還提供了一種與上文所述的文字輸入方法和文字輸入系統(tǒng)相對應(yīng)的分詞 方法和分詞系統(tǒng),下面就分別結(jié)合圖3和圖4對其進(jìn)行描述。 圖3是依據(jù)本發(fā)明一較佳實(shí)施例的分詞方法300的流程圖。如圖3所示,方法300 開始于步驟302。 隨后,在下一步驟304,接收輸入的文字序列。 隨后,在下一步驟306,提取其中包含的至少一個分詞封裝。如上文所示,分詞封裝 包括分詞起始符、文字串和分詞截止符。因此,可通過識別分詞起始符和分詞截止符來確定 文字序列之中的每一個分詞封裝。 在具體實(shí)現(xiàn)過程中,步驟304和步驟306可統(tǒng)稱為分詞封裝提取步驟。 隨后,在下一步驟308,對于提取的每一分詞封裝,提取該分詞封裝之中包含的文
字串并輸出。 在具體實(shí)現(xiàn)過程中,步驟308可稱文字串提取步驟。 應(yīng)注意,圖3僅用于描述本發(fā)明的原理,并非用于限定本發(fā)明的范圍。因此,在具 體實(shí)現(xiàn)過程中,在不背離本發(fā)明主旨和范圍的情況下,可對圖3進(jìn)行修改,例如在圖3中添 加其他步驟或者修改圖3中若干步驟的執(zhí)行順序等,例如可在提取完一個分詞封裝之后, 立即提取該分詞封裝之中包含的文字串并輸出。 此外,圖3所示的分詞方法300還可作為現(xiàn)有分詞方法的預(yù)處理步驟,即在執(zhí)行現(xiàn) 有分詞方法之前,首先執(zhí)行本發(fā)明提供的分詞方法300,然后以分詞方法300輸出的文字串組成的序列為基礎(chǔ)依照現(xiàn)有分詞方法進(jìn)行分詞操作。此時,在執(zhí)行現(xiàn)有分詞方法時,應(yīng)當(dāng)將 分詞方法300輸出的文字串作為一個不可再分的整體進(jìn)行操作。例如,以現(xiàn)有的機(jī)械分詞 方法為例,在基于分詞方法300輸出的文字串進(jìn)行進(jìn)一步的分詞時,只能將文字串作為一 個整體與其他文字串進(jìn)行拼接組合,然后在詞庫之中查找時候包含拼接后文字串的詞語, 而不應(yīng)將文字串與其他文字串之中的若干文字進(jìn)行組合來進(jìn)行分詞操作。例如,若分詞方 法300輸出的文字串包含"社會"、"主義"兩個詞,則在基于這兩個文字串進(jìn)行機(jī)械分詞時, 只能以"社會"+ "主義"的方式來執(zhí)行分詞操作,而不能以"社會"+ "主"的方式來執(zhí)行分 詞操作。 本發(fā)明還提供了一種與上述分詞方法相對應(yīng)的分詞裝置,下面就結(jié)合圖4對其進(jìn) 行詳細(xì)的描述。 圖4是依據(jù)本發(fā)明一較佳實(shí)施例的分詞裝置400的邏輯結(jié)構(gòu)示意圖。如圖4所示, 分詞裝置400包括分詞封裝提取模塊402和文字串提取模塊404。 分詞封裝提取模塊402用于接收輸入的文字序列,提取其中包含的至少一個分詞 封裝。 文字串提取模塊404用于對于提取的每一分詞封裝,提取該分詞封裝之中包含的 文字串并輸出。 有關(guān)分詞封裝的具體內(nèi)容已經(jīng)在前文做了清楚的描述,因此此處不再贅述。
以上所述僅為本發(fā)明的較佳實(shí)施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi)所作的任何修改、等同替換和改進(jìn)等,均應(yīng)包含在本發(fā)明的保護(hù)范圍之內(nèi)。
權(quán)利要求
一種分詞方法,其特征在于,包括分詞封裝提取步驟,包括接收輸入的文字序列,提取其中包含的至少一個分詞封裝;文字串提取步驟,包括對于提取的每一分詞封裝,提取該分詞封裝之中包含的文字串并輸出。
2. 根據(jù)權(quán)利要求1所述的分詞方法,其特征在于,每一分詞封裝內(nèi)順序包含分詞起始 符、文字串和分詞截止符。
3. 根據(jù)權(quán)利要求1所述的分詞方法,其特征在于,每一文字串包括至少一個文字字符。
4. 根據(jù)權(quán)利要求2所述的分詞方法,其特征在于,在每一分詞封裝中,分詞起始符和分 詞截止符的顯示屬性均為不可見。
5. 根據(jù)權(quán)利要求2或4所述的分詞方法,其特征在于,在每一分詞封裝中,文字串的顯 示屬性為可見。
6. —種分詞裝置,其特征在于,包括分詞封裝提取模塊,用于接收輸入的文字序列,提取其中包含的至少一個分詞封裝; 文字串提取模塊,用于對于提取的每一分詞封裝,提取該分詞封裝之中包含的文字串 并輸出。
7. 根據(jù)權(quán)利要求6所述的分詞裝置,其特征在于,每一分詞封裝內(nèi)順序包含分詞起始 符、文字串和分詞截止符。
8. 根據(jù)權(quán)利要求6所述的分詞裝置,其特征在于,每一文字串包括至少一個文字字符。
9. 根據(jù)權(quán)利要求7所述的分詞裝置,其特征在于,在每一分詞封裝中,分詞起始符和分 詞截止符的顯示屬性均為不可見。
10. 根據(jù)權(quán)利要求7或9所述的分詞裝置,其特征在于,在每一分詞封裝中,文字串的顯 示屬性為可見。
全文摘要
本發(fā)明涉及分詞技術(shù),針對現(xiàn)有分詞方法存在的計算量較大以及對歧義詞的辨識精確度較低的缺陷,提供一種分詞方法和分詞裝置。分詞方法包括接收輸入的文字序列,提取其中包含的至少一個分詞封裝;對于提取的每一分詞封裝,提取該分詞封裝之中包含的文字串并輸出。本發(fā)明還提供了一種分詞裝置。本發(fā)明提供的技術(shù)方案可在輸入過程中自動完成對文字序列的切分,因此本發(fā)明提供的技術(shù)方案將大大降低現(xiàn)有分詞操作的計算量,提高分詞效率。此外,依據(jù)分詞封裝對文字序列的切分可精確的反映用戶的真實(shí)切分意圖,可大大提高文字序列的分詞準(zhǔn)確度。
文檔編號G06F17/27GK101702153SQ200910110349
公開日2010年5月5日 申請日期2009年10月28日 優(yōu)先權(quán)日2009年10月28日
發(fā)明者劉克鴻, 劉飛, 楊豐, 楊旗, 王有為, 蔣錚, 馬慧 申請人:卓望數(shù)碼技術(shù)(深圳)有限公司
網(wǎng)友詢問留言 已有0條留言
  • 還沒有人留言評論。精彩留言會獲得點(diǎn)贊!
1