亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

基于搜索的無(wú)詞邊界標(biāo)記語(yǔ)言的分詞方法以及裝置的制作方法

文檔序號(hào):6574421閱讀:157來(lái)源:國(guó)知局
專(zhuān)利名稱(chēng):基于搜索的無(wú)詞邊界標(biāo)記語(yǔ)言的分詞方法以及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及無(wú)詞邊界標(biāo)記語(yǔ)言的分詞技術(shù),更具體地,本發(fā)明涉 及基于搜索的無(wú)詞邊界標(biāo)記語(yǔ)言文本的分詞方法和裝置。
背景技術(shù)
與英文以及其它的西方語(yǔ)言不同,許多亞洲語(yǔ)言,例如中文、日 文、韓語(yǔ)以及泰語(yǔ)等語(yǔ)言沒(méi)有用空格等詞邊界標(biāo)記來(lái)劃界。 一個(gè)句 子中會(huì)包括一串連續(xù)的字符,而在單詞之間并沒(méi)有定界符,也就是 分隔符。如何界定單詞則依賴(lài)于所討論的是否為音位單詞、詞匯單 詞、語(yǔ)形學(xué)單詞、依據(jù)造句法的單詞、語(yǔ)義學(xué)單詞或是心理學(xué)單詞。 因此,在任何的基于單詞的語(yǔ)言處理中,例如在文本轉(zhuǎn)語(yǔ)音也即語(yǔ)音合成(TTS)、文檔特征提取、文檔自動(dòng)摘要、文檔自動(dòng)分類(lèi)和中 文文本檢索中,將每一個(gè)句子分詞成單詞是首要的步驟。為了清除起見(jiàn),本發(fā)明例如針對(duì)中文進(jìn)行描述,但是應(yīng)當(dāng)理解的 是,本發(fā)明的范圍并不受限于此。中文單詞分詞技術(shù)主要需要解決中文自然語(yǔ)言處理(NLP)中的 兩個(gè)問(wèn)題,即中文中的單詞是什么以及計(jì)算機(jī)如何自動(dòng)識(shí)別中文單 詞。相應(yīng)地,中文單詞的分詞主要涉及了兩個(gè)研究問(wèn)題,單詞清晰 地分界以及未知單詞的識(shí)別。而在目前大部分的系統(tǒng)中,這兩個(gè)問(wèn) 題被認(rèn)為是獨(dú)立的任務(wù)因此采用了層級(jí)或是連續(xù)的方式通過(guò)不同的 元件或是組件來(lái)完成。然而,由于中文單詞的一些特殊語(yǔ)言特性, 使得中文單詞分詞主要的困難在于分詞的結(jié)果根據(jù)不同的單詞語(yǔ)言 學(xué)定義以及不同的工程需求而有所變化。關(guān)于這一點(diǎn),并沒(méi)有單一 的標(biāo)準(zhǔn)使得所有的語(yǔ)言學(xué)家和計(jì)算機(jī)應(yīng)用都滿意,也沒(méi)有能夠統(tǒng)一 接受的標(biāo)準(zhǔn)來(lái)清晰地確定每一種語(yǔ)境下的單詞。例如,中文語(yǔ)言特另寸小組(SIGHAN ) 2005 竟賽(SIGHAN Workshop 2005. www.sighan.org/bakeoff2005/)中,雖然所有的組所報(bào)告的精確度達(dá) 到了百分之九十,但是訓(xùn)練語(yǔ)料庫(kù)包含了約90,000句而測(cè)試數(shù)據(jù)集 只包含了約4,400句。此外,該結(jié)果需要基于四種分詞方法(即AS, PKU, CityU和MSRA)進(jìn)行單獨(dú)的比較。這為期望用于訓(xùn)練多種類(lèi) 型NLP系統(tǒng)的注標(biāo)語(yǔ)料庫(kù)的發(fā)展制造了問(wèn)題,同時(shí)也對(duì)期望能夠支 持多重用戶(hù)應(yīng)用的中文單詞分詞系統(tǒng)帶來(lái)了挑戰(zhàn)。目前中文單詞分詞的方法基本上可以歸類(lèi)為四種1 )基于字典 的方法;2)統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法;3)基于轉(zhuǎn)換的方法;4)合并方法。在基于字典的分詞方法中,使用了預(yù)先定義的字典以及人工產(chǎn)生 的語(yǔ)法規(guī)則。在這種方法中根據(jù)字典對(duì)句子進(jìn)行分詞,同時(shí)應(yīng)用語(yǔ) 法規(guī)則來(lái)進(jìn)行改進(jìn)?;谧值涞姆衷~方法的一種典型的技術(shù)稱(chēng)為最能夠匹配最多字符的條目??梢钥闯觯谧值涞姆衷~方法的局限 性在于這種方法受限于字典的覆蓋面并且其規(guī)則缺乏穩(wěn)健的統(tǒng)計(jì)推此這種方法的準(zhǔn)確性在新單詞出現(xiàn)的時(shí)候會(huì)急劇降低。統(tǒng)計(jì)機(jī)器學(xué).習(xí)方法是一種使用了概率或基于成本的評(píng)分機(jī)制而 不是字典來(lái)對(duì)文本進(jìn)行分詞的方法。目前所提出的統(tǒng)計(jì)機(jī)器學(xué)習(xí)方 法主要有以下幾種l)MSRSeg方法,該方法包括兩個(gè)部分, 一個(gè) 部分是基于線性混合模型結(jié)構(gòu)的 一般分詞器,該分詞器對(duì)單詞級(jí)的 中文語(yǔ)言處理的五個(gè)特征進(jìn)行統(tǒng)一,該五個(gè)特征為詞典單詞處理、 語(yǔ)形學(xué)分析、數(shù)字串檢測(cè)、命名實(shí)體識(shí)別以及新單詞識(shí)別;另一個(gè) 部分是一組輸出適配器,將一般分詞器的輸出適配為不同的特殊應(yīng) 用標(biāo)準(zhǔn);2)使用相鄰字符的信息以接合N-gram和其相鄰字符;3) 最大似然法;4)應(yīng)用神經(jīng)網(wǎng)絡(luò)的方法;5)引入中文詞匯分析器的 統(tǒng)一基于HHMM ( Hierarchical Hidden Markov Model,結(jié)構(gòu)化的隱馬爾可夫模型)的框架;6)從一句話中提取各種可用的特征以構(gòu)建廣 義的模型,并且接著基于這種模型得到各種概率模型;7)使用共有信息以及字符之間的t-評(píng)分差,這些共有信息以及字符之間的t-評(píng)分是自動(dòng)從原始中文語(yǔ)料庫(kù)中獲得的;將有條件的隨機(jī)字段用于分詞 任務(wù)。由于統(tǒng)計(jì)機(jī)器學(xué)習(xí)方法一般基于字符序列共現(xiàn)的信息來(lái)進(jìn)行 分析,因此這一類(lèi)的方法一般要求大量的中文標(biāo)注語(yǔ)料庫(kù)用于模型 訓(xùn)練,而更重要的是其缺乏靈活性以適應(yīng)于不同的分詞標(biāo)準(zhǔn)?;谵D(zhuǎn)換的方法最初使用在詞性標(biāo)注和解析中。這些方法的主導(dǎo) 思想是從訓(xùn)練語(yǔ)料庫(kù)盡力學(xué)習(xí) 一組N-gram規(guī)則并且將它們應(yīng)用到對(duì) 新文本的分詞上。這種學(xué)習(xí)算法對(duì)語(yǔ)料庫(kù)(相當(dāng)于字典)與其未經(jīng) 分詞的配對(duì)進(jìn)行比較從而尋找出規(guī)則。 一種基于轉(zhuǎn)換的方法是在手 動(dòng)注釋的數(shù)據(jù)上訓(xùn)練標(biāo)注從而自動(dòng)地將標(biāo)簽分配給中文字符,而這 些標(biāo)簽指示了在一個(gè)單詞中的字符的位置。經(jīng)過(guò)標(biāo)注的輸出接著被 轉(zhuǎn)換成為經(jīng)分詞的文本用以評(píng)估。另 一 種基于轉(zhuǎn)換的方法是根據(jù)所 謂的LMR標(biāo)注對(duì)中文單詞進(jìn)行分詞的算法。該方法中的LMR標(biāo)簽 用最大熵馬爾科夫模型來(lái)實(shí)現(xiàn),接著使用基于轉(zhuǎn)換的學(xué)習(xí)將在兩個(gè) 相對(duì)的方向上對(duì)輸入進(jìn)行掃描的兩個(gè)LMR標(biāo)簽的結(jié)果進(jìn)行合并。還 有一種基于轉(zhuǎn)換的方法是提出一種統(tǒng)計(jì)框架并且基于線性模型識(shí)別 特殊領(lǐng)域或是時(shí)間性很強(qiáng)的單詞,接著由 一對(duì)一般分詞器的輸出進(jìn) 行一序列轉(zhuǎn)換的后處理器進(jìn)行標(biāo)準(zhǔn)適配以實(shí)現(xiàn)單一 的單詞分詞系 統(tǒng)。由于基于轉(zhuǎn)換的方法是從訓(xùn)練語(yǔ)料庫(kù)中學(xué)習(xí)N-gram規(guī)則,因此, 這種方法仍然受限于訓(xùn)練語(yǔ)料庫(kù)。合并方法是將現(xiàn)有的幾種方法或是信息進(jìn)行合并使用的一種方 法,例如,可以將字典和單詞頻率信息進(jìn)行合并;也可以將最大熵 模型和基于轉(zhuǎn)換的模型進(jìn)行合并;可以訓(xùn)練若干支持向量機(jī)并且研 究動(dòng)態(tài)加權(quán)的方法怎樣進(jìn)行分詞任務(wù);還可以將基于隱馬爾科夫模 型的單詞分詞器和基于支持向量機(jī)的塊識(shí)別器進(jìn)行合并用以進(jìn)行單 詞分詞。在文件"Unsupervised Training for Overlapping Ambiguity Resolution in Chinese Word Segmentation" ( Li, M., Gao, J.F., Huang, C.N., and Li, J.F., Proceedings of the Second SIGHAN Workshop on Chinese Language Processing. Jul.2003, pp.1-7 )中提出了 一種無(wú)監(jiān)督的訓(xùn)練方式來(lái)解決中文分詞中的重疊模糊,該方式以未標(biāo)注的中文 文本語(yǔ)料庫(kù)訓(xùn)練樸素貝葉斯分類(lèi)器集。在這些合并方法中有一種可以方便地進(jìn)行用戶(hù)訂制的系統(tǒng)從而可以滿足語(yǔ)形學(xué)派生詞(MDW ) 的分詞中各種用戶(hù)定義的標(biāo)準(zhǔn)。在該系統(tǒng)中,所有的MDW都包含 單詞樹(shù),在單詞樹(shù)上有對(duì)應(yīng)于最大單詞的根節(jié)點(diǎn)以及對(duì)應(yīng)于最小單 詞的葉節(jié)點(diǎn)。而在單詞樹(shù)上每一個(gè)非終端的節(jié)點(diǎn)與 一個(gè)決斷參數(shù)相 關(guān)聯(lián),該分解參數(shù)決定了其子體將被顯示為單一單詞或是分離的單 詞。從不同的對(duì)于單詞樹(shù)的切割可以獲得不同的分詞輸出,而對(duì)于定。不難理解的是,由于合并方法僅僅是對(duì)上述的前幾種方法的合 并使用,因此仍然會(huì)帶有前述方法的局限性。從以上的描述可以看出,雖然在本領(lǐng)域提出了很多不同的方法,但是這些方法主要是基于字典或是統(tǒng)計(jì)學(xué)的方法,因此在理論語(yǔ)言 學(xué)和計(jì)算機(jī)語(yǔ)言學(xué)上面臨很多問(wèn)題,即靈活性差,在很大程度上依賴(lài)于字典的覆蓋度或是受限于可以獲得的訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù),對(duì)于識(shí) 別超出詞匯(OOV )單詞方面較弱以及所識(shí)別的OOV單詞有可能在 語(yǔ)言學(xué)上不可信等,因此使得中文單詞分詞的性能并不令人滿意。 另外,手工標(biāo)記訓(xùn)練語(yǔ)料庫(kù)是非常冗長(zhǎng)乏味的任務(wù),這也是為什么 很少有可用的訓(xùn)練語(yǔ)料庫(kù)。發(fā)明內(nèi)容本發(fā)明的目的是提供一種基于搜索的用于無(wú)詞邊界標(biāo)記語(yǔ)言的 分詞方法和裝置,以更好地解決無(wú)詞邊界標(biāo)記語(yǔ)言的分詞問(wèn)題,克 服現(xiàn)有技術(shù)的不足。本發(fā)明利用搜索引擎返回的搜索結(jié)果來(lái)進(jìn)行單 詞分詞,以解決現(xiàn)有分詞技術(shù)在靈活性、依賴(lài)于字典的覆蓋度、可 以獲得的訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)、處理新詞匯等方面的局限。根據(jù)本發(fā)明的 一 方面提供了 一種基于搜索的用于無(wú)詞邊界標(biāo)記 語(yǔ)言文本的分詞方法,包括a.將包括至少一個(gè)片段的該文本的一 個(gè)片段提供給至少一個(gè)搜索引擎;b.通過(guò)該至少一個(gè)搜索引擎對(duì)該一個(gè)片段進(jìn)行搜索,并返回搜索結(jié)果;c.根據(jù)返回的搜索結(jié)果的至 少 一部分選取該 一個(gè)片段的分詞方式。根據(jù)本發(fā)明的另一方面還提供了一種基于搜索的用于無(wú)詞邊界 標(biāo)記語(yǔ)言文本的分詞裝置,包括至少一個(gè)搜索引擎,接收包括至 少一個(gè)片段的該文本的一個(gè)片段,該至少一個(gè)搜索引擎對(duì)該一個(gè)片 段在搜索網(wǎng)絡(luò)中進(jìn)行搜索,并返回搜索結(jié)果;分詞結(jié)果生成裝置, 根據(jù)該至少一個(gè)搜索引擎返回的搜索結(jié)果的至少一部分選取該一個(gè) 片段的分詞方式。根據(jù)本發(fā)明的以上方面,可以得出本發(fā)明的以下優(yōu)點(diǎn)與以前的基于字典的或統(tǒng)計(jì)學(xué)習(xí)方法不同,本發(fā)明利用搜索技術(shù) 來(lái)對(duì)例如中文的無(wú)詞邊界語(yǔ)言分詞。因此,本發(fā)明不需要預(yù)先定義 的字典或大的訓(xùn)練語(yǔ)料庫(kù)。本發(fā)明的優(yōu)點(diǎn)之一是在于新詞檢測(cè)。在新詞與日俱增的同時(shí),例 如"非典"(SARS)本發(fā)明提供了一種非常容易的方式來(lái)識(shí)別OOV 詞,因?yàn)榛ヂ?lián)網(wǎng)上的信息是動(dòng)態(tài)的、更新很快的。由于前人提出的方法都要求一個(gè)詞典的支持,不論此詞典是用于 實(shí)時(shí)查詢(xún)(如基于詞典的方法),還是用于訓(xùn)練分詞模型(如統(tǒng)計(jì) 學(xué)習(xí)方法等),這個(gè)詞典都是有限的。而本方法的"詞典"是基于互 聯(lián)網(wǎng)的,所以是動(dòng)態(tài)的、可實(shí)時(shí)更新的,因此對(duì)于新詞的識(shí)別非常 簡(jiǎn)單有效,從而避免了前人方法中不可避免的OOV問(wèn)題。如在(Wu, A. Customizable Segmentation of Morphologically Derived Words in Chinese. Computational Linguistics and Chinese Language Processing. Vol. 8, No. 1, Feb. 2003, pp. l-28)中所分析的, 不同的應(yīng)用期望不同的分詞單元,甚至以例如中文為母語(yǔ)者會(huì)對(duì)一 個(gè)給定的字符串是否為詞而意見(jiàn)不同。如在(Sproat, R,, C. Shih, W. Gale and N. Chang, "A stochastic finite-state word-segmentation algorithm for Chinese". Computational Linguistics, 22(3), 1996, pp. 377_404)中所講的,人的判斷之間的一致率僅為76%。因此,如果能 夠提供替代的分詞單元,分詞系統(tǒng)會(huì)更加有效。根據(jù)本發(fā)明,搜索引擎通常能夠提供多種分詞單元。例如,通過(guò)Yahoo!搜索查詢(xún)"試了一試,,,返回了"試了","一試","試了一試"。 這個(gè)特點(diǎn)加上本發(fā)明中的分詞單元評(píng)分步驟,使得本發(fā)明能夠適應(yīng) 各種標(biāo)準(zhǔn)。如前所述,手工標(biāo)記訓(xùn)練語(yǔ)料庫(kù)是非常冗長(zhǎng)乏味的任務(wù)。而本發(fā) 明可以是完全無(wú)監(jiān)督的。因?yàn)樵诒景l(fā)明中,唯一可能需要訓(xùn)練過(guò)程 的步驟是評(píng)分功能。根據(jù)本發(fā)明,如果采用"術(shù)語(yǔ)頻率"作為分詞 單元評(píng)分標(biāo)準(zhǔn),則不需要訓(xùn)練數(shù)據(jù),這樣能夠使整個(gè)方案成為無(wú)監(jiān)督的。由于本發(fā)明通過(guò)搜索引擎采用互聯(lián)網(wǎng)上的大量文檔來(lái)得到最初 的分詞單元,而文檔是由人類(lèi)寫(xiě)就的,因而遵從自然語(yǔ)言的,本方 法相對(duì)于過(guò)去的方法而言,不再需要對(duì)文檔進(jìn)行自然語(yǔ)言分析就可 以直接得到正確的分詞結(jié)果。


通過(guò)以下結(jié)合附圖的說(shuō)明,并且隨著對(duì)本發(fā)明的更全面了解,本 發(fā)明的其它目的和效果將變得更加清楚和易于理解,其中圖1表示根據(jù)本發(fā)明的基于搜索的用于無(wú)詞邊界標(biāo)記語(yǔ)言的分 詞系統(tǒng)的基本單元示意圖;圖2表示根據(jù)本發(fā)明基于搜索的用于無(wú)詞邊界標(biāo)記的語(yǔ)言的分 詞方法;圖3示出了根據(jù)本發(fā)明一個(gè)實(shí)施方式的基于搜索的分詞方法的 流程圖;圖4所示的是使用了公共搜索引擎Yahoo!的搜索結(jié)果; 圖5表示根據(jù)本發(fā)明的一個(gè)示例的分詞結(jié)果; 圖6表示根據(jù)本發(fā)明的又一個(gè)示例的分詞結(jié)果。
具體實(shí)施方式
以下對(duì)本發(fā)明的優(yōu)選實(shí)施方式進(jìn)行詳細(xì)描述。圖1表示根據(jù)本發(fā)明的基于搜索的用于無(wú)詞邊界標(biāo)記語(yǔ)言文本的分詞系統(tǒng)的基本單元示意圖。圖2表示根據(jù)本發(fā)明基于搜索的用 于無(wú)詞邊界標(biāo)記的語(yǔ)言文本的分詞方法。根據(jù)本發(fā)明,對(duì)一個(gè)無(wú)詞 邊界標(biāo)記語(yǔ)言文本,例如日語(yǔ)、韓語(yǔ)、泰語(yǔ)或中文的文本甚至是消 除空格的英文或其它西語(yǔ)文本進(jìn)行分詞,首先在步驟S100將包括至 少 一個(gè)片段的該文本的 一個(gè)片段作為查詢(xún)內(nèi)容提供給至少 一個(gè)搜索 引擎l,可以例如以鍵盤(pán)輸入的方式、手寫(xiě)輸入、語(yǔ)音輸入的方式、 直接對(duì)文本操作(例如選中一段文本進(jìn)行操作)或任何可用的其它 方式等將查詢(xún)內(nèi)容提供給搜索引擎。該文本的片段可以由例如標(biāo)點(diǎn) 或其它標(biāo)記性的內(nèi)容或符號(hào)來(lái)劃分。在步驟S110通過(guò)搜索引擎l對(duì) 查詢(xún)內(nèi)容(片段)在搜索網(wǎng)絡(luò)2,例如互聯(lián)網(wǎng),中進(jìn)行搜索,并返回 的搜索結(jié)果。在步驟S120,分詞結(jié)果生成裝置3根據(jù)返回的搜索結(jié) 果選取所提交的片段的最優(yōu)的分詞方式。例如,首先將文本按照標(biāo)點(diǎn)分詞成一組句子單元。然后將每個(gè)句 子單元作為查詢(xún)提交給搜索引擎。從搜索引擎返回的文本摘錄中提 取所有的候選的短語(yǔ),即"命中",稱(chēng)為候選分詞單元。對(duì)于每個(gè) 候選分詞單元可以計(jì)算一個(gè)分值。候選分詞單元形成多個(gè)子集。每 個(gè)子集中的候選分詞單元串聯(lián)起來(lái)得到提交的查詢(xún),即形成一個(gè)"路 徑"(即序列),以最佳的"路徑,,作為提交的句子單元的分詞結(jié) 果。下面根據(jù)圖3和圖4更具體地示例性地描述本發(fā)明。圖3示出了 根據(jù)本發(fā)明一個(gè)實(shí)施方式的基于搜索的分詞方法的流程圖。如圖3 所示,首先,在步驟SllOl,輸入文檔S,例如中文文檔;接著,在 步驟S1102,使用標(biāo)點(diǎn)對(duì)給定的文檔S進(jìn)行劃分,將其劃分為句單 元,這樣就給出了圖3中所示的W,其中/指示著在W中的第z'項(xiàng)。 本方法依次對(duì)各個(gè)項(xiàng)進(jìn)行處理直到處理完化}中所有項(xiàng);在步驟 S1103,將所劃分的句單元,也就是,對(duì)于每一個(gè)^糾,將其提交給搜索引擎,搜索引擎通常會(huì)提供各種分詞單元;接著,在步驟S1104, 根據(jù)搜索結(jié)果,收集由所有的搜索引擎返回的所有候選分詞單元集H},其中/指的是奴}中的第/項(xiàng),而y是分詞單元的索引。如果我們使用如Yahoo!、 Google的公共搜索引擎,可以從返回的搜索結(jié)果的 HTML文件的源文件中提取候選分詞單元,即提取返回的摘錄中的 高亮的短語(yǔ),例如圖4中所示的紅色字體的高亮短語(yǔ)。圖4所示的 是使用了公共搜索引擎Yahoo!搜索"他高興地說(shuō)"的搜索結(jié)果。然 而如果有可用的自有搜索引擎時(shí),可以利用索引表提供的信息,查 看術(shù)語(yǔ)在文檔中的位置的相鄰性來(lái)得到分詞單元??梢岳斫獾氖牵?本發(fā)明并不限于此,而是可以通過(guò)對(duì)公共或自有搜索引擎的搜索結(jié) 果所給出的所有高亮短語(yǔ)進(jìn)行收集并且進(jìn)行搜索結(jié)果的合并。事實(shí) 上,由于本發(fā)明是基于前面排名的文檔來(lái)計(jì)算特征(例如,頻率), 并且本地分詞模型對(duì)搜索結(jié)果以及因此對(duì)候選分詞單元產(chǎn)生影響, 所以在具有不同的本地分詞模型的多種搜索引擎的基礎(chǔ)上收集候選 分詞單元會(huì)產(chǎn)生更為有益的分詞性能。為更清楚地描述本發(fā)明,進(jìn)一步說(shuō)明如下。搜索引擎通常的工作 過(guò)程是這樣的基于所提交的查詢(xún)初步將其分詞為一組術(shù)語(yǔ),這些 術(shù)語(yǔ)是n-grams或者是基于該搜索引擎所采用的本地分詞模型。接著 搜索引擎對(duì)所有包含了這些術(shù)語(yǔ)(也即命中)的一個(gè)或多個(gè)的文檔 進(jìn)行索引,根據(jù)這些命中而計(jì)算每一個(gè)文檔的一個(gè)分值,對(duì)這些文 檔進(jìn)行排序,最終向用戶(hù)輸出這些文檔中最靠前的一些文檔(例如,可以是前1000篇文檔)。根據(jù)排名策略, 一般來(lái)講, 一篇文檔中包 含越多的命中,其排名就越靠前。這樣,很直觀地,排名靠前的文檔中所包含的命中建議了一些候 選分詞單元,這些候選分詞單元指示著在自然語(yǔ)言中字符是怎樣彼 此相關(guān)聯(lián)的。例如,如圖4所示,從該搜索實(shí)例可以看出,對(duì)于"他 高興地說(shuō),,這句話,得到了 "他高興地","高興","他說(shuō),,等等。此 外, 一個(gè)術(shù)語(yǔ)的分布(例如,頻率)指示著其普遍性,也就是特定 字符彼此相關(guān)聯(lián)的可能性有多大。仍然參考圖4,可以看出,"他高 興地,,出現(xiàn)了三次而"高興,,出現(xiàn)了四次。如果術(shù)語(yǔ)出現(xiàn)的頻率用作衡 量候選分詞單元的一個(gè)標(biāo)準(zhǔn)時(shí),則"高興"將比"他高興地"更為優(yōu)選,因?yàn)榍罢叱霈F(xiàn)的頻率高于后者。另一方面,搜索引擎所采用的N-gram 模型或是本地分詞模型本身可能并不是有效果的。在本發(fā)明方法中, 所收集的候選分詞單元是所檢索的文檔摘錄中的高亮短語(yǔ)。而由于 Web文檔是由人類(lèi)寫(xiě)就的,因此是遵從自然語(yǔ)言的。即使搜索引擎 的本地分詞并不正確,其也會(huì)由這些文檔進(jìn)行修正,換言之,由人 類(lèi)說(shuō)話的方式進(jìn)行修正。例如給出的一個(gè)極端的例子,假設(shè)一個(gè)搜 索引擎將分隔開(kāi)每一個(gè)字符,也即沒(méi)有采用N-gram模型或是本地分 詞模型,這時(shí)搜索引擎將每一個(gè)單gram用作一個(gè)術(shù)語(yǔ)(即,每一個(gè) 術(shù)語(yǔ)中僅包含一個(gè)字符)來(lái)對(duì)文檔進(jìn)行索引,這樣在所檢索到的文 檔中,這些術(shù)語(yǔ)就彼此相鄰。在圖4的例子中,表示的實(shí)例是"他 高興地說(shuō)"的Yahoo!搜索的結(jié)果。紅色的高亮部分給出了分詞單元 (例如,"他高興地"、"說(shuō),,、"高興,,等)。似乎"他高興地" 被搜索引擎識(shí)別為n-gram。然而,通過(guò)查看html文件的源文件,可 以看到該搜索引擎只索引該n-gram的各部分。源文件如下<1>>他 〈/bxb〉高興〈/bxb〉地〈/b〉。引用在〈bx/b〉中的短語(yǔ)給出了搜索引 擎的初始分詞。從這個(gè)例子可以看到,候選分詞單元不受搜索引擎 的本地分詞模型的影響。接著,優(yōu)選地可以從{^}過(guò)濾掉無(wú)效的分詞單元。所說(shuō)的這種無(wú) 效分詞單元例如有兩種類(lèi)型, 一 種是并沒(méi)有出現(xiàn)在查詢(xún)句子中的分 詞單元,也就是說(shuō),所查詢(xún)的句子并沒(méi)有包含恰好匹配這個(gè)分詞單 元的一部分字符序列;另一種也就是所謂的單字,這種分詞方法就 是將每個(gè)字看作一個(gè)詞,從嚴(yán)格的意義上來(lái)說(shuō),這種分詞并不能算 作一種分詞方法。大部分這種單字符術(shù)語(yǔ)都是停用詞。接著針對(duì)查詢(xún)句子的重構(gòu)對(duì)候選分詞單元過(guò)濾后所剩下的分詞 單元進(jìn)行評(píng)分,并且最有可能給出查詢(xún)句子的分詞單元對(duì)應(yīng)著最佳 的分詞。在步驟S1105,對(duì)所收集的所有候選分詞單元進(jìn)行評(píng)分。在此步 驟可以使用各種可用的評(píng)分方法。在以下的描述中,示例性地描述 了兩種評(píng)分方法,即基于頻率的方法和基于SVM (支持向量機(jī)器)方法。在本實(shí)施例中,作為一種評(píng)分方法采用了基于頻率的方法進(jìn)行評(píng)分,最簡(jiǎn)單的方式是基于搜索結(jié)果將每一個(gè)w;全部術(shù)語(yǔ)的出現(xiàn)頻率 用作分值。所謂的全部術(shù)語(yǔ)的出現(xiàn)頻率如下面等式(1)所示,H柳 (1)s,,(w;)=m柳其中Ww》表示^的術(shù)語(yǔ)頻率分值.W'是通過(guò)A檢索到的文檔數(shù)量.巧 》是 <在第k個(gè)文檔摘錄(如果是公共搜索引擎)中的次數(shù).等式(i)為一的出現(xiàn)次數(shù)與對(duì)應(yīng)于該查詢(xún)、的所有分詞單元何} 出現(xiàn)的總次數(shù)的比值。而這種方法,基本上對(duì)應(yīng)著最大似然(Maximum likelihood )標(biāo)準(zhǔn)。關(guān)于統(tǒng)計(jì)學(xué)習(xí)理論,此標(biāo)準(zhǔn)使得當(dāng)數(shù) 據(jù)集足夠大時(shí)(按照大數(shù)定律)經(jīng)驗(yàn)風(fēng)險(xiǎn)最小(在本實(shí)施例中使用 作為一種非線性擬合辦法的最大似然法的優(yōu)勢(shì)在于使用這種方法估 計(jì)的參數(shù)將會(huì)使得對(duì)數(shù)似然值最大或者負(fù)的對(duì)數(shù)似然值最小)。另一種評(píng)分方法是基于SVM(支持向量機(jī)器)方法。當(dāng)數(shù)據(jù)集 不是足夠大時(shí),我們尋求最小化結(jié)構(gòu)風(fēng)險(xiǎn),而基于SVM(支持向量 機(jī)器)方法正是一種試圖最小化數(shù)據(jù)集結(jié)構(gòu)風(fēng)險(xiǎn)的算法??梢試L試 不同的核函數(shù),RBF核函數(shù)、S核函數(shù)、線性和多項(xiàng)式核函數(shù)。可 以選擇SVM分類(lèi)器或SVM回歸模型來(lái)對(duì)分詞單元評(píng)分。然而,由 于訓(xùn)練SVM回歸模型要求提供數(shù)值評(píng)分給每個(gè)訓(xùn)練數(shù)據(jù)點(diǎn),通常很 難確定評(píng)分策略。容易的方式是利用SVM分類(lèi)器作為評(píng)分模型,并 且使用Platt提出的S函數(shù)將輸出映射為概率(Platt, J" Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. Large Margin Classifiers, Smola, A., Bartlett, P., Scholkopf, B., Schuu腿ns, D. (eds.), MIT Press, 1999)。在本發(fā)明的實(shí) 施中,利用SVM分類(lèi)器對(duì)每個(gè)分詞單元評(píng)分。為了訓(xùn)練SVM分類(lèi)器,首先應(yīng)該將每個(gè)數(shù)據(jù)點(diǎn)(即候選分詞單元)表示為一個(gè)特征向量。對(duì)每個(gè)分詞單元提取例如以下三類(lèi)特征之一或其組合,或其它特征1. LEN: LEN特征定義為一個(gè)分詞單元中字的數(shù)量。更長(zhǎng)的分 詞單元優(yōu)選于短的分詞單元,因?yàn)樗鼈冊(cè)谡Z(yǔ)音合成、語(yǔ)音識(shí)別應(yīng)用 等中表示了更好的語(yǔ)義單元。2. AVGOCCU: "AVGOCCU"定義為平均出現(xiàn)率,即一個(gè)分 詞單元出現(xiàn)的次數(shù),優(yōu)選地是在"有效"分詞單元集合,即濾除無(wú) 效分詞單元后的分詞單元集合中出現(xiàn)的次數(shù),除以搜索引擎返回的 結(jié)果中的文檔數(shù)量。更高的AVGOCCU值表示更好的分詞單元。3. DF: "DF"定義為文擋頻率,即對(duì)于一個(gè)分詞單元,多少個(gè) 搜索結(jié)果包含它。DF越大,該分詞單元越好。在SVM方法中,還可以采用其它的特征作為分詞單元的特征。接著,在步驟S1106,根據(jù)在步驟S1105得到的評(píng)分結(jié)果從候選 分詞單元中選擇最佳候選分詞單元子集。本發(fā)明中可以采用不同的 方法來(lái)選擇最佳候選分詞單元子集。示例性地,本實(shí)施例根據(jù)重構(gòu) 查詢(xún)句子的術(shù)語(yǔ)來(lái)找最高排名路徑。一個(gè)示例的路徑尋找方法是動(dòng)態(tài)規(guī)劃。在此, 一個(gè)隱含的限制是 w,;s,,即候選分詞單元子集重構(gòu)的最終路徑應(yīng)該與查詢(xún)句子相同。 此限制便于生成w,"W…、這是通過(guò)給定"來(lái)限制^'的選擇,顯然在字符串s,中 '的開(kāi)始字符應(yīng)該是緊跟w;的結(jié)束字符的字符。以下等式(2)給出了排名函數(shù)的一個(gè)例子。該等式將分詞單元的最優(yōu)子集w'定義為給出具有最高路徑評(píng)分的序列的分詞單元子集。w' -argmaxSOvO-argmaxlSSOv)), w, (2)其中,附是由基于頻率的方法或基于SVM的方法給出的評(píng)分; n是最優(yōu)子集中包含的分詞單元的數(shù)量。還可以嘗試其它有效的路徑尋找標(biāo)準(zhǔn),例如貪心搜索等。 最后,在步驟S1107,對(duì)最佳分詞單元子集進(jìn)行輸出,作為查詢(xún)的句子單元的分詞方式。以上描述全面詳細(xì)地體現(xiàn)了本發(fā)明的特點(diǎn)和優(yōu)點(diǎn)。以下兩個(gè)實(shí)例進(jìn)一步說(shuō)明了本發(fā)明的兩個(gè)突出的優(yōu)點(diǎn)1)由于前人提出的方法都要求一個(gè)詞典的支持,不論此詞典是 用于實(shí)時(shí)查詢(xún)(如基于詞典的方法),還是用于訓(xùn)練分詞模型(如 統(tǒng)計(jì)學(xué)習(xí)方法等),這個(gè)詞典都是有限的。而本方法的"詞典"是動(dòng) 態(tài)的,可實(shí)時(shí)更新的,因此對(duì)于新詞的識(shí)別非常簡(jiǎn)單有效,從而避 免了前人方法中不可避免的OOV問(wèn)題。圖5中顯示了本發(fā)明的方法 對(duì)于"胡錦濤說(shuō)八榮八恥很重要,,的分詞結(jié)果及其與IBM Full-parser (IBM當(dāng)前的采用基于詞典方法的分詞工具)結(jié)果的對(duì)比。"八榮 八恥"是一個(gè)新詞,但由于基于詞典方法的局限性,這個(gè)詞在IBM Full-parser的詞典中不存在,所以IBM Full-parser將其分成四個(gè)獨(dú)立的單字詞"八,,"榮""八""恥";然而,由于本方法采用動(dòng)態(tài)、 實(shí)時(shí)更新的文檔集(如互聯(lián)網(wǎng)),因此能正確識(shí)別該新詞"八榮八 恥,,。2 )由于通過(guò)搜索引擎采用互聯(lián)網(wǎng)上的大量文檔來(lái)得到最初的分 詞單元,而文檔是由人類(lèi)寫(xiě)就的,因而遵從自然語(yǔ)言的,本方法相 對(duì)于過(guò)去的方法而言,不再需要對(duì)文檔進(jìn)行自然語(yǔ)言分析就可以直 接得到正確的分詞結(jié)果。圖6給出的實(shí)例有效地說(shuō)明了這一點(diǎn)。圖 中顯示的是本方法對(duì)實(shí)例句"有職稱(chēng)的和尚未有職稱(chēng)的"的分詞結(jié) 果及其與IBM Full-parser結(jié)果的比較。本例中"和尚未有"是一個(gè) 歧義單元,它可能表示"和尚,,"未有",也可能表示"和""尚 未,,"有,,。但是,由于實(shí)例句中給出了上下文信息"有職稱(chēng)的", 而和尚是無(wú)所謂職稱(chēng)的,所以該上下文信息實(shí)際限定了正確的分詞 方法應(yīng)該為后一種"和,,"尚未,,"有,,。由圖6可見(jiàn),本方法很 好的體現(xiàn)了這一點(diǎn)。相反的,由于IBM Full-parser采用基于詞典的 最大匹配方法,而"和尚"存在于其詞典中,因此它給出了前者錯(cuò) 誤的分詞方法。當(dāng)然,本領(lǐng)域的技術(shù)人員應(yīng)當(dāng)理解,本發(fā)明的方法可以編碼為存 儲(chǔ)在計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)上的程序,計(jì)算機(jī)執(zhí)行該程序以實(shí)現(xiàn)本發(fā) 明的方法。因此,本發(fā)明也覆蓋根據(jù)本發(fā)明的方法編碼的計(jì)算機(jī)程 序產(chǎn)品,以及存儲(chǔ)該計(jì)算機(jī)程序的計(jì)算機(jī)可讀存儲(chǔ)介質(zhì)。應(yīng)當(dāng)注意,為了使本發(fā)明更容易理解,上面的描述省略了對(duì)于本 領(lǐng)域的技術(shù)人員來(lái)說(shuō)是公知的、并且對(duì)于本發(fā)明的實(shí)現(xiàn)可能是必需 的更具體的一些技術(shù)細(xì)節(jié)。提供本發(fā)明的說(shuō)明書(shū)的目的是為了說(shuō)明和描述,而不是用來(lái)窮舉 或?qū)⒈景l(fā)明限制為所公開(kāi)的形式。對(duì)本領(lǐng)域的普通技術(shù)人員而言, 許多修改和變更都是顯而易見(jiàn)的。例如,可以對(duì)各種無(wú)詞邊界語(yǔ)言進(jìn)行處理、采用各種查詢(xún)輸入方 式、采用一種或多種搜索引擎、對(duì)來(lái)自不同搜索引擎的搜索結(jié)果進(jìn) 行靜態(tài)或動(dòng)態(tài)加權(quán)、采用其它的候選分詞單元評(píng)分方法、采用其它 的候選分詞單元子集排名方法等等。因此,選擇并描述實(shí)施方式是為了更好地解釋本發(fā)明的原理及其 實(shí)際應(yīng)用,并使本領(lǐng)域普通技術(shù)人員明白,在不脫離本發(fā)明實(shí)質(zhì)的 前提下,所有修改和變更均落入由權(quán)利要求所限定的本發(fā)明的保護(hù) 范圍之內(nèi)。
權(quán)利要求
1. 一種基于搜索的用于無(wú)詞邊界標(biāo)記語(yǔ)言文本的分詞方法,包括a.將包括至少一個(gè)片段的該文本的一個(gè)片段提供給至少一個(gè)搜索引擎;b.通過(guò)該至少一個(gè)搜索引擎對(duì)該一個(gè)片段進(jìn)行搜索,并返回搜索結(jié)果;c.根據(jù)返回的搜索結(jié)果的至少一部分選取該一個(gè)片段的分詞方式。
2. 根據(jù)權(quán)利要求l的方法,所述返回的搜索結(jié)果的至少一部分 是排名靠前的部分。
3. 根據(jù)權(quán)利要求l的方法,在步驟c中,從所述返回的搜索結(jié) 果的至少一部分中提取該一個(gè)片段的所有出現(xiàn)的候選分詞單元,對(duì) 提取的候選分詞單元進(jìn)行評(píng)分,根據(jù)該評(píng)分,對(duì)提取的候選分詞單 元的子集排名,所述每個(gè)子集中的候選分詞單元按順序形成該一個(gè) 片段,選取排名最高子集作為該一個(gè)片段的分詞方式。
4. 根據(jù)權(quán)利要求,3的方法,從提取的候選分詞單元中濾.除無(wú)效 的候選分詞單元,該無(wú)效的候選分詞單元是單字符和未出現(xiàn)在該一 個(gè)片段中的分詞單元之一。
5. 根據(jù)權(quán)利要求3的方法,對(duì)被評(píng)分的候選分詞單元的評(píng)分方 式是基于頻率的方式,在所述搜索結(jié)果的一部分中,統(tǒng)計(jì)被評(píng)分的 候選分詞單元出現(xiàn)次數(shù)與所有候選分詞單元出現(xiàn)的總次數(shù)的比值, 作為被評(píng)分的候選分詞單元的分值。
6. 根據(jù)權(quán)利要求3的方法,對(duì)被評(píng)分的候選分詞單元的評(píng)分方 式是基于支持向量機(jī)SVM的方式,利用SVM分類(lèi)器或SVM回歸 模型對(duì)每個(gè)候選分詞單元評(píng)分,為訓(xùn)練SVM分類(lèi)器或SVM回歸模型,將作為數(shù)據(jù)點(diǎn)的候選分詞單元表示為一個(gè)特征向量。
7. 根據(jù)權(quán)利要求6的方法,對(duì)每個(gè)候選分詞單元提取的特征包括以下特征之一或其組合候選分詞單元中字的數(shù)量;平均出現(xiàn)率, 即候選分詞單元出現(xiàn)的次數(shù),除以搜索引擎返回的結(jié)果中的文檔數(shù) 量;文擋頻率,即對(duì)于候選分詞單元,多少個(gè)搜索結(jié)果包含它。
8. 根據(jù)權(quán)利要求5或6的方法,將其中候選分詞單元的平均分 值最高的候選分詞單元子集作為該一個(gè)片段的選取的分詞方式。
9. 根據(jù)權(quán)利要求3的方法,在返回的搜索結(jié)果中提取的候選分 詞單元是提取返回的摘錄中的高亮短語(yǔ)。
10. 根據(jù)權(quán)利要求3的方法,當(dāng)該搜索引擎為自有搜索引擎時(shí), 利用索引表提供的信息,查看術(shù)語(yǔ)在文檔中的位置的相鄰性來(lái)得到 分詞單元。
11. 一種基于搜索的用于無(wú)詞邊界標(biāo)記語(yǔ)言文本的分詞裝置, 包括至少一個(gè)搜索引擎,接收包括至少一個(gè)片段的該文本的一個(gè)片 段,該至少一個(gè)搜索引擎對(duì)該一個(gè)片段在搜索網(wǎng)絡(luò)中進(jìn)行搜索,并 返回搜索結(jié)果;分詞結(jié)果生成裝置,根據(jù)該至少一個(gè)搜索引擎返回的搜索結(jié)果 的至少 一部分選取該 一個(gè)片段的分詞方式。
12. 根據(jù)權(quán)利要求ll的裝置,所述至少一個(gè)搜索引擎返回的搜 索結(jié)果的至少一部分是排名靠前的部分。
13. 根據(jù)權(quán)利要求ll的裝置,該分詞結(jié)果生成裝置從所述返回 的搜索結(jié)果的至少一部分中提取該一個(gè)片段的所有出現(xiàn)的候選分詞 單元,對(duì)提取的候選分詞單元進(jìn)行評(píng)分,根據(jù)該評(píng)分,對(duì)提取的候 選分詞單元的子集排名,所述每個(gè)子集中的候選分詞單元按順序形 成該一個(gè)片段,選取排名最高子集作為該一個(gè)片段的分詞方式。
14. 根據(jù)權(quán)利要求13的裝置,該分詞結(jié)果生成裝置從提取的候 選分詞單元中濾除無(wú)效的候選分詞單元,該無(wú)效的候選分詞單元是單字符和未出現(xiàn)在該一個(gè)片段中的分詞單元之一。
15. 根據(jù)權(quán)利要求13的裝置,該分詞結(jié)果生成裝置對(duì)被評(píng)分的 候選分詞單元的評(píng)分方式是基于頻率的方式,在所述搜索結(jié)果的一部分中,統(tǒng)計(jì)被評(píng)分的候選分詞單元出現(xiàn)次數(shù)與所有候選分詞單元 出現(xiàn)的總次數(shù)的比值,作為被評(píng)分的候選分詞單元的分值。
16. 根據(jù)權(quán)利要求13的裝置,該分詞結(jié)果生成裝置對(duì)被評(píng)分的 候選分詞單元的評(píng)分方式是基于支持向量機(jī)SVM的方式,該分詞結(jié) 果生成裝置利用SVM分類(lèi)器或SVM回歸模型對(duì)每個(gè)候選分詞單元 評(píng)分,為訓(xùn)練SVM分類(lèi)器或SVM回歸模型,將作為數(shù)據(jù)點(diǎn)的候選 分詞單元表示為一個(gè)特征向量。
17. 根據(jù)權(quán)利要求16的裝置,對(duì)每個(gè)候選分詞單元提取的特征 包括以下特征之一或其組合候選分詞單元中字的數(shù)量;平均出現(xiàn) 率,即候選分詞單元出現(xiàn)的次數(shù),除以搜索引擎返回的結(jié)果中的文 檔數(shù)量;文擋頻率,即對(duì)于候選分詞單元,多少個(gè)搜索結(jié)果包含它。
18. 根據(jù)權(quán)利要求15或16的裝置,該分詞結(jié)果生成裝置將其 中候選分詞單元的平均分值最高的候選分詞單元子集作為該一個(gè)片 段的選取的分詞方式。
19. 根據(jù)權(quán)利要求13的裝置,該分詞結(jié)果生成裝置在返回的搜 索結(jié)果中提取候選分詞單元是提取返回的摘錄中的高亮短語(yǔ)。
20. 根據(jù)權(quán)利要求13的裝置,當(dāng)該搜索引擎為自有搜索引擎時(shí), .該分詞結(jié)果生成裝置利用索引表提供的信息,查看術(shù)語(yǔ)在文檔中的位置的相鄰性來(lái)得到分詞單元。
全文摘要
本發(fā)明提供了一種基于搜索的用于無(wú)詞邊界標(biāo)記語(yǔ)言文本的分詞方法和裝置。根據(jù)本發(fā)明,將包括至少一個(gè)片段的該文本的一個(gè)片段提供給至少一個(gè)搜索引擎;通過(guò)該至少一個(gè)搜索引擎對(duì)該一個(gè)片段進(jìn)行搜索,并返回搜索結(jié)果;根據(jù)返回的搜索結(jié)果的至少一部分選取該一個(gè)片段的分詞方式。本發(fā)明更好地解決了無(wú)詞邊界標(biāo)記語(yǔ)言的分詞問(wèn)題,克服了現(xiàn)有技術(shù)在靈活性、依賴(lài)于字典的覆蓋度、可以獲得的訓(xùn)練數(shù)據(jù)語(yǔ)料庫(kù)、處理新詞匯等方面的局限。
文檔編號(hào)G06F17/30GK101261623SQ200710086030
公開(kāi)日2008年9月10日 申請(qǐng)日期2007年3月7日 優(yōu)先權(quán)日2007年3月7日
發(fā)明者文 劉, 王欣靖, 勇 秦 申請(qǐng)人:國(guó)際商業(yè)機(jī)器公司
網(wǎng)友詢(xún)問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1