亚洲成年人黄色一级片,日本香港三级亚洲三级,黄色成人小视频,国产青草视频,国产一区二区久久精品,91在线免费公开视频,成年轻人网站色直接看

分詞評(píng)價(jià)方法及裝置的制作方法

文檔序號(hào):6581061閱讀:194來(lái)源:國(guó)知局
專利名稱:分詞評(píng)價(jià)方法及裝置的制作方法
技術(shù)領(lǐng)域
本發(fā)明涉及信息處理領(lǐng)域,特別涉及一種分詞評(píng)價(jià)方法及裝置。
背景技術(shù)
隨著互聯(lián)網(wǎng)的普遍應(yīng)用,面向互聯(lián)網(wǎng)進(jìn)行搜索逐漸成為了人們獲取信息的主要方 式。分詞技術(shù)作為搜索引擎中的一項(xiàng)重要的基礎(chǔ)技術(shù),它的好壞將直接影響搜索質(zhì)量的好 壞。為了提高分詞的質(zhì)量,人們?cè)O(shè)計(jì)出了各種各樣的分詞程序。如何對(duì)這些分詞程序的分 詞性能進(jìn)行評(píng)價(jià),一直是一個(gè)比較困難的問(wèn)題?,F(xiàn)有技術(shù)采用的是根據(jù)分詞的準(zhǔn)確率和召回率進(jìn)行分詞評(píng)價(jià)的方式,為了計(jì)算分 詞的準(zhǔn)確率和召回率,需要有事先標(biāo)注的比較大規(guī)模的語(yǔ)料庫(kù),并在此基礎(chǔ)上進(jìn)行統(tǒng)計(jì)計(jì) 算,最后根據(jù)計(jì)算結(jié)果對(duì)分詞的好壞進(jìn)行評(píng)價(jià)。在實(shí)現(xiàn)本發(fā)明的過(guò)程中,發(fā)明人發(fā)現(xiàn)現(xiàn)有技術(shù)至少存在以下缺點(diǎn)現(xiàn)有的分詞評(píng)價(jià)方式需要有事先標(biāo)注的語(yǔ)料庫(kù)才能實(shí)現(xiàn)自動(dòng)評(píng)價(jià),而目前已有的 比較大規(guī)模的語(yǔ)料庫(kù)均需要人工進(jìn)行標(biāo)注。另外,由于現(xiàn)有語(yǔ)料庫(kù)中的語(yǔ)料和目前互聯(lián)網(wǎng) 中涉及的網(wǎng)絡(luò)語(yǔ)料具有一定的差異性,從而導(dǎo)致有些分詞程序即使根據(jù)現(xiàn)有語(yǔ)料庫(kù)計(jì)算出 較高的準(zhǔn)確率和召回率,但將其應(yīng)用到面向互聯(lián)網(wǎng)的搜索引擎中時(shí),分詞性能仍然很差。

發(fā)明內(nèi)容
為了實(shí)現(xiàn)對(duì)分詞性能的自動(dòng)評(píng)價(jià),并更加有效地評(píng)價(jià)面向互聯(lián)網(wǎng)應(yīng)用的分詞性 能,本發(fā)明實(shí)施例提供了一種分詞評(píng)價(jià)方法及裝置。所述技術(shù)方案如下—方面,提供了一種分詞評(píng)價(jià)方法,所述方法包括從互聯(lián)網(wǎng)中獲取每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料,構(gòu)建所述每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料 集;以待評(píng)價(jià)的分詞程序?qū)λ雒總€(gè)測(cè)試詞語(yǔ)及其測(cè)試語(yǔ)料集進(jìn)行分詞處理;將所述每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果進(jìn)行比對(duì),根據(jù)所 述每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果的一致性,對(duì)所述待評(píng)價(jià)的分詞 程序進(jìn)行評(píng)價(jià)。其中,所述從互聯(lián)網(wǎng)中獲取每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料,構(gòu)建所述每個(gè)測(cè)試詞語(yǔ)的 測(cè)試語(yǔ)料集,具體包括將所述每個(gè)測(cè)試詞語(yǔ)作為搜索詞放入面向互聯(lián)網(wǎng)的搜索引擎中進(jìn)行搜索,得到所 述每個(gè)測(cè)試詞語(yǔ)的搜索結(jié)果;在所述每個(gè)測(cè)試詞語(yǔ)的搜索結(jié)果中提取有效的測(cè)試語(yǔ)料,構(gòu)建所述每個(gè)測(cè)試詞語(yǔ) 的測(cè)試語(yǔ)料集。所述根據(jù)所述每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果的一致性, 對(duì)所述待評(píng)價(jià)的分詞程序進(jìn)行評(píng)價(jià),具體包括統(tǒng)計(jì)每個(gè)測(cè)試語(yǔ)料集中的分詞結(jié)果的個(gè)數(shù),并統(tǒng)計(jì)所述每個(gè)測(cè)試語(yǔ)料集中的分詞結(jié)果與所述每個(gè)測(cè)試語(yǔ)料集對(duì)應(yīng)的測(cè)試詞語(yǔ)的分詞結(jié)果一致的個(gè)數(shù);根據(jù)所述統(tǒng)計(jì)出的個(gè)數(shù),對(duì)所述待評(píng)價(jià)的分詞程序進(jìn)行評(píng)價(jià)?;蛘撸龈鶕?jù)所述每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果的一 致性,對(duì)所述待評(píng)價(jià)的分詞程序進(jìn)行評(píng)價(jià),具體包括在所有測(cè)試語(yǔ)料集中,統(tǒng)計(jì)測(cè)試語(yǔ)料集中的所有分詞結(jié)果均與所述測(cè)試語(yǔ)料集對(duì) 應(yīng)的測(cè)試詞語(yǔ)的分詞結(jié)果一致的個(gè)數(shù);根據(jù)所述統(tǒng)計(jì)出的個(gè)數(shù),及所有測(cè)試詞語(yǔ)的個(gè)數(shù),對(duì)所述待評(píng)價(jià)的分詞程序進(jìn)行 評(píng)價(jià)。另一方面,提供了一種分詞評(píng)價(jià)裝置,所述裝置包括構(gòu)建模塊,用于從互聯(lián)網(wǎng)中獲取每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料,構(gòu)建所述每個(gè)測(cè)試詞 語(yǔ)的測(cè)試語(yǔ)料集;分詞模塊,用于以待評(píng)價(jià)的分詞程序?qū)λ雒總€(gè)測(cè)試詞語(yǔ)及其測(cè)試語(yǔ)料集進(jìn)行分 詞處理;比對(duì)模塊,用于將所述每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果進(jìn) 行比對(duì);評(píng)價(jià)模塊,用于在將所述每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果 進(jìn)行比對(duì)之后,根據(jù)所述每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果的一致 性,對(duì)所述待評(píng)價(jià)的分詞程序進(jìn)行評(píng)價(jià)。其中,所述構(gòu)建模塊,具體包括搜索單元,具體用于將所述每個(gè)測(cè)試詞語(yǔ)作為搜索詞放入面向互聯(lián)網(wǎng)的搜索引擎 中進(jìn)行搜索,得到所述每個(gè)測(cè)試詞語(yǔ)的搜索結(jié)果;構(gòu)建單元,具體用于在所述每個(gè)測(cè)試詞語(yǔ)的搜索結(jié)果中提取有效的測(cè)試語(yǔ)料,構(gòu) 建所述每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料集。具體地,所述評(píng)價(jià)模塊,具體用于在將所述每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ) 料集中的分詞結(jié)果進(jìn)行比對(duì)之后,統(tǒng)計(jì)每個(gè)測(cè)試語(yǔ)料集中的分詞結(jié)果的個(gè)數(shù),并統(tǒng)計(jì)所述 每個(gè)測(cè)試語(yǔ)料集中的分詞結(jié)果與所述每個(gè)測(cè)試語(yǔ)料集對(duì)應(yīng)的測(cè)試詞語(yǔ)的分詞結(jié)果一致的 個(gè)數(shù);根據(jù)所述統(tǒng)計(jì)出的個(gè)數(shù),對(duì)所述待評(píng)價(jià)的分詞程序進(jìn)行評(píng)價(jià)?;蛘?,所述評(píng)價(jià)模塊,具體用于在將所述每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料 集中的分詞結(jié)果進(jìn)行比對(duì)之后,在所有測(cè)試語(yǔ)料集中,統(tǒng)計(jì)測(cè)試語(yǔ)料集中的所有分詞結(jié)果 均與所述測(cè)試語(yǔ)料集對(duì)應(yīng)的測(cè)試詞語(yǔ)的分詞結(jié)果一致的個(gè)數(shù);根據(jù)所述統(tǒng)計(jì)出的個(gè)數(shù),及 所有測(cè)試詞語(yǔ)的個(gè)數(shù),對(duì)所述待評(píng)價(jià)的分詞程序進(jìn)行評(píng)價(jià)。本發(fā)明實(shí)施例提供的技術(shù)方案的有益效果是通過(guò)從互聯(lián)網(wǎng)中獲取每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料,構(gòu)建每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料 集,并根據(jù)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果的一致性,對(duì)分詞性能進(jìn)行 評(píng)價(jià),不僅能夠在無(wú)需人工參與的情況下實(shí)現(xiàn)自動(dòng)評(píng)價(jià),還能夠更好地評(píng)價(jià)面向互聯(lián)網(wǎng)應(yīng) 用的分詞性能,使分詞評(píng)價(jià)更具可靠性,適合應(yīng)用于大規(guī)模的數(shù)據(jù)測(cè)試。


為了更清楚地說(shuō)明本發(fā)明實(shí)施例中的技術(shù)方案,下面將對(duì)實(shí)施例描述中所需要使用的附圖作簡(jiǎn)單地介紹,顯而易見地,下面描述中的附圖僅僅是本發(fā)明的一些實(shí)施例,對(duì)于 本領(lǐng)域普通技術(shù)人員來(lái)講,在不付出創(chuàng)造性勞動(dòng)的前提下,還可以根據(jù)這些附圖獲得其他 的附圖。圖1是本發(fā)明實(shí)施例一提供的分詞評(píng)價(jià)方法流程圖;圖2是本發(fā)明實(shí)施例二提供的分詞評(píng)價(jià)方法流程圖;圖3是本發(fā)明實(shí)施例三提供的分詞評(píng)價(jià)裝置結(jié)構(gòu)示意圖;圖4是本發(fā)明實(shí)施例三提供的分詞評(píng)價(jià)裝置中的構(gòu)建模塊結(jié)構(gòu)示意圖。
具體實(shí)施例方式為使本發(fā)明的目的、技術(shù)方案和優(yōu)點(diǎn)更加清楚,下面將結(jié)合附圖對(duì)本發(fā)明實(shí)施方 式作進(jìn)一步地詳細(xì)描述。實(shí)施例一參見圖1,本實(shí)施例提供了一種分詞評(píng)價(jià)方法,該方法流程如下101 從互聯(lián)網(wǎng)中獲取每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料,構(gòu)建每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料 集;102 以待評(píng)價(jià)的分詞程序?qū)γ總€(gè)測(cè)試詞語(yǔ)及其測(cè)試語(yǔ)料集進(jìn)行分詞處理;103:將每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果進(jìn)行比對(duì),根據(jù)每 個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果的一致性,對(duì)待評(píng)價(jià)的分詞程序進(jìn)行 評(píng)價(jià)。綜上所述,本實(shí)施例提供的方法,通過(guò)從互聯(lián)網(wǎng)中獲取測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料,構(gòu)建 測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料集,并根據(jù)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果的一致 性,進(jìn)行分詞評(píng)價(jià),能夠在無(wú)需人工參與的情況下,更好地評(píng)價(jià)面向互聯(lián)網(wǎng)應(yīng)用的分詞性 能,使分詞評(píng)價(jià)更具可靠性,適合應(yīng)用于大規(guī)模的數(shù)據(jù)測(cè)試。實(shí)施例二本實(shí)施例提供了一種分詞評(píng)價(jià)方法,該方法針對(duì)各種各樣的分詞程序,提供了一 種面向互聯(lián)網(wǎng)應(yīng)用的分詞性能評(píng)價(jià)方法,參見圖2,方法流程具體如下201 從互聯(lián)網(wǎng)中獲取每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料,構(gòu)建每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料 集;針對(duì)該步驟,為了使測(cè)試詞語(yǔ)更具代表性,更能體現(xiàn)出分詞性能,可以將網(wǎng)絡(luò)中點(diǎn) 擊頻率較高、比較熱門的詞語(yǔ)作為測(cè)試詞語(yǔ),還可以將古今中外的一些名人的人名作為測(cè) 試詞語(yǔ),除此之外,還可以將一些具有代表性、確定性的詞語(yǔ)作為測(cè)試詞語(yǔ),本實(shí)施例不對(duì) 測(cè)試詞語(yǔ)的內(nèi)容及數(shù)量進(jìn)行具體限定。具體地,為了縮小獲取的測(cè)試語(yǔ)料與網(wǎng)絡(luò)語(yǔ)料之間的差異性,提供一種面向互聯(lián) 網(wǎng)應(yīng)用的分詞評(píng)價(jià)方法,本實(shí)施例以面向互聯(lián)網(wǎng)的搜索引擎為例,將每個(gè)測(cè)試詞語(yǔ)作為搜 索詞放入面向互聯(lián)網(wǎng)的搜索引擎中進(jìn)行搜索,得到每個(gè)測(cè)試詞語(yǔ)的搜索結(jié)果;并在每個(gè)測(cè) 試詞語(yǔ)的搜索結(jié)果中提取有效的測(cè)試語(yǔ)料,構(gòu)建每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料集。對(duì)于每個(gè)測(cè)試詞語(yǔ),其搜索結(jié)果可能是成千上萬(wàn)的,搜索引擎一般會(huì)將最相關(guān)的、 高質(zhì)量的搜索結(jié)果顯示在最前面,因此,為了提高獲取測(cè)試語(yǔ)料的效率,提高獲取的測(cè)試語(yǔ) 料的質(zhì)量,可以在顯示靠前的多個(gè)搜索結(jié)果中提取有效的測(cè)試語(yǔ)料。
此處判斷測(cè)試語(yǔ)料有效性的標(biāo)準(zhǔn)是以“?!薄ⅰ?? ”、“ !,,等代表完整語(yǔ)句的符號(hào)作為 分隔符,且該測(cè)試語(yǔ)料中包含其對(duì)應(yīng)的測(cè)試詞語(yǔ),而不是另一個(gè)詞語(yǔ)的一部分。例如,以測(cè) 試詞語(yǔ)“王維”為例,將其放入搜索引擎中進(jìn)行搜索時(shí),搜索結(jié)果可能會(huì)出現(xiàn)“上海社保案核 心人物王維工受賄千萬(wàn)獲死緩”的語(yǔ)料,測(cè)試詞語(yǔ)“王維”作為該語(yǔ)料中詞語(yǔ)“王維工”的一 部分,因此,該語(yǔ)料不具備有效性。優(yōu)選地,再對(duì)提取的語(yǔ)料進(jìn)行過(guò)濾,去除一些包含特殊字符的語(yǔ)料,同時(shí)去除上下 文完全相同的語(yǔ)料,最終得到每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料集。202 以待評(píng)價(jià)的分詞程序?qū)γ總€(gè)測(cè)試詞語(yǔ)及其測(cè)試語(yǔ)料集進(jìn)行分詞處理;其中,對(duì)每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料集進(jìn)行分詞處理,也就是對(duì)測(cè)試語(yǔ)料集中的每 個(gè)測(cè)試語(yǔ)料進(jìn)行分詞處理,每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料集中包含一至多個(gè)測(cè)試語(yǔ)料。由于每 種分詞程序之間會(huì)存在不同程度的差異,即使是同一個(gè)測(cè)試語(yǔ)料或測(cè)試詞語(yǔ),在用不同的 分詞程序進(jìn)行分詞處理時(shí),得到的分詞結(jié)果也可能會(huì)不一樣。即使是同一個(gè)測(cè)試詞語(yǔ),以相 同的分詞程序?qū)ζ溥M(jìn)行分詞處理,和將其放入測(cè)試語(yǔ)料中再對(duì)其進(jìn)行分詞處理,得到的分 詞結(jié)果也可能不同,因此,一個(gè)測(cè)試語(yǔ)料集中可能存在多種分詞結(jié)果。例如,對(duì)于測(cè)試詞語(yǔ)“ABC”,對(duì)其進(jìn)行分詞處理時(shí),得到的分詞結(jié)果可能是“A”、 “^’、“(^“^”、“(^“^’、“肌”;“仙^’等多種分詞結(jié)果中的任一種。而將該測(cè)試詞語(yǔ)放入 測(cè)試語(yǔ)料中,即對(duì)該測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料集進(jìn)行分詞處理時(shí),有可能會(huì)得到“A”、“B”、“C”; “AB”、“C”;“A”、“BC”;“ABC”等多種分詞結(jié)果,由此可見,對(duì)單獨(dú)的測(cè)試詞語(yǔ)進(jìn)行分詞處理, 和將其放入測(cè)試語(yǔ)料中再對(duì)其進(jìn)行分詞處理時(shí),得到的分詞結(jié)果有可能是不一樣的,一個(gè) 測(cè)試語(yǔ)料集中也可能存在多種分詞結(jié)果。203 將每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果進(jìn)行比對(duì);針對(duì)該步驟,通過(guò)將每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果進(jìn)行 比對(duì),可得出每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果,和將其放入測(cè)試語(yǔ)料中的分詞結(jié)果是否一樣,如果 一樣,則認(rèn)為該測(cè)試詞語(yǔ)的分詞結(jié)果,和將其放入測(cè)試語(yǔ)料中的分詞結(jié)果一致。測(cè)試語(yǔ)料集 中的分詞結(jié)果與測(cè)試詞語(yǔ)的分詞結(jié)果一致的個(gè)數(shù)越多,則說(shuō)明該測(cè)試詞語(yǔ)的分詞結(jié)果與其 測(cè)試語(yǔ)料集中的分詞結(jié)果的一致性越高。204:根據(jù)每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果的一致性,對(duì)該 待評(píng)價(jià)的分詞程序進(jìn)行評(píng)價(jià)。具體地,統(tǒng)計(jì)每個(gè)測(cè)試語(yǔ)料集中的分詞結(jié)果的個(gè)數(shù),并統(tǒng)計(jì)每個(gè)測(cè)試語(yǔ)料集中的 分詞結(jié)果與每個(gè)測(cè)試語(yǔ)料集對(duì)應(yīng)的測(cè)試詞語(yǔ)的分詞結(jié)果一致的個(gè)數(shù);根據(jù)統(tǒng)計(jì)出的個(gè)數(shù), 對(duì)待評(píng)價(jià)的分詞程序進(jìn)行評(píng)價(jià)。例如,將每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果的一致性定義為 “-致性指標(biāo)”,表示為
權(quán)利要求
1.一種分詞評(píng)價(jià)方法,其特征在于,所述方法包括從互聯(lián)網(wǎng)中獲取每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料,構(gòu)建所述每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料集; 以待評(píng)價(jià)的分詞程序?qū)λ雒總€(gè)測(cè)試詞語(yǔ)及其測(cè)試語(yǔ)料集進(jìn)行分詞處理; 將所述每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果進(jìn)行比對(duì),根據(jù)所述每 個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果的一致性,對(duì)所述待評(píng)價(jià)的分詞程序 進(jìn)行評(píng)價(jià)。
2.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述從互聯(lián)網(wǎng)中獲取每個(gè)測(cè)試詞語(yǔ)的測(cè) 試語(yǔ)料,構(gòu)建所述每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料集,具體包括將所述每個(gè)測(cè)試詞語(yǔ)作為搜索詞放入面向互聯(lián)網(wǎng)的搜索引擎中進(jìn)行搜索,得到所述每 個(gè)測(cè)試詞語(yǔ)的搜索結(jié)果;在所述每個(gè)測(cè)試詞語(yǔ)的搜索結(jié)果中提取有效的測(cè)試語(yǔ)料,構(gòu)建所述每個(gè)測(cè)試詞語(yǔ)的測(cè) 試語(yǔ)料集。
3.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果 與其測(cè)試語(yǔ)料集中的分詞結(jié)果的一致性,對(duì)所述待評(píng)價(jià)的分詞程序進(jìn)行評(píng)價(jià),具體包括統(tǒng)計(jì)每個(gè)測(cè)試語(yǔ)料集中的分詞結(jié)果的個(gè)數(shù),并統(tǒng)計(jì)所述每個(gè)測(cè)試語(yǔ)料集中的分詞結(jié)果 與所述每個(gè)測(cè)試語(yǔ)料集對(duì)應(yīng)的測(cè)試詞語(yǔ)的分詞結(jié)果一致的個(gè)數(shù); 根據(jù)所述統(tǒng)計(jì)出的個(gè)數(shù),對(duì)所述待評(píng)價(jià)的分詞程序進(jìn)行評(píng)價(jià)。
4.根據(jù)權(quán)利要求1所述的方法,其特征在于,所述根據(jù)所述每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果 與其測(cè)試語(yǔ)料集中的分詞結(jié)果的一致性,對(duì)所述待評(píng)價(jià)的分詞程序進(jìn)行評(píng)價(jià),具體包括在所有測(cè)試語(yǔ)料集中,統(tǒng)計(jì)測(cè)試語(yǔ)料集中的所有分詞結(jié)果均與所述測(cè)試語(yǔ)料集對(duì)應(yīng)的 測(cè)試詞語(yǔ)的分詞結(jié)果一致的個(gè)數(shù);根據(jù)統(tǒng)計(jì)出的個(gè)數(shù),及所有測(cè)試詞語(yǔ)的個(gè)數(shù),對(duì)所述待評(píng)價(jià)的分詞程序進(jìn)行評(píng)價(jià)。
5.一種分詞評(píng)價(jià)裝置,其特征在于,所述裝置包括構(gòu)建模塊,用于從互聯(lián)網(wǎng)中獲取每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料,構(gòu)建所述每個(gè)測(cè)試詞語(yǔ)的 測(cè)試語(yǔ)料集;分詞模塊,用于以待評(píng)價(jià)的分詞程序?qū)λ雒總€(gè)測(cè)試詞語(yǔ)及其測(cè)試語(yǔ)料集進(jìn)行分詞處理;比對(duì)模塊,用于將所述每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果進(jìn)行比對(duì);評(píng)價(jià)模塊,用于在將所述每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果進(jìn)行 比對(duì)之后,根據(jù)所述每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果的一致性,對(duì) 所述待評(píng)價(jià)的分詞程序進(jìn)行評(píng)價(jià)。
6.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述構(gòu)建模塊,具體包括搜索單元,具體用于將所述每個(gè)測(cè)試詞語(yǔ)作為搜索詞放入面向互聯(lián)網(wǎng)的搜索引擎中進(jìn) 行搜索,得到所述每個(gè)測(cè)試詞語(yǔ)的搜索結(jié)果;構(gòu)建單元,具體用于在所述每個(gè)測(cè)試詞語(yǔ)的搜索結(jié)果中提取有效的測(cè)試語(yǔ)料,構(gòu)建所 述每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料集。
7.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述評(píng)價(jià)模塊,具體用于在將所述每個(gè)測(cè) 試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果進(jìn)行比對(duì)之后,統(tǒng)計(jì)每個(gè)測(cè)試語(yǔ)料集中的分詞結(jié)果的個(gè)數(shù),并統(tǒng)計(jì)所述每個(gè)測(cè)試語(yǔ)料集中的分詞結(jié)果與所述每個(gè)測(cè)試語(yǔ)料集對(duì)應(yīng)的 測(cè)試詞語(yǔ)的分詞結(jié)果一致的個(gè)數(shù);根據(jù)統(tǒng)計(jì)出的個(gè)數(shù),對(duì)所述待評(píng)價(jià)的分詞程序進(jìn)行評(píng)價(jià)。
8.根據(jù)權(quán)利要求5所述的裝置,其特征在于,所述評(píng)價(jià)模塊,具體用于在將所述每個(gè)測(cè) 試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果進(jìn)行比對(duì)之后,在所有測(cè)試語(yǔ)料集中,統(tǒng) 計(jì)測(cè)試語(yǔ)料集的所有分詞結(jié)果均與所述測(cè)試語(yǔ)料集對(duì)應(yīng)的測(cè)試詞語(yǔ)的分詞結(jié)果一致的個(gè) 數(shù);根據(jù)統(tǒng)計(jì)出的個(gè)數(shù),及所有測(cè)試詞語(yǔ)的個(gè)數(shù),對(duì)所述待評(píng)價(jià)的分詞程序進(jìn)行評(píng)價(jià)。
全文摘要
本發(fā)明公開了一種分詞評(píng)價(jià)方法及裝置,屬于信息處理領(lǐng)域。所述方法包括從互聯(lián)網(wǎng)中獲取每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料,構(gòu)建所述每個(gè)測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料集;以待評(píng)價(jià)的分詞程序?qū)λ雒總€(gè)測(cè)試詞語(yǔ)及其測(cè)試語(yǔ)料集進(jìn)行分詞處理;將所述每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果進(jìn)行比對(duì),根據(jù)所述每個(gè)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果的一致性,對(duì)所述待評(píng)價(jià)的分詞程序進(jìn)行評(píng)價(jià)。所述裝置包括構(gòu)建模塊、分詞模塊、比對(duì)模塊和評(píng)價(jià)模塊。本發(fā)明通過(guò)從互聯(lián)網(wǎng)中獲取測(cè)試詞語(yǔ)的測(cè)試語(yǔ)料,構(gòu)建測(cè)試語(yǔ)料集,并根據(jù)測(cè)試詞語(yǔ)的分詞結(jié)果與其測(cè)試語(yǔ)料集中的分詞結(jié)果的一致性,進(jìn)行分詞評(píng)價(jià),能夠更好地評(píng)價(jià)面向互聯(lián)網(wǎng)應(yīng)用的分詞性能。
文檔編號(hào)G06F17/30GK102043791SQ20091018112
公開日2011年5月4日 申請(qǐng)日期2009年10月10日 優(yōu)先權(quán)日2009年10月10日
發(fā)明者方高林, 鄭全戰(zhàn) 申請(qǐng)人:騰訊科技(深圳)有限公司
網(wǎng)友詢問(wèn)留言 已有0條留言
  • 還沒(méi)有人留言評(píng)論。精彩留言會(huì)獲得點(diǎn)贊!
1