一種問句分類方法及系統(tǒng)的制作方法
【專利摘要】本發(fā)明適用計算機技術(shù)領(lǐng)域,提供了一種問句分類方法及系統(tǒng),該方法包括:對輸入的問句進行分詞,得到分詞結(jié)果的特征向量;根據(jù)領(lǐng)域詞典,查找特征向量中的屬于所述領(lǐng)域詞典中的詞語;計算特征向量中屬于領(lǐng)域詞典中的詞語的權(quán)重值,確定問句分類結(jié)果。本發(fā)明通過對輸入的問句進行分詞,得到包含屬于領(lǐng)域詞典的詞語的特征向量,再依據(jù)領(lǐng)域詞典查找領(lǐng)域詞典的詞語,在問句分類時考慮每個類別的屬于領(lǐng)域詞典的詞語權(quán)重,根據(jù)計算屬于領(lǐng)域詞典的詞語在不同的類別中權(quán)重不同,使得分類更加準(zhǔn)確。
【專利說明】
一種問句分類方法及系統(tǒng)
技術(shù)領(lǐng)域
[0001 ]本發(fā)明屬于計算機技術(shù)領(lǐng)域,尤其涉及一種問句分類方法及系統(tǒng)。
【背景技術(shù)】
[0002] 目前問句分類方法的研究上,主要集中在兩方面:一方面是基于規(guī)則的問句分類 方法,另一方面是基于統(tǒng)計學(xué)習(xí)的問句分類方法。其中,基于規(guī)則的問句分類方法核心思想 是分析問句的特點,然后定義出問句分類的特征組合規(guī)則,通過問句與規(guī)則的匹配程度以 及與規(guī)則的相關(guān)性分析得到問句的最終類別,基于規(guī)則的問句分類方法在規(guī)則簡單且疑問 詞明顯的問句分類中有很好的表現(xiàn),尤其表現(xiàn)在準(zhǔn)確率上。但是由于漢語的靈活,中文問句 規(guī)則相當(dāng)豐富,很難窮舉所有的規(guī)則,分類規(guī)則提取困難,此外,規(guī)則過多的時候容易引起 不同類型問句規(guī)則之間的沖突。當(dāng)前主要聚焦于統(tǒng)計的問句分類研究,并取得了一些進展, 但是基于統(tǒng)計學(xué)習(xí)的問句分類方法仍存在一個制約準(zhǔn)確率的因素:沒有考慮到領(lǐng)域?qū)S懈?念,分類準(zhǔn)確度不夠。
【發(fā)明內(nèi)容】
[0003] 本發(fā)明的目的在于提供一種問句分類方法及系統(tǒng),旨在解決由于現(xiàn)有技術(shù)中沒有 考慮到領(lǐng)域?qū)S懈拍顚?dǎo)致分類準(zhǔn)確度不夠的問題。
[0004] -方面,本發(fā)明提供了一種問句分類方法,所述方法包括下述步驟:
[0005] 對輸入的問句進行分詞,得到分詞結(jié)果的特征向量;
[0006] 根據(jù)領(lǐng)域詞典,查找特征向量中的屬于所述領(lǐng)域詞典中的詞語;
[0007] 計算所述特征向量中的屬于所述領(lǐng)域詞典中的詞語的權(quán)重值,確定問句分類結(jié) 果。
[0008] 另一方面,本發(fā)明提供了一種問句分類系統(tǒng),所述系統(tǒng)包括:
[0009] 特征向量獲取單元,用于對輸入的問句進行分詞,得到分詞結(jié)果的特征向量;
[0010] 查找單元,用于根據(jù)領(lǐng)域詞典,查找特征向量中的屬于所述領(lǐng)域詞典中的詞語;
[0011] 分類單元,用于計算所述特征向量中的屬于所述領(lǐng)域詞典中的詞語的權(quán)重值,確 定問句分類結(jié)果。
[0012] 本發(fā)明實施例通過對輸入的問句進行分詞,得到包含屬于領(lǐng)域詞典的詞語的特征 向量,再依據(jù)領(lǐng)域詞典查找領(lǐng)域詞典的詞語,在問句分類時考慮每個類別的屬于領(lǐng)域詞典 的詞語權(quán)重,根據(jù)計算屬于領(lǐng)域詞典的詞語在不同的類別中權(quán)重不同,使得分類更加準(zhǔn)確。
【附圖說明】
[0013] 圖1是本發(fā)明實施例一提供的問句分類方法的實現(xiàn)流程圖;
[0014] 圖2是本發(fā)明實施例一提供的問句分類方法中查找屬于領(lǐng)域詞典中詞語的實現(xiàn)流 程圖;
[0015] 圖3是本發(fā)明實施例二提供的問句分類方法的實現(xiàn)流程圖;
[0016] 圖4是本發(fā)明實施例二提供的問句分類方法中構(gòu)建領(lǐng)域詞典的實現(xiàn)流程圖;
[0017] 圖5是本發(fā)明實施例三提供的問句分類系統(tǒng)的結(jié)構(gòu)圖;
[0018] 圖6是本發(fā)明實施例三提供的問句分類系統(tǒng)中特征向量獲取單元的結(jié)構(gòu)圖;
[0019] 圖7是本發(fā)明實施例四提供的問句分類系統(tǒng)的結(jié)構(gòu)圖;以及
[0020]圖8是本發(fā)明實施例四提供的問句分類系統(tǒng)中領(lǐng)域詞典構(gòu)建單元的結(jié)構(gòu)圖。
【具體實施方式】
[0021] 為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點更加清楚明白,以下結(jié)合附圖及實施例,對 本發(fā)明進行進一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實施例僅僅用以解釋本發(fā)明,并 不用于限定本發(fā)明。
[0022] 以下結(jié)合具體實施例對本發(fā)明的具體實現(xiàn)進行詳細(xì)描述:
[0023] 實施例一:
[0024] 圖1示出了本發(fā)明實施例一提供的問句分類方法的實現(xiàn)流程圖,為了便于說明,僅 示出了與本發(fā)明實施例相關(guān)的部分,詳述如下:
[0025]在步驟S101中,對輸入的問句進行分詞,得到分詞結(jié)果的特征向量。
[0026] 在本發(fā)明實施例中,對輸入的問句進行分詞,這樣可以得到包含領(lǐng)域詞的分詞結(jié) 果,最終得到分詞結(jié)果的特征向量。
[0027] 優(yōu)選地,如果把所有的詞語都作為特征項,那么特征向量的維數(shù)將過于巨大,從而 導(dǎo)致計算量太大,在這樣的情況下,要完成問句分類幾乎是不可能。對輸入的問句進行分 詞,得到分詞結(jié)果的特征向量的主要功能是在不影響核心信息的情況下盡量減少要處理的 詞語數(shù),以此來降低向量空間維數(shù),從而簡化計算,提高處理速度和效率。圖2示出了本發(fā)明 實施例一提供的問句分類方法中查找屬于領(lǐng)域詞典中詞語的實現(xiàn)流程圖,詳述如下:
[0028] 在步驟S201中,根據(jù)領(lǐng)域詞典,對輸入的問句進行分詞,得到分詞結(jié)果,分詞結(jié)果 包括屬于領(lǐng)域詞典的詞語;
[0029]在本實施例中,根據(jù)領(lǐng)域詞典對輸入的問句進行分詞,結(jié)合領(lǐng)域詞典的中文分詞 時可以避免切分領(lǐng)域詞語,比如"芝加哥公牛隊"是一個領(lǐng)域詞語,不能繼續(xù)切分,對每個分 出來的詞語進行詞性標(biāo)注,去掉區(qū)分度較小的詞性,如:代詞、虛詞。進一步地,利用常見的 停用詞表,去掉停用詞,如:的、請問、我想、你好等。
[0030] 在步驟S202中,根據(jù)分詞結(jié)果,得到特征向量,特征向量為分詞結(jié)果以向量形式表 示的集合。
[0031] 在本實施例中,特征向量就是分詞結(jié)果以向量形式表示的集合,分詞結(jié)果是分詞 后得到的詞語。
[0032] 在步驟S102中,根據(jù)領(lǐng)域詞典,查找特征向量中的屬于領(lǐng)域詞典中的詞語。
[0033] 在本發(fā)明實施例中,根據(jù)領(lǐng)域詞典,查找特征向量中的屬于領(lǐng)域詞典中的詞語,由 于分詞結(jié)果中的詞語既包含屬于領(lǐng)域詞典中的詞語,也包含不屬于領(lǐng)域詞典中的詞語,需 要通過領(lǐng)域詞典查找屬于領(lǐng)域詞典中的詞語,以便計算權(quán)重值,進行問句分類。
[0034] 在步驟S103中,計算特征向量中的屬于領(lǐng)域詞典中的詞語的權(quán)重值,確定問句分 類結(jié)果。
[0035] 在本發(fā)明實施例中,經(jīng)過上述兩個步驟得到了包含屬于領(lǐng)域詞典中的詞語的特征 向量,對此特征向量中的每個詞語進行檢測,若為屬于領(lǐng)域詞典中的詞語,則計算屬于領(lǐng)域 詞典中的詞語的權(quán)重值。計算屬于所述領(lǐng)域詞典中的詞語的權(quán)重值的公式為:x2-IDF,其 中,X2統(tǒng)計量是衡量一詞語與一類別的相關(guān)度,
|D |為文本文檔總數(shù),DF (W)為所有文本文檔中出現(xiàn)詞語W的文本文檔的數(shù)量。
[0036] 具體地,所述X2統(tǒng)計量的計算公式為:
其中,W為詞語,Cj為文本文檔類別,N為全部文本文檔的數(shù)量,N=A+B+C+D,A為Cj文本文檔中 包含詞語w的文本文檔的數(shù)量,B為除Cj文本文檔外包含詞語w的文本文檔的數(shù)量,C為Cj文本 文檔中不包含詞語w的文本文檔的數(shù)量,D為全部文本文檔中不包含詞語w且不屬于文本 文檔的文本文檔的數(shù)量。
[0037] 本發(fā)明實施例提出在問句分類時考慮每個類別的屬于領(lǐng)域詞典的詞語權(quán)重,由于 屬于領(lǐng)域詞典的詞語在不同的類別中權(quán)重不同,更加突出了屬于領(lǐng)域詞典的詞語的作用, 因此,基于領(lǐng)域詞典進行分類,使得分類更加準(zhǔn)確。
[0038] 實施例二:
[0039] 圖3示出了本發(fā)明實施例二提供的問句分類方法的實現(xiàn)流程圖,詳述如下:
[0040] 在步驟S300中,獲取語料庫中的文本文檔,構(gòu)建領(lǐng)域詞典。
[0041] 進一步地,圖4示出了本發(fā)明實施例二提供的問句分類方法中構(gòu)建領(lǐng)域詞典的實 現(xiàn)流程圖,詳述如下:
[0042]在步驟S401中,對語料庫中的文本文檔進行切分,得到切分文檔,切分文檔為切分 單元的集合,切分單元包括單字詞、雙字詞、多字詞及語素詞。
[0043]示例性地,對文本文檔"今天天氣不錯啊"進行切分,得到:"今天\天氣\不錯\ 啊\!",形成一個切分文檔,里面有5個切分單元。
[0044]在步驟S402中,對切分文檔中的組合模式進行匹配,得到匹配成功的組合模式以 及組合頻度,組合模式為任意兩個或兩個以上的連續(xù)的切分單元的組合;組合頻度為組合 模式在切分文檔中出現(xiàn)的次數(shù)。
[0045]在本發(fā)明實施例中,對切分文檔中的組合模式進行匹配就是當(dāng)有兩個組合模式相 同的情況出現(xiàn),這時這個組合模式就可能為屬于領(lǐng)域詞典的詞語。詞語看成是連續(xù)切分單 元之間的一種組合模式,當(dāng)然,并非每種組合模式都能構(gòu)成一個詞語。組合模式M(p,q)表示 由第P個和第q個切分單元組成的閉區(qū)間,那么,組合模式M(l,q)則表示由q個連續(xù)的切分單 元mi (K q)所組成的組合模式mim2 ? ? ? mi…mq,該組合模式M (1,q)的組合頻度為組合模式 M(1,q)在一切分文檔r中出現(xiàn)的次數(shù),記為fr(M(l,q))。
[0046] 進一步地,對組合模式M(p,q)與M(p+k,q+k)進行匹配,M(p+k,q+k)表示與M(p,q) 相距k個切分單元且由n個連續(xù)的切分單元所組成的組合模式,其中,k為大于等于1的正整 數(shù),n為大于等于2的正整數(shù);若組合模式M(p,q)與M(p+k,q+k)匹配成功,則表示這兩個組合 模式相同,同時記錄該組合模式在所述切分文檔中出現(xiàn)的次數(shù),將該組合模式標(biāo)記為可能 屬于領(lǐng)域詞典中的詞語;若組合模式M(p,q)與M(p+k,q+k)不匹配,組合模式M(p,q_l)與M(p +k,q+k_l)匹配成功,則將組合模式M(p,q_l)標(biāo)記為可能屬于領(lǐng)域詞典中的詞語。
[0047]在步驟S403中,根據(jù)預(yù)設(shè)規(guī)則,對所述匹配成功的組合模式進行篩選,形成領(lǐng)域詞 典。
[0048]在本發(fā)明實施例中,為了排除步驟S402中得到的不屬于領(lǐng)域詞典中的詞語,通過 預(yù)設(shè)規(guī)則,對所述匹配成功的組合模式進行篩選,所述預(yù)設(shè)規(guī)則包括:刪除出現(xiàn)頻率相同的 組合模式,刪除以"的、是、與"等單字開頭或結(jié)尾的組合模式以及刪除〃數(shù)詞+量詞〃的組合 模式。
[0049]在步驟S301中,對輸入的問句進行分詞,得到分詞結(jié)果的特征向量。
[0050]在步驟S302中,根據(jù)領(lǐng)域詞典,查找特征向量中的屬于領(lǐng)域詞典中的詞語。
[0051]在步驟S303中,計算特征向量中所述領(lǐng)域詞典中的詞語的權(quán)重值,確定問句分類 結(jié)果。
[0052]在本發(fā)明實施例中,步驟S301-S303的實施方式可對應(yīng)參考前述實施例一中步驟 S101 - S103的描述,在此不再贅述。
[0053]本領(lǐng)域普通技術(shù)人員可以理解實現(xiàn)上述實施例方法中的全部或部分步驟是可以 通過程序來指令相關(guān)的硬件來完成,所述的程序可以存儲于一計算機可讀取存儲介質(zhì)中, 所述的存儲介質(zhì),如R0M/RAM、磁盤、光盤等。
[0054] 實施例三:
[0055] 圖5示出了本發(fā)明實施例三提供的問句分類系統(tǒng)的結(jié)構(gòu)圖,為了便于說明,僅示出 了與本發(fā)明實施例相關(guān)的部分。該問句分類系統(tǒng)包括:特征向量獲取單兀51、查找單兀52以 及分類單元53,其中:
[0056] 特征向量獲取單元51,用于對輸入的問句進行分詞,得到分詞結(jié)果的特征向量。 [0057]在本發(fā)明實施例中,對輸入的問句進行分詞,這樣可以得到包含領(lǐng)域詞的分詞結(jié) 果,最終得到分詞結(jié)果的特征向量。
[0058] 優(yōu)選地,如果把所有的詞語都作為特征項,那么特征向量的維數(shù)將過于巨大,從而 導(dǎo)致計算量太大,在這樣的情況下,要完成問句分類幾乎是不可能。對輸入的問句進行分 詞,得到分詞結(jié)果的特征向量的主要功能是在不影響核心信息的情況下盡量減少要處理的 詞語數(shù),以此來降低向量空間維數(shù),從而簡化計算,提高處理速度和效率。圖6示出了本發(fā)明 實施例三提供的問句分類系統(tǒng)中特征向量獲取單元的結(jié)構(gòu)圖,特征向量獲取單元51包括:
[0059] 分詞單元511,用于根據(jù)領(lǐng)域詞典,對輸入的問句進行分詞,得到分詞結(jié)果,分詞結(jié) 果包括屬于領(lǐng)域詞典的詞語。
[0060] 在本實施例中,根據(jù)領(lǐng)域詞典對輸入的問句進行分詞,結(jié)合領(lǐng)域詞典的中文分詞 時可以避免切分領(lǐng)域詞語,對每個分出來的詞語進行詞性標(biāo)注,去掉區(qū)分度較小的詞性,利 用常見的停用詞表,去掉停用詞。
[0061] 特征向量子單元512,用于根據(jù)分詞結(jié)果,得到特征向量,為分詞結(jié)果以向量形式 表不的集合。
[0062]在本實施例中,特征向量就是分詞結(jié)果以向量形式表示的集合,分詞結(jié)果是分詞 后得到的詞語。
[0063] 查找單元52,用于根據(jù)領(lǐng)域詞典,查找特征向量中的屬于領(lǐng)域詞典中的詞語。
[0064] 在本發(fā)明實施例中,根據(jù)領(lǐng)域詞典,查找特征向量中的屬于領(lǐng)域詞典中的詞語,由 于分詞結(jié)果中的詞語既包含屬于領(lǐng)域詞典中的詞語,也包含不屬于領(lǐng)域詞典中的詞語,需 要通過領(lǐng)域詞典查找屬于領(lǐng)域詞典中的詞語,以便計算權(quán)重值,進行問句分類。
[0065] 分類單元53,用于計算特征向量中屬于領(lǐng)域詞典中的詞語的權(quán)重值,確定問句分 類結(jié)果。
[0066] 在本發(fā)明實施例中,特征向量中的每個詞語進行檢測,若為屬于領(lǐng)域詞典中的詞 語,則計算屬于領(lǐng)域詞典中的詞語的權(quán)重值。計算屬于所述領(lǐng)域詞典中的詞語的權(quán)重值的 公式為:x2-IDF,其中,x2統(tǒng)計量是衡量一詞語與一類別的相關(guān)度,
|D|為 文本文檔總數(shù),DF (w)為所有文本文檔中出現(xiàn)詞語w的文本文檔的數(shù)量。
[0067] 具體地,所述X2統(tǒng)計量的計算公式為:
;, 其中,w為詞語,Cj為文本文檔類別,N為全部文本文檔的數(shù)量,N=A+B+C+D,A為Cj文本文檔中 包含詞語w的文本文檔的數(shù)量,B為除Cj文本文檔外包含詞語w的文本文檔的數(shù)量,C為Cj文本 文檔中不包含詞語w的文本文檔的數(shù)量,D為全部文本文檔中不包含詞語w且不屬于文本 文檔的文本文檔的數(shù)量。
[0068] 本發(fā)明實施例提出在問句分類時考慮每個類別的屬于領(lǐng)域詞典的詞語權(quán)重,由于 屬于領(lǐng)域詞典的詞語在不同的類別中權(quán)重不同,更加突出了屬于領(lǐng)域詞典的詞語的作用, 因此,基于領(lǐng)域詞典進行分類,使得分類更加準(zhǔn)確。
[0069] 實施例四:
[0070]圖7示出了本發(fā)明實施例四提供的問句分類系統(tǒng)的結(jié)構(gòu)圖,為了便于說明,僅示出 了與本發(fā)明實施例相關(guān)的部分。
[0071 ]該問句分類系統(tǒng)包括:領(lǐng)域詞典構(gòu)建單元50、特征向量獲取單元51、查找單元52以 及分類單元53,其中:
[0072]領(lǐng)域詞典構(gòu)建單元50,用于獲取語料庫中的文本文檔,構(gòu)建領(lǐng)域詞典。
[0073] 優(yōu)選地,圖8示出了本發(fā)明實施例四提供的問句分類系統(tǒng)中領(lǐng)域詞典構(gòu)建單元的 結(jié)構(gòu)圖,所述領(lǐng)域詞典構(gòu)建單元50包括:
[0074] 切分單元501,用于對語料庫中的文本文檔進行切分,得到切分文檔,切分文檔為 切分單元的集合,切分單元包括單字詞、雙字詞、多字詞及語素詞。
[0075] 示例性地,對文本文檔"今天天氣不錯啊"進行切分,得到:"今天\天氣\不錯\ 啊\!",形成一個切分文檔,里面有5個切分單元。
[0076]匹配單元502,用于對切分文檔中的組合模式進行匹配,得到匹配成功的組合模式 以及組合頻度,該組合模式為任意兩個或兩個以上的連續(xù)的切分單元的組合;該組合頻度 為組合模式在切分文檔中出現(xiàn)的次數(shù)。
[0077]在本發(fā)明實施例中,對切分文檔中的組合模式進行匹配就是當(dāng)有兩個組合模式相 同的情況出現(xiàn),這時這個組合模式就可能為屬于領(lǐng)域詞典的詞語。詞語看成是連續(xù)切分單 元之間的一種組合模式,當(dāng)然,并非每種組合模式都能構(gòu)成一個詞語。組合模式M(p,q)表示 由第P個和第q個切分單元組成的閉區(qū)間,那么,組合模式M(l,q)則表示由q個連續(xù)的切分單 元mi (K q)所組成的組合模式mim2 ? ? ? mi…mq,該組合模式M (1,q)的組合頻度為組合模式 M(1,q)在一切分文檔r中出現(xiàn)的次數(shù),記為fr(M(l,q))。
[0078] 進一步地,對組合模式M(p,q)與M(p+k,q+k)進行匹配,M(p+k,q+k)表示與M(p,q) 相距k個切分單元且由n個連續(xù)的切分單元所組成的組合模式,其中,k為大于等于1的正整 數(shù),n為大于等于2的正整數(shù);若組合模式M(p,q)與M(p+k,q+k)匹配成功,則表示這兩個組合 模式相同,同時記錄該組合模式在所述切分文檔中出現(xiàn)的次數(shù),將該組合模式標(biāo)記為可能 屬于領(lǐng)域詞典中的詞語;若組合模式M(p,q)與M(p+k,q+k)不匹配,組合模式M(p,q_l)與M(p +k,q+k_l)匹配成功,則將組合模式M(p,q_l)標(biāo)記為可能屬于領(lǐng)域詞典中的詞語。
[0079] 篩選單元503,用于根據(jù)預(yù)設(shè)規(guī)則,對該匹配成功的組合模式進行篩選,形成領(lǐng)域 詞典。
[0080] 在本發(fā)明實施例中,為了排除不屬于領(lǐng)域詞典中的詞語,通過預(yù)設(shè)規(guī)則,對匹配成 功的組合模式進行篩選,該預(yù)設(shè)規(guī)則包括:刪除出現(xiàn)頻率相同的組合模式,刪除以"的、是、 與"等單字開頭或結(jié)尾的組合模式以及刪除〃數(shù)詞+量詞〃的組合模式。
[0081 ]特征向量獲取單元51,用于對輸入的問句進行分詞,得到分詞結(jié)果的特征向量。
[0082] 查找單元52,用于根據(jù)領(lǐng)域詞典,查找特征向量中屬于領(lǐng)域詞典中的詞語。
[0083] 分類單元53,用于計算特征向量中屬于領(lǐng)域詞典中的詞語的權(quán)重值,確定問句分 類結(jié)果。
[0084] 在本發(fā)明實施例中,各單元可由相應(yīng)的硬件或軟件單元實現(xiàn),各單元可以為獨立 的軟、硬件單元,也可以集成為一個軟、硬件單元,在此不用以限制本發(fā)明。
[0085] 以上所述僅為本發(fā)明的較佳實施例而已,并不用以限制本發(fā)明,凡在本發(fā)明的精 神和原則之內(nèi)所作的任何修改、等同替換和改進等,均應(yīng)包含在本發(fā)明的保護范圍之內(nèi)。
【主權(quán)項】
1. 一種問句分類方法,其特征在于,所述方法包括下述步驟: 對輸入的問句進行分詞,得到分詞結(jié)果的特征向量; 根據(jù)領(lǐng)域詞典,查找特征向量中的屬于所述領(lǐng)域詞典中的詞語; 計算所述特征向量中的屬于所述領(lǐng)域詞典中的詞語的權(quán)重值,確定問句分類結(jié)果。2. 如權(quán)利要求1所述的方法,其特征在于,所述對輸入的問句進行分詞,得到分詞結(jié)果 的特征向量的步驟,包括: 根據(jù)領(lǐng)域詞典,對輸入的問句進行分詞,得到分詞結(jié)果,所述分詞結(jié)果包括屬于所述領(lǐng) 域詞典的詞語; 根據(jù)所述分詞結(jié)果,得到特征向量,所述特征向量為分詞結(jié)果W向量形式表示的集合。3. 如權(quán)利要求1所述的方法,其特征在于,所述方法還包括: 獲取語料庫中的文本文檔,構(gòu)建領(lǐng)域詞典。4. 如權(quán)利要求3所述的方法,其特征在于,獲取語料庫中的文本文檔,構(gòu)建領(lǐng)域詞典的 步驟,包括: 對語料庫中的文本文檔進行切分,得到切分文檔,所述切分文檔為切分單元的集合,所 述切分單元包括單字詞、雙字詞、多字詞及語素詞; 對所述切分文檔中的組合模式進行匹配,得到匹配成功的組合模式W及組合頻度,所 述組合模式為任意兩個或兩個W上的連續(xù)的切分單元的組合;所述組合頻度為組合模式在 所述切分文檔中出現(xiàn)的次數(shù); 根據(jù)預(yù)設(shè)規(guī)則,對所述匹配成功的組合模式進行篩選,形成領(lǐng)域詞典。5. 如權(quán)利要求1所述的方法,其特征在于,所述計算所述特征向量中的屬于所述領(lǐng)域詞 典中的詞語的權(quán)重值的公式為= X2-IDF,其中,)c2統(tǒng)計量是衡量一詞語與一類別的相關(guān)度,,I D I為文本文檔總數(shù),DF(W)為所有文本文檔中出現(xiàn)詞語W的文本文檔的 數(shù)量。6. 如權(quán)利要求5所述的方法,其特征在于,所述^統(tǒng)計量的計算公式為:,其中,W為詞語,Cj為文本文檔類別,N為全部文本 文檔的數(shù)量,N=A+化C+D,A為Cj文本文檔中包含詞語W的文本文檔的數(shù)量,B為除Cj文本文檔 外包含詞語W的文本文檔的數(shù)量,C為Cj文本文檔中不包含詞語W的文本文檔的數(shù)量,D為全 部文本文檔中不包含詞語W且不屬于Cj文本文檔的文本文檔的數(shù)量。7. -種問句分類系統(tǒng),其特征在于,所述系統(tǒng)包括: 特征向量獲取單元,用于對輸入的問句進行分詞,得到分詞結(jié)果的特征向量; 查找單元,用于根據(jù)領(lǐng)域詞典,查找特征向量中的屬于所述領(lǐng)域詞典中的詞語;W及 分類單元,用于計算所述特征向量中的屬于所述領(lǐng)域詞典中的詞語的權(quán)重值,確定問 句分類結(jié)果。8. 如權(quán)利要求7所述的系統(tǒng),其特征在于,所述特征向量獲取單元包括: 分詞單元,用于根據(jù)領(lǐng)域詞典,對輸入的問句進行分詞,得到分詞結(jié)果,所述分詞結(jié)果 包括屬于所述領(lǐng)域詞典的詞語; 特征向量子單元,用于根據(jù)所述分詞結(jié)果,得到特征向量,所述為分詞結(jié)果W向量形式 表示的集合。9. 如權(quán)利要求7所述的系統(tǒng),其特征在于,所述系統(tǒng)還包括: 領(lǐng)域詞典構(gòu)建單元,用于獲取語料庫中的文本文檔,構(gòu)建領(lǐng)域詞典。10. 如權(quán)利要求9所述的系統(tǒng),其特征在于,所述領(lǐng)域詞典構(gòu)建單元包括: 切分單元,用于對語料庫中的文本文檔進行切分,得到切分文檔,所述切分文檔為切分 單元的集合,所述切分單元包括單字詞、雙字詞、多字詞及語素詞; 匹配單元,用于對所述切分文檔中的組合模式進行匹配,得到匹配成功的組合模式W 及組合頻度,所述組合模式為任意兩個或兩個W上的連續(xù)的切分單元的組合;所述組合頻 度為組合模式在所述切分文檔中出現(xiàn)的次數(shù); 篩選單元,用于根據(jù)預(yù)設(shè)規(guī)則,對所述匹配成功的組合模式進行篩選,形成領(lǐng)域詞典。
【文檔編號】G06F17/27GK105912528SQ201610241183
【公開日】2016年8月31日
【申請日】2016年4月18日
【發(fā)明人】李堅強, 尹京偉, 李賽玲, 明仲
【申請人】深圳大學(xué)