專利名稱:一種傾向性文本自動(dòng)分類系統(tǒng)及其實(shí)現(xiàn)方法
技術(shù)領(lǐng)域:
本發(fā)明涉及自然語言處理技術(shù)領(lǐng)域、文本數(shù)據(jù)挖掘、文本自動(dòng)化分類技術(shù)領(lǐng)域,特別是涉及一種傾向性文本自動(dòng)化分類系統(tǒng),具體地說涉及一種基于句法和依存關(guān)系的傾向性文本自動(dòng)化分類系統(tǒng)。
背景技術(shù):
對文本數(shù)據(jù)進(jìn)行自動(dòng)化分類是文本數(shù)據(jù)挖掘、自然語言處理等人工智能技術(shù)的重要應(yīng)用領(lǐng)域,其主要功能是把以數(shù)字化形式存儲(chǔ)的非結(jié)構(gòu)化文本數(shù)據(jù),通過自然語言處理技術(shù)、文本數(shù)據(jù)挖掘技術(shù),自動(dòng)按照事先組織好的與具體業(yè)務(wù)相關(guān)的類別進(jìn)行分類。隨著信息技術(shù)的不斷發(fā)展和信息系統(tǒng)應(yīng)用范圍的不斷深化,對文本數(shù)據(jù)進(jìn)行自動(dòng)化分類是提高企 業(yè)生產(chǎn)效率和競爭優(yōu)勢的重要技術(shù)措施。傾向性文本又稱情感文本,是與主要陳述事實(shí)的客觀性文本相對應(yīng)的主要表達(dá)意見或情感的主觀性文本。傾向性文本自動(dòng)化分類系統(tǒng)是對文本數(shù)據(jù)中的情感進(jìn)行多層級(jí)的細(xì)致分類,挖掘文本潛在的情感表達(dá),進(jìn)而發(fā)掘用戶的興趣與需求,對企業(yè)未來的發(fā)展提供決策依據(jù)具有很重要的意義。更具體的,對于需要處理大量文本數(shù)據(jù)的行業(yè)而言,隨著各類數(shù)字化業(yè)務(wù)的開拓,需求將不斷增強(qiáng),伴隨而來的是傳統(tǒng)的人工處理方式勞動(dòng)強(qiáng)度的增加,如何在海量的資料中挖掘用戶對產(chǎn)品的情緒,發(fā)掘用戶的興趣與需求都是大數(shù)據(jù)處理行業(yè)面對的直接挑戰(zhàn)。因此尋找一條科學(xué)的傾向性文本自動(dòng)分類方法,在最大程度上減輕數(shù)據(jù)處理人員的壓力與提高服務(wù)質(zhì)量是一個(gè)迫切的任務(wù)。
發(fā)明內(nèi)容
本發(fā)明的目的在于提供一種能夠?qū)A向性文本進(jìn)行多層級(jí)的細(xì)致的自動(dòng)化分類系統(tǒng)及其實(shí)現(xiàn)方法,并使用戶能對業(yè)務(wù)相關(guān)知識(shí)進(jìn)行管理,根據(jù)具體業(yè)務(wù)調(diào)整分類結(jié)果。為實(shí)現(xiàn)上述發(fā)明目的,本發(fā)明提供的一種傾向性文本自動(dòng)分類系統(tǒng)及其實(shí)現(xiàn)方法,包括依存關(guān)系分析模塊,用于對中文句子進(jìn)行依存關(guān)系分析;中文分詞模塊,用于對中文句子進(jìn)行分詞;句法分析模塊,用于對分詞后的中文句子進(jìn)行句法分析;多層級(jí)情感分類句模庫,用于對與業(yè)務(wù)相關(guān)知識(shí)進(jìn)行管理;其特征在于多層級(jí)情感分類句模庫分為態(tài)度文法、感受文法和思想文法三大類120個(gè)小類,根據(jù)漢語使用規(guī)則和業(yè)務(wù)相關(guān)知識(shí)手工整理而成;對多層級(jí)情感分類句模庫中所有句模進(jìn)行句法分析,建立句法樹庫;對多層級(jí)情感分類句模庫中所有句模進(jìn)行依存關(guān)系分析,建立依存關(guān)系圖庫;對待分類句子進(jìn)行中文分詞和句法分析,將句法分析的結(jié)果與句法樹庫中候選分類下的每個(gè)句模的句法樹進(jìn)行匹配,按照相關(guān)算法依次計(jì)算每個(gè)句模的句法樹與待分類句子對應(yīng)的句法樹的匹配程度得分;對待分類句子進(jìn)行依存關(guān)系分析,將依存關(guān)系分析的結(jié)果與依存關(guān)系圖庫中候選分類下的每個(gè)句模的依存關(guān)系圖進(jìn)行匹配,并按照相關(guān)算法依次計(jì)算每個(gè)句模對應(yīng)的依存關(guān)系圖與待分類句子對應(yīng)的依存關(guān)系圖的匹配程度得分;每個(gè)句模的兩次得分相加為該句模與待分類句子匹配程度的總得分,總得分最高的句模所屬的分類為最終分類結(jié)果。上述的多層級(jí)情感分類句模庫要對其中的句模進(jìn)行依存關(guān)系分析,建立依存關(guān)系圖庫。上述的多層級(jí)情感分類句模庫要為其中的句模進(jìn)行句法分析,建立句法樹庫。本發(fā)明相比現(xiàn)有技術(shù)突出的優(yōu)點(diǎn)是 本發(fā)明采用基于統(tǒng)計(jì)的方法和基于規(guī)則的方法相結(jié)合的方法,提高傾向性文本自動(dòng)分類的準(zhǔn)確性和靈敏度?;诮y(tǒng)計(jì)的方法是指本發(fā)明采用的分詞模塊和句法分析模塊分別使用美國斯坦福大學(xué)自然語言處理小組推出的中文分詞器和句 法分析器;本發(fā)明采用的依存關(guān)系分析模塊使用哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心推出的語言技術(shù)平臺(tái)。這三個(gè)軟件都采用了多種基于統(tǒng)計(jì)的機(jī)器學(xué)習(xí)算法對句子進(jìn)行分析?;谝?guī)則的方法是指多層級(jí)情感分類句模庫根據(jù)漢語使用規(guī)則和業(yè)務(wù)相關(guān)知識(shí)手工整理而成。本發(fā)明的分類算法是對待分類句子進(jìn)行分析后與句模庫進(jìn)行匹配,故本發(fā)明不需要使用任何測試語料,對單個(gè)句子只要能與句模庫匹配就能準(zhǔn)確分類。
圖I是本發(fā)明的一個(gè)實(shí)施例的軟件操作界面顯示圖;圖2是本發(fā)明的一個(gè)實(shí)施例的句法分析模塊可視化結(jié)果示意圖;圖3是本發(fā)明的一個(gè)實(shí)施例的依存關(guān)系模塊可視化結(jié)果示意圖;圖4是本發(fā)明的一個(gè)實(shí)施例的多層級(jí)情感分類句模庫層次結(jié)構(gòu)示意圖;圖5是本發(fā)明的一種傾向性文本自動(dòng)分類系統(tǒng)及其實(shí)現(xiàn)方法的基本模塊關(guān)系圖;圖6是本發(fā)明的一種傾向性文本自動(dòng)分類系統(tǒng)及其實(shí)現(xiàn)方法的分類算法流程圖。
具體實(shí)施例方式為了使本發(fā)明的目的、技術(shù)方案及優(yōu)點(diǎn)更加清楚明白,以下結(jié)合附圖從圖I至圖6及實(shí)施例,對本發(fā)明的一種傾向性文本自動(dòng)分類系統(tǒng)及其實(shí)現(xiàn)方法進(jìn)行進(jìn)一步詳細(xì)說明。應(yīng)當(dāng)理解,此處所描述的具體實(shí)施例僅僅用以解釋本發(fā)明,并不用于限制本發(fā)明。本發(fā)明的一種傾向性文本自動(dòng)分類系統(tǒng)及其實(shí)現(xiàn)方法,通過多層級(jí)情感分類句模庫提高系統(tǒng)對具體業(yè)務(wù)中的傾向性文本進(jìn)行多層級(jí)的細(xì)致的自動(dòng)化分類。本發(fā)明采用基于統(tǒng)計(jì)的方法和基于規(guī)則的方法相結(jié)合的方法,提高系統(tǒng)準(zhǔn)確性、反應(yīng)速度和容錯(cuò)性。下面以具體實(shí)施例對本發(fā)明作進(jìn)一步的描述,圖I是本發(fā)明的一個(gè)實(shí)施例的軟件操作界面顯示圖;圖2是本發(fā)明的一個(gè)實(shí)施例的句法分析模塊可視化結(jié)果顯示圖;圖3是本發(fā)明的一個(gè)實(shí)施例的依存關(guān)系模塊可視化結(jié)果顯示圖。具體實(shí)施步驟如下I、用戶在圖I所示軟件操作界面左上角輸入待分類句子,點(diǎn)擊右上角的“分詞”按鈕,系統(tǒng)會(huì)對句子進(jìn)行中文分詞,將分詞結(jié)果顯示在最下面的文本框中。2、用戶點(diǎn)擊圖I所示軟件操作界面右上角的“分類”按鈕,系統(tǒng)會(huì)對句子進(jìn)行自動(dòng)分類,將分類處理中間過程生成的句法樹和依存關(guān)系圖分別用文本和圖形的形式顯示在中間的文本框中,如圖2和圖3所示,將分類結(jié)果以及相應(yīng)得分顯示在最下面的文本框中,如圖I所示。3、用戶點(diǎn)擊圖I所示軟件操作界面右上角的“載入文件”按鈕,可以批量處理文本,文本格式為每個(gè)句子一行,處理結(jié)果存入數(shù)據(jù)庫。圖4是本發(fā)明的一個(gè)實(shí)施例的多層級(jí)情感分類句模庫層次結(jié)構(gòu)示意圖;本發(fā)明的一種傾向性文本自動(dòng)分類系統(tǒng)及其實(shí)現(xiàn)方法將多層級(jí)情感分類句模庫存儲(chǔ)在數(shù)據(jù)庫中,并為用戶提供了通過瀏覽器對句模庫中的各級(jí)分類、分類中的句模以及涉及的詞類進(jìn)行查看、增加、修改和刪除操作的功能。圖5是本發(fā)明的一種傾向性文本自動(dòng)分類系統(tǒng)及其實(shí)現(xiàn)方法的基本模塊關(guān)系圖。本發(fā)明采用模塊化設(shè)計(jì),主要包括依存關(guān)系分析模塊、中文分詞模塊、句法分析模塊和多層級(jí)情感分類句模庫。基本模塊之間的關(guān)系如圖5所示,其中句法樹庫是對多層級(jí)情感分類句模庫中所有句模進(jìn)行句法分析后生成的;依存關(guān)系圖庫是對多層級(jí)情感分類句模庫中所有句模進(jìn)行依存關(guān)系分析后生成的;分類算法使用句法分析模塊和依存關(guān)系分析模塊的分析結(jié)果;中文分詞模塊為句法分析模塊提供中文分詞功能。下面詳細(xì)介紹各個(gè)模塊的組成
(I)多層級(jí)情感分類句模庫將手工整理的句模分為3個(gè)大類,120個(gè)小類。句模的形式如〈感事X喜愛詞類X向事〉,其中“感事”和“向事”分別是一種語義角色,“感事”表示感受的主體,“向事”表示感受施加的對象,“喜愛詞類”包括與喜愛相關(guān)的一組近義詞,例如熱愛、憐愛、心愛、鐘愛、惠愛、酷愛、疼、慈、向慕、老牛甜犢、喜愛、疼愛、喜好、喜歡、感興趣、有好感、愛慕、愛好、欣賞、希罕、好尚、好奇、愛等。我們將所有句模劃分為3個(gè)大類態(tài)度文法、感受文法和思想文法,態(tài)度文法分為證據(jù)類、反對類、輕視類、嚴(yán)格類等40多個(gè)二級(jí)分類,感受文法分類知道類、不知道類、喜愛類等50多個(gè)二級(jí)分類,思想文法分為希望類、主張類、想念類等10多個(gè)二級(jí)分類,二級(jí)分類下面還分有三級(jí)分類,如證據(jù)類下面分支持類I個(gè)三級(jí)分類,希望類下面分為希他類、希己類和目標(biāo)類3個(gè)三級(jí)分類等。對所有句模進(jìn)行句法分析和依存關(guān)系分析,生成對應(yīng)的句法樹庫和依存關(guān)系圖庫,用于對待分類句子進(jìn)行分類算法匹配。(2)分詞模塊此模塊采用美國斯坦福大學(xué)自然語言處理小組推出的中文分詞器進(jìn)行分詞。此分詞器采用條件隨機(jī)場模型,F(xiàn)-度量值達(dá)到95%,支持用戶自主添加新詞。(3)句法分析模塊此模塊采用美國斯坦福大學(xué)自然語言處理小組推出的句法分析器。此句法分析器是一個(gè)詞匯化的概率上下文無關(guān)語法分析器,可以將句子分析成句法樹。例如句子“我愛自然語言處理”通過該句法分析器分析之后的結(jié)果圖形化表示如圖2所示。圖中ROOT表示要處理文本的語句;IP表示簡單從句;NP表示名詞短語;VP表示動(dòng)詞短語;PU表示斷句符,通常是句號(hào)、問號(hào)、感嘆號(hào)等標(biāo)點(diǎn)符號(hào);PN表示代詞;VV表示動(dòng)詞;NN表示常用名詞。(4)依存關(guān)系分析模塊此模塊采用哈爾濱工業(yè)大學(xué)社會(huì)計(jì)算與信息檢索研究中心推出的語言技術(shù)平臺(tái)。語言技術(shù)平臺(tái)(Language Technology Platform, LTP)是哈工大社會(huì)計(jì)算與信息檢索研究中心歷時(shí)十年開發(fā)的一整套中文語言處理系統(tǒng)。LTP制定了基于XML的語言處理結(jié)果表示,并在此基礎(chǔ)上提供了一整套自底向上的豐富而且高效的中文語言處理模塊(包括詞法、句法、語義等6項(xiàng)中文處理核心技術(shù)),以及基于動(dòng)態(tài)鏈接庫(Dynamic Link Library, DLL)的應(yīng)用程序接口,可視化工具,并且能夠以網(wǎng)絡(luò)服務(wù)(WebService)的形式進(jìn)行使用。例如句子“我愛自然語言處理”通過LTP分析之后的結(jié)果圖形化表示如圖3所示。圖中HED表示句子的核心詞;SBV表示主謂關(guān)系;V0B表示動(dòng)賓關(guān)系;ATT表不定中關(guān)系。圖6是本發(fā)明的一種基于句法和語義的傾向性文本自動(dòng)分類系統(tǒng)的分類算法流程圖;進(jìn)一步地,參考圖6,基于上述一種傾向性文本自動(dòng)分類系統(tǒng)及其實(shí)現(xiàn)方法基本處理流程包括下列步驟(I)分析待分類句子中的特征詞,在多層級(jí)情感分類句模庫中找出包含這些特征詞的所有可能的分類即候選分類。(2)如果找不到候選分類,則將該句子手工加入多層級(jí)情感分類句模庫中;如果找到了候選分類,則執(zhí)行第3步。(3)提取候選分類包含的句模。(4)對第3步提取出的句模通過依存關(guān)系分析模塊,計(jì)算待分類句子與該句模的 依存關(guān)系圖匹配的得分。具體打分規(guī)則可根據(jù)具體業(yè)務(wù)不同調(diào)整,此實(shí)施例中的打分規(guī)則為核心詞匹配加4分,每個(gè)附屬詞匹配加I分,依存關(guān)系中每條邊匹配加2分。(5)對第3步提取出的句模通過句法分析模塊,計(jì)算待分類句子與該句模句法樹匹配的得分。具體打分規(guī)則可根據(jù)具體業(yè)務(wù)不同調(diào)整,此實(shí)施例中的打分規(guī)則為句法樹中每條邊匹配加2分。(6)將第4步的得分與第5步的得分相加,得到該句模與待分類句子匹配的總得分。(7)檢查候選分類中的句模是否提取完畢,如果沒有就執(zhí)行第3步;如果是,執(zhí)行第8步。(8)對每個(gè)候選分類中所有句模按總得分由高到低對候選分類進(jìn)行排序,排位最前的分類為最終分類結(jié)果,即為該待分類句子的分類結(jié)果,其它分類可作為參考結(jié)果。如果最終分類結(jié)果的總得分為0,則將此待分類句子手工添加到多層級(jí)情感分類句模庫中。通過結(jié)合附圖對本發(fā)明具體實(shí)施例的描述,本發(fā)明的其它方面及特征對本領(lǐng)域的技術(shù)人員而言是顯而易見的。上述內(nèi)容僅僅是為描述本發(fā)明而列舉的較佳實(shí)施例之一,并非依此限制本發(fā)明專利保護(hù)的范圍,一切不脫離本發(fā)明宗旨進(jìn)行的修改或者等同替換的技術(shù)方案及其改進(jìn),均不應(yīng)排除在本發(fā)明的權(quán)利要求的保護(hù)范圍之外。
權(quán)利要求
1.一種傾向性文本自動(dòng)分類系統(tǒng)及其實(shí)現(xiàn)方法,包括依存關(guān)系分析模塊、中文分詞模塊、句法分析模塊和多層級(jí)情感分類句模庫,其特征在于多層級(jí)情感分類句模庫分為態(tài)度文法、感受文法和思想文法三大類120個(gè)小類,根據(jù)漢語使用規(guī)則和業(yè)務(wù)相關(guān)知識(shí)手工整理而成。
2.根據(jù)權(quán)利要求I所述的一種傾向性文本自動(dòng)分類系統(tǒng)及其實(shí)現(xiàn)方法,其特征在于對所述的多層級(jí)情感分類句模庫中的句模進(jìn)行依存關(guān)系分析,建立依存關(guān)系圖庫。
3.根據(jù)權(quán)利要求I所述的一種傾向性文本自動(dòng)分類系統(tǒng)及其實(shí)現(xiàn)方法,其特征在于對所述的多層級(jí)情感分類句模庫中的句模進(jìn)行句法分析,建立句法樹庫。
4.根據(jù)權(quán)利要求I所述的一種傾向性文本自動(dòng)分類系統(tǒng)及其實(shí)現(xiàn)方法,其特征在于對待分類的句子進(jìn)行中文分詞和句法分析,將句法分析的結(jié)果與句法樹庫中候選分類下的每 個(gè)句模的句法樹進(jìn)行匹配,按照相關(guān)算法依次計(jì)算每個(gè)句模的句法樹與待分類句子對應(yīng)的句法樹的匹配程度得分。
5.根據(jù)權(quán)利要求I所述的一種傾向性文本自動(dòng)分類系統(tǒng)及其實(shí)現(xiàn)方法,其特征在于對待分類的句子進(jìn)行依存關(guān)系分析,將依存關(guān)系分析的結(jié)果與依存關(guān)系圖庫中候選分類下的每個(gè)句模的依存關(guān)系圖進(jìn)行匹配,并按照相關(guān)算法依次計(jì)算每個(gè)句模對應(yīng)的依存關(guān)系圖與待分類句子對應(yīng)的依存關(guān)系圖的匹配程度得分。
6.根據(jù)權(quán)利要求I所述的一種傾向性文本自動(dòng)分類系統(tǒng)及其實(shí)現(xiàn)方法,其特征在于將權(quán)利要求4計(jì)算的得分與權(quán)利要求5計(jì)算的得分相加每個(gè)句模的兩次得分相加為該句模與待分類句子匹配程度的總得分,總得分最高的句模所屬的分類為最終分類結(jié)果。
全文摘要
本發(fā)明提供一種傾向性文本自動(dòng)分類系統(tǒng)及其實(shí)現(xiàn)方法。涉及自然語言處理技術(shù)領(lǐng)域、文本數(shù)據(jù)挖掘、文本自動(dòng)化分類技術(shù)領(lǐng)域。該系統(tǒng)包括依存關(guān)系分析模塊,用于對中文句子進(jìn)行依存關(guān)系分析;中文分詞模塊,用于對中文句子進(jìn)行分詞;句法分析模塊,用于對分詞后的中文句子進(jìn)行句法分析;多層級(jí)情感分類句模庫,用于對與業(yè)務(wù)相關(guān)知識(shí)進(jìn)行管理;其特征在于多層級(jí)情感分類句模庫分為態(tài)度文法、感受文法和思想文法三大類120個(gè)小類,根據(jù)漢語使用規(guī)則和業(yè)務(wù)相關(guān)知識(shí)手工整理而成;對多層級(jí)情感分類句模庫中所有句模進(jìn)行句法分析,建立句法樹庫;對多層級(jí)情感分類句模庫中所有句模進(jìn)行依存關(guān)系分析,建立依存關(guān)系圖庫。
文檔編號(hào)G06F17/27GK102930042SQ20121045352
公開日2013年2月13日 申請日期2012年11月13日 優(yōu)先權(quán)日2012年11月13日
發(fā)明者吳明芬, 陳濤, 劉興林 申請人:五邑大學(xué)