本發(fā)明涉及信息提取、文本挖掘,并且特別地涉及用于對輸入文本進行處理和分類的方法和裝置。
背景技術(shù):
:在當今社會中,顧客關(guān)系管理(CustomerRelationshipManagement)是現(xiàn)代企業(yè)發(fā)展的重要環(huán)節(jié)。通過顧客關(guān)系管理,企業(yè)記錄、評價、響應(yīng)顧客的意見,從而提高產(chǎn)品或服務(wù)水平、維系顧客忠誠度。在顧客關(guān)系管理中,即時準確處理顧客的各種反饋意見是非常重要的。大量顧客通過熱線電話、網(wǎng)絡(luò)、email等各種不同途徑提出他們的反饋,而企業(yè)從這些反饋中得到顧客對產(chǎn)品的期望、好惡等。傳統(tǒng)做法是通過人工手動整理、挖掘這些信息,但很明顯,這樣做的缺點是成本高、效率低下,特別是當顧客反饋信息的數(shù)量是海量數(shù)據(jù)時。美國專利US8738363提出了一種基于預(yù)先設(shè)定的術(shù)語和模板的建議挖掘的方法。例如,對于輸入文本“請支持加墨”,該方法找到一條歷史文本“你們能提供續(xù)加墨粉的功能嗎”該方法從輸入文本中提取“支持”作為建議術(shù)語,提取“加”和“墨”作為企業(yè)術(shù)語。同時,該方法從歷史文本中提取“提供”作為建議術(shù)語,提取“續(xù)加”和“墨粉”作為企業(yè)術(shù)語。其中,“支持”和“提供”是相似的,“加”和“續(xù)加”是相似的,“墨”和“墨粉”是相似的。因此,該方法判斷輸入文本與歷史文本屬于同一類別。但是,該方法高度依賴于所提取的術(shù)語,因此文本挖掘的精度不夠高。有相似的術(shù)語的建議容易被分成相同的類別,而沒有相似的術(shù)語的建議容易被分成不同的類別。一方面,有相似的術(shù)語的文本的含義可能是不同的,而不應(yīng)被分 成相同的類別;另一方面,沒有相似的術(shù)語的文本的含義可能是相同的,而應(yīng)被分成相同的類別。例如,一條輸入文本是“請在公司官網(wǎng)上公布產(chǎn)品發(fā)布日期”,另一條歷史文本是“我想知道產(chǎn)品的發(fā)布日期”。因為這二者提取的關(guān)鍵字中都有“產(chǎn)品”、“發(fā)布”、“日期”這些相同的術(shù)語,因而被現(xiàn)有技術(shù)分成同一類別。但是,前者表達了用戶想在官網(wǎng)上方便地看到產(chǎn)品發(fā)布日期,而后者表達了用戶想知道產(chǎn)品發(fā)布日期是什么。對這兩條文本,需要企業(yè)采取的響應(yīng)措施是不同的,這兩條文本也不應(yīng)當屬于同一類別。因此,仍然存在著對新的文本挖掘的方法和裝置的需求,從而提高文本挖掘的精度。技術(shù)實現(xiàn)要素:本發(fā)明是鑒于上述問題中的至少一者而提出的。根據(jù)本發(fā)明的一個方面,提供了一種文本挖掘的方法,該方法包括:文本串接收步驟,用于接收輸入文本串;狀態(tài)對提取步驟,用于根據(jù)輸入文本串提取狀態(tài)對,該狀態(tài)對包括第一狀態(tài)和第二狀態(tài),第一狀態(tài)包含第一滿意度值和第一描述單元,第一滿意度值為滿意或不滿意,第一描述單元包含第一名詞和第一描述短語,其中,第一描述短語所描述的對象是第一名詞,第一描述短語包含第一形容詞或第一動詞,且第二狀態(tài)包含第二滿意度值和第二描述單元,第二滿意度值為滿意或不滿意,且第二滿意度值與第一滿意度值相反,第二描述單元包含第一名詞和第二描述短語,其中,第二描述短語所描述的對象是第一名詞,第二描述短語包含第二形容詞或第二動詞,且第二描述短語的含義與第一描述短語的含義相反;動作文本生成步驟,用于生成動作文本,動作文本描述了一個動作,該動作對應(yīng)第一狀態(tài)到第二狀態(tài)的狀態(tài)轉(zhuǎn)移,動作文本包含第三動詞和第三動詞的賓語。通過以下參照附圖對示例性實施例的描述,本發(fā)明的其他特征將變得清楚。鑒于上述內(nèi)容,本發(fā)明對輸入文本進行結(jié)構(gòu)化的分析和語義分 析,有效地提高了文本挖掘的精度。附圖說明并入說明書中并且構(gòu)成說明書的一部分的附圖示出了本發(fā)明的實施例,并且與描述一起用于說明本發(fā)明的原理。圖1是根據(jù)第一示例性系統(tǒng)配置的裝置的示意性框圖。圖2是文本挖掘單元的示例性硬件結(jié)構(gòu)的框圖。圖3示出了根據(jù)第一實施例的生成動作文本的一般流程圖。圖4示出了狀態(tài)對提取步驟的一個示例性實現(xiàn)。圖5例示了動作文本包含的四個屬性。圖6例示了一個匹配表的實例,匹配表包含多個狀態(tài)對的信息和多個動詞短語之間的匹配關(guān)系。圖7示出了動作文本生成步驟300的一個示例性流程圖。圖8示出了根據(jù)第二實施例的對文本串分類的一般流程圖。圖9示出了文本串分類步驟400的一個示例性流程圖。圖10示出了根據(jù)第三實施例的包含文本串預(yù)分類步驟的對文本串分類的一般流程圖。圖11示出了根據(jù)第三實施例的包含文本串預(yù)分類步驟的對文本串分類的一個示例性流程圖。圖12例示了對用戶建議的結(jié)構(gòu)化分類的一個實例。圖13例示了應(yīng)用本發(fā)明的方法對顧客意見分類的一個應(yīng)用的用戶界面。圖14是根據(jù)本發(fā)明的一個實施例的文本挖掘裝置的框圖。具體實施方式下面將參考附圖來詳細描述本發(fā)明的優(yōu)選的實施例。請注意,類似的參考數(shù)字和字母指的是圖中的類似的項目,因而一旦在一幅圖中定義了一個項目,就不需要在之后的圖中討論了。在本公開中,術(shù)語“第一”、“第二”等僅僅被用來在元件或步驟之間 進行區(qū)分,而并不意圖表示時間順序、優(yōu)先級或重要性。應(yīng)當指出,以下的描述實質(zhì)上僅是說明性和示例性的,并且決不旨在限定本發(fā)明及其應(yīng)用或用途。在實施例中陳述的部件和步驟、數(shù)值表達式以及數(shù)值的相對布置并不限定本發(fā)明的范圍,除非另外特別說明。(計算機系統(tǒng)的硬件配置)圖1是根據(jù)第一示例性系統(tǒng)配置的裝置的框圖。裝置100包括用戶界面(UI)單元110、語音文本轉(zhuǎn)換單元120、文本挖掘單元130以及網(wǎng)絡(luò)接口140。裝置100可以是臺式機、筆記本電腦、工業(yè)用計算機或其他具有計算能力的裝置。裝置100中的部件單元經(jīng)由總線10相互通信。UI單元110包含顯示器,向用戶顯示諸如狀態(tài)和處理進度的各種信息。UI單元110還包括鍵盤或觸敏屏來輸入命令、或?qū)ρb置100進行控制。語音文本轉(zhuǎn)換單元120是可選的。單元120使得裝置100能在原始數(shù)據(jù)是音頻數(shù)據(jù)時,進行文本挖掘。單元120獲取輸入的語音數(shù)據(jù),并通過連續(xù)語音識別模塊,將輸入語音轉(zhuǎn)換為輸入文本,并將輸入文本送給單元130處理。如果原始數(shù)據(jù)是文本數(shù)據(jù),則輸入文本將直接被送給單元130處理。網(wǎng)絡(luò)接口140用來與網(wǎng)絡(luò)通信,可以從網(wǎng)絡(luò)獲得原始數(shù)據(jù),也可將文本挖掘的結(jié)果上傳網(wǎng)絡(luò),還可以從網(wǎng)絡(luò)獲得文本挖掘所需要的訓(xùn)練數(shù)據(jù)等。圖2是文本挖掘單元130的示例性硬件結(jié)構(gòu)的框圖。處理器131通過將存儲在硬盤驅(qū)動器(HDD)133中的程序加載到存儲器132上,來控制裝置100的總體操作。此外,處理器131經(jīng)由總線10與文本挖掘單元130中的其他部件通信。處理器131還被配置為根據(jù)本發(fā)明的方法來讀取、解碼并執(zhí)行全部步驟。處理器131利用系統(tǒng)總線10將文本挖掘的結(jié)果記錄到存儲器132中。除了存儲器132之外,字符識別結(jié)果也可以被更永久地存儲在HDD133上,或通過網(wǎng)絡(luò)接口140上傳到網(wǎng)絡(luò)。在下文中,將參照第一實施例和附圖,詳細描述從輸入文本中 挖掘響應(yīng)動作的方法。(第一實施例)顧客的反饋、抱怨或建議的核心價值在于,企業(yè)可據(jù)此采取措施改進產(chǎn)品、服務(wù)、過程等。響應(yīng)于顧客反饋或輸入文本的內(nèi)容,而得到的采取的措施或行動等,被稱為動作。本發(fā)明的第一實施例提供了一種從輸入文本中挖掘響應(yīng)動作的方法。該方法能自動地、批量地處理顧客反饋或輸入文本。現(xiàn)有技術(shù)中在處理輸入文本時,是基于文本中的術(shù)語或詞語的,這種處理是扁平化的,而沒有對輸入文本的整體進行結(jié)構(gòu)化的、或語義級別的分析。而本發(fā)明提供了一種對輸入文本串結(jié)構(gòu)化的分析處理的方法。參見圖3,圖3示出了根據(jù)第一實施例的生成動作文本的一般流程圖。人們的反饋常常是帶有個人情感地表達自己的意見所形成的文本內(nèi)容,能反映表達者的不滿。而從這些不滿和抱怨中,企業(yè)可以找到改進點,使得不滿和抱怨轉(zhuǎn)化為滿意。即,改進動作對應(yīng)著從不滿意狀態(tài)到滿意狀態(tài)的轉(zhuǎn)移。步驟100,文本串接收步驟,用于接收輸入文本串。表1例示了輸入文本串以及所提取的狀態(tài)對。表1表1例舉了2個輸入文本串。“打印機太貴了”?!斑@款打印機不支持自動裁紙”。步驟200,狀態(tài)對提取步驟,用于根據(jù)輸入文本串提取狀態(tài)對。表1的第3至8列例示了狀態(tài)對的結(jié)構(gòu)。如表1所示,每條輸入文本 對應(yīng)著一個狀態(tài)對,該狀態(tài)對包括第一狀態(tài)和第二狀態(tài)。第一狀態(tài)包含第一滿意度值和第一描述單元,第一滿意度值為滿意或不滿意。例如,對表1中的第一條文本串“打印機太貴了”采用意見挖掘技術(shù)(opinionmining)挖掘顧客對產(chǎn)品的評價是正面的還是負面的,得到第一滿意度值,為不滿意,在表1中用“否”表示。對表1中的第二條文本串“這款打印機不支持自動裁紙”采用意見挖掘技術(shù)得到第一滿意度值,為不滿意,在表1中用“否”表示。第一描述單元包含第一名詞和第一描述短語,其中,第一描述短語所描述的對象是第一名詞,第一描述短語包含第一形容詞或第一動詞。例如,第一條文本串的第一名詞是“打印機”。第一描述短語包含了第一形容詞“貴”,其描述的對象是第一名詞“打印機”。第二條文本串的第一名詞是“打印機”。第一描述短語為“不支持自動裁紙”,其包含了第一動詞“不支持”,其描述的對象是第一名詞“打印機”。第二狀態(tài)包含第二滿意度值和第二描述單元,第二滿意度值為滿意或不滿意,且第二滿意度值與第一滿意度值相反。例如,第一條文本串的第二滿意度值“滿意”與第一滿意度值“不滿意”相反,在表1中用“是”表示。類似的,第二條文本串的第二滿意度值是“滿意”。需要注意的是,很多二值化的數(shù)值、文本或符號都能表示第一滿意度值和第二滿意度值的取值。例如,以下取值對兒分別表示含義相反的第一滿意度值和第二滿意度值:“1”和“-1”;“0”和“1”;“好”和“不好”;“正”和“負”;“Y”和“N”。第二描述單元包含第一名詞和第二描述短語,其中,第二描述短語所描述的對象是第一名詞,第二描述短語包含第二形容詞或第二動詞,且第二描述短語的含義與第一描述短語的含義相反。例如,第一條文本串的第二描述短語“便宜”包含了第二形容詞“便宜”,其描述的對象是第一名詞“打印機”,且第二描述短語“便宜”與第一描述短語“貴”的含義相反。第二條文本串的第二描述短語為“支持自動裁紙”,其包含了第二動詞“支持”,其描述的對象是第一名詞“打印機”,且第二描述短語“支持自動裁紙”與第一描述短語“不支持自動裁紙”的含義相反。需要注意的是,本發(fā)明中的短語有多種形式,可以是一個字,或一個詞,或一個詞組,或一組連續(xù)出現(xiàn)的字和/或詞和/或詞組。例如表1中的“貴”、“便宜”、“不支持自動裁紙”等。有多種方法可以從輸入文本中提取狀態(tài)對。圖4示出了狀態(tài)對提取步驟200的一個示例性實現(xiàn)。步驟210,從輸入文本串提取名詞,作為第一狀態(tài)的第一名詞。所提取的名詞是輸入文本串所描述或評價的對象。提取方法可使用現(xiàn)有技術(shù),例如基于詞性規(guī)則、句法規(guī)則、或基于詞序列模板等方法提取所描述或評價的對象,作為第一狀態(tài)的第一名詞。對于表1的第一條文本串和第二條文本串,分別提取“打印機”作為第一狀態(tài)和第二狀態(tài)的第一名詞。對于表1的第一條文本串,用傳統(tǒng)的信息提取(InformationExtraction)技術(shù),可提取出“貴”作為第一狀態(tài)的第一描述短語。需要注意的是,第一描述短語的取值不是唯一的。例如,第一條文本串 的第一描述短語還可以是“太貴”或“太貴了”。以上三種第一描述短語的取值都包含了形容詞“貴”,都是對第一名詞“打印機”的描述或評價。這樣,“打印機”和“貴”組成了第一條文本串的第一描述單元,是第一條文本串的核心內(nèi)容。對于表1的第二條文本串,采用信息提取技術(shù)得到“不支持自動裁紙”作為第一狀態(tài)的第一描述短語,其包含了動詞“不支持”。第一描述短語“不支持自動裁紙”是對第一名詞“打印機”的描述或評價。這樣,“打印機”和“不支持自動裁紙”組成了第二條文本串的第一描述單元,是第二條文本串的核心內(nèi)容。步驟220,根據(jù)輸入文本串得到第一狀態(tài)的滿意度值。采用傳統(tǒng)的意見挖掘(OpinionMining)技術(shù),可得到一個二值化的值,來表示用戶的滿意度值。例如,可通過一個極性詞典(PolarityVocabulary)來得到這個滿意度值。詞典中的詞帶有或正或負的極性,這個極性反映了滿意度。例如,詞典中的“貴”,其極性為負,表示不滿意;又如,“不支持”,其極性為負,表示不滿意。當輸入文本中出現(xiàn)極性詞典中的詞語時,根據(jù)該出現(xiàn)的詞語在詞典中的極性,判斷輸入文本所表征的用戶滿意度值。因此表1中的兩條輸入文本串,其第一狀態(tài)的滿意度值均為“否“。此外,步驟220得到的二值化的值可以有多種表達形式,可以用“是”、“Y”、“1”“或““滿意”表示用戶滿意的狀態(tài),并用“否”、“N”、“0”或“不滿意”表示用戶不滿意或抱怨的狀態(tài)。在本發(fā)明中,具體采用什么形式的一對兒二值化的值來表達一對兒含義相反的滿意度值是不受限制的。步驟230,對第一狀態(tài)的滿意度值求相反值,得到第二狀態(tài)的滿意度值。對于表1中的兩條輸入文本串,分別對第一狀態(tài)的滿意度值“否“求相反值,分別得到第二狀態(tài)的滿意度值”是“。步驟240,對第一狀態(tài)的第一描述短語中的第一形容詞或第一動詞求反義詞,得到第二狀態(tài)的第二描述短語。例如,對第一文本串的第一描述短語“貴”中的第一形容詞“貴”求反義詞,得到第二形容詞“便宜”。為了得到第二描述短語,第一描述短語中的其他部分不變,因此第二描述短語是“便宜”。對第二文本串的第一描述短語“不支持自動裁紙”中的第一動詞“不支持”求反義詞,得到第二動詞“支持”。為了得到第二描述短語,第一描述短語中的其他部分不變,因此第二描述短語是“支持自動裁紙”。通過直接對第一描述短語中的第一形容詞或第一動詞求反義詞來得到第二狀態(tài)的第二描述短語,計算方法直接、簡便?;氐綀D3,步驟300,動作文本生成步驟,用于生成動作文本,動作文本描述了一個動作,該動作對應(yīng)第一狀態(tài)到第二狀態(tài)的狀態(tài)轉(zhuǎn)移,動作文本包含第三動詞和第三動詞的賓語。例如,對于表1的第一條文本串,步驟300生成了動作文本“降低價格”,其中第三動詞是“降低”,第三動詞的賓語是“價格”。而且“降低價格”所描述的動作對應(yīng)從第一狀態(tài)到第二狀態(tài)的狀態(tài)轉(zhuǎn)移,即從第一滿意度值為“不滿意”到第二滿意度值“滿意”的轉(zhuǎn)移,以及從第一描述單元“打印機”“和“貴”,到第二描述單元“打印機”和“便宜”,的轉(zhuǎn)移。對于表1的第二條文本串,步驟300生成了動作文本“增加自動裁紙功能”,或“增加自動裁紙”,其中第三動詞是“增加“,第三動詞的賓語是“自動裁 紙功能”或“自動裁紙”。該動作文本所描述的動作對應(yīng)從第一狀態(tài)到第二狀態(tài)的轉(zhuǎn)移,并且該動作能達到將”不支持自動裁紙”轉(zhuǎn)變?yōu)椤爸С肿詣硬眉垺钡男Ч?。當?shù)谝粻顟B(tài)為不滿意時,該動作對應(yīng)著不滿意到滿意的狀態(tài)轉(zhuǎn)移。這是大多數(shù)顧客反饋信息處理系統(tǒng)的目的,通過從不滿意到滿意的狀態(tài)轉(zhuǎn)移,來生成用于響應(yīng)的動作,從而達到改進產(chǎn)品、服務(wù)、或過程等目的。當然,本發(fā)明的方法也可以處理第一狀態(tài)為滿意的情況,這時生成的動作文本所描述的動作對應(yīng)著滿意到不滿意的狀態(tài)轉(zhuǎn)移。優(yōu)選地,為了描述對輸入文本串所做出的響應(yīng)動作,本發(fā)明提供了一種結(jié)構(gòu)化的框架,該框架中,動作文本包含以下4個屬性:執(zhí)行方屬性,產(chǎn)品或服務(wù)屬性,操作屬性,對象屬性。其中,執(zhí)行方屬性表示動作的執(zhí)行方,產(chǎn)品或服務(wù)屬性表示動作所涉及的產(chǎn)品或服務(wù),操作屬性表示動作的具體操作,對象屬性表示動作所操作的對象。其中,該操作屬性對應(yīng)圖3中的步驟300所生成的動作文本中的第三動詞,該對象屬性對應(yīng)該第三動詞的賓語。這個框架把要生成的動作文本進行了結(jié)構(gòu)化和標準化處理。動作文本包含的這4個核心屬性能準確、完整、標準化地描述一個動作。圖5例示了動作文本包含的4個屬性,以及每個屬性的一些可能的取值。如圖5所示,執(zhí)行方屬性表示動作的執(zhí)行方,例如是維修中心、產(chǎn)品部門、部門3或部門4等。產(chǎn)品或服務(wù)屬性表示動作所涉及的產(chǎn)品或服務(wù),例如是照相機、打印機、官方網(wǎng)站、或服務(wù)等。操作屬性表示動作的具體操作,例如是提高、降低、支持、或提供等。對象屬性表示動作所操作的對象,例如是產(chǎn)品信息、價格、功能、或服 務(wù)信息等。以表1的第1條數(shù)據(jù)為例,如果所生成的動作僅是“降低價格”,就不完整。但如果動作的描述采用了上述結(jié)構(gòu)化的框架,則會生成更加準確、完整的動作文本,即執(zhí)行方屬性——市場部門,產(chǎn)品或服務(wù)屬性——打印機,操作屬性——降低,對象屬性——價格。以表1的第2條數(shù)據(jù)為例,如果所生成的動作僅是“增加自動裁紙功能”,就不完整。但如果動作的描述采用了上述結(jié)構(gòu)化的框架,則會生成更加準確、完整的動作,即執(zhí)行方屬性——產(chǎn)品部門,產(chǎn)品或服務(wù)屬性——打印機,操作屬性——增加,對象屬性——自動裁紙功能。下面將介紹步驟300動作文本生成步驟的多種實現(xiàn)方法。根據(jù)第一實例,動作文本生成步驟包括:根據(jù)狀態(tài)對提取步驟得到的狀態(tài)對,在匹配表中搜索,得到一個動詞短語,所述動詞短語包括動詞和該動詞的賓語,并將該動詞作為動作文本的操作屬性,將該動詞的賓語作為動作文本的對象屬性,其中,匹配表包含多個狀態(tài)對的信息,多個動詞短語,以及所述多個狀態(tài)對的信息和所述多個動詞短語之間的匹配關(guān)系。圖6例示了一個匹配表的實例,匹配表包含多個狀態(tài)對的信息和多個動詞短語之間的匹配關(guān)系。圖6的第2列例示了從第一狀態(tài)到第二狀態(tài)的狀態(tài)轉(zhuǎn)移,第3列例示了所對應(yīng)的表示動作的動詞短語。對于第1條數(shù)據(jù),從“貴”到“便宜”的狀態(tài)轉(zhuǎn)移,對應(yīng)動詞“降低”作為動作的操作屬性,動詞的賓語“價格”作為動作文本的對象屬性。第2至第4條數(shù)據(jù)的解釋也依此類推。匹配表提供了狀態(tài)對與動作之間的匹配關(guān)系。在文本挖掘的過程中,一旦提取了狀態(tài)對,就可以方便、快速地在匹配表中查詢,得到與狀態(tài)對相對應(yīng)的動作。需要注意的是,雖然圖6例示的匹配表是一對一的關(guān)系,但這種一對一的結(jié)構(gòu)不是必須的??梢岳斫猓ヅ浔砜梢允嵌鄠€狀態(tài)轉(zhuǎn)移對應(yīng)同一個動詞短語,即不同的文本串可能有不同的表達方式,所提取的狀態(tài)對也可能是不同的,但相應(yīng)的改進動作可能是相同的。另外,匹配表也可以為一個狀態(tài)轉(zhuǎn)移對應(yīng)多個動詞短語,就是說,一條文本串或顧客的一條反饋意見,可能對應(yīng)多個或多種改進動作。以上的第一實例是通過查找匹配表,得到動作。下文的第二實例是通過對歷史動作進行驗證,從中選擇能完成狀態(tài)轉(zhuǎn)移的動作。根據(jù)第二實例,動作生成步驟包括:獲取多個歷史動作文本,從中選擇第一狀態(tài)到第二狀態(tài)的狀態(tài)轉(zhuǎn)移所對應(yīng)的一個歷史動作文本,作為所生成的當前動作文本。圖7示出了動作文本生成步驟300的一個示例性流程圖。步驟310,獲取T個歷史動作文本,其中,T是正整數(shù)。步驟320,給計數(shù)器t賦予初值1。步驟330,驗證第t個動作文本是否對應(yīng)從第一狀態(tài)到第二狀態(tài)的狀態(tài)轉(zhuǎn)移。如果是,則執(zhí)行步驟340,將第t個動作文本作為所生成的當前動作文本。如果否,則執(zhí)行步驟350,使t自增1。步驟360,判斷t是否已超過了歷史動作文本的總數(shù)。如果是,則結(jié)束;如果否,則返回步驟330進行驗證。在本方法的一種實現(xiàn)中,提供了一個歷史動作文本與狀態(tài)轉(zhuǎn)移的實例庫,該實例庫中具有多個歷史動作文本與多個狀態(tài)轉(zhuǎn)移之間的對應(yīng)關(guān)系。步驟330在該實例庫 中檢索并判斷第t個動作文本是否對應(yīng)從第一狀態(tài)到第二狀態(tài)的狀態(tài)轉(zhuǎn)移。請注意,歷史動作文本的排序有多種方案。如果期望的生成動作文本在所有歷史動作文本中有一個很大的順序編號t,這意味著驗證的次數(shù)會很多。因此效率高的排序是,期望的生成動作文本在所有歷史動作文本中有一個比較小的順序編號t??梢园礆v史動作文本的生成的先后順序?qū)v史動作文本排序。優(yōu)選地,也可以按照歷史動作文本被生成的次數(shù),即歷史動作文本在過去被生成的頻率排序。這樣做的考慮是,某個動作文本在過去被生成的次數(shù)越頻繁,當下也越可能是應(yīng)當生成的動作文本,就應(yīng)當越早進行驗證,減少計算量。反之,過去很少被采取的動作,當下是應(yīng)當生成的動作文本的概率也比較低??梢岳斫猓貏e對于已經(jīng)推向市場多年(例如是三年)的產(chǎn)品或服務(wù),顧客三年后所反映的問題及對應(yīng)的動作大多數(shù)是三年前已經(jīng)出現(xiàn)過的,并且三年后的問題和動作基本上符合三年前的問題和動作的總體規(guī)律。請注意,T個歷史動作文本的選取也有多種方法??梢园褦?shù)據(jù)庫中的所有歷史動作文本用來驗證,也可以根據(jù)輸入文本的信息源只選取一部分歷史動作文本進行驗證,判斷是否是當前應(yīng)當生成的動作文本。例如,顧客打電話反饋意見的情況,可以選擇當前輸入文本串的呼入號碼所關(guān)聯(lián)的所有歷史動作文本,而其他呼入號碼關(guān)聯(lián)的歷史動作文本則不考慮??梢岳斫猓活櫩偷姆答佉庖姵3>哂邢嚓P(guān)性,或可能就同一問題反復(fù)咨詢。這種實現(xiàn)對可能性高的歷史動作文本優(yōu)先判斷,提高了計算效率。在實際實施中,可以根據(jù)不同的輸入文本串采取不同的動作文本生成的方法,以達到計算效率最大化的目的。例如,如果輸入文本所涉及的產(chǎn)品類型是新推向市場的產(chǎn)品,這時采用第一實例的方法,即基于匹配表的動作生成方法;而如果輸入文本所涉及的產(chǎn)品類型是推向市場多年的產(chǎn)品,就采用第二實例的方法,即基于驗證的動作生成方法。根據(jù)第三實例,動作文本生成步驟包括:候選動詞短語生成步驟,用于根據(jù)所述狀態(tài)對提取步驟得到的狀態(tài)對,得到多個候選動詞短語,所述多個候選動詞短語中的每一個包括動詞和該動詞的賓語;共現(xiàn)判斷步驟,用于根據(jù)所述狀態(tài)對的信息與所述多個候選動詞短語在同一文章中的同時出現(xiàn)的次數(shù)、同時出現(xiàn)時的距離,分別對所述多個候選動詞短語打分,將得分最高者所包括的動詞作為動作文本的操作屬性,將得分最高者所包括的動詞的賓語作為動作文本的對象屬性。優(yōu)選地,對于共現(xiàn)次數(shù)越高的、或共現(xiàn)時的距離越近的候選動詞短語的打分就越高。共現(xiàn)時的距離可以用字符數(shù)為計算單位,可以用行數(shù)為計算單位,還可以用段落數(shù)為計算單位。下面將簡要說明動作的另外兩個屬性的生成方法,即如何生成動作文本的執(zhí)行方屬性以及動作文本的服務(wù)或產(chǎn)品屬性。一種生成動作文本的執(zhí)行方屬性的方法是,根據(jù)所述輸入文本串中所包括的詞,在責任列表中搜索,得到至少一個責任方,并從中選擇一個責任方,作為動作文本的執(zhí)行方屬性,其中,所述責任列表包含多個詞,多個責任方,以及所述多個詞和所述多個責任方之間的匹配關(guān)系。表2序號關(guān)鍵詞或短語責任方1貴市場部門2打印機產(chǎn)品部門,市場部門3網(wǎng)站公關(guān)部門通過分析輸入文本中的詞或短語是否對應(yīng)著責任列表中的責任方,來判斷該條輸入文本串的動作文本的執(zhí)行方屬性。表2例示了一個責任列表的局部,責任列表的第2列是關(guān)鍵詞或短語,第3列是責任方。在輸入文本串中提取責任列表第2列的關(guān)鍵詞或短語。例如,對輸入文本串“這款打印機實在是太貴了”,提取出關(guān)鍵詞“貴”和“打印機”?!百F”在表2中對應(yīng)著第一結(jié)果“市場部門”?!按蛴C”在表2中對應(yīng)著第二結(jié)果“產(chǎn)品部門”或“市場部門”,對第一結(jié)果和第二結(jié)果取交集,得到“市場部門”。一種生成動作文本的產(chǎn)品或服務(wù)屬性的方法是,從所述輸入文本串中提取產(chǎn)品或服務(wù)的信息,作為動作文本的產(chǎn)品或服務(wù)屬性。一般地,產(chǎn)品或服務(wù)會有相應(yīng)的物料清單,即BillofMaterial(BOM)。請注意,物料清單中的內(nèi)容可以是有形的產(chǎn)品、零件、材料等,也可以是無形的服務(wù)、過程等。物料清單包含了構(gòu)成產(chǎn)品或服務(wù)的各種要素,及要素的組織結(jié)構(gòu)。例如,對于輸入文本“墨盒太貴了”,本方法將根據(jù)物料清單對輸入文本中的詞或短語進行識別,其中,“墨盒”作為物料清單中的一個要素被識別出來,并被作為動作文本的產(chǎn)品屬性。第一實施例提供了一種從輸入文本中自動挖掘信息,生成響應(yīng)動作文本的方法。該方法對輸入文本進行結(jié)構(gòu)化的、語義級別的分析。該方法從非結(jié)構(gòu)化的輸入文本中,提取出結(jié)構(gòu)化的信息,即狀態(tài)對。該方法還體現(xiàn)了響應(yīng)動作的本質(zhì),即能把狀態(tài)對中的不滿意狀態(tài)轉(zhuǎn)換為滿意狀態(tài),用這種方法得到的動作文本準確、完整地描述了顧客或企業(yè)需要的響應(yīng)動作。(第二實施例)本發(fā)明的第二實施例提供了一種對輸入文本的分類方法。該方法能基于所生成的動作文本,自動地、批量地對輸入文本分類。這種分類的機制是,顧客反饋的信息的價值在于所采取的響應(yīng)動作。如果兩段輸入文本對應(yīng)的動作文本相同,那么即便輸入文本的表述方式可能是千差萬別的,但輸入文本還是應(yīng)被分成一類。反之亦然。這種基于響應(yīng)的動作對輸入文本分類的方法,能排除輸入文本表面的差異,達成企業(yè)對輸入文本進行分析或處理的目的,分類機制更有意義。圖8示出了根據(jù)第二實施例的對文本串分類的一般流程圖。其中,步驟100、200和300的實現(xiàn)如第一實施例所述,這里不再重復(fù)。與圖3相比,圖8增加了步驟400,即文本串分類步驟,該步驟比較動作文本生成步驟所生成的當前動作文本與動作集合中的多個歷史動作文本,并基于比較結(jié)果對當前輸入文本串分類。圖9示出了文本串分類步驟400的一個示例性流程圖。步驟410,獲取動作集合中的T個歷史動作文本,其中,T是正整數(shù)。步驟420,給計數(shù)器t賦予初值1。步驟430,判斷步驟300所生成的當前動作文本與第t個歷史動作文本是否相同或相似。如果是,則執(zhí)行步驟440,將當前輸入文本串分類到目標類,目標類是第t個歷史動作文本所對應(yīng)的歷史輸入文本串所在的類。如果否,則執(zhí)行步驟450,使t自增 1。步驟460,判斷t是否已超過了歷史動作文本的總數(shù)。如果是,則執(zhí)行步驟470,為當前的輸入文本串建立新的類別。如果否,則返回步驟430進行判斷。步驟430中,判斷當前動作文本與第t個歷史動作文本是否相同或相似的一種方法是,判斷表示當前動作的文本與表示第t個歷史動作的文本是否相同或相似。一種判斷方法是,基于現(xiàn)有技術(shù)的文本比較技術(shù),判斷當前動作文本與所述多個歷史動作文本中的一個的相似度是否大于一個預(yù)定閾值,大于預(yù)定閾值表示相同或相似。另一種判斷方法是,判斷當前動作文本的4個屬性與所述多個歷史動作文本中的一個的相應(yīng)的4個屬性是否分別是同義詞或近義詞。例如,當動作的結(jié)構(gòu)是包含如圖5例示的4個屬性時,步驟430判斷當前動作文本的4個屬性與第t個歷史動作文本的相應(yīng)的4個屬性是否分別是同義詞或近義詞。在本發(fā)明中,兩個完全相同的詞屬于同義詞。舉例來說,當前動作的執(zhí)行方屬性、產(chǎn)品或服務(wù)屬性、操作屬性和對象屬性分別是“市場部門”、“計算機”、“降低”、“價格”,而第t個歷史動作文本的這4個屬性分別是“市場部”、“電腦”、“降低”、“售價”,這四組屬性分別是同義詞或近義詞,步驟430的判斷結(jié)果為“是”,下一步進入440。需要注意的是,分類的結(jié)果可以是只有一級結(jié)構(gòu),也可以具有多個級別的結(jié)構(gòu)。圖12例示了一個對輸入文本分類的結(jié)構(gòu)化表。該表包含4個級別,每個級別的內(nèi)容和具體劃分如圖12所示,簡潔起見不再重復(fù)??梢岳斫獾氖?,分類的結(jié)構(gòu)化表具有多少個級別,以及每個級別包含多少項,是不受限制的。第二實施例提供了一種對輸入文本進行分類的方法,省去了人工分類的麻煩,并且該分類方法基于所生成的動作,能把海量的輸入文本的數(shù)據(jù),進行有意義的分類,也便于企業(yè)對這些海量輸入文本的管理,以及進一步的信息挖掘。(第三實施例)本發(fā)明的第三實施例提供了一種對輸入文本串進行分類的方法。該方法包含一個文本串預(yù)分類步驟。圖10示出了根據(jù)第三實施例的包含文本串預(yù)分類步驟的對文本串分類的一般流程圖。與圖8相比,在步驟100之后增加了文本串預(yù)分類步驟500。更具體地,圖11示出了根據(jù)第三實施例的包含文本串預(yù)分類步驟的對文本串分類的一個示例性流程圖。與圖10相比,圖11對步驟500給出了示例性實現(xiàn),即步驟510到550。步驟510,檢索相似的歷史文本串。步驟520,判斷當前文本串與歷史文本串中的一個的相似度是否大于閾值T2。換句話說,在所有的歷史文本串中,是否存在與當前文本串的相似度大于閾值T2的歷史文本串。如果是,則執(zhí)行步驟530,將當前文本串分類到相似度大于T2的歷史文本串所在的類別。例如,當前文本串是“打印機太貴了”,而一個歷史文本串是“打印機真貴!”這兩個文本串非常相似,相似度大于T2,則把當前文本串與該歷史文本串分成同一類。這樣做的原因是,如果當前文本串與某個歷史文本串非常相似,那么二者屬于同一類別是一個大概率事件。這時不執(zhí)行步驟200至400,直接將二者分為同一類會提高計算速度。如果否,則執(zhí)行步驟540,即判斷是否當前文本串與所有歷史文本串的相似度都小于閾值T1,其中,T1<T2。如果是,則執(zhí)行步驟550,為當前輸入文本串建立一個新的類別。這樣做的原因是,如果當前文本串與所有歷史文本串都非常不相似,那么當前文本串與所有歷史文本串都不屬于同一類別是一個大概率事件。這時不執(zhí)行步驟200至400,直接為當前輸入文本串建立一個新的類別會提高計算速度。如果否,則依次執(zhí)行步驟200,300,400,即先提取狀態(tài)對,再生成動作,然后根據(jù)生成的動作文本對輸入文本串分類。下面,圖13例示了應(yīng)用本發(fā)明的方法對顧客意見分類的一個應(yīng)用的用戶界面。需要注意的是,在不超出本發(fā)明的發(fā)明原理和保護范圍的前提下,可以有多種用戶界面。圖13僅是多種用戶界面之中的一個示例。該界面的頂部“顧客之聲識別工具”,顯示了該應(yīng)用的名稱??梢岳斫獾氖牵瑢υ搼?yīng)用可以進行各種命名,且命名結(jié)果不影響該應(yīng)用的功能和本發(fā)明的保護范圍。界面上方是對當前顧客意見進行操作的幾個按鈕,按“下一條”可以查看下一條顧客意見,按“取消”可以取消當前用戶意見,按“保存”可以保存當前的動作生成結(jié)果和分類結(jié)果。界面的左側(cè)顯示了當前一條顧客意見的相關(guān)信息,包括信息來源、所涉及的產(chǎn)品或服務(wù)信息,以及顧客意見的內(nèi)容。界面的右側(cè)是顧客之聲識別工具的識別結(jié)果。該工具對顧客意見“打印機AB123的墨盒太貴了”進行識別,生成了動作,該動作的四個屬性顯示在界面右下方,即執(zhí)行方為“市場部”,操作為“降低”,產(chǎn)品或服務(wù)為“墨盒”,以及對象為“價格”。另一個識別結(jié)果是對當前的顧客意見的分類結(jié)果。該分類體系具有四個級別的結(jié)構(gòu),如界面右上方所示,分類結(jié)果是產(chǎn)品->打印機-> 墨盒->降低價格。圖13例示的用戶界面可以方便清晰地顯示顧客意見的內(nèi)容、針對顧客意見所生成的動作、以及分類結(jié)果。需要注意的是,雖然以上實施例中的輸入文本是關(guān)于產(chǎn)品的信息,但本發(fā)明也可以用于輸入文本是關(guān)于服務(wù)的信息。對于很多各種提供者,例如旅行社,在顧客和旅行社之間有大量對話。自動識別用戶的期望或建議對旅行社和顧客來說都是很有幫助的。例如,對于來自顧客的輸入文本“哦,你們提供的行程里不包括雪景”,利用本發(fā)明的方法提取得到第一狀態(tài)的滿意度值“不滿意”,第一狀態(tài)的態(tài)度詞“不包括雪景”,以及第二狀態(tài)的滿意度值“滿意”,第二狀態(tài)的態(tài)度詞“包括雪景”?;谳斎胛谋荆跉v史數(shù)據(jù)庫中找到相關(guān)的歷史動作文本有3條,如表3所示。經(jīng)過驗證,只有第一條歷史動作文本對應(yīng)第一狀態(tài)到第二狀態(tài)的轉(zhuǎn)移,因此,將第一條歷史動作文本作為當前生成的動作。并將第一條歷史動作文本所對應(yīng)的輸入文本所在的類別,作為當前輸入文本的類別。表3(技術(shù)效果)從顧客意見數(shù)據(jù)庫中,任意選擇4000條意見,作為4000條歷史輸入文本串,或稱為訓(xùn)練數(shù)據(jù),這些文本串的正確分類結(jié)果是已知的。選擇另外的1000條意見,即1000條當前輸入文本串,作為測試數(shù)據(jù)。分別采用兩種方法對測試數(shù)據(jù)分類。第一種方法屬于現(xiàn)有技術(shù)。其中,文本串之間的相似度是基于文本串所包含的詞語的相似度得來的。就是說,在兩個文本串之間有越多的相似的詞語對兒、以及每對兒相似的詞語的相似度越高,則文本串之間的相似度也越高。比較當前文本串與所有歷史文本串的相似度,選擇與當前文本串的相似度最高的3條歷史文本串所在的類別,作為當前文本串的候選類別。因此,候選類別的個數(shù)是1,2或3。第二種方法是屬于本發(fā)明的方法,即上文所述的從當前文本串提取狀態(tài)對,基于狀態(tài)轉(zhuǎn)移生成動作文本,以及根據(jù)所生成的動作文本是否相同或相似來判斷文本串之間的相似度。比較當前文本串與所有歷史文本串的相似度,選擇與當前文本串的相似度最高的3條歷史文本串所在的類別,作為當前文本串的候選類別。因此,候選類別的個數(shù)是1,2或3。無論采用以上兩種方法中的哪一種,對技術(shù)效果的評估標準是相同的。如果當前文本串的分類結(jié)果的真值與候選類別中的任何一個相同,則判斷當前文本串的分類結(jié)果是正確的;否則,分類結(jié)果是錯誤的。在這1000條測試數(shù)據(jù)的分類任務(wù)中,基于第一種方法的分類的正確率為84%,而基于第二種方法的分類的正確率為95%,高出了十余個百分點。實驗表明,與現(xiàn)有技術(shù)相比,本發(fā)明的分類方法能達到更好的分類正確率。現(xiàn)有技術(shù)的方法對文本中的所有的詞同等地對待,對哪些詞與用戶態(tài)度相關(guān),哪些詞是冗余的表述不進行區(qū)分。而且,現(xiàn)有技術(shù)的 方法沒有對文本進行語義分析,對輸入文本所表達的含義無法充分挖掘。本發(fā)明的方法去除與用戶態(tài)度或應(yīng)采取的動作無關(guān)的信息,提取出表示用戶態(tài)度的狀態(tài)對,狀態(tài)對中的滿意度值和態(tài)度詞能準確、簡潔地表征用戶態(tài)度。本發(fā)明的方法對輸入文本進行結(jié)構(gòu)化的分析和語義分析,并根據(jù)狀態(tài)轉(zhuǎn)移得到所生成的動作文本,保證了動作能有效地將用戶態(tài)度從不滿意變?yōu)闈M意。因為生成的動作文本的準確,因此基于動作文本的分類也更準確。本發(fā)明還提供了一種文本挖掘的裝置。圖14是根據(jù)本發(fā)明的一個實施例的文本挖掘裝置的框圖。可以由硬件、固件、軟件中的任何設(shè)備或其任意組合,來構(gòu)成文本挖掘裝置1000及其所包括的單元,只要裝置1000中的單元能夠?qū)嵤┥鲜龅奈谋就诰蚍椒ǖ南鄳?yīng)步驟的功能即可。如果裝置1000是部分地或全部地由軟件構(gòu)成,則該軟件被存儲在計算機的存儲器中,并且當該計算機的處理器通過執(zhí)行存儲的軟件來進行處理時,該計算機能夠?qū)崿F(xiàn)本發(fā)明的手寫登記方法的功能。另一方面,裝置1000可以部分地或全部地由硬件或固件構(gòu)成。裝置1000可以作為功能模塊被并入到其他計算設(shè)備中。文本挖掘裝置1000包括:文本串接收單元,其被配置為接收輸入文本串;狀態(tài)對提取單元,其被配置為根據(jù)輸入文本串提取狀態(tài)對,該狀態(tài)對包括第一狀態(tài)和第二狀態(tài),第一狀態(tài)包含第一滿意度值和第一描述單元,第一滿意度值為滿意或不滿意,第一描述單元包含第一名詞和第一描述短語,其中,第一描述短語所描述的對象是第一名詞,第一描述短語包含第一形容詞或第一動詞,第二狀態(tài)包含第二滿意度值和第二描述單元,第二滿意度值為滿意或不滿意,且第二滿意度值與第一滿意度值相反,第二描述單元包含第一名詞和第二描述短語,其中,第二描述短語所描述的對象是第 一名詞,第二描述短語包含第二形容詞或第二動詞,且第二描述短語的含義與第一描述短語的含義相反;動作文本生成單元,其被配置為生成動作文本,動作文本描述了一個動作,該動作對應(yīng)第一狀態(tài)到第二狀態(tài)的狀態(tài)轉(zhuǎn)移,動作文本包含第三動詞和第三動詞的賓語。優(yōu)選地,文本挖掘裝置1000還可以包括文本串分類單元1400,其被配置為比較動作文本生成單元1300所生成的當前動作文本與動作集合中的多個歷史動作文本,并基于比較結(jié)果對當前輸入文本串分類。優(yōu)選地,文本挖掘裝置1000還可以包括文本串預(yù)分類單元1500,其被配置為按照圖11的步驟510到步驟550執(zhí)行對輸入文本串的預(yù)分類。在一些實施例中,本發(fā)明還可以體現(xiàn)為記錄在記錄介質(zhì)中的程序,包括用于實現(xiàn)根據(jù)本發(fā)明的方法的機器可讀指令。因此,本發(fā)明還涵蓋存儲有用于實現(xiàn)根據(jù)本發(fā)明的方法的程序的記錄介質(zhì)。此外,對本領(lǐng)域技術(shù)人員公知的技術(shù)、方法及設(shè)備可能不進行詳細討論,但在適當?shù)那闆r下旨在作為本說明書的一部分。雖然通過示例詳細描述了本發(fā)明的一些具體實施例,但是本領(lǐng)域技術(shù)人員應(yīng)當理解,上述的示例僅是例示性的,而不限定本發(fā)明的范圍。本領(lǐng)域技術(shù)人員應(yīng)當理解,可以在不偏離本發(fā)明的范圍和精神的情況下對上述實施例修改。本發(fā)明的范圍是由所附的權(quán)利要求限定。當前第1頁1 2 3